学位论文 > 优秀研究生学位论文题录展示
木棉教育新闻平台关键技术的研究与实现
作 者: 张鹏
导 师: 董守斌
学 校: 华南理工大学
专 业: 计算机系统结构
关键词: 新闻聚合 个性化文本分类 未登录词识别 自动标注训练集
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 19次
引 用: 0次
阅 读: 论文下载
内容摘要
信息是人类文明赖以存在的基石,互联网信息的复杂性对传统文本挖掘技术提出了更高的要求,如何利用海量文本自身蕴含的巨大能量提升互联网信息的价值,成为日益重要的问题。本文着眼于将互联网海量庞杂的教育类信息进行收集、提炼和组织,借助互联网信息规模巨大和形态多样的特点,提升传统文本分类聚类技术的实用性,通过设计教育新闻平台为用户提供教育相关的资讯服务,并针对该平台的需求在特征提取和标注训练数据两个关键技术进行重点研究。未登录词识别对于文本分类和聚类技术非常重要,未登录词本身也是数据所蕴含的知识。本文借助字标注和CRFs分词模型强大的未登录词识别能力,提出了一个生成未登录词词典的算法,具体过程为:1)从海量数据中锁定存在未登录词的文本;2)从该类文本中抽取存在未登录词的不稳定区域;3)从不稳定区域中获取未登录词并建立词典。该算法的特色在于缩小了计算数据的规模,使得海量文本的挖掘变得可行,同时利用迭代算法抽取词语,避免了后缀树算法带来的过多噪声信息。训练集自动标注算法是从两个基本假设出发所构建的一个迭代反馈的框架。主要过程从初始查询开始,从检索文档中获取类别相关词,利用相关词组合查询再进行搜索,重复此过程,直到满足某个终止条件。基于该框架设计了LA-1和LA-2两个算法,LA-1利用类名称进行主题限制,而LA-2算法利用查询扩展技术来组合生成二元查询,在准确率和泛化能力上取得了平衡。本文用实验验证了未登录词识别的效果以及两种技术对于文本分类效果的改进。未登录词认同率较高,达到了实用的标准。加入未登录词词典后,长文本分类准确率有小幅稳定提升,而短文本分类准确率有大幅明显提高,同时聚类效果变得更好。训练集自动标注算法生成的训练文本基本达到了同人工标注同等的训练效果,它的灵活性使得个性化分类服务变为可能,也能为主流的半监督学习算法提供初始数据。在此基础上,本文实现了木棉新闻聚合平台,未登录词词典用于改进分类聚类效果和识别文本关键词,自动标注的训练文本用于提供教育领域个性化的分类系统。两种算法均取得了良好的效果,证明了其在真实环境下的实用性和有效性。
|
全文目录
摘要 5-6 Abstract 6-7 目录 7-10 第一章 绪论 10-16 1.1 互联网海量数据的挑战和机遇 10-11 1.2 国内外研究现状 11-13 1.2.1 从信息中获取知识 11 1.2.2 海量文本挖掘案例 11-13 1.3 论文的主要内容 13-14 1.3.1 论文主要工作 13-14 1.3.2 论文的术语定义 14 1.4 论文的组织结构 14-16 第二章 相关理论和技术 16-34 2.1 信息的采集与提炼 16-18 2.1.1 网页的采集和更新策略 16-17 2.1.2 网页正文信息抽取技术 17-18 2.2 文本特征的提取和选择 18-27 2.2.1 中文分词概述 19 2.2.2 中文分词的几种模型 19-25 2.2.2.1 基于词典和规则的分词模型 19-21 2.2.2.2 基于词典和 HMM 的分词模型 21-23 2.2.2.3 基于字标注的分词模型 23-25 2.2.3 中文分词的未登录词问题 25-26 2.2.4 文本特征选择 26-27 2.3 文本分类和聚类 27-32 2.3.1 有监督学习、无监督学习、半监督学习 27-28 2.3.2 产生式模型,判别式模型,非参数模型 28-29 2.3.3 NB、KNN 和 SVM 的比较 29-32 2.3.4 文本聚类技术介绍 32 2.4 查询扩展技术 32-33 2.5 本章小结 33-34 第三章 系统总体设计 34-39 3.1 设计目标 34 3.2 新闻聚合平台的框架设计 34-35 3.3 新闻聚合平台模块详细设计 35-38 3.3.1 信息采集模块 35-36 3.3.2 文本分类模块 36-37 3.3.3 话题聚类模块 37-38 3.3.4 展现和排序模块 38 3.4 本章小结 38-39 第四章 未登录词典生成算法 39-55 4.1 研究目标 39 4.2 识别未登录词的可行性 39-40 4.3 大规模语料的选择和分析 40-44 4.3.1 语料的选择 40-41 4.3.2 大规模语料的观察结果 41-44 4.4 生成未登录词典算法 44-49 4.4.1 获取切分不稳定文本 44-45 4.4.2 从不稳定区域中获取候选词 45-47 4.4.3 未登录词的最终确认 47-48 4.4.4 改进的 Stanford 分词器 48-49 4.5 实验设计与分析 49-53 4.5.1 实验目标与环境 49 4.5.2 实验数据 49-50 4.5.3 实验设计与结果分析 50-53 4.5.3.1 未登录词识别效果 50-51 4.5.3.2 未登录词词典对于分类效果的影响 51-53 4.6 算法分析和比较 53-54 4.7 本章小结 54-55 第五章 训练集自动标注算法 55-68 5.1 设计目标 55 5.2 自动标注方法的可行性分析 55-57 5.2.1 标注数据的质量指标 55 5.2.2 搜索方法的优点 55-56 5.2.3 适用性与局限性 56-57 5.3 自动标注算法的设计 57-58 5.3.1 算法基本假设 57 5.3.2 算法总体框架 57-58 5.4 自动标注算法的实现 58-64 5.4.1 基于类名限制的第一算法 LA-1 58-59 5.4.2 基于查询扩展的第二算法 LA-2 59-64 5.4.2.1 衡量查询和词语的相关度 60 5.4.2.2 概念的泛指和特指 60-62 5.4.2.3 构造查询 62 5.4.2.4 算法的具体描述 62-64 5.5 实验设计与分析 64-66 5.5.1 实验目标与环境 64 5.5.2 实验数据 64 5.5.3 实验设计与结果分析 64-66 5.6 算法分析 66-67 5.7 本章小结 67-68 第六章 新闻平台系统实现 68-75 6.1 总体架构实现 68 6.2 模块详细设计与实现 68-73 6.3 展示效果 73-74 6.4 本章总结 74-75 结论 75-77 参考文献 77-81 攻读硕士学位期间取得的研究成果 81-82 致谢 82
|
相似论文
- 面向企业信息检索的中文分词系统的研究与实现,TP391.1
- 中文分词算法的研究与实现,TP391.1
- 成都大学新闻管理系统的设计与实现,TP311.52
- 基于Ajax的RSS阅读系统的研究与实现,TP311.52
- 论网络新闻传播的长尾市场与微内容开发,G210
- 基于元数据的招生网新闻发布系统的设计与实现,TP311.52
- 基于文本相似度的中文文本聚类的研究,TP391.1
- 基于机器学习的中文分词的研究与实现,TP391.1
- 搜索引擎中文分词技术研究,TP391.1
- 基于网络资源的未登录词扩展研究,TP391.1
- 中文分词技术在公安信息系统中的应用研究,TP319
- 信息检索用汉语分词与未登录词识别技术研究,G354
- 中文自动分词法在全文检索中的研究及应用,TP391.3
- 汉语新词语辅助识别系统的研制,H085
- 中文词法分析技术的研究与实现,TP391.1
- 基于语境和停用词驱动的中文自动分词研究,TP391.1
- 现代汉语新词提取研究,H08
- 基于时效性的垂直搜索引擎的设计与实现,TP391.3
- 开源中文分词器的比较研究,TP391.1
- 统计与规则相结合的中文分词模型设计与实现,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|