学位论文 > 优秀研究生学位论文题录展示
面向web文本挖掘的中文文本自动摘要关键技术研究
作 者: 徐绮楠
导 师: 刘志镜
学 校: 西安电子科技大学
专 业: 计算机应用技术
关键词: 自动文摘 Web文本挖掘 关键词提取 统计方法 向量空间 结构分析
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 86次
引 用: 0次
阅 读: 论文下载
内容摘要
随着因特网的快速发展,海量的Web数据资源已经成为人们获取知识与信息的重要来源。而随着Web信息的日益增长,人们不得不花费大量的时间去搜索浏览自己需要的信息。目前,在现有数据集合中文本和超文本的数据量远远超过了结构化数据,最近研究表明,一个组织的信息有80%是以文本的形式存放的。随着信息资源的不断增长,人们迫切需要从海量的文本信息中有效地收集和选择感兴趣和有用的信息。在这样的需求驱动下,文本数据挖掘成为数据挖掘领域中的一个热点及难点。本论文的研究内容是面向Web文本挖掘的中文文本自动摘要关键技术的研究与系统设计。通过自主开发的中文文本信息提取系统,重点讨论了当前流行的Web文本挖掘以及中文文本自动摘要的核心技术,简述如下。中文分词技术:考虑到中文数据的特点,采用了基于“词元”的分词算法实现文本分词。中文文本的关键词提取技术:利用分词的结果采用基于统计学的方法实现关键词的提取。中文文本自动文摘技术:本文针对中文文本信息,在实现自动文摘现有方法的基础上,提出了一种基于统计方法分析文本,通过结构分析分主题提取摘要,利用启发式规则对摘要进行可读性加工的自动文摘方法。本文的主要工作和主要创新点在于:①提出了一种切实可行的自动文摘方法;②提出了选取构建文本向量空间项的新方法,利用若干最高权重关键词而不是全部单词,解决了信息分散的问题;③设计了新的主题划分方法,主题数随文本结构的不同进行动态调整,较科学的进行了主题划分;④提出了关键词的全局权重、局部权重和主题权重的概念,针对各类权重提出了适合的权值计算方法,解决了依赖大语料库的困难。针对以上研究成果,本文描述了原型系统的设计实现细节。
|
全文目录
摘要 3-4 Abstract 4-8 第一章 绪论 8-14 1.1 课题背景 8-10 1.2 国内外研究现状 10-13 1.2.1 国外研究现状 10-11 1.2.2 国内研究现状 11-13 1.3 课题的研究内容与组织结构 13-14 第二章 基于Web的文本挖掘 14-34 2.1 数据挖掘 14-17 2.1.1 介绍 14 2.1.2 优点 14-15 2.1.3 类别 15-16 2.1.4 基本步骤 16-17 2.2 Web数据挖掘 17-23 2.2.1 介绍 17-18 2.2.2 优点 18-19 2.2.3 类别 19-21 2.2.4 基本步骤 21-22 2.2.5 几种Web数据挖掘方式的对比 22-23 2.3 Web文本挖掘 23-32 2.3.1 文本挖掘的一般过程及模型结构 24-26 2.3.2 文本表示 26-27 2.3.3 文本的特征子集的选取 27 2.3.4 文本分类 27-28 2.3.5 文本聚类 28-30 2.3.6 文本关联分析 30 2.3.7 文本信息抽取 30-32 2.4 小结 32-34 第三章 相关理论与关键技术研究 34-50 3.1 中文分词技术 34-37 3.1.1 汉语词切分规则 34 3.1.2 汉语词切分方法 34-36 3.1.3 意义词和非意义词 36-37 3.2 关键词提取方法(TFIDF) 37-38 3.3 文摘的定义和内容 38-40 3.3.1 文摘的定义 38-39 3.3.2 文摘的分类 39-40 3.3.3 文摘的选取 40 3.4 自动文摘方法 40-45 3.4.1 基于统计的自动文摘 41-42 3.4.2 基于理解的自动文摘 42-44 3.4.3 基于模板的自动文摘 44-45 3.4.4 基于结构的自动文摘 45 3.5 自动文摘系统的基本组成 45-47 3.5.1 自动文摘系统的功能组成 45-46 3.5.2 自动文摘系统的分析组成 46-47 3.6 小结 47-50 第四章 基于统计和结构分析的自动文摘方法 50-62 4.1 引言 50-51 4.2 基于结构的主题划分 51-53 4.2.1 主题划分的方法 51 4.2.2 文本向量空间模型的构建(VSM) 51-52 4.2.3 基于连续段落相似度的主题划分 52-53 4.3 关键词的提取 53-57 4.3.1 文本分词处理 53-54 4.3.2 关键词的全局权重 54-55 4.3.3 关键词的局部权重 55-56 4.3.4 关键词的主题权重 56-57 4.4 摘要句的提取 57-60 4.4.1 句子划分 57 4.4.2 句子权重计算 57-58 4.4.3 主题摘要数分配 58-60 4.4.4 主题摘要句提取 60 4.5 摘要生成 60-61 4.5.1 摘要初稿生成 60-61 4.5.2 摘要可读性加工 61 4.5.3 摘要输出 61 4.6 小结 61-62 第五章 系统的设计与实现 62-74 5.1 文本预处理子系统 63-65 5.1.1 自动分词模块 63 5.1.2 关键词提取模块 63-65 5.2 中文文本自动摘要子系统 65-69 5.2.1 自动摘要子系统的流程框架 65-66 5.2.2 自动摘要子系统的对象结构 66-69 5.3 系统的运行实现 69-72 5.4 系统评测及结果 72-73 5.4.1 评测语料及方法 72 5.4.2 评测结果及分析 72-73 5.5 小结 73-74 第六章 总结与展望 74-76 6.1 研究工作的总结 74 6.2 趋势与展望 74-76 致谢 76-78 参考文献 78-80 在读期间发表的学术论文 80
|
相似论文
- 音乐结构自动分析研究,TN912.3
- 多邮件自动文摘的关键技术研究,TP391.1
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- 基于停用词处理的汉语语音检索方法,TP391.1
- 柔性、刚性混配配合物的合成与性质表征,O621.1
- 海水珍珠染色机理及染色工艺优化研究,TS933.23
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 广义系统的结构分析及控制方法研究,N945.1
- 新型金华酥饼烤炉的研究,TS210.3
- 行星驱动式深松机的结构设计与仿真分析,S222
- 蚕蛹蛋白ACE抑制肽的制备及其理化性质研究,S886.9
- 统计方法在我国外语测试领域应用的调查研究,H319
- 乳酸菌胞外多糖化学组成的研究,TS201.3
- 150吨平头塔式起重机整机结构分析及优化设计,TH213.3
- DAST晶体的原料合成与晶体生长,O782.1
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 单层工业厂房可靠性评定管理研究,TU311.2
- 网络教育新闻文本分类系统的设计与实现,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|