学位论文 > 优秀研究生学位论文题录展示
中文自动文摘系统的研究与实现
作 者: 朱荷香
导 师: 曲维光
学 校: 南京师范大学
专 业: 计算机应用技术
关键词: 自动文摘 机械文摘 向量空间模型 词法分析 概念统计 文本结构划分 词义消歧 评测
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 227次
引 用: 5次
阅 读: 论文下载
内容摘要
自动文摘是自然语言处理领域里一项重要的研究课题。近年来,随着Intemet的蓬勃发展,信息量激增,文献数量呈指数级增长。作为解决信息过载问题的一种辅助手段,自动文摘的价值得到越来越充分的体现,它能够帮助用户提高信息检索的速度,节省重要信息的浏览时间。自动文摘和语义密切相关,而传统的机械文摘方法通过建立基于词频统计的向量空间模型进行文摘句的抽取。向量空间模型的最基本假设是向量各义项之间正交,而在真实文本中,由于语言表达形式的多样性,即使同一概念,往往有多种不同的表达方式,所以作为各义项的词语之间往往有很大的相关性,并不是完全独立的。另外,一篇文章一般包含一个总的主旨,而作者往往会从多个侧面来说明这一主旨。如果只根据句子在全文中的重要性从高到低抽取文摘,往往只能提取出文章中分布密度比较大的主题,而忽略了其它主题的存在,完整性不高。致力于上述问题的解决,本文采用统计信息和语义知识相结合的方法,提出了基于概念统计和文本结构划分相结合的自动文摘方法,并实现了原型系统。具体工作内容如下:首先,对国内外自动文摘研究的历史与现状进行了回顾和总结,介绍了向量空间模型、中文词法分析和自动文摘系统评测等相关理论。然后,基于哈工大信息检索研究室《同义词词林扩展版》将概念统计引入自动文摘的研究,利用最大匹配算法初步解决了概念获取过程中一词多义的问题。为使文摘能够更全面地覆盖原文的主要内容,提出了一种利用综合考察相邻段落相似度和连续段落平均相似度进行意义段划分的方法,对文本结构划分进行研究。最后,实现了基于概念统计和文本结构划分相结合的自动文摘系统。在对文摘系统进行评测时,为使评测方案更加客观公平合理,设计了针对评测语料特点的评测指标。为了验证基于概念统计和文本结构划分相结合的自动文摘方法的有效性和可行性,分别对传统的自动文摘方法、基于概念统计的自动文摘方法和本文方法进行了对比实验。实验结果显示,本文方法能有效地反映文章的内容结构,在所有文章上的效果均好于传统的文摘方法,特别是随着文摘长度的增加,本文方法的效果更加明显;对长文章和短文章均适用。另外,通过与现有的其他文摘工具进行对比,表明本文方法接近于哈工大信息检索研究室开发的IRLab-NLPML系统的自动文摘功能,且优于WORD中嵌入的自动编写摘要功能。
|
全文目录
目录 4-6 图表目录 6-7 摘要 7-8 ABSTRACT 8-9 第一章 绪论 9-16 1.1 自动文摘研究的意义 9 1.2 自动文摘的定义及分类 9-11 1.2.1 文摘的定义 9-10 1.2.2 自动文摘的定义 10 1.2.3 自动文摘的分类 10-11 1.3 自动文摘研究的历史与现状 11-14 1.3.1 国外自动文摘的研究 12-14 1.3.2 国内自动文摘的研究 14 1.4 本文的主要工作 14-15 1.5 本文的组织结构 15-16 第二章 自动文摘的相关理论基础 16-28 2.1 向量空间模型 16-18 2.1.1 义项的选取 17-18 2.1.2 义项的权重计算 18 2.2 中文词法分析 18-22 2.2.1 自动分词 19-20 2.2.2 汉语自动分词的难点 20-21 2.2.3 词性标注 21 2.2.4 词法分析器ICTCLAS 21-22 2.3 自动文摘系统的评测 22-27 2.3.1 评测方法 22-23 2.3.2 评测用语料的准备 23-24 2.3.3 自动文摘系统评测面临的问题 24-25 2.3.4 实验评测指标 25-27 2.4 本章小结 27-28 第三章 概念统计在自动文摘中的应用 28-40 3.1 语义资源介绍 28-31 3.1.1 《知网》 28-29 3.1.2 《同义词词林扩展版》 29-31 3.2 基于《同义词词林扩展版》的概念获取 31-36 3.2.1 预处理 31 3.2.2 词义消歧方法 31-32 3.2.3 概念获取算法 32-34 3.2.4 构造基于概念统计的向量空间模型 34 3.2.5 概念统计与词频统计VSM比较实验及结果分析 34-36 3.3 义项重要度计算 36-37 3.4 基于概念统计的自动文摘生成 37-38 3.4.1 句子重要度计算 37 3.4.2 文摘生成 37-38 3.5 实验结果 38-39 3.6 本章小结 39-40 第四章 文本篇章结构分析 40-47 4.1 相关工作 40-41 4.2 相邻段落相似度和连续段落平均相似度相结合的意义段划分 41-44 4.2.1 段落向量空间模型的建立 41 4.2.2 基本思想 41-42 4.2.3 文章预处理及实验示例 42-43 4.2.4 算法步骤 43-44 4.3 实验评测与结果分析 44-46 4.3.1 实验设计与结果 44-45 4.3.2 结果分析 45-46 4.4 本章小结 46-47 第五章 概念统计和文本结构划分相结合的自动文摘系统 47-54 5.1 体系框架 47-49 5.2 系统主要模块设计 49-51 5.2.1 文本预处理模块 49 5.2.2 文本结构划分模块 49-50 5.2.3 概念获取模块 50 5.2.4 重要度计算模块 50-51 5.2.5 文摘生成模块 51 5.3 实验结果 51-53 5.4 本章小结 53-54 第六章 自动文摘系统评测实验 54-61 6.1 实验一、三个系统性能的比较测试 54-55 6.2 实验二、宽泛指标下的有效性测试 55-56 6.3 实验三、文摘句共选一致性指标下的有效性测试 56-58 6.4 实验四、三个系统对长篇幅文章的有效性比较测试 58-59 6.5 实验五、本文摘系统与现有系统的比较测试 59-60 6.6 本章小结 60-61 第七章 结束语 61-62 参考文献 62-65 致谢 65-66 附录一 北京大学汉语文本词性标注集 66-67 附录二 示例文章文摘结果 67-71 附录三 读研期间参加的科研项目与公开发表的学术论文 71
|
相似论文
- 多邮件自动文摘的关键技术研究,TP391.1
- 词义消歧语料库自动获取方法研究,TP391.1
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于地理位置的WSNs路由算法研究与改进,TN929.5
- 基于SVM分类算法的主题爬虫研究,TP391.3
- CP软件评测中心绩效考核体系研究,F272.92
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 自动信任协商框架研究及其原型设计,TP393.08
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 基于硬件计数器虚拟化的多虚拟机性能评测研究,TP302
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 面向论坛信息文本的有效数据抽取研究,TP391.1
- SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
- 基于Web的社会网络搜索中人名同一性判断方法研究,TP393.09
- Web新闻热点发现系统的设计与实现,TP393.09
- 多角色社交网络研究,TP393.09
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- “工学交替”实践教学效果评测系统的设计与实现,TP311.52
- 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|