学位论文 > 优秀研究生学位论文题录展示

基于主题划分的中文单文档自动文摘系统的研究

作 者: 张元虹
导 师: 郭剑毅
学 校: 昆明理工大学
专 业: 计算机应用技术
关键词: 自动文摘 主题划分 摘要生成 摘要优化
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 47次
引 用: 0次
阅 读: 论文下载
 

内容摘要


自动文摘作为自然语言处理领域的一个重要应用,也是一项极具难度和挑战性的工作,在信息检索、信息管理、数字图书馆等领域有着广泛的应用。因此,对自动文摘的研究具有很大的理论意义和实际意义。基于统计的自动文摘是一种研究较早、并被广泛使用的文摘方法。这种方法的一大优点就是领域不受限制,不同领域的文章都可以使用此种方法进行文摘。但是这种方法的文摘又存在着不全面、不简洁和不连贯三个方面的缺点,使得摘要的结果不太尽人意。本文以统计的自动文摘方法为基础,将主题划分和摘要句优化两部分技术溶入基于统计的自动文摘方法中,使生成的摘要更全面、简洁、连贯。本文的研究内容主要包括以下几个方面:1.提出了使用改进的K-means算法来划分文本的主题,使抽取出的摘要句更加全面。2.在生成粗摘要句的基础上对粗摘要句进行优化处理,使输出的摘要句更简洁、连贯。3.在以上两步的基础上,开发一个中文单文档自动文摘原型系统。对该系统,运用内部评测手段评估系统的性能,包括与“理想”摘要对比和与机械式自动文摘以及Word2003自动摘要系统进行了比较,试验结果证明,本系统性能指标优于机械式自动文摘和Word2003自动文摘系统。

全文目录


摘要  3-4
Abstract  4-8
第一章 绪论  8-16
  1.1 研究背景及意义  8
  1.2 国内外研究现状  8-11
    1.2.1 国外研究现状  8-9
    1.2.2 国内研究现状  9-11
  1.3 自动文摘的研究方法  11-13
    1.3.1 基于统计的方法  11
    1.3.2 基于理解的方法  11-12
    1.3.3 基于信息抽取的方法  12
    1.3.4 基于结构的方法  12-13
  1.4 单文档自动文摘研究存在的问题  13
  1.5 本文的主要工作及内容组织  13-16
    1.5.1 本文的主要工作  13-14
    1.5.2 本文的内容组织  14-16
第二章 文本的表示  16-22
  2.1 段落表示  16
  2.2 句子表示  16-19
    2.2.1 分句  16-18
    2.2.2 句子权值的计算  18-19
  2.3 词语表示  19-22
    2.3.1 分词  19-20
    2.3.2 去停用词(stop words)  20
    2.3.3 词语权值的计算  20-22
第三章 文本主题的划分  22-34
  3.1 主题划分的必要性  22
  3.2 主题划分的相关研究  22-24
    3.2.1 基于相邻段落相似度的方法  22-23
    3.2.2 基于TextTiling算法的主题划分  23-24
  3.3 聚类算法简介  24-26
    3.3.1 层次聚类方法  24
    3.3.2 划分聚类方法  24-26
  3.4 改进K-means算法  26-29
    3.4.1 K值的确定  26-28
    3.4.2 初始聚类中心的选择  28-29
  3.5 基于改进K-means算法的文本主题划分  29-34
    3.5.1 段落向量空间模型的建立  29-31
    3.5.2 文本主题的划分  31-34
第四章 摘要的生成  34-42
  4.1 粗摘要句的抽取  34-35
  4.2 粗摘要句的优化  35-38
    4.2.1 使用规则对文本进行连贯性加工  36-37
    4.2.2 去除冗余句  37
    4.2.3 去除非陈述性句子  37-38
    4.2.4 去除特殊词语  38
    4.2.5 对句子进行排序  38
  4.3 摘要生成算法  38-42
第五章 系统的实现及实验分析  42-54
  5.1 系统总体结构  42-43
  5.2 部分代码实现  43-45
  5.3 实例  45-49
  5.4 实验结果及分析  49-54
    5.4.1 主题划分的结果及分析  49-50
    5.4.2 摘要生成的结果及分析  50-54
第六章 结束语  54-56
  6.1 结论  54
  6.2 下一步工作  54-56
致谢  56-57
参考文献  57-60
附录1 攻读学位期间发表论文及参与项目  60-61
附录2 摘要文本正文  61

相似论文

  1. 多邮件自动文摘的关键技术研究,TP391.1
  2. 针对微博数据的事件检测、跟踪及摘要生成,TP393.092
  3. Web多文档自动文摘研究,TP391.1
  4. 面向web文本挖掘的中文文本自动摘要关键技术研究,TP391.1
  5. 面向事件的多文档自动文摘研究,TP391.1
  6. 中文自动文摘关键技术的研究与实现,TP391.1
  7. 基于S2AFCM与篇章内容结构分析的自动文摘系统研究,TP311.52
  8. 基于主题模型的中英文多文档自动文摘,TP391.1
  9. 武警部队舆情监测系统设计和实现,TP393.09
  10. 基于向量空间模型的web文本自动摘要系统的研究,TP391.1
  11. 互联网文本自动文摘技术的研究,TP391.1
  12. 生物医学多文档自动文摘系统设计与实现,TP391.1
  13. 网络舆情热点发现相关技术研究,TP393.09
  14. 面向盲人的图片自动描述系统的研究与实现,TP393.092
  15. 基于语义的自动文摘系统,TP391.1
  16. 基于知网文本相似度的文摘自动评测方法研究,TP391.1
  17. 基于词汇链和PageRank的多文档自动文摘研究,TP391.1
  18. 摘录式单文档中文自动文摘系统的研究与实现,TP391.1
  19. 面向查询的多模式自动摘要研究,TP391.1
  20. 用户驱动的特定领域自动文摘系统设计与实现,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com