学位论文 > 优秀研究生学位论文题录展示

基于主题划分的中文单文档自动文摘系统的研究

作　者: 张元虹
导　师: 郭剑毅
学　校: 昆明理工大学
专　业: 计算机应用技术
关键词: 自动文摘主题划分摘要生成摘要优化
分类号: TP391.1
类　型: 硕士论文
年　份: 2009年
下　载: 47次
引　用: 0次
阅　读: 论文下载

内容摘要

自动文摘作为自然语言处理领域的一个重要应用,也是一项极具难度和挑战性的工作,在信息检索、信息管理、数字图书馆等领域有着广泛的应用。因此,对自动文摘的研究具有很大的理论意义和实际意义。基于统计的自动文摘是一种研究较早、并被广泛使用的文摘方法。这种方法的一大优点就是领域不受限制,不同领域的文章都可以使用此种方法进行文摘。但是这种方法的文摘又存在着不全面、不简洁和不连贯三个方面的缺点,使得摘要的结果不太尽人意。本文以统计的自动文摘方法为基础,将主题划分和摘要句优化两部分技术溶入基于统计的自动文摘方法中,使生成的摘要更全面、简洁、连贯。本文的研究内容主要包括以下几个方面：1.提出了使用改进的K-means算法来划分文本的主题,使抽取出的摘要句更加全面。2.在生成粗摘要句的基础上对粗摘要句进行优化处理,使输出的摘要句更简洁、连贯。3.在以上两步的基础上,开发一个中文单文档自动文摘原型系统。对该系统,运用内部评测手段评估系统的性能,包括与“理想”摘要对比和与机械式自动文摘以及Word2003自动摘要系统进行了比较,试验结果证明,本系统性能指标优于机械式自动文摘和Word2003自动文摘系统。

全文目录

摘要  3-4
Abstract  4-8
第一章绪论  8-16
  1.1 研究背景及意义  8
  1.2 国内外研究现状  8-11
    1.2.1 国外研究现状  8-9
    1.2.2 国内研究现状  9-11
  1.3 自动文摘的研究方法  11-13
    1.3.1 基于统计的方法  11
    1.3.2 基于理解的方法  11-12
    1.3.3 基于信息抽取的方法  12
    1.3.4 基于结构的方法  12-13
  1.4 单文档自动文摘研究存在的问题  13
  1.5 本文的主要工作及内容组织  13-16
    1.5.1 本文的主要工作  13-14
    1.5.2 本文的内容组织  14-16
第二章文本的表示  16-22
  2.1 段落表示  16
  2.2 句子表示  16-19
    2.2.1 分句  16-18
    2.2.2 句子权值的计算  18-19
  2.3 词语表示  19-22
    2.3.1 分词  19-20
    2.3.2 去停用词(stop words)  20
    2.3.3 词语权值的计算  20-22
第三章文本主题的划分  22-34
  3.1 主题划分的必要性  22
  3.2 主题划分的相关研究  22-24
    3.2.1 基于相邻段落相似度的方法  22-23
    3.2.2 基于TextTiling算法的主题划分  23-24
  3.3 聚类算法简介  24-26
    3.3.1 层次聚类方法  24
    3.3.2 划分聚类方法  24-26
  3.4 改进K-means算法  26-29
    3.4.1 K值的确定  26-28
    3.4.2 初始聚类中心的选择  28-29
  3.5 基于改进K-means算法的文本主题划分  29-34
    3.5.1 段落向量空间模型的建立  29-31
    3.5.2 文本主题的划分  31-34
第四章摘要的生成  34-42
  4.1 粗摘要句的抽取  34-35
  4.2 粗摘要句的优化  35-38
    4.2.1 使用规则对文本进行连贯性加工  36-37
    4.2.2 去除冗余句  37
    4.2.3 去除非陈述性句子  37-38
    4.2.4 去除特殊词语  38
    4.2.5 对句子进行排序  38
  4.3 摘要生成算法  38-42
第五章系统的实现及实验分析  42-54
  5.1 系统总体结构  42-43
  5.2 部分代码实现  43-45
  5.3 实例  45-49
  5.4 实验结果及分析  49-54
    5.4.1 主题划分的结果及分析  49-50
    5.4.2 摘要生成的结果及分析  50-54
第六章结束语  54-56
  6.1 结论  54
  6.2 下一步工作  54-56
致谢  56-57
参考文献  57-60
附录1 攻读学位期间发表论文及参与项目  60-61
附录2 摘要文本正文  61

基于主题划分的中文单文档自动文摘系统的研究

内容摘要

全文目录

相似论文