学位论文 > 优秀研究生学位论文题录展示

基于S2AFCM与篇章内容结构分析的自动文摘系统研究

作 者: 王思翠
导 师: 王锋
学 校: 昆明理工大学
专 业: 计算机软件与理论
关键词: 自动文摘 S2AFCM聚类算法 隶属度矩阵 过渡段 篇章内容结构分析
分类号: TP311.52
类 型: 硕士论文
年 份: 2011年
下 载: 21次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机和互联网的普及,越来越多的信息被上传到网络上以供交流,信息量的急剧增长极大地促进了人们之间的交流和沟通,为人类文明和经济的发展做出了巨大的贡献。但是信息的产生和传播速度远远超过了人们的处理速度,在不断涌现的海量信息面前,人们即使不停地阅读,也难以覆盖全部信息,人们要找到自己所需要的信息变得非常困难。文摘是改善和解决这个问题的一个有效手段,但手工编织文摘速度慢且文摘内容不客观,自动文摘技术正是在这样的背景下诞生的。本文首先介绍了自动文摘的研究背景、意义,以及国内外研究概况。然后介绍了自动文摘的定义及分类,将现有的自动文摘方法分为五类:自动摘录、基于理解的自动文摘方法、信息抽取、基于篇章结构的自动文摘方法和基于用户查询的自动文摘方法,分析了它们的优缺点,并从七个方面对他们进行比较,指出基于篇章结构的自动文摘方法优于其它四种方法。在此基础上,本文设计并实现了一个基于篇章结构分析方法的自动文摘系统——基于S2AFCM与篇章内容结构的自动文摘系统。该系统的基本思想是:(1)采用S2AFCM聚类算法对文献进行段落自适应模糊聚类,依据所得到的隶属度矩阵求得文献的子主题划分和过渡段落。(2)采用复句研究理论、RST与汉语篇章结构特征相结合的方法对过渡段进行篇章内容结构分析,构建文献的篇章内容结构树。(3)以子主题为单位,先形成子主题文摘,再依据文献篇章内容结构树组合子主题文摘得到最终文摘。作者使用vs2008作为开发工具,Oracle作为后台数据库,完成了该系统的编码。使用TREC数据集作为测试数据,通过对比实验数据表明,本文系统较其它系统在召回率、准确率和F-measure值上都有所提高,生成的文摘有较高的质量。

全文目录


摘要  3-4
Abstract  4-6
目录  6-9
第一章 绪论  9-19
  1.1 课题研究背景  9-10
  1.2 课题研究意义  10-11
  1.3 课题研究概况  11-16
    1.3.1 国外自动文摘研究概况  11-14
    1.3.2 国内自动文摘研究概况  14-16
  1.4 论文主要研究工作  16
  1.5 论文组织结构  16-19
第二章 自动文摘概述  19-29
  2.1 自动文摘的定义和分类  19-21
    2.1.1 文摘的定义、特点及分类  19-20
    2.1.2 自动文摘的定义及分类  20-21
  2.2 自动文摘方法  21-28
    2.2.1 自动摘录  21-23
    2.2.2 基于理解的自动文摘方法  23
    2.2.3 信息抽取  23-24
    2.2.4 基于篇章结构的自动文摘方法  24-26
    2.2.5 基于用户查询的自动文摘方法  26
    2.2.6 五种自动文摘方法比较  26-28
  2.3 本章小结  28-29
第三章 基于S2AFCM的子主题划分  29-41
  3.1 子主题划分的必要性  29
  3.2 子主题划分方法  29-30
  3.3 文本聚类  30-33
    3.3.1 文本聚类概念  30-31
    3.3.2 文本聚类算法分类  31-33
  3.4 自适应截值C-均值模糊聚类算法  33-38
    3.4.1 模糊数学基础  33
    3.4.2 模糊聚类  33-35
    3.4.3 模糊C-均值聚类算法  35-36
    3.4.4 自适应截值模糊C-均值聚类算法  36-38
  3.5 基于S2AFCM的子主题划分  38-39
  3.6 本章小结  39-41
第四章 过渡段篇章内容结构分析  41-53
  4.1 分析过渡段的意义  41
    4.1.1 过渡段的定义  41
    4.1.2 分析过渡段的意义  41
  4.2 篇章内容结构分析  41-46
    4.2.1 复句研究理论  42-43
    4.2.2 RST  43-44
    4.2.3 汉语篇章结构特征  44-46
  4.3 过渡段篇章内容结构分析  46-50
    4.3.1 构建篇章层次结构树  46-47
    4.3.2 篇章内容结构分析方法  47-50
  4.4 确定子主题间逻辑关系  50-51
    4.4.1 子主题层篇章内容结构分析  50
    4.4.2 构建篇章内容结构树  50-51
  4.5 本章小结  51-53
第五章 基于S2AFCM与篇章内容结构分析的自动文摘系统  53-65
  5.1 系统设计思想  53
  5.2 数据库结构设计  53-55
  5.3 系统框架  55
  5.4 文本预处理  55-60
    5.4.1 段落标记  56
    5.4.2 中文分词  56-57
    5.4.3 过滤停用词  57-58
    5.4.4 词频统计  58-59
    5.4.5 特征项提取  59-60
  5.5 子主题划分  60-61
    5.5.1 段落的向量化表示  60-61
    5.5.2 S2AFCM段落聚类  61
  5.6 分析子主题间逻辑关系  61-62
    5.6.1 复句标记  61-62
    5.6.2 过渡段篇章内容结构分析  62
  5.7 文摘生成  62-64
    5.7.1 去除废弃句  62-63
    5.7.2 句子权值计算  63-64
    5.7.3 文摘生成  64
  5.8 本章小结  64-65
第六章 实验结果与分析  65-73
  6.1 测评数据  65-67
  6.3 实验结果及分析  67-71
  6.4 本章小结  71-73
第七章 总结与展望  73-75
  7.1 论文工作总结  73
  7.2 进一步研究与展望  73-75
致谢  75-77
参考文献  77-81
附录A 攻读硕士学位期间发表的论文以及软件著作权  81

相似论文

  1. 多邮件自动文摘的关键技术研究,TP391.1
  2. 山区道路路桥过渡段的病害分析和处治对策,U416.1
  3. Web多文档自动文摘研究,TP391.1
  4. 基于主题划分的中文单文档自动文摘系统的研究,TP391.1
  5. 面向web文本挖掘的中文文本自动摘要关键技术研究,TP391.1
  6. 模糊C-均值算法改进研究,TP311.13
  7. 萨北开发区油水过渡段开采界限研究,P618.13
  8. 面向事件的多文档自动文摘研究,TP391.1
  9. 中文自动文摘关键技术的研究与实现,TP391.1
  10. 顺直过渡段卵石浅滩航道整治方法及整治水位确定研究,U617
  11. 高速铁路无砟轨道路基及过渡段结构长期测试分析,U213.1
  12. 降雨对山区高速公路行车安全影响与保障技术研究,U492.8
  13. 彭湖高速路桥过渡段不均匀沉降分析,U416.1
  14. 连续弯道过渡段长度对通航影响的模拟实验研究,U697
  15. 基于主题模型的中英文多文档自动文摘,TP391.1
  16. 武警部队舆情监测系统设计和实现,TP393.09
  17. 基于向量空间模型的web文本自动摘要系统的研究,TP391.1
  18. 特殊岩土体路基填筑技术及在路桥过渡段沉降控制中的应用研究,U416.1
  19. 基于舒适性的路桥过渡段差异沉降控制标准研究,U445.71
  20. 混输泵半螺旋形吸入室的优化设计及其内部流场分析,TH311

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com