学位论文 > 优秀研究生学位论文题录展示
基于S2AFCM与篇章内容结构分析的自动文摘系统研究
作 者: 王思翠
导 师: 王锋
学 校: 昆明理工大学
专 业: 计算机软件与理论
关键词: 自动文摘 S2AFCM聚类算法 隶属度矩阵 过渡段 篇章内容结构分析
分类号: TP311.52
类 型: 硕士论文
年 份: 2011年
下 载: 21次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机和互联网的普及,越来越多的信息被上传到网络上以供交流,信息量的急剧增长极大地促进了人们之间的交流和沟通,为人类文明和经济的发展做出了巨大的贡献。但是信息的产生和传播速度远远超过了人们的处理速度,在不断涌现的海量信息面前,人们即使不停地阅读,也难以覆盖全部信息,人们要找到自己所需要的信息变得非常困难。文摘是改善和解决这个问题的一个有效手段,但手工编织文摘速度慢且文摘内容不客观,自动文摘技术正是在这样的背景下诞生的。本文首先介绍了自动文摘的研究背景、意义,以及国内外研究概况。然后介绍了自动文摘的定义及分类,将现有的自动文摘方法分为五类:自动摘录、基于理解的自动文摘方法、信息抽取、基于篇章结构的自动文摘方法和基于用户查询的自动文摘方法,分析了它们的优缺点,并从七个方面对他们进行比较,指出基于篇章结构的自动文摘方法优于其它四种方法。在此基础上,本文设计并实现了一个基于篇章结构分析方法的自动文摘系统——基于S2AFCM与篇章内容结构的自动文摘系统。该系统的基本思想是:(1)采用S2AFCM聚类算法对文献进行段落自适应模糊聚类,依据所得到的隶属度矩阵求得文献的子主题划分和过渡段落。(2)采用复句研究理论、RST与汉语篇章结构特征相结合的方法对过渡段进行篇章内容结构分析,构建文献的篇章内容结构树。(3)以子主题为单位,先形成子主题文摘,再依据文献篇章内容结构树组合子主题文摘得到最终文摘。作者使用vs2008作为开发工具,Oracle作为后台数据库,完成了该系统的编码。使用TREC数据集作为测试数据,通过对比实验数据表明,本文系统较其它系统在召回率、准确率和F-measure值上都有所提高,生成的文摘有较高的质量。
|
全文目录
摘要 3-4 Abstract 4-6 目录 6-9 第一章 绪论 9-19 1.1 课题研究背景 9-10 1.2 课题研究意义 10-11 1.3 课题研究概况 11-16 1.3.1 国外自动文摘研究概况 11-14 1.3.2 国内自动文摘研究概况 14-16 1.4 论文主要研究工作 16 1.5 论文组织结构 16-19 第二章 自动文摘概述 19-29 2.1 自动文摘的定义和分类 19-21 2.1.1 文摘的定义、特点及分类 19-20 2.1.2 自动文摘的定义及分类 20-21 2.2 自动文摘方法 21-28 2.2.1 自动摘录 21-23 2.2.2 基于理解的自动文摘方法 23 2.2.3 信息抽取 23-24 2.2.4 基于篇章结构的自动文摘方法 24-26 2.2.5 基于用户查询的自动文摘方法 26 2.2.6 五种自动文摘方法比较 26-28 2.3 本章小结 28-29 第三章 基于S2AFCM的子主题划分 29-41 3.1 子主题划分的必要性 29 3.2 子主题划分方法 29-30 3.3 文本聚类 30-33 3.3.1 文本聚类概念 30-31 3.3.2 文本聚类算法分类 31-33 3.4 自适应截值C-均值模糊聚类算法 33-38 3.4.1 模糊数学基础 33 3.4.2 模糊聚类 33-35 3.4.3 模糊C-均值聚类算法 35-36 3.4.4 自适应截值模糊C-均值聚类算法 36-38 3.5 基于S2AFCM的子主题划分 38-39 3.6 本章小结 39-41 第四章 过渡段篇章内容结构分析 41-53 4.1 分析过渡段的意义 41 4.1.1 过渡段的定义 41 4.1.2 分析过渡段的意义 41 4.2 篇章内容结构分析 41-46 4.2.1 复句研究理论 42-43 4.2.2 RST 43-44 4.2.3 汉语篇章结构特征 44-46 4.3 过渡段篇章内容结构分析 46-50 4.3.1 构建篇章层次结构树 46-47 4.3.2 篇章内容结构分析方法 47-50 4.4 确定子主题间逻辑关系 50-51 4.4.1 子主题层篇章内容结构分析 50 4.4.2 构建篇章内容结构树 50-51 4.5 本章小结 51-53 第五章 基于S2AFCM与篇章内容结构分析的自动文摘系统 53-65 5.1 系统设计思想 53 5.2 数据库结构设计 53-55 5.3 系统框架 55 5.4 文本预处理 55-60 5.4.1 段落标记 56 5.4.2 中文分词 56-57 5.4.3 过滤停用词 57-58 5.4.4 词频统计 58-59 5.4.5 特征项提取 59-60 5.5 子主题划分 60-61 5.5.1 段落的向量化表示 60-61 5.5.2 S2AFCM段落聚类 61 5.6 分析子主题间逻辑关系 61-62 5.6.1 复句标记 61-62 5.6.2 过渡段篇章内容结构分析 62 5.7 文摘生成 62-64 5.7.1 去除废弃句 62-63 5.7.2 句子权值计算 63-64 5.7.3 文摘生成 64 5.8 本章小结 64-65 第六章 实验结果与分析 65-73 6.1 测评数据 65-67 6.3 实验结果及分析 67-71 6.4 本章小结 71-73 第七章 总结与展望 73-75 7.1 论文工作总结 73 7.2 进一步研究与展望 73-75 致谢 75-77 参考文献 77-81 附录A 攻读硕士学位期间发表的论文以及软件著作权 81
|
相似论文
- 多邮件自动文摘的关键技术研究,TP391.1
- 山区道路路桥过渡段的病害分析和处治对策,U416.1
- Web多文档自动文摘研究,TP391.1
- 基于主题划分的中文单文档自动文摘系统的研究,TP391.1
- 面向web文本挖掘的中文文本自动摘要关键技术研究,TP391.1
- 模糊C-均值算法改进研究,TP311.13
- 萨北开发区油水过渡段开采界限研究,P618.13
- 面向事件的多文档自动文摘研究,TP391.1
- 中文自动文摘关键技术的研究与实现,TP391.1
- 顺直过渡段卵石浅滩航道整治方法及整治水位确定研究,U617
- 高速铁路无砟轨道路基及过渡段结构长期测试分析,U213.1
- 降雨对山区高速公路行车安全影响与保障技术研究,U492.8
- 彭湖高速路桥过渡段不均匀沉降分析,U416.1
- 连续弯道过渡段长度对通航影响的模拟实验研究,U697
- 基于主题模型的中英文多文档自动文摘,TP391.1
- 武警部队舆情监测系统设计和实现,TP393.09
- 基于向量空间模型的web文本自动摘要系统的研究,TP391.1
- 特殊岩土体路基填筑技术及在路桥过渡段沉降控制中的应用研究,U416.1
- 基于舒适性的路桥过渡段差异沉降控制标准研究,U445.71
- 混输泵半螺旋形吸入室的优化设计及其内部流场分析,TH311
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|