学位论文 > 优秀研究生学位论文题录展示
基于滑窗取词的单文档自动摘要技术研究
作 者: 李阜
导 师: 贺明科
学 校: 国防科学技术大学
专 业: 管理科学与工程
关键词: 自动摘要 滑动窗口 主题词 无向图 相似度
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 63次
引 用: 2次
阅 读: 论文下载
内容摘要
在信息检索中应用自动摘要技术,可以减少用户查询所关心信息的时间,提高获取知识和信息的效率。因此,研究能够适应各种文档形式和内容且无需训练的自动摘要技术,有着极其重要的意义。主题词抽取是自动文摘系统的关键技术之一。一个好的主题词集合可以较好的反应出文档的中心思想,从而为抽取情报中的主题句打下好的基础。本文首先提出了基于滑动窗口的主题词抽取算法,随后建立了基于主题词的无向图,进而对节点重要度进行建模,并提出了主题词权重方差和主题词权重偏移量两个评价指标,以此分析滑动窗口长度对主题词抽取的影响。主题句抽取直接关系到自动文摘质量的高低,抽取出的主题句集合是自动文摘系统输出结果的最终展现形式。在已抽取出的文档主题词基础之上,本文对基于主题构建的无向图进行扩充,提出基于文档句构建的无向图,将主题句的抽取问题转换为求解无向图中节点的权重问题。通过依次确定无向图的节点、边以及边权重,最终求解其节点的权重。为了确定图的边权重,本文采用空间向量模型对各文档句进行建模,并利用相似度来明确句子间的关系。最后,通过本文所提出的基于句子相似度矩阵的权重模型对文档中各语句的权重进行建模,以得到自动文摘系统的最终输出。实验表明,本文提出的自动摘要技术,对于提高文本摘要的召回率和准确率是有效的。
|
全文目录
摘要 8-9 ABSTRACT 9-10 第一章 绪论 10-21 1.1 自动摘要概述 10-13 1.1.1 自动摘要的研究意义及其发展历史 10-11 1.1.2 自动摘要的定义及其分类 11-12 1.1.3 自动摘要的一般处理过程 12-13 1.2 自动摘要的研究现状 13-19 1.3 本文的研究内容 19-20 1.4 文章组织结构 20-21 第二章 主题词抽取技术研究 21-33 2.1 相关工作 21-22 2.2 基于滑动窗口的主题词抽取 22-25 2.2.1 SWE 算法的主要思想 22-23 2.2.2 SWE 算法的基本过程 23-25 2.3 基于无向图的主题词权重建模 25-30 2.3.1 基于主题词的无向图建立过程 25-26 2.3.2 节点重要度模型 26-27 2.3.3 滑动窗口长度对主题词抽取的影响分析 27-30 2.4 主题词抽取示例分析 30-32 2.5 本章小结 32-33 第三章 基于文档句的无向图构建策略 33-44 3.1 相关工作 33-34 3.2 无向图的初始化过程 34-38 3.2.1 无向图中节点及边的生成策略 34 3.2.2 基于相似度的无向图边权重计算 34-38 3.3 无向图节点权重模型 38-40 3.3.1 基于相似度矩阵的文档句权重计算方法 38-40 3.3.2 基于节点权重的主题句抽取及文摘输出 40 3.4 主题句抽取示例分析 40-43 3.5 本章小结 43-44 第四章 系统实现及实验分析 44-56 4.1 系统设计与实现 44-45 4.1.1 系统主要功能 44 4.1.2 系统结构 44-45 4.2 实验分析 45-55 4.2.1 实验环境 46 4.2.2 实验评价指标 46-48 4.2.3 实验流程 48-51 4.2.4 实验结果及分析 51-55 4.3 本章小结 55-56 第五章 总结与展望 56-58 5.1 本文的总结 56 5.2 今后的工作 56-58 致谢 58-59 参考文献 59-62 作者在学期间取得的学术成果 62-63 附录一 基于SWE 算法摘要实验数据 63-65 附录二 不同压缩比实验数据 65-67 附录三 传统摘要实验数据 67-69 附录四 实验语料 69
|
相似论文
- 基于句法特征的代词消解方法研究,TP391.1
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 工件排序问题的若干研究,O157.5
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 智能答疑系统中句子相似度计算的研究与应用,TP391.1
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 基于P4P的流媒体点播系统研究与实现,TN948.64
- 基于CBR的离散模拟模型可复用性研究,TP301.6
- 面向论坛信息文本的有效数据抽取研究,TP391.1
- 社会化网络中的推荐算法及其应用,TP391.3
- 网络环境下人才知识结构智能交互生成方法研究,TP391.6
- 航空发动机燃调系统故障诊断,V263.6
- 基于模糊理论的Web用户聚类的研究,TP311.13
- 网页主题概念的抽取处理及可视化实现,TP393.092
- 基于社会化标注的网页检索研究,TP393.092
- 中国政府文件中国特色英语词丛研究,H313
- 基于结构相似度与MTF的图像质量评价方法研究,TP391.41
- 基于可拓分类知识挖掘的复杂产品性能配置设计,TB472
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|