学位论文 > 优秀研究生学位论文题录展示
多邮件自动文摘的关键技术研究
作 者: 王宝勋
导 师: 王晓龙
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 多邮件自动文摘 最大边缘相关 语句相似度计算 Trie树
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 46次
引 用: 1次
阅 读: 论文下载
内容摘要
随着互联网的飞速发展,越来越多的互联网用户开始成为电子邮件的受益者,同时网络空间中的电子邮件信息量也呈现出不断膨胀的趋势。电子邮件作为人们常用的一种通信工具,其中往往包含着大量的关键信息,这些信息当中的一部分很有可能涉及国家、企业乃至个人的机密。邮件内容安全技术直接关系到国家的政治稳定、企业的数据安全和个人的切身利益,具有重大的现实意义。本文正是在这种前提下,对基于邮件内容的自动文摘技术进行了研究。多邮件自动文摘技术是对内容相关的多封电子邮件进行分析,并根据它们所描述的主题脉络和用户兴趣抽取出重要的信息,并自动生成一篇指定长度的文摘。一个可行的邮件文摘系统对于提高电子邮件监控者处理信息的速度和准确率有很大的帮助。本文提出并实现了基于海量邮件检索结果的多邮件文摘系统,重点对以下几个问题进行了研究和解决:首先,本文综合考虑了电子邮件正文与普通文本在行文上的差异以及系统实际的应用环境,提出了面向用户查询的改进抽取式文摘方法,在一定程度上满足了邮件文摘系统在有效性和实时性两方面上的需求。其次,本文采用最大边缘相关模型解决了文摘句的抽取问题,从而可以保证系统输出的文摘结果在具有较高的准确率的同时使冗余度得到了降低。在此基础上,本文深入地研究了语句相关度计算和线性插值因子对于最大边缘相关模型的影响,进而提出了基于知网的语句相关度计算方法和自适应参数选取两方面的改进策略。邮件文摘的内部评测结果表明,经过改进后的文摘算法在文摘质量上有了明显的提高。最后,本文对邮件文摘的一系列相关技术进行了系统的研究。在邮件信息获取方面,本文实现了邮件的自动解析和正文解码,尤其针对邮件正文内容中无用信息对文摘效果的不利影响,本文提出了邮件正文噪声的概念并采取基于规则的办法将其去除;在正文的快速分词方面,本文阐述了如何利用Trie树结构自动构建分词词典并实现词语的快速查找,极大的提高了系统的响应速度。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-15 1.1 课题研究的背景和意义 9-10 1.2 国内外研究现状 10-13 1.3 本文的主要研究内容 13-15 第2章 邮件文摘的技术路线及邮件预处理 15-26 2.1 引言 15 2.2 多邮件文摘的实现方案研究 15-18 2.2.1 多文档文摘的主要技术路线 15-17 2.2.2 邮件文摘的任务特点及其技术方案 17-18 2.3 多邮件文摘系统的结构 18-19 2.4 面向文摘的邮件预处理 19-24 2.4.1 基于格式的邮件解析 19-21 2.4.2 邮件正文解码 21-23 2.4.3 邮件正文噪声及其去除 23-24 2.5 本章小结 24-26 第3章 基于Trie 树的快速中文分词 26-36 3.1 引言 26 3.2 机械分词方法及其瓶颈分析 26-28 3.2.1 正向最大匹配分词概述 26-27 3.2.2 正向最大匹配分词的瓶颈分析 27-28 3.3 基于Trie 树的快速中文分词 28-35 3.3.1 Trie 树结构概述 28-29 3.3.2 基于双数组Trie 树结构的分词词典 29-35 3.4 本章小结 35-36 第4章 基于MMR 的多邮件文摘生成 36-45 4.1 引言 36 4.2 改进的抽取式文摘的技术特点 36-37 4.3 基于MMR 模型的自动文摘算法 37-41 4.3.1 MMR 模型概述 37-38 4.3.2 基于MMR 的文摘句抽取算法 38-40 4.3.3 文摘句的后处理 40-41 4.4 自动文摘的评测 41-44 4.4.1 多文档自动文摘评测的技术难点和发展历程 41-42 4.4.2 多邮件文摘的内部评测 42-44 4.5 本章小结 44-45 第5章 基于语义的MMR 自适应模型的研究 45-54 5.1 引言 45 5.2 基于知网的语句相似度计算 45-47 5.2.1 知网概述 45-46 5.2.2 基于知网的语句相似度计算方法 46-47 5.3 自适应的MMR 模型 47-51 5.3.1 人工指定模型参数引发的问题 47-50 5.3.2 自适应的MMR 模型 50-51 5.4 实验结果 51 5.5 本章小结 51-54 结论 54-55 参考文献 55-59 攻读学位期间发表的学术论文 59-61 致谢 61
|
相似论文
- 软交换平台下电话号码分类方法研究,TN915.05
- 基于倾斜时间窗口的频繁项集挖掘算法研究,TP311.13
- 语句相似度计算在智能答疑系统中的应用,TP319
- 文本分类中若干问题研究,TP391.1
- 高速路由器的数据转发技术研究,TN915.05
- 分布式防火墙策略异常检测算法研究,TP393.08
- 智能中文搜索引擎若干关键技术的研究与实现,TP391.3
- 基于变步长Trie树的数据包分类技术的研究与实现,TP393.07
- 基于TRIE的软转发路由查找模块的设计实现,TP393.02
- 基于trie的路由查找算法研究,TN915.05
- 地学文本信息提取技术研究,P208
- 快速包分类算法的研究,TP393.08
- 名字路由协议的研究与实现,TP393.04
- 哈希表和多比特Trie树相结合的IPv6路由查找算法的研究,TP393.02
- 大规模中文文本检索中的高性能索引研究,TP391.3
- 面向大规模信息检索的中文分词技术研究,TP391.3
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|