学位论文 > 优秀研究生学位论文题录展示
中文突发事件新闻自动摘要的研究
作 者: 周凯
导 师: 李芳
学 校: 上海交通大学
专 业: 计算机应用技术
关键词: 事件自动摘要 句子特征 模糊推断机制 信息抽取
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 209次
引 用: 0次
阅 读: 论文下载
内容摘要
事件自动摘要的研究是事件信息抽取技术与自动摘要技术结合的产物,其任务是从事件新闻中抽取一些与事件相关的重要信息,采用不同的技术组织这些信息,最终生成易于人们理解的事件摘要。研究突发事件自动摘要,本文进行了如下一些有益的探索:(1)提出了一种基于句子特征和模糊推断的单篇新闻报道自动摘要方法,该方法综合了与领域无关的基于句子特征分析的摘要方法和基于领域知识采用模糊推断的摘要方法。(2)研究了突发事件摘要实现的方法,基于单篇新闻报道自动摘要的结果,采用句子聚类,句子选择等技术。在中文突发事件新闻语料库上进行了实验,结果表明:基于句子特征和模糊推断的新闻报道自动摘要方法能够有效地描述报道的主题,基于句子聚类技术的中文突发事件新闻摘要可以概括事件的要点,该摘要技术也已成功地应用于用户兴趣的概括(Intel项目)。
|
全文目录
摘要 3-4 ABSTRACT 4-9 第一章 绪论 9-11 1.1 课题背景 9-10 1.2 研究目的和意义 10 1.3 本文工作内容 10-11 第二章 事件自动摘要综述 11-47 2.1 事件与突发事件 11-12 2.1.1 事件定义 11-12 2.1.2 突发事件定义 12 2.1.3 突发事件的分类 12 2.2 事件自动摘要的基本原理 12-13 2.3 数据表示模型 13-15 2.4 事件自动摘要方法的分类与特点 15-23 2.4.1 基于片段抽取的事件摘要方法 16-19 2.4.2 基于信息抽取技术的事件摘要方法 19-21 2.4.3 其他方法 21-23 2.5 事件自动摘要研究中的关键技术 23-43 2.5.1 分类技术 23-29 2.5.2 聚类技术 29-34 2.5.3 片段Ranking 技术 34-36 2.5.4 最大边缘相关性技术 36-37 2.5.5 信息抽取技术 37-39 2.5.6 信息融合技术 39-40 2.5.7 事件领域本体技术 40-43 2.6 事件自动摘要的评测 43-46 2.6.1 内部评测方法 44-45 2.6.2 外部评测方法 45-46 2.6.3 两种评测方法的比较 46 2.7 本章小结 46-47 第三章 基于句子特征与模糊推断的突发事件自动摘要 47-67 3.1 基于句子特征分析的单篇新闻摘要方法 47-53 3.1.1 句子的位置特征 48-49 3.1.2 句子的长度特征 49-50 3.1.3 句子的词项权重特征 50-51 3.1.4 句子与新闻标题的相似度特征 51 3.1.5 句子综合特征权重 51-53 3.2 基于模糊推断的单篇新闻摘要方法 53-62 3.2.1 事件领域术语表 53-54 3.2.2 中文词语的语义分析 54-58 3.2.3 基于模糊推断机制的语义计算 58-61 3.2.4 句子相关性计算 61-62 3.3 基于句子特征分析和模糊推断混合的单篇新闻摘要方法 62-63 3.4 事件摘要方法 63-66 3.4.1 句子聚类 63-64 3.4.2 句子Ranking 64-65 3.4.3 句子抽取 65-66 3.4.4 事件摘要生成 66 3.5 本章小结 66-67 第四章 中文突发事件自动摘要系统的实现 67-84 4.1 中文突发事件自动摘要系统框架 67 4.2 中文突发事件新闻语料库 67-71 4.2.1 中文突发事件新闻的自动处理 67-70 4.2.2 中文突发事件新闻语料库 70-71 4.3 文档预处理 71-79 4.3.1 文本块切分 71 4.3.2 句子切分 71 4.3.3 词性标注 71-72 4.3.4 新闻时间和地点的识别 72-79 4.4 单篇新闻摘要 79-80 4.5 事件摘要 80 4.6 中文突发事件自动摘要系统示例 80-83 4.7 本章小结 83-84 第五章 实验设计与结果分析 84-94 5.1 新闻时间和地点信息识别的评测 84-86 5.1.1 实验设计 84-85 5.1.2 实验结果与分析 85-86 5.2 单篇新闻摘要方法的评测 86-89 5.2.1 实验设计 86-87 5.2.2 实验结果与分析 87-89 5.3 事件摘要的评测 89-90 5.3.1 实验设计 89-90 5.3.2 实验结果与分析 90 5.4 用户兴趣主题摘要的评测 90-94 5.4.1 用户兴趣分析系统介绍 90-91 5.4.2 使用的摘要方法 91-92 5.4.3 用户兴趣分析示例 92 5.4.4 兴趣主题摘要的评测结果 92-94 第六章 总结与展望 94-96 6.1 全文总结 94-95 6.2 研究展望 95-96 参考文献 96-100 致谢 100-101 攻读学位期间发表的学术论文目录 101-103
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 网页属性抽取的方法研究,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 主题搜索引擎关键技术研究,TP391.3
- 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 模板独立的网页信息抽取研究,TP393.092
- 面向互联网的多元信息获取技术研究,TP393.09
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 基于DOM的Web信息抽取系统设计与实现,TP393.09
- 一种基于前缀表达式的Web信息抽取方法的关键问题的实现,TP391.1
- 基于概念树的Web信息抽取技术研究,TP391.1
- 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
- 基于搜索引擎的自动问答系统,TP391.3
- 基于互联网的个性化健康信息定制系统构建,TP311.52
- 个性化多媒体资源垂直搜索引擎技术研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|