学位论文 > 优秀研究生学位论文题录展示
基于新闻时空要素的新事件检测方法研究
作 者: 薛晓飞
导 师: 张永奎
学 校: 山西大学
专 业: 计算机应用技术
关键词: 新事件检测 事件模型 相似度计算 时间信息 地点信息
分类号: G210
类 型: 硕士论文
年 份: 2009年
下 载: 23次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网技术的迅速发展以及计算机用户的急剧增加,互联网已经成为人们获取信息的一项主要途径。然而互联网上很多重要的信息一般都被其它信息掩盖,人们很难从如此众多的网络信息资源中获取到有用的信息。尤其是在当今社会,突发事件已经成为困扰世界各国的重大问题,人们对突发事件的发生以及影响比较关注,相关人员需要第一时间掌握相关动态。本文的研究对象——新事件检测(NED)的目标就是检测出报道一个新闻话题种子事件的第一篇新闻。本文主要针对时间与地点在新闻报道中的作用进行研究,把时间与地点作为新闻报道间计算相似度的重要测度。并针对新事件检测过程中新闻簇的漂移现象进行了一定的分析研究,设计相关的新闻簇模板更新算法来减少漂移给新事件检测带来的影响。本文的主要工作为以下几点:1.本文采用特征加权的方式对传统的tf-idf模型进行改进。设置了一个参数ω,用参数ω来调整特征项权值的大小,这样就对一些词频低,但是比较重要的特征词的权重做了适当的放大,从而提高新事件检测的准确率。2.设计了一个基于主题要素的突发事件新闻新事件检测算法,利用时空信息提高新事件检测效率。对时间信息与地点信息进行规范化,分别计算出新闻报道与新闻簇的时间相似度与地点相似度;并将时间相似度、地点相似度与内容相似度三者结合起来表示新闻文档间的相似度。3.引入了特定的新闻簇模板自动更新算法,让新闻簇模板的表示随着新闻报道的不断加入而发生变化。4.设计了一个实验系统,分为五组实验,并从失报率、错报率、标准化代价函数三个方面对本文采用的方法进行评测。
|
全文目录
中文摘要 8-9 ABSTRACT 9-11 第1章 引言 11-15 1.1 新事件检测的研究背景及意义 11-12 1.2 新事件检测研究状况 12-13 1.3 本文的主要工作 13 1.4 论文结构 13-15 第2章 新闻事件的模型表示 15-19 2.1 新闻事件与突发事件 15-16 2.1.1 事件定义 15 2.1.2 突发事件定义 15-16 2.2 新事件检测的关键技术 16-19 2.2.1 新闻文档表示模型 16-17 2.2.2 两种模型比较 17 2.2.3 相似度计算 17-19 第3章 事件模型的建立 19-23 3.1 新闻语料的预处理 19 3.2 新闻报道特征选择 19-20 3.3 用tf-idf方法计算新闻特征项权值 20-21 3.4 用改进后的tf-idf模型进行事件特征项的计算 21 3.5 新闻簇初始质心的建立 21 3.6 一般内容相似度计算方法 21-23 第4章 突发事件新闻时空主题要素 23-29 4.1 新闻报道中地点信息的处理 23-26 4.1.1 中文地名的特征 23 4.1.2 地名库建立和地名信息抽取与规范化 23-25 4.1.3 地点相似度的计算 25-26 4.2 新闻报道中时间信息的处理 26-27 4.2.2 新闻文档中与时间相关的信息 26 4.2.3 时间学习算法 26-27 4.2.4 时间相似度的计算 27 4.3 相似度的结合 27-29 第5章 基于新闻簇模板更新的新事件检测方法 29-33 5.1 新事件检测描述 29-30 5.2 新闻簇模板质心的更新 30-31 5.3 新闻时空要素的新事件检测流程 31-33 第6章 实验与实验分析 33-39 6.1 实验语料准备 33-34 6.2 一个事件处理流程示例 34-35 6.3 评测机制 35 6.4 实验结果与分析 35-39 第7章 结论 39-41 参考文献 41-45 致谢 45-47 发表文章目录 47-49 个人简况及联系方式 49-50
|
相似论文
- 多邮件自动文摘的关键技术研究,TP391.1
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 情景应对模式下数字化应急预案的语义模型研究,TP391.1
- 面向论坛信息文本的有效数据抽取研究,TP391.1
- 基于贝叶斯理论的网页木马检测技术研究,TP393.092
- 面向概念查询的生物医学多文档摘要技术研究,TP391.1
- 基于本体和SWRL推理的知识检索方法研究,TP391.3
- 基于JEE的科技项目管理系统设计与实现,TP311.52
- 基于ARM的跳频同步方案设计和软件实现,TN914.41
- 计算机辅助夹具结构设计关键技术研究,TG75
- 本体在医疗信息整合中的应用与研究,TP391.1
- 中文文本倾向性分类系统研究,TP391.1
- 基于多Agent及元搜索技术的中文问答系统的研究和应用,TP391.1
- 基于Web2.0的Web Widget在企业信息管理系统中的研究与应用,TP311.52
- 复杂多组分体系指纹图谱差异性分析系统设计与实现,O657
- 源代码专家推荐系统设计与实现,TP311.52
- 基于综合概念相似度的异构本体合并技术的研究,TP391.1
- 基于本体的语义检索在数字图书馆中的应用研究,G250.76
- 基于SVM的新闻报道特征新事件检测研究,TP18
中图分类: > 文化、科学、教育、体育 > 信息与知识传播 > 新闻学、新闻事业 > 新闻学
© 2012 www.xueweilunwen.com
|