学位论文 > 优秀研究生学位论文题录展示
使用层次聚类和N-gram模型的新闻热事件检测研究
作 者: 王文琳
导 师: 沈刚
学 校: 华中科技大学
专 业: 软件工程
关键词: 热事件检测 事件聚类 事件序列化
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 24次
引 用: 0次
阅 读: 论文下载
内容摘要
传统的互联网基于关键词检索,根据查询返回搜索结果。随着互联网应用的快速发展,传统的搜索已经不能满足日益增长的搜索需求。从互联网数据中提取出热点推荐给用户,引导用户输入相关性高的查询,从而提高用户体验。热事件检测是互联网新的应用之一,通过互联网的资源挖掘,获得热点事件展示给用户。不同传统的话题检测和事件检测,热事件检测更关注检测出的事件具有一定的热度和流行性,并能具有一定的可读性。简单准确地从互联网数据中提取出热事件是当前互联网很有意义的一项挑战。论文中提出了一种新的结合层次聚类和语义模型的方法,从流式新闻中挖掘出相应的热词,并通过热词聚类组成备选事件,然后将事件中的代表性热词序列化构成描述性短语以表示热点事件,来帮助用户从互联网的数据中准确识别出感兴趣的热事件,进而完成进一步的搜索。将所提出的方法运用于简单聚合新闻中的热事件检测,通过实验表明这种方法具有较好的准确性。提出了一种热事件的表示方法,利用N-gram定义了一种事件度量单位伪事件,用来检测热事件检测效果。在设计的实验中,通过抓取MSN,BBC等七个简单聚合新闻网站获取流式新闻文档,采用层次聚类和语义模型的方法对最热的特征集合进行热事件分析和检测,通过和伪事件进行比较评测,得出较好的准确性。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-13 1.1 研究背景及意义 8-9 1.2 国内外研究现状 9-11 1.3 本文的贡献和结构 11-13 2 相关技术分析 13-23 2.1 话题检测 13-16 2.2 检测模型 16-19 2.3 热特征 19-21 2.4 本章小结 21-23 3 热事件检测模型 23-32 3.1 热事件 23-28 3.2 事件聚类 28-29 3.3 热事件评测 29-31 3.4 本章小结 31-32 4 算法设计与实现 32-51 4.1 总体设计 32-33 4.2 文本预处理 33-39 4.3 热点特征生成 39-43 4.4 伪事件生成 43-45 4.5 层次聚类 45-48 4.6 热点序列模型 48-49 4.7 本章小结 49-51 5 实验设计与结果 51-60 5.1 数据准备 51 5.2 实验设计与分析 51-54 5.3 实验结果 54-56 5.4 评价 56-59 5.5 不足与改进 59 5.6 本章小结 59-60 6 总结与展望 60-62 6.1 全文总结 60-61 6.2 展望 61-62 致谢 62-63 参考文献 63-67
|
相似论文
- 中文事件模式自动生成方法的研究和实现,TP393.09
- 基于主题的事件融合技术的研究与实现,TP393.09
- 自然语言理解中形容词多义性的研究及其在产品设计领域的应用,TP391.1
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- 海量多数据库集成系统的查询处理研究,TP311.13
- 海量数据压缩、操作和处理方法的研究,TP311.13
- 频繁图结构并行挖掘算法的研究与实现,TP311.13
- 海量多数据库集成系统的Mediator和Wrapper机制的设计与实现,TP311.13
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
- 医疗信息集成平台中DICOM中间件及访问控制模型的设计与实现,TP311.13
- K-均值聚类算法的研究与改进,TP311.13
- 基于流形学习的数据降维技术研究,TP311.13
- K-means聚类优化算法的研究,TP311.13
- 基于分治法的聚类方法研究,TP311.13
- 不完备信息系统的完备化及其上的知识获取,TP311.13
- 演化聚类算法及其应用研究,TP311.13
- 分布式事务处理协议的研究与应用,TP311.13
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|