学位论文 > 优秀研究生学位论文题录展示
面向大规模数据的在线新事件检测
作 者: 蔡偃武
导 师: 高大启
学 校: 华东理工大学
专 业: 计算机应用技术
关键词: 新事件检测 单路径聚类 大规模数据 MapReduce
分类号: TP274
类 型: 硕士论文
年 份: 2014年
下 载: 50次
引 用: 0次
阅 读: 论文下载
内容摘要
新事件检测是从以时间顺序到来的新闻报道流中发现新闻话题种子事件的第一篇新闻报道。由于目前Internet高速发展,网络新闻信息规模变得十分巨大,传统的新事件检测算法在处理大规模数据时出现了性能上的瓶颈。随着云计算时代的到来,Hadoop分布式计算平台将有效地解决传统算法在处理大规模数据集时的性能瓶颈问题。设计一个适用于分布式平台的高效在线新事件检测算法并将算法移植到分布式计算环境下,突破性能上的限制有着重要的现实意义。本文以传统新事件检测算法为基础,通过分析算法时间复杂度上的瓶颈,研究了改进的快速新事件检测算法,分析了算法的并行化策略,进而在Hadoop分布式平台下实现了适用于大规模数据的在线新事件检测方法。本文所做的工作首先是介绍新事件检测技术的研究背景、现实意义及研究现状。然后详细介绍了传统的新事件检测所涉及到的各种关键技术以及MapReduce分布式计算框架的相关知识。在此基础上,提出了改进的在线新事件检测算法,算法采用的倒排索引策略显著降低了时间复杂度,算法中的一些步骤采用了并行化设计,进一步加快新事件检测的速度。本文设计并实现了基于MapReduce的分布式新事件检测系统。最后通过实验证明了该方法的可行性和有效性。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 引言 9-16 1.1 课题背景 9-10 1.2 基本概念 10-11 1.3 研究现状 11-14 1.4 研究意义 14 1.5 研究内容及组织结构 14-16 1.5.1 研究内容 14-15 1.5.2 组织结构 15-16 第2章 新事件检测和分布式计算常用技术 16-31 2.1 新事件检测技术 16-24 2.1.1 文本预处理 16-17 2.1.2 文本表示模型 17-19 2.1.3 特征提取 19-21 2.1.4 文本相似度计算 21-22 2.1.5 相似度阈值 22-23 2.1.6 类的表示 23-24 2.1.7 基本NED算法 24 2.2 Hadoop分布式计算平台 24-30 2.2.1 MapReduce模型 25-27 2.2.2 Hadoop分布式文件系统 27-28 2.2.3 MapReduce编程 28-30 2.3 本章小结 30-31 第3章 面向大规模数据的在线新事件检测算法 31-36 3.1 基于新闻要素的在线新事件检测算法 31-33 3.1.1 报道和事件的表示模型 31-32 3.1.2 报道和事件相似度的计算 32 3.1.3 新事件检测方法 32-33 3.2 改进的快速新事件检测算法 33-35 3.2.1 基准算法的时间损耗分析 33-34 3.2.2 报道预处理的并行化 34 3.2.3 使用索引机制减少报道的比较次数 34-35 3.2.4 倒排索引的设计与查找过程的并行化 35 3.2.5 报道与事件比较过程的并行化 35 3.3 本章小结 35-36 第4章 大规模在线新事件检测系统的设计和实现 36-47 4.1 系统总体架构设计 36-37 4.2 报道预处理模块 37-40 4.3 报道索引模块 40-41 4.4 相似度比较模块 41-44 4.5 事件聚类模块 44-45 4.6 作业管理模块 45-46 4.7 本章小结 46-47 第5章 实验结果和分析 47-58 5.1 实验环境搭建 47-51 5.2 评测语料 51 5.3 评测标准 51-52 5.4 实验结果分析 52-57 5.4.1 漏检率和误报率对比 52-53 5.4.2 Hadoop系统参数的影响 53-54 5.4.3 算法速度测试 54-56 5.4.4 系统可扩展性测试 56-57 5.5 本章小结 57-58 第6章 总结和展望 58-60 6.1 总结 58 6.2 展望 58-60 参考文献 60-63 致谢 63-64 附录 64
|
相似论文
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 高速网络环境下的入侵检测系统的研究,TP393.08
- 基于Hadoop的文本分类研究,TP391.1
- 基于Hadoop的分布式服务注册中心研究和实现,TP393.09
- 基于多核CPU的任务级数据处理研究及其在集群平台下的性能测试,TP274
- 数据中心Hadoop部署与追踪系统研究,TP308
- 云环境下MapReduce容错技术的研究,TP302.8
- 一个可扩展的MapReduce原型设计与实现,TP311.52
- 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
- 基于段落指纹的大规模近似网页检测算法研究,TP393.092
- MapReduce FairScheduler的高性能优化及超大规模集群模拟器设计及实现,TP311.13
- 基于列存储的RFID数据的管理技术的研究与应用,TP315
- 高性能计算体系结构下的海量数据处理分析与优化,TP338
- 分布式系统中的信息流控制模型的研究,TP316.4
- 数据密集型计算系统中的作业调度技术研究,TP311.13
- 基于IaaS云计算的Web应用技术研究,TP393.09
- 云计算中MapReduce性能优化及应用,TP3
- 大规模数据集逻辑逆向综合关键算法的研究,TP274.2
- 基于MapReduce的聚类算法的并行化研究,TP311.13
- MapReduce集群多用户作业调度方法的研究与实现,TP311.13
- 基于小波的大规模多源多尺度数据组织与实现,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 自动化系统 > 数据处理、数据处理系统
© 2012 www.xueweilunwen.com
|