学位论文 > 优秀研究生学位论文题录展示
基于文本内容的微博突发话题检测技术研究
作 者: 张文军
导 师: 郑宁
学 校: 杭州电子科技大学
专 业: 计算机应用技术
关键词: 微博 突发 话题 检测 主题词 观点词
分类号: TP393.092
类 型: 硕士论文
年 份: 2014年
下 载: 6次
引 用: 0次
阅 读: 论文下载
内容摘要
微博的开放性与便捷性,使得微博己经成为了网络舆论传播的一个重要平台。但是微博信息量大,传播速度快,这给网络舆情的收集和管理工作带来了挑战。因此,如何从微博信息流中及时准确地检测出突发话题是当前研究中的一个难点和热点问题。本文对微博突发话题侦测中的两个关键技术:突现主题词和观点词的检测方法展开了研究。其主要工作包括如下三个方面。首先为了提高侦测话题的准确率和召回率,提出了一种基于内容搜索的突现主题词检测方法。以暴发性关键词为线索,借助Lucene检索工具把与暴发性关键词相关的微博文本合并形成一个文本文档,然后结合传统的TF-IDF方法摘取文档中的主题词。实验表明,当检测到的主题词达到八个甚至十个时,准确率和召回率的权衡值F-measure分别为0.87和0.84,其平均F-measure值比基于关联规则的方法提高了13.2%。其次,为了更准确地检测出话题中表达的主要观点,提出了一种基于互信息的观点词检测方法。以大连理工大学的情感词典为基础,训练情感词典,用改进的互信息方法计算主题词与情感词之间的关联程度,并以此来找到与主题词最相关的观点词。对比实验表明,以互信息理论为基础来计算主题词与观点词之间的关联程度,可以更准确的检测出话题中表达的主要观点,观点词检测的准确率和召回率分别为0.72和0.65,其综合评估指标F-measure的值为0.68,比传统的方法提高了约5%。最后在上述提出两种方法的基础之上,实现了一个可在线检测微博突发话题的系统。系统一方面采用了文章中提出的突现主题词检测方法和观点词检测方法,实现了突发话题的检测功能,验证了方法的有效性;另一方面实现了微博内容定位和微博内容搜索功能,使用户能够定位到与突发话题相关的具体微博。本文以微博文本内容为研究对象,提出了基于内容搜索的突现主题词检测方法和基于互信息的观点词检测方法,并且在这两种方法的基础上实现了一个在线的微博突发话题检测系统。本文的研究成果将有助于舆情监察用户更全面更直观的掌握最新的网络舆情,为微博的舆情监察工作带来了便利。
|
全文目录
摘要 5-6 ABSTRACT 6-10 第一章 绪论 10-16 1.1 研究背景及意义 10-11 1.2 研究现状 11-15 1.2.1 国外研究现状 12-13 1.2.2 国内研究现状 13-14 1.2.3 存在的问题及发展趋势 14-15 1.3 本文研究内容和组织结构 15-16 第二章 微博话题检测技术概述 16-24 2.1 微博概述 16-17 2.2 基本概念 17-18 2.3 常用的检测方法 18-21 2.3.1 基于统计策略的检测方法 18-19 2.3.2 基于向量空间模型的检测方法 19-20 2.3.3 基于情感分布的检测方法 20-21 2.4 微博话题检测的应用 21-22 2.4.1 事件检测与预警 21 2.4.2 新闻报道与检索 21-22 2.5 小结 22-24 第三章 微博突发话题检测的框架 24-32 3.1 微博突发话题检测框架 24-25 3.2 网络爬虫技术 25-27 3.2.1 网络爬虫概述 25-26 3.2.2 基本工作模型 26-27 3.3 全文索引技术 27-28 3.3.1 全文索引概述 27 3.3.2 基本工作模型 27-28 3.4 文本情感分析技术 28-30 3.4.1 情感分析概述 28-29 3.4.2 情感信息抽取 29 3.4.3 情感信息分类 29-30 3.5 小结 30-32 第四章 一种基于内容搜索的突现主题词检测方法 32-46 4.1 引言 32 4.2 数据预处理 32-34 4.2.1 垃圾微博筛选 32-33 4.2.2 微博信息流分片 33 4.2.3 微博文本分词 33-34 4.3 微博突发话题提取方法 34-38 4.3.1 暴发性关键词提取 35-36 4.3.2 相关内容搜索 36-37 4.3.3 主题词提取 37-38 4.4 实验设计与结果分析 38-43 4.4.1 实验设计与实现 39 4.4.2 实验评估标准 39-40 4.4.3 实验参数调优 40-41 4.4.4 实验结果展示与分析 41-43 4.4.5 与TrendMiner对比 43 4.5 小结 43-46 第五章 一种基于互信息的观点词检测方法 46-56 5.1 引言 46 5.2 信息理论简介 46-47 5.3 观点词挖掘方法 47-50 5.3.1 情感词汇本体的构建 47-48 5.3.2 主题词与情感词的关联 48-49 5.3.3 观点词的提取 49-50 5.4 实验设计与结果分析 50-54 5.4.1 实验设计与实现 50-51 5.4.2 实验评估标准 51 5.4.3 实验参数调优 51-53 5.4.4 实验结果展示与分析 53-54 5.5 小结 54-56 第六章 微博突发话题检测系统的实现 56-68 6.1 系统架构的设计 56-58 6.1.1 设计目标及原则 56-57 6.1.2 基本功能分析 57-58 6.1.3 架构模块分析 58 6.2 数据库的设计 58-60 6.2.1 数据库的选择及设计原则 58-59 6.2.2 数据库表格的设计 59-60 6.3 系统关键模块的实现 60-66 6.3.1 微博信息获取模块 60-61 6.3.2 突发话题抽取模块 61-64 6.3.3 微博内容搜索模块 64-66 6.4 小结 66-68 第七章 总结与展望 68-70 7.1 研究工作总结 68-69 7.2 未来展望 69-70 致谢 70-71 参考文献 71-76 附录 76-77 详细摘要 77-80
|
相似论文
- 基于DSP的离焦信号同步采集与处理技术研究,TH741
- 慢光光纤陀螺信号检测电路设计,V241.5
- 光纤陀螺信号处理线路FPGA实现,V241.5
- 基于ARM9机车信号系统检测装置的设计与优化,U284.91
- 路面平整度检测系统中的数据采集和定位技术研究,U416.2
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 航天继电器时间参数测试分析技术的研究,TM58
- HID灯整流效应的研究,TM923.32
- 基于均值匹配的Turbo码联合译码的Matlab实现,TN911.22
- 天波超视距雷达目标仿真与信号处理算法研究,TN958.93
- 图像拼接技术研究,TP391.41
- 基于人眼检测的驾驶员疲劳状态识别技术,TP391.41
- 双传感器图像联合目标检测及系统实现研究,TP391.41
- 舌图像中瘀斑瘀点检测技术研究,TP391.41
- 人物言论抽取与跟踪技术研究,TP391.1
- 多币种纸币处理技术的研究与实现,TP391.41
- PCB视觉检测系统中相机标定算法与位姿测定技术,TP391.41
- 基于嵌入式图像处理单元的运动目标跟踪系统研究,TP391.41
- 基于主动方式的恶意代码检测技术研究,TP393.08
- 基于行为特征的IRC僵尸网络检测方法研究,TP393.08
- 面向嵌入式超声检测系统的图形接口设计与应用,TP274.53
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|