学位论文 > 优秀研究生学位论文题录展示
网络舆情热点话题自动化发现技术研究
作 者: 李红
导 师: 迟呈英
学 校: 辽宁科技大学
专 业: 计算机软件与理论
关键词: 热点识别 聚类 话题识别 网络舆情
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 30次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的飞速发展,网络信息爆炸式增长,网络已经成为人们发布和获取信息的重要渠道。面对浩瀚的网络信息,如何从中获取有用的信息,已成为当今社会亟待解决的问题。在这样的背景下,网络热点话题的识别与热度分析,凸现出了其自身的重要性,将成当前研究者的一个研究热点。本文采用话题自动发现技术和话题热度分析技术对互联网新闻报道热点话题进行挖掘和分析。本文的主要研究内容如下:(1)提出了基于词频的特征提取算法。该算法利用正则表达式提取已标注的新闻文本中的名词和动词作为特征词。实验表明提高了特征提取的精度和速度,降低了特征向量的维数,从而解决了向量爆炸的问题。(2)通过分析网络新闻报道的结构特点,在特征权重计算时,分别统计特征词出现在标题和正文中的词频,并将标题中出现的特征词乘以一个加权因子,从而提高可能成为热点的特征词的权重。实验表明该方法提高了热点话题的发现能力。(3)通过传统的聚类算法的对比和分析,针对其缺点和不足,提出了基于二层策略的聚类算法。该算法是先将当天的新闻报道进行局部聚类得到候选话题集,然后将候选话题集与以往话题进行归并聚类。实验表明该算法降低了漏检率、误检率和损耗代价,从而提高了话题的发现能力。(4)分析网络新闻的特点,构建网络新闻热点话题的衡量指标。基于衡量指标提出了媒体关注度和用户关注的网络新闻热点话题发现模型,实验表明该模型能自动发现一段时间内网站上的热点话题,并全面的分析网络新闻话题的热度情况。(5)受到股市曲线启发,引入话题指数和话题发展曲线。该模型通过分析网站上每个新闻话题的热度,形成热点话题的发展曲线。实验表明话题发展趋势与实际吻合。
|
全文目录
摘要 5-6 ABSTRACT 6-10 第1章 绪论 10-15 1.1 研究背景和意义 10-11 1.2 相关研究现状 11-13 1.2.1 网络舆情及热点话题研究现状 11-12 1.2.2 话题识别与跟踪的研究现状 12-13 1.3 本文研究内容 13-14 1.4 本文结构安排 14-15 第2章 网络热点话题自动发现文本预处理关键技术 15-33 2.1 网络新闻预处理关键技术 15-20 2.1.1 中文自动分词 15-16 2.1.2 文档向量表示 16-17 2.1.3 特征词提取及权重计算 17-20 2.1.4 相似度计算 20 2.2 话题发现的主要任务 20-23 2.2.1 对新闻报道的切分 21 2.2.2 新事件的识别 21 2.2.3 报道关系识别 21-22 2.2.4 话题识别 22 2.2.5 话题跟踪 22-23 2.3 文本聚类算法 23-30 2.3.1 经典的 single-pass 算法 23-25 2.3.2 基于划分的聚类算法 25-26 2.3.3 基于层次的聚类算法 26-28 2.3.4 基于密度的聚类算法 28-29 2.3.5 基于网格的聚类算法 29-30 2.4 聚类算法的比较 30-33 2.4.1 聚类算法对比标准 30-31 2.4.2 聚类算法的比较 31-33 第3章 网络新闻话题自动发现技术研究 33-40 3.1 特征提取改进 33-35 3.1.1 基于词频统计的特征提取 33-34 3.1.2 文本正文与标题加权词频统计 34-35 3.2 报道表示模型和话题表示模型 35-36 3.2.1 报道表示模型 35 3.2.2 话题表示模型 35-36 3.3 报道和话题相似度计算 36 3.4 网络新闻话题发现算法 36-39 3.5 网络新闻话题自动发现流程 39-40 第4章 网络新闻热点话题热度分析 40-46 4.1 热点话题的概念和特征 40 4.2 构建网络新闻热点话题衡量基本指标 40-41 4.3 热点话题特征项的定量化 41-42 4.4 网络新闻热点话题发现模型 42-44 4.4.1 基于媒体关注度的网络新闻热点话题发现模型 42-43 4.4.2 基于用户关注度的网络新闻热点话题发现模型 43 4.2.3 网络新闻热点话题发现模型 43-44 4.5 话题热度指数和话题发展曲线 44-46 第5章 实验结果及分析 46-53 5.1 实验环境 46 5.2 实验数据 46 5.3 实验的评测标准 46-47 5.4 实验结果及分析 47-51 5.4.1 确定文本正文与标题中特征项加权因子 47 5.4.2 确定基于二层策略聚类算法的相似度阈值 47-48 5.4.3 聚类算法改进前后的对比 48-49 5.4.4 热点话题提取 49-51 5.5 话题发展曲线 51-53 第6章 总结与展望 53-55 6.1 总结 53 6.2 展望 53-55 参考文献 55-58 攻读硕士学位期间发表学术论文情况 58-59 致谢 59-60 作者简介 60-61
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 图像分割中阴影去除算法的研究,TP391.41
- 基于图分割的文本提取方法研究,TP391.41
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- K-均值聚类算法的研究与改进,TP311.13
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 南通市农业面源污染负荷研究与综合评价,X592
- 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
- K-means聚类优化算法的研究,TP311.13
- 中国区域性网上社区的舆情研究,G206
- 基于同化能力杂种优势早期评价的桃光合特性研究,S662.1
- 演化聚类算法及其应用研究,TP311.13
- 基于机器视觉的车辆检测和车距测量方法研究,TP274
- 基于运动目标轨迹分析的智能交通监控系统,TP277
- 网络舆情的形成机制研究,G206
- 网络舆情对司法过程的影响,D926
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|