学位论文 > 优秀研究生学位论文题录展示
微博热点话题发现的研究
作 者: 李晓娴
导 师: 刘云
学 校: 北京交通大学
专 业: 通信与信息系统
关键词: 微博短文本 聚类 热点话题
分类号: TP393.092
类 型: 硕士论文
年 份: 2014年
下 载: 78次
引 用: 0次
阅 读: 论文下载
内容摘要
微博平台作为WEB2.0时代的新产物,近年来得到了快速发展。由于其方便快捷的消息传播模式,越来越多的信息充斥着微博平台,如何实现微博平台中的信息的发掘、提取和分析是研究热点之一。本文研究的微博平台中热点话题发现的问题,具有较强的社会和现实意义。本文的主要工作如下:1、通过研究微博文本的特点,结合以往长文本聚类的研究,针对微博短文本不能直接使用传统的长文本聚类算法的问题,提出了基于微博评论文本的文本扩展和基于HowNet语义扩展的双重方案,评论文本扩展弥补了微博文本短小、表达多样化的缺点;HowNet语义扩展解决了扩展文本长度不均匀对聚类结果的影响。同时,在基于微博评论的文本扩展处,提出了基于微博文本簇的评论筛选方法,并且针对不同类型的评论应用了不同的扩展方案。2、针对微博文本的特点,在层次聚类和基于划分的聚类算法的基础上提出了基于BIRCH算法初始化的K-means算法。该算法解决了K-means算法需要手动设置聚类参数k的问题,并优化了初始聚类中心的选择,有效的减少了K-means算法的迭代次数;并且由于BIRCH算法对噪声有很好的识别性,因而增强了算法整体的抗噪性。3、研究了微博热点话题的特征、传播过程,分析了影响微博热度的各个因素,并根据影响因素,结合用户分类,提出了话题热度的评估模型和详尽的话题热度计算公式。论文最后根据上文提到的理论研究,使用JAVA设计实现了微博热点话题发现系统,并通过B/S模式对得出的热点话题进行了展示,通过对新浪微博数据的应用,可以得到较好的效果。论文的工作得到了国家自然科学基金(No.61172072,61271308)、北京市自然科学基金(No.4112045)、高等教育博士点基金(No.W11C100030)、北京科技计划(No.Z121100000312024)和北京市教育委员会学科建设与研究生建设项目等课题的支持。
|
全文目录
致谢 5-6 中文摘要 6-7 ABSTRACT 7-10 1 引言 10-16 1.1 研究背景及选题意义 10-11 1.1.1 微博客的产生和发展现状 10 1.1.2 微博热点话题发现的意义 10-11 1.2 研究现状 11-14 1.2.1 话题发现与追踪技术 11-12 1.2.2 聚类算法 12-13 1.2.3 短文本聚类算法 13-14 1.3 论文的组织结构 14-16 2 微博话题发现相关技术 16-30 2.1 微博的特点 16-19 2.1.1 短文本和多样性 16 2.1.2 网状传播 16-19 2.2 短文本文本相似度的度量 19-24 2.2.1 空间向量模型 19-22 2.2.2 短文本文本表示 22-24 2.2.3 相似度衡量 24 2.3 经典聚类算法 24-29 2.3.1 single-pass算法 24-25 2.3.2 K-means算法 25-26 2.3.3 BIRCH算法 26-28 2.3.4 DBSCAN算法 28-29 2.4 本章小结 29-30 3 基于文本扩展及HowNet语义扩展的话题发现策略 30-42 3.1 微博短文本信息的扩展 30-33 3.1.1 短文本扩展 30 3.1.2 基于原微博主题词簇的评论筛选机制 30-32 3.1.3 生成转发评论树扩展微博文本 32-33 3.2 基于HowNet的语义扩展 33-38 3.2.1 HowNet的介绍 34-36 3.2.2 基于HowNet语义扩展的VSM 36-38 3.3 实验分析 38-40 3.3.1 实验数据的准备 38 3.3.2 评价方法及标准 38-39 3.3.3 实验结果 39-40 3.4 本章小结 40-42 4 微博的热点话题发现 42-58 4.1 应用于话题发现的聚类方法 42-53 4.1.1 算法比较的标准 42 4.1.2 算法的比较与选择 42-44 4.1.3 基于BIRCH初始化的K-means聚类算法 44-50 4.1.4 聚类算法实验验证 50-53 4.2 话题热度的研究 53-56 4.2.1 热点话题的定义及特征 53 4.2.2 话题热度的影响因素 53-54 4.2.3 话题热度的评估模型 54-56 4.3 本章小结 56-58 5 微博热点话题发现平台 58-72 5.1 系统的整体架构 58-59 5.2 微博的采集模块 59-61 5.2.1 新浪微博采集API 59-60 5.2.2 对返回信息的解析以及存储 60-61 5.3 微博话题发现模块 61-71 5.3.1 微博文本预处理模块 61-63 5.3.2 基于HowNet的语义扩展模块 63-64 5.3.3 聚类模块 64-69 5.3.4 系统界面 69-71 5.4 本章小结 71-72 6 结论与展望 72-74 6.1 总结 72-73 6.2 研究展望 73-74 参考文献 74-78 作者简历 78-82 学位论文数据集 82
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 图像分割中阴影去除算法的研究,TP391.41
- 基于图分割的文本提取方法研究,TP391.41
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- K-均值聚类算法的研究与改进,TP311.13
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 南通市农业面源污染负荷研究与综合评价,X592
- 土壤环境功能区划研究,X321
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 大豆杂种优势及其遗传基础研究,S565.1
- 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
- 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
- 基于变异粒子群的聚类算法研究,TP18
- K-means聚类优化算法的研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|