学位论文 > 优秀研究生学位论文题录展示

基于新浪微博主题的用户影响力研究

作 者: 程志强
导 师: 朱志良; 李轶强
学 校: 东北大学
专 业: 软件工程
关键词: 主题分类 关键词 TwitterRank算法 用户影响力
分类号: TP393.092
类 型: 硕士论文
年 份: 2013年
下 载: 20次
引 用: 0次
阅 读: 论文下载
 

内容摘要


社交网络伴随着web2.0的浪潮兴起,正在逐渐改变着我们的生活,从facebook到人人网,从MSN到QQ,从Twitter到新浪微博,社交网络的形式也在发生着变化。各种各样的社交网络正在改变着世界,不仅改变了人与人的沟通方式,也改变了媒体传播和市场营销的方式。微博作为一种便捷的媒体交互平台和高效的信息传播工具,在全球范围内已经吸引了数亿的用户,已经成为人们进行信息交流的重要途径,对经济社会各个领域正产生着日益广泛而深刻的影响。用户作为微博的重要组成部分,不同用户所拥有的影响力和网络资源直接反映了其中所蕴含的巨大的商业价值和传播潜力,同时,同一用户在不同主题下影响力也是不一样的,如何有效地衡量各个用户的在不同主题下的用户影响力和综合用户影响力,进而挖掘其中潜在的价值成为一个亟待解决的问题。针对上述问题,本文提出了一种基于关键词的微博消息主题分类方法和基于改进的TwitterRank算法的用户影响力评估方法。本文用到的数据集来自于中国爬盟公开提供的微博消息数据集以及通过新浪微博API获得的一些数据,通过对这些数据进行分析说明,详细说明了数据集的内容,在此基础上,对数据集中的微博消息进行了主题分类,进而为下一步评估主题相关的用户影响力打下基础。TwitterRank算法是在PageRank算法的基础上,通过考虑用户之间的话题相关性和连接关系,用来评估主题相关的Twitter用户的影响力。本文在TwitterRank算法的基础上,针对新浪微博的特点,通过考虑微博的评论、转发、发布时间相似度等因素,对TwitterRank算法进行了改进,使之能够更准确地对用户影响力进行评估。研究结果表明,本文提出的基于关键词的微博消息主题分类方法和基于改进的TwitterRank算法的用户影响力评估方法是有效可行的。在实验过程中,本文采用朴素贝叶斯分类器的文本分类算法作为对照实验,从而验证了基于关键词的微博消息主题分类方法的准确性。针对基于改进的TwitterRank算法的用户影响力评估方法,本文首先对主题相关的用户影响力计算结果进行了分析,分析了用户影响力与关注数、粉丝数、微博数以及微博平均关注度之间的关系,在此基础上,本文进而对用户综合影响力计算结果与关注数、粉丝数、微博数以及微博平均关注度直接的关系进行了分析,最后得出相关的结论。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-16
  1.1 研究背景及意义  10-12
    1.1.1 研究背景  10-11
    1.1.2 问题提出  11
    1.1.3 研究意义  11-12
  1.2 国内外研究现状  12-13
    1.2.1 主题分类研究现状  12
    1.2.2 微博用户影响力研究现状  12-13
  1.3 主要研究内容  13-14
  1.4 论文组织结构  14-16
第2章 相关理论与技术  16-26
  2.1 主题分类与常见算法  16-19
    2.1.1 朴素贝叶斯  16-17
    2.1.2 K近邻分类算法  17
    2.1.3 支持向量机  17-18
    2.1.4 神经网络算法  18-19
    2.1.5 决策树分类算法  19
  2.2 主题模型  19-22
    2.2.1 LDA简介  20
    2.2.2 动态主题模型  20-21
    2.2.3 高阶主题模型  21
    2.2.4 多通路主题模型  21-22
    2.2.5 分布式主题模型  22
  2.3 PageRank算法  22-24
  2.4 关键技术  24-25
    2.4.1 结巴分词  24
    2.4.2 matplotlib  24-25
    2.4.3 NumPy  25
    2.4.4 正则表达式  25
  2.5 本章小结  25-26
第3章 基于关键词的微博消息主题分类  26-42
  3.1 问题提出  26-27
  3.2 基于主题的微博用户影响力整体处理流程  27-28
  3.3 基于关键词的微博消息主题分类分析  28-29
  3.4 基于关键词的微博消息主题分类过程  29-41
    3.4.1 分类标准  29
    3.4.2 关键词的构造  29-34
    3.4.3 微博消息数据预处理  34-38
    3.4.4 微博消息主题分类  38-41
  3.5 本章小结  41-42
第4章 主题相关的用户影响力研究  42-56
  4.1 问题提出  42-43
  4.2 新浪微博与Twitter差异  43
  4.3 TwitterRank算法及其改进  43-47
    4.3.1 TwitterRank算法  44-45
    4.3.2 改进的TwitterRank算法  45-47
  4.4 主题相关的微博用户影响力计算  47-54
    4.4.1 用户主题相似度矩阵计算  47-49
    4.4.2 用户时间相似度矩阵计算  49-51
    4.4.3 微博影响度计算  51-53
    4.4.4 微博用户影响力计算  53-54
  4.5 本章小结  54-56
第5章 实验分析  56-70
  5.1 实验环境  56
  5.2 数据获取与分析  56-61
    5.2.1 数据获取  56-57
    5.2.2 数据存储  57-58
    5.2.3 数据分析  58-61
  5.3 实验结果分析  61-68
    5.3.1 基于关键词的微博消息主题分类  61-66
    5.3.2 主题相关的用户影响力  66-68
  5.4 本章小结  68-70
第6章 结论与展望  70-74
参考文献  74-80
致谢  80-82
攻读学位期间发表的论文  82

相似论文

  1. 基于论文关键词聚类的用户兴趣模型细化方法研究,TP391.3
  2. 基于社会标注的主题分类及排序优化方法研究,TP391.1
  3. 20世纪中美城市文学比较研究,I206.7
  4. 语音端点检测和关键词检出技术的研究,TN912.3
  5. 改革开放以来我国教育观念的变迁,G40
  6. 语音关键词检出技术及置信度问题研究,TN912.34
  7. 企业网站实施搜索引擎优化的基本策略研究,G354.2
  8. 网络社区挖掘技术的研究与应用,TP393.09
  9. 基于网络监听的关键词识别系统的研究与实现,TP391.43
  10. 中文问答系统中问题分类和关键词扩展的研究,TP391.1
  11. 基于数据挖掘的SEM投放模型研究,TP311.13
  12. 伤痕文学的继承与超越,I206.7
  13. 基于FPGA的PID智能控制器的研究,TP273.5
  14. 语音关键词识别技术的研究及应用,TP391.42
  15. 中文搜索引擎营销研究,G354-F
  16. 金属亚波长孔径的增强透射效应,O431
  17. 关系数据库中基于元组的关键词查询研究,TP311.13
  18. 一种垂直元搜索引擎的研究,TP391.3
  19. 基于语料库的中文房地产文本的意义及态度研究,H15
  20. 英语儿童歌谣分类研究,I106.8
  21. “他者”与西方文学批评,I06

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com