学位论文 > 优秀研究生学位论文题录展示
微博社区的用户节点影响力评估-以新浪微博为例
作 者: 唐飞龙
导 师: 肖春
学 校: 湘潭大学
专 业: 计算机科学与技术
关键词: 相对微力值 相对链接质量 PageRank User Impack Rank
分类号: TP393.092
类 型: 硕士论文
年 份: 2013年
下 载: 158次
引 用: 0次
阅 读: 论文下载
内容摘要
目前中文微博是各种社交网络和社会媒体交流的一种重要方式,是web2.0时代的最典型的应用。2009年8月,新浪微博正式上线,并迅速发展成为中国的主流微博,它通过即时通迅方式发布长度不超过140字的内容。随着科技的发展,用户可以通过手机,平板,IM软件和外部API接口等途径发布自己的微博信息。2011年根据CNNIC统计新浪注册用记数已经突破3亿。在微博复杂的的社会网络中,我们主要研究的是各博主的用户行为及关系(包括博主的发贴,博主的粉丝和关注数,活跃频率等)。我们关注那些有较强影响力的博主,进一步分析与这些强影响力博主的有关系的其他用户连接,通常情况下当连接数越多就认为该博主的角色程度越大,反之越小。由于微博各种商业化的形成,导致这种通常情况下的判断出现了较大的偏差,传统的PageRank算法是一种基于网页链接数平均分配PR值的网页排序算法,将此算法直接用于微博用户影响力排序,必定会产生很多的问题。本文基于微博特有的用户关系网络和用户互动行为,设计出一种新的用户节点影响力评估方法—User Impact Rank算法。本文在对比传统排序算法的基础上,进行了三方面的分析和研究:第一,新用户的歧视性。近两年微博用户迅猛增加,微博用户的增加使其整个网络间的关系更为复杂,微博用户影响力的评估也变的更加困难,老用户由于加入微博社区的时间比新用户长,他们的粉丝数和发的微博数都占很大的优势,老用户发的微博引起的用户间的互动也会在某一小范围内高于新用户发的微博,但是某些新用户的影响力明显会高于老用户的影响力,传统排序算法没有考虑到这一点。本文提出了节点相对微力值的概念,考虑到了某些新用户发的微博能够引起交互的持久性和多级转发,形成更大范围的影响,这是大多数老用户的微博所不及的,以此来提高新用户的影响力。第二,粉丝量变引起用户质变。微博用户的粉丝数是衡量用户影响力的一个重要标准,但是并不是唯一标准。如果两个用户的粉丝数相差甚远,且经传统算法排序得出他们的影响力值相同,但我们更希望看到的结果是用户粉丝数少的那个用户,影响力值应该更胜一筹。因为用户粉丝数少的粉丝质量高,因此该用户的话语权应该比另一用户高。本文提出了节点相对链接质量的概念,考虑到节点入链和节点本身的PR值信息,结合网络中节点的链接结构处理后,提高拥有高质量粉丝的用户节点的影响力值。第三,水军和僵尸粉干扰。大体而言,如果博主粉丝越多,意味着收听该博主的人数越多,其影响力就越大。但是,中文微博具有两个独特的现象:⑴很多大“V”博主,尤其是一些社会人士,购买数量庞大的僵尸粉丝来营造他们在微博上的虚假影响;⑵一些团队建立庞大的机器帐号来人为地形成扩散和热区,即所谓的“水军”。虚假的用户及虚假的交互行为导致了粉丝数衡量博主影响力的方法很多情况下失效。本文提出了基于用户质量的User Impact Rank算法,综合考虑到僵尸粉丝发帖少、不活跃、影响力低,因而对博主的影响力贡献小,大量水军来袭缺乏交互的持久性和二次传播的作用,对博主所有发帖的影响力贡献也小,有效的解决了水军和僵尸粉对节点影响力评估的干扰。我们的研究是基于微博社区用户关系网和用户间的交互行为,本文详细介绍了传统PageRank算法,Behavior-Relationship Rank算法和User Impact Rank算法(UIR)的原理,并且通过实验部分给出了三算法的实验结果对比。很好的证明了User Impact Rank算法能有效的弥补上面的不足,更加客观、准确的进行用户节点影响力评估。
|
全文目录
摘要 4-6 Abstract 6-10 第1章 引言 10-14 1.1 本文的研究背景和意义 10-11 1.2 国内外研究 11-12 1.3 本文的主要工作 12-13 1.4 本文组织结构 13-14 第2章 微博社交网络研究综述 14-24 2.1 复杂网络 14-18 2.1.1 复杂网络的研究内容 14-15 2.1.2 复杂网络的基本概念和特性 15-17 2.1.3 WS 和 NW 小世界模型分析 17-18 2.2 社会网络和社会网络分析 18-21 2.2.1 社会网络基本概念 18-19 2.2.2 社会网络分析基本原理和数学表达形式 19-21 2.2.3 社会网络和复杂网络的联系和区别 21 2.3 微博发展概述 21-24 第3章 新浪微博网络结构和用户特性分析 24-41 3.1 微博社区数据集 24-28 3.1.1 获取新浪数据集方案 24-26 3.1.2 数据集描述和分析 26-28 3.2 微博网络特性 28-33 3.2.1 微博社区用户节点交互方式 28-29 3.2.2 用户节点出度分析 29-30 3.2.3 用户节点入度分析 30-31 3.2.4 节点平均聚类系数 31-32 3.2.5 节点平均路径长度 32-33 3.3 人类行为动力学 33-41 3.3.1 微博用户行为特性分析 34-38 3.3.2 微博用户活跃度分析 38-41 第4章 微博网络节点影响力评估 41-58 4.1 PageRank 算法 41-45 4.1.1 Pagerank 算法背景与应用 41 4.1.2 PageRank 算法基本原理 41-45 4.1.3 PageRank 算法的优缺点 45 4.2 Behavior-Relationship Rank 算法 45-49 4.2.1 Behavior-Relationg Rank 算法背景与应用 45 4.2.2 Behavior-Relationship Rank 算法基本原理 45-49 4.2.3 Behavior-Relationship Rank 算法优缺点 49 4.3 基于用户质量的博主影响力评估算法 49-58 4.3.1 用户相对微力值 50-53 4.3.2 用户相对链接质量 53-56 4.3.3 User Impact Rank 算法 56-58 第5章 实验及结果分析 58-67 5.1 微博社区“大学那些事”数据集分析 58-60 5.2 用户影响力评估标准 60-61 5.3 实验结果 61-65 5.4 User Impact Rank 算法的不足 65-67 第6章 结束语 67-69 6.1 论文工作总结 67-68 6.2 进一步的研究工作 68-69 参考文献 69-72 致谢 72-73 攻读硕士期间发表的学术论文和参加科研情况 73
|
相似论文
- 主题搜索引擎关键技术研究,TP391.3
- 基于搜索引擎网页排序算法研究,TP391.3
- 基于链接结构分析的Web页面排序算法,TP393.092
- Web结构挖掘研究,TP393.09
- 搜索引擎主题相关性研究,TP391.3
- 基于点击数据分析的个性化搜索引擎研究,TP391.3
- 基于数据挖掘技术的网络社区发现方法的研究与实现,TP393.094
- 基于查询扩展的垂直搜索研究,TP391.3
- 一种新的Web结构挖掘算法的研究,TP311.13
- 基于链接分析的PageRank排序算法的改进研究,TP391.3
- 基于云计算的Web结构挖掘算法研究,TP311.13
- 面向主题的博客资源挖掘关键技术研究,TP393.09
- 基于搜索算法的Web安全,TP393.08
- DistanceRank与HITS混合的网页排序算法研究,TP393.092
- 一种改进的Web社区挖掘算法,TP393.094
- 基于手机图片搜索引擎的设计与实现,TP391.3
- 基于谷歌矩阵第二特征值重数的两类外推加速算法,O151.21
- PageRank的算法改进,TP301.6
- 基于Web信息挖掘的企业竞争情报系统的研究,F272
- 搜索引擎中的Pagerank排序算法研究分析,O223
- PageRank算法在非网页检索问题中的应用,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|