学位论文 > 优秀研究生学位论文题录展示
社会化媒体内容关注度分析与建模方法研究
作 者: 周仁杰
导 师: 王慧强
学 校: 哈尔滨工程大学
专 业: 计算机应用技术
关键词: 社会化媒体 社会关注度 预取缓存 传播模型 社会关注度提高
分类号: TP393.0
类 型: 博士论文
年 份: 2012年
下 载: 763次
引 用: 1次
阅 读: 论文下载
内容摘要
社会化媒体近年来得到极大发展,已经在整个互联网中占据主流地位。根据世界著名流量统计网站Alexa的数据,全球访问量排名前十的网站中,有五个是社会化媒体网站。社会化媒体的空前发展和应用,孕育了大量新的研究领域,比如催生了新的信息技术研究,促进了针对人类社会行为规律的理论研究。2009年Science杂志发表了题为《计算社会学》的文章,标志着计算科学和社会科学的交叉领域已成为国际前沿研究热点,而社会关注度是其中最为重要的研究领域之一。社会关注度分布及动态增长特性的研究不仅能够加深对人类宏观行为规律的理解,而且对于理解和提升诸如预取缓存、P2P网络、搜索引擎和推荐系统的性能具有重要的理论价值。本文在社会关注度分布特征分析、社会关注度传播过程特性、基于社会关注度分布特性的预取缓存技术以及提高社会关注度方法等问题上进行了深入的研究。首先,分析了多来源社会关注度分布的若干特征以及各来源对社会关注度分布的影响。社会化媒体内容规模巨大,并且具有高度动态性和高度分散性的特点,可能使得传统的分布模型和预测方法失效。本文从全局和局部两个层面同时对多来源社会关注度整体分布特征进行了分析,发现了全局和局部社会关注度分布的差异。在此基础上,深入分析了不同来源对社会关注度分布的影响,结果表明搜索引擎和推荐系统是社会关注度的两大主要来源,并且搜索引擎倾向于加剧“马太效应”,而推荐系统则有助于减轻“马太效应”。该研究成果有助于回答学术界所广泛关心的搜索引擎和推荐系统如何影响被观看媒体内容多样性的问题。其次,提出了基于用户行为模型聚类(Clustered User Behavior Model, CUBM)的媒体对象预取缓存方法。本文借助PlanetLab平台测量和分析了社会化多媒体网站在传送大尺寸多媒体对象时出现频繁中断的问题,论述了采用预取缓存技术的必要性。在此基础上,提出一种基于用户行为模型聚类(CUBM)的媒体对象预取缓存方法。该方法将行为模式类似的用户归类并分别建立Markov链,克服了传统方法未能体现用户差异以及在局部代理部署时覆盖率不高的缺点,并且抓住了活跃用户比不活跃用户倾向于观看更多内容的事实,从而提高了预取的准确率和命中率。再次,提出了基于随机游走的社会关注度传播模型(Random Walk based PopularityPropagation Model, RWPPM)。为了深入理解媒体对象如何通过媒体对象关系网影响对方的社会关注度,本文提出了一个基于随机游走的社会关注度传播模型。随后分析了模型的收敛条件,论述了模型的功能并验证了模型的正确性。在此基础上,运用RWPPM模型对YouTube视频网络中视频间社会关注度的相互影响力及其特征进行了分析。最后,提出了一种基于KTK (Keywords-Topics-Keywords)关键词推荐的社会关注度提高方法。分析了媒体对象标识文本关键词在搜索引擎检索和推荐系统推荐媒体对象中的重要性。进而研究了媒体对象关系网的簇结构以及各簇主要关键词代表话题的能力。在此基础上,提出一种遵循“关键词—主题—关键词”思路,兼顾相关度和社会关注度的KTK关键词推荐算法。最后,实验结果表明所推荐关键词能够大幅提高媒体对象的社会关注度。
|
全文目录
摘要 5-7 Abstract 7-13 第1章 绪论 13-30 1.1 研究背景和意义 13-14 1.2 国内外研究现状 14-28 1.2.1 社会化媒体的发展 14-19 1.2.2 社会关注度研究现状 19-27 1.2.3 存在的问题 27-28 1.3 论文研究内容与组织结构 28-30 第2章 多来源社会关注度分布特征分析 30-44 2.1 引言 30-31 2.2 数据集 31-35 2.2.1 数据类型 31-32 2.2.2 数据采集 32-33 2.2.3 数据代表性 33-35 2.3 社会关注度分布特点分析 35-40 2.3.1 全局分布特点分析 35-39 2.3.2 局部分布特点分析 39-40 2.4 各来源对社会关注度分布的影响分析 40-43 2.4.1 对总体分布影响分析 40-41 2.4.2 对个体份额影响分析 41-43 2.5 本章小结 43-44 第3章 基于 CUBM 的媒体对象预取缓存方法研究 44-69 3.1 引言 44-45 3.2 预取缓存必要性分析 45-51 3.2.1 数据采集 46-47 3.2.2 断点分析 47-51 3.3 预取缓存架构 51-53 3.4 基于CUBM的媒体对象预取方法 53-62 3.4.1 用户行为建模方法 53-55 3.4.2 基于全局行为模型计算相关度 55-58 3.4.3 用户行为模型聚类 58-60 3.4.4 基于 CUBM 的预取算法 60-62 3.5 实验结果与分析 62-67 3.5.1 实验数据集 62-63 3.5.2 实验方案 63 3.5.3 参照算法 63-64 3.5.4 实验结果 64-67 3.7 本章小结 67-69 第4章 基于随机游走的社会关注度传播模型 69-83 4.1 引言 69-70 4.2 背景知识 70-71 4.2.1 传播机制分类 70 4.2.2 随机游走模型 70-71 4.3 基于随机游走的社会关注度传播模型(RWPPM) 71-76 4.3.1 RWPPM 模型的建立 71-73 4.3.2 RWPPM 模型收敛性分析 73-74 4.3.3 与相关模型功能比较 74-76 4.4 RWPPM模型验证与应用 76-82 4.4.1 数据集采集 76-77 4.4.2 模型参数估算 77 4.4.3 模型的验证 77-78 4.4.4 基于 RWPPM 的社会关注度传播特性分析 78-82 4.5 本章小结 82-83 第5章 基于 KTK 算法的社会关注度提高方法 83-103 5.1 引言 83-84 5.2 关键词作用的分析 84-90 5.2.1 搜索依据分析 84-87 5.2.2 推荐依据分析 87-90 5.3 基于聚类分析和TFIDF的主题提取方法 90-98 5.3.1 聚类算法的选择 90-91 5.3.2 基于 MCL 的结点聚类 91-94 5.3.3 基于 TFIDF 的主题提取 94-98 5.4 基于KTK算法的社会关注度提高方法 98-99 5.5 实验与结果分析 99-102 5.5.1 相关性评估 99-101 5.5.2 有效性评估 101-102 5.6 本章小结 102-103 结论 103-105 参考文献 105-115 攻读博士学位期间发表的论文和取得的科研成果 115-117 致谢 117
|
相似论文
- 宁波临港地区无线电监测网络规划研究和实现,TN98
- 复杂网络上计算机病毒传播研究,TP393.08
- 基于多移动Agent的大规模网络恶意代码防御机制的研究,TP393.08
- 移动通信中室外天线的覆盖效果及干扰研究,TN929.5
- 海量存储系统中并行文件系统的测试与优化,TP333
- 改进的粒子群算法在传播模型校正中的应用研究,TP18
- 基于复杂网络的病毒传播研究,O242.1
- 基于WSN的铁轨监测设计与仿真,TP274
- 面向社会网络的信息传播模型研究,TP393.09
- 社会化媒体环境中记者的社会角色研究,G214
- P2P网络资源传播模型分析及监测研究,TP393.02
- 基于缓存预取在线考试系统的分析与实现,TP311.52
- VANET网络中无线衰落信道建模及链路性能评估,TN929.5
- 基于WCDMA无线链路覆盖的研究,TN929.533
- 联想公司社会化CRM体系优化策略,F626
- 流媒体分类播放技术研究与设计,TN919.8
- 基于社会化媒体的自适应信息推荐机制研究,TP391.3
- 我国内部控制的社会关注度比较研究,F275
- 有向局域世界模型的构建与应用研究,O157.5
- TD-SCDMA网络规划设计,TN929.533
- 基于对象关系映射的数据持久层框架的改进设计与实现,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题
© 2012 www.xueweilunwen.com
|