学位论文 > 优秀研究生学位论文题录展示
面向主题的博客资源挖掘关键技术研究
作 者: 轩文烽
导 师: 王晓龙
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 博客资源挖掘 主题模型 关键词抽取 聚类分析 preferential PageRank
分类号: TP393.09
类 型: 硕士论文
年 份: 2011年
下 载: 52次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Web2.0时代的到来,用户在互联网上发布信息的门槛变得越来越低,使得互联网上的信息量变得极其庞大。博客作为一种典型的Web2.0应用,以其简单、方便的使用方式吸引着越来越多的用户。在由博客所构成的博客空间中,由于用户可以根据兴趣发表文章记录自己的观点,阅读他人的文章并给出评论,使得博客空间中蕴含了大量的关于主题(或者兴趣)的信息。在这种情况下,用户从这些海量数据中获取自己想要的信息是非常困难的。因此,如何从这些海量博客数据中挖掘出对用户有价值的信息就变得十分重要。为此,本文研究了三个问题,主要研究内容包括以下几个方面:第一,本文在分析了现有关键词抽取算法依赖于外部资源和具体文本格式的局限性之后,提出了一种基于主题模型Latent Dirichlet Allocation(LDA)的博文关键词抽取算法,并通过与TFIDF和层次隐马尔科夫模型(HierarchicalHidden Markov Model, HHMM)的对比实验对该算法的有效性进行了验证,最后利用皮尔逊相关系数从关键词权重与其词频之间的线性相关程度这一角度分析了算法优越性的原因。第二,本文通过对四种典型聚类算法K-means、K-means++、AffinityPropagation和Markov Cluster的对比分析,优选出更适合于本文具体应用的算法Markov Cluster;并在此基础上,设计了一个三层算法用于对博客文章进行主题聚类,自动生成聚类结果的描述信息;最后通过对比实验对算法的有效性和稳定性进行了验证。第三,本文在传统链接分析的基础上,结合博客空间的具体特征——评论和转载现象,提出了一种融合评论和正文相似性信息的博客排序算法,并通过在两个真实博客数据集上的对比实验对该算法的有效性和稳定性进行了验证。结果显示,本文所提出的算法在Normalized Discounted Cumulative Gain(NDCG)指标下,与传统链接分析方法相比,分别获得了17%和29%的性能提升,同时具有比较好的稳定性。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第1章 绪论 9-15 1.1 课题研究的背景和意义 9-10 1.2 国内外研究现状 10-14 1.2.1 关键词抽取算法研究现状 10-12 1.2.2 博文聚类算法研究现状 12-13 1.2.3 博客排序算法研究现状 13-14 1.3 研究内容及论文结构安排 14-15 第2章 基于LDA 的博文关键词抽取算法研究 15-25 2.1 引言 15 2.2 主题模型LDA 简介 15-16 2.3 基于LDA 的博文关键词抽取算法描述 16-17 2.4 评价指标 17-18 2.5 实验及结果分析 18-24 2.6 本章小结 24-25 第3章 面向主题的博文聚类算法研究 25-38 3.1 引言 25 3.2 聚类算法简介 25-30 3.2.1 K-means 算法 25-26 3.2.2 K-means++算法 26-27 3.2.3 Affinity Propagation 算法 27-29 3.2.4 Markov Cluster 算法 29-30 3.3 聚类算法的选择 30-36 3.3.1 聚类算法的选择标准 30-31 3.3.2 实验及结果分析 31-36 3.4 本章小结 36-38 第4章 融合评论与正文相似性信息的博客排序算法研究 38-53 4.1 引言 38 4.2 融合评论与正文相似性信息的博客排序算法描述 38-43 4.2.1 Preferential PageRank 算法 38-39 4.2.2 以博客为结点的图的构造 39-40 4.2.3 用户对博客偏好程度的先验概率p 的计算 40-43 4.3 评价指标 43-44 4.4 实验及结果分析 44-52 4.4.1 TUAW 数据集 45-47 4.4.2 Cnblogs 数据集 47-52 4.5 本章小结 52-53 结论 53-55 参考文献 55-60 攻读硕士学位期间发表的学术论文 60-62 致谢 62
|
相似论文
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 南通市农业面源污染负荷研究与综合评价,X592
- 土壤环境功能区划研究,X321
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 大豆杂种优势及其遗传基础研究,S565.1
- 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于同化能力杂种优势早期评价的桃光合特性研究,S662.1
- 云南省直管县改革研究,D630
- 基于分治法的聚类方法研究,TP311.13
- 三十种中成药元素含量分析及基于元素含量的中成药分类研究,R286.0
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
- 重庆文化产业竞争力研究,F224
- 草原公路光环境对驾驶员生理指标的影响研究,U491.254
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|