学位论文 > 优秀研究生学位论文题录展示

基于数据挖掘的博客球聚类研究

作 者: 季文韬
导 师: 陈汶滨
学 校: 西南石油大学
专 业: 计算机软件与理论
关键词: 博客球 数据挖掘 k-means聚类 奇异值分解
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 76次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着Web2.0概念的出现,很多基于Web2.0技术的应用系统伴随而生,博客就是其中最典型的应用之一。近几年来,博客作为一种新兴事物,正推动整个互联网业的快速发展,据媒体报道互联网上的博客数量在急剧的增长。现代博客是由互联网上的个人日记演化过来的。人们用博客来记录他们的日常个人生活,并在博文里发表他们的体会、感想以及他们对任何感兴趣的话题发表的看法。博客球是包含所有博客的社区或社交网络的集合名词。博客球作为一个巨大的信息数据库,正在引起商务精英、政府部门领导和科研人员的高度重视。虽然对博客的研究才刚刚起步,但本文可以借用在其它领域里已经证明非常有效的方法来研究博客球。本文提出的面向博客球的数据挖掘方法,将会对社会的很多方面产生积极的影响。特别是对政府决策部门及时准确地了解民情,了解人民的疾苦,避免群体事件,遏制恶性事件,将起到十分重要的作用。针对博客内容多样性和个性化的特点,本文将对博客球进行挖掘和聚类分析。这些工作包括对博客内容的信息传递的分析,对博客发展趋势的分析,对博客作者兴趣的聚类对比分析等。本文把博客球看成是一个超大型的原始数据库,通过搭建了博客球数据库的集群环境,建立大型博客球矩阵,分析博客各个指标在矩阵中的权重从而确定矩阵元素。由于博客发表者往往都是非专业的作者,所以很多博客文章不是很规范,因此博客文本中的语言不完整,甚至包含些许错误,如用词不当,同义词使用,或者打字时不小心敲入错别字等噪音数据。本文将采用奇异值分解(SVD)来对文本向量矩阵降噪,即除去噪音。利用SVD和NMF矩阵分解对这个数据库矩阵进行降维去噪等数据挖掘,并利用k-means聚类算法对这些信息进行聚类分析,从中发现有用的知识和信息,通过对比分析实验结果,找出有效的博客球聚类方法。因此,本文的研究结果对于掌握网络领域的发展动态,提供个性化的网络服务,提高用户体验等都具有十分重要的研究价值和现实意义。本文的研究对于开拓一个新的研究领域,提供有效的博客球数据挖掘算法,为社会服务,对于促进博客相关的研究与应用的发展将具有重要的意义。

全文目录


摘要  3-4
Abstract  4-7
第1章 绪论  7-12
  1.1 本文的研究背景及意义  7-8
  1.2 国内外研究现状  8-9
  1.3 本文的主要工作  9-10
  1.4 本文的研究目标  10
  1.5 本文的组织结构  10-12
第2章 博客与博客球的结构、特征分析  12-15
  2.1 博客概念定义  12
  2.2 博客的结构特点  12-13
  2.3 博客相关术语  13-14
    2.3.1 发布时间  13
    2.3.2 博客评论  13-14
    2.3.3 博客链接  14
  2.4 小结  14-15
第3章 博客球数据库的建立  15-20
  3.1 集群环境的建立  15-16
  3.2 分布式控制器系统  16-17
  3.3 页面抓取器系统  17-18
  3.4 负载平衡  18
  3.5 故障恢复  18-19
  3.6 系统部署和数据库搭建  19
  3.7 小结  19-20
第4章 SVD和NMF算法在博客球数据挖掘聚类中的应用  20-31
  4.1 数据预处理  20-21
  4.2 博客球向量空间模型的建立  21-23
    4.2.1 向量空间模型定义  21
    4.2.2 文本分词及权重计算  21-23
  4.3 SVD奇异值分解  23-26
  4.4 NMF非负矩阵分解  26
  4.5 矩阵运算相关代码  26-30
  4.6 小结  30-31
第5章 数据挖掘中聚类的典型算法分析与应用  31-39
  5.1 聚类概念  31
  5.2 k-means聚类算法  31-33
  5.3 k-means算法代码示例  33-37
  5.4 数据库表的设计  37-38
  5.6 小结  38-39
第6章 博客球数据挖掘聚类的研究  39-49
  6.1 博客数据挖掘的原理  39
  6.2 博客数据挖掘的流程  39-42
    6.2.1 博客信息提取  39
    6.2.2 文本矩阵建立  39-40
    6.2.3 特征值提取  40
    6.2.4 建立向量空间  40-41
    6.2.5 k-means聚类操作  41-42
  6.3 SVD对向量空间进行降维  42-44
  6.4 NMF对向量空间进行降维  44-45
  6.5 实验结果分析  45-48
    6.5.1 博客球聚类准确率对比试验  45-47
    6.5.2 读者评论对博客球聚类的影响试验  47-48
  6.6 小结  48-49
第7章 结论及展望  49-51
  7.1 结论  49
  7.2 不足与展望  49-51
致谢  51-52
参考文献  52-55
攻读硕士学位期间发表的论文  55

相似论文

  1. 机载导弹的传递对准研究,V249.322
  2. 基于数据挖掘技术的保健品营销研究,F426.72
  3. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  4. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  5. Bicluster数据分析软件设计与实现,TP311.52
  6. 基于变异粒子群的聚类算法研究,TP18
  7. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  8. 基于遗传算法和粗糙集的聚类算法研究,TP18
  9. 基于机器视觉的车辆检测和车距测量方法研究,TP274
  10. 基于数据挖掘的税务稽查选案研究,F812.42
  11. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  12. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  13. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  14. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  15. 教学质量评估数据挖掘系统设计与开发,TP311.13
  16. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  17. 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
  18. 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
  19. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  20. 基于粒子群优化的Fuzzy c-mean聚类算法的基因芯片图像处理,TP391.41
  21. 数据挖掘在学校管理和学生培养中的应用,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com