学位论文 > 优秀研究生学位论文题录展示

基于标记样本和相似度调整的k均值算法在文本聚类中的应用

作 者: 刘庆超
导 师: 林和平
学 校: 东北师范大学
专 业: 计算机软件与理论
关键词: 半监督学习 半监督聚类 文本聚类 k-means算法
分类号: TP181
类 型: 硕士论文
年 份: 2011年
下 载: 19次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在机器学习领域的众多实际应用中,获得标记样本通常需要付出较大的代价。在一些情况下,获得所有的类标记是非常困难的。近年来,半监督学习已经成为机器学习领域的一个研究热点。半监督学习同时利用标记样本和无标记样本来指导学习过程,从而获得更好的学习性能。有关半监督学习的研究可大致分为两类,即半监督分类和半监督聚类。半监督聚类也就是无监督学习,就是使用少量的标记样本对无标记样本的聚类过程进行指导。本文对聚类的相关技术和半监督学习进行了研究,介绍了文本数据的预处理、距离公式、聚类算法评估准则以及几种k-means算法的扩展算法。本文用随机选择的标记样本作为监督信息,并将标记样本转化为Must-link约束集和Cannot-link约束集,用于重构样本集合的相似度矩阵,重新确定样本之间的相似或不相似的标准。k-means++算法提供了一种有效的聚类种子的选择方法,这种方法的可以降低算法对聚类种子敏感的缺点,其聚类精度明显优于传统的随机选择种子的方法。本文在k-means++算法在初始质心的选择过程中加入了标记样本的影响,提出了一种基于标记样本和相似度调整的k-means算法,并在20-newsgroup和Spam两个数据集上进行了测试,实验结果表明本文提出的算法在聚类结果的精度和执行效率上比Seeded k-means算法和k-means++算法有更好的表现。

全文目录


摘要  4-5
Abstract  5-7
第一章 绪论  7-11
  1.1 研究背景于意义  7-9
  1.2 研究现状  9-10
  1.3 组织结构  10-11
第二章 相关工作  11-19
  2.1 文本处理  11-14
    2.1.1 文本表示与权值  11-13
    2.1.2 特征选择  13-14
  2.2 聚类  14-16
  2.3 距离公式  16-17
  2.4 聚类算法评估  17-18
  2.5 半监督聚类  18-19
第三章 基于标记样例和相似度调整的k-means 算法  19-25
  3.1 相关算法介绍  19-22
    3.1.1 COP k-means 算法  20
    3.1.2 Seeded k-means 算法  20-21
    3.1.3 k-means++算法  21-22
  3.2 基于标记样例和相似度调整的k-means 算法  22-25
    3.2.1 相似度调整  22-23
    3.2.2 选择聚类种子  23-25
第四章 实验  25-32
  4.1 数据集  25-26
  4.2 实验设置  26
  4.3 实验相关工作  26-27
    4.3.1 特征选择  26-27
    4.3.2 评估参数  27
  4.4 实验结果分析  27-32
第五章 总结与展望  32-33
  5.1 总结  32
  5.2 展望  32-33
参考文献  33-36
致谢  36-37
在校期间公开发表的论文  37

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. K-means聚类优化算法的研究,TP311.13
  3. 演化聚类算法及其应用研究,TP311.13
  4. 应用层协议识别和还原方法的研究与实现,TP393.08
  5. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  6. 基于本体的食品投诉文档文本聚类研究,TP391.1
  7. 基于半监督模糊聚类的入侵防御技术研究,TP393.08
  8. 基于最近邻相似度的孤立点检测及半监督聚类算法,TP311.13
  9. 遗传聚类算法在设备缺陷分类中的应用研究,TP311.13
  10. P2P流量识别方法研究,TP393.06
  11. 校园网被控主机的检测系统研究,TP393.08
  12. Web文本聚类与分类算法研究,TP391.1
  13. 基于EGK’M-RBF神经网络的软测量建模与强化学习控制算法的研究,TP274
  14. 结构半监督学习算法及其应用研究,TP181
  15. 文本相似度计算理论与应用研究,TP391.1
  16. 聚类融合算法及其应用研究,TP311.13
  17. 纠错输出编码算法的研究及其应用,TP311.13
  18. 半监督学习及其在MR图像分割中的应用,TP391.41
  19. 跨语言专利文本分析技术研究,G306
  20. 文本分类和聚类若干模型的研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com