学位论文 > 优秀研究生学位论文题录展示
基于标记样本和相似度调整的k均值算法在文本聚类中的应用
作 者: 刘庆超
导 师: 林和平
学 校: 东北师范大学
专 业: 计算机软件与理论
关键词: 半监督学习 半监督聚类 文本聚类 k-means算法
分类号: TP181
类 型: 硕士论文
年 份: 2011年
下 载: 19次
引 用: 0次
阅 读: 论文下载
内容摘要
在机器学习领域的众多实际应用中,获得标记样本通常需要付出较大的代价。在一些情况下,获得所有的类标记是非常困难的。近年来,半监督学习已经成为机器学习领域的一个研究热点。半监督学习同时利用标记样本和无标记样本来指导学习过程,从而获得更好的学习性能。有关半监督学习的研究可大致分为两类,即半监督分类和半监督聚类。半监督聚类也就是无监督学习,就是使用少量的标记样本对无标记样本的聚类过程进行指导。本文对聚类的相关技术和半监督学习进行了研究,介绍了文本数据的预处理、距离公式、聚类算法评估准则以及几种k-means算法的扩展算法。本文用随机选择的标记样本作为监督信息,并将标记样本转化为Must-link约束集和Cannot-link约束集,用于重构样本集合的相似度矩阵,重新确定样本之间的相似或不相似的标准。k-means++算法提供了一种有效的聚类种子的选择方法,这种方法的可以降低算法对聚类种子敏感的缺点,其聚类精度明显优于传统的随机选择种子的方法。本文在k-means++算法在初始质心的选择过程中加入了标记样本的影响,提出了一种基于标记样本和相似度调整的k-means算法,并在20-newsgroup和Spam两个数据集上进行了测试,实验结果表明本文提出的算法在聚类结果的精度和执行效率上比Seeded k-means算法和k-means++算法有更好的表现。
|
全文目录
摘要 4-5 Abstract 5-7 第一章 绪论 7-11 1.1 研究背景于意义 7-9 1.2 研究现状 9-10 1.3 组织结构 10-11 第二章 相关工作 11-19 2.1 文本处理 11-14 2.1.1 文本表示与权值 11-13 2.1.2 特征选择 13-14 2.2 聚类 14-16 2.3 距离公式 16-17 2.4 聚类算法评估 17-18 2.5 半监督聚类 18-19 第三章 基于标记样例和相似度调整的k-means 算法 19-25 3.1 相关算法介绍 19-22 3.1.1 COP k-means 算法 20 3.1.2 Seeded k-means 算法 20-21 3.1.3 k-means++算法 21-22 3.2 基于标记样例和相似度调整的k-means 算法 22-25 3.2.1 相似度调整 22-23 3.2.2 选择聚类种子 23-25 第四章 实验 25-32 4.1 数据集 25-26 4.2 实验设置 26 4.3 实验相关工作 26-27 4.3.1 特征选择 26-27 4.3.2 评估参数 27 4.4 实验结果分析 27-32 第五章 总结与展望 32-33 5.1 总结 32 5.2 展望 32-33 参考文献 33-36 致谢 36-37 在校期间公开发表的论文 37
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- K-means聚类优化算法的研究,TP311.13
- 演化聚类算法及其应用研究,TP311.13
- 应用层协议识别和还原方法的研究与实现,TP393.08
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 基于半监督模糊聚类的入侵防御技术研究,TP393.08
- 基于最近邻相似度的孤立点检测及半监督聚类算法,TP311.13
- 遗传聚类算法在设备缺陷分类中的应用研究,TP311.13
- P2P流量识别方法研究,TP393.06
- 校园网被控主机的检测系统研究,TP393.08
- Web文本聚类与分类算法研究,TP391.1
- 基于EGK’M-RBF神经网络的软测量建模与强化学习控制算法的研究,TP274
- 结构半监督学习算法及其应用研究,TP181
- 文本相似度计算理论与应用研究,TP391.1
- 聚类融合算法及其应用研究,TP311.13
- 纠错输出编码算法的研究及其应用,TP311.13
- 半监督学习及其在MR图像分割中的应用,TP391.41
- 跨语言专利文本分析技术研究,G306
- 文本分类和聚类若干模型的研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|