学位论文 > 优秀研究生学位论文题录展示
基于簇相合性的文本增量聚类算法研究
作 者: 陶舒怡
导 师: 王明文
学 校: 江西师范大学
专 业: 计算机科学与技术
关键词: 增量聚类 簇特征 语义相似度 相合性
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 7次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,随着互联网的飞速发展,网上的信息数据也随之呈指数级增长。为有效应用互联网上的海量数据,人们迫切需要一些有力的组织和管理工具,文本聚类技术正是其中的一种。传统聚类方法的模式是基于对所有对象进行同时处理,一旦有数据更新或有新的数据需处理,算法就必须对整个数据集重新聚类。因而这种模式时间复杂度非常高,且只适合处理静态数据,而不适合动态数据的聚类。增量聚类则可较好地处理动态数据,在数据不断更新或增长的情况下,通过扩充已有的聚类结果,可避免大量重复计算,从而减少处理时间,并最终提高聚类性能。本文提出了一种新的基于簇相合性的文本增量聚类算法,它首先利用WordNet计算出每两个词项之间的语义相似度,在统计词项出现频率时,以一定准则累加与它相近词的出现频率,这样能够更准确地为词项分配频率权重。然后计算每个新增文本与所有已有簇之间的相合性,这不仅是简单地计算文本与簇心之间的相似度,同时还考虑到了每个簇之间的相似性。算法将文本加入到相合性得分最高的簇中,并更新所属簇的簇心、均值、方差等特征信息。为进一步提高聚类性能,一旦增量处理完一部分文本,算法将以同样的方式对其中不确定划分的文本进行重新分配。若有文本仍不能确定其类别,则将它加入到与之有最大相合性的簇中,这种情况并不更新该簇的簇心,以避免错误分类造成的结果偏差。本文工作主要如下:1)使用基于词项语义相似度的文本模型。它不仅统计了每个词项的出现频率,而且还根据词项之间的相似度,增加其近义词的词频,从而更加准确地分配词项频率权重。2)提出基于簇相合性的文本增量聚类算法,并使用一种新的方法来计算文本与簇之间的相合性。算法在20newsgroups数据集上进行实验验证,并与经典聚类算法k-means以及新近提出的基于相似度直方图的增量聚类算法进行了对比;使用的评价指标分别为纯度、熵、归一化互信息。此外,我们还详细分析了阈值对算法性能产生的影响。实验结果表明,三个评价指标均显示,本文提出的算法总体效果要优于对比算法,且相较于k-means,计算时间复杂度也大大降低。
|
全文目录
摘要 3-4 Abstract 4-8 1 引言 8-12 1.1 研究背景 8 1.2 研究现状及研究意义 8-10 1.3 本文的工作 10 1.4 论文组织 10-12 2 文本挖掘和文本聚类概述 12-24 2.1 文本挖掘概述 12-13 2.2 文本挖掘的过程 13-17 2.2.1 预处理 13-14 2.2.2 特征提取 14-15 2.2.3 挖掘分析 15-17 2.3 文本表示 17-20 2.3.1 词项频率及权重 17-18 2.3.2 文本表示方法 18-20 2.4 文本聚类概述 20-22 2.5 本章小结 22-24 3 基于簇相合性的文本增量聚类 24-30 3.1 相关研究 24-26 3.1.1 文本增量聚类 24-25 3.1.2 WordNet 简介 25 3.1.3 词项语义相似度 25-26 3.2 基于簇相合性的文本增量聚类算法 26-29 3.2.1 簇信息 26-27 3.2.2 文本与簇的相合性 27-28 3.2.3 增量聚类阶段 28 3.2.4 文本重新分配 28-29 3.3 本章小结 29-30 4 实验结果及分析 30-46 4.1 实验数据 30-31 4.1.1 实验数据集 30 4.1.2 数据预处理 30-31 4.2 评价指标 31 4.2.1 纯度 31 4.2.2 熵 31 4.2.3 归一化互信息 31 4.3 实验结果与分析 31-43 4.3.1 10 个类别的实验 31-33 4.3.2 20 个类别的实验 33-35 4.3.3 与 SHC 算法聚类结果的对比 35 4.3.4 时间加速比 35-38 4.3.5 阈值对算法聚类性能的影响 38-41 4.3.6 阈值对算法聚类性能的影响 41-43 4.4 本章小结 43-46 5 总结与展望 46-48 5.1 总结 46-47 5.2 未来工作 47-48 参考文献 48-54 致谢 54-56 在学期间公开发表论文(著)及科研情况 56
|
相似论文
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- 广义线性模型的若干问题研究,O212.1
- 广义线性模型的渐近理论,O212.1
- 基于链接重要性的动态链接预测算法研究,TP393.03
- 基于本体的智能电网知识检索系统,TM76
- 基于相对密度的聚类算法研究,TP311.13
- 基于接口匹配的语义Web服务发现方法研究,TP391.1
- 有缺失协变量的相对危险率模型的估计理论及其渐近性质,O212.1
- 数字遥感图像解译分类方法研究,TP751
- 增量文本聚类在舆情监控中的研究与实现,TP391.1
- 中文文本聚类算法的研究与实现,TP391.1
- 缺失纵向数据下半参数回归模型的分析研究,O212.1
- FCM聚类及其增量算法的研究,TP311.13
- 缺失数据情形非参数回归函数的估计,O212.1
- SOA中基于负载均衡的语义Web服务匹配机制研究与应用,TP393.09
- 拟似然非线性模型理论的进一步研究,O211.67
- 纵向数据模型选择的Lagrange乘子法,O212.1
- 基于超链数据的中医药语义查询系统,TP391.1
- 带有缺失数据统计模型的估计和检验,O212.1
- 基于增量聚类和ReliefF的特征选择方法,TP391.4
- 函数空间上的近邻域估计的渐近性质,O174
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|