学位论文 > 优秀研究生学位论文题录展示

基于簇相合性的文本增量聚类算法研究

作 者: 陶舒怡
导 师: 王明文
学 校: 江西师范大学
专 业: 计算机科学与技术
关键词: 增量聚类 簇特征 语义相似度 相合性
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 7次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,随着互联网的飞速发展,网上的信息数据也随之呈指数级增长。为有效应用互联网上的海量数据,人们迫切需要一些有力的组织和管理工具,文本聚类技术正是其中的一种。传统聚类方法的模式是基于对所有对象进行同时处理,一旦有数据更新或有新的数据需处理,算法就必须对整个数据集重新聚类。因而这种模式时间复杂度非常高,且只适合处理静态数据,而不适合动态数据的聚类。增量聚类则可较好地处理动态数据,在数据不断更新或增长的情况下,通过扩充已有的聚类结果,可避免大量重复计算,从而减少处理时间,并最终提高聚类性能。本文提出了一种新的基于簇相合性的文本增量聚类算法,它首先利用WordNet计算出每两个词项之间的语义相似度,在统计词项出现频率时,以一定准则累加与它相近词的出现频率,这样能够更准确地为词项分配频率权重。然后计算每个新增文本与所有已有簇之间的相合性,这不仅是简单地计算文本与簇心之间的相似度,同时还考虑到了每个簇之间的相似性。算法将文本加入到相合性得分最高的簇中,并更新所属簇的簇心、均值、方差等特征信息。为进一步提高聚类性能,一旦增量处理完一部分文本,算法将以同样的方式对其中不确定划分的文本进行重新分配。若有文本仍不能确定其类别,则将它加入到与之有最大相合性的簇中,这种情况并不更新该簇的簇心,以避免错误分类造成的结果偏差。本文工作主要如下:1)使用基于词项语义相似度的文本模型。它不仅统计了每个词项的出现频率,而且还根据词项之间的相似度,增加其近义词的词频,从而更加准确地分配词项频率权重。2)提出基于簇相合性的文本增量聚类算法,并使用一种新的方法来计算文本与簇之间的相合性。算法在20newsgroups数据集上进行实验验证,并与经典聚类算法k-means以及新近提出的基于相似度直方图的增量聚类算法进行了对比;使用的评价指标分别为纯度、熵、归一化互信息。此外,我们还详细分析了阈值对算法性能产生的影响。实验结果表明,三个评价指标均显示,本文提出的算法总体效果要优于对比算法,且相较于k-means,计算时间复杂度也大大降低。

全文目录


摘要  3-4
Abstract  4-8
1 引言  8-12
  1.1 研究背景  8
  1.2 研究现状及研究意义  8-10
  1.3 本文的工作  10
  1.4 论文组织  10-12
2 文本挖掘和文本聚类概述  12-24
  2.1 文本挖掘概述  12-13
  2.2 文本挖掘的过程  13-17
    2.2.1 预处理  13-14
    2.2.2 特征提取  14-15
    2.2.3 挖掘分析  15-17
  2.3 文本表示  17-20
    2.3.1 词项频率及权重  17-18
    2.3.2 文本表示方法  18-20
  2.4 文本聚类概述  20-22
  2.5 本章小结  22-24
3 基于簇相合性的文本增量聚类  24-30
  3.1 相关研究  24-26
    3.1.1 文本增量聚类  24-25
    3.1.2 WordNet 简介  25
    3.1.3 词项语义相似度  25-26
  3.2 基于簇相合性的文本增量聚类算法  26-29
    3.2.1 簇信息  26-27
    3.2.2 文本与簇的相合性  27-28
    3.2.3 增量聚类阶段  28
    3.2.4 文本重新分配  28-29
  3.3 本章小结  29-30
4 实验结果及分析  30-46
  4.1 实验数据  30-31
    4.1.1 实验数据集  30
    4.1.2 数据预处理  30-31
  4.2 评价指标  31
    4.2.1 纯度  31
    4.2.2 熵  31
    4.2.3 归一化互信息  31
  4.3 实验结果与分析  31-43
    4.3.1 10 个类别的实验  31-33
    4.3.2 20 个类别的实验  33-35
    4.3.3 与 SHC 算法聚类结果的对比  35
    4.3.4 时间加速比  35-38
    4.3.5 阈值对算法聚类性能的影响  38-41
    4.3.6 阈值对算法聚类性能的影响  41-43
  4.4 本章小结  43-46
5 总结与展望  46-48
  5.1 总结  46-47
  5.2 未来工作  47-48
参考文献  48-54
致谢  54-56
在学期间公开发表论文(著)及科研情况  56

相似论文

  1. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  2. 广义线性模型的若干问题研究,O212.1
  3. 广义线性模型的渐近理论,O212.1
  4. 基于链接重要性的动态链接预测算法研究,TP393.03
  5. 基于本体的智能电网知识检索系统,TM76
  6. 基于相对密度的聚类算法研究,TP311.13
  7. 基于接口匹配的语义Web服务发现方法研究,TP391.1
  8. 有缺失协变量的相对危险率模型的估计理论及其渐近性质,O212.1
  9. 数字遥感图像解译分类方法研究,TP751
  10. 增量文本聚类在舆情监控中的研究与实现,TP391.1
  11. 中文文本聚类算法的研究与实现,TP391.1
  12. 缺失纵向数据下半参数回归模型的分析研究,O212.1
  13. FCM聚类及其增量算法的研究,TP311.13
  14. 缺失数据情形非参数回归函数的估计,O212.1
  15. SOA中基于负载均衡的语义Web服务匹配机制研究与应用,TP393.09
  16. 拟似然非线性模型理论的进一步研究,O211.67
  17. 纵向数据模型选择的Lagrange乘子法,O212.1
  18. 基于超链数据的中医药语义查询系统,TP391.1
  19. 带有缺失数据统计模型的估计和检验,O212.1
  20. 基于增量聚类和ReliefF的特征选择方法,TP391.4
  21. 函数空间上的近邻域估计的渐近性质,O174

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com