学位论文 > 优秀研究生学位论文题录展示

基于簇相合性的文本增量聚类算法研究

作　者: 陶舒怡
导　师: 王明文
学　校: 江西师范大学
专　业: 计算机科学与技术
关键词: 增量聚类簇特征语义相似度相合性
分类号: TP391.1
类　型: 硕士论文
年　份: 2013年
下　载: 7次
引　用: 0次
阅　读: 论文下载

内容摘要

近年来，随着互联网的飞速发展，网上的信息数据也随之呈指数级增长。为有效应用互联网上的海量数据，人们迫切需要一些有力的组织和管理工具，文本聚类技术正是其中的一种。传统聚类方法的模式是基于对所有对象进行同时处理，一旦有数据更新或有新的数据需处理，算法就必须对整个数据集重新聚类。因而这种模式时间复杂度非常高，且只适合处理静态数据，而不适合动态数据的聚类。增量聚类则可较好地处理动态数据，在数据不断更新或增长的情况下，通过扩充已有的聚类结果，可避免大量重复计算，从而减少处理时间，并最终提高聚类性能。本文提出了一种新的基于簇相合性的文本增量聚类算法，它首先利用WordNet计算出每两个词项之间的语义相似度，在统计词项出现频率时，以一定准则累加与它相近词的出现频率，这样能够更准确地为词项分配频率权重。然后计算每个新增文本与所有已有簇之间的相合性，这不仅是简单地计算文本与簇心之间的相似度，同时还考虑到了每个簇之间的相似性。算法将文本加入到相合性得分最高的簇中，并更新所属簇的簇心、均值、方差等特征信息。为进一步提高聚类性能，一旦增量处理完一部分文本，算法将以同样的方式对其中不确定划分的文本进行重新分配。若有文本仍不能确定其类别，则将它加入到与之有最大相合性的簇中，这种情况并不更新该簇的簇心，以避免错误分类造成的结果偏差。本文工作主要如下：1)使用基于词项语义相似度的文本模型。它不仅统计了每个词项的出现频率，而且还根据词项之间的相似度，增加其近义词的词频，从而更加准确地分配词项频率权重。2)提出基于簇相合性的文本增量聚类算法，并使用一种新的方法来计算文本与簇之间的相合性。算法在20newsgroups数据集上进行实验验证，并与经典聚类算法k-means以及新近提出的基于相似度直方图的增量聚类算法进行了对比；使用的评价指标分别为纯度、熵、归一化互信息。此外，我们还详细分析了阈值对算法性能产生的影响。实验结果表明，三个评价指标均显示，本文提出的算法总体效果要优于对比算法，且相较于k-means，计算时间复杂度也大大降低。

全文目录

摘要  3-4
Abstract  4-8
1 引言  8-12
  1.1 研究背景  8
  1.2 研究现状及研究意义  8-10
  1.3 本文的工作  10
  1.4 论文组织  10-12
2 文本挖掘和文本聚类概述  12-24
  2.1 文本挖掘概述  12-13
  2.2 文本挖掘的过程  13-17
    2.2.1 预处理  13-14
    2.2.2 特征提取  14-15
    2.2.3 挖掘分析  15-17
  2.3 文本表示  17-20
    2.3.1 词项频率及权重  17-18
    2.3.2 文本表示方法  18-20
  2.4 文本聚类概述  20-22
  2.5 本章小结  22-24
3 基于簇相合性的文本增量聚类  24-30
  3.1 相关研究  24-26
    3.1.1 文本增量聚类  24-25
    3.1.2 WordNet 简介  25
    3.1.3 词项语义相似度  25-26
  3.2 基于簇相合性的文本增量聚类算法  26-29
    3.2.1 簇信息  26-27
    3.2.2 文本与簇的相合性  27-28
    3.2.3 增量聚类阶段  28
    3.2.4 文本重新分配  28-29
  3.3 本章小结  29-30
4 实验结果及分析  30-46
  4.1 实验数据  30-31
    4.1.1 实验数据集  30
    4.1.2 数据预处理  30-31
  4.2 评价指标  31
    4.2.1 纯度  31
    4.2.2 熵  31
    4.2.3 归一化互信息  31
  4.3 实验结果与分析  31-43
    4.3.1 10 个类别的实验  31-33
    4.3.2 20 个类别的实验  33-35
    4.3.3 与 SHC 算法聚类结果的对比  35
    4.3.4 时间加速比  35-38
    4.3.5 阈值对算法聚类性能的影响  38-41
    4.3.6 阈值对算法聚类性能的影响  41-43
  4.4 本章小结  43-46
5 总结与展望  46-48
  5.1 总结  46-47
  5.2 未来工作  47-48
参考文献  48-54
致谢  54-56
在学期间公开发表论文（著）及科研情况  56

基于簇相合性的文本增量聚类算法研究

内容摘要

全文目录

相似论文