学位论文 > 优秀研究生学位论文题录展示

基于蚁群算法的中文文本聚类研究

作 者: 沈杰
导 师: 王小华
学 校: 杭州电子科技大学
专 业: 计算机软件与理论
关键词: 文本聚类 蚁群算法 凝聚算法 文本挖掘 中文信息处理
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 112次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在互联网中,以新闻、电子书以及其它形式存在的信息正在高速增长,如何有效地运用海量信息成为人们目前面临的一个关键问题。为了梳理各种杂乱的信息,有监督的分类方法被用于大规模文档分类,但此类方法都有一个内在的缺点,即需要大量的人工干预才能获得比较好的分类结果。为了解决人工干预问题,本文重点研究在文本数据挖掘中引入无监督的大规模文本聚类方法。首先,本文对文本聚类技术的现状和发展进行了简要的回顾。文中分别对文本信息预处理的相关技术和文本聚类算法作了分析。文本信息预处理主要包括文本分词、文本特征提取和文本相似度计算等部分。文本聚类算法部分主要介绍了目前已有的各种聚类算法并对其进行比较分析,包括K-means聚类算法、凝聚层次聚类算法、基于密度的聚类算法、基于遗传算法的聚类算法和基于蚁群的聚类算法等。本文根据文本聚类算法的特殊性,在快速分词的方法中,采用分级词库的处理方法;在文本信息存储处理中,采用压缩处理的方法。然后,本文着重研究了基于蚁群算法的文本聚类算法。在改进蚁群算法的同时,将凝聚聚类算法融入蚁群算法框架,进一步提高聚类的速度。在分析蚁群算法在文本聚类中的优缺点基础上,针对蚁群算法放置物体时的分散状况,采用了紧凑算法;针对蚁群对选择物体的随机性问题,提出了基于评估函数的拾起物体算法;针对蚁群算法的终止条件难以估计和不准确的问题,提出了根据用户输入的预期类数和类内、类间距离相结合的判别方法;针对蚁群算法在引入随机计算时的复杂度问题,将放置物体的阈值参数修改为动态可变参数。在分析蚁群算法的框架基础上,利用凝聚聚类算法速度快的特点,融合凝聚聚类算法到蚁群算法,改进了蚁群算法收敛速度慢的问题。最后,分别使用标准数据集和两个真实语料库对本文提出的基于蚁群和凝聚的混合聚类算法进行了实验,并对测试结果进行了比较和分析,采用基于外部度量的总F-measure方法和聚类时间对聚类结果进行评价。实验结果表明,本文提出的混合聚类算法对于处理大规模文本聚类问题具有较明显的优势。

全文目录


摘要  5-6
ABSTRACT  6-10
第1章 绪论  10-14
  1.1 课题研究的背景  10-11
  1.2 课题研究的目的和意义  11
  1.3 课题研究现状  11-12
  1.4 本文的研究内容  12-13
  1.5 本文的组织  13-14
第2章 现有中文文本聚类方法  14-21
  2.1 中文文本的预处理技术  14-17
    2.1.1 中文分词方法及其比较  14
    2.1.2 文本特征提取方法及其比较  14-15
    2.1.3 文本表示模型方法及其比较  15
    2.1.4 语义概念词典与文本表示  15-16
    2.1.5 文本相似度度量方法及其比较  16-17
  2.2 聚类算法  17-20
    2.2.1 K-means 聚类算法  17
    2.2.2 凝聚层次聚类算法  17-18
    2.2.3 基于密度聚类算法  18-19
    2.2.4 基于遗传的聚类算法  19
    2.2.5 基于蚁群的聚类算法  19-20
    2.2.6 聚类算法的选择  20
  2.3 本章小结  20-21
第3章 基于蚁群算法的中文文本聚类方法  21-35
  3.1 蚁群算法的引入  21-22
  3.2 经典蚁群算法  22-23
    3.2.1 BM 模型  22
    3.2.2 LF 模型  22-23
    3.2.3 CSI 算法  23
  3.3 概率转换函数  23-24
  3.4 蚁群算法描述  24
  3.5 蚁群算法存在的问题  24-26
    3.5.1 蚁群算法本身存在的问题  24-26
    3.5.2 蚁群算法在文本聚类中存在的问题  26
  3.6 基于蚁群的文本聚类算法的改进  26-31
    3.6.1 蚁群放置物体时采用紧凑算法  26-27
    3.6.2 基于评估函数的拾起物体算法  27-28
    3.6.3 结合凝聚算法的蚁群聚类算法  28-30
    3.6.4 改进蚁群算法的终止条件  30
    3.6.5 改进蚁群放置物体阈值参数  30-31
    3.6.6 引入蚁群局部记忆体和全局记忆体  31
    3.6.7 文本聚类算法其它改进  31
  3.7 Hybrid-AC& A 算法  31-33
  3.8 本文算法的优点  33-34
  3.9 本章小结  34-35
第4章 中文文本聚类系统的设计与实现  35-43
  4.1 中文文本聚类系统体系结构  35
  4.2 文本语料预处理模块  35-37
  4.3 文本向量模型建立模块  37-40
    4.3.1 文本特征的抽取  37
    4.3.2 文本向量的建立及优化  37-39
    4.3.3 向量相似度的度量  39-40
  4.4 文本聚类算法核心模块  40-42
    4.4.1 改进的蚁群算法模块  40-41
    4.4.2 凝聚聚类算法模块  41-42
  4.5 文本聚类参数设置及聚类结果统计、分析模块  42
  4.6 本章小结  42-43
第5章 实验与结果分析  43-54
  5.1 测试环境及相关数据集  43
    5.1.1 测试环境  43
    5.1.2 测试数据集  43
  5.2 性能评价方法  43-45
  5.3 实验与分析  45-53
    5.3.1 标准数据集实验  45-46
    5.3.2 文本语料实验  46-53
    5.3.3 实验小结  53
  5.4 本章小结  53-54
第6章 总结与展望  54-56
  6.1 本文的主要研究工作及成果  54
  6.2 存在的问题及对未来的展望  54-56
致谢  56-57
参考文献  57-60
附录  60-61
详细摘要  61-63

相似论文

  1. 多导弹协同作战突防效能评估及组合优化算法研究,TJ760.1
  2. 基于蚁群算法的电梯群优化控制研究,TU857
  3. 隐式用户兴趣挖掘的研究与实现,TP311.13
  4. 动态环境下移动对象导航系统相关技术的研究,TP301.6
  5. 基于改进蚁群算法的机器人路径规划研究,TP242
  6. 改进的蚁群算法及其在TSP上的应用研究,TP301.6
  7. 基于免疫机制蚁群算法的电力系统无功优化研究,TP18
  8. 基于视觉反馈与行为记忆的GPU并行蚁群算法,TP301.6
  9. 演化聚类算法及其应用研究,TP311.13
  10. 基于本体的食品投诉文档文本聚类研究,TP391.1
  11. 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
  12. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  13. 基于物理拓扑感知的Chord算法研究,TP393.02
  14. 电渣炉过程控制系统的设计及优化控制,TP273
  15. Ad Hoc网络中分簇路由算法的研究,TN929.5
  16. 图像信息处理机的图像处理方法研究,TP391.41
  17. 面向短消息文本的聚类技术研究与应用,TP391.1
  18. 教育新闻热点话题发现系统的设计与实现,TP391.1
  19. 联合聚类算法研究及应用,TP311.13
  20. 智能光网络中路由选择算法的研究,TN929.1
  21. 面向无线传感器网络的多路径路由协议研究,TN915.04

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com