学位论文 > 优秀研究生学位论文题录展示

基于群体智能的文本聚类技术研究

作 者: 马玉静
导 师: 张付志
学 校: 燕山大学
专 业: 计算机应用技术
关键词: 文本聚类 向量空间模型 特征选择 蚁群聚类算法 信息素
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 86次
引 用: 0次
阅 读: 论文下载
 

内容摘要


伴随着Internet的普及和发展,网络上的资源越来越丰富,以电子形式存在的文本成为人们获取信息的主要来源,面对海量的信息资源,需要对其进行有效的组织和管理,以利于主题发现和信息检索。文本聚类是一个将文本集分组的全自动处理过程,是一种无监督的分类方法,根据文本自身的特点自动分成若干类,使得同类文本的相似性尽可能大、不同类文本的相似性尽可能小。特征选择和聚类算法是文本聚类技术的重要组成部分,本文针对这两部分展开研究。首先,针对聚类缺乏类别的信息,无监督的特征选择方法很难选择出具有区分力特征词的问题,提出了一种集成的文本聚类无监督特征选择方法,将在文本分类领域成功运用的有监督特征选择方法应用于文本聚类领域。该方法首先利用K-Means聚类算法在选择不同K值得到不同聚类结果的基础上获得类别的信息,再利用有监督的特征选择CHIR统计方法选择出最优的特征子集。其次,针对蚁群文本聚类算法中蚂蚁移动的随机性导致散点过多、算法收敛速度较慢等问题,提出了一种基于信息素的蚁群快速文本聚类算法。该算法利用信息素控制蚂蚁随机移动的策略,使蚂蚁始终朝着信息素浓度较高的方向移动,即蚂蚁经过次数较多、文本向量相对集中的区域,缩短了蚂蚁寻找文本向量簇的时间,加快了算法的收敛速度,提高了聚类结果的准确性。最后,利用VC++开发工具实现一个基于信息素的蚁群文本聚类算法的实验平台,通过实验对文本聚类技术研究成果进行了验证,并对聚类结果性能进行了分析,为进一步的研究提供方向。

全文目录


相似论文

  1. 多导弹协同作战突防效能评估及组合优化算法研究,TJ760.1
  2. 隐式用户兴趣挖掘的研究与实现,TP311.13
  3. 基于仿生模式识别的文本分类技术研究,TP391.1
  4. 唇读中的特征提取、选择与融合,TP391.41
  5. 基于停用词处理的汉语语音检索方法,TP391.1
  6. 改进的蚁群算法及其在TSP上的应用研究,TP301.6
  7. 甜菜夜蛾信息素结合蛋白的表达动态及其受交配和钟基因沉默的影响,S433.4
  8. 基于SVM分类算法的主题爬虫研究,TP391.3
  9. 樟巢螟性信息素通讯系统的相关研究,S763.3
  10. 蚁群算法及其在气象卫星云图分割中的应用,TP391.41
  11. 语音情感识别的特征选择与特征产生,TP18
  12. 演化聚类算法及其应用研究,TP311.13
  13. 基于数据分布特征的文本分类研究,TP391.1
  14. 基于本体的食品投诉文档文本聚类研究,TP391.1
  15. 车辆识别系统动态特征选择算法的研究与实现,TP391.41
  16. 基于AdaBoost算法的人脸识别研究,TP391.41
  17. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  18. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  19. 面向汽车行业的主题爬虫研究与实现,TP391.3
  20. 面向短消息文本的聚类技术研究与应用,TP391.1
  21. 教育新闻热点话题发现系统的设计与实现,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com