学位论文 > 优秀研究生学位论文题录展示

基于文本相似度的中文文本聚类的研究

作 者: 李艳梅
导 师: 郭庆琳
学 校: 华北电力大学(北京)
专 业: 计算机应用技术
关键词: 文本聚类 未登录词识别 特征选择 文本相似度 多文档文摘
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 436次
引 用: 2次
阅 读: 论文下载
 

内容摘要


文本聚类是文本挖掘和信息检索领域的重要研究课题,而中文自动分词、特征选择和相似度计算等是中文文本聚类研究的关键技术。本文详细综述了文本聚类技术的相关研究;研究了中文未登录词识别和歧义消解;研究和分析比较了常用的特征选择方法和特征抽取方法;研究并改进了TF-IDF算法,并通过实验证明改进后的算法能够取得更好的效果;研究并分析了文本聚类的常用方法以及效果评价方法,并利用文本相似度矩阵进行文本聚类,实验证明改进的算法能够有效地改进文本聚类的准确性,尤其是文本集合比较小的时候;最后,深入分析了多文档文摘的关键技术,以及在文本聚类中的应用。本文的研究对中文文本聚类技术的具体应用诸如文本挖掘、信息检索等都具有借鉴意义。

全文目录


相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 基于仿生模式识别的文本分类技术研究,TP391.1
  3. 唇读中的特征提取、选择与融合,TP391.41
  4. 面向主题的Web文档自动文摘生成方法研究,TP391.1
  5. 基于本体的食品投诉文档文本聚类研究,TP391.1
  6. 基于AdaBoost算法的人脸识别研究,TP391.41
  7. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  8. 面向短消息文本的聚类技术研究与应用,TP391.1
  9. Web新闻热点发现系统的设计与实现,TP393.09
  10. 面向概念查询的生物医学多文档摘要技术研究,TP391.1
  11. 面向学科的文献资源聚类系统研究及应用,TP391.1
  12. 结合本体HowNet的中文文本分类研究,TP391.1
  13. 支持向量机在入侵检测系统中的研究和应用,TP393.08
  14. 面向企业信息检索的中文分词系统的研究与实现,TP391.1
  15. 基于端口号、统计特征和协议特征字的实时数据流分类,TP311.13
  16. 基于粗糙集的特征选择算法,TP18
  17. 搜索引擎中文分词技术研究,TP391.1
  18. 两类仿生学算法在文本分类中的应用研究,TP391.1
  19. 遗传算法在林业企业市场营销中的应用研究,TP18
  20. 数据流特征选择策略的研究,TP311.13
  21. 语音情感识别的特征选择与特征产生,TP18

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com