学位论文 > 优秀研究生学位论文题录展示

中文文本聚类算法的研究与实现

作 者: 吴启纲
导 师: 陈平
学 校: 西安电子科技大学
专 业: 计算机软件与理论
关键词: 文本聚类 语义相似度 向量空间模型 FCM
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 98次
引 用: 0次
阅 读: 论文下载
 

内容摘要


文本聚类是文本挖掘的重要手段和方法,也是数据挖掘的一个重要分支。由于目前大多数聚类算法基于向量空间模型,性能和准确性不高,因此高效的中文聚类算法成为中文信息处理的主要研究内容之一。本文首先对基于向量空间模型的文本聚类方法进行了研究,分析了模糊C均值聚类算法FCM,研究并解决了构建文本向量空间,自动形成簇描述,自动寻找簇个数等问题。其次在文本语义相似度计算的基础上对文本聚类的新方法进行了探索,提出了两种聚类算法:迭代语义聚类算法ISC和基于权重主题概念图的聚类算法WSCG。最后给出了一个基于C++实现的,结合了向量空间模型和语义空间模型的文本聚类系统RCCluster。实验表明,RCCluster集成的聚类方法具有较高的综合性,聚类准确性和较好的聚类性能。

全文目录


摘要  3-4
Abstract  4-7
第一章 绪论  7-13
  1.1 研究背景与意义  7-8
  1.2 研究目标与关键技术  8
    1.2.1 研究目标  8
    1.2.2 关键技术  8
  1.3 国内外研究现状  8-10
    1.3.1 国外研究现状  8-9
    1.3.2 国内研究现状  9-10
  1.4 本论文工作内容及组织结构  10-13
第二章 文本聚类相关理论和技术  13-21
  2.1 文本聚类概述  13-16
  2.2 向量空间模型  16-18
  2.3 语义空间模型  18-21
第三章 基于向量空间模型的FCM改进算法  21-29
  3.1 KMeans算法  21-22
  3.2 模糊C均值聚类算法FCM  22-24
  3.3 FCM算法的参数选择  24-25
  3.4 自动生成簇描述  25-26
  3.5 改进的FCM聚类算法  26-27
  3.6 本章小结  27-29
第四章 基于语义的聚类算法  29-43
  4.1 基于语义的文本相似度计算  29-36
    4.1.1 词的语义相似度计算  29-35
    4.1.2 文本语义相似度计算  35-36
  4.2 迭代语义聚类方法  36-37
  4.3 基于权重主题概念图的聚类方法  37-41
    4.3.1 权重主题概念图WSCG  38-39
    4.3.2 WSCG之间相似度的计算  39-40
    4.3.3 基于WSCG相似度的模糊聚类  40-41
  4.4 本章小结  41-43
第五章 文本聚类系统RCCluster的设计与实现  43-63
  5.1 系统设计目标  43
  5.2 体系结构总体设计  43-44
    5.2.1 体系结构—流程视角  43-44
    5.2.2 体系结构—数据视角  44
  5.3 主要功能模块的设计与实现  44-61
    5.3.1 特征抽取  46-48
    5.3.2 基于向量空间模型的聚类  48-52
    5.3.3 基于语义的聚类  52-57
    5.3.4 语义相似度计算  57-60
    5.3.5 结果评估  60-61
  5.4 本章小结  61-63
第六章 实验研究  63-69
  6.1 实验设计  63-64
    6.1.1 实验内容  63
    6.1.2 实验环境和数据集  63-64
  6.2 实验结果及分析  64-67
  6.3 本章小结  67-69
第七章 总结与展望  69-71
致谢  71-73
参考文献  73-77
在读期间研究成果  77

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 基于停用词处理的汉语语音检索方法,TP391.1
  3. 基于SVM分类算法的主题爬虫研究,TP391.3
  4. 演化聚类算法及其应用研究,TP311.13
  5. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  6. 基于“词袋”模型的图像分类系统,TP391.41
  7. 基于FCM的利益相关者认知下煤矿区生态风险管理,X322
  8. 基于本体的食品投诉文档文本聚类研究,TP391.1
  9. Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
  10. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  11. 面向汽车行业的主题爬虫研究与实现,TP391.3
  12. 面向短消息文本的聚类技术研究与应用,TP391.1
  13. 基于中介真值程度度量的图像分割方法研究,TP391.41
  14. 教育新闻热点话题发现系统的设计与实现,TP391.1
  15. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  16. 网络教育新闻文本分类系统的设计与实现,TP391.1
  17. 面向论坛信息文本的有效数据抽取研究,TP391.1
  18. SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
  19. 基于链接重要性的动态链接预测算法研究,TP393.03
  20. 基于本体的智能电网知识检索系统,TM76
  21. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com