学位论文 > 优秀研究生学位论文题录展示

基于概念格的K-Means算法研究及应用

作 者: 李艳霞
导 师: 史一民
学 校: 大连海事大学
专 业: 计算机科学与技术
关键词: 概念格 文本聚类 文本表示 K-Means算法 概念相似度
分类号: TP18
类 型: 硕士论文
年 份: 2010年
下 载: 108次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的快速发展,搜索引擎成为人们获取信息的主要渠道。然而搜索引擎的一次检索结果动则成千上万,所有类别的信息混杂在一起,用户要找到自己想要的信息如大海捞针。改善搜索引擎检索质量的一种有效途径是应用文本聚类技术将web搜索结果中相似的web文本聚集成为一类。对web搜索结果进行聚类,可以为用户提供易于浏览的信息导航,帮助用户快速定位到符合自己查询需要的主题类别,从而提高搜索引擎的检索效率。聚类是在预先不知道类别的情况下,将对象集合按有关的相似程度进行分组的过程。聚类之前,文本的表示大部分采用的是向量空间模型,在此基础上进行相似度计算。向量空间模型采用TF X IDF(Term Frequency X Inverse Document Frequency)计算权重。它的优点是反映了关键词对于文本的重要性,但是这种表示模型带来了两个问题:(1)表示文本的特征向量维度过高;(2)文本被看作是由一组正交词条向量所组成的向量空间,其假设前提是词与词之间没有语义联系,但现实文本中的用词往往是有语义关联的,因此对计算结果的可靠性造成一定的影响。概念格是一组概念的序集,建立概念格的过程就是对概念进行聚类的过程。在概念格中,概念的外延为属于这个概念的所有对象的集合,而内涵是所有这些对象所共有的属性集。给定一个形式背景就能在此基础上构造概念格,且构造出的概念格是唯一的。K-Means算法是目前应用最为广泛的一种基于划分的聚类算法。本文将概念格与K-Means算法相结合,提出了一种新的聚类方法—K-MeansBCC (K-Means Algorithm Based on Concept Lattice)。将文本作为对象,文本中的特征词作为属性生成概念格;提取概念格中的概念并采用概念表示文本,且定义了概念之间相似度函数;最后,用K-Means算法进行聚类。用概念来表示文本,降低了特征词的维数,提高了聚类的性能。另外,对K-Means算法人为确定K值、随机选取中心点的缺点提出了一种基于密度的解决方法。将K-MeansBCC算法应用在“海搜”的聚类模块,并与K-Means算法做比较,实验表明,K-MeansBCC算法具有明显的合理性和有效性。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-15
  1.1 研究背景  10-11
  1.2 国内外研究现状  11-13
  1.3 主要研究内容  13-14
  1.4 论文章节安排  14-15
第2章 形式概念分析与文本聚类  15-24
  2.1 形式概念分析  15-17
    2.1.1 形式概念分析相关定义  15-16
    2.1.2 概念格的构造算法  16-17
  2.2 文本聚类  17-24
    2.2.1 文本表示模型  18-20
    2.2.2 文本聚类算法分析  20-24
第3章 基于概念格的K-MEANS文本聚类  24-39
  3.1 文本预处理和特征词抽取  24-28
    3.1.1 分词和停用词过滤  25-27
    3.1.2 特征词抽取  27-28
  3.2 基于概念格的文本表示模型  28-33
    3.2.1 构造形式背景  29-30
    3.2.2 文本的概念表示模型  30-33
  3.3 基于概念格的K-Means算法  33-39
    3.3.1 文本相似度计算  33-34
    3.3.2 K值与初始中心点的选取  34-36
    3.3.3 基于概念格的K-Means算法——K-MeansBCC  36-37
    3.3.4 类标签选择  37-39
第4章 海事搜索引擎聚类模块设计与实现  39-54
  4.1 开发环境的配置  39-40
    4.1.1 搜索引擎—海搜  39
    4.1.2 概念格构建工具—ConExp  39
    4.1.3 开发语言—Java  39-40
    4.1.4 集成开发环境—Eclipse  40
  4.2 聚类模块的设计  40-44
    4.2.1 聚类模块的处理流程设计  40-42
    4.2.2 数据库表设计  42-44
  4.3 聚类模块的实现  44-54
第5章 实验分析与评估  54-57
  5.1 聚类指标  54
  5.2 聚类分析  54-57
第6章 总结与展望  57-59
  6.1 论文总结  57
  6.2 工作展望  57-59
参考文献  59-63
攻读学位期间公开发表论文  63-64
致谢  64-65
研究生履历  65-66

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. K-means聚类优化算法的研究,TP311.13
  3. 演化聚类算法及其应用研究,TP311.13
  4. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  5. 基于本体的食品投诉文档文本聚类研究,TP391.1
  6. 面向短消息文本的聚类技术研究与应用,TP391.1
  7. 教育新闻热点话题发现系统的设计与实现,TP391.1
  8. Web新闻热点发现系统的设计与实现,TP393.09
  9. 高校图书馆管理系统的个性化服务的设计与实现,TP311.52
  10. 地铁建设项目施工风险评价方法与准则研究,U231.3
  11. 面向海量数据的云存储系统实现与应用研究,TP333
  12. 面向学科的文献资源聚类系统研究及应用,TP391.1
  13. 基于粗糙概念格的多属性决策分析,O159
  14. 概念格的生成算法,O153.1
  15. 树同构的判定及树在概念格和逆矩阵中的应用,O157.5
  16. 智能化入侵检测系统关键技术研究,TP393.08
  17. 优化本体的迁移学习方法研究,TP391.1
  18. 概念格构造算法的研究及其在本体中的应用,TP391.1
  19. 基于概念格的数据挖掘方法研究,TP311.13
  20. 概念格的属性约简及建格算法的研究,O159
  21. 概念格理论在分布式电网故障诊断中的应用研究,TM711

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com