学位论文 > 优秀研究生学位论文题录展示
基于概念格的K-Means算法研究及应用
作 者: 李艳霞
导 师: 史一民
学 校: 大连海事大学
专 业: 计算机科学与技术
关键词: 概念格 文本聚类 文本表示 K-Means算法 概念相似度
分类号: TP18
类 型: 硕士论文
年 份: 2010年
下 载: 108次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的快速发展,搜索引擎成为人们获取信息的主要渠道。然而搜索引擎的一次检索结果动则成千上万,所有类别的信息混杂在一起,用户要找到自己想要的信息如大海捞针。改善搜索引擎检索质量的一种有效途径是应用文本聚类技术将web搜索结果中相似的web文本聚集成为一类。对web搜索结果进行聚类,可以为用户提供易于浏览的信息导航,帮助用户快速定位到符合自己查询需要的主题类别,从而提高搜索引擎的检索效率。聚类是在预先不知道类别的情况下,将对象集合按有关的相似程度进行分组的过程。聚类之前,文本的表示大部分采用的是向量空间模型,在此基础上进行相似度计算。向量空间模型采用TF X IDF(Term Frequency X Inverse Document Frequency)计算权重。它的优点是反映了关键词对于文本的重要性,但是这种表示模型带来了两个问题:(1)表示文本的特征向量维度过高;(2)文本被看作是由一组正交词条向量所组成的向量空间,其假设前提是词与词之间没有语义联系,但现实文本中的用词往往是有语义关联的,因此对计算结果的可靠性造成一定的影响。概念格是一组概念的序集,建立概念格的过程就是对概念进行聚类的过程。在概念格中,概念的外延为属于这个概念的所有对象的集合,而内涵是所有这些对象所共有的属性集。给定一个形式背景就能在此基础上构造概念格,且构造出的概念格是唯一的。K-Means算法是目前应用最为广泛的一种基于划分的聚类算法。本文将概念格与K-Means算法相结合,提出了一种新的聚类方法—K-MeansBCC (K-Means Algorithm Based on Concept Lattice)。将文本作为对象,文本中的特征词作为属性生成概念格;提取概念格中的概念并采用概念表示文本,且定义了概念之间相似度函数;最后,用K-Means算法进行聚类。用概念来表示文本,降低了特征词的维数,提高了聚类的性能。另外,对K-Means算法人为确定K值、随机选取中心点的缺点提出了一种基于密度的解决方法。将K-MeansBCC算法应用在“海搜”的聚类模块,并与K-Means算法做比较,实验表明,K-MeansBCC算法具有明显的合理性和有效性。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-15 1.1 研究背景 10-11 1.2 国内外研究现状 11-13 1.3 主要研究内容 13-14 1.4 论文章节安排 14-15 第2章 形式概念分析与文本聚类 15-24 2.1 形式概念分析 15-17 2.1.1 形式概念分析相关定义 15-16 2.1.2 概念格的构造算法 16-17 2.2 文本聚类 17-24 2.2.1 文本表示模型 18-20 2.2.2 文本聚类算法分析 20-24 第3章 基于概念格的K-MEANS文本聚类 24-39 3.1 文本预处理和特征词抽取 24-28 3.1.1 分词和停用词过滤 25-27 3.1.2 特征词抽取 27-28 3.2 基于概念格的文本表示模型 28-33 3.2.1 构造形式背景 29-30 3.2.2 文本的概念表示模型 30-33 3.3 基于概念格的K-Means算法 33-39 3.3.1 文本相似度计算 33-34 3.3.2 K值与初始中心点的选取 34-36 3.3.3 基于概念格的K-Means算法——K-MeansBCC 36-37 3.3.4 类标签选择 37-39 第4章 海事搜索引擎聚类模块设计与实现 39-54 4.1 开发环境的配置 39-40 4.1.1 搜索引擎—海搜 39 4.1.2 概念格构建工具—ConExp 39 4.1.3 开发语言—Java 39-40 4.1.4 集成开发环境—Eclipse 40 4.2 聚类模块的设计 40-44 4.2.1 聚类模块的处理流程设计 40-42 4.2.2 数据库表设计 42-44 4.3 聚类模块的实现 44-54 第5章 实验分析与评估 54-57 5.1 聚类指标 54 5.2 聚类分析 54-57 第6章 总结与展望 57-59 6.1 论文总结 57 6.2 工作展望 57-59 参考文献 59-63 攻读学位期间公开发表论文 63-64 致谢 64-65 研究生履历 65-66
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- K-means聚类优化算法的研究,TP311.13
- 演化聚类算法及其应用研究,TP311.13
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- Web新闻热点发现系统的设计与实现,TP393.09
- 高校图书馆管理系统的个性化服务的设计与实现,TP311.52
- 地铁建设项目施工风险评价方法与准则研究,U231.3
- 面向海量数据的云存储系统实现与应用研究,TP333
- 面向学科的文献资源聚类系统研究及应用,TP391.1
- 基于粗糙概念格的多属性决策分析,O159
- 概念格的生成算法,O153.1
- 树同构的判定及树在概念格和逆矩阵中的应用,O157.5
- 智能化入侵检测系统关键技术研究,TP393.08
- 优化本体的迁移学习方法研究,TP391.1
- 概念格构造算法的研究及其在本体中的应用,TP391.1
- 基于概念格的数据挖掘方法研究,TP311.13
- 概念格的属性约简及建格算法的研究,O159
- 概念格理论在分布式电网故障诊断中的应用研究,TM711
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com
|