学位论文 > 优秀研究生学位论文题录展示
模糊聚类在自动判别专家知识领域中的应用研究
作 者: 王易
导 师: 龙军
学 校: 中南大学
专 业: 计算机应用技术
关键词: 文本挖掘 知识领域 模糊聚类 有效性指标 空间向量模型
分类号: TP182
类 型: 硕士论文
年 份: 2009年
下 载: 103次
引 用: 0次
阅 读: 论文下载
内容摘要
专家信息的挖掘对建立全国性的专家信息服务平台尤为重要。论文通过对专家所发表的论文,承担的课题等非结构化数据进行挖掘,来自动判别出专家的知识领域。论文在研究分析中文文本预处理的基础上,结合中文文本挖掘过程,研究文本挖掘框架的层次性,建立了专家知识领域自动判别系统的框架结构,并设计出框架结构中各个模块的接口,重点研究了模糊聚类算法。为了能准确地判断出训练集的最佳聚类数,本文通过深入分析多种聚类有效性评价指标函数的“紧凑度”和“分离度”,综合这些有效性函数的优点,对模糊聚类的线性有效性指标函数进行改进,使紧凑度和分离度更加明显。此外,由于文本数据维数高且零值多,相异性不明显,聚类效果不好,论文分析模糊属性均值算法和核技术,把核方法用于模糊属性均值算法中,给出了基于核的模糊属性均值算法。在标准数据中进行实验,表明改进后的指标函数能更加稳定的判断出最佳聚类数,改进后的模糊属性均值算法的准确率和抗噪能力得到提高。并把改进后的指标函数和改进后的算法应用于专家知识领域自动判别系统框架的聚类模块中,提高了文本聚类的查准率和查全率。
|
全文目录
摘要 3-4 ABSTRACT 4-8 第一章 绪论 8-16 1.1 选题背景 8-11 1.1.1 专家信息系统 8-9 1.1.2 数据挖掘在专家信息系统中的应用 9 1.1.3 根据文档来判别专家知识领域 9-10 1.1.4 利用文本挖掘来提取信息 10-11 1.2 国内外研究现状 11-14 1.2.1 数据挖掘在专家信息系统的研究现状 11 1.2.2 文本挖掘的研究现状 11-12 1.2.3 聚类分析的研究现状 12 1.2.4 模糊聚类的研究现状 12-13 1.2.5 聚类有效性的研究现状 13-14 1.3 本文的主要工作 14 1.4 本文的内容组织安排 14-16 第二章 中文文本预处理与模糊聚类理论 16-28 2.1 中文文本预处理 16-22 2.1.1 文本切分 16-18 2.1.2 停用词 18 2.1.3 特征表示 18-20 2.1.4 特征选择 20-22 2.1.5 文本间的统计指标 22 2.2 模糊集合 22-27 2.2.1 模糊集合基本概念 23-24 2.2.2 模糊集合的运算 24 2.2.3 模糊截集及其性质 24-25 2.2.4 分解定理 25 2.2.5 模糊关系与模糊聚类 25-26 2.2.6 模糊等价关系与模糊相似关系 26-27 2.3 本章小结 27-28 第三章 专家知识领域自动判别系统的框架设计 28-41 3.1 中文文本挖掘模型的层次性 28-29 3.2 专家知识领域自动判别系统框架 29-30 3.3 各个模块的具体设计与实现 30-34 3.3.1 预处理模块 30-32 3.3.2 聚类模块 32-33 3.3.3 分类模块 33-34 3.3.4 后处理过程 34 3.4 数据关系 34-35 3.5 专家知识领域自动判别系统的工作流程 35-36 3.6 模糊聚类 36-40 3.6.1 模糊 C均值算法介绍 37-39 3.6.2 模糊 C均值算法分析 39-40 3.7 本章小结 40-41 第四章 模糊聚类的有效性指标改进与应用 41-55 4.1 聚类有效性评价方法 41-43 4.1.1 外部评价 42 4.1.2 内部评价 42-43 4.1.3 相对评价 43 4.2 模糊聚类常用有效性指标 43-46 4.3 线性组合有效性指标的改进 46-48 4.3.1 改进的紧凑度公式 46-47 4.3.2 分离度公式 47 4.3.3 改进的权重因子 47-48 4.4 求解最佳聚类数算法 48-50 4.5 仿真实验 50-52 4.5.1 测试数据集一(2类) 50-51 4.5.2 测试数据集二(6类) 51-52 4.6 有效性指标在专家知识领域自动判别系统框架中的应用 52-54 4.6.1 数据 52-53 4.6.2 测试结果 53-54 4.7 本章小结 54-55 第五章 模糊属性均值算法的改进与应用 55-67 5.1 属性均值算法 55-56 5.1.1 稳态函数 55-56 5.1.2 属性均值算法介绍 56 5.2 模糊属性均值算法 56-58 5.2.1 模糊属性均值聚类算法 56-57 5.2.2 模糊权值m对模糊属性均值算法的影响 57-58 5.3 核方法 58-60 5.3.1 Mercer定理 58 5.3.2 核技术 58-59 5.3.3 基于核方法的模糊 C均值算法 59-60 5.4 模糊属性均值算法的改进 60-62 5.5 仿真实验 62-64 5.5.1 有效性实验 62-63 5.5.2 抗噪性实验 63-64 5.6 模糊聚类算法在专家知识领域自动判别系统框架中的应用 64-66 5.7 本章小结 66-67 第六章 结束语 67-69 6.1 本文研究工作总结 67-68 6.2 后续的研究工作与展望 68-69 参考文献 69-73 致谢 73-74 攻读硕士学位期间完成论文情况 74 攻读硕士学位期间参加的科研项目情况 74
|
相似论文
- 土壤环境功能区划研究,X321
- 演化聚类算法及其应用研究,TP311.13
- 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 联合聚类算法研究及应用,TP311.13
- 电力系统电压无功控制方法研究,TM761.1
- 停车诱导在智能移动终端上的设计与实现,TN929.53
- 美国影评人视野中的中国电影,J905
- 基于物流港口企业业务流程战略转型的岗位优化设置研究,F259.27;F224
- 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
- 基于粗糙集理论的图像分割研究,TP391.41
- 面向学科相关性分析的文本关联规则挖掘技术研究,TP311.13
- 分布式企业协同分销系统研究及应用,F224
- 长大客运专线客运量调查与预测研究,F224;U293.13
- 基于支持向量机的能源管理系统短期负荷预测,TM715
- 基于质量检验原理的CAPP技术的应用研究,TP391.7
- 辣椒制品表观辣度的模糊评价方法的研究,S641.3
- 基于WEB日志挖掘的用户兴趣模式研究,TP393.092
- 视频镜头边界检测算法的研究,TP391.41
- 基于马尔科夫随机场D-S证据理论对人脑图像的分割研究,TP391.41
- 数据挖掘在针灸文献经穴研究中的应用,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 专家系统、知识工程
© 2012 www.xueweilunwen.com
|