学位论文 > 优秀研究生学位论文题录展示
投影寻踪模型在文本聚类算法中的应用研究
作 者: 陆鹏
导 师: 高茂庭
学 校: 上海海事大学
专 业: 计算机应用技术
关键词: 文本聚类 特征降维 投影寻踪 遗传算法 可视化
分类号: TP391.1
类 型: 硕士论文
年 份: 2007年
下 载: 180次
引 用: 2次
阅 读: 论文下载
内容摘要
快速、高效的文本聚类算法有助于从大量非结构化的文本源中发现和挖掘其所蕴含的巨大潜在知识。文本数据以向量空间模型表示成特征向量,往往呈现出高维特征。利用投影寻踪模型实现文本特征降维,把高维文本特征投影到二维或三维的可视化空间当中,不仅可以表现出文本的结构特征,还可以大大简化文本聚类算法的计算复杂性,提高算法效率和精度。利用投影寻踪模型对文本特征向量进行降维的过程中,关键是最优投影方向的搜索。本文提出两种改进的基于遗传算法的投影寻踪文本聚类算法,结合遗传算法来确定最优投影方向,将高维文本特征向量投影到二维和三维空间上,实现文本特征降维,使得文本的结构特征在可视的空间中凸现出来,从而能够直观地观察文本集的结构分布情况,直观地确定文本类数目。实验表明,这种方法可以得到较好的聚类结果。
|
全文目录
摘要 3-4 ABSTRACT 4-8 第一章 绪论 8-21 1.1 文本挖掘概述 8-9 1.2 文本聚类算法及研究现状 9-19 1.2.1 层次方法 9-10 1.2.2 划分方法 10-15 1.2.2.1 E-means算法 10-11 1.2.2.2 K-medoids算法 11-12 1.2.2.3 R-means算法 12-13 1.2.2.4 BK-means算法 13 1.2.2.5 CFK-means算法 13-15 1.2.3 基于密度方法 15-17 1.2.3.1 DBTC算法 15-17 1.2.4 基于模型的方法 17-19 1.2.4.1 自组织神经网络法 17-18 1.2.4.2 统计方法 18-19 1.3 本文主要研究内容及创新点 19-21 第二章 文本聚类相关问题与技术 21-32 2.1 文本的预处理 21-23 2.1.1 中文文本分词 21-22 2.1.2 特征词筛选 22-23 2.2 文本特征表示 23-26 2.3 文本特征的降维 26-29 2.3.1 主成分分析法 26-28 2.3.2 隐含语义索引法 28-29 2.4 文本聚类中相似函数选取 29-30 2.6 模式的理解和可视化显示 30-32 第三章 基于遗传算法的投影寻踪文本特征降维模型 32-49 3.1 投影寻踪的发展及研究内容 32-34 3.1.1 投影寻踪聚类分析 33 3.1.2 投影寻踪回归 33 3.1.3 投影寻踪学习网络 33-34 3.2 投影寻踪模型 34-39 3.2.1 线性投影 34 3.2.2 投影指标 34-38 3.2.2.1 密度型投影指标 35-38 3.2.2.2 非密度型投影指标 38 3.2.3 最佳投影方向 38 3.2.4 投影寻踪聚类算法步骤 38-39 3.3 遗传算法及优化策略 39-42 3.3.1 遗传算法的基本思想 40-41 3.3.2 遗传算法的特点 41-42 3.5 投影寻踪文本特征降维模型 42-49 3.5.1 二维投影寻踪文本特征降维模型 42-46 3.5.2 三维投影寻踪文本特征降维模型 46-49 第四章 投影寻踪模型在文本聚类中运用 49-67 4.1 二维投影寻踪文本特征降维算法的实现 49-54 4.1.1 遗传算法编码 49-51 4.1.2 遗传算法选择、交叉和变异操作 51-53 4.1.3 算法步骤 53-54 4.2 三维投影寻踪文本特征降维算法的实现 54-57 4.2.1 遗传算法编码 55 4.2.2 遗传算法选择、交叉和变异操作 55-56 4.2.3 算法步骤 56-57 4.3 算法性能分析 57-59 4.3.1 算法的时间复杂度 57-58 4.3.2 算法的空间复杂度 58-59 4.4 低维空间下的文本聚类算法实现 59 4.5 实验过程与结果 59-67 4.5.1 实验文本数据 59 4.5.2 词频统计 59-61 4.5.3 文本聚类的可视化结果 61-65 4.5.4 文本聚类实验结果及分析 65-67 第五章 总结与展望 67-69 5.1 总结 67-68 5.2 展望 68-69 致谢 69-70 参考文献 70-74 攻读硕士期间发表论文和参加科研情况 74 一、发表的论文 74 二、参加的科研项目 74
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 医学超声图像的三维可视化研究,TP391.41
- 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
- 部队人员网上训练与考核系统的开发,TP311.52
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 基于遗传算法的中短波磁天线的设计及实现,TN820
- 基于遗传算法的柑橘图像分割,TP391.41
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 基于遗传—牛顿算法的公交优化调度,TP18
- 基于遗传算法优化的BP网络对生物柴油制备工艺的优化,TE667
- 小麦群体生长可视化系统的设计与实现,S512.1
- 基于模型的水稻根系可视化研究,S511
- 基于云理论和蜜蜂进化型遗传算法的纹理合成研究,TP391.41
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于模型的小麦根系可视化研究,S512.1
- 算法动画在高中算法教学中的应用研究,G633.6
- 朝阳地区参考作物腾发量演变特征与预测模型研究,S161.4
- 演化聚类算法及其应用研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|