学位论文 > 优秀研究生学位论文题录展示
复杂仿真数据的降维与可视化聚类方法研究
作 者: 李惠君
导 师: 王子才; 李志全
学 校: 燕山大学
专 业: 控制科学与工程
关键词: 本征维数 流形学习 降维 可视化 聚类分析 数据挖掘 复杂仿真
分类号: TP311.13
类 型: 博士论文
年 份: 2013年
下 载: 23次
引 用: 0次
阅 读: 论文下载
内容摘要
随着科学技术的发展,仿真系统的复杂程度越来越高,随之仿真数据也出现高维、数据量激增、包含随机性和人为性等不确定因素等特点,经典统计理论在分析这些数据时暴露出了一系列问题。随着计算机硬件技术的发展和数据挖掘理论的兴起,基于数据挖掘技术的复杂仿真数据分析逐渐进入了研究人员的视野,论文基于可视化数据挖掘技术,对大规模、高维数、相互关系复杂的仿真数据的可视化聚类及相关问题进行了研究,具有一定的理论和工程意义。针对专家估计法对复杂仿真数据可视化前的特征选择,可能造成忽视专家个人差异及数据自身特点的问题,提出了基于模糊综合评价模型的主客观估计法。首先构造专家模糊评判矩阵,并根据专家在行业的影响力确定权重,进行主观模糊综合评价;然后根据数据自身特点计算属性的信息熵,获得客观评价;最后将主观评价和客观评价按照不同比例进行综合,从而确定属性的重要程度。针对复杂仿真数据可视化前的数据降维问题,分析了常用的流形学习降维方法;证明了局部切空间排列算法(LTSA)与核主分分析方法(KPCA)本质上的一致性;提出了基于核的LTSA算法对增量仿真数据降维的改进。经实验验证,该改进算法与LTSA算法相比能达到同样的降维效果,并且具有更高的运行效率。针对复杂仿真数据降维中需事先提供维数的问题,采用改进的极大似然估计法进行本征维数估计。首先分析了极大似然法存在的缺点,提出利用测地线距离代替欧式距离的方法,来解决错误近邻点选择问题;提出对各局部估计的本征维数以密度修正代替平均值的方法,来解决估计结果受奇异值影响过大的问题。针对复杂仿真数据可视化聚类问题进行了研究,提出两种可视化聚类方法。在基于改进雷达图的可视化聚类方法研究中,首先对传统雷达图进行了改进,为突出数据特征,以属性权重确定极角,以属性值确定极径;又对k-means算法中存在的随机确定初始中心点而无法得到最优解问题,提出了优化初始中心点算法;针对算法必须事先给出聚类个数,而实际难以做到的问题,提出采用循环和专家监督干预的改进方法。在基于自组织映射的可视化聚类方法研究中,将传统的矩形或六角形方格中的神经元映射改变为雷达图映射,解决了传统SOM映射中无法反映数据点差距的问题;通过增加横向收缩力,重构权向量,加速了映射点的收敛时间;提出利用随获胜神经元到邻域神经元间距单调递减的函数作为修正值的自适应学习速度改进,来增加算法的稳定性和收敛时间。经实验验证,该算法具有更高的效率和鲁棒性。论文丰富了高维数据降维、可视化数据挖掘的方法,为复杂仿真数据分析方法提供了新的技术支持。
|
全文目录
摘要 5-7 Abstract 7-13 第1章 绪论 13-23 1.1 课题的背景及意义 13-14 1.2 仿真数据分析方法研究现状 14-16 1.3 高维仿真数据降维方法研究现状 16-19 1.4 高维仿真数据本征维数估计方法研究现状 19-20 1.5 复杂仿真数据可视化挖掘研究现状 20-22 1.6 论文的主要研究内容及安排 22-23 第2章 主客观模糊综合评价的复杂仿真数据特征选择 23-35 2.1 模糊综合评价模型 23-24 2.2 主客观模糊综合评价模型的构建 24-27 2.2.1 基于模糊综合评价模型的主观评价 24-25 2.2.2 基于信息熵的客观评价 25-26 2.2.3 主客观综合评价 26-27 2.3 主客观模糊综合评价的实验分析 27-33 2.3.1 实验数据 27-28 2.3.2 实验及结果分析 28-33 2.4 本章小结 33-35 第3章 基于流形学习的复杂仿真数据非线性降维研究 35-72 3.1 典型流形学习降维方法研究 35-54 3.1.1 流形学习中常用的数学定义 36-38 3.1.2 典型流形学习降维方法 38-44 3.1.3 典型流形学习降维方法的理论分析 44-45 3.1.4 典型流形学习降维方法的实验分析 45-54 3.2 仿真增量数据的 K-LTSA 算法研究 54-65 3.2.1 对 KPCA 算法的数学研究 55-60 3.2.2 对 LTSA 算法的数学研究 60-62 3.2.3 对 LTSA 算法的 KPCA 解释 62-63 3.2.4 构建 K-LTSA 算法的核函数 63 3.2.5 K-LTSA 算法框架 63-64 3.2.6 时间复杂度分析 64-65 3.3 增量数据的 K-LTSA 算法的实验分析 65-71 3.3.1 实验数据 65-66 3.3.2 实验及结果分析 66-71 3.4 本章小结 71-72 第4章 基于 MLE 的复杂仿真数据本征维数估计 72-88 4.1 复杂仿真数据的本征维数 72-74 4.2 MLE 本征维数估计算法的问题分析 74-80 4.2.1 MLE 本征维数估计算法 74-76 4.2.2 MLE 本征维数估计的渐进一致性证明 76-78 4.2.3 MLE 本征维数估计算法的问题分析 78-80 4.3 基于 MLE 的本征维数估计算法的改进 80-82 4.3.1 基于测地距离选取邻域的 G-MLE 算法研究 80-82 4.3.2 基于密度修正的 D-MLE 算法研究 82 4.4 G-MLE 与 D-MLE 算法的实验及结果分析 82-86 4.4.1 实验数据 82-83 4.4.2 实验及结果分析 83-86 4.5 本章小结 86-88 第5章 复杂仿真数据可视化聚类方法研究 88-111 5.1 可视化聚类 88-89 5.2 基于改进雷达图的可视化聚类方法研究 89-95 5.2.1 k-means 算法的基本思想 90-91 5.2.2 优化初始中心点算法 91-92 5.2.3 基于改进雷达图的高维数据可视化 92-94 5.2.4 k-means-B-IRadar 聚类算法 94-95 5.3 基于 SOM 的可视化聚类方法研究 95-104 5.3.1 SOM 的基本原理 95-99 5.3.2 基于 SOM 的聚类算法 99-100 5.3.3 SOM 算法的问题分析 100-101 5.3.4 无监督的 RD-SOM 聚类算法研究 101-104 5.4 综合聚类评价标准 104-105 5.5 实验及结果分析 105-109 5.5.1 k-means-B-IRadar 算法的实验及结果分析 105-107 5.5.2 RD-SOM 算法的实验及结果分析 107-109 5.6 本章小结 109-111 结论 111-113 参考文献 113-121 攻读博士学位期间承担的科研任务与主要成果 121-123 致谢 123-125 作者简介 125
|
相似论文
- 基于流形学习的高维流场数据分类研究,V231.3
- 医学超声图像的三维可视化研究,TP391.41
- 复杂仿真系统VV&A工作流技术研究,TP391.9
- 唇读中的特征提取、选择与融合,TP391.41
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 基于流形学习的数据降维技术研究,TP311.13
- 土壤环境功能区划研究,X321
- 小麦群体生长可视化系统的设计与实现,S512.1
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 大豆杂种优势及其遗传基础研究,S565.1
- 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
- 基于模型的水稻根系可视化研究,S511
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|