学位论文 > 优秀研究生学位论文题录展示
流形学习中样本点稀疏问题的研究
作 者: 梁宇滔
导 师: 马争鸣
学 校: 中山大学
专 业: 软件工程
关键词: 流形学习 数据降维 稀疏样本 插值
分类号: TP391.41
类 型: 硕士论文
年 份: 2011年
下 载: 64次
引 用: 0次
阅 读: 论文下载
内容摘要
随着科技的进步和时代的发展,现代社会已经进入了一个崭新的信息时代,大量的高维数据层出不穷,如图像分类检索、文本聚类和基因序列的建模等,人类必须借助于工具才能有效地识别高维数据的内在特征,其中数据降维技术是解决这种问题的主要方法。对数据进行降维处理的目的是要找出隐藏在高维数据中的低维结构,通常分为线性降维和非线性降维这两类方法。线性降维的方法是,将样本点从高维数据空间通过线性变换投射到一个低维空间,目的是获得一个关于原数据集的内在数据特征的低维表示。线性降维方法有着坚实的理论基础,优点是实现简单、适应性强。但现实中各种有用的数据其特征往往不是简单线性组合。因此,非线性降维方法,即流形学习越来越受到人们的广泛关注。流形学习可以分为两大类:一类是全局方法,是从全局角度出发,让降维时流形上临近的点映射到低维空间时保持临近;另一类是以局部方法,只保证在一个局部范围内将临近点间的关系映射到低维空间。因为局部方法它们只需要考虑流形临近点间的相互关系,不要求流形所对应的低维空间为凸,且计算复杂度较低,因此局部方法有着更广泛的适用对象。局部保持的流形学习算法具有一个共同的特征:找出每个数据点周围的局部性质,并将这些局部性质信息映射到一个低维空间中。显然,局部几何结构信息的保持和恢复程度决定了流形学习算法的优劣。在获取流形的局部信息时,流形学习算法假定流形在一个很小的范围内,局部同胚于一个欧氏空间的一个连通开集,这就决定了流形学习算法在选择邻域时,要尽可能保证邻域内的点满足局部同胚条件。而当样本点较为稀疏时,邻域内的样本点很难保持局部同胚条件,从而导致上述流形学习算法在处理稀疏数据集时会造成较大的误差,甚至失效。本文在流形学习方法的基本概念和理论基础上,针对流形学习无法有效处理稀疏样本集的问题展开了分析和研究。文章总结了流形学习的基本框架和基本步骤,分析了流形学习算法在处理稀疏数据集时的算法效果变差乃至失效现象的原因,并用图示展示了样本点稀疏不同时的邻域块结构。解决稀疏样本集问题的有效方法之一,是增加插值点使得样本点集变得稠密。为此,本文分别提出了线性插值方法和非线性插值方法。我们首先提出找三角形的重心线性插值方法。该方法从样本点和邻域点形成的三角形中找出重心作为插值点,从全局角度来看,插值点的加入使得样本集的稠密程度有了一定的改善,样本点局部邻域的表示更加精确,也使得邻域间有更多的交叠从而使得全局排列的误差更小,因此算法一定程度上改善了样本集稀疏问题,但仍未能改善局部线性逼近的误差,而且新的插值点并没有反应出流形的本质结构和特征。为此,我们提出了基于Matlab四格点样条的非线性的插值方法。即对于稀疏样本点集,我们根据其内部特点,结合流形本身的结构和性质,在利用Matlab四格点样条插值进行曲面重构的基础上非线性的选取一定数目的样本点作为插值点。文章最后通过实验,分别比较和分析了线性插值和非线性插值前后流形学习算法降维效果的变化,并指出与线性插值算法相比,非线性插值方法选取的插值点能有效的减少逼近误差,并能更好的保持和反映流形的本质结构和特征。
|
全文目录
摘要 3-5 Abstract 5-10 第一章 绪论 10-14 1.1 研究背景和意义 10-11 1.2 当前国内外研究现状 11-13 1.3 本文研究的内容 13 1.4 本文的结构 13-14 第二章 流形学习方法概述 14-29 2.1 流形和流形学习的概念 14-17 2.2 线性流形学习算法 17-21 2.2.1 主成分分析(PCA) 17-19 2.2.2 线性辨别分析(LDA) 19-20 2.2.3 多维尺度变换(MDS) 20-21 2.3 非线性流形学习算法 21-27 2.3.1 等距映射(ISOMAP) 21-23 2.3.2 局部线性嵌入算法(LLE) 23-25 2.3.3 拉普拉斯特征映射算法(LE) 25-26 2.3.4 海赛局部线性嵌入算法(HLLE) 26-27 2.3.5 局部切空间排列算法(LTSA) 27 2.4 本章小结 27-29 第三章 流形学习中样本点稀疏问题的研究 29-48 3.1 流形学习的基本框架 29-32 3.1.1 计算邻域 30-31 3.1.2 求取局部坐标 31 3.1.3 局部坐标的全局排列 31-32 3.2 流形学习中样本点的稀疏问题 32-34 3.3 线性插值方法 34-40 3.3.1 线性插值算法 34-40 3.4 非线性插值方法 40-46 3.4.1 流形曲面拟合 40-41 3.4.2 插值点的选取 41 3.4.3 我们的算法 41-42 3.4.4 实验效果及分析 42-46 3.5 本章小结 46-48 第四章 总结与展望 48-50 参考文献 50-52 致谢 52
|
相似论文
- 带有多项式基的径向点插值无网格方法的研究及应用,O241
- 基于流形学习的高维流场数据分类研究,V231.3
- 唇读中的特征提取、选择与融合,TP391.41
- 汾河水库周边土壤养分和重金属空间分布风险评价,S158
- 整系数多项式的因式分解方法研究,O174.14
- 基于支持向量机的基因表达数据降维方法的研究,TP181
- 电力系统谐波分析算法研究,TM711
- 基于插值和最优化的肝脏可视化研究与实现,TP391.41
- 分形插值算法在开县石灰石矿资源量估算上的应用,P619.225
- OFDM系统信道估计技术研究,TN919.3
- 关于分形插值函数若干分析性质的研究,O174.42
- 基于ArcGIS Engine的南海海洋动力环境应用服务系统的设计与初步实现,P731.2
- 音频DAC数字通路的研究与优化,TN713
- OFDM系统中基于导频的信道估计算法的研究,TN919.3
- 基于FFmpeg的H.264解码器在Symbian上的移植和优化,TN919.81
- 数码相机中Bayer格式数字图像的降噪与颜色插值算法的研究,TP391.41
- 基于回归的图像超分辨率重建技术研究,TP391.41
- 利用非局部相似性的图像超分辨率重建研究,TP391.41
- 导电体电磁散射问题H-矩阵算法研究,O441
- 基于数据降维的人脸图像检索及识别,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com
|