学位论文 > 优秀研究生学位论文题录展示
流形学习的方差最小化准则
作 者: 张驰原
导 师: 何晓飞
学 校: 浙江大学
专 业: 计算机应用技术
关键词: 试验设计 主动学习 半监替学习 特征选择
分类号: TP181
类 型: 硕士论文
年 份: 2012年
下 载: 91次
引 用: 0次
阅 读: 论文下载
内容摘要
现在许多机器学习学习问题中,特征的维度通常都非常高,并且数据类别标签的获取非常困难或昂贵。在一个高维度的小样本数据集上进行学习通常都会导致很严重的过拟合。这个问题有两种流行的解决方案。一种是使用主动学习和半监督学习来最大化带类别标签的数据的价值并挖掘无类别标签数据的潜在价值。另一种方案则是流形学习:通过直接在数据的本征维度上进行几何分析来避免维度过高的问题。这里的关键在于:对于许多实际生活中的高维数据,可以很自然地假设数据点是分布在一个低维流形上的。流形的本征维度通常比外围欧氏空间的维度低得多,因此直接分析流形的本质几何性质,可以有效地避免维度灾难的问题。本文我们将提出一个通用的框架来将两种方案进行统一。我们将在机器学习的过程中显式地考虑到数据的流形结构,在此基础上,通过一个方差最小化的准则来求得最稳定的解。我们的工作基于拉普拉斯正则化的半监督学习算法,这是一个基于流形假设的半监督学习算法。通过分析算法及其解的统计特性,我们提出一个方差最小化的准则,来最大化学习的稳定性。学习问题的稳定性和算法的泛化能力是密切相关,这在学习理论中已经是众所周知的事实。基于这个准则,我们将实现具体的主动学习和特征选择算法。特征选择算法能够在保持原始特征维度可解释性的前提下有效地降低数据的维度。而主动学习算法则可以最大化类别标签的价值。两个算法都基于我们的方差最小化准则,因此都具有很好的抗过拟合能力。虽然他们的目标函数都是NP难问题,但是我们还提出了高效的近似算法可以对目标函数进行求解。通过在实际数据集上进行大量的试验,证明了我们算法相比于基准算法和主流算法得到了很大的性能提升。
|
全文目录
致谢 5-6 摘要 6-7 Abstract 7-12 1 绪论 12-35 1.1 机器学习 12-22 1.2 流形学习 22-30 1.3 半监督学习 30-35 2 算法基础 35-44 2.1 最优试验设计 35-37 2.2 主动学习 37-40 2.3 特征选择 40-43 2.4 本章小结 43-44 3 流形学习的方差最小化准则 44-48 3.1 本章小结 47-48 4 流形上的方差最小化特征选择算法 48-72 4.1 目标函数 48-49 4.2 基于A-准则的特征选择 49-56 4.3 基于D-准则的特征选择 56-59 4.4 算法复杂度分析 59-60 4.5 实验结果 60-71 4.6 本章小结 71-72 5 流形上的方差最小化主动学习算法 72-84 5.1 目标函数 72-74 5.2 流形上方差最小化主动学习的相关工作 74-75 5.3 基于方差最小化的图像压缩的进一步改进 75-83 5.4 本章小结 83-84 6 结论 84-85 参考文献 85-93 攻读硕士学位期间主要研究成果 93
|
相似论文
- LNG系统中工作压力设定依据与换热器正交试验设计,TQ051.5
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 移动循环式小型烘干机的研制,S226.6
- 语音情感识别的特征选择与特征产生,TP18
- 基于数据分布特征的文本分类研究,TP391.1
- 某舰炮转弹机非线性结构动力学分析及优化设计,TJ391
- 车辆识别系统动态特征选择算法的研究与实现,TP391.41
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 纳米晶存储器中的高压产生系统设计,TN47
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- 跨语言文本分类的研究,TP391.1
- 基于群体智能的医学图像特征优化算法研究,TP391.41
- 基于FSVM的数据挖掘方法及其在入侵检测中的应用研究,TP393.08
- 掌纹主线特征选择方法及成像系统研究,TP391.41
- 中国民族音乐特征提取与分类技术的研究,J607
- 特定领域中文术语抽取,TP391.1
- 随机森林特征选择,TP311.13
- DORIS系统卫星定轨方法研究,V412.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|