学位论文 > 优秀研究生学位论文题录展示

偏最小二乘降维方法的研究与应用

作 者: 曾雪强
导 师: 吴耿锋;李国正
学 校: 上海大学
专 业: 信息与通信工程
关键词: 数据降维 特征抽取 偏最小二乘降维
分类号: TP391.4
类 型: 博士论文
年 份: 2009年
下 载: 636次
引 用: 4次
阅 读: 论文下载
 

内容摘要


随着计算机需要处理的数据的维数越来越大,数据降维技术已经成为一项越来越重要的数据处理技术。数据降维的目标是在保持分类和决策能力的前提下,去除掉数据中不相关或者不重要的信息。数据降维可以提高学习算法的泛化能力、建模的计算效率和数据的可解释性。在学者们已经提出的众多数据降维算法中,偏最小二乘降维方法PLSDR(Partial Least Squares based Dimension Reduction)是其中较为有效的算法之一。本文以偏最小二乘降维方法为研究对象,提出了一个完整的偏最小二乘降维框架。本文对偏最小二乘降维方法进行了深入的研究,并在新框架下提出了一系列算法,探讨了他们的应用。本文主要取得了如下成果:1)提出了一种偏最小二乘降维框架(Partial Least Squares based Dimension Reduction Framework)。以往的偏最小二乘降维算法的研究工作经常忽视的两个问题是无关或冗余特征的选择问题和偏最小二乘成份的选择问题。针对这些问题,我们提出了一种基于偏最小二乘的数据降维框架,将特征选择和模型选择整合到偏最小二乘降维方法的统一框架中。2)提出了多种偏最小二乘降维框架中的预处理算法。预处理是偏最小二乘降维框架中的重要一环,其目标是在偏最小二乘建模之前,去除原始数据中的无关和冗余特征。针对无关特征的去除,我们提出了以随机产生的探针变量的t-统计值,查找无关特征的PLSDR-G(PLSDR with Gene elimination)算法。对于冗余特征的去除,我们提出了一种新颖的有监督的基于区分能力贡献度的冗余特征检测指标DISC(DIScriminative Contribution);基于DISC指标,我们提出了基于区分能力贡献度的冗余特征去除算法REDISC(Redundancy Elimination based on DIScriminative Contribution)。3)提出了多种偏最小二乘降维框架中的后处理算法。后处理是偏最小二乘降维框架中关键步骤之一,其目标是从抽取出的偏最小二乘成份中选择一部分成份,并将其作为最终的降维后的数据空间。对于后处理,我们提出了两种解决方案:基于回归拟合度的成份选择算法和嵌入式的成份选择算法。回归拟合度R y2是评价偏最小二乘模型建模质量的一个重要指标,基于该指标我们提出了两种模型选择算法:PAS算法(PLSDR with model selection by using Absolute R y2 Scores)和PIS(PLSDR with model selection by using Incremental R y2 Scores)算法。嵌入式方案是将特征选择嵌入特征抽取的FSBFE算法(Feature Selection Based Feature Extraction),其基本原理是通过遗传算法将分类器嵌入到模型选择中,从而能在全部的PLS成份挑选出性能较优的一部分。4)将偏最小二乘降维方法应用到文本分类(text classification)问题中,并取得了较好的效果。通过抽取出隐含的文档语义对文档进行表示,是解决文档中一词多义和多词一义问题的一个有效的方法。针对现有的潜在语义索引模型没有考虑类别信息的缺点,我们提出了两种采用偏最小二乘方法抽取文本语义的模型:偏最小二乘语义索引SIPLS(Semantic Indexing based on Partial Least Squares)和局部偏最小二乘语义索引LSIPLS(Local Semantic Indexing based on Partial Least Squares)。

全文目录


摘要  6-8
ABSTRACT  8-16
第一章 绪论  16-25
  1.1 研究背景  16-17
  1.2 数据降维方法研究概况  17-22
    1.2.1 特征选择  17-20
    1.2.2 特征抽取  20-22
  1.3 本文的研究内容  22-24
  1.4 本文的组织结构  24-25
第二章 偏最小二乘降维方法与新降维框架  25-43
  2.1 偏最小二乘降维框架  25-28
  2.2 偏最小二乘方法  28-35
    2.2.1 多因变量PLS 算法  28-32
    2.2.2 单因变量PLS 算法  32-35
  2.3 正交偏最小二乘成份空间  35-42
    2.3.1 正交与非正交的投影向量  35-37
    2.3.2 实验与结果分析  37-42
  2.4 小结  42-43
第三章 偏最小二乘降维的预处理  43-67
  3.1 无关特征的去除算法  43-55
    3.1.1 PLSDR-G 模型  44-46
    3.1.2 实验与结果分析  46-55
  3.2 冗余特征的去除算法  55-65
    3.2.1 有监督的冗余特征去除算法  56-60
    3.2.2 实验与结果分析  60-65
  3.3 小结  65-67
第四章 偏最小二乘降维的后处理  67-86
  4.1 基于回归拟合度的模型选择  67-76
    4.1.1 PAS 算法和PIS 算法  67-71
    4.1.2 实验与结果分析  71-76
  4.2 嵌入式模型选择  76-84
    4.2.1 FSBFE 算法  76-78
    4.2.2 实验与结果分析  78-84
  4.3 小结  84-86
第五章 偏最小二乘降维的应用  86-100
  5.1 分类模型的选择  86-94
    5.1.1 分类模型选择的意义  86-87
    5.1.2 实验与结果分析  87-94
  5.2 偏最小二乘降维在文本分类中的应用  94-99
    5.2.1 偏最小二乘语义索引模型  94-95
    5.2.2 实验与结果分析  95-99
  5.3 小结  99-100
第六章 结论  100-102
参考文献  102-110
作者在攻读博士学位期间公开发表的论文  110-112
作者在攻读博士学位期间所作的项目  112
作者在攻读博士学位期间所获得的专利  112-113
致谢  113-114

相似论文

  1. 利用非局部相似性的图像超分辨率重建研究,TP391.41
  2. 心电特征提取及分类方法研究,TN911.7
  3. 食品(虾仁)分拣系统中的图像处理算法研究,TP391.41
  4. 无监督流形学习算法的若干探讨,O186.12
  5. 中文文本分类技术研究,TP391.1
  6. 嵌入式Linux逆向解析技术研究,TP316.81
  7. 基于图像识别的商标检索系统设计与实现,TP391.41
  8. 基于区域的图像检索相关技术研究,TP391.41
  9. WEB文本自动分类的设计与实现,TP391.1
  10. 基于局部线性分析的降维算法研究,TP301.6
  11. 基于仿生特征的人脸表情识别,TP391.4
  12. 基于个性化搜索的网页特征提取相关技术的研究,TP391.1
  13. 基于边界距离的文本聚类方法研究,TP391.1
  14. 基于像素变化信息的人脸识别方法研究,TP391.41
  15. 基于手背静脉血管的身份识别技术研究,TP391.41
  16. 面向情感分析的特征抽取技术研究,TP391.1
  17. 汉语主客观文本分类及预处理研究,TP391.1
  18. 铸坯图像不完美特征的优化处理,TP391.41
  19. 海量异构数据集成系统的设计与实现,TP311.52
  20. 基于流形学习的数据降维算法的研究,TP391.41
  21. 产品库平台系统的研究和实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置
© 2012 www.xueweilunwen.com