学位论文 > 优秀研究生学位论文题录展示

基于图的半监督算法及其应用研究

作　者: 蔡先发
导　师: 文贵华
学　校: 华南理工大学
专　业: 计算机应用技术
关键词: 机器学习降维半监督学习生物信息学人脸识别癌症分类
分类号: TP18
类　型: 博士论文
年　份: 2013年
下　载: 60次
引　用: 0次
阅　读: 论文下载

内容摘要

信息技术的迅速发展将人类社会带入大数据时代，人们面临以几何级数快速增长的海量数据。如何从这些海量数据中获取有用的知识是当前及今后相当长时期内全球科研工作者和技术专家所面临的共同挑战之一。此外，越来越多的数据呈现高维的趋势，比如数字图像、语音数据、文本数据以及基因表达谱微阵列数据等，降维技术已成为处理高维数据、克服“维数灾难”的重要途径。传统的维数约减方法虽然能够有效地学习出具有线性结构的高维数据的内在结构，但这类算法的线性本质决定了其不能揭示数据本身的非线性结构，从而不能发现高维数据的内在低维流形结构。为解决这些问题，流形学习则提供了一种有效的思路。然而，在很多实际的机器学习和数据挖掘任务中，人们很容易获得大量未标记数据以及少得可怜的标记数据，这恰好是半监督学习关注的重点：即如何从标记数据以及未标记数据中学习出有用的知识从而来改善学习性能。尽管以往许多半监督算法在很多实际应用中取得了成功，但也存在诸如邻域个数选择、对噪声、稀疏以及非平衡数据敏感等一系列问题。针对图的构建与优化等问题，本文对半监督降维算法进行了研究，并且在人脸识别、癌症分类等实际应用问题中验证了本文所提出算法的有效性。总的来说，本文主要贡献有：(1)本文提出一种基于局部估计误差的半监督维数约减算法(LEESSDR)。在半监督学习中，图的构建非常重要，然而以往很多半监督维数约减算法构造的邻域图是拓扑不稳定的，对邻域参数选择比较敏感以及对邻域图边权值设定不够准确。由于局部模型只是对特定数据的相邻点进行训练，因而局部学习算法常常超越全局学习算法。正是由于局部学习算法的良好表现，使得某个标签点可以很好地由它们的近邻来估计，因此LEESSDR通过使用局部学习投影(LLP)算法最小化局部估计误差来确定邻域图的边权值，最终有效地保持正负约束信息以及数据集所在低维流形的全局以及局部信息。由于LLP的优点在于该算法并没有要求输入空间局部线性，对于非线性的局部空间，LLP通过核函数将其映射到特征空间，然后在特征空间中求局部估计误差，因而提高了算法的参数鲁棒性。在Extended YaleB和CMU PIE标准人脸库上的实验结果表明LEESSDR算法的分类准确率以及鲁棒性都要优于其它半监督维数约减算法。(2)本文提出了一种基于随机子空间的局部和全局保持的半监督维数约减算法(RSLGSSDR)。在半监督维数约减算法中，图的构建起着非常重要的作用，然而面临噪声的时候，当前的大部分算法所构造的邻域结构是拓扑不稳定的。RSLGSSDR主要是将随机子空间与半监督维数约减算法结合起来。在数据集的不同的随机子空间上，该算法首先设计多个不同的子图，然后将这些子图联合起来构建成一个混合图并且在其上进行维数约减，在保持数据集局部结构的同时能够保持其全局结构。在公共数据集上的实验结果表明RSLGSSDR算法具有较好的分类准确率和参数鲁棒性。(3)本文提出了一种基于随机子空间的半监督维数约减算法(RSSSDR)。癌症分类对辅助临床决策很有作用，所以其精确的分类对于癌症的成功诊断和治疗是必不可少的。半监督维数约减算法在干净的数据集上表现地很好，然而当面临噪声的时候，当前的大部分算法所构造的邻域结构是拓扑不稳定的。RSSSDR主要是将随机子空间与半监督维数约减算法结合起来。在数据集的不同的随机子空间上，该算法首先设计多个不同的子图，然后将这些子图联合起来构建成一个混合图并且在其上进行维数约减。此外，该算法通过最小化局部重构误差来确定领域图的边权值，在保持癌症数据集局部结构的同时能够保持其全局结构。在公共癌症数据集上的实验结果表明RSSSDR算法具有较好的分类准确率和参数鲁棒性。(4)首次将认知规律引入到半监督降维技术中来，设计了基于相对认知的半监督维数约减算法(RSSDR)算法。虽然半监督维数约减算法在很多实际应用中表现很好，然而当处理稀疏、噪声和非平衡数据时，它就难于确保构建一个良好的图进而影响了算法的表现。RSSDR根据认知的相对性规律提出了相对变换方法，通过相对变换将数据的原始空间变换到相对空间，在相对的空间中度量数据的相似性更符合人们的直觉，从而提高了数据之间的可区分性，同时在一定条件下相对变换还能抑制噪声的影响。然后，该算法通过最小化局部重构误差来确定邻域图的边权值，最终不仅能保持数据集所在低维流形的全局信息也能保持其局部信息。在人脸、基因表达谱、UCI以及噪声数据集上获得了较其它半监督维数约减算法更优的分类准确率以及鲁棒性。

全文目录

摘要  5-7
Abstract  7-10
目录  10-13
图清单  13-15
表清单  15-16
主要符号表  16-17
第一章绪论  17-25
  1.1 课题背景及意义  17-19
  1.2 研究现状  19-20
  1.3 面临的挑战  20-21
  1.4 本文的研究内容，目标及创新点  21-23
  1.5 本文的内容安排  23-25
第二章流形以及基于图的半监督学习概述  25-36
  2.1 引言  25-26
  2.2 降维技术  26-29
    2.2.1 流形学习算法研究  26-29
  2.3 半监督学习  29-35
    2.3.1 半监督学习假设  30
    2.3.2 半监督分类  30-31
    2.3.3 半监督聚类  31-32
    2.3.4 半监督降维  32-33
    2.3.5 图的构建策略  33-35
  2.4 本章小结  35-36
第三章基于局部估计误差的半监督维数约减算法  36-48
  3.1 引言  36-38
  3.2 算法基础  38-41
    3.2.1 PCA 算法  38-39
    3.2.2 LLP 算法  39-40
    3.2.3 SSDR 算法  40-41
  3.3 基于局部估计误差的半监督维数约减  41-47
    3.3.1 问题描述  41
    3.3.2 LEESSDR 目标函数  41-43
    3.3.3 实验结果与分析  43-47
  3.4 本章小结  47-48
第四章随机子空间的局部和全局保持的半监督算法  48-63
  4.1 引言  48-49
  4.2 相关工作  49-50
    4.2.1 NPSSDR  49
    4.2.2 随机子空间方法  49-50
  4.3 随机子空间的局部和全局保持的半监督维数约减  50-62
    4.3.1 基于随机子空间的多图的构造  50-52
    4.3.2 RSLGSSDR 目标函数  52
    4.3.3 RSLGSSDR 算法的图嵌入解释  52-53
    4.3.4 实验结果与分析  53-62
  4.4 本章小结  62-63
第五章用于癌症分类的随机子空间半监督维数约减  63-81
  5.1 引言  63-64
  5.2 相关工作  64-68
    5.2.1 生物信息学  64
    5.2.2 微阵列数据的特点  64-65
    5.2.3 微阵列技术的应用  65-66
    5.2.4 集成学习  66-67
    5.2.5 局部线性嵌入算法  67-68
  5.3 随机子空间的半监督维数约减  68-80
    5.3.1 RSSSDR 目标函数  69-71
    5.3.2 实验结果与分析  71-80
  5.4 本章小结  80-81
第六章基于认知规律的半监督维数约减算法  81-107
  6.1 引言  81-82
  6.2 认知规律  82-87
    6.2.1 认知规律的不确定性  84-85
    6.2.2 相对变换  85-87
  6.3 基于认知规律的半监督维数约减  87-106
    6.3.0 问题描述  87-88
    6.3.1 相对空间下的局部重构误差  88-89
    6.3.2 RSSDR 目标函数  89
    6.3.3 实验结果与分析  89-106
  6.4 本章小结  106-107
总结与展望  107-110
参考文献  110-121
攻读博士学位期间取得的研究成果  121-123
致谢  123-127
答辩委员会对论文的评定意见  127

基于图的半监督算法及其应用研究

内容摘要

全文目录

相似论文