学位论文 > 优秀研究生学位论文题录展示

基于半监督学习的SELDI-TOF蛋白质质谱数据分析

作　者: 游晓璐
导　师: 祝磊
学　校: 杭州电子科技大学
专　业: 模式识别与智能系统
关键词: 蛋白质质谱稀疏表示多步降维半监督学习特征提取
分类号: TP181
类　型: 硕士论文
年　份: 2014年
下　载: 1次
引　用: 0次
阅　读: 论文下载

内容摘要

癌症是世界上最为严重的公共问题之一，中国癌症发病率逐渐上升，但根据目前国内的水平，三分之一的癌症是可以预防的，有效提高癌症的早期诊断率已经被公认为是改善其疗效的关键。蛋白质组学及相关技术的发展给癌症病理的研究及预防等带来了新的希望。研究表明在癌症发病早期，病人体征没有任何异常的情况下，蛋白质芯片采集的数据及绘制的质谱图可较为直观的显示患者与健康人在蛋白表达水平上的差异。但若要对未知标签的样本进行可靠的预测还需生物信息学的协助。根据样本质谱提出新的诊断技术来提高癌症预诊断的准确率和可靠性成为了蛋白质组学研究的热点问题之一。机器学习理论的发展推动了预诊断技术的进步。但质谱数据具有高维和小样本的特点，上万的维特征让一些分类器不知所措，仅有几十个或上百个的样本亦对分类器训练结果提出质疑。目前，进行特征提取及分类包括有监督学习和无监督学习两大类。有监督学习是对有概念标记的训练集进行学习，对之外的数据分类。无监督学习是对无概念标记的训练集进行学习，所有标记均未知。实际应用中，已标样本较难获取，同时浪费了大量未标记样本，而无监督学习则浪费了已标记样本，因此出现了同时利用两种样本的半监督学习。在癌症诊断方面，较为容易获得大量未标记样本，而对未标记的样本进行标记则需付出很高的代价。半监督学习所需的标记样本较少，同时还能利用未标记样本以辅助提高分类的准确率和可靠性，因此非常适合于癌症的分类问题。在半监督学习机制中，基于图的半监督学习受到研究者的青睐，其中局部全局一致性学习算法是基于图的半监督学习算法中的一种，该算法充分利用了未标样本和已标样本，但其分类性能较依赖内在参数，进行质谱数据分析会带来诸多不便。为此，采用了简洁局部全局一致性学习方法避免了参数对分类性能的干扰。但该算法面对维灾问题依然失效，分类性能低下。因此针对蛋白质质谱数据存在高噪声、高冗余性的特点及维灾问题，本文提出了一种基于半监督学习的多步降维特征提取算法与基于稀疏表示和半监督学习的蛋白质质谱数据分类算法。基于半监督学习的多步降维特征提取算法，首先通过逐步降维去除冗余信息，逐步筛选出相关性低但判别性高的特征，最后用于简洁局部全局一致性学习的半监督学习算法中。主要思路是首先对原始数据进行降噪及提高信噪比等预处理，即去除大部分的高频或低频噪声，并且使蛋白质质谱数据之间的对比性增强。然后利用T检验进行降维，初步筛选高维度的特征，初步筛选后的数据特征保留了冗余度较高和相关性较大的特征。其次对T检验之后的数据特征进行离散小波变换（DWT）以及相对熵排序，进一步筛选出噪声低、冗余度低的特征。之后再进行主成分分析，进一步降维，同时也去除了特征间的相关性，保留了一小部分与样本类别相关性大的非相关数据特征。最后，利用简洁局部全局一致性学习算法对逐步降维去噪后的数据特征进行分类。利用该方法在三个样本数据集（分别为卵巢癌样本集OC-WCX2b、前列腺癌样本集PC-H4及浙江省肿瘤医院临床乳腺癌样本集BC-WCX2a）上进行测试，结果显示该方法分类效果较好（分别为99.13%、96.81%、92.78%），敏感性较高（分别为99.01%、96.81%、100%）。同时设计了多组对比试验，包括T检验的有无、DWT和相对熵排序的有无、主成分分析的有无和多步降维方法的有无对比试验，结果各步方法都能明显提高简洁局部全局一致性学习算法的分类性能。另外，对三个数据集采用PCA算法及KPCA算法进行降维，采用基于高斯核函数的SVM算法及LDA算法进行分类，与本文所提算法进行比较。结果在数据集OC-WCX2b上的分类率差别不显著，在数据集PC-H4及BC-WCX2a上分类率显著不同，本文所提算法结果分类率较高，且综合水平更高。为进一步检验算法分类性能，本文还设计了不同分类器间分类性能对比实验。降维算法均为本文所提方法，分类方法分别为朴素贝叶斯算法、SVM算法、kNN算法。结果在数据集BC-WCX2a上本文所提算法的分类率最高且最稳定。检验实验结果表明采用多步降维方法进行特征提取的方法是有效的，再利用半监督学习进行分类，分类效果较好。基于稀疏表示和半监督学习的蛋白质质谱数据分类方法首先进行核主成分分析，解决维数灾难问题，然后构造稀疏邻接图，再运用于基于图的半监督学习的简洁局部全局一致性学习算法中。主要思路是首先利用核主成分分析对蛋白质质谱数据进行主成分提取，使质谱特征的维数小于样本数，以解决维灾问题；然后求解样本稀疏表示向量，构造稀疏邻接图，本实验是通过求解L1范式的优化问题来获取所有样本的稀疏表示向量的，把稀疏向量作为样本间边权值从而得到稀疏邻接图；最后运用基于图的半监督学习的简洁局部全局一致性学习算法进行标签传递，对有标记和无标记样本进行预测判别。利用该方法在同上三个数据集上进行测试，结果显示该方法分类效果较好（分别为99.66%、97.35%、92.02%），敏感性较高（分别为99.97%、97.61%、98.05%）。另外对多个经典降维分类算法在三个数据集上进行了测试。降维方法采用PCA及KPCA算法，分类方法采用基于高斯核函数的SVM算法及LDA算法，与本文所提算法比较。结果在数据集OC-WCX2b及BC-WCX2a上结果无显著差距。在数据集PC-H4上，本文所提算法是这几类算法中效果最好的。为进一步检验所提算法分类性能，设计了不同分类器间分类性能对比实验。降维算法均为基于PolyPlus核的KPCA算法，然后利用SVM、LDA及SRC进行分类。结果表明本文所提算法分类性能普遍较高，且稳定性较好。同时，探讨了分类性能与已标样本数量的关系，结果表明总体趋势为分类率随已标样本数量的增加而升高，达到某个阈值时会趋于稳定。总之，基于稀疏表示的半监督学习方法具有较好的分类性能，分类效果更理想。

全文目录

摘要  5-7
ABSTRACT  7-12
第1章绪论  12-21
  1.1 研究背景及意义  12-14
  1.2 蛋白质组学的相关研究  14-15
  1.3 SELDI-TOF 质谱特征提取算法的研究现状  15-18
    1.3.1 基于有监督学习方法的研究  15
    1.3.2 基于无监督学习方法的研究  15-16
    1.3.3 基于半监督学习方法的研究  16-18
  1.4 本文主要工作  18-21
    1.4.1 主要内容  18-19
    1.4.2 组织结构  19-21
第2章 SELDI-TOF 质谱技术及算法分析  21-42
  2.1 SELDI-TOF 质谱技术的研究现状及进展  21-23
    2.1.1 质谱技术的研究现状及进展  21
    2.1.2 SELDI-TOF 质谱技术的分析  21-23
  2.2 预处理技术  23-24
  2.3 SELDI-TOF 数据分析的经典算法  24-31
    2.3.1 主成分分析（PCA）方法  24-25
    2.3.2 核主成分分析（KPCA）方法  25-27
    2.3.3 支持向量机（SVM）方法  27-29
    2.3.4 K 最近邻节点（KNN）方法  29
    2.3.5 线性判别分析（LDA）方法  29-30
    2.3.6 人工神经网络方法  30-31
  2.4 SELDI-TOF 数据结合半监督学习方法介绍  31-41
    2.4.1 半监督学习介绍  31
    2.4.2 基于图的半监督学习介绍  31-37
    2.4.3 局部全局一致性学习（LLGC）  37-39
    2.4.4 简洁局部全局一致性学习（BB-LLGC）  39-41
  2.5 本章小结  41-42
第3章基于多步降维和半监督学习的质谱特征提取  42-54
  3.1 实验所用样本集及相关预处理方法  43-46
    3.1.1 实验所用样本数据集的介绍  43
    3.1.2 对实验数据集进行预处理的步骤  43-46
  3.2 特征提取实验算法和流程  46-50
    3.2.1 利用 T 检验进行初步筛选  46-47
    3.2.2 基于离散小波变化及相对熵排序再次筛选  47-48
    3.2.3 利用主成分分析完成特征提取  48-49
    3.2.4 结合半监督学习算法进行分类  49
    3.2.5 特征提取实验的流程概述  49-50
  3.3 实验结果及其分析  50-53
    3.3.1 在三个数据集上的分类结果分析  50-51
    3.3.2 通过对比方法探讨本实验所用方法的效果  51-52
    3.3.3 与经典的降维分类框架对比  52
    3.3.4 与不同分类器进行分类性能对比  52-53
    3.3.5 探讨标记样本数量对分类器的分类性能的影响  53
  3.4 本章小结  53-54
第4章基于稀疏表示和半监督学习的蛋白质质谱数据分类  54-61
  4.1 实验所用样本集描述与相关预处理  54
  4.2 进行分类实验的算法与实验流程  54-57
    4.2.1 利用核主成分分析方法完成特征提取  54-55
    4.2.2 利用稀疏表示向量进行构图  55-56
    4.2.3 结合半监督学习算法进行分类  56-57
  4.3 实验结果与分析  57-60
    4.3.1 对三个数据集的参数进行选择  57
    4.3.2 在三个数据集上的分类结果  57-58
    4.3.3 不同特征提取结合分类算法之间的分类性能比较  58-59
    4.3.4 本章分类算法与经典分类算法的性能比较  59
    4.3.5 不同标记比例对本章分类算法的影响  59-60
  4.4 本章小结  60-61
第5章总结与展望  61-63
致谢  63-64
参考文献  64-71
附录  71

基于半监督学习的SELDI-TOF蛋白质质谱数据分析

内容摘要

全文目录

相似论文