学位论文 > 优秀研究生学位论文题录展示
高维生物数据的分类与预测研究
作 者: 王彤
导 师: 杨杰
学 校: 上海交通大学
专 业: 模式识别与智能系统
关键词: 模式识别 高维生物数据 线性降维方法 非线性降维方法 流形学习 蛋白质序列 分类预测 特征提取 亚细胞位置 四级结构 膜蛋白
分类号: Q811.4
类 型: 博士论文
年 份: 2009年
下 载: 429次
引 用: 2次
阅 读: 论文下载
内容摘要
近几年,随着生物科学技术的飞速发展,产生出大量的生物数据。例如基因芯片技术大大加速了生物实验的进行,并随之产生了涉及数千维特征的基因表达数据,如何有效的处理和分析所产生的高维数据越来越引起研究者们的广泛关注。对于蛋白质数据,同样也面临这样的问题,为了更好地描述一个庞大的蛋白质信息数据,需要大量的高维数据和信息。但是最初研究人员提出的用来描述蛋白质序列信息的方法比较简单,得到的特征所包含的序列信息量很少,所以特征的维数不是很高,例如氨基酸的组成的特征描述方法。随着研究的不断深入,为了更好的描述蛋白质序列,表达方法中考虑了氨基酸的各种物理化学性质,即产生了伪氨基酸组成等方法。现今,随着蛋白质信息的增加以及各种蛋白质数据库的建立与完善,利用蛋白质数据库信息以及进化信息来描述蛋白质序列的特征表达方法被提出,典型的方法包括二肽组成、位置特异性分数矩阵(PSSM)、功能域组成、基因本体(GO)等。它们虽然比较全面的表达了蛋白质序列的各种结构和功能信息,但表达后相应特征的维数也随之增大,涉及到的特征维数已从几十维增加到几百维、甚至几千维。随着维度(特征数)的增加,数据之间的冗余性和不相关性都随之增大,这样会带来很多问题,例如对于某些数据分析算法,算法的计算复杂性会迅速增加。因此研究者们开始考虑有效的降低数据的冗余性及计算复杂度的理论和方法,维数约简算法即对高维数据降维的方法,是解决该问题的一种有效途径。通过降维约简了大量的冗余信息,但原数据中的重要信息被保留了下来。许多实验结果都证明采用降维方法不但使得预测系统得到简化,同时还提高了分类性能。本论文基于线性子空间降维方法来预测蛋白质数据的类别,其有效性通过模型评估方法得以验证。但是线性假设的内在不足使得线性降维方法无法揭示出数据集合中所含有的非线性结构性,而现实中所获得的真实数据集合更多的是呈现出非线性的结构,如本文研究的生物数据就是一种复杂的非线性结构数据。故为了弥补线性降维方法的不足,有效的探求数据集的内在非线性结构,线性子空间预测方法被推广到高维特征空间,开发出基于核方法的蛋白质数据分类预测算法。但是核函数不利于人的感知和直接理解,流形学习降维算法的提出弥补了它的不足。最近,产生了一种新的降维方法-最大方差映射方法。它结合了流形学习和线性降维方法的优点,采用该方法预测蛋白质的类别取得了较高的预测准确率。最后针对经典等距离映射(Isomap)降维算法的不足之处,提出了相应的改进算法MDM-Isomap,即基于最小最大距离度量准则(MDM)的降维算法。通过人脸识别实验进一步证明了该改进算法的有效性。本文的主要贡献在于:1.本文提出采用线性子空间降维方法来预测蛋白质亚细胞位置和四级结构。首先提取蛋白质数据的序列特征生成属性向量。属性向量的维数一般都很高,它能全面的描述蛋白质序列信息的同时,也带来了“维数灾难”问题,使得蛋白质亚细胞预测系统的复杂度很高。为了解决这一问题,我们采用了线性子空间的降维方法从中提取出重要的低维的特征向量,然后在降维后的低维特征向量上再进行分类预测,最后预测结果表明采用该方法不但使得生物预测系统得到简化,还提高了预测性能。2.考虑到线性降维方法对数据的假设过于苛刻,需要满足线性结构,而生物数据大多呈现出非线性的结构特点,所以这里将所提出的线性子空间方法推广到高维特征空间,形成基于核方法(非线性降维方法)的蛋白质亚细胞位置预测算法。经实验证明了这种方法的有效性,预测准确率高于基于线性子空间降维算法的预测方法。3.充分挖掘流形学习算法与线性降维算法的优点,以将两种方法的相结合为切入点,本文采用线性与非线性方法相结合的算法—最大方差映射方法(MVP)来预测膜蛋白的类别。它继承了线性判别分析算法(LDA)的最大化类间距离和最小化类内距离的思想,并在此基础上考虑了样本的局部几何特征,将其延伸为最大化类间的几何特征和最小化类内的几何特征。MVP方法的优点在于与传统的线性判别分析算法相比,它考虑了样本的空间几何结构信息,与基本的流形学习算法相比,它又具备判别能力,对解决分类问题的特征降维,尤其是膜蛋白的分类预测问题非常有效。4.对比了各种降维算法在蛋白质数据分类预测中的结果,总结出了各种降维算法的优点和缺点。针对等距离映射算法(Isomap)的邻域大小难以有效选取的问题提出了相应的改进算法,即基于最小最大距离度量准则(MDM)的降维算法MDM-Isomap。采用这种新的度量算法替代原始的欧式距离度量算法使得选择的近邻更加准确更能反应流形的本质特点。通过人脸识别实验也证明了这种方法的有效性,预测准确率高于经典的Isomap降维方法。5.为了进一步加速研究成果的转化及应用,建立了蛋白质亚细胞位置预测的在线生物服务网站。通过互联网,世界各地的学者可以在线使用该服务网站进行预测。
|
全文目录
摘要 3-6 Abstract 6-13 第一章 绪论 13-26 1.1 引言 13-14 1.2 研究背景 14-20 1.2.1 生物信息学概述 14-16 1.2.2 蛋白质 16-18 1.2.3 蛋白质数据库 18-20 1.3 相关技术和国内外研究现状 20-23 1.3.1 蛋白质数据的特征描述方法 20-22 1.3.2 蛋白质数据的分类方法 22-23 1.4 论文的研究内容与创新点 23-25 1.5 论文的组织结构 25-26 第二章 蛋白质序列数据的特征分析与分类技术 26-45 2.1 引言 26 2.2 蛋白质序列的特征描述方法 26-35 2.2.1 基于氨基酸组成和序列顺序信息的特征描述方法 26-28 2.2.2 基于氨基酸物理化学特性的特征描述方法 28-32 2.2.3 基于蛋白质数据库信息的特征描述方法 32-34 2.2.4 基于蛋白质进化信息的特征描述方法 34-35 2.3 蛋白质分类算法 35-42 2.4 分类模型的检验与评估 42-44 2.4.1 模型的检验 42-43 2.4.2 模型的评估 43-44 2.5 本章小结 44-45 第三章 基于线性子空间算法的蛋白质序列分类与预测 45-69 3.1 引言 45 3.2 线性子空间概述 45-50 3.2.1 主成分分析基础 46-49 3.2.2 线性判别分析 49-50 3.3 基于线性降维算法的蛋白质亚细胞位置预测 50-60 3.3.1 亚细胞位置预测问题 50-51 3.3.2 亚细胞位置预测的研究现状 51-53 3.3.3 细菌蛋白亚细胞位置预测算法 53-56 3.3.4 预测实验及讨论 56-60 3.4 基于PCA 的蛋白质四级结构预测 60-67 3.4.1 四级结构预测问题 60-62 3.4.2 四级结构预测的研究现状 62-63 3.4.3 四级结构数据选取 63-64 3.4.4 四级结构预测算法 64-65 3.4.5 实验结果及讨论 65-67 3.5 本章小结 67-69 第四章 基于核方法的蛋白质亚细胞位置的分类与预测 69-84 4.1 引言 69 4.2 核方法基础 69-72 4.2.1 核方法的基本思想 70-71 4.2.2 常用的核函数 71 4.2.3 核方法的发展及应用 71-72 4.3 基于非线性降维算法的蛋白质亚细胞位置预测 72-83 4.3.1 核 PCA 72-74 4.3.2 核 LDA 74-77 4.3.3 细菌蛋白质亚细胞位置预测 77-78 4.3.4 实验结果及讨论 78-81 4.3.5 Internet 网络服务 81-83 4.4 本章小结 83-84 第五章 基于流形学习算法的膜蛋白分类与预测 84-104 5.1 引言 84 5.2 流形学习算法 84-96 5.2.1 流形学习算法的研究现状 84-86 5.2.2 几种流形学习算法 86-93 5.2.3 最大方差映射算法 93-96 5.3 基于最大方差映射算法的膜蛋白类型预测 96-102 5.3.1 膜蛋白类型预测问题 96-98 5.3.2 膜蛋白类型预测的研究现状 98-99 5.3.3 膜蛋白类型预测算法 99-100 5.3.4 实验结果及讨论 100-102 5.4 本章小结 102-104 第六章 降维算法在高维生物数据中的应用与改进 104-124 6.1 引言 104-105 6.2 实验结果及讨论 105-112 6.3 Isomap 改进算法 112-123 6.3.1 最小最大距离 112-114 6.3.2 MDM-Isomap 算法 114-115 6.3.3 实验结果及讨论 115-123 6.4 本章小结 123-124 第七章 总结与展望 124-126 7.1 全文工作总结 124-125 7.2 未来工作展望 125-126 参考文献 126-135 致谢 135-137 博士期间发表、撰写的学术论文 137-139
|
相似论文
- 羊种布鲁氏菌16M优势蛋白抗原的鉴定,S852.61
- 水稻抗稻瘟病菌质膜蛋白的蛋白质组学分析,S511
- 白斑综合征病毒(WSSV)重复单元ORF94的序列差异分析及囊膜蛋白的相互作用,S945.1
- 犬小孢子菌膜蛋白PQ-LRP基因全长cDNA的克隆,R758.6
- 膜蛋白跨膜螺旋结构预测研究,Q51
- 新生儿重症监护病房多重耐药鲍曼不动杆菌耐药机制及同源性研究,R446.5
- 膜蛋白分类的特征提取算法和数据集构建技术研究,Q51
- 大鼠海马细胞质膜蛋白质组学研究及二维色谱在毒素组学研究中的应用,Q51
- 不同蛋白原料组合在乳猪教槽饲料中的应用研究,S828.5
- 耐碳青霉烯肠杆菌科细菌临床株耐药机制的研究,R446.5
- 与猪链球菌2型SntA蛋白互作的猪脑组织蛋白质的鉴定,S858.28
- 高温强光诱导的温州蜜柑光合机构光破坏机理研究,S666
- 副猪嗜血杆菌外膜蛋白图谱的建立及D15免疫原性鉴定,S852.61
- 抗日本血吸虫病二价多表位疫苗研究,R392
- 可溶性鸡蛋壳膜蛋白与多肽的制备及其抗氧化活性的研究,TQ464.7
- LMP1调控转录因子EGFR和STAT3在鼻咽癌细胞核相互作用的研究,R739.63
- LMP1调控转录因子EGFR和STAT3与cyclinD1基因相互关系的研究,R730.2
- 多药耐药铜绿假单胞菌耐药机制的研究,R446.5
- 产ESBLs和非产ESBLs肺炎克雷伯菌对喹诺酮类耐药机制差异的研究,R446.5
- 肝细胞癌患者肝组织及血清中GP73表达变及临床意义,R735.7
- 青鱼肠道出血病病原菌的分离鉴定与疫苗的初步研究,S943
中图分类: > 生物科学 > 生物工程学(生物技术) > 仿生学 > 生物信息论
© 2012 www.xueweilunwen.com
|