学位论文 > 优秀研究生学位论文题录展示
基于集成学习算法的若干生物信息学问题研究
作 者: 钮冰
导 师: 陆文聪
学 校: 上海大学
专 业: 材料学
关键词: 生物信息学 集成学习算法 AdaBoost Bagging 蛋白质结构 亚细胞定位 膜蛋白 代谢途径 小分子 氨基酸组成 官能团组成 HIV-1蛋白酶 交叉验证 独立测试集 构效关系
分类号: Q811.4
类 型: 博士论文
年 份: 2009年
下 载: 359次
引 用: 1次
阅 读: 论文下载
内容摘要
20世纪后期,由于人类等生物物种基因组学以及生物科学技术的飞速发展,生物信息发生了惊人的增长,这极大地丰富了生物科学的数据资源,并随之诞生了一门新兴的交叉学科:生物信息学,其目的在于通过对生物学实验数据的获取、加工、存储、检索与分析,揭示数据所蕴含的生物学意义。数据挖掘技术用于在数据中发现潜在有用的知识,在生物信息学研究当中,正发挥着越来越重要的作用,而且取得了丰硕的成果。本文应用集成学习方法来对生物信息中的若干问题进行讨论。本文的主体工作分为四个部分:1.用集成学习算法预测蛋白质结构和功能定位。随着生物技术的不断发展,越来越多的蛋白质序列被测定出来,探索利用理论及计算方法来研究蛋白质结构和功能定位具有重要意义。本文从蛋白质的一级序列出发,基于氨基酸组成进行蛋白质序列特征编码,使用了AdaBoost与Bagging这两种集成学习算法来对蛋白质的结构类型、膜蛋白类型和蛋白质亚细胞定位进行预测。在建模过程中,分别使用了RandomForest,KNN和C4.5三种不同的弱学习算法来作为基本分类器,并用基于10组交叉验证法的计算结果对建模参数进行优化。结果表明:(1)用AdaBoost-RandomForest算法预测蛋白质结构类型时,预测结果良好,对于所选用的两个标准数据集,其留一法预报准确率分别可以达到94.18%和85.9%,优于先前文献报导的预报结果;(2)用AdaBoost-C4.5算法预测原核和真核蛋白亚细胞定位时,其留一法预报准确率分别达到91.80%和80.80%,优于先前文献报导的预报结果;(3)用Bagging-KNN算法预测膜蛋白类型问题时,其留一法预报准确率可以达到84.42%,优于先前文献报导的预报结果。根据以上所建立的预测模型,我们同时开发了相应的在线预报系统。2.用集成学习算法研究小分子的生物功能。研究小分子生物功能,在分子生物学领域能帮助人类理解生命现象,在医学领域帮助人类认识疾病机理。由于通过实验来发现小分子的生物功能会耗费大量的人力、物力和财力,且具有一定的盲目性和风险性,因此,用集成学习方法来研究这个问题具有实际意义。本文中我们首先研究了小分子代谢途径类型的预测问题,提出了基于官能团组成的小分子编码方法,用AdaBoost-C4.5算法建模,其交叉验证预报准确率达到74.05%,对独立测试集的预报准确率达到75.11%。然后,我们又研究了小分子与酶相互作用的预测问题,用AdaBoost-C4.5算法建模,其交叉验证预报准确率达到81.76%,对独立测试集的预报准确率达到83.35%。结果表明,集成学习算法可以用来研究小分子的生物功能,所建模型有很好的预测性能。此外,我们根据所建立的小分子代谢途径类型和小分子与酶相互作用的预测模型,同时开发了相应的在线预报系统。3.运用集成学习算法AdaBoost来研究苯酚类化合物毒性机理预测的问题。我们从文献中收集了274个苯酚化合物,计算了45个分子描述符,用基于互信息增益的CFS(Correlation-based Feature Subset)算法筛选出9个分子描述符。基于这9个描述符,我们分别以C4.5,RandomTree,RandomForest和KNN四种算法作为基本分类器建立AdaBoost模型,经过优化和验证后,最终选用C4.5为基本分类器建模。最后,又与SVM和KNN算法的预报性能做了比较,结果表明AdaBoost算法在苯酚类化合物毒性机理预测中,有良好的预报能力,其交叉验证和对独立测试集的预报准确率分别达到96.3%和92.8%。基于该研究内容,建立了相应的在线预报系统。4.使用mRMR- KNN集成方法研究HIV-1蛋白酶的裂解位点预测。首先,使用AAindex的531个氨基酸残基指数对8肽进行编码,然后使用mRMR特征筛选方法得到了500个特征。在此基础上,使用改进的Wrapper搜索方法得到了含有364个特征的子集。最后用最近邻方法(KNN)建模预测HIV-1蛋白酶裂解位点,其留一法测试和对独立测试集的预报准确率分别可以达到91.3%和87.3%。通过对500个特征进行生物学分析,我们发现:(1)P1位点和P2’位点对于HIV-1蛋白酶底物的特异性所作贡献最大, (2)P1位点上的氨基酸残基主要是疏水性残基,而P2’位点上的氨基酸残基主要由二级结构决定,以上两点结论与先前通过实验所得到的文献结论相吻合。本工作结果表明: mRMR方法结合改进的Wrapper方法能够对生物数据集进行有效的特征筛选;在此基础上建模,不仅可以得到满意的预测结果,而且所选的特征具有生物学意义。因此,mRMR方法有望成为生物信息学领域特征筛选的一个重要方法。
|
全文目录
摘要 6-9 Abstract 9-15 第一章 绪论 15-20 1.1 生物信息学简介 15-16 1.2 机器学习算法在生物信息学中的应用 16-18 1.3 QSAR 简介 18-19 1.4 论文的主要内容 19-20 第二章 机器学习算法 20-40 2.1 决策树算法 20-25 2.1.1 C4.5 算法 21-23 2.1.2 随机决策树算法 23-24 2.1.3 随机森林算法 24-25 2.2 集成学习算法 25-33 2.2.1 集成学习算法概述 25-28 2.2.2 AdaBoost 算法 28-31 2.2.2.1 Boosting 算法介绍 28-29 2.2.2.2 Adaboost 算法描述 29-31 2.2.3 Bagging 算法 31-33 2.2.3.1 Bagging 算法的提出 31-32 2.2.3.2 Bagging 算法描述 32-33 2.3 SVM 算法 33-39 2.3.1 统计学习理论 33-34 2.3.2 支持向量分类算法 34-37 2.3.2.1 最优分类面 34-35 2.3.2.2 线性可分的情况 35-37 2.3.2.3 非线性可分情况 37 2.3.4 支持向量机核函数 37-39 2.4 本章小结 39-40 第三章 基于集成学习算法的蛋白质结构类型与功能定位预测 40-81 3.1 引言 40 3.2 蛋白质结构类型预测 40-52 3.2.1 研究背景 40-42 3.2.2 数据集以及特征参数的提取 42-43 3.2.3.计算结果 43-50 3.2.4 分析与讨论 50-52 3.2.4.1 AdaBoost 算法与其它算法预报性能的比较 50-51 3.2.4.2 AdaBoost 算法中参数的选择 51-52 3.3 蛋白质亚细胞定位预测 52-67 3.3.1 研究背景 52-54 3.3.1.1 蛋白质亚细胞定位的生物学基础 52-53 3.3.1.2 亚细胞定位预测方法现状 53-54 3.3.2 数据集以及特征参数的提取 54-56 3.3.3 计算结果 56-64 3.3.3.1 模型的优化 56-63 3.3.3.2 预报模型验证 63-64 3.3.4 分析与讨论 64-67 3.3.4.1 氨基酸组成特征分析 64-66 3.3.4.2 与其它算法的预报准确率比较 66-67 3.4 膜蛋白类型预测 67-77 3.4.1 研究背景 67-68 3.4.1.1 膜蛋白生物学基础 67-68 3.4.1.2 膜蛋白类型预测方法现状 68 3.4.2 数据集以及特征参数的提取 68-70 3.4.3 计算结果 70-75 3.4.3.1 基本分类器的选择及其参数优化 70-74 3.4.3.2 预报模型验证 74-75 3.4.4 分析与讨论 75-77 3.4.4.1 氨基酸组成特征分析 75-76 3.4.4.2 与其它机器学习算法的预测性能比较 76-77 3.5 Web 服务 77-80 3.6 本章小结 80-81 第四章 基于集成学习算法的小分子生物功能预测 81-113 4.1 前言 81-83 4.2 小分子代谢途径类型研究 83-97 4.2.1 研究背景 83-84 4.2.2 数据集 84-86 4.2.2.1 小分子化合物的采集 84-85 4.2.2.2 化合物编码 85-86 4.2.3 计算结果 86-93 4.2.3.1 模型的优化 86-91 4.2.3.2 预报模型评估 91-93 4.2.4 分析与讨论 93-97 4.2.4.1 官能团组成特征分析 93-96 4.2.4.2 AdaBoost 算法与其它算法预测性能比较 96-97 4.3 小分子-酶相互作用研究 97-112 4.3.1 研究背景 97-98 4.3.2 数据集和特征表示 98-101 4.3.2.1 小分子化合物的采集 98 4.3.2.2 编码方式 98-101 4.3.3 计算结果 101-105 4.3.3.1 模型的优化 101-105 4.3.3.2 预报模型评估 105 4.3.4 分析与讨论 105-112 4.3.4.1 官能团组成特征分析 105-107 4.3.4.2 酶特征分析 107-112 4.4.W eb 服务开发 112 4.5 小结 112-113 第五章 基于CFS-AdaBoost 算法的苯酚类化合物毒性机理构效关系研究 113-126 5.1 引言 113-114 5.2 材料和方法 114-116 5.2.1 数据集 114 5.2.2 分子描述符 114-115 5.2.3 基于CfsSubset (Correlation-based Feature Subset)算法的特征选择 115-116 5.3 计算结果 116-121 5.3.1 描述符选择 116 5.3.2 基本分类器的选择及其参数优化 116-120 5.3.3 预报模型验证 120-121 5.4 分析与讨论 121-123 5.4.1 特征分析 121-122 5.4.2 与其它算法预测性能比较 122-123 5.5 Web 服务 123-125 5.6 本章小结 125-126 第六章 基于m RMR-KNN 算法的HIV-1 蛋白酶特异性位点预测 126-139 6.1 引言 126-129 6.2 数据集和方法 129-131 6.2.1 数据集准备 129 6.2.2 mRMR 方法 129-131 6.3 结果与讨论 131-137 6.3.1 特征选取 131-134 6.3.2 不同子集建模预报能力比较 134 6.3.3 特征分析 134-137 6.4 本章小结 137-139 第七章 结论与展望 139-144 7.1 结论 139-142 7.2 展望 142-144 参考文献 144-172 攻读博士学位期间发表及完成的论文目录和专利 172-174 致谢 174
|
相似论文
- 鬼臼毒素衍生物的设计、合成及抗肿瘤活性研究,R284
- 毛纺用化学品毒性毒理数据库的建立,TS131
- 2-酰氧基环烷基磺酰胺类化合物的合成与杀菌活性研究,S482.2
- 3-取代巯基-4-取代氨基-5-取代1,2,4-三唑类化合物的合成及抑菌活性,R96
- 新型氮唑类化合物的合成及其抗真菌活性研究,R96
- 基于萘的荧光分子合成、表征及光物理性能研究,O621.3
- 新型拓扑异构酶I抑制剂的计算机设计、合成与抗肿瘤活性研究,R730.5
- 计算机辅助设计极光激酶抑制剂的研究,R914.2
- 以HIV-1 gp41与CCR5为靶点的药物设计研究,R914.2
- β_2-肾上腺素受体色谱用于药物结合常数—结构参数间的关系研究,R285
- 黄酮类化合物对肿瘤细胞增殖的影响及MDA-MB-453/BCRP耐药株的构建,R96
- 抗肿瘤作用新型鬼臼毒素衍生物的设计、合成及活性评价,R915
- 半监督联合训练分类方法研究及其应用,TP311.13
- 支持向量回归在化学农药定量构效关系中的应用,S48
- 高效有机缓蚀剂的构效关系研究及分子设计,TG174.42
- β-分泌酶抑制剂的设计、合成与构效关系研究,R91
- 薄层色谱生物自显影跟踪分离天然乙酰胆碱酯酶抑制剂的研究,R284
- 迷迭香酸衍生物的设计、合成及其对基质金属蛋白酶1的抑制活性研究,R96
- Pin1 小分子抑制剂的设计、合成及活性评价,TQ460.1
- 高抗冲聚苯乙烯/氢氧化镁无卤阻燃复合材料的改性及性能研究,TB332
- 槐定碱类似物的设计合成与抗肿瘤活性研究,R285
中图分类: > 生物科学 > 生物工程学(生物技术) > 仿生学 > 生物信息论
© 2012 www.xueweilunwen.com
|