学位论文 > 优秀研究生学位论文题录展示
基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究
作 者: 尤著宏
导 师: 黄德双
学 校: 中国科学技术大学
专 业: 模式识别与智能系统
关键词: 蛋白质-蛋白质相互作用 复杂网络理论 半监督学习 流形学习 遗传相互作用 异源数据融合 信号转导通路 假阳性 假阴性
分类号: Q51
类 型: 博士论文
年 份: 2010年
下 载: 347次
引 用: 0次
阅 读: 论文下载
内容摘要
蛋白质-蛋白质相互作用在生物体的生命活动中扮演着极其重要的作用,几乎涉及到每一个生理过程。高通量实验鉴定技术和计算预测方法的快速发展使得直接和间接来源的大规模蛋白质相互作用数据不断累积。然而,大规模蛋白质相互作用数据中较高比例的假阳性和假阴性“噪声”严重影响了相互作用数据的质量。生物信息学方法能够从已有的数据和知识出发,通过计算的方法系统评估和预测蛋白质相互作用数据的假阳性和假阴性。本文针对上述问题,从蛋白质相互作用网络的拓扑结构出发,以图和复杂网络理论为基本工具,提出了四种有效的计算方法来对蛋白质相互作用数据中假阳性数据进行评估,并预测其假阴性数据和遗传相互作用。最后,我们提出一种在整合蛋白质相互作用数据、高内涵RNAi筛选数据和其它多源数据的基础上重建果蝇的MAPK信号转导通路的方法,以此作为蛋白质相互作用数据的一个应用实例。全文的主要工作概括如下:(1)针对蛋白质相互作用数据中存在着较高比例假阳性数据的问题。提出了一种通过整合与蛋白质相互作用相关的多源异构组学数据,并巧妙地将多源数据信息与蛋白质相互作用网络的拓扑结构信息进行融合,进而过滤蛋白质相互作用数据中的假阳性“噪声”的方法。实验结果表明,所提出过滤算法的性能要优于已有的三种经典方法,能够筛选出原始数据中具有高度可靠性的蛋白质相互作用对。(2)提出了一种鲁棒的基于流形学习ISOMAP的蛋白质相互作用假阳性过滤和假阴性预测的方法。该方法首先采用ISOMAP方法将原始的蛋白质相互作用网络变换到一个低维的流形空间。然后,根据所嵌入低维空间中蛋白质间的相似性构造了一个用来表示蛋白质对相互作用可能性的可靠性指数。实验结果显示,所提出的方法能够成功地评估或预测稠密或者稀疏蛋白质相互作用网络的假阳性或假阴性“噪声”。(3)提出了一种新的基于线图和加权网络拓扑结构的方法来消除大规模蛋白质相互作用数据中的假阳性“噪声”。首先,采用一种新颖的加权线图算法将原始的蛋白质相互作用网络变换成其对应的加权线图;然后,计算变换后的加权线图中节点的多种网络拓扑属性。最后,采用一种加权的CD-Dist算法对蛋白质相互作用数据的可靠性进行了评估。实验结果表明,所提出的方法能够取得很好的去噪效果,过滤后的蛋白质相互作用数据可靠性得到了显著的提高。(4)针对目前在基因组范围内的蛋白质遗传相互作用尚不完全了解,且通过实验的方法检测蛋白质遗传相互作用将非常困难和昂贵这一问题,提出了一种计算系统生物学方法来准确预测合成遗传相互作用。该方法首先通过整合蛋白质相互作用数据、蛋白质复合物数据和基因表达谱数据,构建一个高覆盖率、高精度的功能基因网络。然后,从上述功能基因网络中计算得到十种加权网络拓扑属性作为预测合成遗传相互作用的特征向量。最后,一种基于图的半监督分类器被用来预测合成遗传相互作用。实验结果表明,所提出的方法能够准确地预测酵母的遗传相互作用。(5)提出了一种将RNA干扰技术、荧光显微镜技术和自动图像分析技术的结合的系统生物学方法来研究果蝇细胞的MAPK信号转导通路。该方法首先通过整合高内涵RNAi筛选数据、多源基因组学和蛋白质组学数据构建一个高可靠性的功能基因网络。然后,采用提出的一种改进的整数线性规划算法从所构建的功能基因网络中重建出果蝇MAPK信号通路。最后,通过p值、基因功能富集分析和已发表文献知识这三个指标来对得到的信号通路的生物显著性进行了验证。实验结果表明,所提出的方法不但能够发现KEGG标准数据库中存放的MAPK信号通路中包括的所有元素,而且还预测了一些额外的参与MAPK信号通路的蛋白质,通过文献查询,这些预测的蛋白质确实参与了MAPK信号通路。
|
全文目录
摘要 5-7 Abstract 7-14 第一章 绪论 14-38 1.1 引言 14-16 1.2 蛋白质相互作用概述 16-21 1.2.1 什么是蛋白质 16-18 1.2.2 蛋白质相互作用简介 18-19 1.2.3 蛋白质相互作用网络 19-21 1.3 蛋白质相互作用的检测方法 21-28 1.3.1 生物实验检测蛋白质相互作用 21-25 1.3.2 计算方法预测蛋白质相互作用 25-28 1.4 蛋白质相互作用网络及相关数据库 28-30 1.5 蛋白质组学研究概述 30-31 1.6 基于图和复杂网络理论的生物网络研究概述 31-33 1.7 本文的研究内容安排与创新点 33-38 1.7.1 全文组织结构 33-35 1.7.2 本文的主要创新点 35-38 第二章 预备知识 38-44 2.1 图论的研究历史 38-39 2.2 图的基本理论 39-44 2.2.1 图的定义 39-41 2.2.2 图的基本概念 41 2.2.3 图的矩阵表示 41-44 第三章 基于多源数据融合及网络拓扑结构的蛋白质相互作用数据噪声过滤方法研究 44-60 3.1 引言 44-45 3.2 评估蛋白质相互作用的计算方法 45-48 3.2.1 基于实验重复性观察的方法 45-46 3.2.2 基于基因本体信息的方法 46 3.2.3 基于多源信息融合的方法 46-47 3.2.4 基于蛋白质相互作用网络拓扑结构的方法 47-48 3.3 基于多源数据融合及网络拓扑结构的蛋白质相互作用数据噪声过滤方法 48-54 3.3.1 罗切斯特回归(Logistic Regression,LR)模型简介 48-51 3.3.2 加权CD-Dist简介 51-54 3.4 实验结果及其分析 54-59 3.4.1 数据源获取 54-56 3.4.1.1 相互作用数据源描述 54-55 3.4.1.2 多数据源描述 55-56 3.4.2 实验性能的评价指标 56-57 3.4.3 实验结果分析 57-59 3.5 本章小结 59-60 第四章 基于流形学习ISOMAP的蛋白质相互作用数据噪声过滤方法研究 60-78 4.1 引言 60-61 4.2 算法描述 61-67 4.2.1 流形学习简介 63-65 4.2.2 蛋白质对的相互作用可靠性指数 65-67 4.3 实验结果及分析 67-77 4.3.1 蛋白质相互作用数据源 67 4.3.2 发生与不发生相互作用蛋白质对在低维嵌入空间的距离分布 67-71 4.3.3 将蛋白质相互作用网络映射到低维度量空间的ROC曲线性能分析 71-73 4.3.4 评估稠密蛋白质相互作用数据的可靠性 73-74 4.3.5 评估稀疏蛋白质相互作用数据的可靠性 74-76 4.3.6 预测稀疏蛋白质相互作用网络中新的相互作用 76-77 4.4 本章小结 77-78 第五章 基于线图及加权网络拓扑结构的蛋白质相互作用数据噪声过滤方法研究 78-88 5.1 引言 78-79 5.2 基于线图及加权网络拓扑结构的蛋白质相互作用数据评估 79-85 5.2.1 方法概述 79 5.2.2 加权线图变换算法 79-82 5.2.3 加权网络拓扑属性 82-84 5.2.4 相互作用可靠性分值计算 84-85 5.3 实验结果与分析 85-87 5.4 本章小结 87-88 第六章 基于图的半监督学习及网络拓扑结构的遗传相互作用预测方法研究 88-110 6.1 引言 88-90 6.2 当前预测蛋白质遗传相互作用的计算方法 90-92 6.2.1 基于蛋白质互作网络拓扑属性的蛋白质遗传相互作用预测方法 91 6.2.2 通过整合多源异构组学数据来预测新的蛋白质遗传相互作用 91-92 6.2.3 基于同源性的蛋白质遗传相互作用预测 92 6.3 基于图的半监督学习及加权网络拓扑结构的蛋白质遗传相互作用预测研究 92-100 6.3.1 方法概述 92-93 6.3.2 功能基因网络的构建 93-94 6.3.3 功能基因网络的拓扑属性 94-97 6.3.4 基于图的半监督分类器简述 97-100 6.4 实验结果与分析 100-108 6.4.1 数据源 100-101 6.4.2 交叉验证 101-102 6.4.3 实验结果 102-105 6.4.4 实验结果讨论 105-108 6.5 本章小结 108-110 第七章 基于高内涵RNAi筛选及功能基因网络的信号通路重建算法研究. 110-128 7.1 引言 110-112 7.2 数据描述 112-117 7.2.1 高内涵RNA干涉筛选数据 112-116 7.2.2 其他多源基因组和蛋白质组学数据 116-117 7.3 算法描述 117-120 7.3.1 方法概述 117-118 7.3.2 基于多数据源的功能基因网络FGN构建 118-119 7.3.3 用于重建MAPK信号通路的IILP算法 119-120 7.4 实验结果与分析 120-126 7.4.1 算法评价指标 120-121 7.4.2 实验结果 121-126 7.5 本章小结 126-128 第八章 工作总结与展望 128-132 8.1 论文的主要工作和创新点 128-131 8.2 下一步工作展望 131-132 参考文献 132-141 在读期间发表的学术论文与取得的研究成果 141-143 致谢 143
|
相似论文
- 基于流形学习的高维流场数据分类研究,V231.3
- 唇读中的特征提取、选择与融合,TP391.41
- 基于流形学习的数据降维技术研究,TP311.13
- 乳腺X线摄影假阴性乳腺癌临床分析,R737.9
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- 基于学习的视频超分辨率重建算法研究及实现,TP391.41
- 基于脑电的情感识别,TP391.4
- 基于半监督哈希算法的图像检索方法研究,TP391.41
- 人体运动时间序列可视化及多索引方法研究,TP391.41
- 基于半监督学习的时间序列分类研究与实现,TP181
- 乌鲁木齐市公交网络结构特性分析研究,U491.17
- β-连环素及E-钙粘附素在上皮性卵巢肿瘤中的表达及临床意义,R737.31
- 左归丸对去卵巢大鼠骨组织中TGF-β1、Smad4信号转导通路的研究,R285
- 基于多基点定位的ISOMAP算法改进研究,TP181
- 数据挖掘在研究生调剂中的应用研究,TP311.13
- 暴雨中冰雹的识别,P429
- 醋酸甲羟孕酮体外诱导卵巢上皮癌SKOV-3细胞凋亡的研究,R737.31
- P38MAPK对高糖诱导肾小球系膜细胞ICAM-1和VCAM-1表达的影响,R587.2
- 矽肺大鼠肺纤维化过程中差异基因的表达及关键信号转导通路的探讨,R563.9
- 不同配伍比例交泰丸对2型糖尿病大鼠的治疗作用及分子机制研究,R285.5
- 半监督学习中协同训练与多视图方法的比较及改进,TP18
中图分类: > 生物科学 > 生物化学 > 蛋白质
© 2012 www.xueweilunwen.com
|