学位论文 > 优秀研究生学位论文题录展示
统计建模分析高通量生物数据及其应用
作 者: 王文惠
导 师: 栾贻会;孙丰珠
学 校: 山东大学
专 业: 概率论与数理统计
关键词: 随机网络 蛋白质交互网络 基因共表达网络 伪似然 复杂疾病 蛋白质功能域交互网络 扩散核 单倍体 连锁不平衡
分类号: O212.1
类 型: 博士论文
年 份: 2009年
下 载: 217次
引 用: 0次
阅 读: 论文下载
内容摘要
随着现代生物学的发展,从生物分子层面上研究生物问题对发现生命现象的本质尤其是理解疾病的致病原理的重要作用已经得到了广泛认同.高通量试验技术包括生物芯片[78;115;135],酵母菌双层杂交试验[58;130],质谱分析[40;54],染色质免疫沉淀反应[59;109]等等.在这些高通量试验技术快速发展的驱动下,同时获得人类或其他模型生物的数以千计的分子及这些分子之间交互作用的数据成为可能。如此大量的数据信息为我们重新理解细胞生物和疾病提供了宝贵的机会。与此同时,高通量数据的特点是:预测变量的维数远远大于样本个数;数据结构非常复杂;数据噪声很大;观测值缺失或不确定等等。在这种情况下,大多数传统统计方法不能得到正确的预测结果,或者得到的预测结果效用有限。因此,我们面临的重大挑战就是设计新的统计模型来高效的获取,分析,解释这些数据中包含信息。在这篇论文中,我们主要从如下几个方面出发建立统计模型分析生物数据:1.利用dK随机图模型预测生物网络中的功能模块。生物功能的很多方面可以用生物网络建模,例如蛋白质交互网络,新陈代谢网络和基因共表达网络。研究这些网络的统计特征可以帮助我们推测生物功能。复杂的统计网络模型能够更加精确的描述网络,但是复杂模型是否有助于找到有生物意义的子网络还不清楚。近来的研究表明网络中点的度分布不足以充分刻画网络特征。在第二章中,我们尝试将度分布扩展到二阶和三阶相关度分布。我们设计了一种伪似然的方法来估计参数。我们应用这种方法分析了MIPS和BIOGRID酵母菌蛋白质交互网络和两个酵母菌基因共表达网络。结果表明,不论是在蛋白质交互网络还是在基因共表达网络中,二阶相关度分布模型能够更好的预测基因之间的交互关系。然而,对于预测功能模块,相关度分布模型在蛋白质交互网络的情况下表现比一般度分布模型稍好,对于基因共表达网络,相关度分布模型表现不如一般度分布模型。我们的计算结果表明:结合度分布交互信息可以在某些方面提高预测准确度,但是,在所有的方面,三阶相关度分布模型的预测精度反而不好。如果我们使用其它的参数估计方法,例如极大似然估计,有可能体现二阶和三阶度分布交互模型在预测功能模块方面的优势。2.从蛋白质功能域交互网络出发,在蛋白质功能域上定位致病变异对导致人类复杂疾病的遗传变异的辨识和致病基因的定位是非常重要的。蛋白质分子一般由数个蛋白质功能域组成。我们假设有害的遗传变异会导致蛋白质功能域结构发生变化,影响蛋白质功能,并最终导致疾病。以此为出发点,我们探索利用蛋白质功能域交互网络恢复蛋白质功能域与疾病之间的关联关系。根据非同义单核苷酸多态性与复杂疾病之间的关联关系,我们定义蛋白质功能域与复杂疾病之间的关联关系。以蛋白质功能域交互网络为出发点,我们提出了“guilt-by-proximity”方法:根据候选功能域与种子功能域之间在蛋白质功能域交互网络中的平均距离对候选蛋白质功能域排序。我们用大规模交叉验证试验的方法在模拟连锁区间,随机控制集合和整个基因组三种情况下验证了我们的方法。通过致病蛋白质功能域的AUC值和平均排名比率对方法进行量化验证。结果表明:我们的方法的AUC值为77.9%,平均排名比率为21.82%。我们进一步对整个基因组中蛋白质功能域与疾病之间的关联关系进行了排名,并提供了免费的查询网站。这个网站为定位导致复杂疾病的遗传变异提供了有用的信息。3.在候选位点存在强连锁不平衡的条件下辨识功能位点在单个基因区域中,多个生物学标记有可能表现出强烈的连锁不平衡性。某种表现型可能与数个生物学标记之间有强列的统计相关性。邻居位点上变异之间的连锁不平衡,尤其是强连锁不平衡不仅为辨识与特定表现型相关的生物学标记制造了困难,而且阻碍了区分功能相关变异和非功能相关变异。在第四章中,我们考虑了5种不同的方法:助推法,Lasso,岭回归,逐步回归和单位点分析。在变异之间存在连锁不平衡的情况下,我们利用模拟比较这五种方法预测功能变异的表现。我们发现:如果有100个样本,在20位点之间存在强连锁不平衡的条件下,岭回归表现最好;在500或1000个位点之间有退化的连锁不平衡的条件下,助推法表现最好。
|
全文目录
Chinese Abstract 7-9 English Abstract 9-12 第一章 引言 12-21 §1.1 生物背景 12-13 §1.2 生物分子网络和其中功能一致子网络的辨识 13-16 §1.3 蛋白质功能域与疾病之间的相关关系 16-19 §1.4 不同方法在连锁不平衡的情况下预测功能位点的表现 19-21 第二章 利用dK模型预测生物网络中功能一致子网络的有效性和缺陷 21-51 §2.1 数据和方法 21-26 §2.1.1 数据 21 §2.1.2 dK模型参数估计 21-23 §2.1.3 检验dK模型预测网络交互的能力 23 §2.1.4 dK模型下网络样本的随机模拟 23-24 §2.1.5 验证模型辨识功能一直子网络的能力 24-25 §2.1.6 功能一致性预测的评估 25 §2.1.7 利用模拟退火寻找高值函数模块 25-26 §2.2 结果和讨论 26-32 §2.2.1 dK模型预测网络交互的表现 26 §2.2.2 dK模型随机网络的统计特征与真实网络相应特征的比较 26-28 §2.2.3 dK模型分辨功能一致模块的表现 28-32 §2.3 结论 32-33 §2.4 附录 33-51 §2.4.1 补充图 33-47 §2.4.2 补充表 47-51 第三章 利用蛋白质功能域交互网络对蛋白质功能域与复杂疾病的关联关系排序 51-61 §3.1 数据和方法 51-54 §3.1.1 数据 51-52 §3.1.2 Guilt by proximity 52-53 §3.1.3 评价准则 53-54 §3.2 结果 54-59 §3.2.1 方法的表现 54-56 §3.2.2 蛋白质功能域交互网络偏差的影响 56-58 §3.2.3 蛋白质功能域与疾病关联关系的预测 58-59 §3.3 Conclusion 59-61 第四章 借助随机模拟比较几种方法处理基因关联分析中连锁不平衡性的表现 61-69 §4.1 Methods 61-62 §4.1.1 单位点分析 61 §4.1.2 逐步回归 61 §4.1.3 岭回归 61-62 §4.1.4 Boosting 62 §4.1.5 LASSO 62 §4.1.6 方法的评估 62 §4.2 结果 62-66 §4.2.1 20个位点有强连锁性 62-64 §4.2.2 500和1000个位点之间有退化的连锁不平衡性 64-66 §4.3 结论 66-69 Bibliography 69-85 作者简介 85-86 致谢 86-88 学位论文评阅及答辩情况表 88
|
相似论文
- 中国大豆地方品种群体的遗传结构和连锁不平衡特征及主要育种性状QTL的关联分析,S565.1
- 中国野生大豆的群体结构和连锁不平衡特点以及育种有关性状QTL的关联分析,S565.1
- 稻种资源稻米品质评价及可溶性淀粉合酶基因序列多态性和关联分析,S511
- 水稻抗纹枯病QTL定位及抗病导入系构建,S511
- 水稻多亲本导入系抗旱性与氮高效的整合研究,S511
- IL28B基因变异与丙型肝炎的相关性,R512.63
- 针对远交林木群体构建连锁不平衡图谱,S722
- 水稻抗旱QTL区域的单核苷酸多态性与连锁不平衡,S511
- 系统性红斑狼疮的基因、环境因素以及基因—环境交互作用研究,R593.241
- 利用连锁不平衡信息对推断单倍型算法效能的研究,Q3-3
- 8p基因ASAH1和NRG-1与精神分裂症易感性研究,R749.3
- NER通路基因与肺癌易感性的关联分析研究,R734.2
- 高密度常染色体SNPs揭示的现代人群遗传结构,Q987
- 水稻高代回交导入系选择群体的选择响应与遗传重叠研究,S511
- 人类基因组的连锁不平衡强度变化及应用,Q987
- 抑郁症遗传模式及其与CREB1、BDNF基因的关联和表达研究,R749.4
- 五个慢性HBV感染相关候选基因的SNP筛查及遗传易感性研究,R512.6
- 肾素—血管紧张素系统基因多态性与原发性高血压,R544.1
- TPO与TSHR基因序列多态性与遗传性甲状腺疾病的连锁与关联研究,R581.1
- 汉族正常和B-NHL人群caspase 3、Fas基因多态性与突变的研究及与B-NHL发病关系的初步探讨,R733.1
中图分类: > 数理科学和化学 > 数学 > 概率论与数理统计 > 数理统计 > 一般数理统计
© 2012 www.xueweilunwen.com
|