学位论文 > 优秀研究生学位论文题录展示
复杂性状与基因组多位点的关联分析方法研究
作 者: 胡艳玲
导 师: 潘玉春
学 校: 上海交通大学
专 业: 生物医学工程
关键词: 基因组 单倍体型 单核苷酸多态 逐步向下P值法 广义线性模型 核机器函数 打分统计 半参数回归模型
分类号: R346
类 型: 博士论文
年 份: 2009年
下 载: 497次
引 用: 0次
阅 读: 论文下载
内容摘要
影响复杂性状的遗传结构包括很多基因,这些基因的顺式及反式作用位置中的多个突变位点能够相互互作共同影响复杂性状。因此,多个位点的联合分析比单个位点的分析能获得更多的信息。单倍体型,即位于一条染色体上或某一区域内的一组相关联的SNP位点。显然,对单倍体型进行分析为运用SNP信息探究遗传性状尤其是复杂性状的遗传机制提供了一条更加便捷、更加有效的途径。因此本文研究单个基因的SNP互作的同时,利用单倍体型从基因组水平考虑非连锁区域基因与基因的共同作用。主要研究内容及其结果如下:第一,基于半参数回归模型的单区域多位点与复杂性状关联分析探讨复杂性状与某一区域功能位点的关联定位备受关注。目前通常用的方法是单独分析每一个区域的单个SNP,但这样可能会由于位点SNP与性状标记之间存在不完全的连锁不平衡而导致分析结果效力降低。也有通过单倍体型等方法联合分析这些位点,但如果有许多单倍体型时,可能会使单倍体型的分析方法的效能减弱。因此,我们基于Kwee等针对数量性状基因座的半参数回归模型,其模型能够同时利用多个SNPs的信息且能考虑位点之间的连锁不平衡,但相比现有多个位点联合分析方法,维度能更低。针对Kwee等的模型缺陷,我们引入对缺失数据的处理。另外,通过逐步向下P值法筛选与数量性状关联的多个联合SNP标记。人的前列腺癌是个普发的疾病,威胁着很多人的生命,备受世界关注。本节我们利用HapMap的公共数据,对人前列腺癌通路上具有淋巴细胞表达数据的67个基因与339个候选基因进行顺式与反式调控的分析,找出影响人前列腺癌通路上基因表达的顺式和反式作用因子,并进行通路分析。第二,基于参数回归模型的多区域单倍体型与复杂性状关联分析复杂性状的遗传基础包括很多基因,这些基因的联合作用是很普遍的。因此同时考虑多个基因、多个区域是比较可取的。我们提出基于广义线性回归模型复杂性状跟多个非连锁区域的单倍体型联合的关联分析,通过打分统计来检验单倍体型效应的零假设。另外,通过多重检验最小P值法获得最好非连锁区域多个位点的联合。通过模拟研究检验我们提出的方法的准确性和检出效能,证实模型的有效性和对单倍体型互作的关联分析的检出率。对于没有考虑其他协变量的数据,通过跟软件FAMHAP的htr和hapcc模型比较得出,我们的方法在准确性和有效检出率能与htr和hapcc相当,甚至超过它们。另外,我们模型能考虑更多的性状类型以及允许加入其他协变量。为了验证我们方法的有效性,我们应用在有4个非连锁侯选基因与猪肉质的关联分析中。第三,基于半参数回归模型的多区域单倍体型与复杂性状关联分析一般复杂性状的遗传模式都包括多个基因及它们之间的相互作用。我们提出一种新的统计方法即基于单倍体型水平找出影响某一连续性状变化的基因组多个区域。我们提出的方法是使用具有核函数的半参数回归模型,能够同时考虑大量基因。此种方法比现有的方法能够有效地达到降维的作用。对于参数的估计和非参数函数检验我们参照Liu等和Kwee等,即通过最小乘方核机器(LSKM)进行参数估计和通过打分统计进行非参数函数检验。为了获得最好的基因或区域组合,通过逐步向下P值法筛选。模拟研究证明这种方法的准确性以及检验多个基因的检出效能。我们把这种方法应用到人前列腺癌通路的KLK3表达与339个候选基因的关联分析中,找到影响KLK3表达的基因群,比上节单个基因的分析获得更多的信息。另外,我们应用这种方法研究猪肉质的遗传机制。第四,基于半参数逻辑斯蒂核模型的多区域单倍体型与二类性状关联分析寻找新的统计方法来检验疾病的遗传通路越来越受到关注。原因是一个通路中的基因倾向于彼此相互作用,如果使用传统的参数估计由于维数太大而不可行,使得用非参数方法更可取。通过核机器函数对高维基因组单倍体型信息拟合,我们提出了高效灵活的分析和检验基因组基因与疾病关联的遗传通路的半参数逻辑斯蒂模型。按照Liu等,我们把我们半参数模型转化成逻辑斯蒂混合模型来表达,利用现有的统计软件进行参数估计,对非参数函数检验采用打分统计。通过模拟研究证明这种方法准确性以及检验疾病遗传通路的效能。这个方法应用在磷酸盐治疗下的多种骨髓瘤下巴骨坏死病人数据的通路分析中。第五,基于半参数回归模型的多区域单倍体型与纵向性状关联分析对于具有多次记录的纵向数据研究中,能够同时考虑影响性状的时间及其他协变量是很重要的。基于Zhang等研究纵向数据的半参数模型,我们把模型的参数固定效应用来拟合单倍体型和其他固定协变量效应,参数的估计按照Zhang等的方法,采用似然比检验来检验单倍体型效应。通过对我们改进的方法与一般的混合模型Haplo.stats和FAMHAP的htr模型进行模拟比较,证实对动态性状通过考虑多次采样数据的时间效应比对单次采样更能提高单倍体型效应的检出率。我们通过这种半参数回归模型研究猪具有多胎的繁殖记录与MMP1和MMP10基因的单倍体型分析中。综上所述,本论文针对基因组研究中存在的问题,建立了基于广义线性模型研究复杂性状与多个非连锁区域单倍体型联合的关联分析、基于核函数的半参数回归模型分析静态与动态数据的遗传模式。通过模拟研究证实了模型的可靠性,并将我们的模型系统应用到多个实际的例子中。本研究结果不仅能推进复杂性状候选基因研究,而且为从基因组层面上进行复杂性状遗传通路等研究的实施奠定了理论基础。同时,这些算法都开发出相应的软件程序并可自由下载,为科研工作者提供更全面准确的进行基因组关联分析。
|
全文目录
摘要 4-6 ABSTRACT 6-14 1 导论 14-36 1.1 关联分析 14-19 1.1.1 复杂性状研究所涉及的模型 14-15 1.1.1.1 参数模型 14 1.1.1.2 非参数模型 14-15 1.1.1.3 半参数模型 15 1.1.2 候选基因关联分析 15-16 1.1.3 全基因组关联分析 16-19 1.1.3.1 GWA 研究统计分析原理 17-18 1.1.3.2 GWA 研究多重假设检验调整 18-19 1.2 单倍体型 19-33 1.2.1 单倍体型的概念 19-20 1.2.2 单倍体型的推断 20-29 1.2.2.1 实验法 21 1.2.2.2 系谱推断法 21 1.2.2.3 统计算法 21-29 1.2.3 单体域的构建 29 1.2.4 标签SNP 的选择 29-30 1.2.5 单倍体型的生物功能 30-33 1.2.5.1 单倍体型的功能 30 1.2.5.2 连锁不平衡分析 30 1.2.5.3 关联分析 30-32 1.2.5.4 单倍体型降维 32-33 1.3 研究目的 33-36 2 基于半参数回归模型的单区域多位点与复杂性状关联分析 36-42 2.1 引言 36-37 2.2 方法 37-38 2.2.1 缺失基因型数据的处理 37 2.2.2 半参数回归模型 37-38 2.2.3 多重比较的逐步向下P 值法 38 2.2.4 软件与程序 38 2.3 应用 38-41 2.3.1 实验材料 38-39 2.3.2 人前列腺癌通路基因表达差异比较 39 2.3.3 人前列腺癌通路中顺式与反式调控网络 39 2.3.4 人前列腺癌相关基因的通路分析 39-41 2.4 讨论 41 2.5 应用数据的下载 41-42 3 基于参数回归模型的多区域单倍体型与复杂性状关联分析 42-56 3.1 引言 42 3.2 方法 42-46 3.2.1 多区域单倍体型结构的贡献率 42-43 3.2.2 通过MRHC 建立回归模型 43-44 3.2.3 对合并MRHC 贡献的打分统计 44-45 3.2.4 多个假设检验 45-46 3.2.5 软件下载 46 3.3 模拟研究 46-54 3.3.1 模拟方案 46-47 3.3.1.1 产生连续性状 46-47 3.3.1.2 产生二类数据 47 3.3.2 结果 47-52 3.3.2.1 三种模型 HTR、HAPCC和HAPGLM 的比较 47-48 3.3.2.2 多种影响因素的全局检验 48-50 3.3.2.3 重组率对全局检验的影响 50-51 3.3.2.4 对特定 MRHC 的检验 51-52 3.3.2.5 最好位点组合选择 52 3.3.3 实例应用 52-54 3.4 讨论 54-56 4 基于半参数回归模型的多区域单倍体型与复杂性状关联分析 56-68 4.1 研究背景 56 4.2 研究方法 56-58 4.2.1 半参数回归模型 56-57 4.2.2 通过使用核函数空间 57 4.2.3 多重比较的逐步向下P 值法检验 57-58 4.2.4 开发的软件 58 4.3 模拟研究 58-62 4.3.1 模拟方案 58-59 4.3.2 模拟结果 59-61 4.3.2.1 实际单倍体型与PLEM 推断的的单倍体型的全局比较 59 4.3.2.2 核心位点选择对全局检验的影响 59-60 4.3.2.3 基因型错误与缺失对全局检验的影响 60-61 4.3.3 运行时间 61-62 4.4 实例应用 62-65 4.4.1 对 HapMap 计划约鲁巴群体数据的应用 62-64 4.4.2 在猪肉质量数据上的应用 64-65 4.5 讨论 65-66 4.6 应用数据的下载 66-68 5 基于半参数逻辑斯蒂核模型的多区域单倍体型与二类性状关联分析 68-76 5.1 引言 68 5.2 方法 68-71 5.2.1 统计分析模型 68-69 5.2.1.1 逻辑斯蒂核机器模型 68-69 5.2.1.2 多区域单倍体型效应的检验 69 5.2.2 核函数 69-70 5.2.3 多重比较的逐步向下检验 70 5.2.4 软件开发 70-71 5.3 模拟研究 71-73 5.3.1 模拟方案 71 5.3.2 模拟结果 71-73 5.3.2.1 真实单倍体型与 PLEM 单倍体型分析比较 71 5.3.2.2 核心位点选择的影响分析 71-72 5.3.2.3 基因型错误与缺失的影响 72-73 5.3.2.4 先验信息与非先验信息的比较 73 5.4 实例应用 73-74 5.5 讨论 74-76 6 基于半参数回归模型的多区域单倍体型与纵向性状关联分析 76-80 6.1 研究方法 76-77 6.1.1 多区域单倍体型结构的贡献率 76 6.1.2 半参数随机混合模型 76 6.1.3 假设检验 76-77 6.1.4 软件开发 77 6.2 模拟研究 77-78 6.2.1 模拟方案 77-78 6.2.1.1 单倍体型产生 77 6.2.1.2 性状产生 77-78 6.2.2 模拟结果 78 6.3 实例应用 78-79 6.4 讨论 79-80 7 结语 80-82 参考文献 82-99 附录 99-118 致谢 118-119 攻读博士学位期间发表或录用的论文 119-122
|
相似论文
- 基于基因组重排技术的1,3-丙二醇高产菌株选育,TQ923
- 应用基因组改组技术选育真菌α-淀粉酶高产菌株,TQ925
- 南京地区西花蓟马Frankliniella occidentalis (Pergande)的发生调查及其线粒体基因组研究,S433
- 甘蓝型油菜多体附加系“Nj08-063”的农艺性状、细胞学与分子学鉴定研究,S565.4
- 鸡传染性支气管炎病毒河南地方株分离鉴定及HN104株与HN091株全基因组序列测定,S852.65
- 河南低致病性禽流感病毒(H9亚型)分离鉴定及生物学特性研究,S852.65
- 鸡Δ~6脂肪酸脱氢酶基因启动子区域多态性及基因时空表达的研究,S831
- 鸡CFL2基因遗传变异及其效应与表达的研究,S831
- 水稻胁迫应答基因3’UTR模体及相关miRNA的生物信息学研究,Q943.2
- 一个芥菜型油菜品种资源的线粒体基因组序列分析,S565.4
- 簇毛麦6V染色体短臂小片段易位系的分子细胞遗传学鉴定,S512.1
- 基于连锁图的QTL综合分析方法研究,S562
- 小麦族St基因组植物分子系统发育与分类,S512.1
- 猪链球菌2型感染小鼠腹腔巨噬细胞基因表达谱差异分析,S858.91
- 家畜布鲁氏菌病流行病学调查及布鲁氏菌单核苷酸多态性分子分型研究,S855.12
- 鸡新城疫病毒的分离鉴定及HN09-68和HN09-83株全基因组的分子特征,S852.65
- 人参SSR及AFLP标记的开发,S567.51
- 心脏离子通道SCN5A基因和minK基因多态性与房颤的关联性研究,R541.75
- 急性白血病儿童还原型叶酸载体基因多态性研究,R733.71
- 中国稻曲病菌群体遗传多样性研究,S435.111.4
- 年龄相关性皮质性白内障波形蛋白基因外显子和启动子的研究,R776.1
中图分类: > 医药、卫生 > 基础医学 > 人体生物化学、分子生物学
© 2012 www.xueweilunwen.com
|