学位论文 > 优秀研究生学位论文题录展示
家猪基因组同质段分析及新基因预测
作 者: 张文倩
导 师: 张德礼;张阳
学 校: 西北农林科技大学
专 业: 生物信息学
关键词: isochore LHGR 基因预测 重复序列预测 CpG岛预测
分类号: Q75
类 型: 硕士论文
年 份: 2010年
下 载: 76次
引 用: 0次
阅 读: 论文下载
内容摘要
随着高通量测序技术的发展,人们已成功获得越来越多生物的基因组序列。家猪(Sus scrofa)是一种重要的经济动物和医学研究模型,其基因组测序工作一直都受到世界各国科研工作者的重视。2009年9月,Ensembl公布了最新的家猪基因组序列数据,因此,如何挖掘这些基因组序列中所蕴含的生物信息成为当前生物信息学家最为迫切的任务之一。已有研究表明,真核生物的基因组中散布着一些GC含量相对均匀的长区段,即同质段isochore。这些区段不仅能够反映基因组的重要结构特征,还与某些重要的生物特征有关。因此,本文通过分析家猪基因组中连续而非重叠的长同质区段LHGR(Long Homogeneious Genome Regions)的结构特征,来解码家猪基因组的组成结构;利用LHGR与基因密度、重复序列密度、CpG岛密度间的关系,并结合常规基因预测,来解码家猪基因组中的重要功能区域分布。实验所得出的主要结论如下:1.对家猪基因组进行组成分段后,本文共得到2491个LHGR。严格评价包括GC含量均匀性(h值)、与相邻LHGR间的GC含量差异性(ΔGC)以及长度三方面因素后,我们从这些LHGR中筛选出了23个isochore,其中以第16号染色体上的isochore数量最多,而其余2468个LHGR则为isochore-like区域。2.通过评价家猪和人基因组中各LHGR家族的相对比例,长度和平均GC含量,本文得出这两个物种具有相似的LHGR模式,并且该模式接近于温血哺乳动物中的常规isochore模式。3.通过比较各LHGR的GC含量与其所在染色体的平均GC含量,我们发现家猪基因组中的LHGR主要以AT型LHGR为主。如果就基因组整体GC含量而言,53.19%的家猪LHGR属于GC富集LHGR。这与人类基因组中的LHGR情况相反。在人类基因组的2568个LHGR中,54.27%的LHGR属于GC贫瘠LHGR。4.家猪19条染色体的GC含量同质性是存在差异的。通过绘制家猪基因组的累积GC轮廓图,我们能直观地观察到各染色体的组成同质性,即每条染色体都是一条波动幅度不同的曲线。这些曲线上一些可以近似地看作是直线的较长区段即为同质性相对较高的区域——isochore。另外,各染色体中LHGR的数量反映出各染色体的组成同质性。5.像isochore一样,LHGR与LINE、基因和CpG岛分布间也具有一定的对应关系。其中,LINE密度随着LHGR的GC含量增高而降低;基因密度和CpG岛密度随着GC型LHGR的出现而升高,并且还发现GC含量范围为50-51%和54-55%的LHGR中具有明显高于其他GC含量范围的基因密度。利用这些特征可以提高特定序列中这三类元件的预测效率。6.综合EST信息的基因预测方法能够提高基因预测的准确率,筛选所得的候选新基因仍有待于实验验证。
|
全文目录
摘要 6-8 ABSTRACT 8-14 第一章 文献综述 14-25 1.1 家猪及其基因组测序 14-15 1.2 同质段 15-16 1.2.1 同质段及其发现 15-16 1.2.2 isochore 的生物学意义 16 1.3 不同的 ISOCHORE 结构模式 16-18 1.3.1 常规温血哺乳动物模式 16-17 1.3.2 鸟类模式 17-18 1.3.3 冷血脊椎动物模式 18 1.3.4 植物模式 18 1.4 同质段的研究方法 18-23 1.4.1 滑动窗口法(Window Method) 19 1.4.2 最小二乘优化法(Least-squares Optimal Segmentation) 19 1.4.3 隐马尔科夫模型法(Hidden Markov Model, HMM) 19-20 1.4.4 小波多尺度分析法(Wavelet Multiple Scale Analysis) 20 1.4.5 递归熵法(Recursive Entropy) 20 1.4.6 Z 曲线方法(Z Curve Method) 20-23 1.4.6.1 Z 曲线理论 21 1.4.6.2 累积 GC 轮廓图法 21-22 1.4.6.3 基于平方散度和 Z 曲线的分段方法 22-23 1.5 基因预测方法 23-24 1.5.1 基因预测软件的发展 23 1.5.2 常用基因预测方法 23-24 1.5.2.1 序列相似性搜索 23 1.5.2.2 从头预测法 23-24 1.5.2.3 其他方法 24 1.6 论文的目的及意义 24-25 第二章 家猪基因组同质段分析 25-43 2.1 引言 25 2.2 材料与方法 25-28 2.2.1 材料 25-26 2.2.1.1 家猪基因组序列 25-26 2.2.1.2 人类基因组序列 26 2.2.1.3 家猪已知蛋白编码基因 26 2.2.1.4 重复序列数据库 26 2.2.2 方法 26-28 2.2.2.1 序列分段 26-27 2.2.2.2 LHGR 内 GC 含量均匀性度量 27 2.2.2.3 搜索 LHGR 所在窗口 27 2.2.2.4 基因密度 27 2.2.2.5 重复序列搜索及密度统计 27-28 2.2.2.6 CpG 岛预测及密度统计 28 2.2.2.7 图像生成 28 2.3 结果与讨论 28-42 2.3.1 结果 28-39 2.3.1.1 家猪基因组的累积 GC 轮廓图及 LHGR 28-33 2.3.1.2 LHGR 模式:相对数量 33 2.3.1.3 LHGR 模式:长度 33-34 2.3.1.4 LHGR 模式:GC 含量 34 2.3.1.5 家猪基因的组成分布 34-37 2.3.1.6 家猪 CpG 岛的组成分布 37-38 2.3.1.7 LHGR 中重复序列密度 38 2.3.1.8 家猪基因组中的 isochore 38-39 2.3.2 讨论 39-42 2.3.2.1 分段方法 39 2.3.2.2 家猪与人类的 LHGR 模式比较 39-40 2.3.2.3 家猪各染色体的 GC 同质性差异 40 2.3.2.4 家猪基因组成分布模式 40-41 2.3.2.5 家猪基因组中 LHGR 生物特性的应用 41 2.3.2.6 家猪基因组中的 isochore 41-42 2.4 小结 42-43 第三章 家猪基因组新基因预测 43-53 3.1 引言 43 3.2 材料与方法 43-45 3.2.1 材料 43-44 3.2.1.1 基因组序列 43 3.2.1.2 EST 序列 43 3.2.1.3 基因序列 43 3.2.1.4 蛋白质序列 43-44 3.2.2 方法 44-45 3.2.2.1 基因的从头预测 44 3.2.2.2 序列相似性比较 44 3.2.2.3 EST 预处理 44-45 3.2.2.4 其他文件及序列处理 45 3.2.2.5 数据库系统安装及设置 45 3.3 结果 45-51 3.3.1.基因预测软件系统 45-49 3.3.1.1 a_abpredict_rename_extractpr.sh 45-48 3.3.1.2 b_format_blast_pridensift_extractncl.sh 48 3.3.1.3 c_cleanup_repeatmasker.sh 48 3.3.1.4 d_blat_filterPSL_sort_blat2hints.sh 48-49 3.3.1.5 e_locat_extractseq.sh 49 3.3.2 基于 Web 的生物信息平台 49-51 3.3.2.1 数据库结构 49-50 3.3.3.3 主要功能模块 50-51 3.4 讨论 51 3.4.1 基因预测部分 51 3.4.2 软件平台部分 51 3.5 小结 51-53 第四章 结论 53-55 参考文献 55-59 附录 59-67 致谢 67-68 作者简介 68
|
相似论文
- MiRNA let-7d在牙鲆变态发育过程中的表达及其靶基因预测,S917.4
- 基于基因芯片数据的基因调控网络的重构及其疾病学应用,TP18
- Bootstrap算法在基因预测中的阈值选取研究,Q75
- Computational Gene Prediction by Combining Two Gene Finding Programs,TP391.41
- 基于支持向量机的miRNA预测及其靶基因预测,TP391.41
- 基于氨基酸使用偏好及基因功能信息预测疾病相关基因,Q75
- 系统性红斑狼疮患者中microRNAs的表达情况研究,R593.241
- CNV区域周围的基因预测研究,R341
- 水稻冷胁迫相关miRNA基因的预测及冷胁迫相关性验证,S511
- 水稻基因组序列分析与基因结构预测,Q943
- MicroRNA靶标预测软件的测评及靶标基因特征分析,Q75
- 基于EST全基因组定位的基因结构注释研究,Q75
- 黄孢原毛平革菌(Phanerochaete chrysosporium)ABC转运蛋白家族基因同源ctg16序列的分析,Q75
- 关于基因预测算法准确性度量标准的分析,O212
- 基因预测中外显子分值的转化,Q75
- 大豆抗灰斑病菌(Cercospora sojina)相关基因克隆与分析及大豆转hrf1基因相关研究,S435.65
- 蛋白质编码基因及遗传疾病相关基因的预测,R394
- 疾病基因密码子使用特征分析及致病基因预测,R363
- 基于人工神经网络的必需基因预测研究,TP391.41
- miR-219时空表达特征及功能研究,Q78
中图分类: > 生物科学 > 分子生物学 > 分子遗传学
© 2012 www.xueweilunwen.com
|