学位论文 > 优秀研究生学位论文题录展示

原核与真核生物蛋白质编码区识别及基因组分析

作 者: 陈玲玲
导 师: 张春霆
学 校: 天津大学
专 业: 生物物理学
关键词: Z曲线 细菌和古细菌基因组 基因识别 SARS冠状病毒基因组 isochore 真核生物基因组
分类号: Q75
类 型: 博士论文
年 份: 2004年
下 载: 507次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着人类基因组、模式生物基因组及微生物基因组计划的蓬勃发展,已有近二百种自由生物体全基因组完成测序,国际三大核酸序列数据库中的碱基数量呈指数形式增长。基因组序列测定之后,找出其中的蛋白质编码基因是进行基因组分析的第一步,在生物信息学研究中占有非常重要的地位。本论文主要致力于原核生物与真核生物及冠状病毒蛋白质编码基因识别以及基因组分析方面的工作。论文第一部分介绍了生物信息学的发展背景及主要研究内容、原核生物与真核生物基因的结构特点、主要的蛋白质编码基因识别算法以及DNA序列的Z曲线理论及应用。Z曲线理论是本文中我们分析原核生物和真核生物基因组的主要工具,因此对其做了较为详细的介绍。论文的第二部分是原核生物及冠状病毒的基因识别和分析。首先我们提出了一种方法从细菌、古细菌基因组中注释较好的已知基因出发训练参数,进而确定注释不完善的ORFs中可能不编码蛋白质的ORFs,在此基础上开发了一套细菌、古细菌基因识别软件ZCURVE_C并提供网上服务;我们还发现基因组的GC含量比进化上的亲缘关系对于细菌、古细菌的基因识别更为重要。其次,我们利用Z曲线方法参数少的优点,开发了专门适用于冠状病毒 (尤其是SARS冠状病毒) 的基因识别软件ZCURVE_CoV,并采用位置权重矩阵来预测3C-like和papain-like两种蛋白酶的剪切位点,开发出能预测冠状病毒多聚蛋白酶切位点的新版本。 论文的第三部分是真核生物基因识别和基因组结构分析。首先,我们基于Z曲线的非窗口技术分析了拟南芥基因组的isochore结构,画出了拟南芥五条染色体的Z’曲线图。详细分析了2号染色体上找到的两个isochore,其中一个位于核仁组织区,另外一个是线粒体DNA插入片断,我们可以精确的确定它的大小和在染色体中的位置。其次,我们开发了基于Z曲线方法的真核生物从头预测基因识别软件Zcurve_E。该软件侧重于提取蛋白质编码序列在三个密码子位的全局统计学特征,具有参数少和通用性较强的优点。将Zcurve_E和当今识别效果较好的Genscan联合使用,可以部分降低Genscan的伪正率,得到更好的识别效果。

全文目录


绪 论  8-18
  1.1 原核生物及真核生物基因组  8-10
  1.2 生物信息学及其主要研究内容  10-12
  1.3 原核及真核生物基因识别算法  12-15
  1.4 本论文的主要工作  15-18
第二章 DNA序列的Z曲线理论  18-25
  2.1 DNA序列的Z曲线理论  18-19
  2.2 考虑密码子内部相邻碱基近程相关性的Z曲线理论  19-21
  2.3 描述基因组GC含量沿序列分布的 曲线  21-22
  2.4 Z曲线理论的应用  22-25
第三章 细菌和古细菌基因组中可疑ORFS的基因识别算法  25-41
  3.1 引言  25-26
  3.2 材料与方法  26-29
    3.2.1 材料  26-28
    3.2.2 方法  28-29
  3.3 结果  29-34
    3.3.1 十重交叉检验 (Ten-fold cross-validation tests)  29-31
    3.3.2 最终Fisher系数及第十一重交叉检验  31-34
  3.4 讨论  34-40
    3.4.1 用Z曲线方法得到高识别精度的原因  34-38
    3.4.2 57个细菌、古细菌基因组中Fisher系数和GC含量的关系  38-40
  3.5 网上服务及补充材料  40-41
第四章 七个亲缘关系很远的高GC含量微生物基因组采用相似的密码子使用模式  41-52
  4.1 引言  41-42
  4.2 材料与方法  42-44
  4.3 结果与讨论  44-52
    4.3.1 算法的识别精度及Fisher系数在第一组中的通用性  44-47
    4.3.2 十个基因组中碱基在三个密码子位的分布模式  47-50
    4.3.3 第一组中三个参数的重要性排序以及C. crescentus与lobacterium. sp. NRC的GC2-GC3 图  50-52
第五章 冠状病毒基因识别及多聚蛋白酶切位点预测软件ZCURVE_COV及其在SARS冠状病毒基因组分析中的应用  52-75
  5.1 引言  53-56
  5.2 材料与方法  56-64
    5.2.1 数据库  56-57
    5.2.2 基因识别算法  57-64
  5.3 结果与讨论  64-74
    5.3.1 比较ZCURVE_CoV和GeneMark.hmm  64-65
    5.3.2 应用ZCURVE_CoV分析SARS-CoV基因组  65-68
    5.3.3 多序列比对6个可能的非结构蛋白编码基因  68-69
    5.3.4 冠状病毒基因组多聚蛋白酶切位点预测结果  69-73
    5.3.5 网上服务及补充材料  73-74
  5.4 结论  74-75
第六章 拟南芥基因组的ISOCHORE结构分析  75-86
  6.1 引言  76-77
  6.2 材料与方法  77
    6.2.1 材料  77
    6.2.2 Z’曲线方法  77
  6.3 结果与讨论  77-83
    6.3.1 拟南芥五条染色体的Z’曲线及isochore的特征  77-81
    6.3.2 isochore的一些生物学特征  81-83
  6.4 结论  83-86
第七章 基于Z曲线方法的真核生物基因识别软件ZCURVE_E  86-103
  7.1 引言  86-88
  7.2 材料与方法  88-97
    7.2.1 训练和检验集  88-89
    7.2.2 算法描述  89-97
  7.3 结果与讨论  97-101
    7.3.1 基于四个物种检验集的基因识别预测结果  97-100
    7.3.2 联合使用Zcurve_E 和 Genscan  100-101
  7.4 网站介绍  101-102
  结论  102-103
总结论  103-105
参考文献  105-116
发表论文及参加科研情况说明  116-117
附录I 主要的原核及真核生物从头预测基因识别软件及网址  117-118
附录II 多聚蛋白酶切位点分析所用的冠状病毒基因组  118-119
附录III 水稻检验库165条序列的GENBANK号  119-120
致 谢  120

相似论文

  1. 竖向荷载作用下半刚性连接钢框架的简化分析,TU391
  2. 基于粒子群算法求曲线/曲面间最小距离方法,O182
  3. 基于统计方法的核磁共振人脑图像的分割及三维数据的分析,R445.2
  4. 单细胞中光敏化单态氧的间接成像,Q2-3
  5. 夏南牛和皮南牛微卫星标记研究及生长发育模型的建立,S823
  6. 基于机器视觉的光纤几何参数检测研究,TN253
  7. 纺织品中重金属监控及预警研究,TS107
  8. 聚乙烯基强碱性阴离子交换纤维的制备及应用,TQ342.84
  9. 高浓度焦化有机废水高效降解菌筛选及生长特性研究,X172
  10. 河南济源太行隆肛蛙(Feirana taihangnicus)种群的骨龄学研究,Q958
  11. 汽车CO2减排技术经济评估,F426.471
  12. 基于模块化建模方法的舰用燃气轮机装置的仿真技术研究,U674.703
  13. 配置加强箍筋混凝土短柱力学性能分析,TU375.1
  14. 深亚微米SRAM存储单元稳定性研究,TP333
  15. 基于自然遗忘的个性化推荐算法研究,TP311.52
  16. 一种高性能可扩展公钥密码协处理器的研究与设计,TN918.1
  17. 基于数字图像处理技术的介质阻挡放电均匀性评价研究,TP391.41
  18. 基于FNN的电压力锅控制系统研究与设计,TM925.5
  19. 外周血嗜酸粒细胞分界值在诊断嗜酸粒细胞鼻息肉中的价值,R765.25
  20. 2205双相不锈钢腐蚀性能的研究,TG142.71
  21. 代数曲线实时光栅化,TP391.72

中图分类: > 生物科学 > 分子生物学 > 分子遗传学
© 2012 www.xueweilunwen.com