学位论文 > 优秀研究生学位论文题录展示
原核生物基因识别新算法研究及DNA序列分析
作 者: 林岩
导 师: 张春霆
学 校: 天津大学
专 业: 生物物理学
关键词: Z曲线 细菌和古细菌基因组 基因识别 重新注释 数据库
分类号: Q75
类 型: 硕士论文
年 份: 2007年
下 载: 298次
引 用: 0次
阅 读: 论文下载
内容摘要
目前,随着DNA测序技术的发展,从细菌到高等真核生物,越来越多的全基因组序列数据正不断涌现。理论和计算将发挥日益巨大的作用,生物信息学作为一门崭新的前沿学科应运而生。基因识别是进行基因组分析的第一步,在生物信息学研究中占有重要的地位。本论文主要致力于原核生物的蛋白质编码基因识别算法的研究,以及对DNA序列的相关分析。论文第一部分对当前生物信息学的主要研究内容和原核生物基因识别的背景作了简要介绍。论文第二部分利用一些生物信息学工具,如Zcurve、Glimmer以及BLAST等软件,对一株蜡状芽孢杆菌(Bacillus cereus ATCC 10987)基因组中的蛋白质编码基因进行了分析,并将原RefSeq数据库标注的5603个基因重新注释为5180个基因,这个结果与该细菌亲缘物种的表现一致。另外,新注释在功能已知或保守基因的比例、平均基因长度以及GC含量等指标上明显优于原始注释,证明了重新注释的基因的合理性。论文第三部分主要致力于一种新的识别细菌和古细菌基因组蛋白质编码基因的算法——Zcurve 2.0的研究。该算法以相位特异性Z曲线理论为基础,综合考虑密码子内部相邻碱基之间的相关性,发展了新的特征变量和样本。并在编码与非编码ORFs的分类算法方面,使用了支持向量机方法进行训练与判别。另外对现有基因组及其注释基因进行分析,从中生成用于评价各种基因识别算法性能的参考数据集。依据这419条染色体序列数据,将Zcurve 2.0与Zcurve 1.02、Glimmer 3.02进行比较。结果表明,三者的平均识别率相差很小;Zcurve 2.0和Glimmer 3.02的平均附加预测率处于同一水平,且均比Zcurve 1.02有明显降低;另外Zcurve程序的运行速度和易用性要远好于Glimmer 3.02。当把Zcurve 2.0和Glimmer 3.02联合使用时,预测成绩通常会显著提高。论文第四部分描述了Z曲线数据库和必需基因数据库的更新。Z-curve Database 2.1提供了一个方便可视化分析基因组数据的有力平台;DEG 3.0为分析必需基因的统计特征,开发预测必需基因的算法提供了基础。
|
全文目录
摘要 2-3 ABSTRACT 3-7 第一章 绪论 7-14 1.1 生物信息学及其主要内容 7-9 1.2 原核生物基因组和原核生物基因识别 9-10 1.3 与本论文相关的生物学知识 10-12 1.4 本论文的主要工作 12-14 第二章 蜡状芽孢杆菌ATCC 10987 基因组蛋白质编码基因的重新注释与分析 14-22 2.1 引言 14-15 2.2 材料与方法 15-17 2.2.1 原始数据分析 15-17 2.2.2 生物信息学方法 17 2.3 结果与讨论 17-20 2.4 结论 20 2.5 补充材料 20-22 第三章 蛋白质编码基因注释文件的解读 22-26 3.1 引言 22-23 3.2 方法与结果 23-26 3.2.1 注释基因分布特征统计 23-24 3.2.2 注释基因异常状况统计 24-26 第四章 原核生物基因识别程序Zcurve 2.0 的研发 26-40 4.1 引言 26-27 4.2 DNA 序列的Z 曲线理论 27-30 4.3 支持向量机方法 30-34 4.3.1 算法简介 31-33 4.3.2 SVM 在生物信息学中的应用 33-34 4.4 程序组成 34-40 4.4.1 寻找种子ORFs 和候选ORFs 36 4.4.2 核心算法 36-38 4.4.3 排除重叠ORFs 的策略 38-40 第五章 Zcurve 2.0 基因识别能力的评价及讨论 40-44 5.1 评价方法 40-41 5.2 Zcurve 2.0 与Zcurve 1.02、Glimmer 3.02 的比较 41-44 5.2.1 对比之一:300 bp 以上的注释基因 41-42 5.2.2 对比之二:300 bp 以上的功能已知基因或保守基因 42-43 5.2.3 其它说明 43-44 第六章 Z 曲线数据库与必需基因数据库的更新 44-47 6.1 Z 曲线数据库的更新 44-45 6.2 必需基因数据库的更新 45-47 参考文献 47-53 发表论文和参加科研情况说明 53-54 附录 54-90 致谢 90
|
相似论文
- 基于WinCE平台的故障分析仪应用程序设计与开发,TP311.52
- 竖向荷载作用下半刚性连接钢框架的简化分析,TU391
- 电子文书安全签发系统的研制,TN918.2
- 海量数据压缩、操作和处理方法的研究,TP311.13
- 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
- 武器装备信息管理系统的设计与实现,TP311.52
- 部队在线考试系统设计与实现,TP311.52
- 基于粒子群算法求曲线/曲面间最小距离方法,O182
- 基于GIS的高校学生社区管理研究,G647
- 基于数据挖掘技术的保健品营销研究,F426.72
- 基于统计方法的核磁共振人脑图像的分割及三维数据的分析,R445.2
- 基于嵌入式的面向造纸企业的一种QCS研究与设计,TP368.1
- 部队人员网上训练与考核系统的开发,TP311.52
- 摩托化部队机动辅助系统,TP311.52
- 部队军事理论在线考试系统设计与实现,TP311.52
- 单细胞中光敏化单态氧的间接成像,Q2-3
- 夏南牛和皮南牛微卫星标记研究及生长发育模型的建立,S823
- 西藏边防作战训练信息管理系统设计与实现研究,TP311.52
- 基于机器视觉的光纤几何参数检测研究,TN253
- 毛纺用化学品毒性毒理数据库的建立,TS131
- 物联网在服装行业的应用性研究,TN929.5
中图分类: > 生物科学 > 分子生物学 > 分子遗传学
© 2012 www.xueweilunwen.com
|