学位论文 > 优秀研究生学位论文题录展示
真核启动子识别算法研究
作 者: 信润海
导 师: 李文举
学 校: 辽宁师范大学
专 业: 计算机应用技术
关键词: 真核启动子识别 结构特征 Z曲线 马氏距离 Fisher准则
分类号: Q75
类 型: 硕士论文
年 份: 2011年
下 载: 8次
引 用: 0次
阅 读: 论文下载
内容摘要
随着人类基因组计划的实施及基因草图的完成,生物科学与技术得到了迅猛发展,同时积累了大量的相关数据,并且这些数据的增长速度已经远远超出了人们的想象。面对如此海量的数据,如何能够找到我们所需的信息成为了一项重要而又艰巨的工作。启动子作为调控基因转录的重要调控元件,在构建基因转录调控网络方面起着尤为重要的作用,加之真核启动子与原核启动子相比有着更为复杂的结构,故此真核启动子识别已成为当前基因组研究工作中的热点及难点。目前在启动子识别方面已经提出了许多算法,但都普遍存在假阳性较高的问题。为了改进现有启动子识别算法存在的不足,进一步提高算法的启动子识别性能,本文将Z曲线理论及启动子的结构特征应用到启动子预测的研究中来,提出了基于结构特征及Z曲线特征的真核启动子识别算法。所选取的6类结构特征能够较好地描述基因序列的空间形态,所选取的Z曲线特征能够从序列的全局角度描述序列中碱基及强氢键、弱氢键的分布情况,从而达到了从基因序列局部弯曲度及序列的双链的稳定性的角度来区分启动子序列与非启动子序列。首先提取训练集数据中的启动子及非启动子的结构特征、Z曲线特征;然后基于马氏距离构建结构特征分类器,基于Fisher准则构建Z曲线特征分类器。每个分类器由三个分类子模块组成,即启动子-外显子、启动子-内含子、启动子-3’UTR子分类模块,各分类子模块根据所属分类器的特征进行启动子预测;最后分类器将子分类模块的分类结果传递给综合评分模块进行综合评分并做出最终的判定。为了评价本文算法的预测能力,对登录号为L44140、D87675、AF017257、AFl46793、AC002368、AC002397的长基因进行了测试,测试结果为:敏感性71.92%,特异性55.56%,准确性63.47%。实验结果表明,本文算法具有更好的启动子识别性能。
|
全文目录
摘要 4-5 Abstract 5-9 引言 9-11 1 绪论 11-17 1.1 生物信息学简介 11-13 1.1.1 生物信息学概述 11 1.1.2 生物信息学的主要研究内容 11-13 1.2 论文背景及意义 13-14 1.3 真核启动子识别的国内外研究现状 14-16 1.4 论文的主要工作与结构安排 16-17 2 生物学背景知识 17-25 2.1 核酸 17-18 2.2 DNA 的结构 18-21 2.3 基因 21 2.4 基因的结构 21-23 2.4.1 原核基因 21-22 2.4.2 真核基因 22-23 2.5 启动子的结构和功能 23-25 3 生物信息数据库 25-35 3.1 生物信息数据库及数据格式 25-32 3.1.1 生物信息学数据库 26-29 3.1.2 GenBank 数据库及其数据格式 29-32 3.1.3 FASTA 数据格式 32 3.2 启动子数据库 32-35 4 基于结构及Z 曲线特征的真核启动子识别算法 35-47 4.1 启动子特征及特征提取 35-39 4.1.1 启动子结构特征及特征提取 35-38 4.1.2 启动子Z 曲线特征及特征提取 38-39 4.2 分类器设计 39-42 4.2.1 系统总体结构 39-40 4.2.2 特征向量创建 40-41 4.2.3 启动子结构特征分类器 41 4.2.4 启动子Z 曲线特征分类器 41-42 4.2.5 综合评分及启动子区域的确定 42 4.3 实验结果及性能分析 42-46 4.3.1 实验数据的获取 42-43 4.3.2 性能指标 43-44 4.3.3 实验结果及分析 44-46 4.4 本章小结 46-47 5 结论 47-49 5.1 研究工作总结 47 5.2 未来工作展望 47-49 参考文献 49-52 附录A GenBank 序列格式、不同字段包括的内容及含义 52-56 攻读硕士学位期间发表学术论文情况 56-57 致谢 57
|
相似论文
- 竖向荷载作用下半刚性连接钢框架的简化分析,TU391
- 基于粒子群算法求曲线/曲面间最小距离方法,O182
- 基于统计方法的核磁共振人脑图像的分割及三维数据的分析,R445.2
- 单细胞中光敏化单态氧的间接成像,Q2-3
- 夏南牛和皮南牛微卫星标记研究及生长发育模型的建立,S823
- 基于机器视觉的光纤几何参数检测研究,TN253
- 纺织品中重金属监控及预警研究,TS107
- 中国优秀冰壶运动员专项体能结构特征研究,G862.6
- 聚乙烯基强碱性阴离子交换纤维的制备及应用,TQ342.84
- 两个与棉纤维发育相关基因的克隆与鉴定及七个与脂肪酸代谢相关基因的表达分析,S562
- 高浓度焦化有机废水高效降解菌筛选及生长特性研究,X172
- 河南济源太行隆肛蛙(Feirana taihangnicus)种群的骨龄学研究,Q958
- 汽车CO2减排技术经济评估,F426.471
- 基于模块化建模方法的舰用燃气轮机装置的仿真技术研究,U674.703
- 配置加强箍筋混凝土短柱力学性能分析,TU375.1
- 深亚微米SRAM存储单元稳定性研究,TP333
- 基于自然遗忘的个性化推荐算法研究,TP311.52
- 产品设计中“以人为本”的观念及内容,TB472
- 汽车起动机性能高精度高稳定测试方法研究及应用,U467
- 一种高性能可扩展公钥密码协处理器的研究与设计,TN918.1
- 基于数字图像处理技术的介质阻挡放电均匀性评价研究,TP391.41
中图分类: > 生物科学 > 分子生物学 > 分子遗传学
© 2012 www.xueweilunwen.com
|