学位论文 > 优秀研究生学位论文题录展示
基因组转录调控元件的特征分析与识别算法研究
作 者: 杜耀华
导 师: 王正志
学 校: 国防科学技术大学
专 业: 控制科学与工程
关键词: 生物信息学 转录调控元件 计算识别 信息融合 复合模体 特征筛选 二次判别分析 支持向量机
分类号: TP391.4
类 型: 博士论文
年 份: 2006年
下 载: 370次
引 用: 2次
阅 读: 论文下载
内容摘要
探寻基因表达调控的规律是后基因组时代生物信息学的核心问题之一。由于转录是基因表达的第一步,对转录的调控必然成为表达调控的重要形式。基因组中具有调控功能的DNA序列片段可称为转录调控元件。对转录调控元件进行识别与注释,无疑将是研究转录调控规律进而构建表达调控网络的关键步骤。随着生物研究的深入和计算机技术的发展,计算识别的方法已逐渐成为传统实验注释方法的有力辅助工具。然而,现有的转录调控元件识别方法多数只考虑序列的一维组成等有限特征,忽略了许多其他重要信息,致使识别的特异性普遍偏低,假阳性结果过多。在这一背景下,本文以转录调控元件的特征分析和计算识别为主题,提出了由特征选取、特征计算和整合识别三个主要步骤组成的多类特征信息融合识别框架,并基于此框架实现了启动子、内源性终止子和转录因子结合位点三种常见转录调控元件及其相关调控信号的识别算法,主要工作和创新之处包括:(1)启动子的特征分析与识别算法研究。启动子是负责调控转录起始过程的序列元件,本文在深入分析原核和真核启动子多类特征的基础上,提出了一种基于特征筛选与组合的启动子序列判别分析算法。该算法首先在启动子的序列组成、空间构象和能量分布等特征中广泛选取备选特征,为每个备选特征建立适当的描述模型,通过模型计算对其判别力进行评价;然后采用逐步筛选算法从备选特征中遴选出总体判别力最显著的特征组合作为特征集,依照特征集将启动子序列片段表示为组合特征向量的形式;再利用二次判别分析方法实现分类与识别。为了使描述更加准确,还在原核启动子局部信号特征的分析中引入了复合模体的概念,设计了用于搜索和计算二元复合模体的迭代搜索算法OCMISA。在计算真核启动子中位置不定的保守模体时,同样使用了类似的迭代搜索算法。利用此算法,本文在实际数据集上对原核的大肠杆菌σ70启动子和枯草杆菌σA启动子,真核的人类pol II启动子进行了分类识别,获得了明显优于其他几种常用识别方法的性能评价。(2)转录起始位点的定位算法研究。转录起始位点是与启动子有密切关联的调控信号。本文以前面提出的基于特征筛选与组合的启动子识别算法为基础,将其扩展为转录起始位点定位算法。该算法首先根据转录起始位点可能出现位置的先验信息合理确定搜索范围。由于原核转录起始位点的搜索范围较小,故直接将固定的启动子区域改为滑动窗口进行扫描,根据每个位置上的似然得分来确定预测位置。为提高信噪比,特别设计了基于共振原理的窗口交迭组分特征变量和用于最终定位的阈值定位算法,并引入转录起始位点和翻译起始位点间的距离分布信息作为对似然得分的修正。对于真核转录起始位点,由于搜索范围过大导致滑动窗口方法失效,则需根据已知转录起始位点的组成信息来确定备选位点集,仅对定位范围内的备选位点进行计算,利用启动子识别的方法即可实现分类定位。在实际数据集上对定位算法进行测试,其结果与几种常用方法相比,无论是对原核还是真核转录起始位点,特异性都有了较大幅度的提高。(3)内源性终止子的特征分析与识别算法研究。内源性终止子是凭借自身的序列信号即可实现转录终止功能的调控元件。本文在对大肠杆菌和枯草杆菌内源性终止子已有特征进行深入分析和合理综合的基础上,引入序列弯曲度特征,为内源性终止子构建了一个包含序列组成、局部构象和能量分布信息的更为全面的特征集,并在此特征集上分别利用二次判别分析和支持向量机方法实现了内源性终止子的识别算法。在大肠杆菌全基因组限定范围内的搜索预测中,基于新特征集的算法与其他几种典型方法相比,其识别结果的特异性有了明显提高。(4)转录因子结合位点的特征分析与识别算法研究。转录因子结合位点是转录因子与基因组序列结合的靶位点,是最基本的一类调控元件。本文在分析已有方法的基础上,提出了一种融合保守模体和序列局部构象信息的转录因子结合位点搜索识别算法,采用极大相关得分矩阵作为保守模体的描述和计算模型,同时根据二苷参数模型计算序列的局部构象参数,然后利用二次判别分析整合两类信息,最终通过滑动窗口进行识别。作为对常用位置特异得分矩阵模型的扩展,极大相关得分矩阵的核心思想是根据模体位置间的相关性对全部位置进行重新排列,使得新顺序下所有相邻位置间的相关性总和达到最大。位置重排可以将远程相关尽量转化为近邻相关,从而在较低的模型复杂度下即可实现对模体位置间相关性的更加全面地描述。而局部构象参数则作为外源特征被引入,它们是对序列组成信息的有力补充。基于大肠杆菌CRP、Fis和人类HNF4α结合位点数据的测试结果验证了此识别算法的有效性。与其他常用方法相比,识别结果的特异性有了较大的改善。
|
全文目录
摘要 12-14 ABSTRACT 14-17 第一章 绪论 17-29 1.1 引言 17-19 1.2 研究背景 19-22 1.2.1 生物信号识别的相关方法 19-21 1.2.2 模体识别的相关方法 21-22 1.3 论文的主要工作与创新 22-27 1.4 论文的结构 27-29 第二章 基因与基因转录调控 29-39 2.1 基因组与基因 29-31 2.2 基因的结构与表达 31-36 2.3.1 基因的结构 31-32 2.3.2 基因的表达 32-36 2.3 基因的转录调控 36-38 2.4 本章小结 38-39 第三章 原核启动子及对应转录起始位点的特征分析与识别 39-71 3.1 原核启动子的特征分析与判别 39-61 3.1.1 原核启动子相关特征与识别方法综述 39-41 3.1.2 数据准备 41-43 3.1.3 备选特征的选取与计算 43-49 3.1.4 特征的筛选与组合 49-51 3.1.5 组合特征向量的判别分析 51-54 3.1.6 识别结果与讨论 54-61 3.2 原核转录起始位点的计算定位 61-69 3.2.1 原核转录起始位点定位方法综述 61-62 3.2.2 数据准备 62 3.2.3 计算定位方法 62-66 3.2.4 定位结果与讨论 66-69 3.3 本章小结 69-71 第四章 真核启动子及对应转录起始位点的特征分析与识别 71-87 4.1 真核启动子的相关特征与识别方法综述 71-74 4.2 真核启动子的特征分析与判别 74-81 4.2.1 数据准备 74-75 4.2.2 备选特征的选取与计算 75-77 4.2.3 特征的筛选与组合 77-78 4.2.4 组合特征向量的二次判别分析 78 4.2.5 识别结果与讨论 78-81 4.3 真核转录起始位点的计算定位 81-84 4.3.1 方法与数据 81-82 4.3.2 定位结果与讨论 82-84 4.4 本章小结 84-87 第五章 内源性转录终止子的特征分析与识别 87-109 5.1 内源性终止子相关特征与识别方法综述 87-90 5.2 数据集的选取与分析 90-94 5.2.1 内源性终止子数据集的选取 90 5.2.2 内源性终止子数据集的初步分析 90-93 5.2.3 阴性数据集的选取 93-94 5.3 特征集的选取与评价 94-98 5.3.1 内源性终止子特征集的选取 94 5.3.2 内源性终止子特征集的计算 94-95 5.3.3 特征的评价 95-98 5.4 支持向量机分类器 98-103 5.4.1 最优分类面 98-100 5.4.2 广义最优分类面 100-101 5.4.3 核函数 101-103 5.5 识别结果与讨论 103-107 5.5.1 交叉验证测试 103-106 5.5.2 全基因组搜索预测 106-107 5.6 本章小结 107-109 第六章 转录因子结合位点的特征分析与识别 109-129 6.1 转录因子结合位点相关特征与识别方法综述 109-116 6.1.1 基于保守模体的方法 110-113 6.1.2 基于比较基因组学的方法 113-116 6.2 数据准备 116 6.3 模型与方法 116-124 6.3.1 识别算法的总体流程 116-117 6.3.2 保守模体的核心区域 117-120 6.3.3 极大相关得分矩阵模型 120-122 6.3.4 局部构象特征信息 122 6.3.5 二次判别分析与阈值定位 122-124 6.4 识别结果与讨论 124-126 6.4.1 评价指标 124 6.4.2 刀切法测试结果 124-125 6.4.3 对算法的进一步分析 125-126 6.5 本章小结 126-129 第七章 总结与展望 129-133 7.1 论文工作总结 129-131 7.2 未来工作展望 131-133 致谢 133-135 参考文献 135-149 作者在攻读博士期间撰写的论文 149-151 附录A 碱基的IUPAC-IUB 编码表 151-152 附录B 序列结构模型参数表 152-153
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 基于车载3D加速传感器的路况监测研究,TP274
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 基于机器学习的入侵检测系统研究,TP393.08
- 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 城市污水处理厂中A~2O工艺过程的建模研究,X703
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置
© 2012 www.xueweilunwen.com
|