学位论文 > 优秀研究生学位论文题录展示
基于图形表示的DNA相似性分析及进化树构建算法研究
作 者: 郭珈辰
导 师: 骆嘉伟
学 校: 湖南大学
专 业: 计算机科学与技术
关键词: DNA序列 图形表达 特征矩阵 进化树构建算法
分类号: TP391.41
类 型: 硕士论文
年 份: 2010年
下 载: 190次
引 用: 0次
阅 读: 论文下载
内容摘要
随着人类基因组计划(Human Genome Project, HGP)的完成以及模式生物基因组计划的蓬勃发展,产生了越来越多的分子序列数据。对这些序列数据进行科学的分析、处理、研究不仅推动了生物信息学研究方法和技术的发展,而且在人类疾病及重大疫情的预防、诊断、治疗、新药开发等领域也有着广阔的应用背景。如何给出有效的基因序列图形表达方式并在此基础上对基因进行相似性分析及进化关系分析已成为生物信息学中一个热门的课题。本文着重研究基因序列的图形表达,基于图形表达的基因序列的相似性分析以及采用聚类技术分析基因序列的进化关系。本文的主要工作有:(1)提出一种新的DNA序列的图形表示——JZ曲线组。在Z曲线的基础上结合廖波3D图形表达方法给出了一种新的图形曲线——JZ曲线组,证明了JZ曲线组中没有回路,同时JZ曲线组包含部分的生物特性。(2)构造了DNA序列间相似性度量的特征矩阵——J/J矩阵。结合JZ曲线组的J/J矩阵不仅描述了序列碱基的化学性质,而且提取了基因序列的生物意义。并通过对11种生物的β球蛋白基因的第一外显子的编码序列进行相似性分析,实验结果表明,在JZ曲线组的基础上结合J/J矩阵可以简单有效的分析DNA序列的相似性。(3)基于JZ曲线组,提出一种基于谱图理论的模糊聚类的传递算法构造进化树。对序列的进行聚类,以聚类结果指导构建进化树,确定序列间的进化关系。同时,聚类算法不仅考虑了类与类之间的分散程度,而且考虑了同一类的紧凑程度,提高了结果的准确性。通过对11种生物的β球蛋白基因的第一外显子的编码序列以及H1N1病毒的NA基因序列构建进化树,实验结果表明该算法的有效性。
|
全文目录
摘要 5-6 Abstract 6-10 插图索引 10-11 附表索引 11-12 第1章 绪论 12-18 1.1 项目来源 12 1.2 研究背景和意义 12-14 1.3 国内外现状、水平与发展趋势 14-16 1.4 本文的主要工作 16-17 1.5 本文结构组织 17-18 第2章 基于图形的DNA序列相似性分析及进化树构建算法概述 18-31 2.1 DNA序列的图形表示 18-21 2.1.1 二维坐标轴的图形表示 18-19 2.1.2 三维坐标轴的图形表示 19-20 2.1.3 高维坐标轴的图形表示 20-21 2.2 基于图形的序列相似性分析 21-24 2.2.1 特征矩阵 21-22 2.2.2 矩阵不变量 22-23 2.2.3 向量之间的距离 23 2.2.4 基于图形的DNA序列的相似性分析 23-24 2.3 构建进化树 24-30 2.3.1 传统的进化树构建算法 24-26 2.3.2 用PHYLIP进行进化树构建 26-27 2.3.3 模糊聚类分析在进化树中的运用 27-30 2.4 小结 30-31 第3章 基于DNA序列的图形表示的相似性分析 31-44 3.1 引言 31 3.2 DNA序列的图形表示 31-37 3.2.1 一种新的DNA序列的图形表示 31-32 3.2.2 新图形的特性 32-34 3.2.3 11个物种基因序列的JZ曲线组图形 34-37 3.3 基于JZ曲线组的序列相似性分析 37-43 3.3.1 一种基于JZ图形组的特征矩阵 37-38 3.3.2 11个物种基因序列的相似性分析算法 38-39 3.3.3 实验结果与分析 39-43 3.4 小结 43-44 第4章 进化树构建算法 44-60 4.1 引言 44 4.2 基于谱图理论的模糊聚类的传递算法构建生物系统进化树 44-48 4.2.1 谱图理论 44-45 4.2.2 模糊聚类分析的传递算法 45-46 4.2.3 一种新的构建进化树的算法描述 46-48 4.3 实验结果与讨论 48-59 4.3.1 对11个物种β球蛋白基因的第一个外显子聚类生成进化树 48-52 4.3.2 对11个H1N1病毒NA基因聚类生成进化树 52-56 4.3.3 对8个H1N1病毒NA基因片段聚类生成进化树 56-59 4.4 小结 59-60 结论 60-62 参考文献 62-68 致谢 68-69 附录A (攻读硕士期间发表论文和参加的项目) 69
|
相似论文
- 五倍子蚜DNA序列分子系统发育关系,S899.4
- 东亚和北美五倍子蚜(半翅目:瘿绵蚜科)数值分类研究,S899.4
- 基于特征点空间信息分布直方图的匹配方法研究,TP391.41
- DNA序列数据压缩算法研究,TP311.13
- 基于解析冗余关系的HXD2型机车法维莱制动机测试系统的研制,TP274
- 基于时间序列理论方法的流感病毒DNA序列特征分析,R346
- 线粒体DNA G3635A突变导致Leber遗传性视神经病变,R774.6
- X连锁视网膜劈裂症家系的基因诊断与分析,R774.1
- DNA序列的最大频繁模式挖掘,TP311.13
- 生物序列的图形表示及相似性分析,Q75
- 基于海明距离的DNA序列中相似性重复片段查找技术研究,Q75
- 几类矩阵差分方程的解研究,O241.84
- 基于SVM分类机的DNA序列分类方法,TP18
- 智能化入侵防御系统实现的关键技术研究,TP393.08
- 基于结果模式的Deep Web数据抽取机制的研究,TP393.09
- DNA序列选择进化距离及其在系统发育分析中的应用,Q523
- 利用20个微卫星DNA标记分析柬埔寨地方鸡群体的遗传多样性,S831.2
- DNA序列拼接中deBruijn图结构的研究,Q523
- 基于DNA序列的功能位点识别,Q523
- 硫化物纳米复合材料的模板合成与相关应用,TB383.1
- 犬猫带绦虫线粒体基因组学研究,S852.734
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com
|