学位论文 > 优秀研究生学位论文题录展示

基于k-mer频率统计的物种分类方法

作 者: 陈鑫
导 师: 梁艳春
学 校: 吉林大学
专 业: 计算机科学与技术
关键词: k-mer 频率统计 特征向量 物种分类
分类号: Q19
类 型: 硕士论文
年 份: 2011年
下 载: 241次
引 用: 0次
阅 读: 论文下载
 

内容摘要


生物学界的物种分类工作走过了几百年的发展历史,在日积月累的过程中建立了相当详细的分类方法,并发展出形态分类学这门学科,但目前尚未发现和未进行分类的生物物种的数目仍然是非常巨大,传统的形态生物分类学方法在面对如此繁琐的工作时已经遇到了瓶颈。随着生物测序技术的发展,DNA测序成本开始降低,而生物学家又意识到真正包含生物最本质特征信息的载体正是生物的基因组序列,所以基因序列内容应该被应用到物种分类工作中。目前生物信息学家进行生物物种分类使用的基本方式是在全基因组中选取一段具有相当特性的片段来代表物种的特征,并且使用这种特征进行物种间的比较,从而进行生物学分类分析。这项分类技术已经取得了令人满意的成果,不过由于该项技术上仍然存在一定程度上的局限性和不足之处,并且由于不同的研究者选择的片段不同,为分类方法的标准统一带来了难题。本文尝试用另一种方法来建立一个能将生物自身的序列特征统一的标准系统。这种方法的基础在于:生物基因序列k-mer短片段序列的频率在进化过程中具有相当的稳定性。在这种稳定性的前提下,我们尝试使用生物基因组的大部分序列而非一小部分来描述生物本身的特征。通过对这些序列进行k-mer的频率统计,得到了一个代表物种的特征向量,并使用这个特征向量进行物种的分类鉴别。这样使得各个物种都可在一个统一标准下进行分类划分。我们尝试了细菌和病毒的分类,并取得了一定的成果。在生物分类学的“属”以上级别的分类中产生了非常精确的数据,在亚种或变种级别上的数据结果也达到了一定的精度。

全文目录


提要  4-5
摘要  5-7
Abstract  7-11
第1章 绪论  11-15
  1.1 研究背景  11
  1.2 方法介绍  11-14
    1.2.1 生物学分类方法  12
    1.2.2 基于短序列片段的分类方法  12-13
    1.2.3 基于k-mer频率统计物种分类方法  13-14
  1.3 论文结构和内容安排  14-15
第2章 现有方法介绍  15-21
  2.1 基于形态解剖学的生物分类方法  15-16
    2.1.1 基于形态解剖学的生物分类方法过程  15-16
    2.1.2 基于形态解剖学的生物分类方法的评价  16
  2.2 基于短序列相似性的生物分类方法  16-20
    2.2.1 基于短序列相似性的生物分类方法过程  16-19
    2.2.2 基于短序列相似性的生物分类方法的评价  19-20
  2.3 本章小结  20-21
第3章 基于K-MER频率统计的分类方法  21-29
  3.1 基于K-MER频率统计的分类方法的基础  22-23
  3.2 基于K-MER频率统计的分类方法的算法过程  23-28
    3.2.1 数据选择和前期处理  24-25
    3.2.2 统计生成特征向量  25-26
    3.2.3 去除特异性片段  26-27
    3.2.4 计算物种间距离并分析进化关系  27-28
  3.3 本章小结  28-29
第4章 实验结果  29-45
  4.1 细菌分类实验  29-39
    4.1.1 细菌分类实验过程  29-38
    4.1.2 细菌分类实验结论  38-39
  4.2 病毒分类实验  39-44
    4.2.1 病毒种以上水平的分类实验  39-42
    4.2.2 病毒种以下水平的分类实验  42-44
    4.2.3 病毒分类实验结论  44
  4.3 本章小结  44-45
第5章 总结和展望  45-47
  5.1 总结  45
  5.2 展望  45-47
参考文献  47-50
作者简介及在学期间所取得的科研成果  50-51
致谢  51

相似论文

  1. 基于相似度计算的编程题自动评判方法研究,TP312.1
  2. 广义模糊矩阵若干问题的研究,O151.21
  3. 太阳能电池缺陷识别的研究与实现,TP391.41
  4. 航空发动机燃调系统故障诊断,V263.6
  5. 基于隐马尔可夫模型的时间序列聚类的研究,TP311.13
  6. 虹膜预处理及特征提取关键技术研究,TP391.41
  7. 弥散张量成像中的纤维跟踪算法的研究,O482.531
  8. 基于SVM分类机的DNA序列分类方法,TP18
  9. 基于DCT域的JPEG图像隐写分析算法研究,TP391.41
  10. 冠状动脉造影图像中血管中心线跟踪算法的研究,TP391.41
  11. Web信息语义特征获取技术,TP391.1
  12. 基于特征向量和神经网络的边缘检测算法研究,TP391.41
  13. 信源数估计方法的研究,TN911.7
  14. 分组密码扩散结构的构造与分析,TN918.1
  15. 湖南省部分两栖动物的线粒体DNA条形码及分子系统发育研究,Q951
  16. 增广的Davidson算法,O241.6
  17. 太宽河自然保护区栓皮栎群落数量生态研究,Q948
  18. 迭代反位移变换的Arnoldi算法的一种变形,O241
  19. 基于粒子群算法的数值方法研究,O241
  20. 子空间加速方法的研究,O241.6

中图分类: > 生物科学 > 普通生物学 > 生物分类学
© 2012 www.xueweilunwen.com