学位论文 > 优秀研究生学位论文题录展示

基于智能算法的DNA聚类研究及应用

作 者: 张丽
导 师: 李章泉
学 校: 山东师范大学
专 业: 管理科学与工程
关键词: DNA序列 图形表达 微粒群算法 聚类优化
分类号: TP18
类 型: 硕士论文
年 份: 2010年
下 载: 73次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着现代生物技术的不断发展特别是人类基因组计划的实施,人们不断获取大量的基因序列数据。面对如此大量的基因序列数据,只有很少一部分基因我们己经知道它们的功能,而大部分基因的功能还是未知的。数据挖掘中的聚类技术正是能够对大量基因数据进行分析的技术。通过聚类技术将这些基因序列进行聚类,得到一些聚在一起的类。由于同一类中的基因序列具有相似的功能,这样我们就可以利用同一类中己知功能的基因推测同一类中未知功能基因的功能。目前生物信息领域的研究中,聚类分析已经得到了广泛的应用。其中生物序列聚类的关键问题就是如何刻画序列间的相似性。而生物序列数据本身的线性排列表示有时难以体现序列间的相似程度,使得在某些情况下,一些相似性度量失效,从而影响了聚类结果的质量。所以如果完全从序列本身出发设计相似性度量,将不能得到符合真实生物学观测的聚类结果,为DNA序列的进化研究带来了一定的困难。伴随着DNA序列图形表达的研究的深入,Randic等人首先提出利用DNA序列的图形表达来研究序列的聚类问题的思想。本文利用这种思想,借助DNA序列的图形表达所抽取的数学特征对序列进行聚类。本文参考已有的基于碱基对称性的DNA序列的二维图形表达方法,做了相应的改进,提出一种新的图形表达的方法。使得改进后的图形表达方法更加节省空间,而且能够更加清楚的体现出DNA序列的生物学特征。利用这种方法,把每个DNA序列按照三组映射规则,转化成三条二维曲线,然后从曲线中提取特征矩阵,最后利用矩阵的不变量对DNA序列进行聚类研究,这样,一条DNA序列就被转化成一个多维数据对象。因此,对DNA序列的聚类问题就转化成对多维数据的聚类了。现有的对多维数据进行聚类的常用聚类算法,通常需要事先给定聚类数k。但在大多数情况下,聚类数k事先无法确定,因此需要对最佳聚类数k进行优化处理。本文采用基于微粒群算法的聚类算法。为了解决微粒群聚类算法无法确定聚类数k的现象,通过k均值算法的引入,实现最佳聚类数k的求解和聚类有效性函数的构造,试验证明引入类间距离的聚类有效性检测函数对最佳聚类数判别科学,同时由于检测函数中类间距离权重的引入使该检测函数可以更好的应用于现实数据分析。

全文目录


摘要  6-8
Abstract  8-10
第1章 绪论  10-15
  1.1 研究动机及意义  10
  1.2 研究目的  10-11
  1.3 研究内容  11-12
  1.4 本文的组织结构  12-13
  1.5 本文创新点  13-15
第2章 背景知识与研究现状  15-22
  2.1 生物信息学  15-18
    2.1.1 生物信息学的概念  15-16
    2.1.2 生物信息学的研究内容  16-18
  2.2 DNA 序列的聚类技术  18-21
    2.2.1 DNA 序列聚类的意义  18
    2.2.2 传统DNA 序列聚类的主要方法  18-20
    2.2.3 基于图形表达的DNA 序列聚类  20-21
  2.3 小结  21-22
第3章 基因序列的图形表达  22-32
  3.1 DNA 序列图形表达的优点  22
  3.2 DNA 序列的2-D 图形表达  22-25
  3.3 基于碱基对称性的2-D 图形表达  25-28
    3.3.1 廖波的基于碱基对称性的2-D 图形表达  26
    3.3.2 改进的基于碱基对称性的2-D 图形表达  26-28
  3.4 图形表达的数学特征提取  28-31
    3.4.1 图形表达中提取的特征矩阵  29
    3.4.2 常用矩阵不变量  29-31
  3.5 本章小结  31-32
第4章 微粒群优化算法  32-39
  4.1 三种典型基本模型及分析  32-34
  4.2 改进的动态调整惯性权重的PSO 模型  34-36
  4.3 实验验证  36-38
  4.4 基于PSO 的聚类  38
  4.5 本章小结  38-39
第5章 基于微粒群算法的聚类算法改进  39-46
  5.1 微粒群聚类算法简介  39-40
  5.2 微粒群改进聚类算法的提出  40-41
  5.3 改进算法的思想  41-42
  5.4 改进算法的流程  42
  5.5 实验分析  42-45
  5.6 小结  45-46
第6章 甲型流感病毒基因序列的聚类  46-55
  6.1 基因序列的获取  46-47
  6.2 序列特征数据的提取  47-51
  6.3 试验结果  51-55
    6.3.1 最佳聚类数的确定  51-52
    6.3.2 聚类结果及分析  52-55
结束语  55-56
参考文献  56-61
致谢  61-62
攻读硕士期间发表的论文及参加的科研项目  62

相似论文

  1. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  2. 五倍子蚜DNA序列分子系统发育关系,S899.4
  3. 东亚和北美五倍子蚜(半翅目:瘿绵蚜科)数值分类研究,S899.4
  4. 微粒群算法的改进与应用研究,TP18
  5. DNA序列数据压缩算法研究,TP311.13
  6. 基于时间序列理论方法的流感病毒DNA序列特征分析,R346
  7. 物流配送选址与路径优化模型及其微粒群算法研究,F224
  8. 线粒体DNA G3635A突变导致Leber遗传性视神经病变,R774.6
  9. X连锁视网膜劈裂症家系的基因诊断与分析,R774.1
  10. 微粒群算法理论研究及其在PID参数优化中的应用,TP13
  11. 人工鱼群算法在聚类问题中的应用研究,TP18
  12. DNA序列的最大频繁模式挖掘,TP311.13
  13. 生物序列的图形表示及相似性分析,Q75
  14. 基于海明距离的DNA序列中相似性重复片段查找技术研究,Q75
  15. 基于SVM分类机的DNA序列分类方法,TP18
  16. 智能化入侵防御系统实现的关键技术研究,TP393.08
  17. 基于遗传免疫微粒群算法的工程项目多目标综合优化研究,TP301.6
  18. 水电仿真软件中调节模块的实现与优化,TP391.9
  19. DNA序列选择进化距离及其在系统发育分析中的应用,Q523
  20. 基于微粒群算法优化的模糊PID的无刷直流电机调速控制系统的研究,TM33
  21. 利用20个微卫星DNA标记分析柬埔寨地方鸡群体的遗传多样性,S831.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com