学位论文 > 优秀研究生学位论文题录展示

机器学习方法及其在生物信息学领域中的应用

作 者: 王淑琴
导 师: 梁艳春
学 校: 吉林大学
专 业: 计算机应用技术
关键词: 生物信息学 机器学习 操纵子预测 癌症分类 决策树 遗传算法 变精度粗糙集 变精度明确区 变精度非明确区 基因间距离 COG基因功能 基因表达谱 新陈代谢通路  关键基因 k-TSP
分类号: TP181
类 型: 博士论文
年 份: 2009年
下 载: 723次
引 用: 2次
阅 读: 论文下载
 

内容摘要


生物信息学是八十年代末随着人类基因组计划的启动而兴起的一门新兴交叉学科,它是当今生命科学和自然科学的重大前沿领域之一,是生物学与计算机科学以及应用数学等学科交叉而成。利用生物信息学方法能够处理大规模数据,抽取出所需信息,从而更好的认识生命,揭示生物界的奥秘。随着基因组项目的不断完成,大量有待于分析和解释的数据呈指数级增长。数据量之大,研究之深入,以及基因组数据本身的复杂性之高,对理论、算法和软件的发展都提出了迫切的需求。而机器学习方法例如遗传算法决策树等正适合于处理这种数据量大、含有噪声并且缺乏统一理论的领域。本文对机器学习方法及其在生物信息学中的应用进行了一定的研究,主要工作有以下四个方面:1.提出一种基于变精度粗糙集的决策树构造方法。提出了变精度明确区和变精度非明确区的概念。并给出基本的基于变精度粗糙集理论选取决策树分支属性的算法。利用UCI国际开放数据库中的19个数据集作为测试集对提出的方法进行测试,并将结果与较流行的决策树生成算法C4.5所得到的结果进行比较研究。2.提出一种基于多方法引导的遗传算法的操纵子预测方法。应用不同的方法来评价不同的基因组数据以充分发挥各自的生物特点。提出了一种局部最小化的方法来评价基因间距离。实验结果显示基于多属性信息的预测能力高于基于单个属性的预测能力,也证明了E. coli的基于局部熵最小化得到的基因间距离区间得分可用于其它基因组操纵子预测。3.提出基于变精度粗糙集的决策树构造的操纵子预测方法。使用基因间距离、COG功能、代谢pathway、微阵列表达数据、系统进化谱和保守基因对六种基因组数据进行操纵子预测。在E. coli、B. subtilis和P. aeruginosa三个基因组上进行测试,并与C4.5进行了比较,实验结果表明这是一种有效的操纵子预测方法。4.提出一种基于信息熵的改进k-TSP癌症分类预测方法,首先使用信息熵的方法来选取特征基因,然后使用k-TSP方法进行癌症分类预测。将公开的二类基因表达谱数据集作为实验数据集,采用留一交叉校验法来计算实验中预测的准确率,并将此方法与其他7种机器学习方法进行比较,取得了较好的效果。

全文目录


内容提要  4-9
第1章 绪论  9-15
  1.1 研究背景  9-11
    1.1.1 生物信息学  9-10
    1.1.2 基于机器学习的生物信息学  10-11
  1.2 本文工作  11-15
    1.2.1 研究方法  11-12
    1.2.2 主要研究内容和章节安排  12-15
第2章 生物信息学与机器学习相关算法  15-43
  2.1 引言  15-16
  2.2 生物信息学中的操纵子预测研究  16-23
    2.2.1 操纵子的定义  16
    2.2.2 操纵子预测的研究现状  16-18
    2.2.3 操纵子预测数据源  18-20
    2.2.4 操纵子预测相关数据库  20-22
    2.2.5 操纵子预测相关前期工作  22-23
  2.3 生物信息学中pathway预测研究  23-27
    2.3.1 pathway预测  23-24
    2.3.2 pathway预测的研究现状  24-26
    2.3.3 pathway预测的前期工作  26-27
  2.4 生物信息学中癌症分类方法的研究现状  27-29
  2.5 机器学习相关算法  29-42
    2.5.1 遗传算法  30-32
    2.5.2 决策树  32-40
    2.5.3 粗糙集理论基本知识  40-42
  2.6 本章小结  42-43
第3章 基于变精度粗糙集的决策树构造方法研究  43-55
  3.1 引言  43
  3.2 基于粗糙集的决策树构造方法  43-45
  3.3 基于变精度粗糙集(VPRSM)的决策树构造方法  45-50
    3.3.1 基本概念  45-46
    3.3.2 基于变精度粗糙集的决策树构造方法  46-47
    3.3.3 基于变精度粗糙集的决策树构造方法的一个例子  47-50
  3.4 实验结果  50-53
    3.4.1 数据集  50-52
    3.4.2 VPRSM算法与C4.5 算法的比较  52-53
  3.5 本章小结  53-55
第4章 基于多方法引导的遗传算法的操纵子预测  55-71
  4.1 引言  55
  4.2 数据准备  55-56
  4.3 初始种群  56
  4.4 适应度函数  56-63
    4.4.1 基于局部最小化的基因间距离  58-61
    4.4.2 新陈代谢通路  61
    4.4.3 COG基因功能  61
    4.4.4 基因对的微阵列表达值的相关系数  61-63
  4.5 选择、交叉和变异  63-64
  4.6 实验结果  64-69
    4.6.1 评价方法  64-65
    4.6.2 实验结果  65-69
  4.7 本章小结  69-71
第5章 基于变精度粗糙集的操纵子预测方法  71-81
  5.1 引言  71
  5.2 基于变精度粗糙集的操纵子预测  71-77
    5.2.1 数据准备  71-72
    5.2.2 基因组特征属性  72-75
    5.2.3 基于变精度粗糙集的操纵子预测  75-77
  5.3 实验结果及分析  77-80
    5.3.1 实验结果  77-78
    5.3.2 实验结果分析  78-80
  5.4 本章小结  80-81
第6章 基于信息熵的改进k-TSP癌症分类方法研究  81-93
  6.1 引言  81
  6.2 基于信息熵的改进k-TSP方法  81-87
    6.2.1 基因表达数据集  81-82
    6.2.2 k-TSP分类方法  82-84
    6.2.3 基于信息熵的改进k-TSP方法  84-86
    6.2.4 估计参数k与准确率的方法  86-87
  6.3 实验结果  87-89
    6.3.1 评价方法  87
    6.3.2 实验结果  87-89
  6.4 结果分析与讨论  89-91
    6.4.1 分类器中使用的基因个数  89
    6.4.2 用于微阵列分析的Pathway信息  89-90
    6.4.3 Ik-TSP分类器的生物意义  90-91
  6.5 本章小结  91-93
第7章 展望  93-95
  7.1 本文总结  93-94
  7.2 进一步设想  94-95
参考文献  95-108
攻读博士学位期间(待)发表的学术论文及取得的科研成果  108-110
致谢  110-111
摘要  111-114
Abstract  114-116

相似论文

  1. 基于物理拓扑感知的Chord算法研究,TP393.02
  2. 隧道超前地质预报方法及应用研究,U452.11
  3. 南昌市大气颗粒物污染特征及其潜在危害,X513
  4. 大气颗粒物中重金属元素的测定研究,X831
  5. 免疫遗传算法及其在TSP中的应用研究,TP18
  6. 解多目标优化问题的改进差分进化算法研究,TP301.6
  7. 基于信息素强度的蚁群算法及其应用研究,TP301.6
  8. 蚁群平面网孔搜索算法在水电仿真软件中的实现,TV7
  9. 逆向工程中特征提取技术的研究,TB1
  10. 遗传算法的改进及其在优化上的应用研究,TP18
  11. 遗传算法求解TSP问题的研究与改进,TP18
  12. 自动化立体仓库堆垛机控制系统的设计与路径优化,TP273
  13. TSP在隧道超前预报中的研究与应用,U452.11
  14. 南昌市大气颗粒物污染特征和重金属形态分析,X513
  15. 云阳山隧道超前地质预报研究,U452.11
  16. 基于邻域正交交叉算子的混合蛙跳算法研究与应用,S126
  17. 蚁群算法及其在QoS组播路由问题中的研究,TP301.6
  18. 基于WebGIS最优路径导航的海流数据采集管理开放式平台研究,TP311.52
  19. 数控喷字路径优化算法研究,U671
  20. S100A4、TSP-1在宫颈不同病变组织中的表达及意义,R737.33
  21. 改进的遗传算法及其在TSP问题中的应用与研究,TP18

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com