学位论文 > 优秀研究生学位论文题录展示

基于SVM分类机的DNA序列分类方法

作 者: 赵丹
导 师: 程从从
学 校: 南昌大学
专 业: 计算机应用技术
关键词: SVM DNA序列分类 特征向量 分类超平面 多类分类
分类号: TP18
类 型: 硕士论文
年 份: 2010年
下 载: 151次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着人类基因组计划的顺利完成和各种后基因组计划的开始实施,出现了海量的生物分子数据,这使得科学家们需要分析大量DNA数据。如何充分利用这些数据,进而揭示这些数据的内涵,得到对人类有用的生物信息,是科学家们面临的一个严峻的挑战。DNA序列的处理方法一般是先寻找一种数学模型用以表示DNA,再借助其它工具对其进行分析。支持向量机(SVM)是在统计学习理论基础上发展起来的新算法,该算法是一种模式识别技术,相当于一种模式分类器。其训练算法本质上是一个凸二次规划的求解问题。它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并在文本分类、生物信息、语音识别、遥感图像分析、故障识别和预测、时间序列预测、信息安全等诸多领域有了成功的应用[2-41。本文采用SVM算法对DNA序列进行分类。为了提供算法所需要的输入数据格式,首先要将DNA序列用数学模型表示出来。SVM对输入数据的格式要求是表示成特征向量的形式。因此本文从DNA序列中单个碱基的含量和DNA序列的长度出发,结合滑动窗口方法计算出DNA序列中特征序列的出现频率,提取出DNA序列的特征,将DNA序列表示成特征向量的形式,然后根据SVM算法对已知类别标签的DNA序列训练样本做训练得到分类超平面,利用此超平面分类DNA序列的测试样本。分类结果表明这种提取特征的方法具有很好的分类精度。本文对SVM算法采用Matlab实现。典型二分类中的数据采用文献[9]中的数据。首先对已知类别的1-20个人工DNA序列进行SVM算法训练,利用参数寻优得到分类器。根据分类结果的精度反馈,进一步选择是否对数据归一化和降维等操作对结果进行优化,得到最佳的分类超平面。然后对另外的20个人工DNA序列和182个自然DNA序列进行分类预测。典型的SVM算法是一个二分类问题,DNA序列的多类分类实现是利用SVM的多类分类理论和算法,数据采用的是UCI数据库中的DNA序列数据,该序列集合中的数据分成了训练集和测试集,并且两个集合中的记录均有类别标签,便于分类测试。对于SVM多类算法的实现,同样用Matlab编程实现了DNA序列的多类分类。两部分的分类结果表明,SVM算法具有分类简单且分类结果精度较高的优点,同时结果也说明了本文对DNA序列所提取的特征向量是非常有效的,可以应用到实际的DNA序列分类预测中。

全文目录


摘要  3-5
ABSTRACT  5-9
第1章 引言  9-14
  1.1 DNA序列分类的目的和作用  9-10
  1.2 目前DNA序列分类的主要方法  10-11
  1.3 用支持向量机实现DNA序列分类  11-14
第2章 支持向量机的基本理论  14-27
  2.1 SVM理论的统计学基础  14-16
    2.1.1 n维欧式空间上的分类问题  14-15
    2.1.2 经验风险最小化归纳原则  15
    2.1.3 VC维理论  15
    2.1.4 结构风险最小化归纳原则  15-16
  2.2 C-支持向量分类机的导出  16-22
    2.2.1 最大间隔原则及线性分类器  16-18
    2.2.2 线性可分问题的SVM分类机  18-19
    2.2.3 非线性可分问题的SVM分类机  19-21
    2.2.4 核与标准支持向量分类机  21-22
  2.3 多类分类的SVM  22-25
  2.4 SVM实现分类的一般流程  25-27
第3章 DNA序列特征提取及特征向量的产生  27-35
  3.1 二分类DNA序列特征向量的产生及归一化  27-33
    3.1.1 提取特征序列  27-30
    3.1.2 由特征序列生成特征向量  30-32
    3.1.3 特征向量归一化处理  32-33
  3.2 多类分类DNA序列的特征向量产生及归一化  33-35
第4章 SVM算法及参数C和g的选择  35-41
  4.1 二分类算法  35-36
  4.2 基于顺序回归机的多类分类算法  36-38
  4.3 凸二次规划问题的求解  38-39
  4.4 K折交叉验证选择最佳参数C和g  39-41
第5章 基于SVM分类器的DNA序列分类实现及性能分析  41-49
  5.1 基于SVM分类器实现的DNA序列的二分类及性能分析  41-45
  5.2 基于SVM分类器实现的DNA序列的多类分类及性能分析  45-48
  5.3 分类结果总结说明  48-49
第6章 结论与展望  49-51
  6.1 结论  49
  6.2 未来的研究的方向  49-51
致谢  51-52
参考文献  52-55
攻读学位期间的研究成果  55

相似论文

  1. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  2. 基于相似度计算的编程题自动评判方法研究,TP312.1
  3. 基于SVM分类算法的主题爬虫研究,TP391.3
  4. 基于计算机视觉的柑橘品质分级技术研究,TP391.41
  5. 海南雾的天气气候特征分析及预报方法研究,P457
  6. 基于粗糙集和模糊SVM的车牌识别技术研究,TP391.41
  7. 基于支持向量机的视频目标检测方法研究,TP391.41
  8. 基于SVM和形状特征的电极三维模型分类检索的研究,TP391.41
  9. 心电特征提取及分类方法研究,TN911.7
  10. 多特征融合的视觉跟踪算法研究,TP391.41
  11. 基于多普勒气象雷达的风切变预测研究,P415.2
  12. 基于本体的医学命名实体识别技术研究,TP391.1
  13. 航空发动机燃调系统故障诊断,V263.6
  14. 基于与或图的车牌检测与识别,TP391.41
  15. 基于脑波的情感图像检索的研究,TP391.41
  16. 电动汽车驱动控制系统的研究,U469.72
  17. 基于环境参数的过渡环境下人体热感觉预测,TU831
  18. 音乐风格分析研究,J605
  19. 基于SIFT特征和SVM的场景分类,TP391.41
  20. 基于稀疏表达的人脸识别算法研究,TP391.41
  21. 基于STM32异步电机SVM-DTC系统的设计,TM921.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com