学位论文 > 优秀研究生学位论文题录展示
基于SVM分类机的DNA序列分类方法
作 者: 赵丹
导 师: 程从从
学 校: 南昌大学
专 业: 计算机应用技术
关键词: SVM DNA序列分类 特征向量 分类超平面 多类分类
分类号: TP18
类 型: 硕士论文
年 份: 2010年
下 载: 151次
引 用: 1次
阅 读: 论文下载
内容摘要
随着人类基因组计划的顺利完成和各种后基因组计划的开始实施,出现了海量的生物分子数据,这使得科学家们需要分析大量DNA数据。如何充分利用这些数据,进而揭示这些数据的内涵,得到对人类有用的生物信息,是科学家们面临的一个严峻的挑战。DNA序列的处理方法一般是先寻找一种数学模型用以表示DNA,再借助其它工具对其进行分析。支持向量机(SVM)是在统计学习理论基础上发展起来的新算法,该算法是一种模式识别技术,相当于一种模式分类器。其训练算法本质上是一个凸二次规划的求解问题。它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并在文本分类、生物信息、语音识别、遥感图像分析、故障识别和预测、时间序列预测、信息安全等诸多领域有了成功的应用[2-41。本文采用SVM算法对DNA序列进行分类。为了提供算法所需要的输入数据格式,首先要将DNA序列用数学模型表示出来。SVM对输入数据的格式要求是表示成特征向量的形式。因此本文从DNA序列中单个碱基的含量和DNA序列的长度出发,结合滑动窗口方法计算出DNA序列中特征序列的出现频率,提取出DNA序列的特征,将DNA序列表示成特征向量的形式,然后根据SVM算法对已知类别标签的DNA序列训练样本做训练得到分类超平面,利用此超平面分类DNA序列的测试样本。分类结果表明这种提取特征的方法具有很好的分类精度。本文对SVM算法采用Matlab实现。典型二分类中的数据采用文献[9]中的数据。首先对已知类别的1-20个人工DNA序列进行SVM算法训练,利用参数寻优得到分类器。根据分类结果的精度反馈,进一步选择是否对数据归一化和降维等操作对结果进行优化,得到最佳的分类超平面。然后对另外的20个人工DNA序列和182个自然DNA序列进行分类预测。典型的SVM算法是一个二分类问题,DNA序列的多类分类实现是利用SVM的多类分类理论和算法,数据采用的是UCI数据库中的DNA序列数据,该序列集合中的数据分成了训练集和测试集,并且两个集合中的记录均有类别标签,便于分类测试。对于SVM多类算法的实现,同样用Matlab编程实现了DNA序列的多类分类。两部分的分类结果表明,SVM算法具有分类简单且分类结果精度较高的优点,同时结果也说明了本文对DNA序列所提取的特征向量是非常有效的,可以应用到实际的DNA序列分类预测中。
|
全文目录
摘要 3-5 ABSTRACT 5-9 第1章 引言 9-14 1.1 DNA序列分类的目的和作用 9-10 1.2 目前DNA序列分类的主要方法 10-11 1.3 用支持向量机实现DNA序列分类 11-14 第2章 支持向量机的基本理论 14-27 2.1 SVM理论的统计学基础 14-16 2.1.1 n维欧式空间上的分类问题 14-15 2.1.2 经验风险最小化归纳原则 15 2.1.3 VC维理论 15 2.1.4 结构风险最小化归纳原则 15-16 2.2 C-支持向量分类机的导出 16-22 2.2.1 最大间隔原则及线性分类器 16-18 2.2.2 线性可分问题的SVM分类机 18-19 2.2.3 非线性可分问题的SVM分类机 19-21 2.2.4 核与标准支持向量分类机 21-22 2.3 多类分类的SVM 22-25 2.4 SVM实现分类的一般流程 25-27 第3章 DNA序列特征提取及特征向量的产生 27-35 3.1 二分类DNA序列特征向量的产生及归一化 27-33 3.1.1 提取特征序列 27-30 3.1.2 由特征序列生成特征向量 30-32 3.1.3 特征向量归一化处理 32-33 3.2 多类分类DNA序列的特征向量产生及归一化 33-35 第4章 SVM算法及参数C和g的选择 35-41 4.1 二分类算法 35-36 4.2 基于顺序回归机的多类分类算法 36-38 4.3 凸二次规划问题的求解 38-39 4.4 K折交叉验证选择最佳参数C和g 39-41 第5章 基于SVM分类器的DNA序列分类实现及性能分析 41-49 5.1 基于SVM分类器实现的DNA序列的二分类及性能分析 41-45 5.2 基于SVM分类器实现的DNA序列的多类分类及性能分析 45-48 5.3 分类结果总结说明 48-49 第6章 结论与展望 49-51 6.1 结论 49 6.2 未来的研究的方向 49-51 致谢 51-52 参考文献 52-55 攻读学位期间的研究成果 55
|
相似论文
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于计算机视觉的柑橘品质分级技术研究,TP391.41
- 海南雾的天气气候特征分析及预报方法研究,P457
- 基于粗糙集和模糊SVM的车牌识别技术研究,TP391.41
- 基于支持向量机的视频目标检测方法研究,TP391.41
- 基于SVM和形状特征的电极三维模型分类检索的研究,TP391.41
- 心电特征提取及分类方法研究,TN911.7
- 多特征融合的视觉跟踪算法研究,TP391.41
- 基于多普勒气象雷达的风切变预测研究,P415.2
- 基于本体的医学命名实体识别技术研究,TP391.1
- 航空发动机燃调系统故障诊断,V263.6
- 基于与或图的车牌检测与识别,TP391.41
- 基于脑波的情感图像检索的研究,TP391.41
- 电动汽车驱动控制系统的研究,U469.72
- 基于环境参数的过渡环境下人体热感觉预测,TU831
- 音乐风格分析研究,J605
- 基于SIFT特征和SVM的场景分类,TP391.41
- 基于稀疏表达的人脸识别算法研究,TP391.41
- 基于STM32异步电机SVM-DTC系统的设计,TM921.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com
|