学位论文 > 优秀研究生学位论文题录展示
基于支持向量机的特征选择算法研究
作 者: 严康
导 师: 林晓惠
学 校: 大连理工大学
专 业: 计算机软件与理论
关键词: 代谢组学 支持向量机 SVM-RFE SVM-RFE-DFF 融合技术
分类号: TP301.6
类 型: 硕士论文
年 份: 2010年
下 载: 197次
引 用: 1次
阅 读: 论文下载
内容摘要
代谢组学可以被定义为一种重点考察生物体系受到外界因素的加入(如感染、疾病、药物等)其代谢产物的变化以及其随时间的变化趋势和代谢途径的科学方法。代谢组学方法产生的数据一般是高维小样本的数据,其中包含很多的噪音和冗余数据。因此,从中提取出具有解释能力的数据对理解复杂生物的代谢过程是非常重要和有意义的。在代谢组学数据的处理中,多元统计分析和机器学习算法的利用是十分必要的,例如主成分分析(PCA)、偏最小二乘判别分析(PLS-DA)等。支持向量机(SVM)是一种具有良好的推广能力的方法,相比较于其他的多元统计方法具有明显的优势。SVM-RFE是一种基于支持向量机的特征选择算法,该算法也是一种非常有效的方法。在近些年来,特征选择算法的稳定性也受到了越来越多人的关注。本文首先利用不同策略的SVM和SVM-RFE对水稻纹枯病进行处理,并与PLS-DA进行对比。结果表明,前者具有较好的分类能力并且提取出了较少的特征,模型的R2/Q2值及其截距表明特征选择后的结果所建的模型具有很好的解释能力和预测能力。SVM-RFE的特征筛选过程是一个反向的删除过程,其中每次排在最后的m(过滤因子)个特征被删除,然而其中m的大小对算法造成了不稳定。因此,本文提出了一种基于动态过滤因子的SVM-RFE算法,即SVM-RFE-DFF,该算法在每次迭代的窗口中删除了噪音和冗余属性。之后,算法中加入了融合技术,从而进一步的提高了算法的性能以及稳定性。该算法应用于代谢综合症的处理之中,实验的结果表明SVM-RFE-DFF的分类效果比SVM-RFE要好,而且窗口对SVM-RFE-DFF的影响要远小于过滤因子对SVM-RFE的影响,同时融合技术加入后使得算法有了更进一步的提高。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-11 1.1 代谢组学背景介绍 8-9 1.1.1 代谢组学的定义及其特点 8 1.1.2 数据的采集技术以及数据分析技术 8-9 1.2 支持向量机与代谢组学数据处理传统方法的关系 9-10 1.3 本文的主要工作 10-11 2 代谢组学数据处理技术 11-25 2.1 无监督的模式识别方法 11-14 2.1.1 聚类分析 11-13 2.1.2 主成分分析 13-14 2.2 有监督的学习方法 14-20 2.2.1 K最近邻法 15 2.2.2 支持向量机 15-20 2.3 特征选择方法 20-24 2.3.1 FCBF特征选择方法 21-22 2.3.2 基于支持向量机的特征选择方法 22-23 2.3.3 随机森林的特征选择方法 23-24 2.4 本章小结 24-25 3 基于支持向量机的时间序列数据研究 25-38 3.1 植物代谢组学简介 25-26 3.2 样品数据背景及数据预处理-水稻纹枯病 26-30 3.2.1 背景信息 26-27 3.2.2 样品信息 27 3.2.3 数据预处理方法 27-28 3.2.4 特征的统计学分析 28-29 3.2.5 模型参数评价 29-30 3.3 时间序列数据处理策略 30-33 3.3.1 生长因素的寻找 30-32 3.3.2 疾病因素的寻找 32-33 3.4 结果分析与比较 33-37 3.4.1 PCA处理结果分析 33-34 3.4.2 SVM与PLS-DA的比较分析 34-36 3.4.3 潜在生物标记物分析 36-37 3.5 本章小结 37-38 4 一种基于动态过滤因子的SVM-RFE特征选择方法 38-51 4.1 SVM-RFE的发展过程及相关工作 38-41 4.2 一种改进的特征选择方法—SVM-RFE-DFF 41-43 4.3 基于融合特征选择技术的SVM-RFE-DFF 43-44 4.4 实验结果分析与讨论 44-49 4.4.1 数据实验背景 44 4.4.2 数据预处理 44 4.4.3 SVM-RFE-DFF与SVM-RFE之间的比较 44-46 4.4.4 融合的特征选择方法比较 46-49 4.4.5 显著性差异代谢物 49 4.5 本章小结 49-51 结论 51-52 参考文献 52-55 攻读硕士学位期间发表学术论文情况 55-56 致谢 56-58
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 脑梗塞血瘀证的肽组学和代谢组学初步研究,R277.7
- 松萝酸与依托红霉素致肝脏毒性的GC-MS代谢组学研究,R965
- 基于质谱的雷公藤甲素肝脏毒性代谢组学研究,R285
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 基于车载3D加速传感器的路况监测研究,TP274
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 基于机器学习的入侵检测系统研究,TP393.08
- 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 理论、方法 > 算法理论
© 2012 www.xueweilunwen.com
|