学位论文 > 优秀研究生学位论文题录展示

基于SVM-RFE的潜在生物标志物选择算法研究

作 者: 阮强
导 师: 林晓惠
学 校: 大连理工大学
专 业: 计算机软件与理论
关键词: 数据挖掘 支持向量机 SVM-RFE ReliefF 人工变量
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 31次
引 用: 0次
阅 读: 论文下载
 

内容摘要


我们处于信息大爆炸的时代,数据挖掘技术突显的异常重要。从海量的数据中挖掘出关键的信息,可以大大的减少工作量达到事半功倍的效果。在海量的数据中往往隐含着某种规律,通过数据挖掘技术将其发现,就可以掌握事物发展的规律,进而达到预测以后事情的发生的目的,对于农业、气象、地震灾害等等的预报可以起到至关重要的作用。多元统计分析的方法和机器学习、模式识别的方法是在数据挖掘中常用的一些方法。基于支持向量机(SVM)的特征选择算法SVM-RFE,是目前应用广泛且表现优越的特征选择算法之一。由于数据集中噪音的存在,往往影响SVM-RFE特征选择算法的性能。本文提出了一种使用ReliefF算法来辅助SVM对特征进行评价的方法。本文使用交叉验证的方法在数据集合上对这种SVM-ReliefF-RFE方法进行了测试,并与原始的SVM-RFE进行了比较。本文的方法的实验结果比SVM-RFE在平均准确率上至少提高0.66%,最多能提高3.60%,实验的结果表明利用ReliefF辅助SVM进行特征选择的方法能够更加有效的发现体现数据潜在信息的特征集合。接着,本文又提出了另一种两阶段的特征选择方法,通过第一个阶段采用人工变量对噪音进行过滤,首先将数据集中的噪音数据和不相关的数据进行滤除,滤噪之后的数据进入第二个阶段的SVM-RFE特征选择。通过实验测试,结果表明两阶段的方法比原始的SVM-RFE在分类预测准确率上有平均1.74%的提高。所选择的特征变量也具有显著性的差异。本文通过从两个不同的角度对原始数据进行滤噪,从分类的准确率上改进了原始SVM-RFE特征选择算法的性能,通过对所选特征子集的分析更进一步验证了本文所提方法的优越性。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-11
  1.1 数据挖掘  8-9
  1.2 本文的主要工作  9-11
2 数据挖掘技术  11-24
  2.1 统计学方法  11
  2.2 无监督的模式识别方法  11-13
  2.3 有监督的模式识别方法  13-17
    2.3.1 偏最小二乘判别分析  13-14
    2.3.2 支持向量机  14-17
  2.4 特征选择方法  17-23
    2.4.1 ReliefF特征选择方法  17-19
    2.4.2 SVM-RFE特征选择方法  19-23
  2.5 本章小结  23-24
3 SVM-ReliefF-RFE特征选择方法  24-35
  3.1 基于SVM-RFE和ReliefF的特征选择算法  24-25
  3.2 研究问题的背景及数据预处理方法  25-27
    3.2.1 研究背景  25-26
    3.2.2 样本数据信息  26
    3.2.3 数据预处理方法  26-27
  3.3 实验结果  27-32
    3.3.1 分类预测性能的比较  28-29
    3.3.2 PCA得分图  29-30
    3.3.3 潜在生物标记物分析  30-32
  3.4 SVM-ReliefF-RFE在其他数据集上的测试  32-34
  3.5 本章小结  34-35
4 基于人工变量滤噪和SVM-RFE的特征选择方法  35-47
  4.1 基于SVM的人工变量滤噪  35-37
  4.2 两阶段的特征选择方法  37
  4.3 实验结果分析与讨论  37-46
    4.3.1 实验数据的信息  37-38
    4.3.2 数据预处理  38
    4.3.3 分类预测性能的比较  38-42
    4.3.4 两阶段方法选择的特征分析  42-46
  4.4 本章小结  46-47
结论  47-48
参考文献  48-50
攻读硕士学位期间发表学术论文情况  50-51
致谢  51-52

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  4. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  5. 音乐结构自动分析研究,TN912.3
  6. 基于三维重建的焊点质量分类方法研究,TP391.41
  7. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  8. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  9. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  10. 基于图像的路面破损识别,TP391.41
  11. 基于支持向量机的故障诊断方法研究,TP18
  12. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  13. 基于数据挖掘技术的保健品营销研究,F426.72
  14. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  15. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  16. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  17. Bicluster数据分析软件设计与实现,TP311.52
  18. 基于变异粒子群的聚类算法研究,TP18
  19. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  20. 基于遗传算法和粗糙集的聚类算法研究,TP18
  21. 基于车载3D加速传感器的路况监测研究,TP274

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com