学位论文 > 优秀研究生学位论文题录展示

随机森林特征选择

作 者: 王全才
导 师: 林晓惠
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 随机森林 特征选择 代谢组学 数据挖掘 机器学习
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 385次
引 用: 0次
阅 读: 论文下载
 

内容摘要


现如今,数据规模快速增长,使得如何从繁杂无序的数据中提取有用信息,成为摆在大家面前的一个课题。数据挖掘技术应运而生,凭借其优越性能已经被广泛的应用于复杂数据的分析。同时,机器学习技术日趋成熟和完善,越来越多的机器学习方法被应用到数据挖掘问题中。利用机器学习中的虑噪、特征选择等技术,可以有效的从大量繁杂数据中获取有价值的信息,这可以为后续分析研究打下坚实的基础。随机森林是一种优秀的机器学习方法,已经被成功的应用于许多领域。随机森林不仅可以解决分类问题和回归问题,在特征选择领域已经引起越来越多的关注。本文基于随机森林模型,针对其在代谢组学数据分析中的应用,进行了大量的研究。为了克服噪音数据对随机森林分类正确率的干扰,通过借助人工对照变量虑噪的方法,可以提高分类正确率。随机森林是通过对特征进行重要性度量的方式实现特征选择的,然而,简单的一次评分是不够的,因为有很大的随机成分,结合处理对象所属领域自身的特点,本文给出了一种有限制的迭代评价的随机森林特征选择方法。另外,特征选择结果的优劣,在很大程度上依赖于处理策略的设计,这不仅包含了处理流程策略的设计,还包括了模型构建策略的设计。最后,为了充分利用多种机器学习方法各自的优点,尽可能全面的理解处理对象,本文还提出了一种新的集成数据处理策略,把随机森林、支持向量机和遗传算法集成到一起。本文以随机森林为研究焦点,把其应用于代谢组学数据处理。代谢组学是生物信息学四大组学之一,代谢组学技术可以肯定身体已经发生的变化,这对疾病的诊断以及治疗有极其重要的意义。用人工对照变量辅助删除噪音时,构建的随机森林分类模型正确率由90.7%提高到94.4%;用迭代的随机森林特征度量方式特征选择时,五组正确率均很高,提取出18个可定性的重要特征;用多种方法集成处理数据时,模型的分类正确率均为100%,同时提取出31个重要特征。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-14
  1.1 随机森林背景及发展现状  8-9
  1.2 特征选择技术简介  9-11
  1.3 代谢组学数据分析简介  11-12
  1.4 本章小结  12-14
2 随机森林及特征选择  14-22
  2.1 随机森林基本原理  14-17
    2.1.1 决策树  14-15
    2.1.2 随机森林  15-17
  2.2 随机森林的应用  17
  2.3 特征选择概述  17-18
  2.4 随机森林用于特征选择  18-20
  2.5 随机森林在代谢组学数据上的应用  20-21
  2.6 本章小结  21-22
3 融入新技术的随机森林特征选择技术  22-37
  3.1 结合人工对照变量的随机森林  22-26
    3.1.1 人工对照变量  22-24
    3.1.2 在色谱-质谱联用肝病数据上的应用  24-26
  3.2 迭代的随机森林特征选择  26-36
    3.2.1 迭代的特征评价(Recursive Feature Elimination,RFE)  26-28
    3.2.2 在液相反相正离子肝病数据上的应用  28-36
  3.3 本章小结  36-37
4 一种集成的特征选择方法  37-49
  4.1 多种机器学习方法的集成  37-38
  4.2 支持向量机  38-39
  4.3 遗传算法  39
  4.4 多种方法集成在时间序列数据上的应用  39-47
  4.5 本章小结  47-49
结论  49-50
参考文献  50-53
攻读硕士学位期间发表学术论文情况  53-54
致谢  54-55

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 唇读中的特征提取、选择与融合,TP391.41
  3. 脑梗塞血瘀证的肽组学和代谢组学初步研究,R277.7
  4. 基于质谱的雷公藤甲素肝脏毒性代谢组学研究,R285
  5. 基于数据挖掘技术的保健品营销研究,F426.72
  6. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  7. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  8. 基于随机森林的植物抗性基因识别方法研究,Q943
  9. Bicluster数据分析软件设计与实现,TP311.52
  10. 基于变异粒子群的聚类算法研究,TP18
  11. 语音情感识别的特征选择与特征产生,TP18
  12. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  13. 基于遗传算法和粗糙集的聚类算法研究,TP18
  14. 基于数据挖掘的税务稽查选案研究,F812.42
  15. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  16. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  17. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  18. 教学质量评估数据挖掘系统设计与开发,TP311.13
  19. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  20. 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
  21. 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com