学位论文 > 优秀研究生学位论文题录展示

随机森林改进的若干研究

作 者: 李贞贵
导 师: 罗林开
学 校: 厦门大学
专 业: 模式识别与智能系统
关键词: 随机森林 相似度矩阵 分类间隔 加权
分类号: TP181
类 型: 硕士论文
年 份: 2013年
下 载: 5次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在机器学习领域,随机森林是一种重要和常见的数据挖掘方法。随机森林不仅具有很高的分类性能,而且具有需要调整的参数较少、运算快速高效、不用担心过拟合以及较强的容忍噪声能力等特点。随机性能良好的性能使得其在智能信息处理、生物信息学、金融学、故障诊断、图像识别、工业自动化等领域得到了广泛的应用并取得巨大的成功,吸引了人们的广泛关注。虽然许多学者对随机森林进行了广泛的研究,并且取得了许多显著的成果,但是随机森林仍然存在一些局限和不足,拥有一些可改进的空间。本文首先对随机森林样本相似度的计算方式进行改进,提出了样本相似度计算的改进算法。与原始方法相比,改进方法增加了叶子节点路径距离的度量,更精确地度量了样本间的相似性。在基于样本相似度的分类和异常点检测应用中,通过在UCI数据集上的实验对比,改进方法均取得了比原来方法更好的效果,表明了改进方法的有效性。本文还分析了分类器的分类间隔(margin)与泛化能力的关系,提出了基于分类间隔加权的随机森林修剪算法(MB-WRF)。在每一次的剪枝中,首先计算每一棵树对分类间隔(margin)的重要性,删除重要性最小的树后,重新计算剩余每一棵树对分类间隔的重要性,以重要性对每一棵树赋予不同的权重,并与传统的随机森林做对比分析。基因数据和UCI数据上的对比实验表明MB-WRF取得了比RF更好的分类效果和更小的森林规模。

全文目录


摘要  4-5
Abstract  5-9
CONTENTS  9-11
第一章 绪论  11-17
  1.1 课题研究背景及意义  11-12
  1.2 研究现状概述  12-15
  1.3 论文主要工作  15-16
  1.4 论文组织安排  16-17
第二章 随机森林原理简介  17-28
  2.1 集成学习  17-20
    2.1.1 集成学习简介  17-19
    2.1.2 Bagging和Boosting算法  19-20
  2.2 决策树  20-22
    2.2.1 决策树简介  20-21
    2.2.2 分类回归树(CART)  21-22
  2.3 随机森林原理概述  22-27
    2.3.1 随机森林的定义  23
    2.3.2 随机森林算法  23-24
    2.3.3 随机森林的泛化误差  24-26
    2.3.4 样本相似度矩阵  26-27
  2.4 随机森林的特点  27
  2.5 本章小结  27-28
第三章 随机森林样本相似度的改进研究  28-42
  3.1 随机森林样本相似度计算的改进  28-31
  3.2 基于改进样本相似度的分类  31-37
    3.2.1 实验方案和参数设置  31-32
    3.2.2 实验结果与分析  32-37
  3.3 基于改进样本相似度的异常点检测研究  37-41
    3.3.1 实验方案和参数设置  38-39
    3.3.2 实验结果与分析  39-41
  3.4 本章小结  41-42
第四章 基于分类间隔加权的随机森林研究  42-55
  4.1 分类间隔研究简述  42-43
  4.2 基于分类间隔加权的随机森林  43-45
  4.3 实验与分析  45-54
    4.3.1 实验数据说明  45-46
    4.3.2 实验方案与参数设置  46-47
    4.3.3 实验结果与分析  47-54
  4.4 本章小结  54-55
第五章 总结与展望  55-57
  5.1 全文总结  55-56
  5.2 存在的问题和进一步的研究工作  56-57
参考文献  57-63
附录  63-64
致谢  64

相似论文

  1. 基于随机森林的植物抗性基因识别方法研究,Q943
  2. 背景抑制磁共振全身弥散加权成像(DWIBS)与hPET/CT临床价值对比研究,R445.2
  3. 3.0T高场磁共振对中央型肺癌的初步研究,R734.2
  4. 基于视频的运动目标检测与跟踪方法应用研究,TP391.41
  5. 虹膜定位算法的研究,TP391.41
  6. 基于粗糙集理论的文本分类研究,TP18
  7. 磁敏感成像在出血性脑梗死中的诊断价值,R743.3
  8. 3.0TMRDWI和MRS在宫颈癌诊疗中的价值研究,R445.2
  9. 磁共振弥散加权成像在早期强直性脊柱炎评价中的应用,R593.23
  10. 基于特征加权连续隐马尔可夫模型的故障诊断方法研究,TH165.3
  11. 基于深度图像学习的人体部位识别,TP391.41
  12. 变电站光伏发电系统的电能质量研究,TM615
  13. 三维高密点地震信号数字组合技术研究,TP301.6
  14. 基于图论算法的电网高速分布式过程状态估计,TM712
  15. 中轴型脊柱关节病活动性骶髂关节炎DWI、~1H-MRS成像意义初探,R445.2
  16. 序列标注的在线算法研究,TP391.1
  17. 相依序列的重对数律及几乎处处收敛性,O211.4
  18. 求解大规模非对称矩阵特征值问题的加权Arnoldi方法,O241.6
  19. 基于Pareto最优的悬架参数多目标优化,U463.33
  20. 高光谱影像混合像元分解技术研究,TP751
  21. MRI在测量胎儿胼胝体各径线中的应用研究,R714.5

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com