学位论文 > 优秀研究生学位论文题录展示
随机森林改进的若干研究
作 者: 李贞贵
导 师: 罗林开
学 校: 厦门大学
专 业: 模式识别与智能系统
关键词: 随机森林 相似度矩阵 分类间隔 加权
分类号: TP181
类 型: 硕士论文
年 份: 2013年
下 载: 5次
引 用: 0次
阅 读: 论文下载
内容摘要
在机器学习领域,随机森林是一种重要和常见的数据挖掘方法。随机森林不仅具有很高的分类性能,而且具有需要调整的参数较少、运算快速高效、不用担心过拟合以及较强的容忍噪声能力等特点。随机性能良好的性能使得其在智能信息处理、生物信息学、金融学、故障诊断、图像识别、工业自动化等领域得到了广泛的应用并取得巨大的成功,吸引了人们的广泛关注。虽然许多学者对随机森林进行了广泛的研究,并且取得了许多显著的成果,但是随机森林仍然存在一些局限和不足,拥有一些可改进的空间。本文首先对随机森林样本相似度的计算方式进行改进,提出了样本相似度计算的改进算法。与原始方法相比,改进方法增加了叶子节点路径距离的度量,更精确地度量了样本间的相似性。在基于样本相似度的分类和异常点检测应用中,通过在UCI数据集上的实验对比,改进方法均取得了比原来方法更好的效果,表明了改进方法的有效性。本文还分析了分类器的分类间隔(margin)与泛化能力的关系,提出了基于分类间隔加权的随机森林修剪算法(MB-WRF)。在每一次的剪枝中,首先计算每一棵树对分类间隔(margin)的重要性,删除重要性最小的树后,重新计算剩余每一棵树对分类间隔的重要性,以重要性对每一棵树赋予不同的权重,并与传统的随机森林做对比分析。基因数据和UCI数据上的对比实验表明MB-WRF取得了比RF更好的分类效果和更小的森林规模。
|
全文目录
摘要 4-5 Abstract 5-9 CONTENTS 9-11 第一章 绪论 11-17 1.1 课题研究背景及意义 11-12 1.2 研究现状概述 12-15 1.3 论文主要工作 15-16 1.4 论文组织安排 16-17 第二章 随机森林原理简介 17-28 2.1 集成学习 17-20 2.1.1 集成学习简介 17-19 2.1.2 Bagging和Boosting算法 19-20 2.2 决策树 20-22 2.2.1 决策树简介 20-21 2.2.2 分类回归树(CART) 21-22 2.3 随机森林原理概述 22-27 2.3.1 随机森林的定义 23 2.3.2 随机森林算法 23-24 2.3.3 随机森林的泛化误差 24-26 2.3.4 样本相似度矩阵 26-27 2.4 随机森林的特点 27 2.5 本章小结 27-28 第三章 随机森林样本相似度的改进研究 28-42 3.1 随机森林样本相似度计算的改进 28-31 3.2 基于改进样本相似度的分类 31-37 3.2.1 实验方案和参数设置 31-32 3.2.2 实验结果与分析 32-37 3.3 基于改进样本相似度的异常点检测研究 37-41 3.3.1 实验方案和参数设置 38-39 3.3.2 实验结果与分析 39-41 3.4 本章小结 41-42 第四章 基于分类间隔加权的随机森林研究 42-55 4.1 分类间隔研究简述 42-43 4.2 基于分类间隔加权的随机森林 43-45 4.3 实验与分析 45-54 4.3.1 实验数据说明 45-46 4.3.2 实验方案与参数设置 46-47 4.3.3 实验结果与分析 47-54 4.4 本章小结 54-55 第五章 总结与展望 55-57 5.1 全文总结 55-56 5.2 存在的问题和进一步的研究工作 56-57 参考文献 57-63 附录 63-64 致谢 64
|
相似论文
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 背景抑制磁共振全身弥散加权成像(DWIBS)与hPET/CT临床价值对比研究,R445.2
- 3.0T高场磁共振对中央型肺癌的初步研究,R734.2
- 基于视频的运动目标检测与跟踪方法应用研究,TP391.41
- 虹膜定位算法的研究,TP391.41
- 基于粗糙集理论的文本分类研究,TP18
- 磁敏感成像在出血性脑梗死中的诊断价值,R743.3
- 3.0TMRDWI和MRS在宫颈癌诊疗中的价值研究,R445.2
- 磁共振弥散加权成像在早期强直性脊柱炎评价中的应用,R593.23
- 基于特征加权连续隐马尔可夫模型的故障诊断方法研究,TH165.3
- 基于深度图像学习的人体部位识别,TP391.41
- 变电站光伏发电系统的电能质量研究,TM615
- 三维高密点地震信号数字组合技术研究,TP301.6
- 基于图论算法的电网高速分布式过程状态估计,TM712
- 中轴型脊柱关节病活动性骶髂关节炎DWI、~1H-MRS成像意义初探,R445.2
- 序列标注的在线算法研究,TP391.1
- 相依序列的重对数律及几乎处处收敛性,O211.4
- 求解大规模非对称矩阵特征值问题的加权Arnoldi方法,O241.6
- 基于Pareto最优的悬架参数多目标优化,U463.33
- 高光谱影像混合像元分解技术研究,TP751
- MRI在测量胎儿胼胝体各径线中的应用研究,R714.5
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|