学位论文 > 优秀研究生学位论文题录展示
朴素贝叶斯分类器的集成学习方法研究
作 者: 郝丽锋
导 师: 李凯
学 校: 河北大学
专 业: 计算机应用
关键词: 朴素贝叶斯学习 集成学习 选择性集成 ORACLE策略
分类号: TP181
类 型: 硕士论文
年 份: 2009年
下 载: 150次
引 用: 1次
阅 读: 论文下载
内容摘要
分类方法是机器学习、模式识别和数据挖掘等研究的核心问题,它在图像识别、语音理解、自然语言处理、医疗诊断及Web页面的分类目录等领域具有广泛的应用。自20世纪90年代后,集成学习(Ensemble Learning)逐渐成为机器学习新的研究方向,它是通过将多个学习系统的学习结果以某种方式融合,以此来提高学习系统的性能。通常,集成学习主要用于不稳定的学习算法,如决策树、神经网络等。由于集成学习能够提高学习系统的泛化能力,最近,人们开始将集成学习用于稳定的学习算法。本文研究了朴素贝叶斯分类器的集成方法。由于朴素贝叶斯是一种稳定的学习方法,为了应用集成学习,通过随机Oracle方法破坏其稳定性,利用熵差异性度量研究了朴素贝叶斯集成的差异性。在此基础上,进一步研究了基于选择策略的朴素贝叶斯集成,提出了两种基于Oracle的朴素贝叶斯选择性集成算法,实验验证了这些算法的分类性能,结果表明该学习算法显著提高了朴素贝叶斯分类的正确率,同时也表明这些算法在一定程度上优于Bagging和AdbBoost集成。最后,本文研究了连续属性数据的不同离散化方法,分析研究了不同离散化方法的特性,实验研究了三种离散化方法对朴素贝叶斯选择性集成算法的影响。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-13 1.1 研究背景与意义 10-11 1.2 国内外研究现状 11-12 1.3 研究内容 12 1.4 论文组织 12-13 第2章 预备知识 13-22 2.1 朴素贝叶斯分类 13-16 2.1.1 条件概率和乘法定理 13 2.1.2 全概率公式和贝叶斯定理 13-14 2.1.3 极大后验假设与极大似然假设 14 2.1.4 事件的独立性 14-15 2.1.5 朴素贝叶斯分类原理 15-16 2.1.6 朴素贝叶斯分类器的优缺点 16 2.2 集成学习 16-19 2.2.1 集成学习概念 16 2.2.2 集成学习的构成方法 16-17 2.2.3 集成学习的作用 17-18 2.2.4 Bagging算法 18-19 2.3 随机ORACLE算法 19-22 2.3.1 随机Oracle集成器 19-20 2.3.2 随机Oracle效率分析 20-22 第3章 朴素贝叶斯集成学习的差异性 22-29 3.1 集成学习的差异性 22-24 3.1.1 简单差异性(The plain disagreement) 22-23 3.1.2 Fail/Non-Fail差异性 23 3.1.3 Q统计 23 3.1.4 相关系数(The correlation coefficient) 23-24 3.1.5 熵差异性 24 3.2 朴素贝叶斯集成 24 3.3 基于随机ORACLE的朴素贝叶斯集成差异性 24-28 3.3.1 朴素贝叶斯集成算法 25-26 3.3.2 基于随机Oracle的朴素贝叶斯差异性实验研究 26 3.3.3 实验结果及分析 26-28 3.4 本章小结 28-29 第4章 基于ORACLE选择的朴素贝叶斯集成算法 29-39 4.1 选择性集成 29 4.2 选择性集成算法 29-33 4.2.1 选择性集成的理论基础 29-31 4.2.2 GASEN算法 31-32 4.2.3 CLUSEN算法 32-33 4.3 基于爬山法的朴素贝叶斯集成算法 33-35 4.3.1 基于爬山法的朴素贝叶斯集成算法原理 33-34 4.3.2 基于爬山法的朴素贝叶斯集成算法实验研究 34-35 4.4 基于ORACLE贪心选择的朴素贝叶斯集成算法 35-38 4.4.1 基于Oracle贪心选择的朴素贝叶斯集成算法原理 35-36 4.4.2 基于Oracle贪心选择的朴素贝叶斯集成算法实验研究 36-38 4.5 本章小结 38-39 第5章 连续数据的离散化 39-43 5.1 离散化方法 39-41 5.1.1 等宽离散法(EWD) 39 5.1.2 等频离散法(EFD) 39-40 5.1.3 最小熵离散化方法(EPD) 40-41 5.2 算法实验研究 41-42 5.3 本章小结 42-43 第6章 总结与展望 43-44 6.1 本文总结 43 6.2 工作展望 43-44 参考文献 44-47 攻读硕士学位期间发表论文情况 47-48 致谢 48
|
相似论文
- 基于数据挖掘算法的蛋白质相互作用及其活性位点研究,TP311.13
- 基于基因表达谱的肿瘤分类方法研究,R730.2
- 基于集成学习的垃圾短信多级分类技术研究,TN929.53
- 集成学习算法研究,TP181
- 基于专家委员会的主动学习算法研究,TP181
- 集成学习及其应用研究,TP181
- 基于粒子群优化算法的支持向量机集成学习方法研究,TP181
- 基于多任务的多层次选择性集成学习的研究,TP181
- 决策森林的子空间选择和集成优化,TP181
- 基于半监督分类的入侵检测系统模型研究,TP393.08
- 支持向量机算法设计及在高分辨雷达目标识别中的应用,TN957.52
- 基于集成代价敏感分类方法的客户流失预测研究,F274
- 基于混沌和SVR的短时交通流预测方法研究,U491.112
- 基于组合抽样技术的集成学习算法研究与应用,TP181
- PU数据流挖掘研究,TP18
- 文本分类的特征选择和分类方法研究,TP391.1
- 基于支持向量机与集成学习的纹理合成及分类,TP391.41
- 基于集成学习的语音信息隐藏分析技术研究,TP309
- 不均衡数据集的研究及其在蛋白质相互作用位点预测中的应用,TP311.13
- 基于重取样技术的人脸识别方法研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|