学位论文 > 优秀研究生学位论文题录展示

朴素贝叶斯分类器的集成学习方法研究

作 者: 郝丽锋
导 师: 李凯
学 校: 河北大学
专 业: 计算机应用
关键词: 朴素贝叶斯学习 集成学习 选择性集成 ORACLE策略
分类号: TP181
类 型: 硕士论文
年 份: 2009年
下 载: 150次
引 用: 1次
阅 读: 论文下载
 

内容摘要


分类方法是机器学习、模式识别和数据挖掘等研究的核心问题,它在图像识别、语音理解、自然语言处理、医疗诊断及Web页面的分类目录等领域具有广泛的应用。自20世纪90年代后,集成学习(Ensemble Learning)逐渐成为机器学习新的研究方向,它是通过将多个学习系统的学习结果以某种方式融合,以此来提高学习系统的性能。通常,集成学习主要用于不稳定的学习算法,如决策树、神经网络等。由于集成学习能够提高学习系统的泛化能力,最近,人们开始将集成学习用于稳定的学习算法。本文研究了朴素贝叶斯分类器的集成方法。由于朴素贝叶斯是一种稳定的学习方法,为了应用集成学习,通过随机Oracle方法破坏其稳定性,利用熵差异性度量研究了朴素贝叶斯集成的差异性。在此基础上,进一步研究了基于选择策略的朴素贝叶斯集成,提出了两种基于Oracle的朴素贝叶斯选择性集成算法,实验验证了这些算法的分类性能,结果表明该学习算法显著提高了朴素贝叶斯分类的正确率,同时也表明这些算法在一定程度上优于Bagging和AdbBoost集成。最后,本文研究了连续属性数据的不同离散化方法,分析研究了不同离散化方法的特性,实验研究了三种离散化方法对朴素贝叶斯选择性集成算法的影响。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-13
  1.1 研究背景与意义  10-11
  1.2 国内外研究现状  11-12
  1.3 研究内容  12
  1.4 论文组织  12-13
第2章 预备知识  13-22
  2.1 朴素贝叶斯分类  13-16
    2.1.1 条件概率和乘法定理  13
    2.1.2 全概率公式和贝叶斯定理  13-14
    2.1.3 极大后验假设与极大似然假设  14
    2.1.4 事件的独立性  14-15
    2.1.5 朴素贝叶斯分类原理  15-16
    2.1.6 朴素贝叶斯分类器的优缺点  16
  2.2 集成学习  16-19
    2.2.1 集成学习概念  16
    2.2.2 集成学习的构成方法  16-17
    2.2.3 集成学习的作用  17-18
    2.2.4 Bagging算法  18-19
  2.3 随机ORACLE算法  19-22
    2.3.1 随机Oracle集成器  19-20
    2.3.2 随机Oracle效率分析  20-22
第3章 朴素贝叶斯集成学习的差异性  22-29
  3.1 集成学习的差异性  22-24
    3.1.1 简单差异性(The plain disagreement)  22-23
    3.1.2 Fail/Non-Fail差异性  23
    3.1.3 Q统计  23
    3.1.4 相关系数(The correlation coefficient)  23-24
    3.1.5 熵差异性  24
  3.2 朴素贝叶斯集成  24
  3.3 基于随机ORACLE的朴素贝叶斯集成差异性  24-28
    3.3.1 朴素贝叶斯集成算法  25-26
    3.3.2 基于随机Oracle的朴素贝叶斯差异性实验研究  26
    3.3.3 实验结果及分析  26-28
  3.4 本章小结  28-29
第4章 基于ORACLE选择的朴素贝叶斯集成算法  29-39
  4.1 选择性集成  29
  4.2 选择性集成算法  29-33
    4.2.1 选择性集成的理论基础  29-31
    4.2.2 GASEN算法  31-32
    4.2.3 CLUSEN算法  32-33
  4.3 基于爬山法的朴素贝叶斯集成算法  33-35
    4.3.1 基于爬山法的朴素贝叶斯集成算法原理  33-34
    4.3.2 基于爬山法的朴素贝叶斯集成算法实验研究  34-35
  4.4 基于ORACLE贪心选择的朴素贝叶斯集成算法  35-38
    4.4.1 基于Oracle贪心选择的朴素贝叶斯集成算法原理  35-36
    4.4.2 基于Oracle贪心选择的朴素贝叶斯集成算法实验研究  36-38
  4.5 本章小结  38-39
第5章 连续数据的离散化  39-43
  5.1 离散化方法  39-41
    5.1.1 等宽离散法(EWD)  39
    5.1.2 等频离散法(EFD)  39-40
    5.1.3 最小熵离散化方法(EPD)  40-41
  5.2 算法实验研究  41-42
  5.3 本章小结  42-43
第6章 总结与展望  43-44
  6.1 本文总结  43
  6.2 工作展望  43-44
参考文献  44-47
攻读硕士学位期间发表论文情况  47-48
致谢  48

相似论文

  1. 基于数据挖掘算法的蛋白质相互作用及其活性位点研究,TP311.13
  2. 基于基因表达谱的肿瘤分类方法研究,R730.2
  3. 基于集成学习的垃圾短信多级分类技术研究,TN929.53
  4. 集成学习算法研究,TP181
  5. 基于专家委员会的主动学习算法研究,TP181
  6. 集成学习及其应用研究,TP181
  7. 基于粒子群优化算法的支持向量机集成学习方法研究,TP181
  8. 基于多任务的多层次选择性集成学习的研究,TP181
  9. 决策森林的子空间选择和集成优化,TP181
  10. 基于半监督分类的入侵检测系统模型研究,TP393.08
  11. 支持向量机算法设计及在高分辨雷达目标识别中的应用,TN957.52
  12. 基于集成代价敏感分类方法的客户流失预测研究,F274
  13. 基于混沌和SVR的短时交通流预测方法研究,U491.112
  14. 基于组合抽样技术的集成学习算法研究与应用,TP181
  15. PU数据流挖掘研究,TP18
  16. 文本分类的特征选择和分类方法研究,TP391.1
  17. 基于支持向量机与集成学习的纹理合成及分类,TP391.41
  18. 基于集成学习的语音信息隐藏分析技术研究,TP309
  19. 不均衡数据集的研究及其在蛋白质相互作用位点预测中的应用,TP311.13
  20. 基于重取样技术的人脸识别方法研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com