学位论文 > 优秀研究生学位论文题录展示

基于Boosting技术的显露模式集成分类算法

作 者: 张丽
导 师: 杨胜; 彭述东
学 校: 湖南大学
专 业: 计算机技术
关键词: 数据挖掘 分类技术 显露模式 集成学习方法
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 20次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着数据信息规模的日益膨胀,数据挖掘技术应运而生,数据挖掘是一种从大量的数据中挖掘和提取有用知识的技术。作为一种重要的数据分析和处理方式,分类问题多年来一直是机器学习、模式识别和统计学领域的一个重要研究课题,目前也成为数据挖掘的一个重要任务。由于分类技术有着广泛的应用前景,研究人员提出了很多的分类方法。研究发现,现有的各种分类方法都有各自的优点与不足;另外各种分类算法都不是孤立的,它们之间可以彼此借鉴,实际应用中性能良好的分类问题解决方案往往是多种分类方法综合作用的结果。基于上述研究结论,我们提出使用集成学习方法对分类器进行集成组合,来实现提高分类器分类精度的目的。围绕这一构想,我们对显露模式这一简单直观的知识模式进行了深入探讨。显露模式是指那些从一个数据集到另一个数据集支持度发生显著变化的项集,这些项集能够捕获目标类和非目标类上多组属性之间的不同,具有很好的区分性。由于显露模式的上述优势,我们选择基于显露模式来构建本文提出的集成分类算法的基分类器。本文选择基于Boosting学习方法来对构建的基分类器进行集成组合。提出了一种基于Boosting技术的显露模式集成分类算法。在选定的基准数据集上的实验测试结果显示,提出的基于Boosting技术的显露模式集成分类算法取得了总体上优于C4.5、CBA、CAEP以及NB等优秀分类算法的分类精度,并且取得了比基于Bagging学习方法构建的显露模式集成分类算法性能更好的分类结果。此外,实验结果还验证了基于Boosting技术对多个分类器进行集成组合可以提高单个分类器的分类性能。

全文目录


摘要  4-5
Abstract  5-7
目录  7-9
插图索引  9-10
附表索引  10-11
第1章 引言  11-16
  1.1 数据挖掘概述  11-13
  1.2 研究背景及动机  13-14
  1.3 本文研究内容及组织结构  14-16
第2章 分类技术  16-26
  2.1 分类问题描述  16-18
  2.2 分类算法性能评估  18-20
    2.2.1 分类精度评估  18-19
    2.2.2 其他分类算法评估标准  19-20
  2.3 分类的基本方法  20-25
    2.3.1 贝叶斯分类  20-21
    2.3.2 基于决策树的分类  21-23
    2.3.3 源于关联规则的分类  23-24
    2.3.4 K-近邻分类方法  24
    2.3.5 神经网络分类方法  24-25
    2.3.6 其他分类算法  25
  2.4 小结  25-26
第3章 显露模式分类  26-32
  3.1 基本概念介绍  26-27
  3.2 显露模式的特性  27-28
  3.3 显露模式挖掘  28-29
  3.4 基于显露模式的分类方法  29-31
  3.5 小结  31-32
第4章 集成学习  32-38
  4.1 集成学习的概念  32-33
  4.2 Boosting  33
  4.3 Bagging  33-34
  4.4 分类器集成  34-37
    4.4.1 集成学习基本原理  34-35
    4.4.2 构建组合分类器的方法  35-37
  4.5 小结  37-38
第5章 基于 Boosting 技术的显露模式集成分类算法  38-47
  5.1 算法的提出  38-39
  5.2 基分类器构造  39-43
    5.2.1 基本显露模式的优势  39-40
    5.2.2 基本显露模式的挖掘  40-42
    5.2.3 基于基本显露模式构造基分类器  42-43
  5.3 算法实现  43-46
    5.3.1 算法思想  44
    5.3.2 基分类器权重的计算  44-45
    5.3.3 算法描述  45-46
  5.4 小结  46-47
第6章 实验测试与结果分析  47-51
  6.1 实验环境与测试目的  47
  6.2 实验结果与分析  47-50
  6.3 小结  50-51
结论  51-52
参考文献  52-57
致谢  57-58

相似论文

  1. 基于数据挖掘技术的保健品营销研究,F426.72
  2. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  3. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  4. Bicluster数据分析软件设计与实现,TP311.52
  5. 基于变异粒子群的聚类算法研究,TP18
  6. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  7. 基于遗传算法和粗糙集的聚类算法研究,TP18
  8. 基于数据挖掘的税务稽查选案研究,F812.42
  9. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  10. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  11. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  12. 基于行业参数优化模型的投资项目决策支持系统,F283
  13. 数据集市在电信经营分析中的应用研究,TP311.13
  14. 数据挖掘在高职院校学生成绩分析中的应用,TP311.13
  15. 基于数据挖掘的个性化在线教学辅助系统的研究与设计,TP311.13
  16. 基于数据挖掘的课程考核与分析决策系统的设计和实现,TP311.13
  17. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  18. 教学质量评估数据挖掘系统设计与开发,TP311.13
  19. 关联规则挖掘在交通事故成因分析中的应用,U491.31
  20. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  21. 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com