学位论文 > 优秀研究生学位论文题录展示

决策树分类算法的改进及其应用研究

作 者: 潘永丽
导 师: 王元亮
学 校: 云南财经大学
专 业: 计算机应用技术
关键词: ID3算法 多值偏向 权值函数 ID3优化算法 学员续费
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 130次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着人们对数据挖掘理论的不断探讨和研究,数据挖掘技术在各行各业中的应用日趋广泛和成熟。在诸多的数据挖掘技术和方法中,决策树方法是用于数据分类和预测领域的重要方法之一,它是一种以实例为基础的归纳式学习算法,从一组无次序、无规则的实例中推理出决策树形式的分类规则,进而预测未知数据。ID3算法是决策树构造方法中最为常用的实现方法,它在数据分类和预测领域得到广泛应用,然而,在实际应用中,发现ID3算法存在很多不足之处。因此,本文重点研究决策树方法中的ID3算法,分析ID3及其改进算法的优缺点,给出合理的优化方案,以完善ID3算法,使其具有更好地分类效果。具体的优化方案主要体现在以下两个方面:第一,简化ID3算法的启发式函数。本文通过近似值的方法,对ID3算法的信息增益公式进行近似推导,消除其中复杂的对数运算,最终得到适用于多类的、具有通用性和一般性的简化启发式函数。新的ID3简化算法选择信息增益最小的属性作为测试属性,在计算信息增益时,避免了对数运算,只包含计算机较易处理的基本运算符号,所以,在一定程度上减少了选取最优属性的计算量,提高了算法的执行效率。第二,解决ID3算法的多值偏向问题。本文引入权值函数的概念从根本上克服ID3算法的多值偏向问题。其核心思想是:通过引入基于属性取值个数的单调权值函数,为不同属性自动分配不同权值,以权衡属性取值个数与信息增益之间的关系,进而得到新的最优属性选取标准。通过实例分析和算法比较,改进后的ID3算法选取的测试属性更为合理,进而从形成的决策树中提取的规则更为符合人们的实际需求。最后,本文通过一个实例实现了ID3优化算法在学员续费决策问题中的应用。根据学员分类应用流程,将学员基本信息表和学员反馈信息表整合而成的新数据集作为ID3优化算法的挖掘样本集合,最终形成决策树,并从中提取出知识规则。利用从大量学员相关数据背后挖掘出的知识规则可以辅助企业管理者更准确的做出判断和决策,提高了企业效益。

全文目录


摘要  4-6
Abstract  6-10
第一章 绪论  10-17
  第一节 课题研究背景  10-11
  第二节 国内外相关课题研究现状  11-15
    一、国外决策树方法发展历程  11-13
    二、国内决策树方法研究现状  13-15
  第三节 课题研究内容及意义  15-16
  第四节 论文组织结构  16-17
第二章 数据挖掘与决策树方法  17-30
  第一节 数据挖掘综述  17-24
    一、数据挖掘的概念  17-18
    二、数据挖掘的分类  18-19
    三、数据挖掘的特点  19-20
    四、数据挖掘的步骤  20-22
    五、数据挖掘技术和方法  22-24
  第二节 决策树方法  24-29
    一、决策树的基本概念  24-25
    二、决策树的表示形式  25
    三、决策树的生成原理  25-27
    四、决策树的剪枝处理  27-28
    五、提取决策规则  28-29
  第三节 本章小结  29-30
第三章 ID3 算法的研究与优化方案  30-41
  第一节 ID3 算法的研究  30-36
    一、ID3 算法的基本原理  30-31
    二、ID3 算法描述  31-32
    三、ID3 算法实例  32-36
  第二节 ID3 算法的分析  36-39
    一、ID3 算法的优缺点  36-38
    二、ID3 改进算法分析  38-39
  第三节 ID3 算法的优化方案  39-40
  第四节 本章小结  40-41
第四章 ID3 算法的优化  41-59
  第一节 优化算法的理论支持  41-46
    一、简化算法理论基础  41-43
    二、多值偏向理论分析  43-46
  第二节 ID3 优化算法研究  46-51
    一、ID3 简化算法  46-48
    二、ID3 改进算法  48-51
  第三节 ID3 优化算法实例分析  51-58
    一、ID3 简化算法分析  51-55
    二、ID3 改进算法分析  55-58
  第四节 本章小结  58-59
第五章 ID3 优化算法在学员续费决策问题中的应用  59-66
  第一节 需求分析  59-60
  第二节 问题定义  60-61
  第三节 数据准备工作  61-63
  第四节 建立分类模型  63-64
  第五节 提取规则和预测未来  64-65
  第六节 本章小结  65-66
第六章 总结与展望  66-68
  第一节 论文工作总结  66-67
  第二节 后续工作展望  67-68
参考文献  68-72
致谢  72-73
本人在读期间发表的研究成果  73

相似论文

  1. 基于学生评教数据挖掘与教学质量分析系统的研究,TP311.13
  2. 基于三层架构的建筑材料租赁系统设计与实现,TP311.52
  3. 基于决策树的短期负荷预测系统研究与实现,TM715
  4. 数据挖掘技术在通话信息中的应用研究,TP311.13
  5. 数据挖掘在计算机辅助诊断中的应用研究,TP311.13
  6. 决策树的启发式模式研究及其在属性约简中的应用,TP18
  7. WEB日志数据挖掘的研究和实现,TP311.13
  8. 面向就业的高校学生信息系统的设计与实现,TP311.52
  9. 数据挖掘技术在公安情报分析中的应用研究,TP311.13
  10. 数据挖掘技术在客户关系管理(CRM)中的应用,TP311.13
  11. 面向校园网日志分析的web数据挖掘技术研究,TP311.13
  12. 基于决策树的数据挖掘技术在口腔诊疗中的应用,TP311.13
  13. 基于决策树的数据挖掘算法的研究及其在实际中的应用,TP311.13
  14. 决策树分类优化算法的研究,TP301.6
  15. ID3算法的优化研究及其在构件库中的应用,TP311.13
  16. 基于数据挖掘技术的航空蓄电池故障诊断技术研究,V242.2
  17. 基于数据挖掘技术的管道腐蚀检测系统的研究与开发,TP274
  18. 数据挖掘分类技术在企业人才招聘中的应用研究,TP311.13
  19. 图像修复技术研究,TP391.41
  20. 数据挖掘技术在压力管道安全管理工作中的应用研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com