学位论文 > 优秀研究生学位论文题录展示
决策树分类优化算法的研究
作 者: 吴绪玲
导 师: 邓平
学 校: 西南交通大学
专 业: 计算机应用技术
关键词: 数据挖掘 ID3算法 决策树 多值偏向 信息增益 信息熵
分类号: TP301.6
类 型: 硕士论文
年 份: 2010年
下 载: 79次
引 用: 1次
阅 读: 论文下载
内容摘要
数据挖掘就是从大量的、不完全的、有噪声的数据中,提取出有效的和潜在规律性信息的过程。数据挖掘的任务就是从数据集中发现模式,它融合了数据库、人工智能,、机器学习、统计学等多个领域的理论和知识。在数据挖掘中,分类和预测是被广泛研究的技术,并且已经广泛地应用于许多领域,对未来商业和人们的生活也将产生深远的影响。决策树方法自20世纪60年代以来,在分类、预测、规则提取等领域有着广泛的应用,其中以Quilan于1986年提出的ID3算法最为著名。本文主要研究决策树ID3算法及其改进。本文深入研究了ID3算法的理论基础及构建决策树的过程等知识。Quinlan提出的ID3算法虽然很经典,但也有美中不足之处。第一,算法中使用了对数计算,而且计算过程复杂;第二,取值较多的属性被选择的机率比较大,即多值偏向问题。为了解决ID3的这些问题,本文引入了泰勒公式和麦克劳林公式,对原ID3算法进行化简,不仅属性信息增益的计算步骤减少,而且使信息熵的计算公式本身变得十分简洁;对于ID3算法偏向于选取有较多取值的属性的缺点,用一个与属性取值个数相关的函数对简化后的属性信息增益进行修正。通过以上两个方面的优化,新算法在构建决策树的速度上得到提高,同时也解决了ID3算法多值偏向的不足。然后,使用同一个小数据集对改进前后的算法进行实例分析,分别得到其对应的决策树。最后,用面向对象的JAVA高级语言实现了改进前后的ID3算法,并且在不同规模的数据集上进行仿真实验,把改进后算法分别与ID3算法、C4.5算法进行比较分析,验证了改进后算法在构建决策树时所需的时间及分类准确率两个方面都优于其他两个算法。
|
全文目录
摘要 6-7 Abstract 7-8 目录 8-11 第1章 前言 11-19 1.1 研究背景及意义 11-12 1.2 国内外研究现状 12-17 1.3 本文的主要研究内容 17 1.4 本文的组织结构 17-19 第二章 数据挖掘与决策树相关技术 19-37 2.1 数据挖掘的基础理论知识 19-22 2.1.1 数据挖掘的概念 19 2.1.2 数据挖掘的特点 19-20 2.1.3 数据挖掘的过程 20-21 2.1.4 数据挖掘的任务 21-22 2.2 数据挖掘的常用算法 22-27 2.2.1 神经网络(NN) 22-23 2.2.2 决策树 23-24 2.2.3 基因算法 24-25 2.2.4 贝叶斯网络算法 25 2.2.5 粗糙集方法 25-26 2.2.6 支持向量机方法 26 2.2.7 其他数据挖掘方法 26-27 2.3 数据挖掘常用软件 27-28 2.4 决策树核心技术 28-31 2.4.1 属性约简技术 30 2.4.2 属性选择技术 30 2.4.3 决策树剪枝技术 30-31 2.5 决策树常用算法 31-36 2.5.1 CLS算法 31-32 2.5.2 C4.5算法 32-34 2.5.3 SLIQ算法 34-35 2.5.4 其他决策树算法 35 2.5.5 决策树算法小结 35-36 2.6 本章小结 36-37 第三章 基于信息熵的分类算法研究 37-52 3.1 信息论原理 37-39 3.1.1 信息论基本概念 37 3.1.2 信息熵和条件熵的概念 37-39 3.1.3 互信息和信息增益 39 3.2 基于信息熵分类算法的基础知识 39-45 3.2.1 算法的基本思想 39-40 3.2.2 ID3建树算法描述 40-41 3.2.3 ID3建树算法的伪代码 41-42 3.2.4 算法实例应用分析 42-45 3.3 算法分析及总结 45-46 3.3.1 算法的性能分析 45 3.3.2 算法的优缺点 45-46 3.4 常见的测试属性选择方法 46-50 3.4.1 信息增益比例法 46-47 3.4.2 Gini指数法 47-48 3.4.3 用户兴趣度法 48-49 3.4.4 关联度函数法 49-50 3.5 ID3算法的改进思路 50-51 3.5.1 算法的改进方法 50-51 3.6 本章小结 51-52 第4章 决策树ID3算法的改进 52-61 4.1 算法的计算简化 52-56 4.1.1 泰勒公式及麦克劳林公式介绍 52 4.1.2 简化算法的理论描述 52-54 4.1.3 简化算法的实例分析 54-56 4.2 信息增益的修正 56-60 4.2.1 多值偏向的理论分析 56 4.2.2 信息熵的改进 56-58 4.2.3 时间复杂度分析 58-59 4.2.4 改进后ID3算法的实例分析 59-60 4.3 本章小结 60-61 第5章 算法仿真实验与应用 61-78 5.1 算法实验准备 61 5.1.1 实验环境 61 5.2 实验数据准备 61-65 5.2.1 ARFF格式文件的相关知识 62-64 5.2.2 数据预处理 64-65 5.3 实验内容 65-73 5.3.1 实验结果分析 65-69 5.3.2 算法的性能比较 69-73 5.4 改进后算法在数据库挖掘中的应用 73-77 5.4.1 数据准备 74-75 5.4.2 挖掘结果及性能分析 75-77 5.5 本章小结 77-78 总结与展望 78-79 致谢 79-80 参考文献 80-84 攻读硕士学位期间发表的论文 84
|
相似论文
- 基于信息熵的课堂观察量化评价模型研究,G632.4
- 基于支持向量机的故障诊断方法研究,TP18
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
- 数据仓库技术在银行客户管理系统中的研究和实现,TP315
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
- 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 高校毕业生就业状况监测系统研究,G647.38
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 理论、方法 > 算法理论
© 2012 www.xueweilunwen.com
|