学位论文 > 优秀研究生学位论文题录展示
数据挖掘中决策树分类算法的研究与改进
作 者: 徐洪伟
导 师: 张健沛
学 校: 哈尔滨工程大学
专 业: 计算机应用技术
关键词: 分类 决策树 New-BMIC离散化算法 方差规约
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 251次
引 用: 3次
阅 读: 论文下载
内容摘要
分类技术是数据挖掘领域中一种非常重要的研究方法。近几十年来,信息技术的高速发展造就了新一代数据的出现,而这一类数据都有着相似的特性,即高速的、高维的、连续的、动态的、快速变化的、海量的数据集合。如何有效合理利用这些庞大复杂的数据让其为我们服务,成为数据挖掘领域中分类技术要解决的问题。面对这些高维、连续的、动态的复杂数据,传统的分类算法已不能够有效的对这些数据进行分类处理。因此,要进行分类就必须针对现有分类算法的缺点进行研究,针对分类算法的缺点提出改进,使改进的分类算法能更好的处理复杂数据。针对现有的决策树分类算法的不足,本文从以下几个方面进行改进。首先针对决策树分类算法处理连续属性数据时分类准确性不足的缺点,本文给出了一种BMIC离散化算法的改进算法—New-BMIC离散化算法,该离散化算法能够改善原有BMIC离散化算法在离散化合并的过程中模糊合并的不足,精确离散区间数,达到更好的离散化效果,提高对连续属性的分类精度;其次,针对现有决策树分类算法在处理属性选择时过度拟合、计算效率低下问题,本文给出了一种新的属性选择标准—方差规约,该方法是根绝方差的计算方式来衡量决策树拆分标准,从理论上该方法替代了对数的计算,提高了属性选择标准的计算效率,整体上可以降低决策树分类算法的时间复杂度,使其在应用领域上可以达到及时性、准确性;最后,将属性选择标准和新的离散化算法两个部分进行组合,使改进后决策树分类算法能够有效处理连续属性数据,同时也能减少过度拟合和提高决策树整体的分类效率。最后通过实验验证了改进算法的有效性和正确性。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-16 1.1 研究背景 10-11 1.2 研究现状 11-13 1.3 论文的研究内容 13-14 1.4 论文的组织结构 14-16 第2章 数据挖掘及相关分类技术概述 16-32 2.1 数据挖掘 16-18 2.1.1 数据挖掘的定义 16 2.1.2 数据挖掘的过程 16-17 2.1.3 数据挖掘的意义 17-18 2.2 分类技术 18-20 2.2.1 分类的定义 18-19 2.2.2 分类的过程 19-20 2.3 典型的分类算法描述 20-26 2.3.1 贝叶斯分类算法 20-23 2.3.2 神经网络分类算法 23-26 2.4 决策树分类算法 26-31 2.4.1 决策树基本知识 26-27 2.4.2 决策树构建过程 27-29 2.4.3 C4.5 算法描述 29-30 2.4.4 一种快速可扩展的分类算法 30-31 2.4.5 一种可扩展的并行分类器 31 2.5 本章小结 31-32 第3章 一种改进的决策树分类算法 32-46 3.1 方差规约属性选择方法 32-35 3.1.1 方差规约属性选择方法的提出 32-33 3.1.2 现有的以信息论为基础的属性选择标准 33-35 3.2 基于方差规约的属性选择方法 35-39 3.2.1 理论基础 35-36 3.2.2 属性选择标准 36-39 3.3 New-BMIC 离散化算法 39-43 3.3.1 BMIC 离散化算法介绍 39-40 3.3.2 New-BMIC 离散化算法的提出 40 3.3.3 New-BMIC 离散化算法 40-43 3.4 算法优化组合 43-45 3.5 本章小结 45-46 第4章 实验及结果分析 46-55 4.1 方差规约属性选择方法实验 46-49 4.1.1 实验环境 46 4.1.2 实验结果及分析 46-49 4.2 New-BMIC 离散化算法实验 49-51 4.2.1 实验数据集 49-50 4.2.2 实验环境 50 4.2.3 实验结果及分析 50-51 4.3 算法的优化组合实验及结果分析 51-53 4.4 本章小结 53-55 结论 55-56 参考文献 56-60 攻读硕士学位期间发表的论文和取得的科研成果 60-61 致谢 61
|
相似论文
- K公司计划及预测改进对于合理库存配置的研究,F224
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 基于词义及语义分析的问答技术研究,TP391.1
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 基于串核的蛋白质分类算法的研究与实现,TP301.6
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- 上下文相关的词汇复述研究,TP391.1
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 多样性密度学习算法的研究与应用,TP181
- 运动特征及地形约束的感知网目标跟踪算法及系统研究,TP212.9
- 基于支持向量机的故障诊断方法研究,TP18
- 计算智能在数字化卷烟叶组配方中的应用研究,TS44
- 基于中国土壤系统分类的土壤类型和界线确定研究,S155
- 弯孢属种分子鉴定体系的建立及其在疑难种上的应用,Q949.32
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 面向公众的教育视频共建共享平台的设计与实践研究,G434
- 基于土壤系统分类的土壤调查方法研究,S155
- 西藏生防芽孢杆菌鉴定及其脂肽化合物分析,S476.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|