学位论文 > 优秀研究生学位论文题录展示
数据挖掘技术与分类算法研究
作 者: 刘刚
导 师: 郭金庚
学 校: 中国人民解放军信息工程大学
专 业: 计算机软件与理论
关键词: 数据挖掘 知识发现 分类算法 知识模型
分类号: TP311.13
类 型: 博士论文
年 份: 2004年
下 载: 3357次
引 用: 16次
阅 读: 论文下载
内容摘要
数据挖掘(Data Mining)是致力于数据分析和理解,揭示数据内部蕴藏知识的技术。它是未来信息技术应用的重要目标之一。经过数据挖掘领域研究工作者十几年的努力,出现了许多数据挖掘的新概念、新方法,特别是最近几年,一些基本概念和方法趋于清晰,数据挖掘的研究正向着更加深入的方向发展。像其它新技术的发展历程一样,数据挖掘技术也要经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。从目前的现状看,大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段,迫切需要在基础理论、应用模式、系统构架以及挖掘算法和挖掘语言等方面进行创新。 分类作为数据挖掘的一个重要研究课题,在统计学、机器学习、神经网络和专家系统中得到了较早的研究,但其中大部分都是内存驻留算法,通常假定数据量很小。随着数据库中数据量和维数越来越大,建立高效的、适用于大量数据集的分类算法已成为数据挖掘面临的一个挑战性问题。近年来,数据挖掘界提出一种新的知识模式,称作跳跃显露模式(JEP:Jumping Emerging Pattern),用来表示两个数据集之间的重大差异,并出现了一些基于JEP的分类算法。研究表明,这些基于JEP的分类算法具有很好的预测准确性,而且数据量和维数都是可规模化的。但是,这些基于JEP的分类法通常需要挖掘大量的JEP,因此影响了它们的效率,且增加了分类算法的复杂性。本文提出一种特殊类型的JEP,称作最有效的跳跃显露模式(SJEP:most Significant Jumping Emerging Patterns)。分析结果表明,SJEP具有很强的区分能力,足以用来建立精确的分类算法。由于已有的算法都不能直接挖掘这种SJEP,本文给出了一种可以在两个数据集上双向挖掘SJEP的有效算法,并讨论了如何建立基于SJEP的分类算法(SJEP_Classifier)。与已有的基于JEP的分类算法相比,基于SJEP的分类算法不仅使用的JEP数量少,预测精度高,而且可以在很短的时间内(通常为若干秒)完成学习阶段。实验结果表明,本文的分类算法(SJEP_Classifier)在平均预测精度方面也优于CBA和C4.5等分类算法。 总之,本文在分析、归类现有数据挖掘研究成果以及原型系统的基础上,进行了数据挖掘应用系统体系结构和基于SJEP的分类理论模型以及算法方面的研究,所设计的算法在挖掘效率和对大型数据库挖掘的可用性方面具有潜在的应用前景。
|
全文目录
摘要 4-5 ABSTRACT 5-7 第一章 绪论 7-12 §1.1 研究背景 7-9 §1.2 主要研究问题 9-10 §1.3 主要贡献 10 §1.4 论文的总体结构 10 §1.5 小结 10-12 第二章 数据挖掘技术 12-37 §2.1 数据挖掘技术的产生背景 12-15 §2.2 数据挖掘概念 15-20 §2.3 数据挖掘技术的分类问题 20-21 §2.4 数据挖掘常用的知识表示模式与方法 21-30 §2.5 不同存储形式下的数据挖掘问题 30-34 §2.6 数据挖掘的应用分析 34-36 §2.7 小结 36-37 第三章 相关工作 37-51 §3.1 数据挖掘过程 37-44 §3.2 分类 44-50 §3.3 小结 50-51 第四章 知识发现过程与系统结构设计 51-59 §4.1 知识发现的基本过程 51-53 §4.2 知识发现系统的基本构架 53-55 §4.3 知识发现软件或工具的发展 55-56 §4.4 知识发现项目的过程化管理 56-57 §4.5 小结 57-59 第五章 数据挖掘中的分类算法 59-68 §5.1 关联规则挖掘基本概念 59-60 §5.2 跳跃显露模式 60-62 §5.3 JEP挖掘算法 62-64 §5.4 选择最有表现力的JEP 64 §5.5 JEP_Classifier分类算法 64-65 §5.6 实验分析 65-67 §5.7 小结 67-68 第六章 最有效的跳跃显露模式 68-86 §6.1 问题描述 68-70 §6.2 Apriori算法 70-75 §6.3 FP-增长算法 75-79 §6.4 SJEP-树结构 79-82 §6.5 Mine_SJEPs算法 82-85 §6.6 小结 85-86 第七章 基于SJEP的分类算法 86-96 §7.1 挖掘算法的优化 86-90 §7.2 SJEP_Classifier分类算法 90-93 §7.3 实验结果及分析 93-94 §7.4 进一步讨论 94-96 §7.5 小结 96 结束语 96-97 参考文献 97-104 致谢 104
|
相似论文
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
- 数据仓库技术在银行客户管理系统中的研究和实现,TP315
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
- 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 高校毕业生就业状况监测系统研究,G647.38
- 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
- 基于数据挖掘的信用卡客户激活与响应度研究,F832.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|