学位论文 > 优秀研究生学位论文题录展示
分布式挖掘算法DDA的设计及其在DADM模型中的实现
作 者: 谢志军
导 师: 周广声
学 校: 上海海事大学
专 业: 计算机软件与理论
关键词: 数据挖掘 关联规则 分布式数据库 Apriori算法 DDA算法 DADM模型
分类号: TP311.13
类 型: 硕士论文
年 份: 2004年
下 载: 94次
引 用: 0次
阅 读: 论文下载
内容摘要
数据挖掘是20世纪90年代中期兴起的一项新技术,它是知识发现过程中的关键步骤,也是当前知识发现领域中的一个研究热点。近年来,国内外学术界和企业界,都非常重视对数据挖掘技术和软件工具的研究和开发,也取得一些成果。 关联规则的发现是数据挖掘中的一项重要任务。关联规则表示数据库中一组对象之间某种关联关系的规则(例如“同时发生”或者“从一个对象可以推出另一个”)。关联规则的简单表示形式是:X=>Y,X称作规则的前提,Y是规则的结果。通常,对于一个规则的衡量有两个标准:支持度(support)和置信度(confidence)。挖掘关联规则的问题就是找出这样的一些规则:他们的support和confidence分别大于用户指定的min_support和min_confidence限度。这个问题的主要挑战性在于数据量巨大(数据库容量达到若干GB字节,甚至TB字节),因此算法改进的方法主要围绕减少数据量来开展。目前研究的重点是如何找出频繁大项集(large itemset),围绕这个问题,R.Agrawal等在1994年提出了Apriori算法,它是一种经典的频集方法,但是Apriori算法也存在一些固有的缺陷:①多次重复扫描数据库,增加了挖掘过程中I/O操作的次数,加重了CFU的负担,影响计算效率。②只是适用于集中式数据库,不能应用到分布式数据库中③无法对稀有数据进行分析。 本文首先从理论和应用两个角度分析了Apriori算法的局限性,并且针对该算法的不足,设计了一种新的能够应用到分布式系统的算法,新的算法:①将数据水平分片到各个局部数据库中。②在各局部数据库上进行局部剪枝,产生局部大项集。③将局部大项集传送到其他节点④各个节点在收到其他节点发来的数据以后进行全局剪枝。因为经过了局部剪枝和全局剪枝的两个过程,数据量会从O(n~2)减少到O(n)。 然后,根据新的挖掘算法,结合港口与集装箱运输的实际情况,设计了面向港口与集装箱运输的数据挖掘模型DADM,在挖掘模型DADM的实现过程中,运用支持多平台的JAVA开发语言,采用了面向对象的设计和开发方法。同时,在知识的表达和解释机制方面也作了很多工作,使知识的表达不仅限于数字和符号,而是更容易理解的表格、图形等。分布式挖掘算法DDA的设计及其在DADM模型中的实现.....曰...‘口~.............,............... 最后,总结出设计挖掘算法和挖掘模型的方法,为针对分布式系统的数据挖掘系统的设计和研究提供了一种新尝试。 DADM挖掘模型以集装箱运输行业为背景,功能完善,操作简单,可扩展性强。同时,DADM挖掘模型在二次开发上并不受行业限制,通过分析具体的行业领域数据,本模型完全可以应用到银行、保险、气象等其它行业中。
|
全文目录
摘要 3-5 英文摘要 5-8 第一章 绪论 8-10 1.1 引言 8 1.2 分布式数据库及特点 8-9 1.3 问题的提出 9-10 第二章 数据挖掘技术 10-13 2.1 数据挖掘定义 10 2.2 数据挖掘过程 10-11 2.3 数据挖掘分类 11 2.4 数据挖掘模式 11-13 第三章 关联规则基本概念 13-23 3.1 关联规则的典型应用 13 3.2 关联规则的基本概念 13-15 3.3 关联规则的衡量方法 15-17 3.4 关联规则的经典算法 17-21 3.5 Apriori算法的并行算法 21-23 第四章 基于分布式系统的关联规则挖掘算法(DDA) 23-35 4.1 Apriori算法的局限性 23 4.2 将DD算法应用分布式系统的可能性 23 4.3 基于分布式系统的关联规则挖掘算法(DDA)基本思想 23-25 4.4 算法的可行性证明 25-27 4.5 算法的优化 27-28 4.6 算法的性能分析 28 4.7 举例说明 28-35 第五章 DADM挖掘模型设计 35-45 5.1 系统的总体设计 35 5.2 DADM的系统结构 35-38 5.3 分布式数据库设计 38-39 5.4 系统框架与开发工具 39-45 第六章 DADM模型的实现与关联规则挖掘 45-62 6.1 数据准备 45 6.2 分布式数据库建立 45-47 6.3 在DB1、DB2、DB3上进行局部挖掘 47-53 6.4 站点之间的数据交换 53-55 6.5 全局剪枝 55-57 6.6 关联规则提取 57-59 6.7 结果显示与分析 59-62 结束语 62-63 致谢 63-64 参考文献 64-66
|
相似论文
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
- 数据仓库技术在银行客户管理系统中的研究和实现,TP315
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
- 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 高校毕业生就业状况监测系统研究,G647.38
- 基于Oracle的移动彩铃分布式数据库设计与实现,TP311.13
- 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|