学位论文 > 优秀研究生学位论文题录展示

并行关联规则算法优化的研究

作 者: 王荧
导 师: 孙忠林
学 校: 山东科技大学
专 业: 计算机应用技术
关键词: 关联规则 并行数据挖掘 数据挖掘 数据库
分类号: TP301.6
类 型: 硕士论文
年 份: 2007年
下 载: 234次
引 用: 2次
阅 读: 论文下载
 

内容摘要


随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,如何充分利用这些数据信息并为企业决策者提供决策支持成为一个十分迫切又棘手的问题,数据挖掘就是为了满足这种要求而迅速发展起来的。数据挖掘是帮助人们在海量数据中发现信息和知识的工具,近年来数据挖掘技术成了商业智能的核心技术,被广泛应用到了诸多领域,引起了学术界极大的关注,如何提高数据挖掘的效率成为学术界热门的研究课题,而关联规则的发现是数据挖掘中最成功和最重要的一项任务,也是当今数据挖掘中一个非常活跃的研究领域,其中最著名的挖掘关联规则算法就是Apriori算法。论文对数据挖掘和关联规则的主要概念和发展状况作了综述,给出了挖掘关联规则问题的正式的描述,对典型的串行关联规则算法和并行关联规则算法作了较深入的分析,并且介绍了这些算法的思想及其各自的优缺点;针对CD算法所存在的多次扫描和冗余存储等问题进行改进。CD算法的目标是减少通信量获得较好的任务分布性,使各处理器只对本地数据并行地进行处理,但算法的I/O量较重,数据结构重复,没有有效利用整个内存。因此论文在CD算法的基础上提出了改进的算法NCD:通过对参与候选集的元素计数的方法来减少产生候选集的组合和数据库的扫描次数以达到要求。这种方法是利用多个处理器的并行计算得到候选集S′,由于候选集无法保证是超集,有可能报告失效,这时还须扫描数据一遍或多遍,直到不再报告失效为止。这种算法让各处理器在不知道其他处理器的任何信息的情况下独立地计算局部大项集,直到所有的处理器都计算出了局部大项集后,才开始交换数据,增加或删除项集,得到最终结果,这有利于提高挖掘的速度和减少数据库的I/O操作时间的开销。事实上CD算法使用了一个简单的原则,即允许在其他处理器上进行并行地冗余计算和冗余存储,尽而避免大量通信。论文对所提出的NCD算法与CD算法在实验数据集上进行测试,测试结果说明在数据集相同的情况下NCD算法效率得到了有效的提高。

全文目录


摘要  5-6
Abstract  6-10
1 绪论  10-14
  1.1 数据挖掘的发展  10-12
  1.2 关联规则研究现状  12-13
  1.3 论文的研究内容和结构  13-14
2 基础知识  14-21
  2.1 数据挖掘  14-16
  2.2 关联规则  16-21
3 关联规则挖掘算法  21-36
  3.1 串行挖掘算法  21-25
  3.2 并行挖掘算法  25-36
4 CD算法的改进  36-49
  4.1 并行关联规则算法的改进目的  36
  4.2 算法的引入及描述  36-41
  4.3 算法的改进  41-49
5 CD算法与NCD算法的比较  49-54
  5.1 算法实验  49-50
  5.2 NCD算法性能分析  50-52
  5.3 NCD算法实际应用  52-54
6 总结与展望  54-56
  6.1 总结  54
  6.2 展望  54-56
致谢  56-57
攻读硕士学位期间主要成果  57-58
参考文献  58-61
详细摘要  61-73

相似论文

  1. 基于WinCE平台的故障分析仪应用程序设计与开发,TP311.52
  2. 电子文书安全签发系统的研制,TN918.2
  3. 海量数据压缩、操作和处理方法的研究,TP311.13
  4. 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
  5. 武器装备信息管理系统的设计与实现,TP311.52
  6. 部队在线考试系统设计与实现,TP311.52
  7. 基于GIS的高校学生社区管理研究,G647
  8. 基于数据挖掘技术的保健品营销研究,F426.72
  9. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  10. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  11. 基于嵌入式的面向造纸企业的一种QCS研究与设计,TP368.1
  12. 部队人员网上训练与考核系统的开发,TP311.52
  13. 摩托化部队机动辅助系统,TP311.52
  14. 部队军事理论在线考试系统设计与实现,TP311.52
  15. 西藏边防作战训练信息管理系统设计与实现研究,TP311.52
  16. 毛纺用化学品毒性毒理数据库的建立,TS131
  17. 物联网在服装行业的应用性研究,TN929.5
  18. 基于GIS的温州农业资源管理信息系统的构建,S126
  19. 浙江省金衢盆地典型土系数据库的建设与应用,S159.2
  20. Bicluster数据分析软件设计与实现,TP311.52
  21. 基于变异粒子群的聚类算法研究,TP18

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 理论、方法 > 算法理论
© 2012 www.xueweilunwen.com