学位论文 > 优秀研究生学位论文题录展示

基于相关兴趣度的关联规则挖掘

作 者: 王枭翔
导 师: 李玉龙
学 校: 兰州交通大学
专 业: 计算数学
关键词: 数据挖掘 关联规则 概念格 兴趣度 减枝效果
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 2次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,数据挖掘技术引起了信息技术领域的极大关注,这是因为数据收集和数据存储技术的快速进步使得各组织机构积累了海量数据,这些数据可以被转换成有用的信息知识进行广泛使用。转换后得到的的信息知识可以被应用到市场分析,商场统筹,工程规划和科学探索等。数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。它是一种将传统的数据分析方法与处理大量数据的复杂算法相结合的技术。关联规则技术作为数据挖掘技术的一个重要部分,在数据挖掘技术发展繁荣的情况下也得到了蓬勃发展,并向着更加广泛和深入的方向继续发展。关联规则挖掘的目的是为了从大量数据中发现项与项之间的直接有趣的关联和相关关系。关联规则无论从理论研究还是现实应用方面都有很宽广的发展前景,从狭义购物篮分析到网站的设计及其优化,甚至扩展到交通事故模式的分析或者是药物成分的关联分析等方面,它的理论研究为很多数据类型的挖掘提供了可行性,比方说从频繁模式的挖掘到闭合模式挖掘,从主观兴趣度到其它相关模式的挖掘。因而,对关联规则相关技术进行深入的研究是非常必要的。近年来,由于能够发现数据间的相关关系,并且发现的规则结构简单、易于理解,因此,关联规则成为数据挖掘领域的热点课题之一。本文对关联规则技术的优缺点进行了分析,并针对其不足之处进行了相应的改进。主要研究工作包括以下几个方面。(1)本文对经典的Apriori以及不产生候选集的FP-Growth算法进行了分析和研究:用Apriori算法挖掘频繁项集,计算量很大,需要多次遍历数据库,增加了CPU开销。FP-Growth算法虽然比Apriori算法在性能上有很大提高,它仅需要扫描两次数据库,并且避免了产生大量的候选项集。但FP-Growth算法主要的缺陷就是空间开销大。为解决此问题,本文引入了概念格,说明了用概念格的哈斯图进行频繁项集的挖掘在结果相似的基础上比Apriori算法更加简捷直观。(2)由于支持度-置信度框架下的关联规则存在一定的缺陷,于是,本文引入了兴趣度度量。首先,对现有的几种关联规则兴趣度进行深入研究和分析,指出这些兴趣度度量方法各自存在的局限,提出了一个基于兴趣度的关联规则度量方法的改进,证明了该度量方法的一些性质,并对该方法与传统方法进行了比较,指出了改进方法可以同时表示正负关联规则的判别,又对都不购买的变量不敏感,实证了新方法的特征属性。该方法较之原有方法有一定的优势。(3)由于在解决前后项集对称型问题时,普通关联规则存在着不足之处,因此,通过提出项项正相关关联规则挖掘改进了这种不足。同时提出了一种挖掘算法:ItemCoMine_AP算法,并对算法性能进行测试,对相关度量的减枝效果和实际应用效果进行分析。通过理论分析和实际测试,说明提出的关联规则能够有效的提高所生成关联规则的质量,应用效果较之普通关联规则有了明显的提高。

全文目录


摘要  4-6
Abstract  6-11
1 绪论  11-16
  1.1 研究背景与意义  11-12
  1.2 国内外发展现状  12-14
    1.2.1 国外研究现状  12-13
    1.2.2 国内研究现状  13-14
  1.3 论文的内容  14-16
2 相关技术介绍  16-25
  2.1 数据挖掘和知识发现  16-22
    2.1.1 什么是数据挖掘  16-18
    2.1.2 数据挖掘要解决的问题  18-19
    2.1.3 数据挖掘的任务  19-20
    2.1.4 数据挖掘的特点  20-21
    2.1.5 数据挖掘的过程  21-22
  2.2 关联规则挖掘技术  22-24
    2.2.1 关联规则的基本概念  22-23
    2.2.2 关联规则的分类  23
    2.2.3 关联规则挖掘性质  23-24
  2.3 关联规则挖掘算法性能的常用衡量方法  24
  2.4 本章小结  24-25
3 关联规则挖掘算法  25-37
  3.1 关联规则挖掘  25
  3.2 频繁项集的产生  25-34
    3.2.1 先验原理  27
    3.2.2 Apriori 算法  27-32
    3.2.3 频繁模式增长  32-34
  3.3 基于概念格的频繁项集挖掘算法  34-36
    3.3.1 量化概念格的频繁项集挖掘  34-36
    3.3.2 事例及结果分析  36
  3.4 小结  36-37
4 基于兴趣度的关联规则挖掘  37-48
  4.1 兴趣度的提出  37
  4.2 兴趣度模型的概述  37-40
    4.2.1 兴趣度研究现状  38
    4.2.2 几种典型的兴趣度度量  38-40
  4.3 传统方法存在的局限性  40-44
  4.4 改进的兴趣度度量方法  44-45
  4.5 改进的兴趣度度量方法的应用分析  45-47
  4.6 本章小结  47-48
5 基于相关兴趣度的关联规则挖掘  48-64
  5.1 改进的兴趣度度量方法  48-51
    5.1.1 λ(A(?)B)的定义及其性质  48-50
    5.1.2 与 λ(A(?)B)之间的关系  50-51
      5.1.2.1 两个度量之间的关系  50-51
      5.1.2.2 两个度量的适用范围  51
  5.2 购物篮中关联规则的应用类型分析  51-52
  5.3 基于 λ(A(?)B)的项项正相关关联规则挖掘  52-56
    5.3.1 项项正相关关联规则挖掘问题的提出  52-53
    5.3.2 兴趣度度量的选取  53-56
      5.3.2.1 相关兴趣度度量的选取  53
      5.3.2.2 关联兴趣度度量的选取  53-54
      5.3.2.3 基于度量的项项正相关关联规则挖掘  54-56
  5.4 挖掘算法 Rule_L(x)  56-63
    5.4.1 ItemCoMine_AP 算法  57
    5.4.2 实验测评和比较分析  57-63
      5.4.2.1 实验一:不同数据集测试算法性能  57-60
      5.4.2.2 实验二:参数变化对性能的影响测试  60-61
      5.4.2.3 实验三: All confidence、减枝效果测试  61-62
      5.4.2.4 实验四:实际零售数据集应用测试  62-63
  5.5 本章小结  63-64
结论  64-65
致谢  65-66
参考文献  66-68
攻读学位期间的研究成果  68

相似论文

  1. 基于数据挖掘技术的保健品营销研究,F426.72
  2. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  3. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  4. Bicluster数据分析软件设计与实现,TP311.52
  5. 基于变异粒子群的聚类算法研究,TP18
  6. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  7. 基于遗传算法和粗糙集的聚类算法研究,TP18
  8. 基于数据挖掘的税务稽查选案研究,F812.42
  9. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  10. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  11. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  12. 基于行业参数优化模型的投资项目决策支持系统,F283
  13. 数据集市在电信经营分析中的应用研究,TP311.13
  14. 数据挖掘在高职院校学生成绩分析中的应用,TP311.13
  15. 基于数据挖掘的个性化在线教学辅助系统的研究与设计,TP311.13
  16. 基于数据挖掘的课程考核与分析决策系统的设计和实现,TP311.13
  17. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  18. 基于DFS的概念学习机制研究,TP181
  19. 教学质量评估数据挖掘系统设计与开发,TP311.13
  20. 关联规则挖掘在交通事故成因分析中的应用,U491.31
  21. 关联规则算法在高职院校贫困生认定工作中的应用,G717

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com