学位论文 > 优秀研究生学位论文题录展示

基于相关兴趣度的关联规则挖掘

作　者: 王枭翔
导　师: 李玉龙
学　校: 兰州交通大学
专　业: 计算数学
关键词: 数据挖掘关联规则概念格兴趣度减枝效果
分类号: TP311.13
类　型: 硕士论文
年　份: 2013年
下　载: 2次
引　用: 0次
阅　读: 论文下载

内容摘要

近年来，数据挖掘技术引起了信息技术领域的极大关注，这是因为数据收集和数据存储技术的快速进步使得各组织机构积累了海量数据，这些数据可以被转换成有用的信息知识进行广泛使用。转换后得到的的信息知识可以被应用到市场分析，商场统筹，工程规划和科学探索等。数据挖掘是在大型数据存储库中，自动的发现有用信息的过程。它是一种将传统的数据分析方法与处理大量数据的复杂算法相结合的技术。关联规则技术作为数据挖掘技术的一个重要部分，在数据挖掘技术发展繁荣的情况下也得到了蓬勃发展，并向着更加广泛和深入的方向继续发展。关联规则挖掘的目的是为了从大量数据中发现项与项之间的直接有趣的关联和相关关系。关联规则无论从理论研究还是现实应用方面都有很宽广的发展前景，从狭义购物篮分析到网站的设计及其优化，甚至扩展到交通事故模式的分析或者是药物成分的关联分析等方面，它的理论研究为很多数据类型的挖掘提供了可行性，比方说从频繁模式的挖掘到闭合模式挖掘，从主观兴趣度到其它相关模式的挖掘。因而，对关联规则相关技术进行深入的研究是非常必要的。近年来，由于能够发现数据间的相关关系，并且发现的规则结构简单、易于理解，因此，关联规则成为数据挖掘领域的热点课题之一。本文对关联规则技术的优缺点进行了分析，并针对其不足之处进行了相应的改进。主要研究工作包括以下几个方面。（1）本文对经典的Apriori以及不产生候选集的FP-Growth算法进行了分析和研究：用Apriori算法挖掘频繁项集，计算量很大，需要多次遍历数据库，增加了CPU开销。FP-Growth算法虽然比Apriori算法在性能上有很大提高，它仅需要扫描两次数据库，并且避免了产生大量的候选项集。但FP-Growth算法主要的缺陷就是空间开销大。为解决此问题，本文引入了概念格，说明了用概念格的哈斯图进行频繁项集的挖掘在结果相似的基础上比Apriori算法更加简捷直观。（2）由于支持度-置信度框架下的关联规则存在一定的缺陷，于是，本文引入了兴趣度度量。首先，对现有的几种关联规则兴趣度进行深入研究和分析，指出这些兴趣度度量方法各自存在的局限，提出了一个基于兴趣度的关联规则度量方法的改进，证明了该度量方法的一些性质，并对该方法与传统方法进行了比较，指出了改进方法可以同时表示正负关联规则的判别，又对都不购买的变量不敏感，实证了新方法的特征属性。该方法较之原有方法有一定的优势。（3）由于在解决前后项集对称型问题时，普通关联规则存在着不足之处，因此，通过提出项项正相关关联规则挖掘改进了这种不足。同时提出了一种挖掘算法：ItemCoMine_AP算法，并对算法性能进行测试，对相关度量的减枝效果和实际应用效果进行分析。通过理论分析和实际测试，说明提出的关联规则能够有效的提高所生成关联规则的质量，应用效果较之普通关联规则有了明显的提高。

全文目录

摘要  4-6
Abstract  6-11
1 绪论  11-16
  1.1 研究背景与意义  11-12
  1.2 国内外发展现状  12-14
    1.2.1 国外研究现状  12-13
    1.2.2 国内研究现状  13-14
  1.3 论文的内容  14-16
2 相关技术介绍  16-25
  2.1 数据挖掘和知识发现  16-22
    2.1.1 什么是数据挖掘  16-18
    2.1.2 数据挖掘要解决的问题  18-19
    2.1.3 数据挖掘的任务  19-20
    2.1.4 数据挖掘的特点  20-21
    2.1.5 数据挖掘的过程  21-22
  2.2 关联规则挖掘技术  22-24
    2.2.1 关联规则的基本概念  22-23
    2.2.2 关联规则的分类  23
    2.2.3 关联规则挖掘性质  23-24
  2.3 关联规则挖掘算法性能的常用衡量方法  24
  2.4 本章小结  24-25
3 关联规则挖掘算法  25-37
  3.1 关联规则挖掘  25
  3.2 频繁项集的产生  25-34
    3.2.1 先验原理  27
    3.2.2 Apriori 算法  27-32
    3.2.3 频繁模式增长  32-34
  3.3 基于概念格的频繁项集挖掘算法  34-36
    3.3.1 量化概念格的频繁项集挖掘  34-36
    3.3.2 事例及结果分析  36
  3.4 小结  36-37
4 基于兴趣度的关联规则挖掘  37-48
  4.1 兴趣度的提出  37
  4.2 兴趣度模型的概述  37-40
    4.2.1 兴趣度研究现状  38
    4.2.2 几种典型的兴趣度度量  38-40
  4.3 传统方法存在的局限性  40-44
  4.4 改进的兴趣度度量方法  44-45
  4.5 改进的兴趣度度量方法的应用分析  45-47
  4.6 本章小结  47-48
5 基于相关兴趣度的关联规则挖掘  48-64
  5.1 改进的兴趣度度量方法  48-51
    5.1.1 λ(A(?)B)的定义及其性质  48-50
    5.1.2 与 λ(A(?)B)之间的关系  50-51
      5.1.2.1 两个度量之间的关系  50-51
      5.1.2.2 两个度量的适用范围  51
  5.2 购物篮中关联规则的应用类型分析  51-52
  5.3 基于 λ(A(?)B)的项项正相关关联规则挖掘  52-56
    5.3.1 项项正相关关联规则挖掘问题的提出  52-53
    5.3.2 兴趣度度量的选取  53-56
      5.3.2.1 相关兴趣度度量的选取  53
      5.3.2.2 关联兴趣度度量的选取  53-54
      5.3.2.3 基于度量的项项正相关关联规则挖掘  54-56
  5.4 挖掘算法 Rule_L(x)  56-63
    5.4.1 ItemCoMine_AP 算法  57
    5.4.2 实验测评和比较分析  57-63
      5.4.2.1 实验一：不同数据集测试算法性能  57-60
      5.4.2.2 实验二：参数变化对性能的影响测试  60-61
      5.4.2.3 实验三： All confidence、减枝效果测试  61-62
      5.4.2.4 实验四：实际零售数据集应用测试  62-63
  5.5 本章小结  63-64
结论  64-65
致谢  65-66
参考文献  66-68
攻读学位期间的研究成果  68

基于相关兴趣度的关联规则挖掘

内容摘要

全文目录

相似论文