学位论文 > 优秀研究生学位论文题录展示

基于最大频繁项目集的数据挖掘关联规则算法研究

作　者: 宋卫林
导　师: 徐惠民
学　校: 北京邮电大学
专　业: 电路与系统
关键词: 数据挖掘知识发现关联规则序列模式 DMFIA算法 ISS_DM算法最大频繁项目集最大频繁项目序列集最大频繁客户序列集
分类号: TP311.13
类　型: 博士论文
年　份: 2006年
下　载: 935次
引　用: 6次
阅　读: 论文下载

内容摘要

数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术，它成为未来信息技术应用的重要目标之一。经过十几年的努力，数据挖掘产生了许多新概念和方法。特别是最近几年，一些基本概念和方法趋于清晰，它的研究正向着更深入的方向发展。像其它新技术的发展历程一样，数据挖掘技术也必须经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。从目前的现状看，大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段，迫切需要在基础理论、应用模式、系统构架以及挖掘算法和挖掘语言等方面进行创新。关联规则挖掘是数据挖掘中成果颇丰而且比较活跃的研究分支，留给研究者的是更深入的课题。面对大型数据库，关联规则挖掘需要在挖掘效率、可用性、精确性等方面得到提升。因此，需要探索新的挖掘理论和模型；需要对一些传统的算法进行改进；也需要研究新的更有效的算法等。鉴于目前数据挖掘技术和关联规则挖掘研究的现状和发展趋势，本文选择了基于最大频繁项目集的关联规则算法作为研究对象，并开展相关工作。本文针对客户数据库海量数据挖掘时间问题，为提高挖掘效率，从多方面满足用户分析数据的需求，论文借鉴了基于FP-tree最大频繁项目集挖掘DMFIA算法的相关思想，通过使用不同的数据分析方法，并灵活调整最小支持度数，提出了一种新的基于客户数据库的最大频繁项目集算法，可以从不同的角度分析数据，有效地减少了算法的执行时间。通过进一步分析发现原DMFIA算法和基于客户数据库的最大频繁项目集算法不能有效地解决客户序列视图数据库的数据挖掘问题，针对这一问题，借鉴以上算法相关思想，结合序列模式提出了一种新的基于序列模式的项目级最大频繁序列集算法，即将大于或等于最小支持度数s的项目按支持度由小到大的顺序开始做循环运算，但在对MFCS_d进行循环运算时，若MFCS_d中的元素，即以客户序列为单位的每一项，若所包含事务的项目支持度均大于或等于进行循环运算的某一频繁项目支持度数，提取出来形成MFCSk；对MFCSk中以客户序列为单位的每一项，则统计该客户序列在备份MFCS的支持度数flag，如果flag＞=s′(通常s=s′)，则直接将该客户序列输出到最大频繁序列集MFS_d，否则将MFCS_d该客户序列中的事务相互组合形成集合，然后提取集合中所有元素，逐一进行循环运算；算法的时间复杂度将取决于对MFCS_d进行多次循环运算，何时MFCS_d为空，因此这是决定算法执行时间的关键。基于序列模式的事务级最大频繁序列集算法是在基于序列模式的项目级最大频繁序列集算法的基础上的进一步研究，即将以事务为单位的每一项，即取大于或等于最小支持度数s的事务按支持度由小到大的顺序，以类似于基于序列模式的项目级最大频繁序列集算法逐一循环计算的方式挖掘数据库中的数据。接着，本文阐述了挖掘最大频繁项目序列集ISS_DM算法，针对该算法不能有效地解决客户序列视图数据库的数据挖掘问题，结合序列模式提出了改进ISS_DM算法，并进行了相应的验证，结果表明，在进行相同数据量的算法执行时间对比实验中，改进算法执行时间明显优于原算法。最后，针对数据仓库领域的数据挖掘问题，将基于序列模式的项目级最大频繁序列集算法和改进ISS_DM算法分别同数据仓库的多维模型相结合，提出了针对数据仓库多维模型的基于序列模式的项目级最大频繁序列集算法和改进ISS_DM算法。总之，本文通过对基于FP-tree的最大频繁项目集的DMFIA算法和ISS_DM算法的研究，针对数据库领域的客户序列视图数据库数据挖掘问题及数据仓库领域的多维模型，提出了一系列创新算法。实践表明，算法有较好的实用性、可操作性和创新性，具有较好的理论价值，所设计的算法在挖掘效率和对大型数据库挖掘的可用性方面具有较好的应用前景。

全文目录

摘要  4-6
Abstract  6-9
目录  9-13
第一章绪论  13-17
  1.1 引言  13
  1.2 研究背景  13-14
  1.3 创新性工作  14-16
  1.4 本章小节  16-17
第二章数据挖掘技术  17-33
  2.1 数据挖掘技术的产生背景  17-19
    2.1.1 数据挖掘技术的商业需求分析  17-18
    2.1.2 数据挖掘产生的技术背景分析  18-19
  2.2 数据挖掘概念  19-22
    2.2.1 从商业角度看数据挖掘技术  19-20
    2.2.2 数据挖掘的技术含义  20
    2.2.3 数据挖掘研究的理论基础  20-22
  2.3 数据挖掘技术的分类问题  22
  2.4 数据挖掘常用的知识表示模式与方法  22-30
    2.4.1 广义知识挖掘  23-25
    2.4.2 关联知识挖掘  25-28
    2.4.3 类知识挖掘  28
    2.4.4 预测型知识挖掘  28-29
    2.4.5 特异型知识挖掘  29-30
  2.5 不同存储形式下的数据挖掘问题  30-31
    2.5.1 事务数据库中的数据挖掘  30
    2.5.2 关系型数据库中的数据挖掘  30-31
    2.5.3 数据仓库中的数据挖掘  31
  2.6 本章小节  31-33
第三章序列模式挖掘算法的研究  33-40
  3.1 序列模式  33-37
    3.1.1 序列模式的概念及定义  33
    3.1.2 一些相关概念及定义  33-37
  3.2 序列模式挖掘的一些主要算法  37-38
  3.3 应用领域  38
  3.4 本章小节  38-40
第四章关联规则DMFIA算法的研究  40-64
  4.1 引言  40
  4.2 挖掘最大频繁项目集DMFIA算法  40-45
    4.2.1 频繁项目集和最大频繁项目集  40-41
    4.2.2 FP-tree频繁模式树  41-43
    4.2.3 基于频繁模式树FP-tree的DMFIA算法  43-45
  4.3 挖掘最大频繁项目(序列)新算法  45-63
    4.3.1 基于客户数据库的最大频繁项目集算法  45-50
    4.3.2 基于序列模式的项目级最大频繁序列集算法  50-59
    4.3.3 基于序列模式的事务级最大频繁序列集算法  59-62
    4.3.4 时间复杂度  62-63
  4.4 本章小节  63-64
第五章关联规则ISS_DM算法的研究  64-81
  5.1 基本概念与解决方法  64-65
  5.2 对项目集格空间理论的发展  65
  5.3 项目序列集格空间和它的操作  65-68
  5.4 基于项目序列集操作的关联规则挖掘算法  68-71
    5.4.1 关联规则挖掘空间定义  68
    5.4.2 三个实用算子  68-70
    5.4.3 最大频繁项目序列集的生成算法  70
    5.4.4 ISS-DM算法执行示例  70-71
  5.5 算法分析  71-72
  5.6 实验数据与分析  72-75
  5.7 基于最大频繁项目序列集挖掘ISS_DM算法的改进  75-80
  5.8 本章小节  80-81
第六章基于数据仓库的关联规则算法研究  81-92
  6.1 数据仓库  81-85
    6.1.1 数据仓库的多维数据模型  81-82
    6.1.2 建立多维数据模型  82-85
  6.2 基于数据仓库多维模型改进DMFIA算法  85-89
  6.3 基于数据仓库多维模型改进ISS-DM算法  89-91
  6.4 本章小节  91-92
结论  92-94
参考文献  94-99
致谢  99-100
攻读博士学位期间发表的论文  100

基于最大频繁项目集的数据挖掘关联规则算法研究

内容摘要

全文目录

相似论文