学位论文 > 优秀研究生学位论文题录展示
基于正负项目及多支持度的关联规则挖掘算法研究
作 者: 李彦钊
导 师: 陶宏才
学 校: 西南交通大学
专 业: 计算机应用技术
关键词: 关联规则 正负项目 FP-growth算法 条件频繁后缀项目 正负多支持度
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 9次
引 用: 0次
阅 读: 论文下载
内容摘要
关联规则作为数据挖掘的一个重要分支,目前已经在许多领域得到成功应用。然而,大多数的关联规则只考虑了事务属性之间的正向联系,对于隐藏在数据中的否定联系,却没有引起足够的重视。本文阐述了一种完整形式的关联规则,同时考虑了事务数据库中的正项目和负项目,不但能够反映事务属性间的正向联系,同时也能反映事务属性间隐含的否定联系。首先,本文针对引入负项目后,频繁项集数量也大大增加的问题,在详细研究了FP-growth算法的基础上,提出了一种改进的MFP_PN算法。新算法继承了FP-growth算法不需要多次重复扫描数据库的优点,同时考虑了正项目和负项目而不需要扩充原始数据库。另外,新算法沿用了FP-tree的结构,构造出同时含正负项目的Tree_PN,采用基于条件频繁后缀项目的模式扩展方法得到频繁项集,不需要构造大量的条件模式树,节省了时间和空间。实验结果证明了MFP_PN算法比FP-growth算法具有更好的性能。其次,本文分析了最小支持度的局限性和支持度过大的项目的有用性问题,提出了正负多支持度PNMS模型。该模型可以排除支持度过大的、没有意义的频繁项集,同时可以通过设置不同的正、负最小支持度阈值,来调节挖掘结果中正负项目的数量,以满足用户的不同需求。实验证明,PNMS模型在提高规则有用性和调节正负项目数量方面是有效的和可行的。
|
全文目录
摘要 6-7 Abstract 7-10 第1章 绪论 10-14 1.1 研究背景与意义 10-11 1.2 国内外研究现状 11-12 1.3 本论文研究内容及章节安排 12-14 1.3.1 本论文研究内容 12 1.3.2 本论文章节安排 12-14 第2章 关联规则相关理论 14-21 2.1 关联规则概述 14-19 2.1.1 关联规则已有相关概念 14-15 2.1.2 关联规则的度量 15-17 2.1.3 关联规则挖掘的步骤 17 2.1.4 关联规则挖掘的类型 17-18 2.1.5 关联规则挖掘的后续处理 18-19 2.1.6 关联规则挖掘的进一步研究方向 19 2.2 关联规则挖掘算法 19-20 2.3 本章小结 20-21 第3章 基于正负项目的FP-growth算法改进 21-47 3.1 FP-growth算法及分析 21-27 3.1.1 FP-growth算法及描述 21-27 3.1.2 FP-growth算法问题分析 27 3.2 含正负项目的关联规则描述 27-28 3.2.1 相关定义和定理的提出 27-28 3.2.2 含正负项目的关联规则的形式化描述 28 3.3 已有相关工作 28-29 3.4 基于正负项目改进FP-growth算法 29-43 3.4.1 问题的提出 29-30 3.4.2 算法改进思路 30 3.4.3 改进算法的描述 30-43 3.5 MFP PN算法性能分析 43-45 3.5.1 理论分析 43-44 3.5.2 试验分析 44-45 3.6 本章小结 45-47 第4章 引入正负多支持度的MFP PN算法 47-57 4.1 问题的提出 47-49 4.2 正负多支持度PNMS 49-50 4.2.1 最小支持度的扩展 49 4.2.2 最大支持度的引入 49-50 4.3 引入正负多支持度的MFP_PN算法描述 50-52 4.4 算法性能分析 52-56 4.4.1 理论分析 52-53 4.4.2 试验分析 53-56 4.5 本章小结 56-57 结论与展望 57-59 结论 57 进一步工作 57-59 致谢 59-60 参考文献 60-64 攻读硕士学位期间发表的论文及科研成果 64
|
相似论文
- 基于数据挖掘的税务稽查选案研究,F812.42
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 基于关联规则的结构化浏览技术及其应用,TP391.41
- 数据挖掘技术在独立学院教学评估中的应用研究,TP311.13
- 通信行为指纹研究,TP311.13
- 动态关联规则的研究,TP311.13
- 面向隐私保护的关联规则挖掘研究,TP311.13
- 基于关联规则和图排序的句子情感倾向性研究,TP391.1
- 基于聚类分析和关联规则的痹证医案处方用药规律研究,R255.6
- 再生障碍性贫血中医证候分型文献的数据挖掘研究,R259
- 基于数据挖掘的故障诊断方法研究,TP311.13
- 高效频繁项集发现方法与Apriori的改进,TP311.13
- GIS与空间数据挖掘技术在环境污染事故应急处理系统中的应用研究,TP311.13
- 基于数据挖掘技术的教学管理应用研究,TP311.13
- 关联规则在高校图书馆读者数据处理中的应用研究,TP311.13
- 数据挖掘技术在网络故障诊断中的应用研究,TP311.13
- 时间序列关联规则在IT上市企业股价趋势分析中的应用研究,TP311.13
- 数据仓库与数据挖掘技术在高校教学管理系统中的应用研究,TP311.13
- 基于模式识别和数据挖掘的铝工业生产节能降耗研究,TP391.41
- 关联规则挖掘在居住健康影响规律中的应用,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|