学位论文 > 优秀研究生学位论文题录展示
多指标关联分析和预测算法及应用研究
作 者: 谈克林
导 师: 孙志挥
学 校: 东南大学
专 业: 计算机应用
关键词: 离散化 FP树 频繁项集 字典树 并行挖掘 增量挖掘 多指标关联 预测
分类号: TP18
类 型: 硕士论文
年 份: 2006年
下 载: 155次
引 用: 0次
阅 读: 论文下载
内容摘要
本论文研究工作是针对中国国家电力集团总公司信息管理系统中信息分析和预测的需要而进行的,主要研究内容和工作成果如下:(1)为进行多指标关联分析和预测,须将连续数据离散化,本论文分析了几种最常见的连续数据离散化方法,采用了基于密度分布函数聚类的属性离散化方法对国电集团信息系统的多指标数据进行离散。随着业务数据的增加,数据挖掘工作难以在单台机器上进行,为此,本论文在分析目前的几种并行挖掘方法后,提出一种FP树的并行挖掘方法——FPTDP。(2)由于新的业务数据不断加入原数据集,必须考虑利用原数据集经挖掘后已经得到的结果,因此,增量挖掘工作成为本论文的研究内容之一,由于传统的增量挖掘方法,在最坏情况下,需要重新扫描原数据集DB,影响挖掘的性能,本文在分析传统的增量挖掘方法的基础上,提出了基于Dict-Tree树的增量挖掘方法——DTARIDMA,并给出其相应的并行挖掘方法。(3)本论文通过实验证明了FPTDP算法是有效的,可以减轻挖掘工作对单台处理机性能的要求。通过实验比较了DTARIDMA算法与传统增量挖掘方法的性能,并针对国电集团信息的多指标进行了关联规则挖掘,实践证明,DTARIDMA算法是一种行之有效的、切实可行的多指标关联规则挖掘算法。
|
全文目录
摘要 4-5 Abstract 5-8 第一章 绪论 8-11 1.1 业务背景 8-9 1.1.1 业务需求 8 1.1.2 业务分析 8-9 1.2 论文研究的主要内容和论文结构 9-11 第二章 概念与技术 11-17 2.1 基本概念 11-13 2.1.1 最小支持度和最小置信度 11 2.1.2 概念/类描述、特征化和区分 11 2.1.3 分类与预测 11 2.1.4 聚类分析 11-12 2.1.5 孤立点分析 12 2.1.6 演变分析 12 2.1.7 关联分析 12-13 2.2 数据挖掘准备 13-14 2.2.1 数据清理 13 2.2.2 数据集成与选择 13 2.2.3 数据变换 13-14 2.3 数据挖掘方法 14-16 2.3.1 关联规则的Apriori算法及频繁模式增长(FP-growth)算法 14 2.3.2 遗传算法 14-15 2.3.3 决策树方法 15 2.3.4 粗集方法 15 2.3.5 神经网络方法 15-16 2.3.6 统计分析方法 16 2.3.7 模糊集方法 16 2.4 模式评估 16 2.5 知识表示 16-17 第三章 数据预处理 17-22 3.1 数据提取 17 3.2 数据清理 17-18 3.3 数据离散化 18-21 3.4 本系统数据离散化方案的选取 21-22 第四章 并行挖掘方法研究 22-34 4.1 基于矩阵理论 22-24 4.2 奇偶频繁项目集并行挖掘 24 4.3 PFP-growth算法 24-25 4.4 EVE CAN算法 25-26 4.5 一种FP树的并行挖掘算法(FPTDP) 26-34 第五章 增量挖掘方法研究 34-45 5.1 FUP (Fast Update)算法 34-35 5.2 FUP2 算法 35 5.3 一种有效的关联规则增量式更新算法 35-36 5.4 基于前缀广义表的关联规则增量式更新算法 36 5.5 一种基于字典树(Dict-Tree)的关联规则增量挖掘算法DTARIDMA 36-45 5.5.1 定义 37-38 5.5.2 DTARIDMA算法的数据结构 38 5.5.3 字典树(Dict-Tree)的形成过程 38-39 5.5.4 字典频繁树(Dict- Fptree)的形成过程 39 5.5.5 DTARIDMA算法描述 39-42 5.5.6 DTARIDMA算法说明 42-45 第六章 DTARIDMA实验结果及分析 45-48 第七章 总结与进一步工作 48-49 7.1 本论文研究工作的总结 48 7.2 进一步工作 48-49 致谢 49-50 参考文献 50-52 作者简介 52
|
相似论文
- K公司计划及预测改进对于合理库存配置的研究,F224
- 基于图的标志SNP位点选择算法研究,Q78
- 液力减速器制动性能及用于飞机拦阻的仿真研究,TH137.331
- 谐波齿轮传动柔轮应力及轮齿磨损分析,TH132.43
- 深空撞击探测末制导律的设计与分析,V448.2
- 卫星姿态的磁控制方法研究,V448.222
- Hall推进器寿命预测和壁面侵蚀加速实验研究,V439.2
- 高精度激光跟踪装置闭环控制若干关键问题研究,TN249
- 网络语音传输丢包的恢复技术,TN912.3
- 基于神经网络的水厂投药预测控制研究,TP273.1
- 网络化系统的鲁棒模型预测控制,TP273
- 硝酸钠制配过程中pH值的预测控制及仿真研究,TP273
- 离散非线性系统输入到状态稳定性研究,TP13
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 山西省人口中长期发展变化趋势预测,O212.1
- 云南省勐腊县南坡铜矿床成矿规律与成矿预测研究,P618.41
- 计算智能在数字化卷烟叶组配方中的应用研究,TS44
- 地州级卷烟销量预测影响因素研究,F224
- 基于不确定性系统研究方法的高校学生学习成绩分析与预测,G642.4
- 一类孤子方程的可积离散化,O175.2
- 农业昆虫中微RNA基因的生物信息学预测,S186
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com
|