学位论文 > 优秀研究生学位论文题录展示
面向大数据的高维数据挖掘技术研究
作 者: 楼巍
导 师: 曹家麟
学 校: 上海大学
专 业: 控制理论与控制工程
关键词: 大数据 高维数据挖掘 三维矩阵 协同进化 超图
分类号: TP311.13
类 型: 博士论文
年 份: 2013年
下 载: 1309次
引 用: 0次
阅 读: 论文下载
内容摘要
面对大数据时代的到来,传统的数据处理方式面临着新的严峻挑战,大数据时代的大量化(Volume)、多样化(Variety)、快速化(Velocity)和价值密度低(Value)等特点让传统的搜索方法和工具有时只能望“数据”兴叹。只有面向大数据的技术不断发展,才能将大数据时代带来的挑战变为机遇,更好地运用这个重大战略资源,并有效构建相适应的数学模型和工具,真正将海量数据变化为有效信息。本文以面向大数据的高维数据挖掘技术为研究对象,结合项目的需求,为了实现“从数据的个体研究变为数据系统研究”、“从数据的被动验证变为主动发现”,做了以下几个主要方面的研究和探索:(1)在大数据时代,由于数据的来源较多,使得数据融合尤为重要。本文采用了数据预处理技术,如数据清理、数据集成、数据选择等方法,最大范围地将数据整合在同一个标准下,解决了数据的融合问题。大大提高了数据挖掘的质量,降低实际处理所需要的时间。(2)建立了基于三维矩阵的数学模型。将数据的每个属性定义为空间中的一个维度,构成一个N维空间。将其属性值用向量来表达,再转化以矩阵形式表示,每条记录的信息用一个M×N矩阵表示。这样一系列的矩阵可以将所有的记录表示成一个三维矩阵,此矩阵是后续算法的基础。(3)将仿生学优化算法应用于高维数据的关联规则分析中。对传统遗传算法应用于高维数据关联规则挖掘时出现的早熟收敛和后期收敛速度慢等问题,采用了一种协同进化算法,并引入了一种信息交互机制,使两个种群协同进化,弥补遗传算法的不足。实验证明在可接受的时间复杂度前提下,该协同进化算法是一种能有效避免早熟收敛等现象的全局优化算法,应用于高维数据集时,提取出的关联规则更为有效。(4)引入了超图和系统的概念,探索在三维矩阵模型上建立超图,并针对大数据的特点,结合系统的概念采用了新的超边定义方法,提高了处理问题的能力;在基于无向超图的聚类分析中,论文应用超图分割算法HMETIS进行聚类,实现了高质量的聚类分析;在基于有向超图的关联规则冗余及环路检测中,论文将关联规则转化为有向超图,并重新定义了邻接矩阵,对冗余和环路的检测转化为对于超图中连通块和圈的处理,为关联规则的冗余处理提供了新的思路和方法。(5)将以上研究产生的新方法应用于实际项目的数据处理中,实验结果验证了本论文采用的三维矩阵数学模型和相关的数据挖掘算法能够从高维数据中发现新的高质量的知识。
|
全文目录
相似论文
- 媒介在乡村日常生活中的角色,D422.7
- 分布式审计系统中消息广播和超大数据传输方法的研究,TP338.8
- 超高速网络中基于终端限制的大数据传输问题的研究,TN919.3
- 基于改进蚁群算法的多机协同突防航迹规划方法研究,V249.1
- 基于属性图和聚类树的海量图像检索关键技术研究,TP391.41
- 社会网络的节点重要性评估与社区发现研究,O157.5
- 关于几类图的分数色数,O157.5
- 基于可扩展哈希算法的并行爬虫动态负载均衡实现,TP391.3
- 供应链联盟协同进化的路径研究,F274
- 物流生态系统的协同进化研究,F259.2
- 基于协同进化粒子群的聚合反应优化研究,TP18
- 基于协同进化的检测器生成算法,TP393.08
- 基于大数据集的DEM数据管理与调度关键技术研究,TP391.41
- 两种忍冬属植物和糠椴的传粉生物学观察,Q948
- 发动机试车高速采集数据工程数据库关键技术研究,TP311.13
- 机器学习理论研究及其在车载导航系统中的应用,TN966
- 基于GPU编程的体绘制算法研究及应用,TP391.41
- 基于多智能体协同进化的多目标跟踪算法研究,TP391.41
- 基于IDMA的交织技术研究,TN929.533
- 多波段多极化SAR图像配准技术研究,TN957.52
- 概率方法在超图二染色问题中的应用,O157.5
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|