学位论文 > 优秀研究生学位论文题录展示

数据流分析关键技术研究

作 者: 苏亮
导 师: 邹鹏
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 数据流 数据流分析 离群点检测 Skyline计算 子序列匹配 索引结构
分类号: TP311.13
类 型: 博士论文
年 份: 2008年
下 载: 515次
引 用: 6次
阅 读: 论文下载
 

内容摘要


随着硬件、网络与通信技术的飞速发展和现实应用需求的持续推动,数据流(Data Stream)作为一种新的数据类型,在诸如金融分析、网络数据管理、移动对象跟踪、通信网监控和传感器网络数据处理等众多领域有着广泛的应用。传统的数据库查询处理技术通常只适合处理存储在磁盘或内存等介质中的静态数据,难以直接应用到无限、连续、快速、“单遍扫描”的数据流中,因而,数据流应用对数据管理与分析提出了更高的要求。如何从海量流数据中快速提取有价值的信息已成为数据库及相关研究领域面临的一个重大挑战。数据流相关研究已经引起了学术界和工业界的广泛关注,现有的研究可大致分为数据流管理和数据流分析两个方面。本文在总结和分析国内外已有研究工作的成果与不足的基础上,针对数据流分析中的四个重要问题:离群点检测Skyline计算、子序列匹配和高效索引结构,展开深入研究,主要工作包括:1.在分布式数据流离群点检测方面。在比较和分析现有离群点度量的基础上,结合核密度估计技术扩展了基于距离和基于密度的离群点定义。针对分布式数据流离群点检测中面临如何提高全局离群点检测率和降低网络通信开销的两大问题,以常见的星型网络拓扑模型为基础,提出了一种高检测率、低通信开销的分布式数据流离群点检测算法—DisOutlierStreams。采用非参数核密度估计技术快速计算出当前滑动窗口内流数据的概率密度函数,结合指数衰减策略处理数据流的动态演化性,通过散度技术(Divergence Technology)在检测率可控的前提下较大地减少了协调结点与其子结点之间的通信开销。在算法的具体实现上,充分发挥了Matlab软件强大的符号和数值计算功能。理论分析和实验结果表明,与已有同类数据流离群点检测算法相比,该方法的网络传输量与滑动窗口大小无关,更有效地降低了网络通信开销,具有良好的性能和可扩展性。2.在数据流稀疏Skyline计算方面。由于Skyline集合的平均数目与数据点数和数据维数成指数增长,并受数据分布的严重影响,从而Skyline集合的急速增长严重降低了在线服务和决策支持等应用的服务质量。针对该问题,首先在总结已有Skyline计算的相关工作基础上,采用一个Skyline点来代表其周围在可接受偏差δ邻域内的所有Skyline点,给出了数据流稀疏Skyline问题的形式化定义。然后,提出了两个算法:基于界限裁剪的BSS算法和基于特征树的ESS算法。前者以现有数据流Skyline算法为基础,通过界限裁剪策略降低稀疏Skyline的计算开销;而后者则直接对滑动窗口内的流数据构建其稀疏Skyline特征索引树,并支持增量更新、可根据数据分布自适应地调整稀疏Skyline的计算结果。最后实验结果表明,与BSS算法相比,ESS算法具有更强的可控性和更高的处理效率。3.在数据流子序列匹配方面。子序列匹配问题在时间序列数据库中早有研究,但数据流子序列匹配还处于发展初期。本文在总结并分析现有序列匹配度量差异的基础上,选用抗噪音和形变效果良好的动态时间弯曲距离(Dynamic Time WarpingDistance)作为序列匹配的衡量标准,将数据流子序列匹配归纳为“最佳匹配”、“区域匹配”、“最优区域匹配”和“Top-K最优区域匹配”四个子问题。针对已有数据流子序列匹配算法中时间弯曲矩阵计算开销过大的问题,提出了一种低时空复杂度、近实时的数据流子序列匹配算法—FSM,它充分利用相似性阈值和上下界剪枝技术尽量减少时间弯曲矩阵中的冗余计算。理论分析和实验结果表明,与已有数据流子序列匹配算法相比,算法准确率并未有任何降低,在合理设置相似性阈值和查询序列的情况下,仅需增加几个字节的空间开销,计算速度提高明显,特别是在高维流数据和长查询序列下性能提升更为显著。4.在数据流索引结构方面。索引技术是提高数据流查询与分析性能的关键技术之一。本文在比较并分析现有支持数据流频繁更新的R-Tree变种索引的基础上,针对数据流索引结构更需同时考虑如何提高索引更新性能和降低索引存储开销的问题,提出了改进的高效数据流索引结构—QDM-Tree,并给出了相应的数据插入、删除和查询算法。该索引树利用Hash表替换耗时的索引遍历,并支持数据流的Lazy组删除策略;采用“自底向上”的索引更新方式,并结合R-Tree结点的量化压缩技术。实验结果表明,与已有同类索引树相比,QDM-Tree的存储开销与之相当,而更新和查询的性能均有明显的提升。综上所述,本文针对数据流分析中四个关键问题提出了更为高效的解决方法,并就其计算、存储、通信等开销作了全面的分析,对于数据流的理论研究和实用化具有一定的理论意义和应用价值。

全文目录


摘要  10-12
ABSTRACT  12-14
第一章 绪论  14-30
  1.1 研究背景  14-21
    1.1.1 应用背景  14-16
    1.1.2 数据流概念与技术  16-21
  1.2 数据流相关研究工作  21-25
    1.2.1 数据流管理  21-22
    1.2.2 数据流分析  22-24
    1.2.3 研究现状总结  24-25
  1.3 本文工作  25-28
    1.3.1 主要研究内容  25-27
    1.3.2 主要创新点  27-28
  1.4 论文结构  28-30
第二章 分布式数据流离群点检测  30-56
  2.1 问题描述  30-32
    2.1.1 离群点定义  30-31
    2.1.2 分布式数据流离群点检测问题  31-32
  2.2 离群点检测相关工作  32-37
    2.2.1 离群点检测算法分类  32-36
    2.2.2 数据流离群点检测相关工作  36-37
  2.3 核密度估计技术  37-42
    2.3.1 一维核密度估计  38-40
    2.3.2 多维核密度估计  40
    2.3.3 核密度估计的参数选择  40-42
  2.4 基于核密度估计技术的离群点定义  42-44
  2.5 改进的指数衰减策略  44-46
  2.6 降低网络通信开销的方法  46
  2.7 DisOutlierStreams 算法  46-51
    2.7.1 子结点处理算法描述  48-49
    2.7.2 协调结点处理算法描述  49-51
  2.8 实验  51-55
    2.8.1 实验设置  51-52
    2.8.2 实验结果  52-55
  2.9 本章小结  55-56
第三章 数据流稀疏Skyline 计算  56-78
  3.1 问题描述  56-60
    3.1.1 Skyline 问题  56-57
    3.1.2 稀疏Skyline 问题  57-60
  3.2 Skyline 计算相关工作  60-63
    3.2.1 全空间Skyline 计算  60-61
    3.2.2 子空间Skyline 计算  61
    3.2.3 数据流Skyline 计算  61-63
  3.3 基于界限裁剪的基本方法——BSS 算法  63-64
  3.4 基于特征树的增强方法——ESS 算法  64-74
    3.4.1 稀疏Skyline 特征树  64-66
    3.4.2 ESS 算法描述  66-70
    3.4.3 自适应调整策略  70-74
  3.5 实验  74-76
    3.5.1 实验设置  74
    3.5.2 实验结果  74-76
  3.6 本章小结  76-78
第四章 数据流快速子序列匹配  78-96
  4.1 问题描述  78-81
  4.2 序列匹配相关工作  81-85
    4.2.1 Minkowski 距离  81-83
    4.2.2 动态时间弯曲距离  83-85
  4.3 FSM:快速子序列匹配算法  85-93
    4.3.1 上下界策略  87-89
    4.3.2 FSM 算法描述  89-93
  4.4 实验  93-95
    4.4.1 实验设置  93-94
    4.4.2 实验结果  94-95
  4.5 本章小结  95-96
第五章 数据流上改进的索引结构  96-110
  5.1 问题描述  96-97
  5.2 数据流索引相关工作  97-99
    5.2.1 结点存储内容的改进  98
    5.2.2 索引更新方式的改进  98-99
  5.3 QDM-Tree 设计动机  99-101
  5.4 QMBR 和QMBS 的比较  101-102
  5.5 QDM-Tree 索引结构及相关算法  102-105
    5.5.1 QDM-Tree 索引结构  102-103
    5.5.2 插入算法  103-104
    5.5.3 删除算法  104-105
    5.5.4 查询算法  105
  5.6 实验  105-109
    5.6.1 实验设置  106-107
    5.6.2 实验结果  107-109
  5.7 本章小结  109-110
结束语  110-112
致谢  112-114
参考文献  114-132
作者在学期间取得的学术成果  132-133

相似论文

  1. 一种多数据流聚类异常检测算法,TP311.13
  2. 基于数据流异常检测的嵌入式软件容错研究,TP368.1
  3. 存储系统中多维元数据索引的高效更新方法研究,TP333
  4. 基于RFID数据流的基本事件实惠查询处理与优化,TP311.13
  5. 云存储系统高效数据传输机制的研究,TP333
  6. 网间加速技术研究与实现,TP393.2
  7. 安全相关软件的设计方法研究及应用,TP311.52
  8. 基于结构化稀疏谱哈希的图像索引算法,TP391.41
  9. 基于GPU的时间序列并行检索算法研究,TP391.41
  10. Web敏感信息监测优化方法研究,TP393.08
  11. 石油物探中数据库管理技术的研究与应用,TP311.13
  12. 数据流重复数据检测方法的研究,TP311.13
  13. 基于可变滑动窗口的数据流闭合频繁模式挖掘研究,TP311.13
  14. 基于数据流的关联规则挖掘方法的研究,TP311.13
  15. 基于数据流的快速协议判断方法研究,TP393.08
  16. 基于行为特征的P2P流识别技术的研究,TP393.02
  17. 中文网页热门主题获取系统的研究与实现,TP393.092
  18. 关于XML的关系数据库存储查询技术研究,TP311.13
  19. 挖掘概率频繁模式恢复不确定RFID数据流,TP391.44
  20. 职业学校教务管理软件的开发与实现,TP311.52
  21. ARTs-EDB系统的时态数据存储及索引技术研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com