学位论文 > 优秀研究生学位论文题录展示

基于列数据库存储稀疏数据压缩算法的研究

作 者: 乔晓丽
导 师: 孙华志
学 校: 天津师范大学
专 业: 计算机应用技术
关键词: 列存储数据库系统 稀疏数据库 压缩技术 Lempel-Ziv 查询效率
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 107次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着数据仓库、决策支持等OLAP技术的广泛应用,数据库系统对执行引擎查询效率的要求越来越高,因此人们提出了一种的新的数据库系统设计理念,即以列为基本存储单位的列存储数据库系统。本文首先将列存储数据库系统与行存储数据库系统之间在存储结构、查询效率上进行对比,得出列存储数据库系统在查询执行效率上优于行存储数据库系统的结论。研究了列存储数据库系统中的所适宜采用的字典编码、行程编码以及位向量编码等压缩技术。通过分析查询过程中不同属性列连接的时机的特点,研究后物化技术对于列存储数据库系统查询效率的影响,并进一步研究采取直接访问压缩态数据的策略对数据库系统性能的影响。‘结合列存储数据库系统与稀疏数据自身的特点,本文提出了一种列存储数据库系统适宜存储稀疏数据的观点,并给出稀疏数据库的设计方式。通过研究稀疏数据的应用场景,分析稀疏数据的存储结构特点,给出稀疏数据库常见的数据模型。最后本文着重研究了字典编码压缩算法中的Lempel-Ziv,分析并比较其两种分支算法LZ77和LZ78各自的优缺点,提出了一种基于LZ77和LZ78算法的改进算法,以便利用两者各自的优点提高算法的性能。进而通过实验,将改进后的算法在压缩率和压缩时间上与LZ77和LZ78算法相比较,得出改进后算法在整体上的性能优于LZ77和LZ78。

全文目录


摘要  5-6
Abstract  6-9
第一章 引言  9-12
  1.1 列存储数据库系统产生的背景  9
  1.2 OLAP软件的特点  9-10
  1.3 列存储数据库系统的发展现状  10
  1.4 稀疏数据的应用场景  10-11
  1.5 本文的主要贡献  11-12
第二章 列存储数据库系统研究的相关技术  12-25
  2.1 列存储数据库系统与行存储数据库系统比较  12-16
    2.1.1 列存储数据库的优势  12-14
    2.1.2 研究列数据库的技术  14-16
  2.2 压缩技术  16-19
    2.2.1 消零或空格符法  17
    2.2.2 字典编码  17-18
    2.2.3 行程编码  18-19
    2.2.4 位向量编码  19
    2.2.5 Lempel-Ziv压缩算法  19
  2.3 物化技术  19-22
    2.3.1 查询处理和优化  20-21
    2.3.2 EM与LM物化技术比较  21-22
  2.4 分布式特点  22-25
第三章 压缩态数据访问  25-30
  3.1 压缩态整数访问  25-28
    3.1.1 整数压缩流程  26-27
    3.1.2 访问定位方式  27-28
  3.2 OLAP压缩态数据访问  28-30
    3.2.1 压缩原理  28
    3.2.2 聚集算法访问流程  28-30
第四章 稀疏数据库的设计  30-41
  4.1 稀疏数据  30-32
    4.1.1 稀疏数据  30
    4.1.2 稀疏模式  30-32
  4.2 稀疏数据的应用场景  32-36
    4.2.1 资源描述框架  33-34
    4.2.2 XML  34-35
    4.2.3 GEM模型  35-36
  4.3 数据模型  36-41
第五章 Lempel-Ziv算法实现稀疏数据压缩  41-55
  5.1 Lempel-Ziv算法  41-42
  5.2 LZ77  42-46
    5.2.1 编码原理  42-44
    5.2.2 算法  44-46
  5.3 LZ78  46-49
    5.3.1 编码原理  46-47
    5.3.2 算法  47-49
  5.4 算法改进  49-55
    5.4.1 最优二叉树实现查找  49-50
    5.4.2 算法实现  50-54
    5.4.3 实验结果  54-55
第六章 难点与展望  55-56
参考文献  56-58
致谢  58-59

相似论文

  1. 基于3G通信网络的无线视频服务器设计与实现,TN929.5
  2. 脑电信号的复杂性分析,R318.0
  3. 基于P2P的物联网信息发现服务的研究,TN929.5
  4. 高校教室视频监控系统的设计与实现,TP277
  5. 数控加工刀位轨迹压缩技术,TG659
  6. 循环插值差分脉冲编码调制算法研究,TP391.41
  7. 基于H.264编码标准的视频点播系统的设计与实现,TN948.64
  8. 数据库密文索引查询技术的研究,TP311.13
  9. 名址分离下映射系统的分层设计研究,TP393.02
  10. 基于Brew mp平台应用引擎的优化和测试高效性研究,TP391.3
  11. 基于FPGA的无损压缩技术研究,TN791
  12. 基于DHT的LISP网络映射系统的研究,TP393.01
  13. Ogg嵌入式音频播放器的实现,TN912.2
  14. 视频服务器中信号流的研究与应用,TP277
  15. 生物序列进化树的构建,Q11
  16. 特征向量递推估计算法的研究及在谱估计中的应用,TN911
  17. 基于Dwarf的语义OLAP关键技术研究与实现,TP311.11
  18. X波段过模波导高功率微波脉冲压缩技术研究,TN814
  19. 一个基于SIP协议的IP电话系统终端的研究,TN916.3
  20. 远程故障诊断系统通信技术研究,TP277

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com