学位论文 > 优秀研究生学位论文题录展示

面向归档存储的重复数据删除优化方法研究

作 者: 韩帅军
导 师: 黄建忠
学 校: 华中科技大学
专 业: 计算机系统结构
关键词: 重复数据删除 分布式存储 哈希指纹过滤 元数据组织 数据布局方式
分类号: TP333
类 型: 硕士论文
年 份: 2013年
下 载: 12次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着社会信息化水平的提高,数据变得越来越重要。与此同时,企业数据中心的存储需求量呈爆炸式增长。目前的存储系统主要是从数据的读写性能和可靠性方面进行设计,忽略了数据之间的关联和冗余特性。这不仅造成了存储空间的浪费,也使得用户难以对数量庞大、结构复杂的数据进行有效的管理。针对此,近年来出现了重复数据删除技术(De-duplication)。在分析重复数据删除系统中元数据访问、查询特性和数据的布局及读写特性的基础上,给出了一种元数据与数据分离的重复数据删除系统架构方案:(1)采用由客户端、元数据服务器和存储节点构成的三方架构;(2)将元数据访问分离到客户端与元数据服务器间,将文件内容访问分离到客户端与存储节点间,从而该方案具有高可扩展性和高访问并发性。在去重功能上,(1)采用固定分块的数据划分方法,使用哈希算法MD5、SHA-1等作为数据分块的哈希指纹;(2)使用两层Bloom Filter对数据分块的哈希指纹进行快速判别和过滤,并使用B+树索引结构作为哈希指纹元数据的持久化存储方案。为了进一步优化I/O性能,(1)采用按照数据流分区域存储的数据布局策略,获得数据访问的空间局部性;(2)结合客户端元数据及数据缓存机制,提高文件访问的缓存命中率和文件读写的性能。最后,设计并实现了一个三方架构的重复数据删除系统原型,在系统原型之上进行了功能和性能测试。功能测试结果表明,上述重复数据删除方案在虚拟机镜像的测试集下能获得130%的数据压缩率;性能测试结果表明,缓存机制可以提高文件访问的性能;指纹过滤统计表明,采用的两层Bloom Filter具有较高的指纹过滤率,0.071%的实际误判率在0.1%的理论误判率所允许的范围内。

全文目录


摘要  4-5
Abstract  5-9
1 绪论  9-15
  1.1 课题研究背景  9-10
  1.2 国内外研究现状  10-13
  1.3 课题研究工作  13-14
  1.4 论文组织结构  14-15
2 重复数据删除相关技术  15-20
  2.1 哈希指纹算法  15-16
  2.2 数据划分方法  16-18
  2.3 吞吐率提升方法  18-19
  2.4 本章小结  19-20
3 重删系统分析与设计  20-36
  3.1 系统总体设计  20-24
  3.2 读写特性分析  24-28
  3.3 关键设计思想  28-35
  3.4 本章小结  35-36
4 重删原型系统实现  36-45
  4.1 开发环境与工具  36
  4.2 关键数据结构  36-40
  4.3 重删功能模块实现  40-44
  4.4 本章小结  44-45
5 测试与分析  45-54
  5.1 测试环境  45-46
  5.2 重删功能测试  46-49
  5.3 重删性能测试  49-53
  5.4 本章小结  53-54
6 总结与展望  54-56
  6.1 全文总结  54-55
  6.2 工作展望  55-56
致谢  56-57
参考文献  57-61

相似论文

  1. 广域网数据压缩算法的研究与实现,TP391.41
  2. 重复数据删除技术的研究与实现,TP333
  3. 在线备份系统中存储服务器的研究与实现,TP333
  4. 在线重复数据删除技术的研究与实现,TP333
  5. 虚拟桌面环境下数据去冗余系统的设计与实现,TP333
  6. 云备份中的双指纹校验与多线程传输技术研究,TP309.3
  7. 支持重复数据删除的网络备份系统中存储服务器的设计与实现,TP309.3
  8. 分布式存储网络中的数据完整性校验与修复,TP333
  9. 文件同步服务中数据同步传输消重策略研究,TP391.1
  10. 舰载分布式构件系统的容错技术研究,U674.70
  11. 基于分布式存储的移动GIS技术与应用研究,TN929.5
  12. 基于重复数据删除技术的数据容灾系统的研究,TP309.3
  13. 一种轻量级快速网络备份系统的设计与实现,TP309.3
  14. 海量数据备份的消冗机制研究与实现,TP309.3
  15. 空间数据库管理系统及其Oracle实现,P208
  16. 基于流程式导航的人力资源管理系统的研究与实践,F272
  17. 基于分布式存储的虚拟地理环境关键技术研究,P208
  18. 基于层次模型的数据容灾技术研究,TP309.3
  19. 基于网络编码的分布式存储容错机制研究,TP302.8
  20. 基于对等结构的分布式存储技术研究,TP333
  21. 分布式数据存储和处理的若干技术研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 存贮器
© 2012 www.xueweilunwen.com