学位论文 > 优秀研究生学位论文题录展示

基于HDFS的华图在线文库系统数据存储与管理研究

作 者: 杨灿
导 师: 王国军
学 校: 中南大学
专 业: 计算机科学与技术
关键词: 云存储 海量存储 Hadoop HDFS 文件系统
分类号: TP333
类 型: 硕士论文
年 份: 2013年
下 载: 13次
引 用: 0次
阅 读: 论文下载
 

内容摘要


作为用户共享信息的平台,文库系统为用户带来了效率和方便,然而,随着用户数据的增长,使用量的加大,文库资源的形式和种类也越来越多,成指数倍增长的海量数据资源给存储系统带来了难题,如何高效存储和管理这些数据成为急待解决的问题。云存储技术的出现,使高效存储和管理这些海量数据成为可能。本文选取了当前非常流行的云平台Hadoop做为在线文库系统的存储平台,利用Hadoop下的云存储文件系统HDFS存储和管理在线文库系统的文档文件。HDFS只是为了解决一般性的数据存储和管理难题,简单将其应用于在线文库系统不能投入实际的应用,必须作必要的改进。在线文库系统的文档资料一般为word、pdf、txt之类的文本文件,这些类型的文件都比较小,90%以上的文档大小在32KB到20MB之间。HDFS的元数据信息是存储在元数据节点的内存中,因此在存储海量的小文件时,会导致HDFS元数据节点(NameNode)内存的过量消耗,进而降低整个HDFS系统的存储容量,因此本文提出了一种将小文件合并成大文件的存储优化方案,有效地减少了元数据节点的内存损耗。另一方面,考虑到合并后存取速度的折损,本文还提出了一种数据预取机制,该机制包括两级缓存,通过这两级缓存可以大大提升用户文件读取的流畅度,缓解云存储元数据管理节点的压力。图22幅,表3个,参考文献60篇。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-14
  1.1 研究背景及意义  8-9
  1.2 国内外研究现状  9-12
    1.2.1 国内研究现状  10-11
    1.2.2 国外研究现状  11-12
  1.3 研究目标和研究内容  12-13
    1.3.1 研究目标  12
    1.3.2 研究内容  12-13
  1.4 本文组织结构  13-14
2 云计算与Hadoop  14-23
  2.1 云计算  14-16
    2.1.1 云计算的概念  14-15
    2.1.2 云计算的特点  15-16
  2.2 云存储  16-17
    2.2.1 云存储的定义  16
    2.2.2 云存储的特点  16-17
  2.3 云计算与云存储的关系  17-18
  2.4 Hadoop  18-21
    2.4.1 HDFS简介  19-20
    2.4.2 MapReduce简介  20-21
  2.5 本章小结  21-23
3 云存储中小文件的优化  23-39
  3.1 HDFS的小文件存储问题  23-29
    3.1.1 HDFS的结构  23-26
    3.1.2 HDFS的数据管理策略  26-27
    3.1.3 小文件存储问题  27-29
  3.2 小文件存取优化方案  29-33
    3.2.1 在线文库系统结构  30-31
    3.2.2 在线文库系统的数据存储  31-33
  3.3 小文件优化方案设计  33-38
    3.3.1 小文件合并与上传  33-34
    3.3.2 小文件的预取  34-37
    3.3.3 小文件的读取与下载  37-38
  3.4 本章小结  38-39
4 在线文库系统关键技术的设计与实现  39-58
  4.1 华图在线文库系统设计目标  39
  4.2 在线文库系统云存储的实现  39-52
    4.2.1 前台文档上传  39-43
    4.2.2 小文件合并  43-45
    4.2.3 文件迁移至HDFS  45-49
    4.2.4 文档的读取与下载  49-52
  4.3 模拟实验和性能分析  52-57
    4.3.0 Hadoop平台的搭建  52-54
    4.3.1 数据集  54-55
    4.3.2 内存测试  55-56
    4.3.3 小文件读取性能测试  56-57
  4.4 本章小结  57-58
5 总结与展望  58-60
  5.1 工作总结  58-59
  5.2 前景展望  59-60
参考文献  60-64
攻读学位期间主要研究成果  64-65
致谢  65

相似论文

  1. 基于WINDOWS平台文件安全机制的研究,TP309
  2. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  3. 星载多片闪存磨损均衡策略研究,TP333
  4. 基于大容量NAND闪存文件系统关键技术研究,TP333
  5. 嵌入式系统中的Flash存储管理分析与设计,TP368.1
  6. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  7. 基于Hadoop的移动学习系统设计与实现,G434
  8. 基于HADOOP架构的社保项目网络日志分析系统的研究,TP311.52
  9. 基于MapReduce模型的eMTM三维人体模型生成引擎,TP391.41
  10. 基于云计算的ITIL运维,TP311.52
  11. 基于云计算的软件资源服务平台研究,TP311.52
  12. 基于IP协议的网络轮询实现,TP311.52
  13. 海量数据的快速查询算法研究,TP311.13
  14. 基于Google云计算平台的Web应用系统设计及实现,TP393.09
  15. 高速网络环境下的入侵检测系统的研究,TP393.08
  16. NAND Flash文件系统研究与实现,TP333
  17. 基于Hadoop的云存储系统客户端的设计与实现,TP333
  18. 基于PCIE接口混合存储系统的设计与实现,TP333
  19. 云计算平台上的增量学习研究,TP311.13
  20. 基于远程控制的SD卡文件管理,TP273
  21. 蜜罐文件系统的智能内核级中间件研究,TP393.08

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 存贮器
© 2012 www.xueweilunwen.com