学位论文 > 优秀研究生学位论文题录展示
基于HDFS的华图在线文库系统数据存储与管理研究
作 者: 杨灿
导 师: 王国军
学 校: 中南大学
专 业: 计算机科学与技术
关键词: 云存储 海量存储 Hadoop HDFS 文件系统
分类号: TP333
类 型: 硕士论文
年 份: 2013年
下 载: 13次
引 用: 0次
阅 读: 论文下载
内容摘要
作为用户共享信息的平台,文库系统为用户带来了效率和方便,然而,随着用户数据的增长,使用量的加大,文库资源的形式和种类也越来越多,成指数倍增长的海量数据资源给存储系统带来了难题,如何高效存储和管理这些数据成为急待解决的问题。云存储技术的出现,使高效存储和管理这些海量数据成为可能。本文选取了当前非常流行的云平台Hadoop做为在线文库系统的存储平台,利用Hadoop下的云存储文件系统HDFS存储和管理在线文库系统的文档文件。HDFS只是为了解决一般性的数据存储和管理难题,简单将其应用于在线文库系统不能投入实际的应用,必须作必要的改进。在线文库系统的文档资料一般为word、pdf、txt之类的文本文件,这些类型的文件都比较小,90%以上的文档大小在32KB到20MB之间。HDFS的元数据信息是存储在元数据节点的内存中,因此在存储海量的小文件时,会导致HDFS元数据节点(NameNode)内存的过量消耗,进而降低整个HDFS系统的存储容量,因此本文提出了一种将小文件合并成大文件的存储优化方案,有效地减少了元数据节点的内存损耗。另一方面,考虑到合并后存取速度的折损,本文还提出了一种数据预取机制,该机制包括两级缓存,通过这两级缓存可以大大提升用户文件读取的流畅度,缓解云存储元数据管理节点的压力。图22幅,表3个,参考文献60篇。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-14 1.1 研究背景及意义 8-9 1.2 国内外研究现状 9-12 1.2.1 国内研究现状 10-11 1.2.2 国外研究现状 11-12 1.3 研究目标和研究内容 12-13 1.3.1 研究目标 12 1.3.2 研究内容 12-13 1.4 本文组织结构 13-14 2 云计算与Hadoop 14-23 2.1 云计算 14-16 2.1.1 云计算的概念 14-15 2.1.2 云计算的特点 15-16 2.2 云存储 16-17 2.2.1 云存储的定义 16 2.2.2 云存储的特点 16-17 2.3 云计算与云存储的关系 17-18 2.4 Hadoop 18-21 2.4.1 HDFS简介 19-20 2.4.2 MapReduce简介 20-21 2.5 本章小结 21-23 3 云存储中小文件的优化 23-39 3.1 HDFS的小文件存储问题 23-29 3.1.1 HDFS的结构 23-26 3.1.2 HDFS的数据管理策略 26-27 3.1.3 小文件存储问题 27-29 3.2 小文件存取优化方案 29-33 3.2.1 在线文库系统结构 30-31 3.2.2 在线文库系统的数据存储 31-33 3.3 小文件优化方案设计 33-38 3.3.1 小文件合并与上传 33-34 3.3.2 小文件的预取 34-37 3.3.3 小文件的读取与下载 37-38 3.4 本章小结 38-39 4 在线文库系统关键技术的设计与实现 39-58 4.1 华图在线文库系统设计目标 39 4.2 在线文库系统云存储的实现 39-52 4.2.1 前台文档上传 39-43 4.2.2 小文件合并 43-45 4.2.3 文件迁移至HDFS 45-49 4.2.4 文档的读取与下载 49-52 4.3 模拟实验和性能分析 52-57 4.3.0 Hadoop平台的搭建 52-54 4.3.1 数据集 54-55 4.3.2 内存测试 55-56 4.3.3 小文件读取性能测试 56-57 4.4 本章小结 57-58 5 总结与展望 58-60 5.1 工作总结 58-59 5.2 前景展望 59-60 参考文献 60-64 攻读学位期间主要研究成果 64-65 致谢 65
|
相似论文
- 基于WINDOWS平台文件安全机制的研究,TP309
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 星载多片闪存磨损均衡策略研究,TP333
- 基于大容量NAND闪存文件系统关键技术研究,TP333
- 嵌入式系统中的Flash存储管理分析与设计,TP368.1
- 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
- 基于Hadoop的移动学习系统设计与实现,G434
- 基于HADOOP架构的社保项目网络日志分析系统的研究,TP311.52
- 基于MapReduce模型的eMTM三维人体模型生成引擎,TP391.41
- 基于云计算的ITIL运维,TP311.52
- 基于云计算的软件资源服务平台研究,TP311.52
- 基于IP协议的网络轮询实现,TP311.52
- 海量数据的快速查询算法研究,TP311.13
- 基于Google云计算平台的Web应用系统设计及实现,TP393.09
- 高速网络环境下的入侵检测系统的研究,TP393.08
- NAND Flash文件系统研究与实现,TP333
- 基于Hadoop的云存储系统客户端的设计与实现,TP333
- 基于PCIE接口混合存储系统的设计与实现,TP333
- 云计算平台上的增量学习研究,TP311.13
- 基于远程控制的SD卡文件管理,TP273
- 蜜罐文件系统的智能内核级中间件研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 存贮器
© 2012 www.xueweilunwen.com
|