学位论文 > 优秀研究生学位论文题录展示
基于HDFS的多用户并行文件IO的设计与实现
作 者: 金松昌
导 师: 方滨兴;杨树强
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 海量数据管理 分布式文件系统 Hadoop 并行文件IO
分类号: TP338.6
类 型: 硕士论文
年 份: 2010年
下 载: 385次
引 用: 4次
阅 读: 论文下载
内容摘要
随着计算机网络及其应用的快速发展,特别是Google提出基于Internet的海量数据存储和Map-reduce并行计算思想以来,网络化的数据存储管理和并行分析处理成为学术界和产业界研究的焦点,其中Hadoop作为该思想的参考实现之一,受到了广泛的关注。Hadoop的核心HDFS分布式文件系统采用锁机制控制文件并行IO,不支持多用户对同一文件的读、写并行,限制了多用户并行文件操作的性能,为此,本文针对海量日志类型数据的特点,提出了一种非基于锁机制的并行文件IO模型,并通过实验,验证了本模型的有效性。本文主要工作包括:(1)对Hadoop的相关工作进行了深入的分析,特别在深入分析其分布式文件系统HDFS的基础上,针对HDFS不支持多用户文件并行读写的不足,提出了使其支持多用户并行文件读写的改进思想。(2)通过分析HDFS的并发控制模型,针对海量日志类数据特点,提出了一种不使用互斥机制的分布式文件系统的多用户并行IO模型,基于该模型,在适当降低数据读取完整性的条件下,可以实现对于同一个文件的多用户读写并行、读读并行。(3)通过对原有HDFS实现的改进,设计实现了一个支持多用户并行IO的分布式文件系统。实验表明,本改进有效提高了多用户并行文件IO的性能。
|
全文目录
摘要 9-10 ABSTRACT 10-11 第一章 绪论 11-25 1.1 互联网应用的特点 11-12 1.2 海量数据存储 12-15 1.2.1 人工管理阶段 12-13 1.2.2 文件系统阶段 13-14 1.2.3 数据库系统阶段 14-15 1.3 海量数据处理 15-19 1.3.1 MPI 16 1.3.2 Map-Reduce 16-17 1.3.3 Dryad 17-19 1.4 云计算 19-23 1.4.1 云计算的特点 19-21 1.4.2 云计算的分类 21-22 1.4.3 Hadoop 云计算平台 22-23 1.5 本文的主要工作 23-24 1.6 本文的组织结构 24-25 第二章 相关技术 25-43 2.1 分布式文件系统 25-35 2.1.1 分布式文件系统的历史 26-27 2.1.2 分布式名字服务 27-28 2.1.3 分布式文件服务 28-34 2.1.4 分布式目录服务 34-35 2.2 并发控制 35-39 2.2.1 什么是并发控制 35-36 2.2.2 锁机制 36-38 2.2.3 乐观并发控制 38 2.2.4 时间戳排序 38-39 2.3 Map-Reduce 并行计算模型 39-41 2.4 本章小结 41-43 第三章 基于HDFS 的文件读写并行设计 43-56 3.1 HDFS 的设计思想 43-44 3.2 HDFS 的体系结构 44-47 3.2.1 HDFS 系统结构 44-45 3.2.2 HDFS 的通信原理 45-47 3.3 HDFS 并发控制模型 47-49 3.4 HDFS 应用的用户视图 49-50 3.5 文件读写并行设计 50-55 3.5.1 设计目标 50-51 3.5.2 设计思路 51-53 3.5.3 WAR(write after read)读写并行 53-54 3.5.4 RAW(read after write)读写并行 54-55 3.6 本章小结 55-56 第四章 文件读写并行的实现 56-65 4.1 HDFS 代码框架 56-58 4.2 本系统的数据流 58-60 4.3 本系统读写并行的实现 60-64 4.4 本章小结 64-65 第五章 实验与分析 65-74 5.1 实验环境安装与部署 65-66 5.2 功能对比实验 66-70 5.2.1 先读后写并行实验 66-68 5.2.2 先写后读并行实验 68-70 5.3 性能对比实验 70-72 5.4 本章小结 72-74 第六章 总结与展望 74-76 6.1 工作总结 74 6.2 前景展望 74-76 致谢 76-77 参考文献 77-80 作者在学期间取得的学术成果 80-81 作者在攻读硕士学位期间参与的科研项目 81
|
相似论文
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
- 基于云计算的软件资源服务平台研究,TP311.52
- 高速网络环境下的入侵检测系统的研究,TP393.08
- 云计算平台上的增量学习研究,TP311.13
- 云环境下MapReduce容错技术的研究,TP302.8
- 基于云存储的手机数据备份系统,TP309.3
- 面向海量数据的云存储系统实现与应用研究,TP333
- 基于云计算的海量视频转换平台的设计与实现,TP311.52
- 分布式文件系统CeipFS的设计与实现,TP309
- 基于IaaS云计算的Web应用技术研究,TP393.09
- 基于Hadoop的倒排索引技术的研究,TP391.3
- 基于云计算的海量数据存储技术的研究及应用,TP333
- 基于Hadoop的海量影像数据管理关键技术研究,TP751
- 非结构化数据统一访问平台及索引技术研究,TP311.52
- 分布式图片搜索引擎设计与实现,TP391.41
- MapReduce集群多用户作业调度方法的研究与实现,TP311.13
- 基于时空折衷算法的Word文档破解研究,TP391.12
- 面向海量数据的分布式文件系统设计和实现,TP316.4
- 分布式文件系统中元数据管理策略的研究,TP316.4
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 各种电子数字计算机 > 并行计算机
© 2012 www.xueweilunwen.com
|