学位论文 > 优秀研究生学位论文题录展示
云计算中MapReduce性能优化及应用
作 者: 陈香香
导 师: 吴开贵
学 校: 重庆大学
专 业: 计算机系统结构
关键词: 云计算 海量数据 MapReduce 编程模型 分类器
分类号: TP3
类 型: 硕士论文
年 份: 2011年
下 载: 718次
引 用: 3次
阅 读: 论文下载
内容摘要
自2007年以来,云计算已经逐渐成为国际IT界比较热门的概念,随着数据量的激增,如何快速高效地存储和计算海量数据成为目前科学界迫切需要解决的问题,而这类问题恰恰是云计算推出的动力之一,使得云计算的普及和应用已经成为业界不可回避和逆转的趋势。但是就云计算本身说,它只是一种思维模式,要想真正发挥它的优势,除了必要的硬件设施之外,更重要的是要有支撑和实现云计算思想的编程模型,而Google提出的MapReduce并行编程模型,以其简单有力的接口使得并行处理变得简单易行,为云计算中海量数据的计算提供了软件支持。本文详细分析了Google MapReduce及其底层文件存储系统GFS的概念、优点和实现机制。然后针对MapReduce的执行流程中对中间结果数据的处理机制不灵活,没有在第一时间减少中间结果的数量的缺点,在MapRedeuce的map函数中引入关联数组,可以使中间结果的合并操作在Map函数中自动进行,更有效的减少中间结果的数量,降低网络负担,从而提高系统的执行效率。本文在对MapReduce进行改进之后,设计和实现了基于MapRedeuce的文本分类器。在文本处理和数据挖掘领域,海量数据的分类问题是经常遇到的,然而传统的算法只能适应于小规模的数据,随着数据量的增大,算法的执行速度越来越慢,实时性越来越差,成为传统数据挖掘的瓶颈。这种新的分类器构建方法在集群中并行地实现分类器的构建,大大提高了效率,使得算法具有更好的实时性。为了验证MapReduce改进之后的性能,我们采用Mapreduce的开源实现Hadoop来进行实验,以运行时间作为衡量算法的标准,结果证明新的算法的效率比传统的算法要高的多。对于分类器的实现,我们也是在Hadoop平台下进行的,通过结果对比可知,基于MapReduce的分类器的具有更好的效率和可扩展性。
|
全文目录
中文摘要 3-4 英文摘要 4-8 1 绪论 8-13 1.1 研究意义 8 1.2 国内外研究现状 8-11 1.2.1 云计算发展现状 8-10 1.2.2 MapReduce 发展现状 10-11 1.3 论文的研究目的及内容 11 1.3.1 本文的研究目的 11 1.3.2 本文研究的主要内容 11 1.4 论文组织结构 11-12 1.5 本章小结 12-13 2 云计算基础理论 13-21 2.1 云计算概念 13-14 2.2 云计算特点及服务类型 14-16 2.3 云计算的实现机制 16-17 2.4 云计算与网格计算 17-19 2.5 云计算关键技术 19-20 2.6 本章总结 20-21 3 MapReduce 编程模型及其开源平台 21-35 3.1 MapReduce 概述 21-22 3.2 MapReduce 编程模型 22-24 3.3 MapReduce 的实现机制 24-27 3.4 MapReduce 底层文件系统 27-31 3.4.1 系统架构 28-30 3.4.2 容错机制 30-31 3.5 Hadoop 开源云计算系统 31-34 3.5.1 Hadoop 概述 31-32 3.5.2 Hadoop 基本架构 32-33 3.5.3 Hadoop MapReduce 33-34 3.5.4 Hadoop 运行流程 34 3.6 本章小结 34-35 4 MapReduce 中间结果处理的优化 35-48 4.1 关联数组 35-36 4.2 Mapreduce 算法优化 36-43 4.3 搭建实验平台 43-45 4.3.1 硬件平台及参数配置 43 4.3.2 系统安装部署 43-45 4.4 实验设置及结果 45-47 4.4.1 实验设置 45 4.4.2 实验结果 45-47 4.5 本章小结 47-48 5 应用MapReduce 构建文本分类器 48-58 5.1 分类算法 48-52 5.1.1 特征抽取 50-51 5.1.2 特征权重 51-52 5.2 基于MapReduce 的文本分类器模型 52-54 5.2.1 系统结构 53 5.2.2 MapReduce 中的key-value 对的类型 53-54 5.3 算法实现 54-56 5.4 实验 56-57 5.5 本章小结 57-58 6 总结与展望 58-60 6.1 总结 58-59 6.2 后续工作展望 59-60 致谢 60-61 参考文献 61-64 附录 64 作者在攻读学位期间发表的论文目录 64
|
相似论文
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 海量数据压缩、操作和处理方法的研究,TP311.13
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
- 云计算平台下的动态信任模型的研究,TP309
- 基于云计算的数字图书馆服务模式研究,G250.76
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
- 基于信誉度的云环境下资源管理的研究,TP315
- 基于Google平台促销模块与商品模块的设计与实现,TP311.52
- 基于单目视觉的车辆检测算法研究与实现,TP274
- 基于多核学习的高性能核分类方法研究,TP391.41
- 基于云计算的ITIL运维,TP311.52
- 基于云计算的软件资源服务平台研究,TP311.52
- 基于参考图像的乳腺肿块诊断方法研究,TP391.41
- 基于人工免疫的病毒检测技术研究,TP393.08
- 基于Google云计算平台的Web应用系统设计及实现,TP393.09
- 云计算数据隐私保护方法的研究,TP393.08
- 基于启发式算法的恶意代码检测系统研究与实现,TP393.08
- 高速网络环境下的入侵检测系统的研究,TP393.08
- 基于改进的非参数回归交通流量预测方法,F570
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术
© 2012 www.xueweilunwen.com
|