学位论文 > 优秀研究生学位论文题录展示
面向海量数据的云存储系统实现与应用研究
作 者: 艾明
导 师: 孙明明;张重阳
学 校: 南京理工大学
专 业: 计算机技术
关键词: 海量数据 云计算 云存储 GlusterFS Nutch Hadoop Mahout 文本聚类
分类号: TP333
类 型: 硕士论文
年 份: 2012年
下 载: 390次
引 用: 1次
阅 读: 论文下载
内容摘要
随着互联网、移动互联网和物联网的发展,网上的用户数量日益增加,数据也呈爆炸性增长,海量数据的时代已经来临,尤其是在互联网、电信、金融等行业,几乎已经到了“数据就是业务本身”的地步。面临如此海量的数据,首先摆在眼前的问题就是:这种数据的大小已经超出了单个机器的负载能力,如何构建大规模、高效率、易于扩展、高可靠的存储系统,是迫切需要解决的问题;其次在信息社会,信息是至关重要的,在海量数据中,有一个重要的趋势,即数据的社会化,这也是我们通常所说的非结构化数据(例如:文本、图像、音频、视频等),如何从海量数据中获取有用的信息,也成为近年来互联网的一大挑战问题。基于上述提出的问题,本文对海量数据存储及海量数据挖掘做了调研。由于网络中数据的表现形式是多种多样的,为了方便研究,本文以科研工作者管理文献为例,将海量数据来源具体化为网络中的电子文献数据。在此基础上,本文通过云存储和云计算平台,成功搭建了一个面向海量文献数据的云存储系统,该系统实现了文献数据管理与分析。系统首先需要用户注册,然后用户可以上传文献(如PDF文件)存储在云端,接着用户便可以管理自己上传的文献,如增加文献、删除文献等,同时系统还提供文献信息检索和聚类分析功能。
|
全文目录
摘要 3-4 Abstract 4-7 1 绪论 7-14 1.1 研究背景及意义 7-10 1.1.1 网络时代的数据挑战 7 1.1.2 大数据时代的知识挑战 7-8 1.1.3 应对数据和知识的双重挑战 8-10 1.2 国内外研究现状 10-13 1.3 本文目录组织 13-14 2 本文系统需求与架构 14-18 2.1 从数据获取知识的迫切需求 14-16 2.2 实现从海量数据到知识的三层架构 16-18 3 海量数据存储子系统 18-29 3.1 存储子系统架构 18-19 3.2 用户管理模块 19-20 3.3 文件存储管理模块 20-29 3.3.1 分布式文件系统介绍 20-21 3.3.2 HDFS简介 21-22 3.3.3 GlusterFS简介 22-23 3.3.4 GlusterFS服务端 23-26 3.3.5 GlusterFS客户端 26-29 4 海量信息检索子系统 29-40 4.1 检索子系统架构 29 4.2 信息收集模块 29-32 4.2.1 网络爬虫概述 29-30 4.2.2 Nutch简介 30-31 4.2.3 Nutch爬虫运行流程 31-32 4.3 信息索引模块 32-35 4.3.1 Nutch索引过程 32-33 4.3.2 Nutch抓取结果分析 33-35 4.4 信息查询模块 35-40 4.4.1 Lucene索引文件简介 36-37 4.4.2 倒排索引原理简介 37-38 4.4.3 Nutch搜索 38-40 5 海量知识挖掘子系统 40-52 5.1 数据挖掘概述 40-41 5.2 文本聚类 41-45 5.2.1 中文分词 42 5.2.2 文本表示模型 42-44 5.2.3 文本相似度计算 44-45 5.3 聚类算法K-means 45-52 5.3.1 K-means算法流程 45-46 5.3.2 MapReduce编程模型 46-49 5.3.3 Mahout Kmeans算法实现 49-52 6 实验与分析 52-64 6.1 实验流程设计 52-53 6.2 实验平台搭建 53-59 6.2.1 GlusterFS集群搭建 53-54 6.2.2 Hadoop集群搭建 54-56 6.2.3 Nutch环境搭建 56-58 6.2.4 Mahout环境搭建 58-59 6.3 实验结果展示 59-64 7 总结与展望 64-66 致谢 66-67 参考文献 67-69
|
相似论文
- 海量数据压缩、操作和处理方法的研究,TP311.13
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
- 云计算平台下的动态信任模型的研究,TP309
- 演化聚类算法及其应用研究,TP311.13
- 基于云计算的数字图书馆服务模式研究,G250.76
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
- 基于信誉度的云环境下资源管理的研究,TP315
- 基于Google平台促销模块与商品模块的设计与实现,TP311.52
- 基于云计算的ITIL运维,TP311.52
- 基于云计算的软件资源服务平台研究,TP311.52
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- 基于人工免疫的病毒检测技术研究,TP393.08
- 基于Google云计算平台的Web应用系统设计及实现,TP393.09
- 云计算数据隐私保护方法的研究,TP393.08
- 基于启发式算法的恶意代码检测系统研究与实现,TP393.08
- 高速网络环境下的入侵检测系统的研究,TP393.08
- 基于Hadoop的云存储系统客户端的设计与实现,TP333
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 存贮器
© 2012 www.xueweilunwen.com
|