学位论文 > 优秀研究生学位论文题录展示

面向海量数据的云存储系统实现与应用研究

作 者: 艾明
导 师: 孙明明;张重阳
学 校: 南京理工大学
专 业: 计算机技术
关键词: 海量数据 云计算 云存储 GlusterFS Nutch Hadoop Mahout 文本聚类
分类号: TP333
类 型: 硕士论文
年 份: 2012年
下 载: 390次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着互联网、移动互联网和物联网的发展,网上的用户数量日益增加,数据也呈爆炸性增长,海量数据的时代已经来临,尤其是在互联网、电信、金融等行业,几乎已经到了“数据就是业务本身”的地步。面临如此海量的数据,首先摆在眼前的问题就是:这种数据的大小已经超出了单个机器的负载能力,如何构建大规模、高效率、易于扩展、高可靠的存储系统,是迫切需要解决的问题;其次在信息社会,信息是至关重要的,在海量数据中,有一个重要的趋势,即数据的社会化,这也是我们通常所说的非结构化数据(例如:文本、图像、音频、视频等),如何从海量数据中获取有用的信息,也成为近年来互联网的一大挑战问题。基于上述提出的问题,本文对海量数据存储及海量数据挖掘做了调研。由于网络中数据的表现形式是多种多样的,为了方便研究,本文以科研工作者管理文献为例,将海量数据来源具体化为网络中的电子文献数据。在此基础上,本文通过云存储云计算平台,成功搭建了一个面向海量文献数据的云存储系统,该系统实现了文献数据管理与分析。系统首先需要用户注册,然后用户可以上传文献(如PDF文件)存储在云端,接着用户便可以管理自己上传的文献,如增加文献、删除文献等,同时系统还提供文献信息检索和聚类分析功能。

全文目录


摘要  3-4
Abstract  4-7
1 绪论  7-14
  1.1 研究背景及意义  7-10
    1.1.1 网络时代的数据挑战  7
    1.1.2 大数据时代的知识挑战  7-8
    1.1.3 应对数据和知识的双重挑战  8-10
  1.2 国内外研究现状  10-13
  1.3 本文目录组织  13-14
2 本文系统需求与架构  14-18
  2.1 从数据获取知识的迫切需求  14-16
  2.2 实现从海量数据到知识的三层架构  16-18
3 海量数据存储子系统  18-29
  3.1 存储子系统架构  18-19
  3.2 用户管理模块  19-20
  3.3 文件存储管理模块  20-29
    3.3.1 分布式文件系统介绍  20-21
    3.3.2 HDFS简介  21-22
    3.3.3 GlusterFS简介  22-23
    3.3.4 GlusterFS服务端  23-26
    3.3.5 GlusterFS客户端  26-29
4 海量信息检索子系统  29-40
  4.1 检索子系统架构  29
  4.2 信息收集模块  29-32
    4.2.1 网络爬虫概述  29-30
    4.2.2 Nutch简介  30-31
    4.2.3 Nutch爬虫运行流程  31-32
  4.3 信息索引模块  32-35
    4.3.1 Nutch索引过程  32-33
    4.3.2 Nutch抓取结果分析  33-35
  4.4 信息查询模块  35-40
    4.4.1 Lucene索引文件简介  36-37
    4.4.2 倒排索引原理简介  37-38
    4.4.3 Nutch搜索  38-40
5 海量知识挖掘子系统  40-52
  5.1 数据挖掘概述  40-41
  5.2 文本聚类  41-45
    5.2.1 中文分词  42
    5.2.2 文本表示模型  42-44
    5.2.3 文本相似度计算  44-45
  5.3 聚类算法K-means  45-52
    5.3.1 K-means算法流程  45-46
    5.3.2 MapReduce编程模型  46-49
    5.3.3 Mahout Kmeans算法实现  49-52
6 实验与分析  52-64
  6.1 实验流程设计  52-53
  6.2 实验平台搭建  53-59
    6.2.1 GlusterFS集群搭建  53-54
    6.2.2 Hadoop集群搭建  54-56
    6.2.3 Nutch环境搭建  56-58
    6.2.4 Mahout环境搭建  58-59
  6.3 实验结果展示  59-64
7 总结与展望  64-66
致谢  66-67
参考文献  67-69

相似论文

  1. 海量数据压缩、操作和处理方法的研究,TP311.13
  2. 隐式用户兴趣挖掘的研究与实现,TP311.13
  3. 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
  4. 云计算平台下的动态信任模型的研究,TP309
  5. 演化聚类算法及其应用研究,TP311.13
  6. 基于云计算的数字图书馆服务模式研究,G250.76
  7. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  8. 基于本体的食品投诉文档文本聚类研究,TP391.1
  9. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  10. 基于信誉度的云环境下资源管理的研究,TP315
  11. 基于Google平台促销模块与商品模块的设计与实现,TP311.52
  12. 基于云计算的ITIL运维,TP311.52
  13. 基于云计算的软件资源服务平台研究,TP311.52
  14. 面向短消息文本的聚类技术研究与应用,TP391.1
  15. 教育新闻热点话题发现系统的设计与实现,TP391.1
  16. 基于人工免疫的病毒检测技术研究,TP393.08
  17. 基于Google云计算平台的Web应用系统设计及实现,TP393.09
  18. 云计算数据隐私保护方法的研究,TP393.08
  19. 基于启发式算法的恶意代码检测系统研究与实现,TP393.08
  20. 高速网络环境下的入侵检测系统的研究,TP393.08
  21. 基于Hadoop的云存储系统客户端的设计与实现,TP333

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 存贮器
© 2012 www.xueweilunwen.com