学位论文 > 优秀研究生学位论文题录展示

小文本语料库在Hadoop平台上的存储策略研究

作　者: 郑丽洁
导　师: 陈利
学　校: 华中师范大学
专　业: 计算机应用技术
关键词: 小文本语料库 HSCS存储策略 Hadoop平台合并检索
分类号: TP391.1
类　型: 硕士论文
年　份: 2014年
下　载: 1次
引　用: 0次
阅　读: 论文下载

内容摘要

语料库是指基于不同目的收集起来的文本集合。在网络环境下收集的语料库,其包含的文本大小一般为KB级别,很少达到MB级别,故称之为小文本语料库。由于语料库中所包含的文本数据通常规模庞大,处理时计算量大,且许多操作具有并行性,因而产生了将文本处理迁移到分布式并行处理平台的趋势。近几年出现的Hadoop云平台,由于其具有良好的海量数据存储和高效计算能力,且是一个开源平台,因而被广泛应用于海量数据的分布式并行处理中。Hadoop的两个核心组件分别是：HDFS分布式文件系统和Map Reduce并行计算模型。HDFS为MapReduce的计算提供了底层存储支持,其存储数据的方式决定了Hadoop的整体性能与MapReduce处理的速度。由于HDFS是为流式大文件设计的,其在处理小文本时,存在着一些客观问题：一是NameNode占用内存过大,可能会出现溢出,由于各小文本的元数据占据固定大小内存,小文本数量越大,内存占用越大,甚至溢出；二是大量读取小文本时,需在DataNode间频繁跳转,导致读取性能降低；三是相比同等大小的大文本,小文本语料库处理速度过慢。为了解决小文本语料库在Hadoop平台存储中,出现上述分布式存储与检索速度间的矛盾问题,本文提出了一种新的HSCS(Hadoop Smalltexts Corpus Storage)存储策略。该策略首先使用小文本合并技术在HDFS架构中添加一层Merge_Client,将多个小文本文件合并为目录结构式的大文本文件,有效减少了内存压力和访问DataNode的次数；然后采用小文件检索技术,给合并后的大文本文件添加一个二级索引结构及设计索引记录的数据结构,并且添设一个索引文件阈值,当超过阈值时,使用虚拟内存技术,将使用频率最低的索引文件置换到对换区中,减少文件管理的空间复杂度,从而解决了在合并为目录结构式的大文本文件中,快速检索所需小文本问题,有效提高了小文本的检索速度。最后设计的实验,对比了小文本语料库合并前与合并后的写入速度和文本预处理速度,对比了采用HSCS方法和SequenceFile方法的文本检索速度,以及对比了采用虚拟存储技术后无需置换时与置换时的检索速度。实验结果表明,本文提出的新的HSCS存储策略在处理小文本语料库时是可行有效的。

全文目录

摘要  5-6
Abstract  6-10
第一章引言  10-15
  1.1 研究背景及意义  10-11
  1.2 国内外研究现状  11-12
  1.3 主要研究内容  12-13
  1.4 论文组织结构  13-15
第二章相关平台及技术  15-25
  2.1 Hadoop平台简介  15-19
    2.1.1 HDFS分布式文件系统  16-17
    2.1.2 MapReduce并行计算模型  17-19
  2.2 小文本直接存储Hadoop的劣势与解决方法  19-23
    2.2.1 小文本直接存储Hadoop的劣势  20
    2.2.2 Hadoop提供的解决方法  20-23
  2.3 虚拟存储技术  23-24
  2.4 本章小结  24-25
第三章 HSCS存储策略的分析与设计  25-37
  3.1 存储策略的设计思路  25
  3.2 存储策略的主要技术  25-26
  3.3 HSCS技术的分析与设计  26-29
    3.3.1 小文本合并技术的分析与设计  26-27
    3.3.2 小文本检索技术的分析与设计  27-29
  3.4 存储策略算法设计  29-35
    3.4.1 相关类的介绍  29-31
    3.4.2 合并算法设计  31-33
    3.4.3 检索算法设计  33-35
  3.5 存储策略可行性研究  35-36
  3.6 本章小结  36-37
第四章 HSCS存储策略的实现  37-46
  4.1 小文本存储的预处理  37-41
    4.1.1 中文分词与去停用词  37-38
    4.1.2 特征选择  38-40
    4.1.3 小文本存储预处理  40-41
  4.2 小文本合并的实现  41-43
  4.3 小文本索引的实现  43-45
  4.4 本章小结  45-46
第五章实验与数据分析  46-53
  5.1 实验目的  46
  5.2 实验环境  46-48
    5.2.1 配置信息  46-47
    5.2.2 Hadoop实验平台的搭建  47-48
    5.2.3 配置文件的重启与代码的编译  48
  5.3 实验方案与结果分析  48-52
    5.3.1 合并前后写入HDFS速度实验  49-50
    5.3.2 合并前后预处理速度实验  50-51
    5.3.3 随机检索实验  51-52
  5.4 本章小结  52-53
第六章总结与展望  53-55
参考文献  55-58
在校期间发表的论文、科研成果等  58-59
致谢  59

小文本语料库在Hadoop平台上的存储策略研究

内容摘要

全文目录

相似论文