学位论文 > 优秀研究生学位论文题录展示

小文本语料库在Hadoop平台上的存储策略研究

作 者: 郑丽洁
导 师: 陈利
学 校: 华中师范大学
专 业: 计算机应用技术
关键词: 小文本语料库 HSCS存储策略 Hadoop平台 合并 检索
分类号: TP391.1
类 型: 硕士论文
年 份: 2014年
下 载: 1次
引 用: 0次
阅 读: 论文下载
 

内容摘要


语料库是指基于不同目的收集起来的文本集合。在网络环境下收集的语料库,其包含的文本大小一般为KB级别,很少达到MB级别,故称之为小文本语料库。由于语料库中所包含的文本数据通常规模庞大,处理时计算量大,且许多操作具有并行性,因而产生了将文本处理迁移到分布式并行处理平台的趋势。近几年出现的Hadoop云平台,由于其具有良好的海量数据存储和高效计算能力,且是一个开源平台,因而被广泛应用于海量数据的分布式并行处理中。Hadoop的两个核心组件分别是:HDFS分布式文件系统和Map Reduce并行计算模型。HDFS为MapReduce的计算提供了底层存储支持,其存储数据的方式决定了Hadoop的整体性能与MapReduce处理的速度。由于HDFS是为流式大文件设计的,其在处理小文本时,存在着一些客观问题:一是NameNode占用内存过大,可能会出现溢出,由于各小文本的元数据占据固定大小内存,小文本数量越大,内存占用越大,甚至溢出;二是大量读取小文本时,需在DataNode间频繁跳转,导致读取性能降低;三是相比同等大小的大文本,小文本语料库处理速度过慢。为了解决小文本语料库在Hadoop平台存储中,出现上述分布式存储与检索速度间的矛盾问题,本文提出了一种新的HSCS(Hadoop Smalltexts Corpus Storage)存储策略。该策略首先使用小文本合并技术在HDFS架构中添加一层Merge_Client,将多个小文本文件合并为目录结构式的大文本文件,有效减少了内存压力和访问DataNode的次数;然后采用小文件检索技术,给合并后的大文本文件添加一个二级索引结构及设计索引记录的数据结构,并且添设一个索引文件阈值,当超过阈值时,使用虚拟内存技术,将使用频率最低的索引文件置换到对换区中,减少文件管理的空间复杂度,从而解决了在合并为目录结构式的大文本文件中,快速检索所需小文本问题,有效提高了小文本的检索速度。最后设计的实验,对比了小文本语料库合并前与合并后的写入速度和文本预处理速度,对比了采用HSCS方法和SequenceFile方法的文本检索速度,以及对比了采用虚拟存储技术后无需置换时与置换时的检索速度。实验结果表明,本文提出的新的HSCS存储策略在处理小文本语料库时是可行有效的。

全文目录


摘要  5-6
Abstract  6-10
第一章 引言  10-15
  1.1 研究背景及意义  10-11
  1.2 国内外研究现状  11-12
  1.3 主要研究内容  12-13
  1.4 论文组织结构  13-15
第二章 相关平台及技术  15-25
  2.1 Hadoop平台简介  15-19
    2.1.1 HDFS分布式文件系统  16-17
    2.1.2 MapReduce并行计算模型  17-19
  2.2 小文本直接存储Hadoop的劣势与解决方法  19-23
    2.2.1 小文本直接存储Hadoop的劣势  20
    2.2.2 Hadoop提供的解决方法  20-23
  2.3 虚拟存储技术  23-24
  2.4 本章小结  24-25
第三章 HSCS存储策略的分析与设计  25-37
  3.1 存储策略的设计思路  25
  3.2 存储策略的主要技术  25-26
  3.3 HSCS技术的分析与设计  26-29
    3.3.1 小文本合并技术的分析与设计  26-27
    3.3.2 小文本检索技术的分析与设计  27-29
  3.4 存储策略算法设计  29-35
    3.4.1 相关类的介绍  29-31
    3.4.2 合并算法设计  31-33
    3.4.3 检索算法设计  33-35
  3.5 存储策略可行性研究  35-36
  3.6 本章小结  36-37
第四章 HSCS存储策略的实现  37-46
  4.1 小文本存储的预处理  37-41
    4.1.1 中文分词与去停用词  37-38
    4.1.2 特征选择  38-40
    4.1.3 小文本存储预处理  40-41
  4.2 小文本合并的实现  41-43
  4.3 小文本索引的实现  43-45
  4.4 本章小结  45-46
第五章 实验与数据分析  46-53
  5.1 实验目的  46
  5.2 实验环境  46-48
    5.2.1 配置信息  46-47
    5.2.2 Hadoop实验平台的搭建  47-48
    5.2.3 配置文件的重启与代码的编译  48
  5.3 实验方案与结果分析  48-52
    5.3.1 合并前后写入HDFS速度实验  49-50
    5.3.2 合并前后预处理速度实验  50-51
    5.3.3 随机检索实验  51-52
  5.4 本章小结  52-53
第六章 总结与展望  53-55
参考文献  55-58
在校期间发表的论文、科研成果等  58-59
致谢  59

相似论文

  1. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  2. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  3. 基于词义及语义分析的问答技术研究,TP391.1
  4. 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
  5. Q学习在基于内容图像检索技术中的应用,TP391.41
  6. 基于内容的服装图像检索技术研究及实现,TP391.41
  7. 基于多示例学习的用户关注概念区域发现,TP391.41
  8. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  9. 个性化检索中相似用户群的获取与更新,TP391.3
  10. 生物医学领域检索系统查询扩展技术研究,TP391.3
  11. 基于停用词处理的汉语语音检索方法,TP391.1
  12. 面向海量邮件的检索系统研究与实现,TP393.098
  13. 多样性密度学习算法的研究与应用,TP181
  14. 基于本体的语义检索研究,TP391.3
  15. 分面元数据在网站检索系统中的应用研究,G354.2
  16. 合并矿井通风系统优化及应用研究,TD724
  17. 193例老年女性妇科手术治疗的临床分析,R713
  18. 妊娠合并糖尿病对母儿不良影响的探讨,R714.7
  19. 汉语方言中音位合并现象的失匹配负波研究,R764
  20. 基于内容的唐卡图像检索技术研究,TP391.41
  21. 基于Web的未登录词翻译技术研究,TP391.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com