学位论文 > 优秀研究生学位论文题录展示

基于Hadoop的倒排索引技术的研究

作 者: 董长春
导 师: 李晓光
学 校: 辽宁大学
专 业: 计算机软件与理论
关键词: Hadoop 倒排索引 MIIS AMPS 多级索引
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 502次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着信息化时代的到来,每天都有大量的新数据产生,如何快速找到所需的信息成了IT行业关注的焦点。倒排索引就是可以实现快速检索的工具,是目前搜索引擎信息检索系统最为常用的索引结构。同时,海量的数据需要在分布式平台下进行存储和处理,相应的倒排索引文件也需要运行在分布式平台下,而Hadoop作为目前最为常用的分布式系统平台,具有极强的分布式存储和计算的能力。因此,Hadoop平台下对倒排索引技术的研究具有深远的意义。本文面向Hadoop系统平台,对倒排索引技术进行了以下研究:1)结合HDFS文件系统只支持一次写多次读,不支持任意位置的修改的特性,本文设计了MIIS(Multi-level Inverted Index Structure)倒排索引结构,将倒排索引存放在HDFS系统中,对倒排索引进行多层次的维护,以便支持文件的批量更新,而且查询速度也能大大提高。2)本文充分考虑文档文件与其倒排索引文件的关联性,提出了AMPS(Align and Merge Placement Strategy)倒排索引文件及副本的放置策略,降低了节点间的通信代价,也实现了检索关键词时能够在本地快速定位到文档文件的目标。3)结合MIIS倒排索引结构和AMPS倒排索引及副本放置策略,设计了倒排索引构建算法、倒排索引批量添加、删除算法以及倒排索引查询算法,使倒排索引在Hadoop平台下能够得到更好的应用。4)搭建Hadoop集群进行实验测试,验证了MIIS倒排索引结构和AMPS放置策略,确实提高了查找关键词及定位文件的效率,降低了节点间的通讯代价,加快了批量更新的速度。

全文目录


摘要  4-5
ABSTRACT  5-10
第1章 引言  10-14
  1.1 研究背景与意义  10-11
  1.2 问题提出与研究目标  11-12
  1.3 本文工作  12-13
  1.4 本文组织结构  13-14
第2章 相关工作  14-28
  2.1 Hadoop 概述  14-15
  2.2 HDFS 分布式文件系统  15-20
    2.2.1 HDFS 的简介  16
    2.2.2 HDFS 的架构  16-18
    2.2.3 HDFS 数据流  18-20
  2.3 MapReduce 编程模型  20-23
    2.3.1 MapReduce 的简介  20
    2.3.2 MapReduce 的工作原理  20-22
    2.3.3 MapReduce 的处理过程  22-23
  2.4 倒排索引  23-27
    2.4.1 倒排索引的概念  23-25
    2.4.2 倒排索引的结构  25-26
    2.4.3 倒排索引的研究现状  26-27
  2.5 本章小结  27-28
第3章 面向 Hadoop 的倒排索引结构设计  28-37
  3.1 传统倒排索引结构的分析  28-29
  3.2 MIIS 的基本思想  29-32
    3.2.1 MIIS 的形式化描述  29-30
    3.2.2 MIIS 的组成  30-32
  3.3 倒排索引及副本的放置策略  32-36
    3.3.1 倒排索引的放置策略  32-35
    3.3.2 倒排索引的副本放置策略  35-36
  3.4 本章小结  36-37
第4章 MIIS 倒排索引结构算法  37-52
  4.1 MIIS 的数据结构  37-42
    4.1.1 主倒排索引  37-39
    4.1.2 辅助查询索引  39
    4.1.3 辅助块信息索引  39-41
    4.1.4 辅助删除索引  41-42
  4.2 构建算法  42-44
  4.3 批量更新算法  44-50
    4.3.1 批量添加算法  44-46
    4.3.2 批量删除算法  46-49
    4.3.3 合并算法  49-50
  4.4 查询算法  50-51
  4.5 本章小结  51-52
第5章 Hadoop 下倒排索引的性能分析  52-58
  5.1 Hadoop 集群的搭建  52-53
    5.1.1 Hadoop 的部署  52
    5.1.2 Hadoop 的配置  52-53
  5.2 模拟实现  53-54
    5.2.1 主要类的描述  53-54
    5.2.2 主要索引表的描述  54
  5.3 实验结果的分析与比较  54-57
    5.3.1 构建测试  54-55
    5.3.2 更新测试  55-56
    5.3.3 查询测试  56-57
  5.4 本章小结  57-58
第6章 结论与展望  58-60
  6.1 结论  58
  6.2 进一步的工作  58-60
致谢  60-61
参考文献  61-63
攻读学位期间发表的学术论文及参加科研情况  63-64

相似论文

  1. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  2. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  3. 基于云计算的软件资源服务平台研究,TP311.52
  4. 高速网络环境下的入侵检测系统的研究,TP393.08
  5. 云计算平台上的增量学习研究,TP311.13
  6. 基于Hadoop的视频转码系统设计与实现,TN919.81
  7. 云环境下MapReduce容错技术的研究,TP302.8
  8. 基于云存储的手机数据备份系统,TP309.3
  9. 基于发布订阅模式的中间件设计与实现,TP311.52
  10. 面向海量数据的云存储系统实现与应用研究,TP333
  11. 基于云计算的海量视频转换平台的设计与实现,TP311.52
  12. 基于IaaS云计算的Web应用技术研究,TP393.09
  13. 基于接口匹配的语义Web服务发现方法研究,TP391.1
  14. 基于云计算的海量数据存储技术的研究及应用,TP333
  15. 基于Hadoop的海量影像数据管理关键技术研究,TP751
  16. 非结构化数据统一访问平台及索引技术研究,TP311.52
  17. 基于倒排索引的压缩算法性能研究,TP391.3
  18. 分布式图片搜索引擎设计与实现,TP391.41
  19. MapReduce集群多用户作业调度方法的研究与实现,TP311.13
  20. 基于HDFS的多用户并行文件IO的设计与实现,TP338.6

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com