学位论文 > 优秀研究生学位论文题录展示
基于Hadoop的倒排索引技术的研究
作 者: 董长春
导 师: 李晓光
学 校: 辽宁大学
专 业: 计算机软件与理论
关键词: Hadoop 倒排索引 MIIS AMPS 多级索引
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 502次
引 用: 1次
阅 读: 论文下载
内容摘要
随着信息化时代的到来,每天都有大量的新数据产生,如何快速找到所需的信息成了IT行业关注的焦点。倒排索引就是可以实现快速检索的工具,是目前搜索引擎信息检索系统最为常用的索引结构。同时,海量的数据需要在分布式平台下进行存储和处理,相应的倒排索引文件也需要运行在分布式平台下,而Hadoop作为目前最为常用的分布式系统平台,具有极强的分布式存储和计算的能力。因此,Hadoop平台下对倒排索引技术的研究具有深远的意义。本文面向Hadoop系统平台,对倒排索引技术进行了以下研究:1)结合HDFS文件系统只支持一次写多次读,不支持任意位置的修改的特性,本文设计了MIIS(Multi-level Inverted Index Structure)倒排索引结构,将倒排索引存放在HDFS系统中,对倒排索引进行多层次的维护,以便支持文件的批量更新,而且查询速度也能大大提高。2)本文充分考虑文档文件与其倒排索引文件的关联性,提出了AMPS(Align and Merge Placement Strategy)倒排索引文件及副本的放置策略,降低了节点间的通信代价,也实现了检索关键词时能够在本地快速定位到文档文件的目标。3)结合MIIS倒排索引结构和AMPS倒排索引及副本放置策略,设计了倒排索引构建算法、倒排索引批量添加、删除算法以及倒排索引查询算法,使倒排索引在Hadoop平台下能够得到更好的应用。4)搭建Hadoop集群进行实验测试,验证了MIIS倒排索引结构和AMPS放置策略,确实提高了查找关键词及定位文件的效率,降低了节点间的通讯代价,加快了批量更新的速度。
|
全文目录
摘要 4-5 ABSTRACT 5-10 第1章 引言 10-14 1.1 研究背景与意义 10-11 1.2 问题提出与研究目标 11-12 1.3 本文工作 12-13 1.4 本文组织结构 13-14 第2章 相关工作 14-28 2.1 Hadoop 概述 14-15 2.2 HDFS 分布式文件系统 15-20 2.2.1 HDFS 的简介 16 2.2.2 HDFS 的架构 16-18 2.2.3 HDFS 数据流 18-20 2.3 MapReduce 编程模型 20-23 2.3.1 MapReduce 的简介 20 2.3.2 MapReduce 的工作原理 20-22 2.3.3 MapReduce 的处理过程 22-23 2.4 倒排索引 23-27 2.4.1 倒排索引的概念 23-25 2.4.2 倒排索引的结构 25-26 2.4.3 倒排索引的研究现状 26-27 2.5 本章小结 27-28 第3章 面向 Hadoop 的倒排索引结构设计 28-37 3.1 传统倒排索引结构的分析 28-29 3.2 MIIS 的基本思想 29-32 3.2.1 MIIS 的形式化描述 29-30 3.2.2 MIIS 的组成 30-32 3.3 倒排索引及副本的放置策略 32-36 3.3.1 倒排索引的放置策略 32-35 3.3.2 倒排索引的副本放置策略 35-36 3.4 本章小结 36-37 第4章 MIIS 倒排索引结构算法 37-52 4.1 MIIS 的数据结构 37-42 4.1.1 主倒排索引 37-39 4.1.2 辅助查询索引 39 4.1.3 辅助块信息索引 39-41 4.1.4 辅助删除索引 41-42 4.2 构建算法 42-44 4.3 批量更新算法 44-50 4.3.1 批量添加算法 44-46 4.3.2 批量删除算法 46-49 4.3.3 合并算法 49-50 4.4 查询算法 50-51 4.5 本章小结 51-52 第5章 Hadoop 下倒排索引的性能分析 52-58 5.1 Hadoop 集群的搭建 52-53 5.1.1 Hadoop 的部署 52 5.1.2 Hadoop 的配置 52-53 5.2 模拟实现 53-54 5.2.1 主要类的描述 53-54 5.2.2 主要索引表的描述 54 5.3 实验结果的分析与比较 54-57 5.3.1 构建测试 54-55 5.3.2 更新测试 55-56 5.3.3 查询测试 56-57 5.4 本章小结 57-58 第6章 结论与展望 58-60 6.1 结论 58 6.2 进一步的工作 58-60 致谢 60-61 参考文献 61-63 攻读学位期间发表的学术论文及参加科研情况 63-64
|
相似论文
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
- 基于云计算的软件资源服务平台研究,TP311.52
- 高速网络环境下的入侵检测系统的研究,TP393.08
- 云计算平台上的增量学习研究,TP311.13
- 基于Hadoop的视频转码系统设计与实现,TN919.81
- 云环境下MapReduce容错技术的研究,TP302.8
- 基于云存储的手机数据备份系统,TP309.3
- 基于发布订阅模式的中间件设计与实现,TP311.52
- 面向海量数据的云存储系统实现与应用研究,TP333
- 基于云计算的海量视频转换平台的设计与实现,TP311.52
- 基于IaaS云计算的Web应用技术研究,TP393.09
- 基于接口匹配的语义Web服务发现方法研究,TP391.1
- 基于云计算的海量数据存储技术的研究及应用,TP333
- 基于Hadoop的海量影像数据管理关键技术研究,TP751
- 非结构化数据统一访问平台及索引技术研究,TP311.52
- 基于倒排索引的压缩算法性能研究,TP391.3
- 分布式图片搜索引擎设计与实现,TP391.41
- MapReduce集群多用户作业调度方法的研究与实现,TP311.13
- 基于HDFS的多用户并行文件IO的设计与实现,TP338.6
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|