学位论文 > 优秀研究生学位论文题录展示

基于MapReduce的分布式搜索引擎研究与实现

作 者: 张超
导 师: 闫宏印
学 校: 太原理工大学
专 业: 计算机系统结构
关键词: 搜索引擎 分布式计算框架 分布式文件系统 倒排索引 页面评分算法
分类号: TP391.3
类 型: 硕士论文
年 份: 2012年
下 载: 324次
引 用: 0次
阅 读: 论文下载
 

内容摘要


搜索引擎是人们在当今信息飞速增长的时代所不可缺少的一个工具,越来越多的学者倾向于认为搜索引擎是一个集信息检索、互联网服务、用户行为分析以及高性能与分布式计算等多个重要研究方向为一体的综合性平台。如何从互联网这个拥有海量资料的信息库中获取数据,进行高速有效地处理并为用户返回精准的信息被认为是搜索引擎技术发展的核心。为了保护商业机密,现有各大商业搜索服务提供商对其核心技术严格保密,加大了研究搜索引擎的难度。本文在对搜索引擎的流程和原理以及MapReduce编程模型进行详细分析的基础上,结合Lucene全文索引等开源工具包,构建了一个分布式搜索引擎系统,利用此系统不仅可以展开对搜索技术的研究,而且在一定程度上改进了现有搜索引擎的性能。本文的研究工作包括以下几个方面:第一,分析了通用搜索引擎的原理和信息处理流程,描述了分布式计算系统的体系结构,对Hadoop平台的MapReduce分布式编程模式以及Hadoop分布式文件系统进行了详细分析,并以此为基础提出了分布式搜索引擎的架构。第二,分析了网络爬虫系统的原理及其分布式实现方法,对全文索引结构的建立、中文分词算法、多格式文档解析以及页面评分算法等关键技术进行了研究,提出了利用网络爬虫进行分布式多线程爬取、多格式文档解析以及对页面评分算法进行分布式改造的方法,确定了分布式搜索引擎系统的模块划分及各自功能,并对分布式搜索引擎的结构进行了详细设计。第三,使用JAVA编程语言,完成了分模块的具体分布式实现,并通过实验室集群对系统的性能进行了测试,验证了系统设计的可行性。最后,总结了本文的研究工作,并对未来可能实施的研究内容进行了讨论。

全文目录


摘要  3-5
ABSTRACT  5-10
第一章 绪论  10-16
  1.1 课题的研究背景  10
  1.2 搜索引擎发展历史与研究现状  10-12
  1.3 课题研究的目的和意义  12-13
  1.4 本文的主要工作与文章结构  13-16
    1.4.1 主要工作  13
    1.4.2 文章结构  13-16
第二章 分布式搜索引擎的相关理论和技术  16-26
  2.1 搜索引擎基本功能  16
  2.2 通用搜索引擎的基本原理  16-19
    2.2.1 信息采集  17
    2.2.2 信息预处理  17-18
    2.2.3 用户交互  18-19
  2.3 分布式计算技术与MapReduce编程模型  19-23
    2.3.1 分布式计算的基本原理  19-20
    2.3.2 Hadoop分布式计算平台  20-21
    2.3.3 Hadoop中的MapReduce  21-22
    2.3.4 HDFS分布式文件系统  22-23
  2.4 分布式搜索引擎的处理流程  23-24
  2.5 本章小结  24-26
第三章 分布式搜索引擎系统设计  26-40
  3.1 分布式搜索引擎设计目标  26
  3.2 分布式爬虫系统设计  26-30
    3.2.1 分布式爬虫原理  26-27
    3.2.2 抓取模块设计  27-28
    3.2.3 文档解析模块设计  28-29
    3.2.4 页面评分模块设计  29-30
  3.3 分布式索引系统设计  30-33
    3.3.1 全文检索技术概述  30-31
    3.3.2 Lucene全文索引工具包  31-33
    3.3.3 基于Lucene的索引机制研究  33
  3.4 中文分词技术  33-36
    3.4.1 中文分词算法分析  33-34
    3.4.2 基于最大匹配消歧的中文分词法  34-36
  3.5 分布式检索模块设计  36-38
    3.5.1 检索过程分析  36-37
    3.5.2 Lucene检索相关类分析  37-38
    3.5.3 分布式检索的架构  38
  3.6 本章小结  38-40
第四章 分布式搜索引擎实现  40-56
  4.1 系统总体结构分析  40-42
    4.1.1 表示URL的类  40-41
    4.1.2 分布式搜索引擎文件结构  41-42
  4.2 分布式爬虫系统实现  42-52
    4.2.1 URL准备模块  43-46
    4.2.2 分布式抓取模块  46-48
    4.2.3 文档解析模块  48-49
    4.2.4 计算反向链接模块  49-50
    4.2.5 页面评分模块  50-52
  4.3 分布式索引系统的实现  52-53
    4.3.1 中文分词  52-53
    4.3.2 索引生成  53
  4.4 分布式检索系统的实现  53-54
  4.5 本章小结  54-56
第五章 分布式搜索引擎系统测试  56-64
  5.1 实验环境建立  56-59
    5.1.1 实验环境  56-57
    5.1.2 安装分布式环境  57-59
  5.2 系统运行情况及实验数据分析  59-62
    5.2.1 系统运行情况  59-60
    5.2.2 系统性能分析  60-62
    5.2.3 系统中文分词效果  62
  5.3 本章小结  62-64
第六章 总结与展望  64-66
  6.1 本文主要工作总结  64
  6.2 未来工作展望  64-66
参考文献  66-68
致谢  68-70
攻读学位期间发表的学术论文目录  70

相似论文

  1. 网络搜索引擎的相关技术研究,G354
  2. 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
  3. 基于Web的未登录词翻译技术研究,TP391.2
  4. 基于分布式的垂直搜索引擎的研究与实现,TP391.3
  5. 分布式文件系统元数据服务器高可用设计与实现,TP368.5
  6. 分布式数据的弱一致性维护策略的研究,TP311.13
  7. 一种分布环境下加密文件系统的设计与实现,TP309.7
  8. Hadoop分布式文件系统(HDFS)可靠性的研究与优化,TP316.4
  9. 分布式文件系统中集中安全管理服务器设计与实现,TP316.4
  10. 分布式文件系统CeipFS的设计与实现,TP309
  11. 高强度I/O的应用对并行存储系统的挑战和解决方法研究,TP333
  12. 基于HDFS的分布式文件系统数据冗余技术研究,TP316.4
  13. 基于HDFS的多用户并行文件IO的设计与实现,TP338.6
  14. 基于分布式计算的密码恢复系统研究,TN918.1
  15. 面向海量数据的分布式文件系统设计和实现,TP316.4
  16. 分布式文件系统中元数据管理策略的研究,TP316.4
  17. 基于社会网络分析的藏文web链接结构研究,TP393.09
  18. 垂直搜索引擎技术的研究及实现,TP391.3
  19. 基于搜索引擎网页排序算法研究,TP391.3
  20. 基于Web搜索引擎系统的设计与实现,TP391.3
  21. 基于垂直搜索技术的竞争情报采集系统的设计与实现,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com