学位论文 > 优秀研究生学位论文题录展示
基于Nutch的企业搜索引擎的研究与实现
作 者: 陈勃
导 师: 朱建新
学 校: 华中科技大学
专 业: 计算机技术
关键词: Nutch 企业搜索 分布式处理 分布式爬虫
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 77次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息化技术的不断发展,在现代化的企业中,企业内部的信息呈现爆炸式的增长,这些海量的信息导致了企业内部员工在获取信息时变得越来越困难,并在一定程度上降低了员工的工作效率,因此如何检索企业内部的信息成为了一个热门话题。传统的企业全文检索一般采用B/S架构,由于该架构可扩展性低,当企业数据量不断增长时,会遇到计算能力,存储容量和网络带宽的瓶颈。通过对企业实际的需求分析得出,采用分布式的系统架构可以很好的解决该问题。通过对开源搜索引擎Nutch及相关技术的深入研究分析,按照分布式的处理架构设计了一个完整的企业搜索引擎。该系统针对企业内部三类数据源的特征和更新规律,定义了三个爬虫,完成对文档,数据库,站内等数据的抓取。在该系统中,系统的采集解析模块,索引模块和检索模块均按照分布式的处理原理来进行工作。采集解析模块采用MapReduce工作原理,将解析后的信息存入原始数据库中,索引模块读入原始数据库中的信息并为其建立索引,将建好的索引存入索引库中,检索模块查找索引库中索引向用户提交满足要求的查询结果,采集解析,索引和检索模块通过分布式文件系统HDFS来进行数据交互。通过测试表明,该系统可以在分布式的情况下实现对企业内部数据的准实时性检索,满足了实际的应用需求。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-12 1.1 选题背景与意义 8-9 1.2 国内外研究现状 9-10 1.3 研究工作 10 1.4 论文的组织结构 10-11 1.5 课题来源 11-12 2 企业搜索研究 12-23 2.1 企业搜索引擎的基本需求 12-13 2.2 企业搜索引擎的体系结构 13-14 2.3 企业搜索相关技术研究 14-22 2.4 本章小结 22-23 3 系统的详细设计 23-36 3.1 系统体系结构 23-26 3.2 系统子模块架构方案 26-32 3.3 模块说明 32-35 3.4 本章小结 35-36 4 系统的具体实现 36-50 4.1 采集解析模块 36-44 4.2 并行索引模块 44-45 4.3 分布式检索模块 45-47 4.4 系统可靠性保障 47-49 4.5 本章小结 49-50 5 实验与结果分析 50-58 5.1 系统实验 50-54 5.2 实验结果分析 54-57 5.3 本章小结 57-58 6 总结与展望 58-59 6.1 总结 58 6.2 展望 58-59 致谢 59-60 参考文献 60-62
|
相似论文
- 主题搜索引擎关键技术研究,TP391.3
- 面向海量数据的云存储系统实现与应用研究,TP333
- 基于聚集模型的企业专家检索系统研究,TP391.3
- 企业搜索管理技术的研究,TP391.3
- 基于Lucene的电力企业信息全文搜索系统的设计和实现,TP391.3
- 异地数控加工网络化制造信息系统研究,TP311.52
- 企业内部个性化搜索系统的研究与实现,TP311.52
- 具有自然语言理解和信息挖掘能力的搜索引擎开发,TP391.3
- 基于分布式网络的玻璃质量在线检测系统,TQ171.65
- 搜索引擎设计分析与结果聚类改进,TP391.3
- OLAP系统中Cube并行与分布式处理技术的研究,TP311.13
- 复动力分形图形分布式生成平台的研究,TP391.4
- 基于T.120的分布式数据服务器的研究与实现,TP311.52
- 基于网页分块的主题搜索引擎的研究与实现,TP391.3
- 基于Nutch的搜索系统的研究,TP391.3
- 基于免疫Agent的面向服务架构研究,TP311.52
- 面向患者需求的医学搜索引擎的研究与实现,TP391.3
- 旅游信息垂直搜索系统的设计与实现,TP391.3
- 搜索引擎返回结果聚类技术的研究与实现,TP391.3
- 反馈式FTP搜索引擎的实现,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|