学位论文 > 优秀研究生学位论文题录展示
基于Nutch的农业信息搜索引擎实现和优化
作 者: 李雷
导 师: 欧阳继红
学 校: 吉林大学
专 业: 计算机软件与理论
关键词: 知识网格 搜索引擎 Nutch
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 104次
引 用: 0次
阅 读: 论文下载
内容摘要
伴随着互联网技术的不断发展,网络上的知识、资源呈现爆炸式增长,如何对这些资源进行规范、有效的共享和管理,是目前互联网面临的关键问题,也是下一代Web的主要研究方向。针对这种情况,知识网格技术应运而生。知识网格的研究目标是在下一代Web基础上,构建对知识、信息以及资源进行有效共享和管理的平台。本文基于开源搜索引擎Nutch实现了农业信息搜索引擎系统,对该系统的不足之处进行了改进和优化。本文的工作属于国家863项目“数字农业知识网格技术研究及应用”中知识问答系统的一部分,实现了互联网上农业信息的搜集和检索,并为本地知识库的构建和扩展,提供了丰富的资源。本文具体内容:(1)介绍了本文的研究背景、研究目的和意义,概括了搜索引擎优化方面的一些研究成果。(2)详细介绍了本文的背景知识。其中包括对搜索引擎的工作原理和体系结构进行了详细的介绍,对开源搜索引擎Nutch的整体架构进行了深度的分析探索。(3)实现了农业信息搜索引擎。在对搜索引擎技术的深入了解基础上,基于开源搜索引擎Nutch开发了农业信息搜索引擎系统。(4)针对该系统中的一些不足之处进行了改进和优化。第一,网页解析模块的改进。本文采用基于STU-DOM树的网页主题信息提取方法,在网页解析基础上,实现了非主题信息节点的基于语义属性值的过滤。第二,摘要提取模块的改进。本文在基于统计的自动摘要提取方法中,添加了文本特征的判断,从词频、句型、提示词等方面对句子权重进行更为精细的赋值。第三,查询扩展模块的实现。本文构建了农业领域本体,并在此基础上,采用Jena推理机查询搜索关键词在本体中相应的子类、同义词和实例,并以此作为搜索相关词。本文开发的农业信息搜索引擎,作为“数字农业知识网格”中知识问答系统的主要功能模块,实现了对互联网上农业信息的搜集和检索,同时为本地知识库的构建和丰富提供了资源。本文还对改进前后的效果进行了比较。从比较中我们发现,搜索结果中很多门户型的网页和含有大量链接的网页被过滤掉了,更多的是以文字内容为主的网页,用户可以直接从中获取信息;改进的摘要提取模块提取的摘要内容比之前更加充实,摘要内容与网页主题的匹配程度更高;查询扩展模块提供了与搜索词具有一定语义关系的搜索相关词,为用户的精确搜索提供了途径。
|
全文目录
摘要 4-6 Abstract 6-10 第1章 绪论 10-13 1.1 研究背景 10 1.2 研究现状 10-11 1.3 本文工作 11-13 第2章 搜索引擎相关技术 13-23 2.1 搜索引擎相关知识 13-19 2.1.1 搜索引擎分类 13-14 2.1.2 搜索引擎的评价标准 14 2.1.3 搜索引擎的工作原理 14-19 2.2 开源搜索引擎NUTCH 19-22 2.2.1 Nutch的简介以及特点 19-20 2.2.2 Nutch的体系结构 20-22 2.3 本章小结 22-23 第3章 搜索引擎改进和优化 23-39 3.1 基于网页信息提取技术的网页解析模块改进 23-28 3.1.1 网页信息提取 23-24 3.1.2 有的网页信息提取方法 24 3.1.3 网页解析模块改进 24-28 3.2 基于文本特征和统计方法的摘要提取模块改进 28-31 3.2.1 自动摘要提取方法 29 3.2.2 摘要提取模块改进 29-31 3.3 基于本体的查询扩展模块的实现 31-38 3.3.1 本体相关概念和技术 32-35 3.3.2 领域本体的构建 35-36 3.3.3 基于本体的查询扩展 36-38 3.4 本章小结 38-39 第4章 农业信息搜索引擎的设计与实现 39-48 4.1 系统功能 39 4.2 系统总体设计 39-40 4.3 系统详细设计 40-47 4.3.1 网页抓取模块的实现 40-41 4.3.2 网页预处理模块的实现 41-44 4.3.3 信息检索模块的实现 44-47 4.4 本章小结 47-48 第5章 系统运行结果和效果比较 48-53 5.1 系统环境 48-49 5.1.1 运行平台 48 5.1.2 开发语言 48 5.1.3 开发工具 48-49 5.2 系统实现 49-52 5.2.1 结果演示 49-51 5.2.2 系统改进效果比较 51-52 5.3 本章小结 52-53 第6章 结论与展望 53-55 6.1 结论 53 6.2 下一步工作 53-55 参考文献 55-58 作者简介及在学期间所取得的科研成果 58-59 致谢 59
|
相似论文
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于Nutch的企业搜索引擎的研究与实现,TP391.3
- 主题搜索引擎关键技术研究,TP391.3
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 面向海量数据的云存储系统实现与应用研究,TP333
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 基于搜索引擎网页排序算法研究,TP391.3
- 网络下载侵权分析,D923.41
- 垂直门户网站产品搜索系统的设计与实现,TP393.092
- 基于领域知识的Deep Web接口发现研究,TP393.09
- 基于对等网络的搜索引擎关键技术研究,TP391.3
- 基于本体的智能答疑系统研究与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|