学位论文 > 优秀研究生学位论文题录展示

基于Nutch的农业信息搜索引擎实现和优化

作 者: 李雷
导 师: 欧阳继红
学 校: 吉林大学
专 业: 计算机软件与理论
关键词: 知识网格 搜索引擎 Nutch
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 104次
引 用: 0次
阅 读: 论文下载
 

内容摘要


伴随着互联网技术的不断发展,网络上的知识、资源呈现爆炸式增长,如何对这些资源进行规范、有效的共享和管理,是目前互联网面临的关键问题,也是下一代Web的主要研究方向。针对这种情况,知识网格技术应运而生。知识网格的研究目标是在下一代Web基础上,构建对知识、信息以及资源进行有效共享和管理的平台。本文基于开源搜索引擎Nutch实现了农业信息搜索引擎系统,对该系统的不足之处进行了改进和优化。本文的工作属于国家863项目“数字农业知识网格技术研究及应用”中知识问答系统的一部分,实现了互联网上农业信息的搜集和检索,并为本地知识库的构建和扩展,提供了丰富的资源。本文具体内容:(1)介绍了本文的研究背景、研究目的和意义,概括了搜索引擎优化方面的一些研究成果。(2)详细介绍了本文的背景知识。其中包括对搜索引擎的工作原理和体系结构进行了详细的介绍,对开源搜索引擎Nutch的整体架构进行了深度的分析探索。(3)实现了农业信息搜索引擎。在对搜索引擎技术的深入了解基础上,基于开源搜索引擎Nutch开发了农业信息搜索引擎系统。(4)针对该系统中的一些不足之处进行了改进和优化。第一,网页解析模块的改进。本文采用基于STU-DOM树的网页主题信息提取方法,在网页解析基础上,实现了非主题信息节点的基于语义属性值的过滤。第二,摘要提取模块的改进。本文在基于统计的自动摘要提取方法中,添加了文本特征的判断,从词频、句型、提示词等方面对句子权重进行更为精细的赋值。第三,查询扩展模块的实现。本文构建了农业领域本体,并在此基础上,采用Jena推理机查询搜索关键词在本体中相应的子类、同义词和实例,并以此作为搜索相关词。本文开发的农业信息搜索引擎,作为“数字农业知识网格”中知识问答系统的主要功能模块,实现了对互联网上农业信息的搜集和检索,同时为本地知识库的构建和丰富提供了资源。本文还对改进前后的效果进行了比较。从比较中我们发现,搜索结果中很多门户型的网页和含有大量链接的网页被过滤掉了,更多的是以文字内容为主的网页,用户可以直接从中获取信息;改进的摘要提取模块提取的摘要内容比之前更加充实,摘要内容与网页主题的匹配程度更高;查询扩展模块提供了与搜索词具有一定语义关系的搜索相关词,为用户的精确搜索提供了途径。

全文目录


摘要  4-6
Abstract  6-10
第1章 绪论  10-13
  1.1 研究背景  10
  1.2 研究现状  10-11
  1.3 本文工作  11-13
第2章 搜索引擎相关技术  13-23
  2.1 搜索引擎相关知识  13-19
    2.1.1 搜索引擎分类  13-14
    2.1.2 搜索引擎的评价标准  14
    2.1.3 搜索引擎的工作原理  14-19
  2.2 开源搜索引擎NUTCH  19-22
    2.2.1 Nutch的简介以及特点  19-20
    2.2.2 Nutch的体系结构  20-22
  2.3 本章小结  22-23
第3章 搜索引擎改进和优化  23-39
  3.1 基于网页信息提取技术的网页解析模块改进  23-28
    3.1.1 网页信息提取  23-24
    3.1.2 有的网页信息提取方法  24
    3.1.3 网页解析模块改进  24-28
  3.2 基于文本特征和统计方法的摘要提取模块改进  28-31
    3.2.1 自动摘要提取方法  29
    3.2.2 摘要提取模块改进  29-31
  3.3 基于本体的查询扩展模块的实现  31-38
    3.3.1 本体相关概念和技术  32-35
    3.3.2 领域本体的构建  35-36
    3.3.3 基于本体的查询扩展  36-38
  3.4 本章小结  38-39
第4章 农业信息搜索引擎的设计与实现  39-48
  4.1 系统功能  39
  4.2 系统总体设计  39-40
  4.3 系统详细设计  40-47
    4.3.1 网页抓取模块的实现  40-41
    4.3.2 网页预处理模块的实现  41-44
    4.3.3 信息检索模块的实现  44-47
  4.4 本章小结  47-48
第5章 系统运行结果和效果比较  48-53
  5.1 系统环境  48-49
    5.1.1 运行平台  48
    5.1.2 开发语言  48
    5.1.3 开发工具  48-49
  5.2 系统实现  49-52
    5.2.1 结果演示  49-51
    5.2.2 系统改进效果比较  51-52
  5.3 本章小结  52-53
第6章 结论与展望  53-55
  6.1 结论  53
  6.2 下一步工作  53-55
参考文献  55-58
作者简介及在学期间所取得的科研成果  58-59
致谢  59

相似论文

  1. 网络搜索引擎的相关技术研究,G354
  2. 基于语义网络的智能搜索引擎研究,TP391.3
  3. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  4. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  5. 分布式搜索引擎索引安全及缓存策略研究,TP333
  6. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  7. 基于Nutch的企业搜索引擎的研究与实现,TP391.3
  8. 主题搜索引擎关键技术研究,TP391.3
  9. 教育培训行业互联网营销问题的研究,F49
  10. 搜索引擎侵权行为研究,D923
  11. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  12. 基于Agent元搜索引擎的个性化研究,TP391.3
  13. 面向海量数据的云存储系统实现与应用研究,TP333
  14. 论搜索引擎竞价排名的法律规制,D923.43
  15. 搜索引擎悖论解读,G254
  16. 基于搜索引擎网页排序算法研究,TP391.3
  17. 网络下载侵权分析,D923.41
  18. 垂直门户网站产品搜索系统的设计与实现,TP393.092
  19. 基于领域知识的Deep Web接口发现研究,TP393.09
  20. 基于对等网络的搜索引擎关键技术研究,TP391.3
  21. 基于本体的智能答疑系统研究与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com