学位论文 > 优秀研究生学位论文题录展示

基于Nutch的学术搜索引擎的研究与实现

作 者: 夏树倩
导 师: 鲍玉斌
学 校: 东北大学
专 业: 计算机应用技术
关键词: Nutch 搜索引擎 中文分词 网页过滤 排序
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 4次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,随着计算机技术的飞速发展,互联网已经从各方面影响着人们的工作和生活。为了更好的使用互联网资源,搜索引擎应运而生。但是传统的通用搜索引擎存在着网络覆盖率低、查准率差、错误导航等诸多问题,因此又出现了针对某一特定领域提供检索服务的垂直搜索引擎。在学术领域,为了充分利用研究机构与研究人员等通过网络共享的大量学术资源,有不少针对学术领域的垂直搜索引擎也相继出现。但是,由于更新时间滞后、浏览与下载权限控制和时效性较差等原因,目前还没有出现类似通用的Google搜索引擎那样使用率非常高的面向学术领域的垂直搜索引擎。针对以上实际情况,本文研究并实现了一个新的面向学术领域的垂直搜索引擎,基于Nutch实现的该学术搜索引擎能够为用户提供时效性较强且与主题较相关的检索结果,并通过用户定制功能保证了系统的更新频率。本文的主要工作包括以下几个方面:(1)为了保证信息搜集范围的广泛性,本文的学术搜索引擎在爬取模块采用了全网爬取的方式,这打破了一些面向学术领域的搜索引擎仅针对部分学术网站进行信息搜集的局限性。在全网爬取的前提下,本文为学术搜索引擎实现了主题爬取功能。主题爬取模块引入了网页主题相关性过滤机制,采用了一种基于语义引力的相似度计算方法,该算法通过计算网页与主题相关词的相似程度,来判定网页与主题的相关程度。这种在爬取阶段就进行主题判断的方式,是目前实现垂直搜索引擎的最佳方式。全网环境下的主题爬取模块的实现,既保证了所搜集网页的主题相关性,又使得本文的学术搜索引擎具备了发现互联网中新的主题相关网站的能力。(2)在解析模块,本文实现了基于模板的通用网页解析器,该解析器克服了解析模板对网页和网站结构的依赖性,实现了模板创建过程的半自动化,因此它具有一定的通用性。此外,该模板解析器可以通过定制解析来定向收集用户感兴趣的网页信息(如网页更新时间),因此该模板解析器能够被定制以应用于不同的搜索引擎之中。(3)本文成功的完成了Nutch原有的Lucene索引结构的重新构建,为学术搜索引擎的索引文件添加了自定义的date域,并在检索模块实现了基于该时间域的排序方法,从而为学术搜索引擎添加了按网页时效性进行检索的功能。此外,检索模块还实现了综合考虑网页内容重要性和网页链接重要程度的排序方法,克服了一些面向学术领域的搜索引擎在排序方面的不足。(4)用户定制模块实现了管理和配置整个学术搜索引擎的功能,实现了系统运行参数、种子URL的可视化配置,并允许用户通过关键词定制和筛选种子URL。此外,该部分还提供了种子URL推荐功能,用户可以向学术搜索引擎推荐新的种子URL。在配置完成后,用户可以通过用户定制模块直接运行学术搜索引擎,这种易用性使得用户可以根据实际需要确定系统的更新频率,从而保证了检索信息的时效性。经过实际部署与应用的基于Nutch的学术搜索引擎取得了预期的效果,通过分析学术搜索引擎的检索结果,验证了引擎系统各个模块的主要功能。用户可以通过学术搜索引擎检索到与自己关注领域更相关且时效性更强的资讯信息。同时,基于Nutch的学术搜索引擎还具有良好的扩展性和通用性,可以方便的通过扩展进行功能的增删或改进,或通过进一步修改成为其他领域的垂直搜索引擎系统。

全文目录


摘要  5-7
Abstract  7-13
第1章 绪论  13-19
  1.1 研究背景及意义  13-14
  1.2 国内外研究现状  14-16
  1.3 本文研究内容及组织结构  16-17
  1.4 本文的组织结构  17-19
第2章 相关理论及技术  19-35
  2.1 搜索引擎整体架构  19-20
  2.2 网络爬虫  20-21
  2.3 中文分词  21-22
  2.4 网页抽取技术  22-23
  2.5 排序算法  23-26
    2.5.1 网页链接URL  24
    2.5.2 PageRank算法  24-25
    2.5.3 OPIC算法  25-26
  2.6 Nutch  26-33
    2.6.1 Nutch中的Hadoop  26-28
    2.6.2 Lucene索引  28-30
    2.6.3 Nutch的工作流程  30-31
    2.6.4 Nutch的应用  31-33
  2.7 本章小结  33-35
第3章 学术搜索引擎总体设计  35-41
  3.1 需求分析  35-37
    3.1.1 需求描述  35
    3.1.2 功能需求  35-37
    3.1.3 非功能需求  37
  3.2 总体设计  37-40
  3.3 本章小结  40-41
第4章 主题爬取和解析模块的研究与实现  41-53
  4.1 总体流程  41-43
  4.2 网页主题相关性过滤  43-46
    4.2.1 主题相关性过滤原理  43-44
    4.2.2 主题相关性过滤的实现  44-46
  4.3 通用网页解析器  46-51
    4.3.1 通用网页解析器的设计原理  46-47
    4.3.2 通用网页解析器的实现  47-49
    4.3.3 通用网页解析器的定制解析  49-51
  4.4 本章小结  51-53
第5章 索引与检索模块的研究与实现  53-63
  5.1 基于时间域的索引模块的构建  53-56
    5.1.1 索引模块的构建原理  53
    5.1.2 索引模块的实现  53-55
    5.1.3 索引模块对比  55-56
  5.2 检索模块  56-59
    5.2.1 基于时间域排序功能的实现  56-57
    5.2.2 LinkRank排序算法的引入  57-59
  5.3 中文分词  59-61
  5.4 本章小结  61-63
第6章 学术搜索引擎的部署与展示  63-77
  6.1 用户定制模块  63-65
  6.2 增量爬取  65-66
    6.2.1 增量爬取的设计原理  65
    6.2.2 增量爬取的实现与意义  65-66
  6.3 相关词推荐  66-67
  6.4 运行环境与配置  67-69
    6.4.1 系统开发环境  67-68
    6.4.2 运行配置  68-69
  6.5 检索结果对比与分析  69-72
    6.5.1 与原始Nutch系统的对比与分析  69-71
    6.5.2 两种排序方式的对比与分析  71-72
  6.6 性能评估  72-75
    6.6.1 爬取速度评测与对比  72-73
    6.6.2 爬取速度改进  73-75
  6.7 本章小结  75-77
第7章 总结与展望  77-81
  7.1 本文工作总结  77-79
  7.2 下一步工作展望  79-81
参考文献  81-85
致谢  85-87
攻硕期间参与的项目及发表的论文  87

相似论文

  1. 太原市草坪杂草群落生态与科学管理研究,S451
  2. 中条山麻栎群落数量生态研究,Q948
  3. 煤矿开采区植被退化定量监测与评价,Q948
  4. 山西果园杂草数量生态与管理策略研究,S451
  5. 太原东山油松人工林数量特征与生物多样性研究,S791.254
  6. 旅游对芦芽山国家级自然保护区典型植被的影响,S759.9
  7. 网络搜索引擎的相关技术研究,G354
  8. 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
  9. 车辆导航系统路径诱导算法研究,U463.6
  10. 基于Web的未登录词翻译技术研究,TP391.2
  11. 基于社会网络分析的藏文web链接结构研究,TP393.09
  12. 基于语义网络的智能搜索引擎研究,TP391.3
  13. 面向主题的Web文档自动文摘生成方法研究,TP391.1
  14. 基于BP网络的元搜索引擎研究,TP391.3
  15. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  16. 基于因特网的动态规范词表的系统构建研究,G354
  17. 具有不确定偏好序信息的群决策方法研究,C934
  18. 基于云计算的Web教育爬虫,TP391.3
  19. Deep Web接口集成及查询结果排序方法研究,TP274
  20. 基于Struts2框架的安全教育管理信息系统研究,TP311.52
  21. 企业搜索引擎营销研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com