学位论文 > 优秀研究生学位论文题录展示

面向博客领域的垂直搜索引擎的研究与实现

作　者: 王嘉杰
导　师: 金跃辉；赵方
学　校: 北京邮电大学
专　业: 软件工程
关键词: 垂直搜索引擎网络蜘蛛缓存策略倒排索引
分类号: TP391.3
类　型: 硕士论文
年　份: 2009年
下　载: 464次
引　用: 6次
阅　读: 论文下载

内容摘要

随着网络信息资源呈几何级数增长,使用传统搜索引擎技术准确、快速地查找所需信息也变得越来越困难。面对每天海量递增的数据量,通用搜索引擎(又称为水平搜索引擎)很难及时地更新索引数据库;面对数以亿计的网页通用搜索引擎很难深入抓取信息。针对通用搜索引擎存在搜索不够快速、不够深入的缺点,新一代搜索技术—垂直搜索引擎应运而生。垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是相对通用搜索引擎的信息量大、查询不准确、深度不够等问题提出来的新一代搜索引擎服务模式。通过针对某一特定领域、某一特定人群或某一特定需求提供有一定价值的信息和相关服务。与通用搜索引擎的信息采集技术不同,垂直搜索引擎的网络蜘蛛(又称为网络爬虫)仅采集与主题相关的信息。通过对网页的主题相关度进行预测和判断,专业网络蜘蛛在爬行时避开了大量主题无关的区域。由于只采集主题相关的网页,垂直搜索引擎在查询的准确率和效率上都有显著地提高。本文首先介绍了垂直搜索引擎技术的研究现状和发展方向,然后重点研究了垂直搜索引擎的主题搜索策略和主题相关度判别算法;在分析了、阐述了通用搜索引擎与垂直搜索引擎在系统架构、工作原理、关键技术等方面的不同特点基础上,对博客垂直搜索引擎核心模块—索引及检索模块进行设计;并对博客垂直搜索引擎系统的具体实现和实施做了详细地描述,测试的结果验证了本论文设计的博客垂直搜索引擎具有良好的搜索效果。本文创新点是:(1)根据基于主题的垂直搜索网络爬虫原理自主开发出MySpider网络爬虫,它具有多线程并发能力,可以高效的地下载网页,同时它基于TopicPageRank的抓取策略可以对要抓取的网页进行主题相关度的判别,从而决定是否下载该网页;(2)为提高用户检索效率,制定了相应的索引缓存策略。本论文的项目成果,为基于主题的垂直搜索引擎技术的进一步发展、加强基于主题的信息检索能力、进一步改善信息检索水平、更好地利用海量信息提供了一定的帮助,并做了有益的探讨。

全文目录

摘要  4-6
ABSTRACT  6-10
第一章绪论  10-16
  1.1 项目背景  10-11
  1.2 垂直搜索引擎  11-13
    1.2.1 垂直搜索引擎的定义  11-12
    1.2.2 垂直搜索引擎的优势  12
    1.2.3 垂直搜索引擎的国内外现状  12-13
  1.3 课题任务  13-14
  1.4 论文结构  14-16
第二章搜索引擎原理分析  16-22
  2.1 通用搜索引擎  16-21
    2.1.1 搜索引擎组成及工作原理  16-17
    2.1.2 搜索引擎的分类  17-18
    2.1.3 搜索引擎的发展历史  18-19
    2.1.4 搜索引擎的发展趋势  19-21
  2.2 本章小结  21-22
第三章博客垂直搜索引擎关键技术研究  22-37
  3.1 垂直网络蜘蛛技术  22-27
    3.1.1 垂直网络蜘蛛的工作原理  22-24
    3.1.2 ROBOTS协议  24
    3.1.3 主题目标描述  24-26
    3.1.4 网页搜索策略  26-27
  3.2 主题相关度判定  27-29
    3.2.1 布尔模型  28
    3.2.2 向量空间模型  28-29
  3.3 基于链接的分析技术  29-36
    3.3.1 PAGERANK算法  29-32
    3.3.2 HITS算法  32-33
    3.3.3 PAGERANK和HITS算法比较  33-34
    3.3.4 TPR主题相关度预测算法  34-35
    3.3.5 TPR算法分析  35-36
  3.4 本章小结  36-37
第四章索引和检索模块的设计  37-57
  4.1 博客垂直搜索引擎系统总体框架设计  37-38
  4.2 网页结构化信息抽取技术的设计  38-41
    4.2.1 WEB信息抽取概述  39
    4.2.2 WEB信息抽取关键技术  39-40
    4.2.3 基于正则表达式的网页信息抽取方法  40-41
  4.3 网页消重的设计  41-43
  4.4 中文分词技术的选取  43-48
    4.4.1 基于字符串匹配的分词方法  43-46
    4.4.2 基于统计的分词方法  46-48
    4.4.3 基于主题判别的机械分词方法  48
  4.5 词典更新策略  48-51
  4.6 建立索引  51-53
  4.7 用户检索定义与过程  53-55
    4.7.1 EHCACHE索引文件缓存策略  54
    4.7.2 索引文件存储策略  54-55
  4.8 网页摘要缓存策略  55-56
  4.9 本章小结  56-57
第五章博客垂直搜索引擎系统的实现与性能测试  57-65
  5.1 开发环境介绍  57-58
  5.2 网络蜘蛛开发  58-60
  5.3 分词字典  60
  5.4 创建索引文件  60-61
  5.5 检索接口  61-62
  5.6 系统部署  62-63
  5.7 性能测试  63-64
    5.7.1 MYSPIDER网络蜘蛛性能测试  63
    5.7.2 检索接口性能测试  63-64
  5.8 本章小结  64-65
第六章总结与展望  65-67
  6.1 全文总结  65-66
  6.2 问题与展望  66-67
参考文献  67-68
致谢  68

面向博客领域的垂直搜索引擎的研究与实现

内容摘要

全文目录

相似论文