学位论文 > 优秀研究生学位论文题录展示

搜索引擎系统网页消重的研究与实现

作　者: 范小源
导　师: 陆际光
学　校: 中南民族大学
专　业: 计算机应用技术
关键词: 搜索引擎网页消重客户代理 Lucene
分类号: TP391.3
类　型: 硕士论文
年　份: 2007年
下　载: 499次
引　用: 3次
阅　读: 论文下载

内容摘要

Internet的迅速普及和飞速发展,使人们面临着一个信息的海洋,快速从中获得真正重要的信息变得至关重要。搜索引擎(主要指全文搜索系统)即是提供这种功能的一种工具。然而在搜索引擎返回的检索结果中,存在大量的重复网页,它们主要来自网站之间的转载。这些内容重复的网页既占用了网络带宽,又浪费存储资源,用户不希望看到一堆内容相同或近似的检索结果,真正有用的结果往往淹没在这些重复信息之中而不易被发现。如果能够有效消除这些重复网页,不但会提高检索的准确率,节省用户的时间和精力,而且对搜索系统本身而言可以节省大量的存储资源,提高工作效率。本文主要研究搜索引擎中的网页消重问题。目前有效的网页消重方法还比较少,主要都在服务器端实现,即在搜索系统的采集器进行网页采集的过程中消除重复的网页。目前使用的方法主要有基于相同URL的方法、基于聚类的方法、基于特征码的方法和基于签名的方法。其中聚类的方法是先将文本基于向量空问模型表示为一个向量,然后再应用各种方法来实现聚类或分类。这种方法的向量夹角计算具有很高的计算复杂度因而占用较多的处理时间。此后提出的基于特征码的方法具有较高的消重效率,但仍然难以抵抗网页转载时产生的噪声。与以往消重工作不同的是,本文将消重工作分为服务器端和客户端两部分进行。在研究了大量重复网页的基础上,将重复网页的概念进一步细分,分成内容完全相同的网页和经过适当编辑、裁剪等工作后形成的基本相同或相似网页,并分别在搜索系统的服务器端和客户端进行这两种不同类型网页的消重工作。在以上研究工作的基础上提出了一种基于网页内容特征串的新方法来解决服务器端的网页消重问题。该方法充分利用了网页的结构特征,采取主码和辅码相结合的方式来标识网页文本。主码用来标识网页文本的段落结构信息,辅码用来标识网页文本的内容信息。本文采用对主码进行聚类,对相应类别的辅码进行匹配的策略,提高了消重的准确率和效率。实验证明该方法具有比较理想的消重效果。为了实现搜索系统的智能化和个性化定制功能,本文在服务器端消重的基础上,又在客户端提出了智能代理模型。在此基础上,分析了新闻类网页的重复特点,提出了适用于客户端的基于关键词上下文匹配的网页消重新算法。该算法利用新闻类网页转载率高、重复率高的特征,考虑到用户搜索关键词一般可以表征其所希望获得的网页,使用用户提交关键词的上下文来构成匹配串,对各匹配串进行比较来实现网页消重。该算法采用模糊匹配的思想来抵抗网页噪声,引入可以根据需要进行调整的模糊因子和重叠因子等参数,得到了满意的消重效果。本文为了验证所提出算法的有效性并比较其消重效果,在Windows平台上基于Java语言以及Lucene工具包开发了一个搜索引擎实验原型系统,完成了该系统的总体设计和各个模块的设计工作,并在该系统上实现了本文的算法。实验结果表明,本文提出的两种消重算法均具有较高的重复网页召回率、消重准确率和较低的漏删率及误删率,进一步改进、完善后,可望获得实际应用。最后进行了全文总结并提出了进一步研究工作的设想。

全文目录

摘要  8-10
ABSTRACT  10-12
第1章绪论  12-17
  1.1 研究的背景和现状  12-15
    1.1.1 研究的背景  12
    1.1.2 搜索引擎技术的现状  12-14
    1.1.3 目前搜索系统的缺陷和不足  14
    1.1.4 搜索引擎技术的发展趋势  14-15
  1.2 研究的动机和本文的工作  15-17
第2章搜索引擎及其关键技术  17-29
  2.1 搜索引擎概述  17-19
    2.1.1 体系结构  17-18
    2.1.2 性能评价指标  18-19
  2.2 搜索系统关键技术分析  19-22
    2.2.1 采集器  19-20
    2.2.2 索引器  20
    2.2.3 排序器  20-21
    2.2.4 用户接口  21-22
  2.3 索引与检索  22-25
    2.3.1 倒排索引  22-24
    2.3.2 检索  24-25
  2.4 中文分词  25-28
  2.5 本章小结  28-29
第3章基于特征串提取的服务器端网页消重算法  29-45
  3.1 重复网页的产生和消重的意义  29
  3.2 现有消重算法简介  29-32
    3.2.1 排除相同URL 的网页消重方法  30
    3.2.2 基于聚类的网页消重方法  30-31
    3.2.3 基于签名的方法  31
    3.2.4 基于特征码的方法  31-32
  3.3 改进的基于特征码的网页消重算法  32-40
    3.3.1 网页的重复特点  32-33
    3.3.2 特征码的提取  33-35
    3.3.3 基于特征码的网页消重算法  35-38
    3.3.4 实现步骤  38-39
    3.3.5 算法有效性分析  39-40
  3.4 服务器端消重的算法实现流程  40-41
  3.5 实验及分析  41-44
  3.6 本章小结  44-45
第4章基于关键词上下文匹配的客户端网页消重算法  45-58
  4.1 搜索系统的客户端代理技术  45-47
    4.1.1 概述  45-46
    4.1.2 Agent 技术  46
    4.1.3 搜索系统客户端Agent  46-47
  4.2 基于关键词上下文匹配的网页消重算法  47-55
    4.2.1 网页重复的特点  47-48
    4.2.2 基于关键词上下文匹配的网页消重算法设计  48-54
    4.2.3 算法优化  54-55
  4.3 实验及分析  55-57
  4.4 本章小结  57-58
第5章搜索引擎系统的设计和实现  58-75
  5.1 基于JAVA 的全文检索引擎包——LUCENE  58-63
    5.1.1 Lucene 简介  58-59
    5.1.2 Lucene 的包结构  59-60
    5.1.3 Lucene 的文档格式  60-61
    5.1.4 Lucene 数据流分析  61-63
  5.2 系统和模块设计  63
  5.3 搜索系统的实现  63-71
    5.3.1 建立索引过程  64-66
    5.3.2 Lucene 搜索  66-68
    5.3.3 Lucene 的分析器  68-69
    5.3.4 中文分词的实现  69-70
    5.3.5 对搜索结果的排序  70-71
  5.4 网页消重算法的实现  71-74
    5.4.1 基于特征串提取的网页消重算法的实现  71-73
    5.4.2 基于关键词上下文匹配的网页消重算法的实现  73-74
  5.5 本章小结  74-75
第6章结论  75-77
  6.1 全文工作总结  75
  6.2 进一步的工作  75-77
参考文献  77-81
致谢  81-82
附录A 攻读学位期间所发表的学术论文目录  82

搜索引擎系统网页消重的研究与实现

内容摘要

全文目录

相似论文