学位论文 > 优秀研究生学位论文题录展示

主题搜索网络爬虫的设计与研究

作　者: 杜一平
导　师: 顾乃杰
学　校: 中国科学技术大学
专　业: 计算机系统结构
关键词: 搜索引擎网络爬虫主题搜索链接上下文特征提取权重计算
分类号: TP391.3
类　型: 硕士论文
年　份: 2009年
下　载: 229次
引　用: 5次
阅　读: 论文下载

内容摘要

随着因特网规模的不断扩大,网络用户越来越依靠搜索引擎等网络工具来从网络上获取他们想要的信息。然而,通用搜索引擎面对日益增长的网络规模以及人们对个性化信息检索的需要往往力不从心。主题搜索引擎,亦称垂直搜索引擎通过把搜索应用限制在特定的主题上,提供个性化,专业化的搜索服务,提高了服务质量,同时也节约了计算及网络资源。论文围绕网页和主题的特征提取方法、特征权重计算方法以及链接上下文长度对主题网络爬虫性能影响的问题开展了以下的研究工作:针对经典的MI互信息方法倾向于选择低频词条而CHI统计方法倾向于选择高频词条的问题,提出一种新的EXM方法,该方法加入类内词频和分散度因素,把两者结合。实验结果表明新方法能有效提升文本分类的准确率达5%至12%,可用于网络爬虫主题特征提取。针对二元特征提取优势率算法OR由于忽视词频因素而在中低维数情况下性能较差的问题,提出EOR算法。该算法引入了类内词频及分散度因素,提升了中低维数下文本分类的准确度5%左右,可以有效降低文本向量的维数。把EOR特征提取过程中计算得到的词条EOR分值与词频TF结合得到特征词权重计算方法TF-EOR。实验表明,该方法比传统TF-IDF能提升网络爬虫抓取精确度4%左右,与同类型的TF-MI和TF-CHI相比也略有优势。应用EOR特征提取方法和TF-EOR权重计算方法改造通用网络爬虫Larbin,使其成为主题网络爬虫Tlarbin。性能评测表明Tlarbin能有效地抓取主题相关网页,其抓取准确率优于朴素最佳优先搜索、Shark Search及Larbin原型。在Tlarbin平台上,对URL上下文作为URL相关度预测因子对爬虫性能的影响做了定量分析。实验结果表明,URL上下文在考虑父网页相关度因素的情况下对爬虫性能基本没有影响,而在不考虑父网页相关度时随着长度增加能不断改进爬虫的抓取准确率。

全文目录

摘要  3-4
Abstract  4-9
第一章绪论  9-22
  1.1 通用搜索引擎简介  9-15
    1.1.1 通用搜索引擎的历史  9-10
    1.1.2 通用搜索引擎的分类  10-14
    1.1.3 通用搜索引擎的发展趋势  14-15
  1.2 主题搜索引擎简介  15-18
    1.2.1 主题搜索引擎的产生背景  15-16
    1.2.2 主题搜索引擎的特点及其发展现状  16-18
  1.3 网络爬虫  18-20
    1.3.1 网络爬虫的概念及运行机制  18
    1.3.2 网络爬虫的性能  18-19
    1.3.3 网络爬虫的分类  19-20
  1.4 本文的主要内容与组织  20-22
    1.4.1 本文的主要内容  20
    1.4.2 本文的组织  20-22
第二章主题网络爬虫设计及影响性能的因素  22-35
  2.1 主题网页的特性  22-24
    2.1.1 Hub 特性  22
    2.1.2 Linkage /Sibling Locality 特性  22-23
    2.1.3 站点主题特性  23
    2.1.4 隧道特性  23-24
    2.1.5 深度网页特性  24
  2.2 影响相关度评估的网页要素分析  24-29
    2.2.1 网页元数据  24-25
    2.2.2 网页标签数据  25-26
    2.2.3 网页链接信息  26-29
  2.3 页面的主题相关性判定模型  29-32
  2.4 主题网络爬虫需要解决的技术问题  32-33
  2.5 主题网络爬虫的架构  33-34
  2.6 本章小结  34-35
第三章新特征提取方法的设计  35-47
  3.1 文本分类及特征提取  35-36
    3.1.1 文本分类  35
    3.1.2 特征提取  35-36
  3.2 已有的x~2 统计方法和MI 方法  36-38
    3.2.1 x~2 统计方法  36-37
    3.2.2 MI 互信息方法  37-38
  3.3 新算法EXM 的提出  38-40
    3.3.1 影响特征权值的因素  38-39
    3.3.2 新算法EXM 的设计  39-40
  3.4 EXM 特征提取方法的性能分析及实验  40-42
    3.4.1 实验设计  40
    3.4.2 训练文档的选择及预处理  40-41
    3.4.3 分类器选择  41
    3.4.4 评价标准  41
    3.4.5 实验结果  41-42
  3.5 二元特征选择算法  42-46
    3.5.1 优势率二元特征选择方法  42-43
    3.5.2 优势率算法的改进  43-44
    3.5.3 特征词条的权重计算  44-45
    3.5.4 EOR 算法实验及分析  45-46
  3.6 本章小结  46-47
第四章主题网络爬虫 Tlarbin 的设计与实现  47-56
  4.1 开源网络爬虫Larbin  47
  4.2 Tlarbin 对Larbin 的改进设计  47-50
    4.2.1 主题与网页的向量空间模型表示  47-48
    4.2.2 起始链接的筛选  48-49
    4.2.3 中文预处理  49-50
    4.2.4 启发式算法的设计  50
  4.3 Tlarbin 的构造  50-54
    4.3.1 TopicalLarbin 中的数据结构  51-53
    4.3.2 Tlarbin 的功能模块  53-54
  4.4 Tlarbin 的伪代码实现  54-55
  4.5 本章小结  55-56
第五章实验及分析  56-62
  5.1 实验环境及系统配置  56
  5.2 主题选择及种子选取  56
  5.3 评测标准  56-57
  5.4 Tlarbin 的性能测试  57-58
  5.5 TF-EOR 测试  58-59
  5.6 链接上下文测试  59-61
  5.7 本章小结  61-62
第六章总结与展望  62-64
  6.1 本文总结  62-63
  6.2 进一步研究展望  63-64
参考文献  64-68
致谢  68-69
在读期间发表的学术论文与取得的研究成果  69

主题搜索网络爬虫的设计与研究

内容摘要

全文目录

相似论文