学位论文 > 优秀研究生学位论文题录展示

基于Nutch的面向特定主题的爬虫研究

作 者: 余静
导 师: 刘万军
学 校: 辽宁工程技术大学
专 业: 计算机应用技术
关键词: 专业搜索引擎 主题爬虫 网页主题相关度预测 网页分块 Nutch
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 298次
引 用: 5次
阅 读: 论文下载
 

内容摘要


通用搜索引擎返回的信息很难满足用户对专业领域的信息需求,网络信息的海量性和动态性,也使通用搜索引擎不可能对所有信息进行索引,因此,主题式搜索技术成为搜索引擎领域一个新的热点。网页跟预定主题进行相关性判断是主题式搜索技术的一个重要环节,在研究了文本表示,特征选择、权重分配的基础上,改进了TF-IDF词条权重计算公式,用以反映网页文本特征,同时对相关性判断阈值的确定也进行了探索。针对预定主题的网页特征,在爬虫爬行策略上提出了一个利用HTML标签对网页进行分块的算法。对于不相关的网页分块采取一种探索式的策略,增加了搜索深度,提高了主题爬虫穿越“隧道”的能力。另外综合考虑分块主题相关度和锚文本相关度,并以此预测URL的相关度。最后是基于Nutch的系统设计与实现,介绍了系统的设计思想、体系结构和具体实现,并在实验中获得了较好的性能。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-16
  1.1 研究背景与研究意义  8-9
  1.2 国内外研究现状  9-11
  1.3 搜索引擎的工作原理  11-14
    1.3.1 通用搜索引擎的工作原理  11-12
    1.3.2 主题式搜索引擎的工作原理  12-14
  1.4 本文的主要研究内容和组织结构  14-16
2 网页与预定义主题相关度的计算  16-29
  2.1 引言  16
  2.2 网页文本的表示模型  16-20
    2.2.1 常用的文本特征表示模型  17-18
    2.2.2 向量空间模型  18-20
  2.3 文本分类的关键技术  20-26
    2.3.1 训练文本集  21
    2.3.2 特征选择  21-24
    2.3.3 词条权重的分配  24-26
  2.4 分类模型  26-27
    2.4.1 Naive 贝叶斯分类器  26
    2.4.2 KNN 最近邻分类器  26-27
  2.5 相关性判断阈值探索  27-28
  2.6 本章小结  28-29
3 网页分块技术  29-45
  3.1 引言  29
  3.2 网页分块算法介绍  29-33
    3.2.1 基于视觉特征的网页分割算法  31
    3.2.2 基于位置的分块  31-32
    3.2.3 基于style tree 的分块  32
    3.2.4 基于 Dom 树的分块  32-33
  3.3 基于 DOM 树的页面划分  33-36
    3.3.1 DOM 树  33-34
    3.3.2 算法思想  34-35
    3.3.3 基于 DOM 树的分块算法  35-36
  3.4 URL 相关度预测及排序  36-39
    3.4.1 几种相关度预测方法介绍  37-39
    3.4.2 以分块为基础的相关度预测算法  39
  3.5 基于网页分块的主题爬行过程  39-44
    3.5.1 隧道问题  40-42
    3.5.2 爬行过程及算法描述  42-44
  3.6 本章小结  44-45
4 主题爬虫的系统实现  45-55
  4.1 引言  45
  4.2 Nutch 介绍  45-47
    4.2.1 Nutch 各命令脚本的作用  45-46
    4.2.2 Crawler 数据文件的格式及含义  46-47
    4.2.3 Nutch 的插件机制  47
  4.3 系统的总体架构  47-48
  4.4 主题网页特征分析  48-49
  4.5 系统运行所作的准备工作  49-51
  4.6 系统运行及性能分析  51-54
    4.6.1 爬虫性能评价指标  51
    4.6.2 系统运行  51-53
    4.6.3 性能分析  53-54
  4.7 本章小结  54-55
5 结论与展望  55-57
参考文献  57-60
攻读学位期间发表的学术论文及科研成果  60-61
致谢  61

相似论文

  1. 基于SVM分类算法的主题爬虫研究,TP391.3
  2. 面向汽车行业的主题爬虫研究与实现,TP391.3
  3. 面向教育新闻的主题爬虫设计与实现,TP391.3
  4. 基于Nutch的企业搜索引擎的研究与实现,TP391.3
  5. 主题搜索引擎关键技术研究,TP391.3
  6. 面向海量数据的云存储系统实现与应用研究,TP333
  7. 主题搜索引擎中的爬取技术研究,TP391.3
  8. 面向OA期刊检索结果页面的信息抽取方法研究,TP393.092
  9. 网络文本信息采集分析关键技术研究与实现,TP391.1
  10. 基于文档结构的半监督Blog信息抽取技术,TP393.092
  11. 移动垂直搜索系统的研究,TP391.3
  12. 面向中医药的多元语义搜索引擎,TP391.3
  13. 基于垂直搜索引擎的主题爬虫算法的研究,TP391.3
  14. 基于遗传算法的主题爬虫搜索策略研究,TP391.3
  15. 主题爬虫的研究与实现,TP391.3
  16. 基于Nutch的图情博客搜索引擎的设计与实现,G250.73
  17. 主题搜索引擎的研究与实现,TP391.3
  18. 主题爬虫URL分析模型与调度技术研究,TP393.092
  19. 基于网页分块的Web社区识别,TP393.092
  20. 基于Groovy的分布式网络爬虫系统的设计与实现,TP391.3
  21. 基于Hadoop的机械故障诊断资源分布式信息检索系统的设计与实现,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com