学位论文 > 优秀研究生学位论文题录展示
基于Nutch的面向特定主题的爬虫研究
作 者: 余静
导 师: 刘万军
学 校: 辽宁工程技术大学
专 业: 计算机应用技术
关键词: 专业搜索引擎 主题爬虫 网页主题相关度预测 网页分块 Nutch
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 298次
引 用: 5次
阅 读: 论文下载
内容摘要
通用搜索引擎返回的信息很难满足用户对专业领域的信息需求,网络信息的海量性和动态性,也使通用搜索引擎不可能对所有信息进行索引,因此,主题式搜索技术成为搜索引擎领域一个新的热点。网页跟预定主题进行相关性判断是主题式搜索技术的一个重要环节,在研究了文本表示,特征选择、权重分配的基础上,改进了TF-IDF词条权重计算公式,用以反映网页文本特征,同时对相关性判断阈值的确定也进行了探索。针对预定主题的网页特征,在爬虫爬行策略上提出了一个利用HTML标签对网页进行分块的算法。对于不相关的网页分块采取一种探索式的策略,增加了搜索深度,提高了主题爬虫穿越“隧道”的能力。另外综合考虑分块主题相关度和锚文本相关度,并以此预测URL的相关度。最后是基于Nutch的系统设计与实现,介绍了系统的设计思想、体系结构和具体实现,并在实验中获得了较好的性能。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-16 1.1 研究背景与研究意义 8-9 1.2 国内外研究现状 9-11 1.3 搜索引擎的工作原理 11-14 1.3.1 通用搜索引擎的工作原理 11-12 1.3.2 主题式搜索引擎的工作原理 12-14 1.4 本文的主要研究内容和组织结构 14-16 2 网页与预定义主题相关度的计算 16-29 2.1 引言 16 2.2 网页文本的表示模型 16-20 2.2.1 常用的文本特征表示模型 17-18 2.2.2 向量空间模型 18-20 2.3 文本分类的关键技术 20-26 2.3.1 训练文本集 21 2.3.2 特征选择 21-24 2.3.3 词条权重的分配 24-26 2.4 分类模型 26-27 2.4.1 Naive 贝叶斯分类器 26 2.4.2 KNN 最近邻分类器 26-27 2.5 相关性判断阈值探索 27-28 2.6 本章小结 28-29 3 网页分块技术 29-45 3.1 引言 29 3.2 网页分块算法介绍 29-33 3.2.1 基于视觉特征的网页分割算法 31 3.2.2 基于位置的分块 31-32 3.2.3 基于style tree 的分块 32 3.2.4 基于 Dom 树的分块 32-33 3.3 基于 DOM 树的页面划分 33-36 3.3.1 DOM 树 33-34 3.3.2 算法思想 34-35 3.3.3 基于 DOM 树的分块算法 35-36 3.4 URL 相关度预测及排序 36-39 3.4.1 几种相关度预测方法介绍 37-39 3.4.2 以分块为基础的相关度预测算法 39 3.5 基于网页分块的主题爬行过程 39-44 3.5.1 隧道问题 40-42 3.5.2 爬行过程及算法描述 42-44 3.6 本章小结 44-45 4 主题爬虫的系统实现 45-55 4.1 引言 45 4.2 Nutch 介绍 45-47 4.2.1 Nutch 各命令脚本的作用 45-46 4.2.2 Crawler 数据文件的格式及含义 46-47 4.2.3 Nutch 的插件机制 47 4.3 系统的总体架构 47-48 4.4 主题网页特征分析 48-49 4.5 系统运行所作的准备工作 49-51 4.6 系统运行及性能分析 51-54 4.6.1 爬虫性能评价指标 51 4.6.2 系统运行 51-53 4.6.3 性能分析 53-54 4.7 本章小结 54-55 5 结论与展望 55-57 参考文献 57-60 攻读学位期间发表的学术论文及科研成果 60-61 致谢 61
|
相似论文
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于Nutch的企业搜索引擎的研究与实现,TP391.3
- 主题搜索引擎关键技术研究,TP391.3
- 面向海量数据的云存储系统实现与应用研究,TP333
- 主题搜索引擎中的爬取技术研究,TP391.3
- 面向OA期刊检索结果页面的信息抽取方法研究,TP393.092
- 网络文本信息采集分析关键技术研究与实现,TP391.1
- 基于文档结构的半监督Blog信息抽取技术,TP393.092
- 移动垂直搜索系统的研究,TP391.3
- 面向中医药的多元语义搜索引擎,TP391.3
- 基于垂直搜索引擎的主题爬虫算法的研究,TP391.3
- 基于遗传算法的主题爬虫搜索策略研究,TP391.3
- 主题爬虫的研究与实现,TP391.3
- 基于Nutch的图情博客搜索引擎的设计与实现,G250.73
- 主题搜索引擎的研究与实现,TP391.3
- 主题爬虫URL分析模型与调度技术研究,TP393.092
- 基于网页分块的Web社区识别,TP393.092
- 基于Groovy的分布式网络爬虫系统的设计与实现,TP391.3
- 基于Hadoop的机械故障诊断资源分布式信息检索系统的设计与实现,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|