学位论文 > 优秀研究生学位论文题录展示
面向多任务、多通道并行爬虫的技术研究
作 者: 李学凯
导 师: 李斌
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 搜索引擎 任务分配 网站划分 信息提取 分布式文件系统
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 71次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网以其信息生产的自主性、信息传播、获取的便捷性、地域覆盖的广泛性,辅以低廉的运行维护成本,自上世纪90年代中期开始大发展以来,迅速成为政务、商务、教育、娱乐等一系列重要社会活动的承载平台。互联网安全变得越来越重要,成为典型的非传统安全。针对传统搜索引擎无法提供服务定制以及数据更新慢的缺陷,该论文研制并实现了一个能够提供高度定制化、按用户需求组织资源、支持多通道信息获取技术的信息按需、及时获取平台。不同于传统的搜索引擎只有一个全局大任务,该系统需要处理不同用户下发的多种任务。每个用户只关心某几个网站,而且实时性要求比较高,在特定的时间内,需要对目标网站进行频繁抓取。该系统研究的是具有多任务管理和分配的并行爬虫,任务的目标通常包含多个网站,而且任务开始时间,下一次执行任务的时间都可以设定,多个监管任务又可能需要关心同一个网站。为了提高任务执行的并行性,该系统将任务拆分成更细粒度的任务分片进行管理分配,同时采用了一致性Hash算法提供爬虫的任务分配,该算法使得爬虫间负载尽量相等,同时最大限度地减小服务器增减时的任务分片重新分布。针对不同的数据来源,文中采用了多通道技术,根据每种数据源的特征,定制不同的分析方案。该论文还剖析了传统搜索引擎分配任务的方式及存在的问题,随后根据系统的特点,提出了新的比传统方法粒度更细的任务分配方式网站划分。该分配方式将较大规模的网站切分为若干较小规模的子集,并将子集交给若干爬虫节点并行抓取,以加快爬虫系统的整体获取速率,作为对传统方法的有效优化。
|
全文目录
相似论文
- 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
- 网络搜索引擎的相关技术研究,G354
- 环青海湖区沙漠化土地景观格局变化分析,X171
- 基于雷达影像活动断裂信息提取方法与示范应用研究,P542.3
- 基于高分辨率遥感数据的矿区房屋信息提取方法研究,TP751
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 分布式数据的弱一致性维护策略的研究,TP311.13
- 一种分布环境下加密文件系统的设计与实现,TP309.7
- Hadoop分布式文件系统(HDFS)可靠性的研究与优化,TP316.4
- 分布式文件系统中集中安全管理服务器设计与实现,TP316.4
- 工程新闻报道的信息提取及应用研究,G212
- 船体分段的机器人焊接路径规划与离线编程,TP242
- 基于半结构化文本的转运蛋白底物信息提取系统,Q811.4
- 面向Web的中文自动文摘生成的研究,TP391.1
- 一类多机器人系统任务分配方法的研究,TP242
- 教育培训行业互联网营销问题的研究,F49
- 基于参与者表达式的工作流动态授权模型,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|