学位论文 > 优秀研究生学位论文题录展示

面向多任务、多通道并行爬虫的技术研究

作 者: 李学凯
导 师: 李斌
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 搜索引擎 任务分配 网站划分 信息提取 分布式文件系统
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 71次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网以其信息生产的自主性、信息传播、获取的便捷性、地域覆盖的广泛性,辅以低廉的运行维护成本,自上世纪90年代中期开始大发展以来,迅速成为政务、商务、教育、娱乐等一系列重要社会活动的承载平台。互联网安全变得越来越重要,成为典型的非传统安全。针对传统搜索引擎无法提供服务定制以及数据更新慢的缺陷,该论文研制并实现了一个能够提供高度定制化、按用户需求组织资源、支持多通道信息获取技术的信息按需、及时获取平台。不同于传统的搜索引擎只有一个全局大任务,该系统需要处理不同用户下发的多种任务。每个用户只关心某几个网站,而且实时性要求比较高,在特定的时间内,需要对目标网站进行频繁抓取。该系统研究的是具有多任务管理和分配的并行爬虫,任务的目标通常包含多个网站,而且任务开始时间,下一次执行任务的时间都可以设定,多个监管任务又可能需要关心同一个网站。为了提高任务执行的并行性,该系统将任务拆分成更细粒度的任务分片进行管理分配,同时采用了一致性Hash算法提供爬虫的任务分配,该算法使得爬虫间负载尽量相等,同时最大限度地减小服务器增减时的任务分片重新分布。针对不同的数据来源,文中采用了多通道技术,根据每种数据源的特征,定制不同的分析方案。该论文还剖析了传统搜索引擎分配任务的方式及存在的问题,随后根据系统的特点,提出了新的比传统方法粒度更细的任务分配方式网站划分。该分配方式将较大规模的网站切分为若干较小规模的子集,并将子集交给若干爬虫节点并行抓取,以加快爬虫系统的整体获取速率,作为对传统方法的有效优化。

全文目录


相似论文

  1. 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
  2. 网络搜索引擎的相关技术研究,G354
  3. 环青海湖区沙漠化土地景观格局变化分析,X171
  4. 基于雷达影像活动断裂信息提取方法与示范应用研究,P542.3
  5. 基于高分辨率遥感数据的矿区房屋信息提取方法研究,TP751
  6. 基于语义网络的智能搜索引擎研究,TP391.3
  7. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  8. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  9. 分布式搜索引擎索引安全及缓存策略研究,TP333
  10. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  11. 分布式数据的弱一致性维护策略的研究,TP311.13
  12. 一种分布环境下加密文件系统的设计与实现,TP309.7
  13. Hadoop分布式文件系统(HDFS)可靠性的研究与优化,TP316.4
  14. 分布式文件系统中集中安全管理服务器设计与实现,TP316.4
  15. 工程新闻报道的信息提取及应用研究,G212
  16. 船体分段的机器人焊接路径规划与离线编程,TP242
  17. 基于半结构化文本的转运蛋白底物信息提取系统,Q811.4
  18. 面向Web的中文自动文摘生成的研究,TP391.1
  19. 一类多机器人系统任务分配方法的研究,TP242
  20. 教育培训行业互联网营销问题的研究,F49
  21. 基于参与者表达式的工作流动态授权模型,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com