学位论文 > 优秀研究生学位论文题录展示

基于布隆过滤器算法的网页消重技术的实现与应用

作 者: 王征
导 师: 陈旭东
学 校: 北京交通大学
专 业: 软件工程
关键词: Bloom Filter 网络爬虫 URL消重 网页消重
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 198次
引 用: 2次
阅 读: 论文下载
 

内容摘要


随着Internet的不断发展,网络信息呈指数级不断膨胀,这也给信息检索带来了很大的困难,因此对于重复网页的消重操作也是十分有意义的。本文从理论和应用两方面对网页消重技术进行了研究,达到了以下目标:首先,针对特定的需求,设计与实现了基于问答平台网站的爬虫,给出了详细的实现过程,并实现了基于布隆过滤器算法(Bloom Filter)的重复URL的过滤;其次,采用XPath路径表达式定位目标节点,对于目标网页的网页正文内容进行提取操作;最后,对抽取出来的网页正文内容进行了消重操作。对网页正文内容进行了变长分块操作,对分块后的文档进行了Bloom Filter编码,并通过对文档间的Bloom Filter进行逻辑按位与操作来判断文档间的相似程度。论文实现的消重方法已经应用于实际,实际应用结果表明,该方法取得了显著的去重效果,大大提高了信息检索系统性能与用户体验性。

全文目录


相似论文

  1. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  2. 无结构P2P网络稀有资源搜索策略的研究,TP393.02
  3. 基于Chord和Bloom Filter的网格信息服务研究,TP393.09
  4. 搜索引擎中网页净化与消重技术研究,TP393.092
  5. 基于主动搜索的论坛内容监管技术研究,TP393.092
  6. 蜂群算法及其在垂直Web搜索中的应用,TP18
  7. 搜索引擎系统中网页消重的研究与实现,TP393.092
  8. 元搜索引擎的研究与实现,TP391.3
  9. 文本分类语料库自动构建系统的研究与改进,TP391.1
  10. 海量网页搜集系统的设计,TP391.3
  11. 基于网络爬虫的跨站脚本漏洞动态检测技术研究,TP393.08
  12. 校园网中课件资源的爬取与检索,TP391.3
  13. 基于Bloom Filter的超点检测算法的研究,TP393.06
  14. 基于改进型Bloom Filter的深度包检测技术研究,TP393.08
  15. 互联网中文文本分类的研究与应用,TP391.1
  16. 面向Web的图书信息抽取方法与实现,TP311.52
  17. 面向主题的搜索引擎的设计与实现,TP391.3
  18. 基于JAVA+LUCENE+HERITRIX的WEB垂直搜索引擎技术研究与实现,TP391.3
  19. 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
  20. 基于bloom filter的多模式匹配引擎设计与应用,TP393.08

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com