学位论文 > 优秀研究生学位论文题录展示
基于布隆过滤器算法的网页消重技术的实现与应用
作 者: 王征
导 师: 陈旭东
学 校: 北京交通大学
专 业: 软件工程
关键词: Bloom Filter 网络爬虫 URL消重 网页消重
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 198次
引 用: 2次
阅 读: 论文下载
内容摘要
随着Internet的不断发展,网络信息呈指数级不断膨胀,这也给信息检索带来了很大的困难,因此对于重复网页的消重操作也是十分有意义的。本文从理论和应用两方面对网页消重技术进行了研究,达到了以下目标:首先,针对特定的需求,设计与实现了基于问答平台网站的爬虫,给出了详细的实现过程,并实现了基于布隆过滤器算法(Bloom Filter)的重复URL的过滤;其次,采用XPath路径表达式定位目标节点,对于目标网页的网页正文内容进行提取操作;最后,对抽取出来的网页正文内容进行了消重操作。对网页正文内容进行了变长分块操作,对分块后的文档进行了Bloom Filter编码,并通过对文档间的Bloom Filter进行逻辑按位与操作来判断文档间的相似程度。论文实现的消重方法已经应用于实际,实际应用结果表明,该方法取得了显著的去重效果,大大提高了信息检索系统性能与用户体验性。
|
全文目录
相似论文
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 无结构P2P网络稀有资源搜索策略的研究,TP393.02
- 基于Chord和Bloom Filter的网格信息服务研究,TP393.09
- 搜索引擎中网页净化与消重技术研究,TP393.092
- 基于主动搜索的论坛内容监管技术研究,TP393.092
- 蜂群算法及其在垂直Web搜索中的应用,TP18
- 搜索引擎系统中网页消重的研究与实现,TP393.092
- 元搜索引擎的研究与实现,TP391.3
- 文本分类语料库自动构建系统的研究与改进,TP391.1
- 海量网页搜集系统的设计,TP391.3
- 基于网络爬虫的跨站脚本漏洞动态检测技术研究,TP393.08
- 校园网中课件资源的爬取与检索,TP391.3
- 基于Bloom Filter的超点检测算法的研究,TP393.06
- 基于改进型Bloom Filter的深度包检测技术研究,TP393.08
- 互联网中文文本分类的研究与应用,TP391.1
- 面向Web的图书信息抽取方法与实现,TP311.52
- 面向主题的搜索引擎的设计与实现,TP391.3
- 基于JAVA+LUCENE+HERITRIX的WEB垂直搜索引擎技术研究与实现,TP391.3
- 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
- 基于bloom filter的多模式匹配引擎设计与应用,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|