学位论文 > 优秀研究生学位论文题录展示
主题搜索引擎网络爬虫搜索策略的研究与实现
作 者: 夏亮
导 师: 许南山
学 校: 北京化工大学
专 业: 计算机应用技术
关键词: 网络爬虫 搜索引擎 postgresql 数据库集群 主题相关
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 349次
引 用: 3次
阅 读: 论文下载
内容摘要
主题网络爬虫是主题搜索引擎后端获取数据的自动化代码程序,主题搜索引擎前端查询到的数据事先由主题网络爬虫在互联网上抓取,存储在本地。然后对网页进行数据抽取,建立索引。所以主题爬虫对于一个主题搜索引擎来说,起着支撑的作用。本文提出链接文本相关度算法与主题信息值遗传恢复的算法相结合的主题优先抓取算法来指引爬虫抓取方向,并使用postgresql数据库集群技术存储数据。主题优先抓取算法根据网络页面结构的特点,通过页面之间的主题传递来预测页面主题相关性,解决了主题爬虫通道堵塞,抓取遗漏的问题。首先根据锚文本传递一个相关性信息值,如果锚文本给出的信息是相关,相关阀值就直接传递;如果是不相关,就乘以遗传基因比例之后传递。传递的过程中如果遇到相关的网页就恢复链接的相关性信息值到初始值。相关性信息值将互联网网页以主题的不同分割在不同的通道内,所有与主题相关的网页都在最大通道内,各个通道交错相连,爬虫按通道的大小顺序抓取。爬虫要抓取的网页信息量庞大,单台主机不能满足这些信息的存储。本文在资源库以及链接地址库都采用postgresql数据库集群技术,扩大后台存储容量。并且在各个数据库点中使用pgbouncer连接池技术,减少数据库连接次数,争取时间。在链接地址库中采用缓存技术减少数据库操作次数,减少消耗时间,提高爬虫工作速度。最后通过实验测试,分析数据,验证了基于主题优先抓取技术的有效性及postgresql数据库集群技术的爬虫系统的可行性。
|
全文目录
摘要 4-6 ABSTRACT 6-12 第一章 绪论 12-20 1.1 搜索引擎简介 12-16 1.1.1 搜索引擎的发展历史 12-13 1.1.2 搜索引擎的分类 13-14 1.1.3 搜索引擎的工作原理 14-15 1.1.4 专业搜索引擎介绍 15-16 1.2 网络爬虫简介 16-20 1.2.1 网络爬虫概述 16-17 1.2.2 主题网络爬虫介绍 17-18 1.2.3 开源网络爬虫策略 18-20 第二章 核心研究成果 20-30 2.1 主题优先抓取技术 20-25 2.1.1 网页链接结构 20-21 2.1.2 相关度计算 21-22 2.1.3 主题抓取算法 22-25 2.2 数据存储管理 25-30 2.2.1 postgresq1数据库集群 25-26 2.2.2 postgresq1数据库集群在资源库中的应用 26-27 2.2.3 postgresq1数据库集群在连接地址库中的应用 27-30 第三章 主题网络爬虫的实现 30-56 3.1 主题爬虫系统要求 30-31 3.1.1 系统稳定 30 3.1.2 主题相关 30 3.1.3 抓取高效 30-31 3.1.4 后期易维护 31 3.2 主题爬虫分析与设计 31-36 3.2.1 系统体系结构 31-33 3.2.2 数据存储架构 33-36 3.3 各模块详细设计与实现 36-54 3.3.1 数据采集模块 36-45 3.3.2 主题判断模块 45-46 3.3.3 数据抽取模块 46-47 3.3.4 数据存储模块 47-51 3.3.5 客户端管理模块 51-53 3.3.6 日志模块 53-54 3.4 系统总结 54-56 第四章 测试结果 56-64 4.1 运行环境和配置情况 56-58 4.1.1 开发环境 56 4.1.2 系统配置 56-58 4.2 结果展示和分析 58-64 4.2.1 界面及结果显示 58-61 4.2.2 结果分析 61-64 第五章 总结与展望 64-66 5.1 总结 64 5.2 展望 64-66 参考文献 66-70 致谢 70-72 研究成果及发表的学术论文 72-74 作者和导师简介 74-75 北京化工大学 硕士研究生学位论文答辩委员会决议书 75-76
|
相似论文
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 网络舆情分析关键技术研究与实现,TP393.09
- 基于GIS的户外广告管理系统设计与开发,TP311.52
- 基于搜索引擎网页排序算法研究,TP391.3
- 基于LotusDomino/Notes供电段综合管理信息平台的设计与实现,U226.2
- 网络下载侵权分析,D923.41
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 垂直门户网站产品搜索系统的设计与实现,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|