学位论文 > 优秀研究生学位论文题录展示
分布式在线旅游搜索爬虫系统设计与实现
作 者: 徐显炼
导 师: 袁东风
学 校: 北京邮电大学
专 业: 信息安全
关键词: 搜索引擎 在线旅游 网页判别算法 分布式爬虫
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 41次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet技术和旅游业的蓬勃发展,特别是近年来人们生活水平的提高以及在线旅游业的兴起,越来越多的用户倾向于网上订购在线旅游线路出游。由于在线旅游线路网页的急剧增多,在线旅游搜索引擎己经成为当前搜索引擎发展的一个重要的研究方向。本文首先介绍了分布式在线旅游搜索爬虫系统的研究背景及意义、网络爬虫的研究现状等知识,结合搜索引擎的工作原理以及分布式网络爬虫的相关技术和策略,对本系统中需要用到的关键技术做了详细的分析与研究,其中重点研究了分布式任务分配策略及粒度选择、URL去重技术和在线旅游线路网页的更新策略,并根据旅游线路网页的特点,提出了一个专门针对在线旅游线路网页的判别算法。在以上这些关键技术和策略的基础上,设计并实现了一个以用户对在线旅游线路网页搜索需求作为研究背景,以互联网上的旅游度假平台网站和普通旅行社网站内容作为旅游线路信息的采集对象的分布式在线旅游搜索爬虫系统。在系统设计部分,本文按照实现的功能将分布式在线旅游搜索爬虫系统划分成了四个主要模块,分别为控制服务器、爬虫服务器、索引检索服务器以及数据库模块,并对各个模块的结构进行了详细的描述,同时给出了类图设计。最后,详细介绍了控制服务器和爬虫服务器的实现过程,并使用JAVSA作为开发语言,以T0mcat+Apache+MySQL作为开发环境,实现了整个系统。为了验证整个分布式爬虫系统的可行性,本文在最后部分使用了5台服务器搭建运行测试环境,对系统进行了功能和性能测试。通过对在线旅游线路网页判别算法准确性进行测试,结果表明该算法能有效地判别一个网页是否为在线旅游线路网页,其准确率达到了90%左右。运行测试结果表明,本文所设计的分布式在线旅游搜索爬虫系统无论是以单台服务器运行,还是整体运行,都能够稳定、高效地采集在线旅游线路网页信息,并根据线路标题建立倒排索引,使用户可以通过一个基于WEB的图形界面方便地检索到所需要的旅游线路信息,达到了设计的目标,对旅游业的信息化有着重要的实际应用价值。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 绪论 9-13 1.1 研究背景及意义 9-10 1.2 网络爬虫研究现状 10-11 1.3 本文研究内容及章节安排 11-13 1.3.1 研究内容 11-12 1.3.2 章节安排 12-13 第二章 网络爬虫相关知识 13-20 2.1 搜索引擎相关介绍 13-15 2.1.1 搜索引擎定义 13 2.1.2 搜索引擎工作原理 13-14 2.1.3 搜索引擎评价指标 14-15 2.2 网络爬虫相关技术和策略 15-20 2.2.1 网络爬虫体系结构 15-16 2.2.2 分布式网络爬虫类别 16-17 2.3.3 网络爬虫搜索策略 17-18 2.3.4 Robots协议 18 2.3.5 倒排索引 18-20 第三章 系统关键技术分析与研究 20-27 3.1 分布式任务分配策略及粒度选择 20-21 3.2 在线旅游线路网页判别算法 21-24 3.2.1 在线旅游线路网页特点 21-22 3.2.2 网页判别算法 22-24 3.3 URL去重策略 24-27 3.3.1 在线旅游线路网页更新策略 25-27 第四章 分布式在线旅游搜索爬虫系统设计 27-47 4.1 系统目标与需求分析 27-28 4.1.1 系统目标 27 4.1.2 系统需求 27-28 4.2 系统总体架构 28-29 4.3 控制服务器的设计 29-32 4.4 爬虫服务器的设计 32-41 4.4.1 通信模块 33-34 4.4.2 网络爬虫模块 34-41 4.4.3 数据库操作模块 41 4.5 索引检索服务器的设计 41-45 4.5.1 索引模块 41-44 4.5.2 检索模块 44-45 4.6 数据库与备份的设计 45-47 4.6.1 数据库 45-46 4.6.2 数据库备份 46-47 第五章 分布式在线旅游搜索爬虫系统实现 47-58 5.1 控制服务器的实现 47-49 5.2 爬虫服务器的实现 49-58 5.2.1 通信模块的实现 50 5.2.2 网页下载解析模块的实现 50-54 5.2.3 URL管理模块的实现 54-57 5.2.4 数据库操作模块的实现 57-58 第六章 分布式在线旅游搜索爬虫系统测试与分析 58-67 6.1 运行环境 58 6.2 系统运行测试 58-60 6.3 在线旅游线路网页判别算法测试 60-62 6.4 爬虫服务器测试 62-65 6.5 分布式爬虫系统网页采集测试 65-67 总结与展望 67-68 参考文献 68-70 致谢 70-71 攻读学位期间发表的学术论文目录 71
|
相似论文
- 网络搜索引擎的相关技术研究,G354
- 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
- 基于Web的未登录词翻译技术研究,TP391.2
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 垂直搜索引擎关键技术的研究与实现,TP311.52
- 消防领域搜索引擎系统的设计与实现,TP391.3
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于Nutch的企业搜索引擎的研究与实现,TP391.3
- 网络舆情信息采集系统的设计与实现,TP393.09
- 潍坊市网络舆情监控系统的设计与实现,TP311.52
- 基于垂直搜索技术的竞争情报采集系统的设计与实现,TP391.3
- 基于购物搜索引擎的网页解析模块的设计与实现,TP393.092
- 基于掌上设备的搜索引擎技术的研究,TP391.3
- UGC对旅游者的参与行为影响研究,F592
- 个性化搜索引擎的研究与设计,TP391.3
- 基于垂直搜索引擎的主题爬虫算法的研究,TP391.3
- 搜索引擎中网络爬虫技术研究,TP391.3
- 搜索引擎优化及其应用研究,TP391.3
- 基于社会网络分析的藏文web链接结构研究,TP393.09
- 基于客户反馈的FTP搜索引擎的研究与设计,TP391.3
- 垂直搜索引擎研究与实现,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|