学位论文 > 优秀研究生学位论文题录展示
支持Ajax的Deep Web爬虫设计与实现
作 者: 张成奇
导 师: 吴刚
学 校: 上海交通大学
专 业: 软件工程
关键词: Ajax 深层网络 状态流图 支持Ajax的Deep Web爬虫
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 177次
引 用: 1次
阅 读: 论文下载
内容摘要
随着互联网的迅速发展,网络资源越来越丰富,人们如何从网络上抽取信息也变得至关重要,尤其是深层网络(Deep Web)信息获取更是人们应关注的焦点。Deep Web是指虽然通过互联网可以获取,但普通搜索引擎由于受技术限制而不能或不作索引的信息。为了构建更为动态和响应更灵敏的Web应用程序,实现浏览器和服务器的异步并行处理,Ajax应运而生。如今Ajax技术得到了广泛的应用,毋庸置疑,Ajax能够很好地提升网络应用的响应和交互性,但与此同时由于Ajax的一些特性,比如客户端脚本执行、状态改变、动态呈现模型及可点击元素多样化等,Ajax无形中也增加了Deep Web中的信息。本文设计并实现了支持Ajax的Deep Web爬虫。该爬虫能识别DOM树中的可点击元素,运行客户端代码,形成一个状态流图,以呈现Ajax应用中各个状态及导航路径;根据该状态流图,本爬虫能够生成相对于原Ajax应用的一个多页面的静态版本以及Sitemap。本文旨在将Ajax网站动态生成的部分暴露给搜索引擎,提升搜索的覆盖率和准确率。实验表明,支持Ajax的Deep Web爬虫与开源的JSpider相比,前者可以获取更多的链接数,在两次实验中,前者抓取的数量分别是后者的1.12倍和2.93倍。
|
全文目录
摘要 3-5 ABSTRACT 5-9 第一章 绪论 9-15 1.1 引言 9-10 1.2 国内外研究现状 10-13 1.2.1 基于领域知识的爬虫技术 11-12 1.2.2 基于网页结构分析的爬虫技术 12-13 1.2.3 基于脚本语言分析的爬虫技术 13 1.3 研究内容及本文组织 13-15 第二章 相关技术研究 15-31 2.1 HTML 简介 15-16 2.2 DEEP WEB简介 16-19 2.2.1 Deep Web 的概念 16-18 2.2.2 Deep Web 搜索技术 18 2.2.3 Deep Web 研究成果 18-19 2.3 WE82.0 影响 19-23 2.3.1 We62.0 的概念 19-20 2.3.2 We62.0 的原则 20 2.3.3 We62.0 的特征 20-23 2.4 AJAX 简介 23-29 2.4.1 Ajax 的诞生 23-24 2.4.2 Ajax 的基本原理 24-26 2.4.3 Ajax 的核心——XMLHttpRequest 对象 26-28 2.4.4 Ajax 的优缺点 28-29 2.5 Ajax 对信息获取的影响 29-30 2.6 本章小结 30-31 第三章 支持AJAX 的DEEP WEB 爬虫总体设计 31-38 3.1 传统网络爬虫 31-34 3.1.1 体系结构 31-32 3.1.2 工作流程 32 3.1.3 网页抓取策略 32-34 3.1.4 传统网络爬虫的问题 34 3.2 支持AJAX 的爬虫 34-37 3.2.1 体系结构 34-35 3.2.2 工作流程 35-36 3.2.3 关键技术 36-37 3.3 本章小结 37-38 第四章 支持AJAX 的DEEP WEB 爬虫具体实现 38-51 4.1 状态流图 38-39 4.2 爬行部分重要组成实现 39-41 4.3 自动扫描 41-47 4.3.1 察觉点击 42 4.3.2 比较DOM 树 42-44 4.3.3 处理差异更新 44 4.3.4 状态导航 44-47 4.3.5 识别同一状态 47 4.4 镜像网站生成 47-50 4.4.1 链接状态 47-48 4.4.2 将DOM 转换为HTML 表示 48-49 4.4.3 部署镜像网站 49-50 4.4.4 链接Ajax 网站 50 4.5 SITEMAP生成 50 4.6 本章小结 50-51 第五章 实验及分析 51-63 5.1 实验环境 51-52 5.2 参数设置 52-55 5.3 实验及结果 55-60 5.4 结果分析 60-62 5.5 本章小结 62-63 第六章 总结与展望 63-65 6.1 总结 63-64 6.2 不足与展望 64-65 参考文献 65-67 致谢 67-68 攻读硕士学位期间已发表或录用的论文 68-70
|
相似论文
- 基于工作流的高校学生信息管理系统的设计与实现,TP311.52
- 基于嵌入式Web服务器的监控系统研究,TP393.05
- 基于Web的科学计算遗留应用共享技术研究,TP393.09
- 数字化查账系统研究,TP311.52
- 社区WebGIS原型系统设计与实现,P208
- 基于J2EE的Web题库后台管理系统的设计与实现,TP311.52
- 基于SNS的网络协作学习平台设计与实现,TP311.52
- 高校学生工作管理系统的分析与设计,TP311.52
- Web管理信息系统性能优化研究,TP311.52
- 宜春学院学生就业管理系统的设计与实现,TP311.52
- 基于AJAX的民生平台的开发设计,TP311.52
- 基于嵌入式Web服务器应用技术的研究,TP393.05
- ASP.NET AJAX在VB项目教学系统的应用研究,TP311.52
- 大学生思想辅导工作系统的设计与实现,TP311.52
- 网页二维矢量图形协同绘制技术研究与实现,TP391.41
- 基于Asp.Net.Ajax技术的在线考试系统研究与实现,TP311.52
- 基于ASP NET的零件库共享系统的设计与开发,TP311.52
- 网络导航服务中数据传输技术的方法研究,P208
- 基于Ajax的采砂管理系统的设计与实现,TV85
- 基于人职匹配模型的卫生人力资源信息服务网站的研究与设计,R-4
- 健美操动作分解计算机辅助教学系统的研究与开发,G831.3-4
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|