学位论文 > 优秀研究生学位论文题录展示

支持Ajax的Deep Web爬虫设计与实现

作 者: 张成奇
导 师: 吴刚
学 校: 上海交通大学
专 业: 软件工程
关键词: Ajax 深层网络 状态流图 支持Ajax的Deep Web爬虫
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 177次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着互联网的迅速发展,网络资源越来越丰富,人们如何从网络上抽取信息也变得至关重要,尤其是深层网络(Deep Web)信息获取更是人们应关注的焦点。Deep Web是指虽然通过互联网可以获取,但普通搜索引擎由于受技术限制而不能或不作索引的信息。为了构建更为动态和响应更灵敏的Web应用程序,实现浏览器和服务器的异步并行处理,Ajax应运而生。如今Ajax技术得到了广泛的应用,毋庸置疑,Ajax能够很好地提升网络应用的响应和交互性,但与此同时由于Ajax的一些特性,比如客户端脚本执行、状态改变、动态呈现模型及可点击元素多样化等,Ajax无形中也增加了Deep Web中的信息。本文设计并实现了支持Ajax的Deep Web爬虫。该爬虫能识别DOM树中的可点击元素,运行客户端代码,形成一个状态流图,以呈现Ajax应用中各个状态及导航路径;根据该状态流图,本爬虫能够生成相对于原Ajax应用的一个多页面的静态版本以及Sitemap。本文旨在将Ajax网站动态生成的部分暴露给搜索引擎,提升搜索的覆盖率和准确率。实验表明,支持Ajax的Deep Web爬虫与开源的JSpider相比,前者可以获取更多的链接数,在两次实验中,前者抓取的数量分别是后者的1.12倍和2.93倍。

全文目录


摘要  3-5
ABSTRACT  5-9
第一章 绪论  9-15
  1.1 引言  9-10
  1.2 国内外研究现状  10-13
    1.2.1 基于领域知识的爬虫技术  11-12
    1.2.2 基于网页结构分析的爬虫技术  12-13
    1.2.3 基于脚本语言分析的爬虫技术  13
  1.3 研究内容及本文组织  13-15
第二章 相关技术研究  15-31
  2.1 HTML 简介  15-16
  2.2 DEEP WEB简介  16-19
    2.2.1 Deep Web 的概念  16-18
    2.2.2 Deep Web 搜索技术  18
    2.2.3 Deep Web 研究成果  18-19
  2.3 WE82.0 影响  19-23
    2.3.1 We62.0 的概念  19-20
    2.3.2 We62.0 的原则  20
    2.3.3 We62.0 的特征  20-23
  2.4 AJAX 简介  23-29
    2.4.1 Ajax 的诞生  23-24
    2.4.2 Ajax 的基本原理  24-26
    2.4.3 Ajax 的核心——XMLHttpRequest 对象  26-28
    2.4.4 Ajax 的优缺点  28-29
  2.5 Ajax 对信息获取的影响  29-30
  2.6 本章小结  30-31
第三章 支持AJAX 的DEEP WEB 爬虫总体设计  31-38
  3.1 传统网络爬虫  31-34
    3.1.1 体系结构  31-32
    3.1.2 工作流程  32
    3.1.3 网页抓取策略  32-34
    3.1.4 传统网络爬虫的问题  34
  3.2 支持AJAX 的爬虫  34-37
    3.2.1 体系结构  34-35
    3.2.2 工作流程  35-36
    3.2.3 关键技术  36-37
  3.3 本章小结  37-38
第四章 支持AJAX 的DEEP WEB 爬虫具体实现  38-51
  4.1 状态流图  38-39
  4.2 爬行部分重要组成实现  39-41
  4.3 自动扫描  41-47
    4.3.1 察觉点击  42
    4.3.2 比较DOM 树  42-44
    4.3.3 处理差异更新  44
    4.3.4 状态导航  44-47
    4.3.5 识别同一状态  47
  4.4 镜像网站生成  47-50
    4.4.1 链接状态  47-48
    4.4.2 将DOM 转换为HTML 表示  48-49
    4.4.3 部署镜像网站  49-50
    4.4.4 链接Ajax 网站  50
  4.5 SITEMAP生成  50
  4.6 本章小结  50-51
第五章 实验及分析  51-63
  5.1 实验环境  51-52
  5.2 参数设置  52-55
  5.3 实验及结果  55-60
  5.4 结果分析  60-62
  5.5 本章小结  62-63
第六章 总结与展望  63-65
  6.1 总结  63-64
  6.2 不足与展望  64-65
参考文献  65-67
致谢  67-68
攻读硕士学位期间已发表或录用的论文  68-70

相似论文

  1. 基于工作流的高校学生信息管理系统的设计与实现,TP311.52
  2. 基于嵌入式Web服务器的监控系统研究,TP393.05
  3. 基于Web的科学计算遗留应用共享技术研究,TP393.09
  4. 数字化查账系统研究,TP311.52
  5. 社区WebGIS原型系统设计与实现,P208
  6. 基于J2EE的Web题库后台管理系统的设计与实现,TP311.52
  7. 基于SNS的网络协作学习平台设计与实现,TP311.52
  8. 高校学生工作管理系统的分析与设计,TP311.52
  9. Web管理信息系统性能优化研究,TP311.52
  10. 宜春学院学生就业管理系统的设计与实现,TP311.52
  11. 基于AJAX的民生平台的开发设计,TP311.52
  12. 基于嵌入式Web服务器应用技术的研究,TP393.05
  13. ASP.NET AJAX在VB项目教学系统的应用研究,TP311.52
  14. 大学生思想辅导工作系统的设计与实现,TP311.52
  15. 网页二维矢量图形协同绘制技术研究与实现,TP391.41
  16. 基于Asp.Net.Ajax技术的在线考试系统研究与实现,TP311.52
  17. 基于ASP NET的零件库共享系统的设计与开发,TP311.52
  18. 网络导航服务中数据传输技术的方法研究,P208
  19. 基于Ajax的采砂管理系统的设计与实现,TV85
  20. 基于人职匹配模型的卫生人力资源信息服务网站的研究与设计,R-4
  21. 健美操动作分解计算机辅助教学系统的研究与开发,G831.3-4

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com