学位论文 > 优秀研究生学位论文题录展示

支持Ajax的Deep Web爬虫技术研究

作 者: 郭若飞
导 师: 崔志明
学 校: 苏州大学
专 业: 计算机软件与理论
关键词: 深层网 爬虫 Ajax 查询接口
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 136次
引 用: 1次
阅 读: 论文下载
 

内容摘要


Deep Web中包含了大量有价值的信息,并且信息量在快速增长。随着Web 2.0的发展,越来越多的Deep Web网站开始运用Ajax技术来改善用户体验。但由于Ajax技术可以异步方式与服务器交互,实现无刷新的动态改变页面内容,使得搜索引擎抓取页面时面临着巨大的挑战。传统爬虫由于不具备处理Ajax的能力,在爬取此类Deep Web数据时面临困难,在一定程度上影响信息覆盖率。然而随着Ajax技术的广泛应用,以Ajax为基础的新一代网络信息抽取问题的研究却将变得越来越重要。因此,研究如何获取这类应用Ajax技术的Deep Web网站信息成为了本文工作的出发点。本文的研究内容与成果主要是:(1)首先对国内外Deep Web资源的规模、结构进行了调查研究,研究表明采用Ajax技术的Deep Web网站蕴含着丰富的信息资源。纵观国内外对Deep Web资源发现的新进展,目前对这类应用Ajax技术的Deep Web网站研究的非常少。(2)在Deep Web爬虫体系结构的基础上,详细分析了支持Ajax的Deep Web爬虫所面临的困难:Ajax查询接口的识别、Ajax表单提交、Ajax分页抓取。基于此,构建了支持Ajax的Deep Web爬虫框架。(3)对Ajax查询接口,根据特征将其分为三种类型。针对三种类型的Ajax查询接口,分别给出其识别方法与处理模型。最后完成Ajax表单的提交。(4)基于DOM树和子树的相似度,建立了结果索引页面数据区域识别模型,并以数据区域为基础自动发现分页导航模式。同时对Ajax分页导航模式进行研究,设计了Ajax分页抓取模型,最终抓取到Deep Web网站查询结果。本文进行了大量的实验,验证提出的各种理论和方法的有效性。最后本文提出了有待进一步深入解决的问题,展望该领域科研发展的方向和前景。

全文目录


中文摘要  4-5
Abstract  5-11
第一章 引论  11-16
  1.1 研究背景与意义  11-12
  1.2 国内外研究现状  12-13
  1.3 研究的主要内容与特色创新  13-14
    1.3.1 研究目标与内容  13
    1.3.2 特色创新  13-14
  1.4 论文结构安排  14-16
第二章 Deep Web 信息集成系统与爬虫  16-28
  2.1 相关技术  16-19
    2.1.1 HTML  16-17
    2.1.2 Web 2.0  17
    2.1.3 JavaScript  17-18
    2.1.4 Ajax  18-19
  2.2 Deep Web 信息集成  19-21
    2.2.1 Deep Web 信息集成体系结构  19-21
    2.2.2 Deep Web 信息集成难点  21
  2.3 Deep Web 爬虫  21-24
    2.3.1 Deep Web 爬虫体系结构  21-23
    2.3.2 Deep Web 爬虫关键问题  23-24
  2.4 支持Ajax 的Deep Web 爬虫  24-26
    2.4.1 支持Ajax 的Deep Web 爬虫的技术难点  24-25
    2.4.2 支持Ajax 的Deep Web 爬虫框架  25-26
  2.5 本章小结  26-28
第三章 Deep Web 查询接口研究  28-40
  3.1 Deep Web 查询接口  28-32
    3.1.1 Deep Web 查询接口分类  28
    3.1.2 Deep Web 查询接口发现  28-30
    3.1.3 Deep Web 查询接口过滤  30-32
  3.2 Ajax 查询接口识别  32-38
    3.2.1 Ajax 查询接口特征  32-34
    3.2.2 Ajax 查询接口识别  34-36
    3.2.3 Ajax 查询接口处理模块  36-38
  3.3 Ajax 表单提交  38-39
    3.3.1 表单提交  38
    3.3.2 Ajax 表单提交  38-39
  3.4 本章小结  39-40
第四章 Deep Web 查询结果抓取技术研究  40-52
  4.1 Deep Web 查询结果页面  40-46
    4.1.1 DOM 树  40-41
    4.1.2 Deep Web 查询结果页面分析  41-43
    4.1.3 Deep Web 查询结果页面处理  43
    4.1.4 数据区域识别模型  43-45
    4.1.5 Deep Web 查询结果抽取  45-46
  4.2 超链接分页导航  46-47
    4.2.1 超链接分页导航模式  46-47
    4.2.2 超链接分页结果抓取  47
  4.3 Ajax 分页导航  47-51
    4.3.1 Ajax 分页导航模式  47-49
    4.3.2 Ajax 分页抓取的难点  49
    4.3.3 Ajax 分页抓取的实现  49-51
  4.4 本章小结  51-52
第五章 实验设计与分析  52-57
  5.1 Ajax 表单识别  52-53
    5.1.1 Ajax 表单识别实验设计  52
    5.1.2 Ajax 表单识别实验结果与分析  52-53
  5.2 Ajax 表单提交  53-54
    5.2.1 Ajax 表单提交实验设计  53
    5.2.2 Ajax 表单提交实验结果与分析  53-54
  5.3 数据区域识别  54-55
    5.3.1 数据区域识别实验设计  54-55
    5.3.2 数据区域识别实验结果与分析  55
  5.4 Ajax 分页抓取实验  55-56
    5.4.1 Ajax 分页抓取实验设计  55-56
    5.4.2 Ajax 分页抓取实验结果与分析  56
  5.5 本章小结  56-57
第六章 工作总结与展望  57-59
  6.1 工作总结  57
  6.2 特色与创新点  57-58
  6.3 工作展望  58-59
参考文献  59-64
攻读学位期间公开发表的论文与科研项目  64-65
致谢  65-66

相似论文

  1. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  2. 基于SVM分类算法的主题爬虫研究,TP391.3
  3. 基于工作流的高校学生信息管理系统的设计与实现,TP311.52
  4. 基于嵌入式Web服务器的监控系统研究,TP393.05
  5. 基于Web的科学计算遗留应用共享技术研究,TP393.09
  6. 基于语义网络的智能搜索引擎研究,TP391.3
  7. 基于聚焦爬虫技术的教学资源搜集与自动整理方法研究,TP301.6
  8. 数字化查账系统研究,TP311.52
  9. 社区WebGIS原型系统设计与实现,P208
  10. 基于J2EE的Web题库后台管理系统的设计与实现,TP311.52
  11. 面向汽车行业的主题爬虫研究与实现,TP391.3
  12. 基于SNS的网络协作学习平台设计与实现,TP311.52
  13. 高校学生工作管理系统的分析与设计,TP311.52
  14. Web管理信息系统性能优化研究,TP311.52
  15. 宜春学院学生就业管理系统的设计与实现,TP311.52
  16. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  17. 面向教育新闻的主题爬虫设计与实现,TP391.3
  18. 基于Nutch的企业搜索引擎的研究与实现,TP391.3
  19. 基于AJAX的民生平台的开发设计,TP311.52
  20. 基于嵌入式Web服务器应用技术的研究,TP393.05
  21. 数据库全文检索方法研究及其应用,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com