学位论文 > 优秀研究生学位论文题录展示
支持Ajax的Deep Web爬虫技术研究
作 者: 郭若飞
导 师: 崔志明
学 校: 苏州大学
专 业: 计算机软件与理论
关键词: 深层网 爬虫 Ajax 查询接口
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 136次
引 用: 1次
阅 读: 论文下载
内容摘要
Deep Web中包含了大量有价值的信息,并且信息量在快速增长。随着Web 2.0的发展,越来越多的Deep Web网站开始运用Ajax技术来改善用户体验。但由于Ajax技术可以异步方式与服务器交互,实现无刷新的动态改变页面内容,使得搜索引擎抓取页面时面临着巨大的挑战。传统爬虫由于不具备处理Ajax的能力,在爬取此类Deep Web数据时面临困难,在一定程度上影响信息覆盖率。然而随着Ajax技术的广泛应用,以Ajax为基础的新一代网络信息抽取问题的研究却将变得越来越重要。因此,研究如何获取这类应用Ajax技术的Deep Web网站信息成为了本文工作的出发点。本文的研究内容与成果主要是:(1)首先对国内外Deep Web资源的规模、结构进行了调查研究,研究表明采用Ajax技术的Deep Web网站蕴含着丰富的信息资源。纵观国内外对Deep Web资源发现的新进展,目前对这类应用Ajax技术的Deep Web网站研究的非常少。(2)在Deep Web爬虫体系结构的基础上,详细分析了支持Ajax的Deep Web爬虫所面临的困难:Ajax查询接口的识别、Ajax表单提交、Ajax分页抓取。基于此,构建了支持Ajax的Deep Web爬虫框架。(3)对Ajax查询接口,根据特征将其分为三种类型。针对三种类型的Ajax查询接口,分别给出其识别方法与处理模型。最后完成Ajax表单的提交。(4)基于DOM树和子树的相似度,建立了结果索引页面数据区域识别模型,并以数据区域为基础自动发现分页导航模式。同时对Ajax分页导航模式进行研究,设计了Ajax分页抓取模型,最终抓取到Deep Web网站查询结果。本文进行了大量的实验,验证提出的各种理论和方法的有效性。最后本文提出了有待进一步深入解决的问题,展望该领域科研发展的方向和前景。
|
全文目录
中文摘要 4-5 Abstract 5-11 第一章 引论 11-16 1.1 研究背景与意义 11-12 1.2 国内外研究现状 12-13 1.3 研究的主要内容与特色创新 13-14 1.3.1 研究目标与内容 13 1.3.2 特色创新 13-14 1.4 论文结构安排 14-16 第二章 Deep Web 信息集成系统与爬虫 16-28 2.1 相关技术 16-19 2.1.1 HTML 16-17 2.1.2 Web 2.0 17 2.1.3 JavaScript 17-18 2.1.4 Ajax 18-19 2.2 Deep Web 信息集成 19-21 2.2.1 Deep Web 信息集成体系结构 19-21 2.2.2 Deep Web 信息集成难点 21 2.3 Deep Web 爬虫 21-24 2.3.1 Deep Web 爬虫体系结构 21-23 2.3.2 Deep Web 爬虫关键问题 23-24 2.4 支持Ajax 的Deep Web 爬虫 24-26 2.4.1 支持Ajax 的Deep Web 爬虫的技术难点 24-25 2.4.2 支持Ajax 的Deep Web 爬虫框架 25-26 2.5 本章小结 26-28 第三章 Deep Web 查询接口研究 28-40 3.1 Deep Web 查询接口 28-32 3.1.1 Deep Web 查询接口分类 28 3.1.2 Deep Web 查询接口发现 28-30 3.1.3 Deep Web 查询接口过滤 30-32 3.2 Ajax 查询接口识别 32-38 3.2.1 Ajax 查询接口特征 32-34 3.2.2 Ajax 查询接口识别 34-36 3.2.3 Ajax 查询接口处理模块 36-38 3.3 Ajax 表单提交 38-39 3.3.1 表单提交 38 3.3.2 Ajax 表单提交 38-39 3.4 本章小结 39-40 第四章 Deep Web 查询结果抓取技术研究 40-52 4.1 Deep Web 查询结果页面 40-46 4.1.1 DOM 树 40-41 4.1.2 Deep Web 查询结果页面分析 41-43 4.1.3 Deep Web 查询结果页面处理 43 4.1.4 数据区域识别模型 43-45 4.1.5 Deep Web 查询结果抽取 45-46 4.2 超链接分页导航 46-47 4.2.1 超链接分页导航模式 46-47 4.2.2 超链接分页结果抓取 47 4.3 Ajax 分页导航 47-51 4.3.1 Ajax 分页导航模式 47-49 4.3.2 Ajax 分页抓取的难点 49 4.3.3 Ajax 分页抓取的实现 49-51 4.4 本章小结 51-52 第五章 实验设计与分析 52-57 5.1 Ajax 表单识别 52-53 5.1.1 Ajax 表单识别实验设计 52 5.1.2 Ajax 表单识别实验结果与分析 52-53 5.2 Ajax 表单提交 53-54 5.2.1 Ajax 表单提交实验设计 53 5.2.2 Ajax 表单提交实验结果与分析 53-54 5.3 数据区域识别 54-55 5.3.1 数据区域识别实验设计 54-55 5.3.2 数据区域识别实验结果与分析 55 5.4 Ajax 分页抓取实验 55-56 5.4.1 Ajax 分页抓取实验设计 55-56 5.4.2 Ajax 分页抓取实验结果与分析 56 5.5 本章小结 56-57 第六章 工作总结与展望 57-59 6.1 工作总结 57 6.2 特色与创新点 57-58 6.3 工作展望 58-59 参考文献 59-64 攻读学位期间公开发表的论文与科研项目 64-65 致谢 65-66
|
相似论文
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于工作流的高校学生信息管理系统的设计与实现,TP311.52
- 基于嵌入式Web服务器的监控系统研究,TP393.05
- 基于Web的科学计算遗留应用共享技术研究,TP393.09
- 基于语义网络的智能搜索引擎研究,TP391.3
- 基于聚焦爬虫技术的教学资源搜集与自动整理方法研究,TP301.6
- 数字化查账系统研究,TP311.52
- 社区WebGIS原型系统设计与实现,P208
- 基于J2EE的Web题库后台管理系统的设计与实现,TP311.52
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 基于SNS的网络协作学习平台设计与实现,TP311.52
- 高校学生工作管理系统的分析与设计,TP311.52
- Web管理信息系统性能优化研究,TP311.52
- 宜春学院学生就业管理系统的设计与实现,TP311.52
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于Nutch的企业搜索引擎的研究与实现,TP391.3
- 基于AJAX的民生平台的开发设计,TP311.52
- 基于嵌入式Web服务器应用技术的研究,TP393.05
- 数据库全文检索方法研究及其应用,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|