学位论文 > 优秀研究生学位论文题录展示
Deep Web查询接口集成及搜索策略研究
作 者: 刘鸿飞
导 师: 袁方
学 校: 河北大学
专 业: 计算机软件与理论
关键词: Deep Web 接口集成 模式匹配 搜索策略 查询映射
分类号: TP393.09
类 型: 硕士论文
年 份: 2009年
下 载: 30次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机网络技术与信息技术的快速发展,Web上的信息急剧增加,已经成为当今社会的重要资源,人们也越来越多地依赖搜索引擎来查找所需的信息。但是Web上存在大量的在线数据库,这些数据库中的信息通过提交查询实时产生,对于目前常用的搜索引擎是不可见的,称之为Deep Web。由于Deep Web中蕴藏的信息质量更高、规模更大,因此建立Deep Web数据集成系统成为数据库领域和信息检索领域的研究热点。本文主要在Deep Web查询接口集成和统一查询接口上的搜索策略两个方面进行了研究,这些都是Deep Web数据集成研究的重要内容。在查询接口集成方面,首先通过分析Deep Web查询接口页面的结构及其表现形式,将Deep Web接口分为三类,并提出了接口元素这一概念,给出了接口的形式化表示。在此基础上提出了一种基于知识学习和探测查询的Deep Web接口集成方法。该方法首先选择要集成的属性,然后在各接口元素中匹配这些属性,最后将匹配为同一属性的接口元素集成在一起,构成统一查询接口。该方法包括基于模板的匹配、基于领域知识的匹配、基于探测查询的匹配等步骤。实验表明该方法对接口抽取工作的依赖性较低并且具有较高的匹配准确率。对于集成的统一查询接口,本文改进了其上的搜索策略。首先针对所集成不同类型的Deep Web查询接口,提出了同时映射、优先级映射和集成映射三种映射方式以及二次查询的方法来扩展统一查询接口功能,以提高查询准确率。然后提出了建立本地索引数据库的方法,以提高查询效率。分析表明,本文所述方法具有较高的查询准确率和时间效率。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-17 1.1 研究背景 10-11 1.2 研究现状 11-15 1.2.1 Deep Web数据集成系统框架 11-13 1.2.2 Deep Web数据集成系统研究现状 13-14 1.2.3 Deep Web接口集成研究现状 14-15 1.3 研究目的和意义 15-16 1.4 论文内容和结构 16 1.5 本章小结 16-17 第2章 相关知识介绍 17-23 2.1 HTML 17-19 2.1.1 HTML概念 17-18 2.1.2 HTML表单 18-19 2.2 XML 19-20 2.2.1 XML概念及性质 19-20 2.2.2 XML文档结构 20 2.3 领域知识 20-21 2.3.1 领域知识概念 20-21 2.3.2 领域知识获取 21 2.4 正则表达式 21-22 2.5 本章小结 22-23 第3章 查询接口的分类与表示 23-29 3.1 接口分类 23-24 3.2 接口抽取 24-26 3.2.1 正则表达式的应用 24-25 3.2.2 接口类型判定 25-26 3.3 接口的形式化表示 26-28 3.3.1 接口元素 26-27 3.3.2 接口表示 27-28 3.4 本章小结 28-29 第4章 查询接口集成 29-38 4.1 基于知识学习的接口集成 30-32 4.1.1 基于模板的匹配 30-31 4.1.2 基于领域知识的匹配 31-32 4.2 基于探测查询的匹配 32-37 4.2.1 Deep Web站点响应查询表单的基本工作原理 32-33 4.2.2 构造查询对象集合 33 4.2.3 探测查询 33-34 4.2.4 返回结果分析 34-37 4.3 本章小结 37-38 第5章 统一查询接口的搜索策略优化 38-41 5.1 查询映射 38 5.2 接口功能扩展 38-39 5.3 查询效率优化 39-40 5.4 本章小结 40-41 第6章 实验与分析 41-43 6.1 实验数据集 41 6.2 待匹配属性的选择 41 6.3 构建查询对象集合 41 6.4 实验结果 41-42 6.5 本章小结 42-43 第7章 总结与展望 43-44 参考文献 44-47 攻读硕士学位期间科研工作情况 47-48 致谢 48
|
相似论文
- 多核环境下内存数据库查询优化的研究,TP311.13
- 基于启发式算法的恶意代码检测系统研究与实现,TP393.08
- 红外热像仪自动调焦和图像采集技术的研究,TP391.41
- 云计算中依赖任务动态并行调度机制的研究,TP3
- 基于模式匹配与协议分析的分布式入侵检测研究,TP393.08
- Deep Web集成系统中同类主题数据源选择方法研究,TP311.13
- Deep Web数据清洗方法研究及应用,TP393.09
- 基于领域知识的Deep Web接口发现研究,TP393.09
- Deep Web数据集成系统中数据标注研究,TP393.09
- Deep Web数据抽取及语义标注研究,TP393.09
- NIDS模式匹配算法及其调度研究,TP393.08
- Deep Web数据库的选择研究,TP311.13
- 求解组合优化问题的混合蛙跳算法的研究,TP301.6
- 小干扰稳定分析软件包SSAP的完善和在交直流并行输电系统中的应用,TM769
- 基于Web页面嵌套模式的包装器生成系统的设计与实现,TP393.092
- DWIIS系统中查询接口集成机制的研究,TP393.09
- Deep Web数据源发现和选择研究,TP393.09
- 基于DOM树的Deep Web实体抽取的研究与实现,TP393.09
- 基于结果模式的Deep Web数据抽取机制的研究,TP393.09
- 基于领域特征的两阶段查询接口抽取技术的研究与实现,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|