学位论文 > 优秀研究生学位论文题录展示
基于领域特征的两阶段查询接口抽取技术的研究与实现
作 者: 李广翱
导 师: 杨晓春
学 校: 东北大学
专 业: 计算机应用技术
关键词: Deep Web 查询接口 自动抽取 领域特征 模式
分类号: TP393.09
类 型: 硕士论文
年 份: 2008年
下 载: 11次
引 用: 0次
阅 读: 论文下载
内容摘要
近几年,大量丰富而有价值的数据在网络中趋于深化,隐藏在查询接口后面的在线数据库中。这些"Deep Web"数据与基于静态网页的"Surface Web"相比,可以提供大量动态生成的网页。如何大规模集成这些数据受到越来越多研究者的关注。作为访问Deep Web后台数据库的门户,查询接口以form形式自主性创建,属性模式结构不规范,语义难以理解,查询接口抽取结果两极分化严重,因此对其模式信息的抽取是Deep Web数据集成首要面临的挑战。本文针对这一问题展开研究。根据同一领域内查询接口的相似性,本文提出基于领域特征的两阶段查询接口抽取算法。所提出的算法基于领域特征,将整个查询接口抽取的过程分为两个阶段:第一阶段对于那些符合领域特征的抽取准确率比较高的标签和元素进行抽取,第二阶段主要依据第一阶段查询接口抽取结果所反映出来的方向性来指导查询接口的自动抽取。同时,基于该算法构建了一个查询接口抽取系统,该系统由两个模块组成,即查询接口分类模块和查询接口抽取模块。查询接口分类模块可以自动地判断查询接口所属领域,并对其进行分类;查询接口抽取模块依据本文所提出的算法对分类后的查询接口进行抽取。该系统能够高效准确地抽取查询接口,其中的查询接口分类模块突破了查询接口领域的限制,验证了所提出算法的实用性和通用性。在实际数据集和合成数据集上进来了大量实验,实验结果表明了所提出算法能够较好地避免查询接口抽取错误扩散现象,有效地解决了查询接口抽取方法中出现的抽取结果两极分化的问题,从而达到较高的查全率和查准率。
|
全文目录
摘要 5-6 ABSTRACT 6-10 第1章 引言 10-18 1.1 研究背景 10-12 1.1.1 Deep Web与Surface Web 10-11 1.1.2 Deep Web数据集成 11-12 1.2 问题的提出 12-14 1.3 主要内容 14-15 1.4 组织结构 15-18 第2章 相关工作 18-28 2.1 Deep Web查询接口模型的相关描述 18-20 2.1.1 一维表达式 18-19 2.1.2 二维空间关系的描述 19-20 2.2 属性模式的划分 20-23 2.2.1 基于启发式的规则 21 2.2.2 基于句法的分析 21-23 2.3 属性语义的理解 23-27 2.3.1 基于贝叶斯网络的分类 23-24 2.3.2 Meta-information的理解 24-26 2.3.3 Best-effort解析法 26-27 2.4 本章小结 27-28 第3章 问题描述 28-36 3.1 查询接口抽取的相关定义 28-30 3.1.1 模式结构的分析 28-29 3.1.2 模式语义及连带抽取错误的分析 29-30 3.2 查询接口的属性概念模型 30-32 3.2.1 查询接口属性模式的定义 30-31 3.2.2 查询接口领域特征 31-32 3.3 Deep Web查询接口模式的抽取 32-33 3.4 Deep Web查询接口模式抽取的系统设计 33-34 3.5 与现有工作比较 34-35 3.6 本章小结 35-36 第4章 两阶段查询接口抽取技术 36-44 4.1 两阶段查询接口的抽取原理 36-37 4.2 算法描述与分析 37-43 4.2.1 第一阶段查询接口抽取 38-40 4.2.2 查询接口方向性抽取模块 40-41 4.2.3 查询接口切割模块 41-42 4.2.4 第二阶段查询接口抽取 42-43 4.3 本章小结 43-44 第5章 查询接口抽取系统的设计与实现 44-52 5.1 系统整体结构 44-45 5.2 查询接口分类模块 45-48 5.3 查询接口抽取模块 48-50 5.4 本章小结 50-52 第6章 实验与分析 52-60 6.1 测试数据集 52-54 6.1.1 实际数据集 52-53 6.1.2 合成样本数据集 53-54 6.2 测试标准 54-55 6.2.1 查准率(Precision) 55 6.2.2 查全率(Recall) 55 6.3 实验结果分析 55-57 6.3.1 第一阶段查询接口抽取结果分析 55-56 6.3.2 第二阶段查询接口抽取结果分析 56-57 6.4 结果分析及与其它方法的对比 57-59 6.4.1 整体实验结果分析 57-59 6.4.2 与其它抽取方法的比较 59 6.5 本章小结 59-60 第7章 结论 60-62 7.1 本文总结 60-61 7.2 工作展望 61-62 参考文献 62-66 致谢 66-68 攻读硕士期间发表的论文 68
|
相似论文
- 基于流形学习的高维流场数据分类研究,V231.3
- 溃坝生命损失风险评价的关键技术研究,TV122.4
- 基于新医学模式的儿童医疗环境设计研究,TU246.1
- 万科模式的居住小区设计研究,TU984.12
- 径向振动模式压电变压器的等效电路模型与应用,TM406
- 任务型教学在农村初中英语教学中的应用研究,H319
- 云南少数民族题材影视作品的叙事模式分析,J905
- 高中函数教学研究与实践,G633.6
- 高中政治新课程改革课堂教学模式整合探索,G633.2
- 海量多数据库集成系统的查询处理研究,TP311.13
- 基于Web的领域词典构建技术研究,TP391.1
- 基于仿生模式识别的文本分类技术研究,TP391.1
- “小团队”健美操教学模式改善高职院校女生心理健康状况的研究,G831.3
- 山东省高校科研项目集成管理模式研究,G644
- 技师培养方式改革的研究,G719.2
- 社会消费方式变迁下的服装终端空间变化之研究,TS941.1
- 高原湖泊湖区可持续发展评价体系及模式研究,X22
- 基于目标成分“敲出/敲入”质量控制模式的中药姜黄抗氧化药效物质辨识,R285
- 文章难易度与主题熟悉度对英语学习者听力影响的个案研究,G633.41
- 试论地方政府的伦理决策,D625
- 我国社会保障预算模式的选择与建构研究,D632.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|