学位论文 > 优秀研究生学位论文题录展示
Deep Web数据集成关键技术研究
作 者: 刘凯
导 师: 刘钢
学 校: 长春工业大学
专 业: 计算机应用技术
关键词: Deep Web 本体 入口发现 集成 查询转换 DOM树
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 38次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网动态网页技术的飞速发展,越来越多的信息被存储在Web后台在线数据库中,这些信息不能被传统的网络爬虫所抓取,而只能通过在Web页面上提供的查询接口来访问,因此传统搜索引擎无法对它们进行索引,这就使得大量有用的信息不能够方便、快捷的被用户使用,而这部分信息就被称为Deep Web信息。Deep Web具有信息量大、质量高、内容专题性强等特点,因此对Deep Web信息集成技术的研究也越来越多的受到了国内外科研人员的重视。本文对Deep Web信息集成过程中的Deep Web入口发现、Deep Web查询转换和Deep Web结果抽取三个关键技术进行了深入研究,具体研究内容和工作包括以下几点:(1)领域本体本体作为知识的一种表示形式以应用到各大研究领域,本文利用领域本体增加入口发现、查询转换的准确性。而对于领域本体的建立,利用手工收集的Deep Web入口页面作为样本,用这些查询页面的属性信息来建立领域本体,因此本文所建立的领域本体能够直接反映Deep Web查询接口的属性信息,但由于缺少领域专家的支持,领域本体建立的并不全面,因此本文会在领域本体使用的过程中对领域本体自动的扩充。(2) Deep Web入口发现本文在研究Deep Web入口页面的基础上,提出了一个新的入口发现方法,该方法在主题爬虫中加入Form表单发现模块和入口发现模块,对于主题爬虫选用贝叶斯分类器让爬虫始终抓取与主题相关的页面,而对于Form表单发现模块,即在爬虫对页面抓取的过程中判断页面是否存在Form表单,如存在则送到入口发现模块,利用领域本体来检查此页面Form表单的属性信息。(3) Deep Web查询转换对查询转换的研究,文中提出属性匹配表来加快属性间信息匹配,即对于查询信息会先在属性匹配表中进行匹配,如成功则直接转到本地查询接口,不成功再让属性和本体进行匹配,以此来简化查询转换的过程。(4) Deep Web结果抽取在对Deep Web结果抽取的研究中,本文利用DOM树和页面信息模块比对技术来抽取页面上的结果信息,根据观察发现,分页显示的结果页面的布局的页面的头部、底部和边上的内容都是相同或相似的,且只有页面上的结果信息在变化,而形式却没有变化,因此可以对页面建立DOM树,并利用页面信息模块比对技术对DOM树中且有相同信息的枝节进行删减.最终获取结果信息。
|
全文目录
摘要 2-3 Abstract 3-7 第一章 绪论 7-14 1.1 研究背景和目的 7-9 1.2 国内外研究现状 9-11 1.2.1 国外方面 10 1.2.2 国内方面 10-11 1.3 本文研究内容 11-13 1.4 本文的组织结构 13-14 第二章 领域本体和模式匹配 14-21 2.1 领域本体 14-17 2.1.1 本体和本体构建工具Protege 14-15 2.1.2 基于Deep Web查询接口的领域本体建立 15-17 2.1.3 领域本体自动扩展 17 2.2 模式识别 17-20 2.3 本章小结 20-21 第三章 Deep web查询接口集成和自动发现 21-32 3.1 Deep Web查询接口集成 21-24 3.2 Deep Web入口自动发现 24-31 3.2.1 Deep Web网络爬虫框架 25-26 3.2.2 主题分类模块 26 3.2.3 网络爬虫队列 26-28 3.2.4 表单抽取模块 28-30 3.2.5 入口发现模块 30 3.2.6 核心算法 30-31 3.3 本章小结 31-32 第四章 Deep Web查询转换和查询结果抽取 32-42 4.1 Deep Web查询转换 32-36 4.1.1 查询转化框架设计 32-34 4.1.2 属性匹配表 34 4.1.3 属性匹配器 34-35 4.1.4 本体扩展模块 35 4.1.5 自动提交 35-36 4.2 Deep Web结果信息抽取 36-41 4.2.1 DOM树建立 37-38 4.2.2 基于启发规则的页面比对策略 38-39 4.2.3 结果排序 39-41 4.3 本章小结 41-42 第五章 实验与分析 42-47 5.1 Deep Web查询接口自动发现实验 43-44 5.2 Deep Web查询转换实验 44 5.3 Deep Web查询结果抽取实验 44-46 5.4 本章小结 46-47 第六章 总结与展望 47-48 致谢 48-49 参考文献 49-52 作者简介 52 攻读硕士学位期间研究成果 52-53
|
相似论文
- SOA高校迎新系统中的SDO模型的研究与实现,G647
- 医疗信息集成平台中HL7消息解析和存储的设计与实现,TP311.52
- 山东省高校科研项目集成管理模式研究,G644
- 哲学思想在指导中学数学教学中的作用,G633.6
- 基于本体的语义检索研究,TP391.3
- A公司信息化管理优化研究,TP315
- 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
- 煤矿风险信息集成与智能预警研究,X936
- 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 拉图尔的行动者网络理论研究,N02
- 俄语外来词的本土化及其深层解读,H35
- 二十世纪五十至六十年代中国儿童歌曲研究,J609.2
- 伽达默尔游戏观研究,B83-0
- 基于查询接口的Deep Web模式匹配方法研究,TP311.13
- Deep Web数据源发现和分类研究,TP393.09
- 低黄变亲水性有机硅柔软剂的开发与应用研究,TS195.23
- 基于领域本体的专利地图研究,TP391.1
- C2C网络店铺的信誉评价研究,F203;F224
- 视觉干预康复训练对脑卒中后平衡控制及步行能力的影响,R743.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|