学位论文 > 优秀研究生学位论文题录展示

Deep Web数据集成关键技术研究

作 者: 刘凯
导 师: 刘钢
学 校: 长春工业大学
专 业: 计算机应用技术
关键词: Deep Web 本体 入口发现 集成 查询转换 DOM树
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 38次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网动态网页技术的飞速发展,越来越多的信息被存储在Web后台在线数据库中,这些信息不能被传统的网络爬虫所抓取,而只能通过在Web页面上提供的查询接口来访问,因此传统搜索引擎无法对它们进行索引,这就使得大量有用的信息不能够方便、快捷的被用户使用,而这部分信息就被称为Deep Web信息。Deep Web具有信息量大、质量高、内容专题性强等特点,因此对Deep Web信息集成技术的研究也越来越多的受到了国内外科研人员的重视。本文对Deep Web信息集成过程中的Deep Web入口发现、Deep Web查询转换和Deep Web结果抽取三个关键技术进行了深入研究,具体研究内容和工作包括以下几点:(1)领域本体本体作为知识的一种表示形式以应用到各大研究领域,本文利用领域本体增加入口发现、查询转换的准确性。而对于领域本体的建立,利用手工收集的Deep Web入口页面作为样本,用这些查询页面的属性信息来建立领域本体,因此本文所建立的领域本体能够直接反映Deep Web查询接口的属性信息,但由于缺少领域专家的支持,领域本体建立的并不全面,因此本文会在领域本体使用的过程中对领域本体自动的扩充。(2) Deep Web入口发现本文在研究Deep Web入口页面的基础上,提出了一个新的入口发现方法,该方法在主题爬虫中加入Form表单发现模块和入口发现模块,对于主题爬虫选用贝叶斯分类器让爬虫始终抓取与主题相关的页面,而对于Form表单发现模块,即在爬虫对页面抓取的过程中判断页面是否存在Form表单,如存在则送到入口发现模块,利用领域本体来检查此页面Form表单的属性信息。(3) Deep Web查询转换对查询转换的研究,文中提出属性匹配表来加快属性间信息匹配,即对于查询信息会先在属性匹配表中进行匹配,如成功则直接转到本地查询接口,不成功再让属性和本体进行匹配,以此来简化查询转换的过程。(4) Deep Web结果抽取在对Deep Web结果抽取的研究中,本文利用DOM树和页面信息模块比对技术来抽取页面上的结果信息,根据观察发现,分页显示的结果页面的布局的页面的头部、底部和边上的内容都是相同或相似的,且只有页面上的结果信息在变化,而形式却没有变化,因此可以对页面建立DOM树,并利用页面信息模块比对技术对DOM树中且有相同信息的枝节进行删减.最终获取结果信息。

全文目录


摘要  2-3
Abstract  3-7
第一章 绪论  7-14
  1.1 研究背景和目的  7-9
  1.2 国内外研究现状  9-11
    1.2.1 国外方面  10
    1.2.2 国内方面  10-11
  1.3 本文研究内容  11-13
  1.4 本文的组织结构  13-14
第二章 领域本体和模式匹配  14-21
  2.1 领域本体  14-17
    2.1.1 本体和本体构建工具Protege  14-15
    2.1.2 基于Deep Web查询接口的领域本体建立  15-17
    2.1.3 领域本体自动扩展  17
  2.2 模式识别  17-20
  2.3 本章小结  20-21
第三章 Deep web查询接口集成和自动发现  21-32
  3.1 Deep Web查询接口集成  21-24
  3.2 Deep Web入口自动发现  24-31
    3.2.1 Deep Web网络爬虫框架  25-26
    3.2.2 主题分类模块  26
    3.2.3 网络爬虫队列  26-28
    3.2.4 表单抽取模块  28-30
    3.2.5 入口发现模块  30
    3.2.6 核心算法  30-31
  3.3 本章小结  31-32
第四章 Deep Web查询转换和查询结果抽取  32-42
  4.1 Deep Web查询转换  32-36
    4.1.1 查询转化框架设计  32-34
    4.1.2 属性匹配表  34
    4.1.3 属性匹配器  34-35
    4.1.4 本体扩展模块  35
    4.1.5 自动提交  35-36
  4.2 Deep Web结果信息抽取  36-41
    4.2.1 DOM树建立  37-38
    4.2.2 基于启发规则的页面比对策略  38-39
    4.2.3 结果排序  39-41
  4.3 本章小结  41-42
第五章 实验与分析  42-47
  5.1 Deep Web查询接口自动发现实验  43-44
  5.2 Deep Web查询转换实验  44
  5.3 Deep Web查询结果抽取实验  44-46
  5.4 本章小结  46-47
第六章 总结与展望  47-48
致谢  48-49
参考文献  49-52
作者简介  52
攻读硕士学位期间研究成果  52-53

相似论文

  1. SOA高校迎新系统中的SDO模型的研究与实现,G647
  2. 医疗信息集成平台中HL7消息解析和存储的设计与实现,TP311.52
  3. 山东省高校科研项目集成管理模式研究,G644
  4. 哲学思想在指导中学数学教学中的作用,G633.6
  5. 基于本体的语义检索研究,TP391.3
  6. A公司信息化管理优化研究,TP315
  7. 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
  8. 煤矿风险信息集成与智能预警研究,X936
  9. 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
  10. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  11. WordNet和《中国分类主题词表》的映射研究,G254
  12. 拉图尔的行动者网络理论研究,N02
  13. 俄语外来词的本土化及其深层解读,H35
  14. 二十世纪五十至六十年代中国儿童歌曲研究,J609.2
  15. 伽达默尔游戏观研究,B83-0
  16. 基于查询接口的Deep Web模式匹配方法研究,TP311.13
  17. Deep Web数据源发现和分类研究,TP393.09
  18. 低黄变亲水性有机硅柔软剂的开发与应用研究,TS195.23
  19. 基于领域本体的专利地图研究,TP391.1
  20. C2C网络店铺的信誉评价研究,F203;F224
  21. 视觉干预康复训练对脑卒中后平衡控制及步行能力的影响,R743.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com