学位论文 > 优秀研究生学位论文题录展示

Deep Web实体搜索的关键技术研究

作　者: 寇月
导　师: 于戈
学　校: 东北大学
专　业: 计算机软件与理论
关键词: Deep Web 实体搜索关联知识实体抽取实体评估实体去重
分类号: TP311.13
类　型: 博士论文
年　份: 2009年
下　载: 47次
引　用: 0次
阅　读: 论文下载

内容摘要

Web上的信息量巨大而丰富,并且已成为了企业、个人赖以生存和发展的主要信息资源。随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段。然而,Deep Web环境中的数据信息对于传统的搜索引擎来说是不可见的,针对Deep Web的新型搜索引擎还远没有发展成熟。面对Deep Web环境的信息量巨大、内容缺乏结构性、结果异构性、数据状态可变等特性,使得Deep Web信息搜索课题不断面临新的挑战和机遇。因此,如何有效地搜索Deep Web中的数据资源成为一个值得研究的问题,其目标是从大规模的、动态变化的Deep Web数据中自动地获取满足用户需求的结果信息。为此,本文针对Deep Web搜索过程中的关联知识构建、实体抽取、实体评估、实体去重等内容进行了研究。主要工作包括以下几点：(1)提出了一种Deep Web实体搜索机制DWESM。通过分析传统的页面级搜索技术和面向专业领域的垂直搜索技术的特点,提出了DWESM的层次模型,具体由关联知识构建、实体抽取、实体评估及实体去重等模型组成；DWESM以网页中的实体数据作为操作的基本单元,不仅能够适合Deep Web的环境特点,而且继承了垂直搜索中的技术思想,更加专注、具体和深入。(2)提出了一种基于语义及统计分析的关联知识构建模型SS-KCM。基于文本匹配模型、语义分析模型和分组统计模型,构建了SS-KCM的整体模型框架；提出了文本粗略匹配、语义关联获取以及分组统计分析的三段式逐步求精策略,基于文本特征、语义关联及约束规则获取实体间的关联关系；提出了静态分析、动态协调相结合的自适应知识维护策略,构建和完善实体关联知识库,以适应Web数据的动态性并保证关联知识的完备性；通过实验验证了SS-KCM中所采用的关键技术的可行性和有效性。(3)提出了一种基于DOM树的Deep Web实体抽取模型D-EEM。D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性；提出了一种基于上下文距离和共现次数的语义标注方法,能够有效地将来自不同数据源的抽取结果进行合成；通过实验验证了D-EEM在抽取效率及抽取准确性等方面所具有的优势。(4)提出了一种局部与全局评估相结合的实体评估模型LG-ERM。针对实体评估所涉及的实体特征、数据源特征、实体关联关系等影响因素进行了分析并量化表示；提出了一种局部与全局评估相结合的实体评估策略,既在数据源内部进行局部多重评估处理,又基于实体关联知识将局部评估结果进行聚集整合,有效地提高了评估的准确性；通过实验验证了LG-ERM所采用的关键技术的可行性和有效性。(5)提出了一种基于多相似度估算器的实体去重模型。针对实体描述属性的不同特征,定义了一系列相似度估算器,以适应不同的属性类型；提出了实体记录相似度的计算方法以及不确定重复记录的处理策略；实验数据表明,该模型在重复记录识别的准确度和有效性等方面具有一定的优势。(6)设计并实现了DWESM的原型系统。实现了本文所提出的关联知识构建、实体抽取、实体评估、实体去重等理论和方法,并验证了这些理论和方法的正确性和有效性。总之,本文研究了Deep Web实体搜索中的关联知识构建、实体抽取、实体评估以及实体去重等问题,提出了一种适合Deep Web环境的实体搜索机制,能够有效地解决Deep Web搜索中结果数据的抽取、排序、消重及整合等问题。理论分析和大量的实验结果证明了这些方法的有效性和高效性。我们希望这些方法和技术对于开发Deep Web搜索系统具有一定的参考价值。

全文目录

摘要  5-7
Abstract  7-14
第1章绪论  14-28
  1.1 Deep Web概述  14-17
    1.1.1 Deep Web的概念  14-15
    1.1.2 Deep Web的特点  15-17
  1.2 问题的提出  17-20
    1.2.1 Deep Web实体搜索的意义  17-18
    1.2.2 Deep Web实体搜索的应用  18-19
    1.2.3 Deep Web实体搜索面临的挑战  19-20
  1.3 国内外研究动态  20-25
    1.3.1 实体关联获取  21-22
    1.3.2 实体抽取技术  22-23
    1.3.3 实体评估技术  23-24
    1.3.4 实体去重技术  24-25
  1.4 本文研究的主要问题  25-26
  1.5 本文的组织结构  26-28
第2章 Deep Web实体搜索机制  28-40
  2.1 传统搜索技术  28-31
    2.1.1 传统搜索技术的工作原理  28-29
    2.1.2 传统搜索技术的局限性  29-31
  2.2 垂直搜索技术  31-33
    2.2.1 垂直搜索的定义和特点  31-32
    2.2.2 与传统搜索技术的比较  32-33
  2.3 Deep Web实体搜索机制  33-39
    2.3.1 DWESM的层次模型  33-36
    2.3.2 结果数据处理的流程  36-38
    2.3.3 DWESM的优势  38-39
  2.4 本章小结  39-40
第3章基于语义及统计分析的关联知识构建  40-64
  3.1 引言  40-42
  3.2 SS-KCM的模型  42-44
  3.3 文本匹配模型  44-45
  3.4 语义分析模型  45-49
    3.4.1 语义关联规则的挖掘  45-47
    3.4.2 实体关联图  47-48
    3.4.3 最佳路径选取  48-49
    3.4.4 关联强度的计算  49
  3.5 分组统计模型  49-51
    3.5.1 约束规则的定义  49-50
    3.5.2 基于统计分析树的实体重组  50-51
  3.6 三段式逐步求精算法  51-54
    3.6.1 TGR算法描述  52-54
    3.6.2 算法性能分析  54
  3.7 关联知识的维护与应用  54-58
    3.7.1 自适应的知识维护策略  54-56
    3.7.2 实体关联知识的应用  56-58
  3.8 实验测试与分析  58-62
    3.8.1 测试平台及数据集  58-59
    3.8.2 性能指标  59
    3.8.3 实验结果  59-62
  3.9 本章小结  62-64
第4章基于DOM树的自动实体抽取策略  64-82
  4.1 引言  64-65
  4.2 D-EEM的模型  65-66
  4.3 网页预处理  66-67
  4.4 数据区域定位  67-69
    4.4.1 聚集度的计算  67-68
    4.4.2 数据区域定位算法  68-69
  4.5 实体区域定位  69-74
    4.5.1 DOM树化简  70
    4.5.2 最佳频繁子树挖掘  70-72
    4.5.3 实体区域定位算法  72-74
  4.6 语义标注  74-76
    4.6.1 抽取规则的表示  74-75
    4.6.2 语义标注方法  75-76
  4.7 实验测试与分析  76-79
    4.7.1 测试平台及数据集  76-77
    4.7.2 执行代价  77
    4.7.3 抽取性能评估  77-79
  4.8 本章小结  79-82
第5章局部与全局评估相结合的实体评估策略  82-100
  5.1 引言  82-84
  5.2 LG-ERM总体介绍  84-86
    5.2.1 影响因素分析  84-85
    5.2.2 LG-ERM的模型  85-86
  5.3 查询预处理  86-89
    5.3.1 实体类型映射  86-88
    5.3.2 查询重写  88-89
  5.4 局部评估  89-93
    5.4.1 基于概率的实体类型匹配  90
    5.4.2 基于视效的实体评估  90-92
    5.4.3 基于PageRank的Web源评估  92-93
  5.5 全局评估  93-94
  5.6 局部与全局评估相结合的实体评估算法  94-96
  5.7 实验测试与分析  96-98
    5.7.1 测试平台及数据集  96
    5.7.2 执行代价  96-97
    5.7.3 性能比较  97-98
  5.8 本章小结  98-100
第6章基于多相似度估算器的实体去重模型  100-114
  6.1 引言  100-101
  6.2 实体去重模型  101-102
  6.3 多相似度估算器  102-107
    6.3.1 多相似度估算器的优势  102
    6.3.2 多相似度估算器的构成  102-107
  6.4 重复实体记录的识别策略  107-111
    6.4.1 实体记录相似度的衡量  107-108
    6.4.2 不确定重复记录的处理  108
    6.4.3 重复记录集生成算法  108-111
  6.5 实验测试与分析  111-113
    6.5.1 测试平台及数据集  111
    6.5.2 性能比较  111-113
  6.6 本章小结  113-114
第7章 DWESM原型系统的设计与实现  114-126
  7.1 引言  114
  7.2 DWESM的系统设计  114-118
    7.2.1 系统设计目标  114-115
    7.2.2 系统体系结构设计  115-116
    7.2.3 功能模块介绍  116-118
  7.3 DWESM的系统实现  118-125
    7.3.1 系统开发环境  118-119
    7.3.2 关联知识生成器的实现  119-120
    7.3.3 抽取规则生成器的实现  120-122
    7.3.4 实体评估器的实现  122-124
    7.3.5 实体去重器的实现  124-125
  7.4 本章小结  125-126
第8章结论  126-128
  8.1 本文的主要贡献与结论  126-127
  8.2 进一步的工作  127-128
参考文献  128-136
致谢  136-138
攻博期间发表的论文  138-140
攻博期间参与的项目  140-142
作者简介  142

相似论文

机械结构对称破缺的概念、作用及其应用,TH122
Deep Web集成系统中同类主题数据源选择方法研究,TP311.13
Deep Web数据清洗方法研究及应用,TP393.09
Deep Web查询接口集成及搜索策略研究,TP393.09
基于领域知识的Deep Web接口发现研究,TP393.09
Deep Web数据集成系统中数据标注研究,TP393.09
Deep Web数据抽取及语义标注研究,TP393.09
Deep Web数据库的选择研究,TP311.13
基于Web页面嵌套模式的包装器生成系统的设计与实现,TP393.092
DWIIS系统中查询接口集成机制的研究,TP393.09
Deep Web数据源发现和选择研究,TP393.09
基于DOM树的Deep Web实体抽取的研究与实现,TP393.09
基于结果模式的Deep Web数据抽取机制的研究,TP393.09
基于领域特征的两阶段查询接口抽取技术的研究与实现,TP393.09
Deep Web环境下数据抽取及模式识别的研究,TP393.09
Deep Web环境下查询松弛技术的研究,TP393.09
基于CPN网络的Deep Web集成系统中结果模式语义标注方法,TP393.09
基于改进TF-IDF的文本信息热点话题发现,TP391.1
Deep Web下不确定数据处理的研究,TP311.13
Deep Web数据源发现与采样研究,TP311.13
基于本体的深度搜索系统关键词库的构造与研究,TP391.3