学位论文 > 优秀研究生学位论文题录展示
基于条件概率图模型的Deep Web数据抽取与集成研究
作 者: 黄健斌
导 师: 姬红兵
学 校: 西安电子科技大学
专 业: 模式识别与智能系统
关键词: Deep Web 信息抽取 数据集成 条件随机场 概率图学习模型
分类号: TP311.135.4
类 型: 博士论文
年 份: 2007年
下 载: 632次
引 用: 4次
阅 读: 论文下载
内容摘要
目前,大量的结构化数据蕴藏在Deep Web中,但是由于Web网页的半结构性、Web超链接的自由无序性以及Deep Web数据的海量性、异构性、多样性、动态性等特点,使得Deep Web数据抽取与集成成为当前亟待解决的研究课题。概率图学习模型是机器学习领域当前异常活跃的研究热点之一,它在数据挖掘、信息抽取、信息检索等领域得到了广泛而成功的应用。本文将条件随机场,一种序列条件概率无向图模型,引入到Deep Web数据抽取和集成的研究中,对其中的查询接口发现、分类、集成以及查询结果数据的抽取和重复记录检测等多个具有挑战性的实际问题进行了系统和深入地研究。针对不同问题提出了改进的条件随机场模型、新的算法或新的实现策略,主要工作概括如下:(1)针对Deep Web查询接口自动搜索和发现问题,提出了基于条件随机场的网页链接路径学习模型,给出了使用增强学习技术对超链接进行评分的算法。实验结果表明,搜索查询表单的性能明显优于其它表单爬虫。(2)使用条件最大熵模型处理Deep Web查询接口识别和领域分类问题。提出了一种仅利用表单结构特征来识别在线数据库查询接口的通用方法。此外,利用最大熵分类器的优点,融合查询表单的结构、内容等多种特征来实现查询表单的领域分类。实验结果表明,该方法分类准确率高。(3)利用有序树模型来表示抽取的查询接口中查询项、字段和属性间的层次关系。提出了一种层次序列条件随机场模型,通过对查询表单中的查询元素进行联合标注分类,实现异构查询接口模式匹配。实验结果表明,该方法具有较高的匹配准确率和跨领域通用特性。(4)提出了一种基于标记树的网页区域分割方法,并且结合网页聚类和跨网页数据区域匹配技术来识别网页中的动态数据区域。针对多源Web记录语义标注和集成问题,提出一种混合跳链条件随机场模型。该模型通过将最大熵和线性链条件随机场混合,能够利用相关数据库中的记录作为训练样本识别抽取数据的语义标注,从而减少了对手工标注样本的依赖;此外增加对跳边的支持,使得模型能够处理状态变量间的长距离依赖。(5)最后,针对重复Web记录检测问题,提出一种条件训练字符串编辑距离模型,可以从训练样本数据中自动学习字符串对的相似函数。此外,使用支持向量机联合多字段相似度实现重复记录检测。实验结果表明,避免了采用固定距离度量函数可能引起的字段相似度估计偏差,并且提高了重复记录检测的鲁棒性。
|
全文目录
摘要 5-6 ABSTRACT 6-8 目录 8-11 第一章 绪论 11-32 1.1 研究背景和意义 11-15 1.2 Deep Web数据抽取与集成的研究进展与现状 15-23 1.3 条件概率图学习模型及其在信息抽取中的应用 23-30 1.4 本文的研究内容与章节安排 30-32 第二章 基于导航路径学习的领域Deep Web查询接口发现 32-51 2.1 引言 32-33 2.2 Deep Web查询表单聚焦爬行系统 33-40 2.2.1 万维网的网站链接图模型 33-36 2.2.2 QFormCollector的系统结构 36-39 2.2.3 站间超链接搜索的实现 39-40 2.3 基于序列超链接评价的网站内查询接口发现 40-44 2.3.1 目标网页导航路径的概率图学习模型 40-41 2.3.2 状态累计回报函数 41-42 2.3.3 超链接评分函数 42-43 2.3.4 网页爬行算法 43-44 2.4 实验结果与分析 44-50 2.4.1 系统运行效果图 44-45 2.4.2 测试环境和使用的数据集 45-46 2.4.3 表单爬虫的性能测试 46-48 2.4.4 并行爬虫的效率测试 48-50 2.5 小结 50-51 第三章 多特征融合的Deep Web查询表单分类 51-64 3.1 引言 51-53 3.2 Deep Web查询表单识别 53-56 3.3 查询表单的领域分类 56-57 3.4 实验结果与分析 57-63 3.4.1 测试数据集 57-59 3.4.2 评价指标 59 3.4.3 查询表单识别结果 59-61 3.4.4 查询表单的领域分类结果 61-63 3.5 小结 63-64 第四章 异构领域Web查询接口模式匹配 64-80 4.1 引言 64-66 4.2 Web查询接口的抽取与表示 66-72 4.2.1 查询接口的定义 66-69 4.2.2 查询接口的抽取 69-70 4.2.3 查询接口的理解 70-72 4.3 基于层次序列条件随机场的异构Web查询接口模式匹配 72-75 4.3.1 层次序列条件随机场模型 72-73 4.3.2 模型的参数训练 73-74 4.3.3 基于联合树的参数估计和推理 74-75 4.4 实验结果与分析 75-79 4.4.1 测试数据集 75 4.4.2 评价指标 75-76 4.4.3 实验结果 76-79 4.5 小结 79-80 第五章 查询结果网页中Web记录的抽取与语义标注 80-104 5.1 引言 80-83 5.2 Web网页分割与动态数据区域的识别 83-90 5.2.1 HTML网页的语法解析 83-84 5.2.2 网页的区域分割 84-87 5.2.3 动态数据区域的识别 87-90 5.3 基于混合跳链条件随机场的Web记录联合抽取和语义标注 90-98 5.3.1 混合跳链条件随机场模型 91-94 5.3.2 模型训练和推理过程 94-97 5.3.3 语义标注算法 97-98 5.4 实验结果与分析 98-103 5.4.1 数据区域识别算法评价 98 5.4.2 语义标注模型性能评价 98-103 5.5 小结 103-104 第六章 多源重复Web记录检测 104-115 6.1 引言 104-106 6.2 条件训练字符串编辑距离 106-108 6.2.1 字符串编辑比对条件随机场模型 106-107 6.2.2 模型参数估计方法 107-108 6.3 合并多字段相似度的自适应重复Web记录检测 108-109 6.4 实验结果与分析 109-114 6.4.1 实验数据集 109-110 6.4.2 字符串编辑距离模型的测试结果 110-111 6.4.3 合并多字段重复记录检测的实验结果 111-114 6.5 小结 114-115 结束语 115-117 致谢 117-119 参考文献 119-129 攻读博士学位期间的研究成果 129
|
相似论文
- SOA高校迎新系统中的SDO模型的研究与实现,G647
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 一种可视化的分布式数据集成模型的研究与实现,TP311.52
- 面向服务的数据集成模型的研究与实现,TP311.52
- 网页属性抽取的方法研究,TP391.1
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 公安信息系统中数据集成的,TP311.52
- 基于空间邻域词袋模型的图像标注技术,TP391.41
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 主题搜索引擎关键技术研究,TP391.3
- 基于条件随机场的RNA二级结构预测算法,R346
- 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 基于字词联合解码的中文分词研究,TP391.1
- 特定领域中文术语抽取,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统 > 超文本数据库
© 2012 www.xueweilunwen.com
|