学位论文 > 优秀研究生学位论文题录展示
综合信息集成及查询优化的研究
作 者: 于红
导 师: 王秀坤
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 信息集成 模式映射 多连接查询优化 XML查询优化 PBMSDF
分类号: TP311.52
类 型: 博士论文
年 份: 2006年
下 载: 596次
引 用: 10次
阅 读: 论文下载
内容摘要
随着Internet技术的发展,Web上各种在线信息源不断涌现,这些信息源种类繁多,结构各异。在互联网这样一个动态的环境中,各信息源不断地发生着变化,在这样一个动态、异构、开放的环境下快速、准确地获取信息是十分困难的。因此,研究信息集成系统,为用户提供一个访问异构数据源的统一接口有着非常重要的意义。在这种背景下,本文对信息集成系统的主要技术进行了深入的研究,具体研究工作如下: 信息集成系统体系结构是研究系统的组成模块以及各模块之间关系的。本文对目前几种典型的信息集成系统体系结构进行了分析,总结了这些体系结构的优点和不足。在对实际的信息集成工作中遇到的问题及其他相关需求进行分析的基础上,提出了综合信息集成系统体系结构。该体系结构既考虑对已有投资的保护,又考虑对不断生成的新数据的有效处理;既考虑对传统数据库中的数据和XML数据的处理,又考虑信息检索和辅助决策的需求。是一个面向目前大多数企业的综合信息集成系统。 模式映射的建立是信息集成系统的重要环节之一。本文提出了基于划分的映射模式发现框架——PBMSDF(Partition Based Mapping Schema Discovery Framework)。Dhamankar等提出了iMAP框架,该框架采用搜索器集合和Beam Search的方法,可以自动发现1:1映射、1:n和n:1的复杂映射,但是存在以下不足:一是不能发现m:n的复杂映射;二是该框架需要对属性及属性值实例进行分析,导致系统开销很大;三是对于Web信息集成,获取属性值的数据实例有时是不可能的,因此该框架不能用于Web信息集成。He等提出了DCM(Dual Correlation Mining)框架,该框架采用对属性在模式中的分布进行分析发现属性之间相关度的方法来发现属性之间的映射关系,可以解决iMAP框架中存在的问题,仍存在以下不足:一是由于该框架采用的相关度衡量标准对部分属性的评价结果不准确,导致发现结果准确性不高;二是该框架中采用的AprioriCorrmining和DualCorrelationmining挖掘算法在由相关e项集生成相关e+1项集的过程中,将整个属性集合中的每一个属性添加到相关e项集中构成候选相关e+1项集,然后再判断该e+1项集是否相关,增加了许多不必要的计算,致使搜索空间过大,算法的效率较低。本文提出了比较适合于衡量属性之间相关度的C-衡量标准,并在PBMSDF框架中采用了该标准以提高发现结果的准确度;提出了基于划分和栈的模式映射发现算法,理论分析和实验结果均证明,该框架较iMAP和DCM具有较高的性能和较好的模式发现能力。 XML成为目前Web上数据表示和信息交换的标准,处理XML数据是集成系统的功能之一,XML查询的效率将直接影响集成系统的性能。本文提出了一种基于递归模
|
全文目录
独创性说明 3-4 摘要 4-6 Abstract 6-10 1 绪论 10-14 1.1 工作背景 10-11 1.2 本文的主要贡献 11-12 1.3 论文结构 12-14 2 综合信息集成体系结构 14-33 2.1 信息集成系统体系结构研究现状 14-17 2.2 综合信息集成体系结构 17-20 2.3 基于遗传算法的数据分布方法 20-32 2.3.1 相关工作介绍 20-21 2.3.2 数据分布模型 21-22 2.3.3 基于遗传算法的数据分布算法 22-25 2.3.4 基于遗传算法的数据分布实例 25-27 2.3.5 基于遗传算法的数据分布实验 27-32 2.4 本章小结 32-33 3 集成系统模式映射 33-61 3.1 引言 33-36 3.2 相关工作分析 36-37 3.3 PBMSDF框架体系结构 37-42 3.4 基于划分和栈的模式映射发现算法 42-55 3.4.1 相关度衡量标准 43-49 3.4.2 算法描述 49-55 3.5 映射构建 55-56 3.6 算法性能分析 56-57 3.7 实验 57-60 3.8 本章小结 60-61 4 基于直接递归模式的XML查询优化 61-79 4.1 引言 61-63 4.2 相关工作分析 63-65 4.3 基于直接递归XML模式索引的XML查询优化方法 65-75 4.3.1 XML模式处理 66-67 4.3.2 查询预处理 67-70 4.3.3 XML模式查询 70-72 4.3.4 XML文档处理方法和查询算法 72-75 4.4 实验 75-78 4.5 本章小结 78-79 5 传统数据库查询优化 79-105 5.1 引言 79-80 5.2 多连接查询优化算法 80-95 5.2.1 相关工作分析 80-81 5.2.2 图模型和树模型的定义 81-83 5.2.2 基于图的多连接查询优化算法 83-86 5.2.3 模拟实验结果分析 86-95 5.3 基于值的查询优化算法 95-104 5.3.1 相关工作分析 95 5.3.2 基于值的查询优化费用模型 95-101 5.3.3 基于值的查询优化算法 101-103 5.3.4 实验 103-104 5.4 本章小结 104-105 6 集成系统的查询优化 105-110 6.1 引言 105-106 6.2 相关工作分析 106-107 6.3 集成系统的查询优化框架 107-109 6.4 本章小结 109-110 结论 110-112 参考文献 112-121 创新点摘要 121-122 攻读博士学位期间参加科研项目情况 122-123 攻读博士学位期间发表学术论文情况 123-124 致谢 124-125 大连理工大学学位论文版权使用授权书 125
|
相似论文
- 海量多数据库集成系统的查询处理研究,TP311.13
- 海量多数据库集成系统的Mediator和Wrapper机制的设计与实现,TP311.13
- 医疗信息集成平台中HL7消息解析和存储的设计与实现,TP311.52
- 医疗信息集成平台中DICOM中间件及访问控制模型的设计与实现,TP311.13
- A公司信息化管理优化研究,TP315
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- 高校信息集成平台的设计与实现,TP311.52
- 基于服务总线的模具企业信息集成系统,TP311.52
- 基于ArcGIS图元的军事标图技术研究,TP311.52
- 汽车产业链配套企业的协同管理模式及信息集成研究,F270.7
- 面向半导体制造过程中的缺陷数据集成与分析,TN305
- 车用双层卷焊管制造技术研究,TG457.6
- SGMW青岛分公司制造执行系统的研究与应用,F426.471
- 基于PLM的定制产品集成信息系统研究,TB497
- 城市治安动态视频监控系统设计,TP277
- 煤矿通防安全信息集成与控制预警系统平台研究,TP311.52
- 数据资源汇聚的可视化建模技术研究与应用,TP311.52
- 基于PDM的高校科研管理信息系统设计与开发,TP311.52
- PDM与ERP信息集成的研究与实现,TP311.52
- 基于XML的异构数据交换技术研究,TP311.13
- 基于物化视图的数据查询与整合技术研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|