学位论文 > 优秀研究生学位论文题录展示
异构数据源信息集成的数据质量研究
作 者: 谢光宇
导 师: 夏秀峰;丛丽晖
学 校: 沈阳航空工业学院
专 业: 计算机应用技术
关键词: 信息集成 XML 脏数据 置信区间 偏离群数据
分类号: TP311.52
类 型: 硕士论文
年 份: 2008年
下 载: 51次
引 用: 2次
阅 读: 论文下载
内容摘要
在现代企业中,由于信息来源的多样化及企业中已存在大量的异构数据,传统的信息集成系统并不能用一种标准化的数据格式来进行交互。由于XML语言具有良好的数据组织形式、灵活的扩展性、数据的分离性及资源的开放性四个特点,使得以XML为基础建立企业信息集成平台成为信息技术发展的一种必然趋势。然而,在集成过程中难免会遇到各种类型的“脏数据”,利用包含“脏数据”的集成数据可能不会产生正确的决策分析结果。因此,信息集成系统需要功能强大的数据清洗工具来检测并消除上述“脏数据”,最终为分析决策支持提供正确一致的信息。本文主要的研究工作可概括为以下几个方面:第一,在分析XML与信息集成相融合的优势的基础上,提出了一种利用元数据支持进行信息集成的框架,利用解析器和Wrapper技术向用户提供统一的查询接口和数据视图,借助于元数据的支持来判断查询操作的有效性。较好地解决了信息集成过程中透明访问、联合查询和数据转换等问题,实现了多个异构数据源的快捷查询和快速结果展现。第二,在分析现有检测技术基础上,提出了一种基于置信区间的偏离群数据检测方法。该方法所处理的数据不需与时间相关并可快速识别和检测出大数据量中的“脏数据”。实验结果表明该方法能有效解决无规则状态下的偏离群数据的检测,并在实际应用中取得了良好的效果。第三,为了将理论应用于实践,在一个应用实例中进行实验模拟。本实验构建了特种设备整合系统的体系结构,设计了数据仓库中元数据表和数据仓库的事实表和维表。数据从数据源中抽取,经过清洗和转换,以达到在集成系统中找到所存在的数据质量问题,并找到良好的方法解决。
|
全文目录
摘要 6-7 Abstract 7-12 第1章 绪论 12-16 1.1 问题提出 12-13 1.1.1 信息集成 12-13 1.1.2 数据质量 13 1.2 国内外研究现状 13-14 1.3 论文主要工作 14-16 第2章 异构数据源信息集成和数据质量基础 16-26 2.1 异构数据源集成 16-18 2.1.1 定义 16 2.1.2 异构数据源的分类 16-17 2.1.3 关键技术 17-18 2.2 信息集成 18-22 2.2.1 信息集成的体系结构 18-21 2.2.2 信息集成的方式 21-22 2.2.3 信息集成的方法 22 2.3 数据质量 22-25 2.3.1 数据质量的概念 22-23 2.3.2 数据质量的评价标准 23-24 2.3.3 数据质量问题的分类 24-25 2.4 小结 25-26 第3章 异构数据源的信息集成 26-38 3.1 XML概述 26-28 3.1.1 XML的定义 26-27 3.1.2 XML的特点和目标 27-28 3.1.3 应用可行性 28 3.2 基于XML的信息集成 28-32 3.2.1 传统的基于XML 信息集成框架 28-29 3.2.2 改进后基于XML 的信息集成框架 29-31 3.2.3 基于XML信息集成的查询流程 31-32 3.3 数据转化方法 32-33 3.4 信息展现的实现 33-37 3.4.1 数据抽取 33-34 3.4.2 作为交换的XML 文档 34-35 3.4.3 XML数据集成 35-36 3.4.4 信息发布 36-37 3.5 小结 37-38 第4章 集成过程中的偏离群数据的检测 38-48 4.1 检测原理 39-40 4.2 检测策略 40-42 4.2.1 样本的初步抽选 40-41 4.2.2 利用择优选择算法选取可信样本 41-42 4.2.3 确定置信区间及检测 42 4.3 检测算法描述 42-43 4.4 处理“脏数据” 43-44 4.4.1 数据填充 44 4.4.2 区间提示 44 4.4.3 查找填充 44 4.5 实验 44-47 4.5.1 实验验证 44-46 4.5.2 有效性和可行性验证 46-47 4.6 小结 47-48 第5章 机电类特种设备信息集成 48-56 5.1 系统建设背景 48 5.2 系统设计 48-51 5.2.1 遗留系统现状 48-49 5.2.2 系统方案设计 49-50 5.2.3 系统体系结构 50-51 5.3 数据仓库设计 51-53 5.3.1 逻辑模型设计 51 5.3.2 事实表和维表设计 51-52 5.3.3 元数据表设计 52-53 5.4 机电类特种设备信息集成实验 53-55 5.4.1 实验的环境 53 5.4.2 实验的方法 53-54 5.4.3 数据质量问题及解决方法 54-55 5.4.4 实验分析 55 5.5 小结 55-56 结论 56-58 参考文献 58-60 致谢 60-61 攻读硕士期间发表(含录用)的学术论文 61
|
相似论文
- 基因调控网络模型描述语言研究,Q78
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- 海量多数据库集成系统的Mediator和Wrapper机制的设计与实现,TP311.13
- LXI自动测试系统集成技术研究,TP274
- 医疗信息集成平台中HL7消息解析和存储的设计与实现,TP311.52
- 医疗信息集成平台中DICOM中间件及访问控制模型的设计与实现,TP311.13
- 基于网络的服装款式设计系统的研究与实现,TS941.2
- 基于MDA的界面自动生成方法的研究,TP311.5
- C++代码缺陷检测系统的研究与设计,TP311.53
- A公司信息化管理优化研究,TP315
- 基于Web的科学计算遗留应用共享技术研究,TP393.09
- 基于XML的异构数据交换系统的设计与实现,TP311.52
- 电子公文传输管理系统在电大系统中的设计与实现,TP311.52
- 概率XML数据上关键字检索算法的研究与实现,TP391.3
- 行政审批电子监察系统数据交换的设计与实现,TP311.52
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- 概率XML文档中Holistic Twig查询处理算法的研究与实现,TP311.13
- 保留语义约束的XML与关系数据库双向转换技术研究,TP311.13
- SOA架构在高校信息化系统中整合技术的应用,TP311.52
- 基于银行综合前置平台的金融服务支付系统的设计与实现,TP311.52
- 基于观察者模式的银行主动服务系统的设计与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|