学位论文 > 优秀研究生学位论文题录展示
基于XML的数据预处理关键技术研究及应用
作 者: 刘铮
导 师: 刘伟
学 校: 解放军信息工程大学
专 业: 计算机应用技术
关键词: 异构数据 XML文档 XML Schema 数据转换 数据清理 孤立点数据
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 44次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息技术飞速发展,相互协作的各企业、部门之间迫切需要一个高性能的数据交换方案,来屏蔽异构系统之间的差异、实现数据共享。而现有的异构数据交换技术均存在许多不足,如实现过程复杂、耦合度高、通用性差等。另外,各异构系统中都存在较多的数据质量问题,为了保证转换后数据的可用性,必须对其中的脏数据进行清理。以上两个问题的解决,需要使用到数据预处理中的数据转换和数据清理两种技术。本文针对现有数据交换方案的不足,设计了一个基于XML的数据预处理解决方案。该方案以XML为中间转换媒介,实现了关系数据与XML数据的双向转换,并且该方案中加入了对XML数据清理的功能。本文主要从以下三个方面做了研究:(1)关系数据库向XML文档转换的研究。主要研究了以E-R图为中间模型将关系数据库转换为XML文档的方法,重点是以E-R图中的联系为依据,设计了一组将关系模式中的实体完整性、参照完整性和用户自定义完整性向XML Schema转换的规则。(2)设计了一个XML孤立点数据检测清理框架。借助聚类分析思想和XML文档层次特性,将逻辑相关的结点聚集到相应的子空间中,并基于这些相关子空间计算孤立点兴趣度度量——XO度量,以此来识别孤立点数据,并设计了一组相关算法。(3)XML文档向关系数据库转换的研究。设计了一个XML Schema形式化算法,将其形式化为一个九元组X_S,然后依据九元组X_S设计了一组将XML Schema中的组件以及组件之间的联系转换为关系模式的规则。实验证明,本文设计的异构数据交换方案能够获得较高的转换效率,而且能够较好地控制转换过程中的语义损失。另外,本文的XML孤立点数据清理算法也能达到较高的准确率和查全率。
|
全文目录
摘要 6-7 Abstract 7-8 第一章 绪论 8-15 1.1 研究依据及问题提出 8-9 1.2 国内外研究现状 9-13 1.2.1 基于XML 异构数据交换研究现状 9-11 1.2.2 数据清理技术的研究现状 11-13 1.3 论文解决的主要问题 13-14 1.4 论文安排 14-15 第二章 相关技术介绍 15-26 2.1 XML 概述 15 2.2 XML Schema 介绍 15-17 2.2.1 XML Schema 的组件 16-17 2.2.2 XML Schema 的语义约束 17 2.3 XML 应用程序接口 17-20 2.3.1 文档对象模型DOM 18-19 2.3.2 XML 简单应用程序接口SAX 19-20 2.3.3 选择使用XML 应用程序接口的标准 20 2.4 XML 查询语言 20-23 2.4.1 XPath 语言 21-22 2.4.2 XQuery 语言 22-23 2.5 数据清理技术 23-25 2.5.1 数据清理内涵 23 2.5.2 数据清理的原理及方法 23-25 2.5.3 数据清理的流程 25 2.6 本章小结 25-26 第三章 基于XML 的数据预处理解决方案 26-34 3.1 基于XML 的异构数据交换 26-31 3.1.1 XML 文档和关系数据库 26-27 3.1.2 XML 文档与关系数据库间的转换 27-28 3.1.3 基于XML 异构数据转换器的结构设计 28-31 3.2 XML 数据的清理技术 31-32 3.2.1 数据清理位置的选择 31-32 3.2.2 数据清理策略的选择 32 3.3 基于XML 的数据预处理框架设计 32-33 3.4 本章小结 33-34 第四章 关系数据库向XML 文档转换 34-47 4.1 获取关系模式 34-35 4.2 E-R 图的重构 35-37 4.3 E-R 图模型向XML Schema 转换 37-43 4.3.1 E-R 图中数据结构向XML 文档结构的转换规则 37-38 4.3.2 E-R 图中语义约束向XML Schema 的转换规则 38-43 4.4 关系数据导入XML 文档 43 4.5 实验设计与性能分析 43-46 4.5.1 实验设计 43-46 4.5.2 性能分析 46 4.6 本章小结 46-47 第五章 XML 数据清理技术 47-57 5.1 引言 47 5.2 XML 文档的形式化 47-48 5.3 XML 孤立点数据检测清理框架 48-54 5.3.1 聚集结点定义 49 5.3.2 相关子空间识别 49-51 5.3.3 XML 孤立点数据兴趣度度量 51-53 5.3.4 XML 孤立点数据识别 53-54 5.4 实验仿真及性能分析 54-56 5.5 本章小结 56-57 第六章 XML 文档向关系数据库转换 57-69 6.1 XML Schema 形式化描述 57-59 6.2 XML Schema 向关系模式转换 59-63 6.2.1 属性转换规则 60 6.2.2 元素转换规则 60-62 6.2.3 一致性约束转换规则 62-63 6.3 标准SQL 语句生成及数据导入 63-64 6.4 实验设计与性能分析 64-68 6.4.1 实验设计 64-66 6.4.2 性能分析 66-68 6.5 本章小结 68-69 第七章 总结与展望 69-71 7.1 本文总结 69-70 7.2 下一步工作 70-71 参考文献 71-74 作者简历 攻读硕士学位期间完成的主要工作 74-75 致谢 75
|
相似论文
- SOA高校迎新系统中的SDO模型的研究与实现,G647
- 基于XML的异构数据交换系统的设计与实现,TP311.52
- 概率XML文档中Holistic Twig查询处理算法的研究与实现,TP311.13
- 保留语义约束的XML与关系数据库双向转换技术研究,TP311.13
- 数据空间下的索引策略研究,TP311.13
- 汉文古籍标准化元数据转换研究与应用,TP391.1
- 基于CAN的汽车制动测试系统的研究与实现,U467.5
- 一种信息资源集成平台的研究与实践,TP311.52
- 基于异构数据库的高校设备管理系统的设计,TP311.52
- 基于Web Services的可配置异构数据整合系统开发,TP311.52
- 基于XML的Web文本挖掘及关联算法的研究,TP311.13
- 基于XML模式的异构数据集成中间件研究,TP311.52
- 三维二阶校正算法及其应用研究,O652
- 电力行业办公自动化的研究与实现,TM76
- 高校数字化校园基础平台的研究与设计,TP393.18
- 基于LS-SVM的入侵检测,TP393.08
- 数据资源汇聚的可视化建模技术研究与应用,TP311.52
- 基于XML的异构数据源集成与查询技术研究,TP311.52
- 异构数据库集成在办公自动化中的应用,TP311.13
- 基于Web服务的可视化作战想定生成系统设计与实现,TP391.41
- 分布式数据库技术研究与其在战场信息系统集成中的应用,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|