学位论文 > 优秀研究生学位论文题录展示

基于XML的数据预处理关键技术研究及应用

作 者: 刘铮
导 师: 刘伟
学 校: 解放军信息工程大学
专 业: 计算机应用技术
关键词: 异构数据 XML文档 XML Schema 数据转换 数据清理 孤立点数据
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 44次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息技术飞速发展,相互协作的各企业、部门之间迫切需要一个高性能的数据交换方案,来屏蔽异构系统之间的差异、实现数据共享。而现有的异构数据交换技术均存在许多不足,如实现过程复杂、耦合度高、通用性差等。另外,各异构系统中都存在较多的数据质量问题,为了保证转换后数据的可用性,必须对其中的脏数据进行清理。以上两个问题的解决,需要使用到数据预处理中的数据转换数据清理两种技术。本文针对现有数据交换方案的不足,设计了一个基于XML的数据预处理解决方案。该方案以XML为中间转换媒介,实现了关系数据与XML数据的双向转换,并且该方案中加入了对XML数据清理的功能。本文主要从以下三个方面做了研究:(1)关系数据库向XML文档转换的研究。主要研究了以E-R图为中间模型将关系数据库转换为XML文档的方法,重点是以E-R图中的联系为依据,设计了一组将关系模式中的实体完整性、参照完整性和用户自定义完整性向XML Schema转换的规则。(2)设计了一个XML孤立点数据检测清理框架。借助聚类分析思想和XML文档层次特性,将逻辑相关的结点聚集到相应的子空间中,并基于这些相关子空间计算孤立点兴趣度度量——XO度量,以此来识别孤立点数据,并设计了一组相关算法。(3)XML文档向关系数据库转换的研究。设计了一个XML Schema形式化算法,将其形式化为一个九元组X_S,然后依据九元组X_S设计了一组将XML Schema中的组件以及组件之间的联系转换为关系模式的规则。实验证明,本文设计的异构数据交换方案能够获得较高的转换效率,而且能够较好地控制转换过程中的语义损失。另外,本文的XML孤立点数据清理算法也能达到较高的准确率和查全率。

全文目录


摘要  6-7
Abstract  7-8
第一章 绪论  8-15
  1.1 研究依据及问题提出  8-9
  1.2 国内外研究现状  9-13
    1.2.1 基于XML 异构数据交换研究现状  9-11
    1.2.2 数据清理技术的研究现状  11-13
  1.3 论文解决的主要问题  13-14
  1.4 论文安排  14-15
第二章 相关技术介绍  15-26
  2.1 XML 概述  15
  2.2 XML Schema 介绍  15-17
    2.2.1 XML Schema 的组件  16-17
    2.2.2 XML Schema 的语义约束  17
  2.3 XML 应用程序接口  17-20
    2.3.1 文档对象模型DOM  18-19
    2.3.2 XML 简单应用程序接口SAX  19-20
    2.3.3 选择使用XML 应用程序接口的标准  20
  2.4 XML 查询语言  20-23
    2.4.1 XPath 语言  21-22
    2.4.2 XQuery 语言  22-23
  2.5 数据清理技术  23-25
    2.5.1 数据清理内涵  23
    2.5.2 数据清理的原理及方法  23-25
    2.5.3 数据清理的流程  25
  2.6 本章小结  25-26
第三章 基于XML 的数据预处理解决方案  26-34
  3.1 基于XML 的异构数据交换  26-31
    3.1.1 XML 文档和关系数据库  26-27
    3.1.2 XML 文档与关系数据库间的转换  27-28
    3.1.3 基于XML 异构数据转换器的结构设计  28-31
  3.2 XML 数据的清理技术  31-32
    3.2.1 数据清理位置的选择  31-32
    3.2.2 数据清理策略的选择  32
  3.3 基于XML 的数据预处理框架设计  32-33
  3.4 本章小结  33-34
第四章 关系数据库向XML 文档转换  34-47
  4.1 获取关系模式  34-35
  4.2 E-R 图的重构  35-37
  4.3 E-R 图模型向XML Schema 转换  37-43
    4.3.1 E-R 图中数据结构向XML 文档结构的转换规则  37-38
    4.3.2 E-R 图中语义约束向XML Schema 的转换规则  38-43
  4.4 关系数据导入XML 文档  43
  4.5 实验设计与性能分析  43-46
    4.5.1 实验设计  43-46
    4.5.2 性能分析  46
  4.6 本章小结  46-47
第五章 XML 数据清理技术  47-57
  5.1 引言  47
  5.2 XML 文档的形式化  47-48
  5.3 XML 孤立点数据检测清理框架  48-54
    5.3.1 聚集结点定义  49
    5.3.2 相关子空间识别  49-51
    5.3.3 XML 孤立点数据兴趣度度量  51-53
    5.3.4 XML 孤立点数据识别  53-54
  5.4 实验仿真及性能分析  54-56
  5.5 本章小结  56-57
第六章 XML 文档向关系数据库转换  57-69
  6.1 XML Schema 形式化描述  57-59
  6.2 XML Schema 向关系模式转换  59-63
    6.2.1 属性转换规则  60
    6.2.2 元素转换规则  60-62
    6.2.3 一致性约束转换规则  62-63
  6.3 标准SQL 语句生成及数据导入  63-64
  6.4 实验设计与性能分析  64-68
    6.4.1 实验设计  64-66
    6.4.2 性能分析  66-68
  6.5 本章小结  68-69
第七章 总结与展望  69-71
  7.1 本文总结  69-70
  7.2 下一步工作  70-71
参考文献  71-74
作者简历 攻读硕士学位期间完成的主要工作  74-75
致谢  75

相似论文

  1. SOA高校迎新系统中的SDO模型的研究与实现,G647
  2. 基于XML的异构数据交换系统的设计与实现,TP311.52
  3. 概率XML文档中Holistic Twig查询处理算法的研究与实现,TP311.13
  4. 保留语义约束的XML与关系数据库双向转换技术研究,TP311.13
  5. 数据空间下的索引策略研究,TP311.13
  6. 汉文古籍标准化元数据转换研究与应用,TP391.1
  7. 基于CAN的汽车制动测试系统的研究与实现,U467.5
  8. 一种信息资源集成平台的研究与实践,TP311.52
  9. 基于异构数据库的高校设备管理系统的设计,TP311.52
  10. 基于Web Services的可配置异构数据整合系统开发,TP311.52
  11. 基于XML的Web文本挖掘及关联算法的研究,TP311.13
  12. 基于XML模式的异构数据集成中间件研究,TP311.52
  13. 三维二阶校正算法及其应用研究,O652
  14. 电力行业办公自动化的研究与实现,TM76
  15. 高校数字化校园基础平台的研究与设计,TP393.18
  16. 基于LS-SVM的入侵检测,TP393.08
  17. 数据资源汇聚的可视化建模技术研究与应用,TP311.52
  18. 基于XML的异构数据源集成与查询技术研究,TP311.52
  19. 异构数据库集成在办公自动化中的应用,TP311.13
  20. 基于Web服务的可视化作战想定生成系统设计与实现,TP391.41
  21. 分布式数据库技术研究与其在战场信息系统集成中的应用,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com