学位论文 > 优秀研究生学位论文题录展示
基于XML的半结构化数据存储技术研究
作 者: 王燕丽
导 师: 孙忠林
学 校: 山东科技大学
专 业: 计算机应用技术
关键词: OEM模型图 XML技术 关系数据库 映射 半结构化数据
分类号: TP311.13
类 型: 硕士论文
年 份: 2008年
下 载: 44次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网的迅速发展,使得网上数据不断激增。这些数据缺乏统一的、固定的模式,而且往往是不规则、经常变化的。因此,半结构化数据模型应运而生,它是介于完全结构化数据和无结构化数据之间的一种数据类型。要想对这种半结构化数据进行有效的管理是十分困难的。如何对半结构化数据进行有效的管理成为研究的热点。XML技术的出现,推动了半结构化数据的发展。XML数据是一种自描述的半结构化数据,利用XML文档来管理半结构化数据是一种有效的途径。由于关系数据库在各方面都相对成熟和稳定,因而采用关系数据库对XML数据进行存储和操作,将半结构化转化为结构化的数据,具有重大的理论意义和实用价值。论文的研究从分析半结构化数据和XML相关技术出发,旨在设计一种实现半结构化数据到XML数据的映射算法和一种半结构化数据的存储结构实现XML数据到关系数据库的映射。论文深入探讨了半结构化数据的定义及特点,分析半结构化数据的模式描述形式以及半结构化数据的模式抽取技术,详细介绍了XML和数据库的转换技术。目前最具有代表性的半结构化数据的模式描述形式是OEM模型,它是一种带有嵌套和标记的自描述性有向图。论文采用邻接表表示法实现图的存储,并给出各对象相应的存储结构定义。通过对OEM模型图的遍历,把OEM模型所对应的图结构,转换为相应的XML文档,生成XML数据,实现半结构化数据向XML文档的映射。基于有向图的深度优先遍历思想,给出一个转换算法实现了XML数据的生成。转换得到的XML数据是一种无模式的数据文档,而且XML文档中不存在属性的成分,只有元素成分的存在。基于所生成的XML文档,通过分析XML文档和数据库技术的相互映射方法,采用一种基于前缀编码的模型映射方法,实现XML数掘和数据库的映射。论文最后给出了一个简单的半结构化电子病历数据,实现了半结构化数据向关系数据库的映射转换,并给出了几个典型的XML查询实例。真正的通过XML技术和现有关系数据库技术相联系,实现“以关系数据库为存储手段,以XML技术为交换载体”的数据管理模式。
|
全文目录
摘要 5-6 ABSTRACT 6-10 1 绪论 10-14 1.1 问题的提出 10-11 1.2 研究现状 11-13 1.3 论文主要内容和结构 13-14 2 半结构化数据与XML技术 14-28 2.1 半结构化数据定义及特点 14-15 2.2 半结构化数据模式描述及模式抽取 15-17 2.3 XML相关技术 17-23 2.4 XML和数据库 23-27 2.5 本章小结 27-28 3 半结构化数据的存储技术 28-41 3.1 OEM模型的表示方法 28-30 3.2 OEM模型到XML数据的映射 30-33 3.3 XML数据到关系数据库的映射 33-40 3.4 本章小结 40-41 4 半结构化数据的存储技术实现 41-51 4.1 电子病历的OEM模型图 41-44 4.2 电子病历的DOM树结构 44-46 4.3 关系数据库存储模式的实现 46-50 4.4 本章小结 50-51 5 总结与展望 51-53 5.1 总结 51-52 5.2 展望 52-53 致谢 53-54 攻读硕士学位期间主要成果 54-55 参考文献 55-57
|
相似论文
- 基于非规则LDPC码的BICM系统优化设计,TN911.2
- 海量多数据库集成系统的查询处理研究,TP311.13
- AUTOSAR系统建模方法的研究与实现,TP311.52
- 基于距离映射码的安全指纹认证研究,TP391.4
- UML模型到XMI的映射方法研究,TP311.5
- WordNet和《中国分类主题词表》的映射研究,G254
- 基于粒子系统的火焰和烟花实时模拟技术研究,TP391.9
- 关系数据库到RDF(S)映射方法的研究,TP311.13
- 保留语义约束的XML与关系数据库双向转换技术研究,TP311.13
- 基于观察者模式的银行主动服务系统的设计与实现,TP311.52
- 关于变分不等式问题的强收敛定理及其相关研究,O178
- 基于一种新经济模型的异构网络选择算法,TN929.5
- OFDM系统中选择性映射降低峰均比的研究,TN919.3
- 一种提高固态硬盘随机写性能的cache策略,TP333
- 多视点视频中视点绘制技术研究,TP391.41
- 彩色图像人脸检测及人脸特征点定位,TP391.41
- 基于Web服务的Legacy System集成方法研究,TP393.09
- LTE上行单载波频分多址技术仿真与研究,TN929.5
- 基于身份的加密和签名研究,TN918.1
- 基于混沌和分形的两类图像处理算法,TP391.41
- 比特交织编码调制及迭代系统映射设计和性能分析,TN911.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|