学位论文 > 优秀研究生学位论文题录展示
基于Web Service信息集成系统的数据清洗研究
作 者: 王宁
导 师: 徐学洲
学 校: 西安电子科技大学
专 业: 计算机软件与理论
关键词: 信息集成 网络服务 数据质量 数据清洗 规则库
分类号: TP311.13
类 型: 硕士论文
年 份: 2007年
下 载: 221次
引 用: 2次
阅 读: 论文下载
内容摘要
随着计算机网络和数据库技术的飞速发展以及人们获取数据手段的多样化,人们所拥有的数据资源日益丰富,数据量急剧增加。数据的价值在于它的质量,基于劣质数据的决策是不可信的。数据使用者的运用质量与数据质量直接相关。但是面对数量巨大而零乱的数据人工处理是非常困难的,数据质量问题成为制约数据应用的“瓶颈”之一。纠正数据错误是避免错误决策、降低决策风险的重要环节,数据清洗就是用来完成这项艰巨任务的。本文介绍了数据质量的概念,对数据质量问题按其类型进行分类,并介绍了解决不同数据质量问题的一些数据清洗工具。详细阐述了针对基于Web Service信息集成系统中面临的数据质量问题而设计实现的数据清洗的体系结构、流程和各个模块的功能。本文设计的数据清洗框架主要实现了以下功能:(1)设计并实现了数据预处理模块,使系统将比较复杂的多数据源实例化问题转化为相对比较简单的单数据源实例化问题; (2)设计并实现了包括数据选取模块、数据标准化模块、重复性判断模块和映射模块,可以较好地完成数据清洗任务;(3)设计并实现了系统维护和扩展接口,极大地方便了对本数据清洗系统的升级与维护操作;(4)提供了数据字典及规则库功能,使该数据清洗系统的应用灵活性得到了极大提高。
|
全文目录
摘 要 4-5 Abstract 5-8 第一章 绪论 8-12 1.1 研究背景 8-9 1.2 数据清洗技术研究现状 9-11 1.2.1 国外研究现状 9-10 1.2.2 国内研究现状 10-11 1.3 本文的研究内容与章节安排 11-12 第二章 数据清洗技术 12-24 2.1 数据质量 12-13 2.2 数据质量问题 13-15 2.3 数据清洗定义 15-16 2.4 数据清洗的原理与基本流程 16-19 2.5 数据清洗评估 19-21 2.6 现有的数据清洗工具及主要不足 21-24 第三章 WS-IIS中的数据质量问题 24-30 3.1 信息集成简介 24-26 3.2 WS-IIS系统总体设计 26-27 3.3 WS-IIS系统中的数据质量问题 27-29 3.4 数据清洗在WS-IIS系统中的主要作用 29-30 第四章 WS-IIS中数据清洗的设计 30-48 4.1 问题分析 30-31 4.2 数据清洗框架设计 31-33 4.3 数据预处理 33-35 4.4 数据清洗引擎 35-41 4.4.1 数据选取模块 35 4.4.2 数据标准化模块 35-36 4.4.3 重复性判断模块 36-40 4.4.4 数据映射模块 40-41 4.5 系统维护及扩展接口 41-46 4.5.1 规则库 41-44 4.5.2 字典 44-45 4.5.3 函数库 45-46 4.6 清洗的操作流程 46-48 第五章 实验 48-54 5.1 实验环境 48 5.2 实验内容 48-52 5.3 实验结果分析 52-54 第六章 总结与展望 54-56 6.1 总结 54 6.2 展望 54-56 致谢 56-58 参考文献 58-62 作者在读期间的研究成果 62
|
相似论文
- 海量多数据库集成系统的Mediator和Wrapper机制的设计与实现,TP311.13
- 医疗信息集成平台中HL7消息解析和存储的设计与实现,TP311.52
- 医疗信息集成平台中DICOM中间件及访问控制模型的设计与实现,TP311.13
- A公司信息化管理优化研究,TP315
- IP网络QoS技术研究,TP393.09
- 兖州矿区典型地物波谱数据库建设与应用研究,P208
- 移动通信企业数据整合与数据质量控制研究,TP274
- 人行兰州中支门户系统建设研究与实现,TP311.52
- 基于模糊综合评价的靶场实时光测数据质量评估,TJ06
- 特定领域的Deep Web数据抽取与语义标注研究,TP311.13
- 基于GIS的农业地质调查数据库管理系统的设计与研究,TP311.52
- 基于ARIS的业务流程设计与实施,TP311.52
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- 高校信息集成平台的设计与实现,TP311.52
- 具有主客观信息集成特征的经济预测方法及其应用,F224
- 基于服务总线的模具企业信息集成系统,TP311.52
- 盾构掘进过程中的异常工况识别与智能决策,U455.43
- 基于数字海图的海上生产指挥系统的研究与实现,TE952
- RFID数据清洗处理策略与算法,TP391.44
- 计算机网络自诊断系统的研究及实现,TP393.06
- 新疆电信EAI系统的设计与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|