学位论文 > 优秀研究生学位论文题录展示
多源异构增量数据抽取方法研究与设计
作 者: 贾艳凯
导 师: 邢薇; 马立和
学 校: 哈尔滨工程大学
专 业: 软件工程
关键词: 数据仓库 数据抽取 事务日志 全表比对
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 31次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息管理系统的应用,从异构的多源数据中挖掘隐藏信息的难度越来越大。数据挖掘的前提是将数据抽取到指定的数据仓库,ETL(Extract-Transformation-Loading,即数据的抽取-转换-加载)过程完成了这一部分的工作。在ETL过程中,数据抽取是关键的一个阶段,因此,提高数据抽取的效率是建立数据仓库的重要工作。本文研究了多种增量数据抽取捕获机制,分析了每种捕获机制的优点与劣势,提出了异构环境下基于数据库事务日志文件的全表比对方式,简称L-C增量抽取方式。在研究了数据库事务日志的记录过程,分析了事务日志可靠性,并详细研究全表比对与MD5校验码结合的思想之后,构建了L-C增量抽取方式模型。在理论上与其他增量捕获机制进行了时间复杂度比较,在实践中进行了设计、实现与比较分析。分析结果与实践结果都表明,L-C增量抽取方式相对现有的增量抽取机制在效率上更加高效,在性能上也较为稳定。解决了分布式异构环境下数据库间的数据抽取,提高了数据抽取的效率和性能,为数据仓库中数据挖掘提供了更加稳固的基础。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-16 1.1 课题的研究背景 9-10 1.2 ETL 过程的研究现状 10-14 1.2.1 国内外关于 ETL 过程的研究 10-12 1.2.2 关于 ETL 过程的工具软件 12-14 1.3 课题的研究意义及目的 14-15 1.4 论文的组织结构 15-16 第2章 相关概念及核心技术 16-26 2.1 数据仓库 16-18 2.1.1 数据仓库的定义 16 2.1.2 数据仓库的特点 16-17 2.1.3 数据仓库与数据库的区别和联系 17-18 2.2 ETL 过程 18-19 2.3 元数据 19-20 2.4 CWM 模型 20-21 2.5 ETL 模型 21-22 2.5.1 ETL 概念模型 21 2.5.2 ETL 逻辑模型 21-22 2.6 分布式增量 ETL 过程 22-24 2.6.1 数据流分割 22-23 2.6.2 并行数据转换 23 2.6.3 管道并行处理 23-24 2.7 本章小结 24-26 第3章 常见增量抽取方式存在的问题 26-33 3.1 常见增量抽取方式分析 26-29 3.1.1 触发器方式 26-27 3.1.2 时间戳方式 27 3.1.3 全表删除插入方式 27 3.1.4 全表比对方式 27-28 3.1.5 日志表方式 28 3.1.6 事务日志分析方式 28 3.1.7 特定的数据库捕获方式 28-29 3.2 常用抽取机制的优缺点分析 29-31 3.3 提出 L-C 增量抽取方式 31-32 3.4 本章小结 32-33 第4章 L-C 增量抽取方式模型的建立 33-50 4.1 L-C 增量抽取方式模型的核心思想 33 4.2 数据库事务日志研究 33-43 4.2.1 读取数据库系统日志 34-38 4.2.2 解析数据库事务日志 38-40 4.2.3 分析数据库事务日志可靠性 40-42 4.2.4 读取日志抽取变化数据 42-43 4.3 全表比对方式详述 43-44 4.4 L-C 增量抽取方式模型建立 44-46 4.5 L-C 模型阶段分析和对比分析 46-49 4.5.1 对 L-C 模型各阶段的分析 46-47 4.5.2 L-C 模型和其它抽取方式的对比分析 47-49 4.6 本章小结 49-50 第5章 L-C 增量抽取方式模型应用验证 50-59 5.1 系统对增量抽取的需求 50-52 5.2 设计实现 L-C 增量抽取方式 52-54 5.3 应用验证 L-C 增量抽取方式 54-58 5.4 本章小结 58-59 结论 59-61 参考文献 61-64 致谢 64
|
相似论文
- 数据仓库技术在银行客户管理系统中的研究和实现,TP315
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 家校互动教育平台中数据仓库的研究与应用,TP311.13
- 高校毕业生就业状况监测系统研究,G647.38
- 面向烟草制造行业的商务智能系统设计,TP311.13
- 政府产业经济决策支持系统研究,TP311.13
- 基于数据仓库的网络教研OLAP分析系统的设计与实现,TP311.13
- 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
- 特定领域的Deep Web数据抽取与语义标注研究,TP311.13
- 社会保障体系中医疗保险的数据挖掘与联机分析研究,TP311.13
- 政府采购资金使用数据挖掘研究,TP311.13
- 面向复杂科学文本数据抽取转换及装载技术的研究与应用,TP391.1
- 数据集成技术在银行综合账单系统中的应用研究,TP311.13
- 基于数据挖掘的融资信息管理及辅助决策平台的设计,TP311.52
- 基于ODS数据仓库的商业银行产品管理系统的设计与实现,TP311.52
- 增值业务综合运营平台营销服务支撑系统的设计与实现,TP311.52
- Web数据抽取技术及应用,TP311.13
- 五龙矿监测历史数据挖掘研究,TD76
- 达梦数据交换平台(DMETL)执行过程改进,TP311.13
- 民航空管局生产信息统计系统的设计与实现,TP311.52
- 数据仓库元数据集成系统的设计与实现,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|