学位论文 > 优秀研究生学位论文题录展示

多源异构增量数据抽取方法研究与设计

作 者: 贾艳凯
导 师: 邢薇; 马立和
学 校: 哈尔滨工程大学
专 业: 软件工程
关键词: 数据仓库 数据抽取 事务日志 全表比对
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 31次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息管理系统的应用,从异构的多源数据中挖掘隐藏信息的难度越来越大。数据挖掘的前提是将数据抽取到指定的数据仓库,ETL(Extract-Transformation-Loading,即数据的抽取-转换-加载)过程完成了这一部分的工作。在ETL过程中,数据抽取是关键的一个阶段,因此,提高数据抽取的效率是建立数据仓库的重要工作。本文研究了多种增量数据抽取捕获机制,分析了每种捕获机制的优点与劣势,提出了异构环境下基于数据库事务日志文件的全表比对方式,简称L-C增量抽取方式。在研究了数据库事务日志的记录过程,分析了事务日志可靠性,并详细研究全表比对与MD5校验码结合的思想之后,构建了L-C增量抽取方式模型。在理论上与其他增量捕获机制进行了时间复杂度比较,在实践中进行了设计、实现与比较分析。分析结果与实践结果都表明,L-C增量抽取方式相对现有的增量抽取机制在效率上更加高效,在性能上也较为稳定。解决了分布式异构环境下数据库间的数据抽取,提高了数据抽取的效率和性能,为数据仓库中数据挖掘提供了更加稳固的基础。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-16
  1.1 课题的研究背景  9-10
  1.2 ETL 过程的研究现状  10-14
    1.2.1 国内外关于 ETL 过程的研究  10-12
    1.2.2 关于 ETL 过程的工具软件  12-14
  1.3 课题的研究意义及目的  14-15
  1.4 论文的组织结构  15-16
第2章 相关概念及核心技术  16-26
  2.1 数据仓库  16-18
    2.1.1 数据仓库的定义  16
    2.1.2 数据仓库的特点  16-17
    2.1.3 数据仓库与数据库的区别和联系  17-18
  2.2 ETL 过程  18-19
  2.3 元数据  19-20
  2.4 CWM 模型  20-21
  2.5 ETL 模型  21-22
    2.5.1 ETL 概念模型  21
    2.5.2 ETL 逻辑模型  21-22
  2.6 分布式增量 ETL 过程  22-24
    2.6.1 数据流分割  22-23
    2.6.2 并行数据转换  23
    2.6.3 管道并行处理  23-24
  2.7 本章小结  24-26
第3章 常见增量抽取方式存在的问题  26-33
  3.1 常见增量抽取方式分析  26-29
    3.1.1 触发器方式  26-27
    3.1.2 时间戳方式  27
    3.1.3 全表删除插入方式  27
    3.1.4 全表比对方式  27-28
    3.1.5 日志表方式  28
    3.1.6 事务日志分析方式  28
    3.1.7 特定的数据库捕获方式  28-29
  3.2 常用抽取机制的优缺点分析  29-31
  3.3 提出 L-C 增量抽取方式  31-32
  3.4 本章小结  32-33
第4章 L-C 增量抽取方式模型的建立  33-50
  4.1 L-C 增量抽取方式模型的核心思想  33
  4.2 数据库事务日志研究  33-43
    4.2.1 读取数据库系统日志  34-38
    4.2.2 解析数据库事务日志  38-40
    4.2.3 分析数据库事务日志可靠性  40-42
    4.2.4 读取日志抽取变化数据  42-43
  4.3 全表比对方式详述  43-44
  4.4 L-C 增量抽取方式模型建立  44-46
  4.5 L-C 模型阶段分析和对比分析  46-49
    4.5.1 对 L-C 模型各阶段的分析  46-47
    4.5.2 L-C 模型和其它抽取方式的对比分析  47-49
  4.6 本章小结  49-50
第5章 L-C 增量抽取方式模型应用验证  50-59
  5.1 系统对增量抽取的需求  50-52
  5.2 设计实现 L-C 增量抽取方式  52-54
  5.3 应用验证 L-C 增量抽取方式  54-58
  5.4 本章小结  58-59
结论  59-61
参考文献  61-64
致谢  64

相似论文

  1. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  2. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  3. 家校互动教育平台中数据仓库的研究与应用,TP311.13
  4. 高校毕业生就业状况监测系统研究,G647.38
  5. 面向烟草制造行业的商务智能系统设计,TP311.13
  6. 政府产业经济决策支持系统研究,TP311.13
  7. 基于数据仓库的网络教研OLAP分析系统的设计与实现,TP311.13
  8. 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
  9. 特定领域的Deep Web数据抽取与语义标注研究,TP311.13
  10. 社会保障体系中医疗保险的数据挖掘与联机分析研究,TP311.13
  11. 政府采购资金使用数据挖掘研究,TP311.13
  12. 面向复杂科学文本数据抽取转换及装载技术的研究与应用,TP391.1
  13. 数据集成技术在银行综合账单系统中的应用研究,TP311.13
  14. 基于数据挖掘的融资信息管理及辅助决策平台的设计,TP311.52
  15. 基于ODS数据仓库的商业银行产品管理系统的设计与实现,TP311.52
  16. 增值业务综合运营平台营销服务支撑系统的设计与实现,TP311.52
  17. Web数据抽取技术及应用,TP311.13
  18. 五龙矿监测历史数据挖掘研究,TD76
  19. 达梦数据交换平台(DMETL)执行过程改进,TP311.13
  20. 民航空管局生产信息统计系统的设计与实现,TP311.52
  21. 数据仓库元数据集成系统的设计与实现,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com