学位论文 > 优秀研究生学位论文题录展示
海量数据清洗技术及OLAP技术在税务系统中的应用研究
作 者: 程啸
导 师: 马传香
学 校: 湖北大学
专 业: 系统分析与集成
关键词: 数据清洗 多维 清洗规则 OLAP SQL Sever分析服务
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 23次
引 用: 0次
阅 读: 论文下载
内容摘要
随着现代化科学技术的发展,信息系统在越来越多的大中型企业、政府中得到了更加广泛的应用,由此也积累了大量的历史数据。随着业务数据的增长,业务的复杂程度提升,数据质量问题也日益凸显。当人们意识到数据质量问题需要解决的重要性时,研究人员便制定出了一系列对数据质量问题进行检测和清洗的框架及思想。许多数据库厂商基于这些框架及思想开发出了各自的数据清洗工具。随着清洗工具和清洗理论的实施与应用,对于数据质量的提升起到了很好的作用,由此便体现出了数据清洗的重要性。贵州省局数据集中项目在集中前需要对九个市(州、地)和一个省直属局的数据进行清洗,已经集中到省局数据后也需要做相关的清洗工作。贵州地税多维分析模块作为省局项目集中的四大模块之一,其主要功能是为贵州地税工作人员提供宏观上的税收数据,以便为其决策分析提供数据基础。本文介绍了贵州地税多维数据税收分析决策子系统的的功能及其特色,并呈现了前期项目开发过程中的方案选型。作为该子系统的主要环节之一,多维数据的组织显得尤为重要。在本文的第四章,详细的介绍了怎么样创建多维数据集以及根据贵州地税多维数据特点对多维数据集制定工作流程。在组织多维数据的过程中,考虑到贵州地税税收数据存在的数据质量问题,需要对清洗和加工的集中到省局的数据进行进一步清洗。多维数据集由其维度和事实表构成,这不仅涉及到几张大的申报表,还涉及到了众多的代码表。因此需要依次制定规则对其进行清洗。以创建系统所需的多维数据集。同时,在数据清洗过程中,针对遇到的各种技术难点问题,如:如何对制定的清洗规则正确使用、如何合理多维数据集的维度进行分级。提出了解决方案。
|
全文目录
摘要 5-6 Abstract 6-9 第一章 绪论 9-11 1.1 选题的背景和研究意义 9 1.2 本文主要研究内容 9-10 1.3 本文组织结构 10-11 第二章 海量数据处理技术 11-15 2.1 海量数据处理技术 11-12 2.2 ETL简介 12-13 2.3 数据仓库 13-15 2.3.1 数据仓库概念 13-14 2.3.2 数据仓库模型的三种形式 14-15 第三章 贵州地税多维数据税收分析决策子系统介绍 15-27 3.1 多维概述 15-16 3.1.1 开发前提 15 3.1.2 多维概述 15-16 3.2 开发方案选型 16-18 3.2.1 方案分析 16-17 3.2.2 方案选择及系统架构 17-18 3.3 系统总体功能介绍 18-19 3.4 税收收入多维分析 19-26 3.4.1 页面简介 19 3.4.2 显示查询条件 19-20 3.4.3 查询条件功能详解 20-26 3.5 系统开发用途 26-27 第四章 贵州地税数据清洗与多维数据集的应用部署 27-61 4.1 数据质量分析 27-28 4.1.1 数据质量现状分析 27 4.1.2 方案选型 27-28 4.2 原始数据加工 28-30 4.2.1 概述 28-29 4.2.2 基于流复制目标库创建物化视图清洗方案 29-30 4.3 代码表的数据清洗 30-32 4.3.1 多维数据维度的层级关系 30-31 4.3.2 代码表的清洗 31-32 4.4 创建多维数据集 32-43 4.4.1 概述 32-33 4.4.2 创建多维数据集 33-43 4.5 使用增量方式创建多维数据集的SSIS包 43-56 4.5.1 创建Integration Services项目 44 4.5.2 创建处理维度的Analysis Services任务 44-49 4.5.3 创建处理立方的Analysis Services任务 49-53 4.5.4 创建清空增量表的SQL任务 53-54 4.5.5 部署包 54-56 4.6 制定作业 56-60 4.7 应用分析介绍 60-61 第五章 结论与展望 61-62 参考文献 62-64 致谢 64
|
相似论文
- 基于多项式参数依赖Lyapunov函数的鲁棒滤波器设计,TP13
- 一元主导下的多维和谐,D61
- 论环境艺术系统中的城市家具设计,TS664.01
- 多维电荷传输基团修饰铱配合物的设计、合成及光电特性,O627.8
- 多维教学法在高中英语口语教学中的应用,G633.41
- 从二维到多维的影视字幕视觉传达设计,J524
- 家校互动教育平台中数据仓库的研究与应用,TP311.13
- 政府产业经济决策支持系统研究,TP311.13
- 基于数据仓库的网络教研OLAP分析系统的设计与实现,TP311.13
- 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
- 社会保障体系中医疗保险的数据挖掘与联机分析研究,TP311.13
- 多维多自由度动力减振技术研究,O328
- 现代汉语类词缀考察,H195
- 基于数据仓库的器材保障综合管理系统的研究与设计,TP311.13
- 基于战略视角的企业成本预算管理研究,F275.3
- 认知无线电网络中协同频谱感知技术的研究,TN925
- 基于Mondrian平台的多维关联规则算法的研究和应用,TP311.13
- 渤海海洋防灾减灾数据仓库的构建与快速访问技术研究,TP311.13
- 大跨度弦支穹顶结构的静力及动力稳定性分析,TU399
- 基于数据仓库与数据挖掘技术的计算机审计模型及其应用研究,TP311.13
- 基于SaaS的高校就业综合管理平台设计与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|