学位论文 > 优秀研究生学位论文题录展示
面向复杂科学文本数据抽取转换及装载技术的研究与应用
作 者: 王永璨
导 师: 鲍玉斌
学 校: 东北大学
专 业: 计算机软件与理论
关键词: 科学文本数据建模 数据抽取 映射转换模型 ETL技术
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 27次
引 用: 0次
阅 读: 论文下载
内容摘要
科学数据是科研工作者从事各种研究的基础,他们在无穷无尽的科学数据中发现新的规律,发现新的知识。而对科学数据的管理则是进行科学研究工作的重要保障,良好的管理可以加速科学研究的进展。然而,关于科学数据的处理浩瀚而繁琐,学术界迫切需要处理科学数据的新方法。关于科学数据的存储是科学数据管理的一个重要方面。在科学数据的最初采集阶段,由于仪器、环境、性能等方面的原因,科学数据都是保存成文本格式,以一种半结构化的方式存储有其特有的方便、快捷等优势。而在科学数据的处理分析阶段,关系数据库技术避免了传统的以文件方式保存科学文本数据所具有的数据意义不明确、管理难度大、查询代价大、开发工具少等明显缺点,为科学数据提供了优秀的应用平台。这样,两个阶段中数据存储形式的差异矛盾就带来了如何将两种形式的数据形式进行有效的映射、转换的问题。首先本文对科学文本数据进行了特征分析,并根据其特点提出一种科学文本数据的模型及其形式化的表达方法,以及在此模型基础下科学文本数据的抽取方法。在这之后,针对文本数据和关系数据的各自特点,建立了连接两种数据格式下数据模型的映射和转换方法。接着,以上述方法为基础,本文设计并实现了基于上述内容的执行系统,该系统的总体结构按照ETL的架构设计,核心组件由抽取器、转换器和加载器组成,该系统同时也具有ETL系统的一些其他特点。最后结合海洋科学数据的特点,建立了针对海洋科学文本数据的抽取方法和映射模型,将复杂科学文本抽取转换装载系统应用到了海洋数据中,并经测试验证了其有效性和正确性。
|
全文目录
摘要 5-6 Abstract 6-11 第1章 引言 11-17 1.1 课题研究的定义和背景 11-12 1.2 ETL技术发展现状 12-13 1.3 面向科学文本数据的ETL研究现状 13-14 1.4 本文的主要内容和组织结构 14-17 第2章 ETL相关技术 17-25 2.1 ETL简介 17-18 2.2 ETL的作用和意义 18-19 2.3 ETL技术的特点 19-20 2.4 ETL的系统结构 20-24 2.4.1 数据抽取 21-22 2.4.2 数据转换 22-23 2.4.3 数据加载 23 2.4.4 元数据管理 23 2.4.5 ETL的处理方式 23-24 2.5 ETL工具的选择 24-25 第3章 STD抽取方法与映射转换模型 25-39 3.1 科学文本数据 25-27 3.1.1 基本介绍 25 3.1.2 科学文本数据的特点 25-27 3.1.3 文本保存科学数据的缺点 27 3.2 科学文本数据的抽取 27-33 3.2.1 STD特征分析 28-32 3.2.2 STD抽取 32-33 3.3 科学文本数据的映射与转换 33-37 3.3.1 数据映射 33-34 3.3.2 文本数据映射模型 34-35 3.3.3 映射转换规则 35-37 3.4 本章小结 37-39 第4章 STD抽取转换装载系统的设计 39-49 4.1 系统总体架构 39-40 4.2 系统规则模型设计 40-43 4.3 系统用例 43-45 4.4 系统详细设计 45-48 4.4.1 系统界面设计 45-46 4.4.2 后台处理流程设计 46-48 4.5 本章小结 48-49 第5章 STD抽取转换装载系统的实现 49-63 5.1 开发所需的相关技术 49-51 5.1.1 XML开发技术 49 5.1.2 数据访问技术 49-50 5.1.3 数据缓存机制 50-51 5.1.4 软件插件技术 51 5.2 系统实现 51-61 5.2.1 界面层实现 51-54 5.2.2 后台逻辑层的实现 54-61 5.2.3 模型层的实现 61 5.3 系统的测试 61-62 5.4 本章小结 62-63 第6章 STD抽取转换装载技术在海洋数据体系中的应用 63-73 6.1 海洋数据体系结构 63-65 6.1.1 海洋数据体系结构简介 63-65 6.1.2 抽取转换装载系统在海洋数据体系的作用和意义 65 6.2 海洋文本数据的抽取 65-68 6.2.1 海洋文本数据 65-66 6.2.2 数据格式文件 66-67 6.2.3 海洋文本数据的抽取 67-68 6.3 海洋数据映射转换模型的建立 68-69 6.3.1 映射模型的建立 68-69 6.3.2 基于映射模型的转换 69 6.4 STD抽取转换装载系统实验 69-72 6.5 系统应用效果评价 72 6.6 本章小结 72-73 第7章 结束语 73-75 7.1 本文工作总结 73 7.2 进一步研究工作 73-75 参考文献 75-79 致谢 79-81 攻硕期间参加的项目 81
|
相似论文
- Deep Web数据清洗方法研究及应用,TP393.09
- Deep Web数据抽取及语义标注研究,TP393.09
- 支持跨域数据汇聚的关系数据访问服务研究,TP311.13
- 基于ETL技术的企业财务数据采集系统的设计与实现,TP311.52
- 船舶板架结构四边形网格自动生成方法及关键算法研究,U661.4
- 基于结果模式的Deep Web数据抽取机制的研究,TP393.09
- Deep Web环境下数据抽取及模式识别的研究,TP393.09
- 标准化报表的数据分析在电信财务收入系统中的应用,TP311.52
- 陕西电信综合数据仓库平台的设计与实现,TP311.13
- TBM系统开发中若干关键技术的研究与应用,TP311.52
- 保险行业中商业智能系统的设计与实现,TP311.52
- Web数据集成中包装器自适应方法研究,TP393.09
- Deep Web数据源发现与采样研究,TP311.13
- RETAIL LINK数据抽取和处理工具的设计与实现,TP311.52
- 基于增量ETL的分布式数据交换平台的研究与实现,TP311.13
- 林业企业黄页Deep Web数据集成研究,F326.2
- 数据稽核管理中心系统及其关键技术研究,TP311.13
- 基于MDA的多维数据抽取过程的研究与实现,TP315
- 造船业数据管理系统的研究与实现,TP311.52
- 异构数据集成技术在教育信息资源整合中的应用研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|