学位论文 > 优秀研究生学位论文题录展示
基于WEB元数据抽取的ETL资源整合模型研究与实现
作 者: 胡开胜
导 师: 杨家红
学 校: 湖南师范大学
专 业: 电路与系统
关键词: 数字图书馆 资源整合 ETL 元数据
分类号: G250.73
类 型: 硕士论文
年 份: 2010年
下 载: 142次
引 用: 0次
阅 读: 论文下载
内容摘要
数字资源整合是目前图书馆界数字化建设的一个重要方面。随着数字资源的不断增长,图书馆对资源管理的难度和工作量也在加大,用户在浩如烟海的数字资源面前也感觉到使用的不便。用户希望能够通过统一的检索界面,方便快捷地利用到图书馆所有分布式资源,包括电子图书、电子期刊等学术资源,以及文摘题录、专利成果和其他网上教学资源、会议录等形式各异的数字资源,希望图书馆提供一站式的信息服务。这就是资源整合要解决的问题。本文在依托湖南师范大学“数字图书馆”建设项目的基础之上,对ETL数据抽取模型进行深入研究后,给出了基于WEB元数据抽取的数字资源整合系统的实现模型。论文主要围绕数字图书馆元数据整合解决方案,首先简单回顾了国内外资源整合的现状;接着对资源整合的内容、模式等进行了理论分析,重点探讨了基于元数据仓库的资源整合模式;然后借助于ETL抽取模型,详细介绍了WEB元数据抽取的相关技术,包括HTML、XHTML、XML、DOM、JAXP等;接着分析了WEB信息抽取的流程,分为样本页面提取与规则库的生成、HTML页面清洗、噪音处理、DOM树解析、XML到数据库的转换存储等过程;最后结合这些相关技术和JDK、Eclipse、SQL Server、Tomcat等开发平台实现了能完成WEB元数据抽取的包装器,解决了实现基于元数据的资源整合。通过该资源整合平台,能有效地促进数字资源的有序化,实现不同类型资源的统一访问,从而保持知识体系的整体性和关联性,提高数字资源的利用率及读者的检索效率。本文的研究工作,对数字图书馆资源整合的建设和发展有一定的启示作用,希望能对国内相关机构提供一定的借鉴和参考作用。
|
全文目录
摘要 3-5 ABSTRACT 5-10 第一章 绪论 10-14 1.1 研究背景及意义 10-11 1.2 国内外研究现状 11-12 1.3 主要研究内容 12-13 1.4 论文的组织结构 13-14 第二章 数字资源整合概述 14-27 2.1 数字资源整合的概念 14-15 2.2 数字资源整合的内容 15-18 2.2.1 按资源来源划分 15-17 2.2.2 按文献类型划分 17-18 2.3 数字资源整合的必要性分析 18-19 2.4 数字资源整合的作用 19-20 2.5 数字资源整合的原则 20-21 2.6 数字资源整合的模式 21-27 2.6.1 基于导航系统的资源整合 22-23 2.6.2 基于OPAC系统的资源整合 23-24 2.6.3 基于跨库检索的资源整合 24-25 2.6.4 基于中间件的资源整合 25 2.6.5 基于元数据仓库的资源整合 25-27 第三章 基于元数据仓库的资源整合模型研究 27-44 3.1 基于元数据仓库的资源整合解决方案 27-29 3.2 ETL整合模型 29-37 3.2.1 ETL概念 29-31 3.2.2 ETL数据抽取机制 31-34 3.2.3 ETL体系结构 34-35 3.2.4 ETL工具 35-37 3.3 数据库设计 37-44 3.3.1 数据库需求分析 37-38 3.3.2 数据库结构设计 38-40 3.3.3 数据采集模式分析 40-44 第四章 WEB元数据抽取模式实现 44-67 4.1 Web信息抽取概述 44-47 4.1.1 Web信息抽取的相关概念 44-45 4.1.2 Web信息抽取方式的分类 45-47 4.2 WEB信息抽取的相关技术 47-55 4.2.1 HTML 47-48 4.2.2 XML 48-51 4.2.3 XHTML 51-53 4.2.4 DOM 53-55 4.3 WEB信息抽取的实现 55-67 4.3.1 WEB信息抽取包装器的构造 56 4.3.2 WEB抽取的基本流程 56-58 4.3.3 通过样本页面,生成规则库 58 4.3.4 获取整个网页的内容 58 4.3.5 页面清洗与转换工作 58-60 4.3.6 DOM树解析 60-63 4.3.7 XML到数据库的转换 63-67 第五章 系统设计与运行实例 67-74 5.1 总体设计 67 5.2 开发工具 67-68 5.3 包装器界面 68-71 5.3.1 包装器运行界面 68-69 5.3.2 数据结果 69-71 5.4 集成检索界面与结果 71-74 第六章 总结与展望 74-75 参考文献 75-79 附录 79-80 致谢 80-81
|
相似论文
- 一爆炸事故引发的应急资源整合问题的思考(案例分析型),X928.7
- 基于元数据的农田信息存储、管理和共享研究,S126
- 公安110指挥决策业务系统,TP311.13
- 分面元数据在网站检索系统中的应用研究,G354.2
- 面向高校重点课程的教参资源库建设的应用研究,G642.3
- 高技能人才培养资源整合模式研究,G718.5
- C/S模式MIS软件可复用构件的研究与开发,TP311.52
- 数字图书馆信息服务视域下的著作权问题研究,D923.41
- 基于云计算的数字图书馆服务模式研究,G250.76
- 矿区多源遥感影像集成管理系统的设计与实现,P208
- 家校互动教育平台中数据仓库的研究与应用,TP311.13
- 区域教学资源整合与共享的建设方案研究,G434
- 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- PG炼钢厂MES系统数据挖掘的设计与开发,TP311.13
- DWMS中元数据以及缓冲区的设计和实现,TP311.13
- 基于PCIE接口混合存储系统的设计与实现,TP333
- 网络环境下的分布式存储系统的设计与实现,TP333
- 存储系统中多维元数据索引的高效更新方法研究,TP333
- 汉文古籍标准化元数据转换研究与应用,TP391.1
- 在线体育视频剪辑系统中元数据的应用研究,TP391.41
中图分类: > 文化、科学、教育、体育 > 信息与知识传播 > 图书馆学、图书馆事业 > 图书馆学 > 图书馆自动化、网络化 > 网络资源开发与利用
© 2012 www.xueweilunwen.com
|