学位论文 > 优秀研究生学位论文题录展示

基于WEB元数据抽取的ETL资源整合模型研究与实现

作 者: 胡开胜
导 师: 杨家红
学 校: 湖南师范大学
专 业: 电路与系统
关键词: 数字图书馆 资源整合 ETL 元数据
分类号: G250.73
类 型: 硕士论文
年 份: 2010年
下 载: 142次
引 用: 0次
阅 读: 论文下载
 

内容摘要


数字资源整合是目前图书馆界数字化建设的一个重要方面。随着数字资源的不断增长,图书馆对资源管理的难度和工作量也在加大,用户在浩如烟海的数字资源面前也感觉到使用的不便。用户希望能够通过统一的检索界面,方便快捷地利用到图书馆所有分布式资源,包括电子图书、电子期刊等学术资源,以及文摘题录、专利成果和其他网上教学资源、会议录等形式各异的数字资源,希望图书馆提供一站式的信息服务。这就是资源整合要解决的问题。本文在依托湖南师范大学“数字图书馆”建设项目的基础之上,对ETL数据抽取模型进行深入研究后,给出了基于WEB元数据抽取的数字资源整合系统的实现模型。论文主要围绕数字图书馆元数据整合解决方案,首先简单回顾了国内外资源整合的现状;接着对资源整合的内容、模式等进行了理论分析,重点探讨了基于元数据仓库的资源整合模式;然后借助于ETL抽取模型,详细介绍了WEB元数据抽取的相关技术,包括HTML、XHTML、XML、DOM、JAXP等;接着分析了WEB信息抽取的流程,分为样本页面提取与规则库的生成、HTML页面清洗、噪音处理、DOM树解析、XML到数据库的转换存储等过程;最后结合这些相关技术和JDK、Eclipse、SQL Server、Tomcat等开发平台实现了能完成WEB元数据抽取的包装器,解决了实现基于元数据的资源整合。通过该资源整合平台,能有效地促进数字资源的有序化,实现不同类型资源的统一访问,从而保持知识体系的整体性和关联性,提高数字资源的利用率及读者的检索效率。本文的研究工作,对数字图书馆资源整合的建设和发展有一定的启示作用,希望能对国内相关机构提供一定的借鉴和参考作用。

全文目录


摘要  3-5
ABSTRACT  5-10
第一章 绪论  10-14
  1.1 研究背景及意义  10-11
  1.2 国内外研究现状  11-12
  1.3 主要研究内容  12-13
  1.4 论文的组织结构  13-14
第二章 数字资源整合概述  14-27
  2.1 数字资源整合的概念  14-15
  2.2 数字资源整合的内容  15-18
    2.2.1 按资源来源划分  15-17
    2.2.2 按文献类型划分  17-18
  2.3 数字资源整合的必要性分析  18-19
  2.4 数字资源整合的作用  19-20
  2.5 数字资源整合的原则  20-21
  2.6 数字资源整合的模式  21-27
    2.6.1 基于导航系统的资源整合  22-23
    2.6.2 基于OPAC系统的资源整合  23-24
    2.6.3 基于跨库检索的资源整合  24-25
    2.6.4 基于中间件的资源整合  25
    2.6.5 基于元数据仓库的资源整合  25-27
第三章 基于元数据仓库的资源整合模型研究  27-44
  3.1 基于元数据仓库的资源整合解决方案  27-29
  3.2 ETL整合模型  29-37
    3.2.1 ETL概念  29-31
    3.2.2 ETL数据抽取机制  31-34
    3.2.3 ETL体系结构  34-35
    3.2.4 ETL工具  35-37
  3.3 数据库设计  37-44
    3.3.1 数据库需求分析  37-38
    3.3.2 数据库结构设计  38-40
    3.3.3 数据采集模式分析  40-44
第四章 WEB元数据抽取模式实现  44-67
  4.1 Web信息抽取概述  44-47
    4.1.1 Web信息抽取的相关概念  44-45
    4.1.2 Web信息抽取方式的分类  45-47
  4.2 WEB信息抽取的相关技术  47-55
    4.2.1 HTML  47-48
    4.2.2 XML  48-51
    4.2.3 XHTML  51-53
    4.2.4 DOM  53-55
  4.3 WEB信息抽取的实现  55-67
    4.3.1 WEB信息抽取包装器的构造  56
    4.3.2 WEB抽取的基本流程  56-58
    4.3.3 通过样本页面,生成规则库  58
    4.3.4 获取整个网页的内容  58
    4.3.5 页面清洗与转换工作  58-60
    4.3.6 DOM树解析  60-63
    4.3.7 XML到数据库的转换  63-67
第五章 系统设计与运行实例  67-74
  5.1 总体设计  67
  5.2 开发工具  67-68
  5.3 包装器界面  68-71
    5.3.1 包装器运行界面  68-69
    5.3.2 数据结果  69-71
  5.4 集成检索界面与结果  71-74
第六章 总结与展望  74-75
参考文献  75-79
附录  79-80
致谢  80-81

相似论文

  1. 一爆炸事故引发的应急资源整合问题的思考(案例分析型),X928.7
  2. 基于元数据的农田信息存储、管理和共享研究,S126
  3. 公安110指挥决策业务系统,TP311.13
  4. 分面元数据在网站检索系统中的应用研究,G354.2
  5. 面向高校重点课程的教参资源库建设的应用研究,G642.3
  6. 高技能人才培养资源整合模式研究,G718.5
  7. C/S模式MIS软件可复用构件的研究与开发,TP311.52
  8. 数字图书馆信息服务视域下的著作权问题研究,D923.41
  9. 基于云计算的数字图书馆服务模式研究,G250.76
  10. 矿区多源遥感影像集成管理系统的设计与实现,P208
  11. 家校互动教育平台中数据仓库的研究与应用,TP311.13
  12. 区域教学资源整合与共享的建设方案研究,G434
  13. 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
  14. 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
  15. PG炼钢厂MES系统数据挖掘的设计与开发,TP311.13
  16. DWMS中元数据以及缓冲区的设计和实现,TP311.13
  17. 基于PCIE接口混合存储系统的设计与实现,TP333
  18. 网络环境下的分布式存储系统的设计与实现,TP333
  19. 存储系统中多维元数据索引的高效更新方法研究,TP333
  20. 汉文古籍标准化元数据转换研究与应用,TP391.1
  21. 在线体育视频剪辑系统中元数据的应用研究,TP391.41

中图分类: > 文化、科学、教育、体育 > 信息与知识传播 > 图书馆学、图书馆事业 > 图书馆学 > 图书馆自动化、网络化 > 网络资源开发与利用
© 2012 www.xueweilunwen.com