学位论文 > 优秀研究生学位论文题录展示

汉文古籍标准化元数据转换研究与应用

作 者: 饶俊学
导 师: 吴砥
学 校: 华中科技大学
专 业: 通信与信息系统
关键词: 古籍数字化 古籍元数据 元数据转换 中文机读目录格式
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 4次
引 用: 0次
阅 读: 论文下载
 

内容摘要


传统的古籍普查方式耗费大量的人力物力,主要采取中国机读目录格式CNMARC(China Machine-Readable Catalogue)、古籍普查表、国家珍贵古籍名录申报书和Access数据库等传统载体进行记录。由于各地图书馆的条件差异和数据标准不一,即便是同样内容的数据,存储格式也不尽相同。加之这些传统载体本身的粗粒度,不同格式文件的交流困难,造成古籍数据的传播、查看、统计和检索十分不便。本文主要研究了汉文古籍标准化元数据转换问题,进行问题分析,设计和实现了标准化元数据转换的软件工具,并对软件工具进行详细测试,并对汉文古籍数字化工作的发展前景进行展望。本文通过古籍数字化服务平台,应用Web技术,实现了在线汉文古籍标准化元数据转换。通过古籍元数据建模,采用面向对象的设计思想,利用关系数据库进行存储数据,把古籍数据设计成为了细粒度的元数据。通过对CNMARC数据进行格式解析,将国家图书馆的38万条CNMARC格式数据转换为古籍数字化元数据;通过使用POI技术对Excel、Word等文件进行解析,将2500条古籍普查表数据和100条国家珍贵古籍名录申报书数据也转换为古籍数字化元数据;通过JDBC(Java Data Base Connectivity)连接数据库,将1800条Access数据也转换为古籍数字化元数据。此外,在古籍元数据模型的基础上,使用Lucene对30万条古籍数据建立索引,用于数据检索,平均检索时间在1秒以内;通过计算机统计与编排,实现了古籍信息自动编目及PDF输出。通过本文的一系列研究工作,我们将汉文古籍数据转换为了统一格式的细粒度元数据,展现形式更加易于多样化,统计十分便利;Web技术的应用,减少了古籍普查所需的大量资源成本,古籍传播和查看十分方便;采用了成熟的索引技术,古籍检索速度快捷,满足了实际应用需求。

全文目录


摘要  4-5
Abstract  5-8
缩略语  8-9
1 绪论  9-17
  1.1 研究背景  9-10
  1.2 课题来源、难点、研究目的及意义  10-14
  1.3 业务背景及说明  14-15
  1.4 论文内容及组织结构  15-17
2 相关技术概述  17-20
  2.1 相关技术  17-19
  2.2 本章小结  19-20
3 古籍标准化元数据转换技术研究  20-33
  3.1 需求概要分析  20-22
  3.2 古籍元数据模型  22-24
  3.3 古籍传统数据转换  24-29
  3.4 古籍信息检索  29-30
  3.5 古籍信息编目  30-32
  3.6 本章小结  32-33
4 古籍标准化元数据转换系统实现  33-48
  4.1 古籍元数据模型  33-34
  4.2 古籍传统数据转换  34-42
  4.3 古籍信息检索  42-43
  4.4 古籍信息编目  43-47
  4.5 本章小结  47-48
5 平台系统测试  48-55
  5.1 测试环境  48
  5.2 功能测试  48-51
  5.3 性能测试  51-54
  5.4 本章小结  54-55
6 结论  55-57
  6.1 论文总结  55-56
  6.2 发展方向  56-57
致谢  57-58
参考文献  58-60

相似论文

  1. 基于Mediawiki的学科信息门户建设,G201
  2. 以《四库全书》和《四部丛刊》电子版分析看我国古籍数字化的发展趋势与研究综述,G255.1
  3. 中医古籍数字化整理方案研究,G255.1
  4. OAI-PMH中元数据同步模型的研究,TP311.52
  5. 中文古籍数字化研究,G255.1
  6. 中医古籍图像文献的自由标引方法研究,G254
  7. 基于CWM的元数据管理的研究,TP311.13
  8. 中文古籍数字化成果与展望,G256
  9. 基于《文渊阁<四库全书>电子版》分析的我国古籍数字化问题与对策研究,G255.1
  10. 书同文公司《四部丛刊》电子版对我国今后古籍数字化工作的启示,G255.1
  11. 论古籍整理的新方式,G256
  12. 基于CWM的数据仓库建模工具的研究及数据转换工具的设计与实现,TP311.13
  13. 农业古籍数字化整理研究,S-09
  14. 古籍智能处理技术研究,G255.1
  15. 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
  16. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  17. 基于FPGA的高速图像预处理技术的研究,TP391.41
  18. 2D人脸模板保护算法研究,TP391.41
  19. 导弹虚拟试验可视化技术研究,TP391.9
  20. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  21. 图像拼接技术研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com