学位论文 > 优秀研究生学位论文题录展示
汉文古籍标准化元数据转换研究与应用
作 者: 饶俊学
导 师: 吴砥
学 校: 华中科技大学
专 业: 通信与信息系统
关键词: 古籍数字化 古籍元数据 元数据转换 中文机读目录格式
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 4次
引 用: 0次
阅 读: 论文下载
内容摘要
传统的古籍普查方式耗费大量的人力物力,主要采取中国机读目录格式CNMARC(China Machine-Readable Catalogue)、古籍普查表、国家珍贵古籍名录申报书和Access数据库等传统载体进行记录。由于各地图书馆的条件差异和数据标准不一,即便是同样内容的数据,存储格式也不尽相同。加之这些传统载体本身的粗粒度,不同格式文件的交流困难,造成古籍数据的传播、查看、统计和检索十分不便。本文主要研究了汉文古籍标准化元数据转换问题,进行问题分析,设计和实现了标准化元数据转换的软件工具,并对软件工具进行详细测试,并对汉文古籍数字化工作的发展前景进行展望。本文通过古籍数字化服务平台,应用Web技术,实现了在线汉文古籍标准化元数据转换。通过古籍元数据建模,采用面向对象的设计思想,利用关系数据库进行存储数据,把古籍数据设计成为了细粒度的元数据。通过对CNMARC数据进行格式解析,将国家图书馆的38万条CNMARC格式数据转换为古籍数字化元数据;通过使用POI技术对Excel、Word等文件进行解析,将2500条古籍普查表数据和100条国家珍贵古籍名录申报书数据也转换为古籍数字化元数据;通过JDBC(Java Data Base Connectivity)连接数据库,将1800条Access数据也转换为古籍数字化元数据。此外,在古籍元数据模型的基础上,使用Lucene对30万条古籍数据建立索引,用于数据检索,平均检索时间在1秒以内;通过计算机统计与编排,实现了古籍信息自动编目及PDF输出。通过本文的一系列研究工作,我们将汉文古籍数据转换为了统一格式的细粒度元数据,展现形式更加易于多样化,统计十分便利;Web技术的应用,减少了古籍普查所需的大量资源成本,古籍传播和查看十分方便;采用了成熟的索引技术,古籍检索速度快捷,满足了实际应用需求。
|
全文目录
摘要 4-5 Abstract 5-8 缩略语 8-9 1 绪论 9-17 1.1 研究背景 9-10 1.2 课题来源、难点、研究目的及意义 10-14 1.3 业务背景及说明 14-15 1.4 论文内容及组织结构 15-17 2 相关技术概述 17-20 2.1 相关技术 17-19 2.2 本章小结 19-20 3 古籍标准化元数据转换技术研究 20-33 3.1 需求概要分析 20-22 3.2 古籍元数据模型 22-24 3.3 古籍传统数据转换 24-29 3.4 古籍信息检索 29-30 3.5 古籍信息编目 30-32 3.6 本章小结 32-33 4 古籍标准化元数据转换系统实现 33-48 4.1 古籍元数据模型 33-34 4.2 古籍传统数据转换 34-42 4.3 古籍信息检索 42-43 4.4 古籍信息编目 43-47 4.5 本章小结 47-48 5 平台系统测试 48-55 5.1 测试环境 48 5.2 功能测试 48-51 5.3 性能测试 51-54 5.4 本章小结 54-55 6 结论 55-57 6.1 论文总结 55-56 6.2 发展方向 56-57 致谢 57-58 参考文献 58-60
|
相似论文
- 基于Mediawiki的学科信息门户建设,G201
- 以《四库全书》和《四部丛刊》电子版分析看我国古籍数字化的发展趋势与研究综述,G255.1
- 中医古籍数字化整理方案研究,G255.1
- OAI-PMH中元数据同步模型的研究,TP311.52
- 中文古籍数字化研究,G255.1
- 中医古籍图像文献的自由标引方法研究,G254
- 基于CWM的元数据管理的研究,TP311.13
- 中文古籍数字化成果与展望,G256
- 基于《文渊阁<四库全书>电子版》分析的我国古籍数字化问题与对策研究,G255.1
- 书同文公司《四部丛刊》电子版对我国今后古籍数字化工作的启示,G255.1
- 论古籍整理的新方式,G256
- 基于CWM的数据仓库建模工具的研究及数据转换工具的设计与实现,TP311.13
- 农业古籍数字化整理研究,S-09
- 古籍智能处理技术研究,G255.1
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 图像拼接技术研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|