学位论文 > 优秀研究生学位论文题录展示
基于统计NLP技术的甲骨卜辞的分析研究
作 者: 黄勇杰
导 师: 刘永革
学 校: 华东师范大学
专 业: 工程
关键词: 甲骨卜辞 语料库 词性标注 自动分词 自然语言处理
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 19次
引 用: 0次
阅 读: 论文下载
内容摘要
殷墟甲骨卜辞是已发现的最早的汉字,是殷商晚期历史的记载,也是中国语言、文化、历史可追溯的最早源头。对甲骨文的收集、整理、著录和研究,已发展成为一门新学科----甲骨学,建立甲骨卜辞语料库,无疑能极大地帮助甲骨学者利用计算机进行辅助研究,加快研究步伐。本文以甲骨学者关于甲骨卜辞的考释为研究实例,采用语料库和自然语言处理的理论和相关技术,在建立好的简单语料库的基础之上,对甲骨卜辞语料进行标注,特别强调基于NLP技术的词性标注的实现,试图建立甲骨文卜辞领域的语料库,以便实现知识共享和辅助甲骨学者的考释工作的目的。本文的主要工作及采用的关键技术如下:首先,围绕着考释甲骨文的目的,提出利用计算机进行甲骨文辅助考释的规划过程,并利用语料库相关技术进行加工、分析而形成简单的甲骨文语料库,同时创建一个简单的分词和词性标注系统。人工部分能对甲骨文卜辞语料进行半自动的分词和词性标注,实现甲骨文语料的信息结构化;自动部分则是通过基于统计的NLP技术完成对甲骨卜辞的分析,实现简单的甲骨卜辞自动分词和词性标注;最后对本文所设计的与实现的分词与词性标注系统的模块结构、物理结构设计等方面进行了详细描述,并对系统性能进行了测试。在文章最后,对甲骨卜辞知识库的应用给出了一些解决方案,并考虑在后续工作中实现对整个语料库进行基于标注信息的信息抽取的算法设计及其系统开发。
|
全文目录
摘要 6-7 Abstract 7-12 第1章 绪论 12-16 1.1 项目开发背景 12-13 1.2 项目的目的和意义 13-14 1.3 论文的组织结构 14-15 1.4 本章小结 15-16 第2章 相关理论和技术 16-33 2.1 NLP综述 16-22 2.1.1 NLP的定义 16-18 2.1.2 NLP的研究内容 18-19 2.1.3 NLP所涉及的几个层次 19-20 2.1.4 NLP的基本方法及发展 20-22 2.1.5 NLP的研究现状 22 2.2 HMM模型 22-25 2.2.1 HMM模型的定义 23 2.2.2 HMM模型的形式描述 23-24 2.2.3 HMM模型的三个基本问题 24-25 2.3 语料库 25-31 2.3.1 语料库的定义 25-26 2.3.2 语料库的分类 26-28 2.3.3 语料库的应用 28 2.3.4 语料库的发展和研究现状 28-31 2.4 本章小结 31-33 第3章 系统分析与总体设计 33-41 3.1 可行性分析 33-34 3.2 系统需求分析 34-36 3.2.1 系统总体功能需求 34-35 3.2.2 系统用户分析 35 3.2.3 系统功能划分 35-36 3.3 系统总体设计 36-38 3.3.1 开发环境及运行平台 36-37 3.3.2 系统功能模块设计 37-38 3.4 数据库设计 38-40 3.5 本章小结 40-41 第四章 甲骨文语料库 41-45 4.1 甲骨文语料库的建设 41-43 4.1.1 甲骨文语料库的建设规划 41-42 4.1.2 甲骨文语料库的建设路线 42-43 4.2 甲骨文语料库的标注 43 4.3 甲骨文语料库的应用 43-44 4.4 本章小结 44-45 第五章 系统详细设计 45-60 5.1 查询的实现 45-47 5.2 分词的实现 47-54 5.2.1 分词方法的介绍 48-51 5.2.2 分词的难点 51-52 5.2.3 分词方法的选用 52 5.2.4 分词界面 52-54 5.3 词性标注的实现 54-58 5.3.1 词性标注方法的介绍 54-55 5.3.2 词性标注的难点 55-56 5.3.3 词性标注方法的选择 56-57 5.3.4 词性标注的界面 57-58 5.4 性能测试 58-59 5.5 本章小结 59-60 第六章 总结与展望 60-63 6.1 总结 60 6.2 展望 60-63 参考文献 63-66 致谢 66
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 基于中介语语料库的汉语递进复句习得研究,H195
- 基于语料库的上海世博会新闻报道的互文性分析,H052
- 基于语料库对TAKE用法的比较研究,H319
- 《汉语水平词汇等级大纲》甲级词汇词性标注研究,H146
- 中国大学生英语作文中SO使用情况的语料库分析,H319
- 基于语料库的中外学术语篇中立场副词对比研究,H314
- 基于语料库的中国英语经济新闻报道中概念隐喻的研究,H315
- 中外英文学术语篇中词块的结构和功能对比研究,H315
- 学术主页信息抽取系统的研究,TP393.092
- 现代汉语功能句型及其语料库建设,H146
- 基于语料库的中美经济语篇批评分析,H052
- 基于物流专业词汇联想测试的心理词库研究,H319
- 基于语料库的英语专业学习者书面语中心理使役动词使用研究,H319
- 中国政府文件中国特色英语词丛研究,H313
- 基于语料库对科技英语次技术词用法的研究,H314
- 基于语料库的英国媒体关于中国制造报道的话语分析,H315
- 中国英语学习者与本族语者认识可能性显性表达研究,H319
- 基于可比较语料库双语多词表达式对抽取,TP391.1
- 汉字/非汉字文化圈HSK甲级心理动词搭配的语料库研究,H195
- 建筑图中有限自然语言的分析与理解的研究,TU204
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|