学位论文 > 优秀研究生学位论文题录展示
俄语现代标注语料库的理论与实践
作 者: 宋余亮
导 师: 易绵竹
学 校: 中国人民解放军外国语学院
专 业: 俄语语言文学
关键词: 俄语 语料库 标注 语义消歧
分类号: H35
类 型: 硕士论文
年 份: 2007年
下 载: 185次
引 用: 0次
阅 读: 论文下载
内容摘要
现代科学的重要特征之一就是学科的交叉和融合,而语言学也积极与其它学科交叉,涉及心理学、计算机、哲学、脑科学、生物学等多门学科。语料库语言学即为一门集语言学理论、数学思维模式和计算机技术为一体重要交叉学科。语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料进行研究和利用的方法。从方法论的角度而言,语料库方法不仅可以用于研究语言系统的各个层面,描写语言的语法结构、词汇、语义和语用等多层次的信息,并依据从语料库中所提取的语言事实验证现行的语言学理论模型,形成新的学术观点;而且可以应用于语言学的其他领域,如机器翻译、信息检索、语音输入等。20世纪80年代,语料库语言学的研究进入一个迅速发展的新时期,由于计算机硬件的发展与普及和软件的开发与运用,以计算机检索为手段、以电子文本为主要内容的计算机语料库纷纷建立。世界范围内语料库的建设和研究人员大多集中在以英语为母语的国家,从英语语料库建设和语料库语言学研究的情况来看,主要有以下几个特点:1)基于不同的研究目的,语料库的类型丰富多样;2)由于英语语料的采集最方便,因而语言语料库的语料收集范围广,内容充实;3)英语语料库语言学研究的领域宽泛、全面,涵盖了从自然语言处理、词典编纂到基于语料库的语音分析、语音识别和合成、词语研究、词语搭配分析、词法分析、句法分析、语篇分析、语用及话语分析、学习者语言分析、语言教学、文化及翻译研究以及语言对比研究等众多领域。上述这些特点包含着传统语言学成果的运用、现代语言学理论和研究方法的支持以及信息技术的高速发展,英语语料库成为世界语料库语言学学科形成的基础,这也是历史发展的必然。俄罗斯的语料库研究虽然落后于西方,但是在新千年前后得到了长足的发展,建立了一些大型的采集各种各样语料、具有不同处理层次、包含各种标注信息、以不同方式进行标注的语料库,例如二十世纪俄文报刊语料库(КомпьютерныйкорпустекстоврусскихгазетконцаXXвека),而规模最大的当推俄语国家语料库(Национальныйкорпусрусскогоязыка),现已采集3500万词次的语料,其最终目标是达到2亿词次。虽然现代俄语语料库语言学对建库方式和原则没有统一的规范,但是对俄语语料库基础理论和实际应用的研究,可以为国内俄语学者利用语料库进行各种语言学课题研究提供极具参考价值的重要资源,对俄语学习和教学也大有裨益。因此,本文的研究目标为勾勒俄罗斯语料库语言学的总体概貌,重点研究俄语国家语料库的建库技术以及俄语语料库在语言学研究中的实际应用。也就是说,本文从理论研究和实例分析两个方面对不同类型的语料库进行系统、详细的研究。此项较大规模专题研究在国内俄语界中尚属首次,在一定程度上具有理论和实践价值,这正是本文的新意所在。本文的研究任务是:1)力求宏观审视俄语语料库语言学的发展历史;2)深入研究俄语标注语料库、尤其是俄语国家语料库的建库原则和技术,探讨利用俄语标注语料库进行语言学研究的方法;3)尝试编制程序服务于已标注俄语语料库的手工消歧工作。全文由6部分组成,包括绪论、四章和结束语。在绪论部分,我们简要叙述语料库和语料库语言学的基本常识,厘清语料库语言学的学科定义,同时涉及世界语料库的发展历史和当今语料库的地位;阐述本文研究的现实意义、研究目的、研究任务、研究方法、论文新意、理论意义与实践价值等。由于国内俄语学界对语料库的研究范围相对狭窄,相关研究成果比较缺乏,因此我们确定本文的研究目标是:从俄语语料库语言学理论出发,结合各个相关学科(如词法学、语义学)的理论和观点,对俄语语料库的理论研究和建库技术进行深入剖析。第一章《俄语语料库研究概述》首先简要介绍俄语语料库的发展历史,我们认为现代俄语语料库建设的指导思想主要是实用主义,其目的为了满足俄罗斯语言学各种研究的实际需求;然后我们对有代表性的网络上可访问的ХАНКО、ТК、КГТ、НКРЯ等4个大型标注语料库的发展历程和建库规模加以介绍,并从词法、句法、语义标注三个方面进行详细的对比;最后我们以实例分析为主,力图揭示ХАНКО、ТК、КГТ、НКРЯ的搜索功能在词法上的差别,而这正是俄语语料库用户在实际利用过程中必须注意的问题。第二章《俄语国家语料库的词法标注》我们从俄语语言单位的两种标注方法——“外部形态分析法”和“深度语义分析法”的区别入手,分析俄语国家语料库采用的词法标注方式、词法标注的类别和结构、词法标注的步骤和原则。根据НКРЯ的语法范畴选择图中的特殊标注,我们将注意力放在这些标注与《俄语语法词典》中的词法标注模型相偏离而难以自动标注的例外词形和非标准的语言现象上,认为只有对这些偏离的语言现象进行广泛深入的研究,才能不断发展词法标注系统并完善机用语法词典。第三章《俄语国家语料库的词汇语义标注》主要是从语义层次来研究НКРЯ的词汇语义标注体系,首先介绍НКРЯ词汇语义标注的模型基础和语义标注类别;然后从计算机处理的实际出发,研究语义歧义的分类,指出同形异义词和词语的不同义项在НКРЯ中是处于同一个语义平面上的,因而不可避免地造成语义歧义。为了解决语义消歧的问题,我们重点探讨利用过滤器进行语义消歧的方法。在本章最后,我们还利用语义标注进行语言实例研究,展现通过语义标注所能发掘的语言知识的深度。第四章《标注语料库的手工消歧工具设计》作为本文研究的实验模拟,本章首先对语料库的XML标注语言和标注赋码进行充分研究;然后利用Microsoft Visual Basic 6.0程序语言设计开发手工消歧工具,旨在服务于标注语料库的后处理工作。这种工具对于面向计算机的语言信息处理和面向人的语言教学,均具有重要的实践价值。在结束语部分,扼要归纳全文研究的主要内容,并针对俄语语料库研究与应用的基本问题提出建设性意见,认为该学科还有待于进一步拓展的广阔学术空间;同时期望俄语语料库的研究成果能够为国内俄语学者所积极享用,为新信息技术条件下我国的俄语语言文学研究和教学注入新的活力。
|
全文目录
中文摘要 4-7 Автореферат 7-12 绪论 12-17 1 语料库和语料库语言学的定义 12-13 2 语料库语言学的发展历史 13-14 3 语料库语言学兴起的原因 14-15 4 本文的研究对象、任务、意义与方法 15-17 第一章 俄语语料库研究概述 17-34 1.1 俄语语料库发展概览 17-18 1.2 ХАНКО?ТК?КГТ?НКРЯ及其网站 18-23 1.3 ХАНКО、ТК、КГТ、НКРЯ在不同层次上的标注方法对比 23-27 1.4 ХАНКО?ТК?КГТ?НКРЯ在搜索方面的对比 27-33 1.5 小结 33-34 第二章 俄语国家语料库的词法标注 34-49 2.1 俄语语言单位的标注方法 34-35 2.2 НКРЯ的词法标注集 35-36 2.3 词法标注的步骤及原则 36-41 2.4 偏离词法标注模型的特例分析 41-47 2.5 小结 47-49 第三章 俄语国家语料库的词汇语义标注 49-60 3.1 语义标注和《词汇信息库》 49-50 3.2 语义标注的类别 50-53 3.3 НКРЯ中的语义消歧问题 53-59 3.4 小结 59-60 第四章 标注语料库的手工消歧工具设计 60-64 4.1 软件说明 60 4.2 技术基础及算法描述 60-62 4.3 操作指南 62-64 结束语 64-66 参考文献 66-71 后记 71
|
相似论文
- 大众标注及其在高校图书馆中的应用,G258.6
- 俄语学习中时间词汇的认知研究,H35
- 基于贝叶斯理论的社会化标注主题聚类模型研究,C93
- 三维战场态势分析与推演系统,P208
- 面向俄罗斯学生的初级汉语语音教学研究,H195
- 基于中介语语料库的汉语递进复句习得研究,H195
- 基于语料库的上海世博会新闻报道的互文性分析,H052
- 基于语料库对TAKE用法的比较研究,H319
- 基于SNS的教育视频细粒度标注研究与实现,TP391.6
- 《汉语水平词汇等级大纲》甲级词汇词性标注研究,H146
- 中国大学生英语作文中SO使用情况的语料库分析,H319
- 基于语料库的中外学术语篇中立场副词对比研究,H314
- 基于语料库的中国英语经济新闻报道中概念隐喻的研究,H315
- 中外英文学术语篇中词块的结构和功能对比研究,H315
- 基于社会标注的主题分类及排序优化方法研究,TP391.1
- 基于SCOT的语义标签推荐模型及算法研究,TP391.3
- 现代汉语功能句型及其语料库建设,H146
- 俄英对比与俄语二外教学,H35
- 人脸特征点自动标注及表情生成,TP391.41
- 图像语义标注中的块—全局特征提取方法研究,TP391.41
- 新升本科院校俄语专业课程体系优化研究,H35
中图分类: > 语言、文字 > 常用外国语 > 俄语
© 2012 www.xueweilunwen.com
|