学位论文 > 优秀研究生学位论文题录展示
汉语语义知识的表示及其在汉英机译中的应用
作 者: 齐璇
导 师: 陈火旺
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 自然语言处理 机器翻译 语义知识表述体系 语义规则 合式语义链 中间语言 语义标注 语义分析 消歧
分类号: TP391.2
类 型: 博士论文
年 份: 2002年
下 载: 665次
引 用: 11次
阅 读: 论文下载
内容摘要
本文研究了自然语言处理的语义层面,提出了汉语语义知识的表示和获取方法,并将汉语语义知识应用到一个基于中间语言的汉英机器翻译系统ICENTII中。 语义分析是自然语言理解的基础。本文在比较了各种语义学理论、各种知识表示方法和现有语义资源的基础上,提出并建立了基于框架的汉语语义知识的层级表述体系,体系由语义原语、义项、语义块三级语义单位和语义规则构成。语义原语是最基本的语义单位,用来描述语义特征;义项表示概念,用语义原语描述;语义块表示复合概念,用嵌套的框架结构描述。在语义框架中,由语义角色定义了各语义成分之间的语义关系。语义规则是组合性语义知识的抽象,由合式语义链和生成块模板两部分构成。合式语义链反映了语义约束知识,即什么样的语义单位可以组合在一起;生成块模板表示了由合式语义链组合在一起的语义单位可生成的新成分的语义结构,其中语义角色刻画了结构中各成分之间的语义关系。在建立了语义知识的表述体系后,本文设计并实现了语义规则的获取算法。在搭配实例语料中,经由统计的方法自动学习获得合式语义链,再由半自动的方式获取生成块模板,得到语义规则。 在建立了汉语语义知识的表述体系并获取了语义规则后,本文将语义知识应用于基于中间语言的汉英机译系统ICENT中,实现了ICENTII系统。 ICENTII系统也是基于中间语言的翻译系统,汉语分析的所有结果都表示在中间语言中,英语生成所需的信息也都从中间语言中获得。因此,中间语言是系统设计的关键。本文在分析了汉语和英语的各种语言现象后,设计并实现了一种基于句法语义的中间语言,用嵌套的框架结构表示。框架中包含一组槽值对,用来说明各种句法语义属性。ICENTII系统的中间语言突出了语义属性的表示,包括词的义项描述和短语、句子的语义关系描述。ICENTII系统的中间语言综合了句法和语义信息,在表示能力和实现复杂性之间进行了权衡,概念粒度适中,表示清楚,实现简单。ICENTII系统的中间语言遵循渐进的开发方法,在系统设计的过程中不断完善。实验证明,该中间语言表示能满足翻译的需要。 ICENTII系统工作的第一步是分词和标注,本文设计并实现了一个语义自动标注算法,对分词结果进行义项的自动标注。标注过程对单义词、多义词和未识别词分别进行处理,利用句法和语义知识确定义项标注集合。语义标注的结果可能不唯一,在语义分析阶段将进一步进行词义的消歧。若义项标注集合中包含正确的义项,则语义标注命中;若义项标注集合有且仅有正确的义项,则语义标注准确。经实验证明,该算法可以达到很高的命中率和较高的准确率,而且命中集合的大小也比较小。 句法和语义是形式和内容的关系,密不可分。本文在汉语的分析中实现了句法分析和语义分析的结合。汉语的分析采用扩展的上下文无关文法,每一条句法产 国防科学技术大学研究生院学位论文生式都对应一个前提判断函数。当分析器要用句法产生式进行归约时,首先激活前提判断函数,在其中调用相应的语义分析模块进行语义分析,只有通过语义分析才可以进行归约,否则当前分析不正确,可以终止。在进行规约时,不但产生了新的句法结构,还生成了与之对应的语义结构。因此,在ICENTll系统的汉语分析中,语义分析引导了分析器的动作。 歧义是自然语言的一大特点,词汇歧义和句法歧义的消解仅通过句法知识难以解决。本文提出了一种利用语义知识消歧的策略,在汉语的语义标注阶段,利用合式语义链进行词汇歧义的消解;在汉语的语义分析阶段,利用语义规则的匹配和生成块可生成性的判定进行词汇歧义的进一步消解和句法歧义的消解。利用语义知识消歧的方法产生了比较满意的结果。 本文的最后总结了全文,井指出了下一步的研究工作。 本文的工作把汉语的分析从句法层面深入到语义层面,建立了完整的、系统的语义知识表示,并把获取的语义知识应用到汉英机译系统ICENTll的各个阶段中。经过对实验语料的翻译,取得令人满意的结果。本文的工作将对进一步的研究工作奠定良好的理论和实践基础。
|
全文目录
中文摘要 7-9 英文摘要 9-11 第一章 绪论 11-21 §1.1 概述 11 §1.2 自然语言处理 11-14 1.2.1 自然语言的特点 11-12 1.2.2 自然语言处理的发展 12 1.2.3 自然语言处理的不同层次 12-13 1.2.4 自然语言处理的应用 13 1.2.5 语义分析在自然语言处理中的地位 13-14 §1.3 汉语分析的特殊问题 14-19 1.3.1 汉语的同形歧义现象 14-15 1.3.2 施事与受事问题 15-16 1.3.3 主动词的确定问题 16-17 1.3.4 相邻名词的关系确定问题 17 1.3.5 省略现象 17-18 1.3.6 兼语句 18-19 §1.4 本文的主要工作 19 §1.5 本文的结构与内容 19-21 第二章 现代语义学研究现状 21-32 §2.1 现代语义学流派及其主要理论 21-27 2.1.1 结构语义学(Constructural Semantics) 21 2.1.2 解释语义学(Interpretational Semantics) 21-22 2.1.3 生成语义学(Generative Semantics) 22-23 2.1.4 格语法(Case Grammar) 23-24 2.1.5 切夫语法(Chafe's Grammar) 24-25 2.1.6 逻辑—数理语义学 25 2.1.7 情景语义学(Situation Semantics) 25-26 2.1.8 概念依存理论(Conceptual Dependency Theory) 26 2.1.9 优选语义学(Preferential Semantics) 26-27 §2.2 语义知识的表示方法 27-29 2.2.1 语义成分分析(Componential Analysis) 27 2.2.2 语义网络(Semantic Network) 27-28 2.2.3 语义框架(Semantic Frame) 28-29 2.2.4 逻辑形式(Logical Form) 29 §2.3 几种词汇语义知识资源 29-31 2.3.1 WordNet 29-30 2.3.2 MindNet 30 2.3.3 FrameNet 30-31 2.3.4 知网(How-net) 31 §2.4 小结 31-32 第三章 汉语语义知识表述体系 32-48 §3.1 引言 32-33 §3.2 语义知识表示的基本思想 33-34 §3.3 语义知识的表述体系 34-38 3.3.1 语义原语 35 3.3.2 义项 35-36 3.3.3 语义块 36-37 3.3.4 语义规则 37-38 §3.4 语义规则的获取 38-45 3.4.1 概述 38-39 3.4.2 合式语义链的自动获取方法 39-41 3.4.3 语义规则的获取 41-42 3.4.4 实验及其结果 42-45 §3.5 各种语义结构的表示 45-47 §3.6 小结 47-48 第四章 ICENTII汉英机译系统 48-54 §4.1 引言 48-49 §4.2 ICENT系统概述 49-50 §4.3 ICENTII的结构和目标 50-51 §4.4 ICENTII的特色 51-53 4.4.1 ICENTII的语义标注 51 4.4.2 ICENTII的语义分析 51-52 4.4.3 ICENTII的中间语言 52-53 §4.5 小结 53-54 第五章 ICENTII的语义自动标注 54-64 §5.1 语义自动标注算法的基本思想 54-55 §5.2 语义自动标注算法 55-60 5.2.1 多义词语义自动标注 56-57 5.2.2 未识别词的语义自动标注 57-59 5.2.3 语义标注的语义处理过程 59-60 §5.3 实验结果及分析 60-63 5.3.1 多义词语义标注的实验结果 60-62 5.3.2 未识别词语义标注的实验结果 62-63 §5.4 小结 63-64 第六章 ICENTII的中间语言设计 64-76 §6.1 引言 64-65 §6.2 中间语言技术的研究现状 65-66 §6.3 中间语言的内容 66-74 6.3.1 词的表示 66-67 6.3.2 短语的表示 67-70 6.3.2.1 偏正结构的表示 67-68 6.3.2.2 述补结构的表示 68 6.3.2.3 联合结构的表示 68 6.3.2.4 连谓结构的表示 68-69 6.3.2.5 述宾结构和主谓结构的表示 69 6.3.2.6 兼语结构的表示 69 6.3.2.7 方位结构和介词结构的表示 69-70 6.3.2.8 “的”字结构的表示 70 6.3.3 句子的表示 70-71 6.3.4 语义属性的表示 71-74 6.3.4.1 逻辑主语的语义属性 71-72 6.3.4.2 逻辑宾语的语义属性 72 6.3.4.3 从属谓词的语义属性 72 6.3.4.4 定语修饰语的语义属性 72-73 6.3.4.5 状语修饰语的语义属性 73-74 §6.4 中间语言结构举例 74-75 §6.5 小结 75-76 第七章 汉语语义结构的分析 76-97 §7.1 语义分析概述 76-78 7.1.1 句法和语义之间的关系 76 7.1.2 语义分析的主要用途 76-77 7.1.3 语义知识在消歧中的使用 77-78 §7.2 基于语义知识的多级消歧策略 78-81 7.2.1 歧义的种类 78-79 7.2.2 歧义消解的策略 79-81 §7.3 语义分析流程 81-87 7.3.1 分析器的分析流程 81 7.3.2 语义分析的工作流程 81-82 7.3.3 义项间分析模块 82-83 7.3.4 义项义块间分析模块 83-84 7.3.5 义块间分析模块 84-85 7.3.6 语义规则匹配算法 85-86 7.3.7 语义块生成判定算法 86-87 §7.4 语义分析举例 87-95 7.4.1 “爱祖国的首都”的语义分析 87-92 7.4.2 “驮粮食的老马”的语义分析 92-93 7.4.3 “握住工人的手”的语义分析 93-95 §7.5 小结 95-97 第八章 结束语 97-101 §8.1 本文的主要贡献 97-99 §8.2 进一步的工作 99-101 攻读博士学位期间发表的论文 101-102 致谢 102-104 参考文献 104-110
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 汉语框架自动识别中的歧义消解,TP391.1
- 基于SCOT的语义标签推荐模型及算法研究,TP391.3
- 面向专利领域的中文文本分类与检索方法研究,TP391.1
- 文本聚类在话题检测与人名消歧中的应用研究,TP391.1
- 自然语言处理中介词短语附着消歧问题的研究,TP391.1
- 一种混合垃圾邮件过滤技术研究,TP393.098
- 俄语现代标注语料库的理论与实践,H35
- 基于潜在语义分析的军事情报检索系统的研究与实现,TP391.3
- 基于潜在语义的中文文本聚类及其应用,TP391.1
- 《水经注》方位词研究,H141
- 现代汉语“越来越A”格式的多角度考察,H146
- 汉语季节词族研究,H136.1
- 方位隐喻与中国政府工作报告,H15
- 数学表达式结构分析的后处理研究,TP391.4
- 复叠格式“X中的X”研究,H146.3
- 以动词为逻辑驱动的中文信息处理系统的建设,TP391.1
- 否定标记“没有”的句法语义分析,H146
- “没A没B”格式分析,H146
- 体育用品广告语言诉求谱系研究,H05
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 翻译机
© 2012 www.xueweilunwen.com
|