学位论文 > 优秀研究生学位论文题录展示

基于动词次范畴化的汉语句法分析后处理方法的研究

作 者: 王金勇
导 师: 韩习武
学 校: 黑龙江大学
专 业: 计算机应用技术
关键词: 动词次范畴化 汉语句法分析后处理 句法分析
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 13次
引 用: 0次
阅 读: 论文下载
 

内容摘要


句法分析是自然语言处理的一个基本问题,其主要任务是判断输入的单词序列能不能构成合乎语法的句子,构造出合乎语法的句子的句法结构,也就是应用语法规则或其它知识,依据该输入句子中单词之间的线性次序,得出一个非线性的数据结构。它有很多应用,比如机器翻译、信息获取、自动文摘等都有着重要的作用。在基于统计的句法分析方法中,最关键的两个问题是建立消解语言歧义统计模型和句法分析后处理的设计,它们决定着句法分析系统的分析正确率和效率。本文从事的工作则主要从句法分析后处理方面入手,提出了一个基于动词次范畴化的汉语句法分析后处理的方法,主要研究工作如下:1.研究现有常用的统计句法分析模型和句法分析算法,并对其进行综合分析比较,而且解释了动词次范畴化句法模式的理论、形式化描写以及次范畴化和对应的句法树之间的关系。2.用统计句法分析模型产生n-best句法分析树输出,通过用基于转移的错误驱动的学习方法来进行一步改善动词次范畴化的提取,进行相应的重排序来寻找最优的句法分析树,并进行了相应的基于动词次范畴化规则方法的句法分析后处理实验。3.通过用基于转移的错误驱动的学习方法来进行一步改善动词次范畴化的提取,达到改善句法分析的最优解,并进行了基于动词次范畴化统计信息方法的句法分析后处理实验。本文的实验采用了中文信息学会CIPS-ParsEval-2009竞赛语料作为训练语料,它来自于清华汉语语料库(TCT),并用中文信息学会CIPS-ParsEval-2009测试数据进行实验。实验表明本文最好的结果F1值达到88.759%接近中文信息学会句法分析CIPS-ParsEval-2009最好结果F1值88.77%,有利的证明本文的基于动词次范畴化的汉语句法分析后处理方法具有较高的句法分析效率和正确率。

全文目录


中文摘要  3-5
Abstract  5-10
第1章 绪论  10-18
  1.1 本文研究的目的和意义  10-11
  1.2 国内外相关研究现状  11-16
    1.2.1 国外的研究现状  11-14
    1.2.2 国内的研究现状  14-16
  1.3 本文的主要研究内容  16-17
  1.4 本文的结构安排  17-18
第2章 统计语言模型和动词次范畴化理论  18-34
  2.1 引言  18
  2.2 基于统计的方法  18-26
    2.2.1 统计句法分析模型  19-24
      2.2.1.1 概率上下文无关文法  19-20
      2.2.1.2 统计句法分析模型的基本概念  20-22
      2.2.1.3 生成式统计模型  22-23
      2.2.1.4 判别式模型  23-24
    2.2.2 句法分析的搜索算法  24-26
      2.2.2.1 基于局部寻优搜索算法  25
      2.2.2.2 基于全局寻优搜索算法  25-26
  2.3 基于句法模式的动词次范畴化理论  26-29
  2.4 动词次范畴化句法模式的形式化描写  29-31
  2.5 动词次范畴化和句法分析n-best 句法树的关系  31-33
  2.6 本章小节  33-34
第3章 基于动词次范畴化规则的后处理  34-48
  3.1 引言  34-35
  3.2 基于动词次范畴化句法分析后处理模式匹配原理  35-36
  3.3 基于规则的句法模式匹配后处理的方法  36-37
  3.4 基于规则的后处理实验总流程  37-38
  3.5 基于规则的后处理实验的设置  38-42
    3.5.1 句法分析汉语语料库  38-40
    3.5.2 斯坦福和伯克利句法分析器  40-41
    3.5.3 句法分析评测标准  41-42
  3.6 基于规则的实验过程和结果  42-47
    3.6.1 重排序  42-45
    3.6.2 结果及讨论  45-47
  3.7 本章小结  47-48
第4章 基于动词次范畴化统计信息的后处理  48-61
  4.1 引言  48
  4.2 基于统计的句法模式匹配后处理的方法  48-49
  4.3 基于统计的实验总流程  49-51
  4.4 基于统计实验的设置  51
  4.5 基于统计实验的过程和结果  51-58
    4.5.1 重排序  51-52
    4.5.2 权值估计  52-53
    4.5.3 重排序结果及讨论  53-55
    4.5.4 改善最优解  55-58
      4.5.4.1 改善最优解后处理  56
      4.5.4.2 结果及讨论  56-58
  4.6 基于规则和基于统计的两种后处理方法比较  58-60
  4.7 本章小结  60-61
结论  61-63
参考文献  63-70
附录1 汉语词性标记集  70-74
附录2 汉语句法成分标记集  74-75
附录3 本文提取的汉语动词次范畴化句法模式示例  75-77
致谢  77-78
攻读学位期间发表的学术论文  78
攻读学位期间取得的科研成果  78

相似论文

  1. 基于句法特征的代词消解方法研究,TP391.1
  2. 面向统计机器翻译的解码算法的研究,TP391.2
  3. 语义网自动构建中句法分析的研究,TP391.1
  4. 基于贝叶斯分类方法的中文问句分类研究,TP391.1
  5. 中文问答系统中问题分析关键技术的研究,TP391.1
  6. 基于主动学习的汉语依存树库构建,TP391.1
  7. 基于模板核和扩展特征的蛋白质关系抽取,Q51
  8. 中文自动问答系统研究,TP319
  9. 汉语越南语机器翻译实验系统,H44
  10. 动词与动词搭配自动获取方法研究,H146
  11. 汉语句法分析技术及其在机器人辅助教育智能接口中的应用研究,TP391.1
  12. 问句依存句法及语义分析研究,TP391.1
  13. 基于情感分析的新闻浏览平台关键技术研究,TP391.1
  14. “二程语录”被动式研究,H146
  15. 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
  16. 听力理解中句子处理的心理语言特性研究,H319.9
  17. 一种基于特征提取的脱机手写汉字识别技术,TP391.43
  18. 图形仿真技术在机器人辅助教学中的应用研究,TP242
  19. 歧义的认知分析,H04
  20. 基于词义的汉语排歧方法研究,H13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com