学位论文 > 优秀研究生学位论文题录展示

机器翻译系统中英语从句的识别研究

作 者: 马芳
导 师: 王炳锡
学 校: 解放军信息工程大学
专 业: 军事情报学
关键词: 从句识别 最大熵 集成学习理论 Bagging 特征
分类号: H085
类 型: 硕士论文
年 份: 2006年
下 载: 196次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在英汉机器翻译系统中为了实现对各种复杂语句的正确分析,必须首先完成从句识别的任务。从句是一个至少包含一个主语和谓语并且表达一个观点的语法单元。而从句识别是指将句子按照其语法结构标注出从句层次的过程,它隶属于浅层句法分析的范畴。浅层句法分析的主要任务是语块的识别和分析,它使句法分析的任务在某种程度上得到简化,也是对句子进一步分析的基础。 在自然语言处理中,特征模板选择的是否合适、特征表示的是否恰当都会给标注带来很大的影响,所以本文通过学习优秀模型的特征模板,结合本文模型的特点,提出了用词汇特征、句子特征描述语法规则的方法。实验证明,这种特征描述方式是十分有效的,尤其是在从句句尾识别中作用更加明显。 本文采用基于最大熵原理和基于Bagging算法的两种方法来完成从句识别。首先,在基于最大熵原理的方法中,将整个从句识别任务分为:从句句首识别、从句句尾识别和完整从句识别三部分。其中第三部分比较复杂,因此又分成:多重判别、生成从句候选集和从句标注三个模块。对于前两部分和第三部分中的多重判别模块、生成从句候选集模块都可以看作是普通的分类问题,均需要经过选择特征模板、训练模型、测试三个阶段。另外,通过分析句子规律以及人分析从句的思维过程,本文提出了通过距离矩阵等获取从句矩阵的从句候选对象提取算法。其次,在最大熵模型的基础之上,本文又提出了基于Bagging算法的从句识别方法。它利用Bootstrap思想获得多个不同的训练集,然后分别训练出识别模型并测试,最后用改进的加权求和法集成各分类器的结果得到最终标注结果。实验结果表明:在本文提出的特征前提下,文中的两种方法与HMM、Memory-Based等方法相比具有更高的识别率;并且基于Bagging算法的从句识别方法较基于最大熵原理的方法相比,识别率有一定提高。 另外,本文还针对样本选择、最大熵的平滑问题和Bagging算法中的一些具体参数进行了实验,并且根据实验结果确定了模型取最佳结果时的一系列参数。

全文目录


中文摘要  4-5
ABSTRACT  5-6
目录  6-9
表目录  9-10
图目录  10-11
第一章 绪论  11-18
  1.1 课题背景及意义  11-12
  1.2 机器翻译简介  12-13
  1.3 浅层句法分析技术  13-14
  1.4 从句识别技术  14-15
  1.5 分类技术  15-16
    1.5.1 最大熵原理  15
    1.5.2 集成学习理论  15-16
  1.6 本文的主要研究内容  16-18
第二章 从句识别技术  18-24
  2.1 从句及相关术语的定义  18-19
  2.2 从句识别的方法  19-20
  2.3 从句识别中的问题  20-21
  2.4 本文中的从句识别  21-23
  2.5 小结  23-24
第三章 从句识别中的特征选择与特征表示  24-30
  3.1 Xavier采用的特征  24
  3.2 本文的特征  24-28
    3.2.1 词汇特征  24-26
    3.2.2 句子特征  26-28
  3.3 特征表示  28-29
  3.4 小结  29-30
第四章 基于最大熵原理的从句识别  30-46
  4.1 最大熵基本原理  30-35
    4.1.1 引例  30-31
    4.1.2 最大熵原理  31-33
    4.1.3 迭代算法  33-34
    4.1.4 最大熵的解的性质及证明  34-35
  4.2 基于最大熵原理的从句识别模型  35-42
    4.2.1 从句句首识别  35-37
    4.2.2 从句句尾识别  37-38
    4.2.3 完整从句识别  38-42
  4.3 最大熵模型的平滑问题  42-44
  4.4 模型实现中的注意问题  44
  4.5 小结  44-46
第五章 基于集成理论的从句识别  46-53
  5.1 集成学习理论相关知识  46-48
    5.1.1 集成学习的思想  46-47
    5.1.2 集成学习主要解决的问题  47
    5.1.3 多分类器集成的体系结构  47-48
  5.2 Bagging算法介绍  48-50
    5.2.1 Bootstrap简介  48-49
    5.2.2 Bagging算法  49-50
  5.3 改进的 Bagging算法  50-51
  5.4 基于集成理论从句识别  51-52
  5.5 性能分析  52-53
    5.5.1 偏见-偏差理论  52
    5.5.2 样本集规模和分类器个数  52-53
第六章 实验及结果分析  53-62
  6.1 底线标准和语料库  53
    6.1.1 底线标准  53
    6.1.2 语料库  53
  6.2 评价参数  53
  6.3 特征实验  53-54
  6.4 样本选择实验  54-55
  6.5 平滑实验  55-56
  6.6 基于最大熵原理的从句识别结果及分析  56-59
  6.7 基于集成学习理论的从句识别结果及分析  59-62
结束语  62-64
致谢  64-65
参考文献  65-69
作者在学期间取得的学术成果  69-70
附录A Penn Treebank词性标注集  70-72
附录B Penn Treebank短语标注集  72

相似论文

  1. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  2. 东北满族民居的文化涵化研究,TU241.5
  3. 多厅影院空间架构研究,TU242.2
  4. 钢在建筑中的技术表现力研究,TU-0
  5. 长春市历史保护区的形态特征与保护对策研究,TU984.114
  6. 电网电压不平衡时复合型PWM整流器控制策略的研究,TM461
  7. 民国时期北平城市粮食市场区位分布及其等级研究,K291
  8. 昆明流动人口聚居区的现状、问题及其对策初步研究,C924.25
  9. 高频雷达信号电离层污染及时频分析方法研究,TN958.93
  10. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  11. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  12. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  13. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  14. 基于三维重建的焊点质量分类方法研究,TP391.41
  15. 基于句法特征的代词消解方法研究,TP391.1
  16. 基于特征的软构件建模方法及其在VMI管理系统中的应用,TP311.52
  17. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  18. Q学习在基于内容图像检索技术中的应用,TP391.41
  19. 森林防火系统中图像识别算法的研究,TP391.41
  20. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  21. 领域实体属性及事件抽取技术研究,TP391.1

中图分类: > 语言、文字 > 语言学 > 应用语言学 > 机器翻译
© 2012 www.xueweilunwen.com