学位论文 > 优秀研究生学位论文题录展示
机器翻译系统中英语从句的识别研究
作 者: 马芳
导 师: 王炳锡
学 校: 解放军信息工程大学
专 业: 军事情报学
关键词: 从句识别 最大熵 集成学习理论 Bagging 特征
分类号: H085
类 型: 硕士论文
年 份: 2006年
下 载: 196次
引 用: 0次
阅 读: 论文下载
内容摘要
在英汉机器翻译系统中为了实现对各种复杂语句的正确分析,必须首先完成从句识别的任务。从句是一个至少包含一个主语和谓语并且表达一个观点的语法单元。而从句识别是指将句子按照其语法结构标注出从句层次的过程,它隶属于浅层句法分析的范畴。浅层句法分析的主要任务是语块的识别和分析,它使句法分析的任务在某种程度上得到简化,也是对句子进一步分析的基础。 在自然语言处理中,特征模板选择的是否合适、特征表示的是否恰当都会给标注带来很大的影响,所以本文通过学习优秀模型的特征模板,结合本文模型的特点,提出了用词汇特征、句子特征描述语法规则的方法。实验证明,这种特征描述方式是十分有效的,尤其是在从句句尾识别中作用更加明显。 本文采用基于最大熵原理和基于Bagging算法的两种方法来完成从句识别。首先,在基于最大熵原理的方法中,将整个从句识别任务分为:从句句首识别、从句句尾识别和完整从句识别三部分。其中第三部分比较复杂,因此又分成:多重判别、生成从句候选集和从句标注三个模块。对于前两部分和第三部分中的多重判别模块、生成从句候选集模块都可以看作是普通的分类问题,均需要经过选择特征模板、训练模型、测试三个阶段。另外,通过分析句子规律以及人分析从句的思维过程,本文提出了通过距离矩阵等获取从句矩阵的从句候选对象提取算法。其次,在最大熵模型的基础之上,本文又提出了基于Bagging算法的从句识别方法。它利用Bootstrap思想获得多个不同的训练集,然后分别训练出识别模型并测试,最后用改进的加权求和法集成各分类器的结果得到最终标注结果。实验结果表明:在本文提出的特征前提下,文中的两种方法与HMM、Memory-Based等方法相比具有更高的识别率;并且基于Bagging算法的从句识别方法较基于最大熵原理的方法相比,识别率有一定提高。 另外,本文还针对样本选择、最大熵的平滑问题和Bagging算法中的一些具体参数进行了实验,并且根据实验结果确定了模型取最佳结果时的一系列参数。
|
全文目录
中文摘要 4-5 ABSTRACT 5-6 目录 6-9 表目录 9-10 图目录 10-11 第一章 绪论 11-18 1.1 课题背景及意义 11-12 1.2 机器翻译简介 12-13 1.3 浅层句法分析技术 13-14 1.4 从句识别技术 14-15 1.5 分类技术 15-16 1.5.1 最大熵原理 15 1.5.2 集成学习理论 15-16 1.6 本文的主要研究内容 16-18 第二章 从句识别技术 18-24 2.1 从句及相关术语的定义 18-19 2.2 从句识别的方法 19-20 2.3 从句识别中的问题 20-21 2.4 本文中的从句识别 21-23 2.5 小结 23-24 第三章 从句识别中的特征选择与特征表示 24-30 3.1 Xavier采用的特征 24 3.2 本文的特征 24-28 3.2.1 词汇特征 24-26 3.2.2 句子特征 26-28 3.3 特征表示 28-29 3.4 小结 29-30 第四章 基于最大熵原理的从句识别 30-46 4.1 最大熵基本原理 30-35 4.1.1 引例 30-31 4.1.2 最大熵原理 31-33 4.1.3 迭代算法 33-34 4.1.4 最大熵的解的性质及证明 34-35 4.2 基于最大熵原理的从句识别模型 35-42 4.2.1 从句句首识别 35-37 4.2.2 从句句尾识别 37-38 4.2.3 完整从句识别 38-42 4.3 最大熵模型的平滑问题 42-44 4.4 模型实现中的注意问题 44 4.5 小结 44-46 第五章 基于集成理论的从句识别 46-53 5.1 集成学习理论相关知识 46-48 5.1.1 集成学习的思想 46-47 5.1.2 集成学习主要解决的问题 47 5.1.3 多分类器集成的体系结构 47-48 5.2 Bagging算法介绍 48-50 5.2.1 Bootstrap简介 48-49 5.2.2 Bagging算法 49-50 5.3 改进的 Bagging算法 50-51 5.4 基于集成理论从句识别 51-52 5.5 性能分析 52-53 5.5.1 偏见-偏差理论 52 5.5.2 样本集规模和分类器个数 52-53 第六章 实验及结果分析 53-62 6.1 底线标准和语料库 53 6.1.1 底线标准 53 6.1.2 语料库 53 6.2 评价参数 53 6.3 特征实验 53-54 6.4 样本选择实验 54-55 6.5 平滑实验 55-56 6.6 基于最大熵原理的从句识别结果及分析 56-59 6.7 基于集成学习理论的从句识别结果及分析 59-62 结束语 62-64 致谢 64-65 参考文献 65-69 作者在学期间取得的学术成果 69-70 附录A Penn Treebank词性标注集 70-72 附录B Penn Treebank短语标注集 72
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 东北满族民居的文化涵化研究,TU241.5
- 多厅影院空间架构研究,TU242.2
- 钢在建筑中的技术表现力研究,TU-0
- 长春市历史保护区的形态特征与保护对策研究,TU984.114
- 电网电压不平衡时复合型PWM整流器控制策略的研究,TM461
- 民国时期北平城市粮食市场区位分布及其等级研究,K291
- 昆明流动人口聚居区的现状、问题及其对策初步研究,C924.25
- 高频雷达信号电离层污染及时频分析方法研究,TN958.93
- 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 基于句法特征的代词消解方法研究,TP391.1
- 基于特征的软构件建模方法及其在VMI管理系统中的应用,TP311.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 森林防火系统中图像识别算法的研究,TP391.41
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- 领域实体属性及事件抽取技术研究,TP391.1
中图分类: > 语言、文字 > 语言学 > 应用语言学 > 机器翻译
© 2012 www.xueweilunwen.com
|