学位论文 > 优秀研究生学位论文题录展示
自然语言处理中介词短语附着消歧问题的研究
作 者: 廖博森
导 师: 罗惠琼
学 校: 电子科技大学
专 业: 计算机系统结构
关键词: 语义消歧 介词短语附着消歧 回退模型 双阈值 二值分类
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 53次
引 用: 0次
阅 读: 论文下载
内容摘要
歧义是自然语言处理中经常遇见的一种语法现象。当我们在对一个句子做句法分析的时候,常常会面临这样一个问题,即一个短语或者子句可以附着在两个或者两个以上的句子成员节点上,机器很难自动地区分正确的附着位置。这种情况不仅出现在汉语的句法分析任务中,同时在英语自然语言分析中也会遇到。但是介词短语附着消歧问题只出现在英语或者其他的西方语言中。本文主要探讨英语中经常出现的介词短语附着消歧问题。很早学者们就将其看成一个模式识别任务,但是对它的形式化处理却不尽相同。现在广泛地将介词短语附着消歧问题简化为一个二值N和V的分类问题,它分别对应介词短语附着于名词和动词。因此我们只需要设计一个分类器就能很好地处理介词短语附着消歧任务。首先,我们介绍了自然语言处理的国内外研究现状,以及课题研究的背景及理论基础。同时概述了介词短语附着消歧任务。然后我们引入了n元语法模型并且简单地介绍了几种数据平滑处理方法。其次,详细描述了语义消歧问题,尤其是介词短语附着消歧模型。我们介绍了目前比较流行的几种介词短语附着消歧模型,例如贝叶斯模型,最大熵模型,支持向量机模型,回退模型等。而将重点放在我们提出的基于双阈值直接回退模型上。我们构建了这个模型,并将其在公共的IBM测试集合上进行了测试,实验获得了85.02%的准确率和100%的召回率。我们指出很多学者将介词短语附着消歧问题看成一个独立的任务,通过使用大量的语料,来提升算法的性能,而这个做法并不有利于句法分析任务的解决。实验结果也证明该方法是一种非常有效的消歧方法,并具有理论充分,实现简单的特点。实验也表明,二元组具有充足的信息量对介词短语进行附着消歧处理,而这个结论与之前很多学者的观点不同。最后将这个模型与其他模型进行比较分析,提出了一种潜在的改进方案,即通过增加词类信息和上下文相似性计算来提高模型的准确率。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 绪论 9-13 1.1 概述 9 1.2 课题研究背景及意义 9-10 1.3 国内外研究现状 10-11 1.4 介词短语附着消歧概述 11-12 1.5 论文组织结构 12-13 第二章 语言模型 13-17 2.1 n 元语法模型 13-14 2.2 数据平滑处理 14-16 2.2.1 问题提出 14-15 2.2.2 加法平滑技术 15 2.2.3 线性插值法 15 2.2.4 Good-Turing 算法 15-16 2.3 小结 16-17 第三章 语义消歧 17-22 3.1 概述 17-18 3.2 有监督语义消歧 18-19 3.2.1 基于互信息的方法 18 3.2.2 基于贝叶斯分类器的消歧方法 18-19 3.3 基于词典的消歧 19 3.4 无监督语义消歧 19-20 3.5 语义消歧系统测试指标 20-21 3.6 小结 21-22 第四章 介词短语附着消歧 22-48 4.1 问题提出 22-25 4.2 Hindle 和 Rooth 概率模型 25-27 4.3 回退模型(back-off model) 27-32 4.3.1 元组提取 27-28 4.3.2 问题简化 28 4.3.3 消歧性能的上下限 28-29 4.3.4 标记说明 29-30 4.3.5 回退模型 30-32 4.4 K 最近邻算法 32-36 4.4.1 词形分布的相似性度量 32-35 4.4.2 最近邻决策流程 35 4.4.3 实验结果和分析 35-36 4.5 最大熵模型 36-41 4.5.1 最大熵原理的基本思想 36-38 4.5.2 形式化最大熵原理 38-40 4.5.3 参数估计 40 4.5.4 基于最大熵模型的介词短语附着消歧 40-41 4.6 支持向量机模型 41-44 4.6.1 支持向量机线性分类 41-42 4.6.2 词汇偏向性计算 42-43 4.6.3 消歧方法 43 4.6.4 性能分析 43-44 4.7 实验及算法分析 44-47 4.8 小结 47-48 第五章 基于双阈值直接回退的介词短语附着消歧模型 48-63 5.1 算法启示 48-55 5.1.1 Martin Volk 的混合消歧模型 48-54 5.1.2 直接回退模型 54-55 5.2 基于双阈值直接回退的介词短语附着消歧模型 55-56 5.3 训练和测试数据 56-57 5.4 数据预处理 57-58 5.5 参数估计和实验描述 58-60 5.6 实验结果分析 60-63 第六章 总结 63-64 致谢 64-65 参考文献 65-69 攻硕期间取得的研究成果 69-70
|
相似论文
- 基于SCOT的语义标签推荐模型及算法研究,TP391.3
- 面向专利领域的中文文本分类与检索方法研究,TP391.1
- 基于颜色特征的视觉移动机器人目标跟踪系统,TP242.6
- 基于Canny理论的去阴影自适应边缘检测,TP391.41
- 基于双阈值的认知无线电协作频谱检测技术研究,TN925
- 亚65纳米CMOS工艺低功耗高性能多米诺电路的设计研究,TN432
- 基于量子粒子群算法的图像阈值分割方法研究,TP391.41
- 基于感兴趣区域医学图像提取及压缩的研究,TP391.41
- 基于运动背景的运动目标检测技术研究,TP391.41
- 尿沉渣图像有形成分分割与两类细胞识别,TP391.41
- 基于Matrox图像处理卡的帘子布疵点在线检测系统的研究与设计,TP391.41
- 图像的边缘检测方法研究,TP391.41
- 超声红外定位系统抗干扰技术研究,TN967.1
- 基于规则抽取的汉语语块识别,TP391.1
- 双阈值控制的字符串核SVM研究,TP181
- 基于灰色理论的图像边缘检测算法研究,TP391.41
- 虹膜识别算法的研究和优化,TP391.41
- 快速人脸检测算法的改进策略及在视频中的应用,TP391.41
- H.264视频编码标准快速算法的研究和优化,TN919.81
- 并行遗传算法在装箱问题中的应用研究,TP18
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|