学位论文 > 优秀研究生学位论文题录展示
依存句法分析的置信度研究
作 者: 郭江
导 师: 车万翔
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 依存句法分析 转移模型 图模型 置信度
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 15次
引 用: 0次
阅 读: 论文下载
内容摘要
句法分析是自然语言处理的核心问题,对信息抽取、信息检索、机器翻译等应用有重要的支撑作用。依存句法以其形式简洁、易于标注、便于应用等优点为人所重视。虽然目前依存句法分析算法研究取得了一定的进展,但是其准确率仍然不能满足实际应用的需要。针对这一问题,本课题并没有将全部研究重点放在提高依存句法分析的准确率上,而是提出了对依存句法分析结果进行置信度分析这一新问题,通过对依存句法树中每条依存弧的置信度进行计算,将置信度高的依存搭配用于特定应用系统,从而提高这些系统的准确率。目前主要有两种主流的依存分析机制,一种是基于转移的依存分析,另一种是基于图的依存分析。针对这两种依存分析方法的不同,本文提出了相应的计算置信度的方法。基于转移的依存分析通过构造优化的转移序列来对句子进行解码,从而生成一棵依存句法树。其学习方式有局部学习(Local Learning)和全局学习(Global Learning)两种方式。针对局部学习的转移模型,本文提出基于似然概率以及基于重采样的置信度计算方法;针对全局学习的转移模型,本文提出基于K-Best结果投票的置信度计算方法。基于图的依存分析通过寻找最大生成树的方法获取一个句子的依存分析结果。其学习过程一般使用在线学习(Online Learning)算法。依存分析的图模型一般为线性模型,因此与基于转移的依存模型不同,其无法直接得到一条依存弧的似然概率。针对这一问题,本文首先利用图模型的输出近似估计依存弧的边缘概率,并以此作为该依存弧的置信度。同时,本文提出一种有指导的基于Logistic回归的置信度估计方法,该方法能够充分地利用更丰富的特征,并且通过有效的学习方式对特征进行赋权。另外,本文还提出了若干种置信度估计的评价方法,一方面可用以评价置信度计算结果的优劣,另一方面也为置信度计算提供了优化目标。最后,本文将含有置信度的依存句法分析结果应用于篇章级情感分析以及半指导依存句法分析,以观察其有效性。实验结果证明,对置信度信息的合理应用能够在一定程度上提高上层应用及依存句法分析自身的性能。
|
全文目录
摘要 4-5 Abstract 5-7 目录 7-9 第1章 绪论 9-16 1.1 课题背景 9-10 1.2 研究目的和意义 10-11 1.3 国内外研究现状 11-14 1.3.1 依存句法分析 11-14 1.3.2 依存句法分析置信度分析 14 1.4 本文研究内容 14-16 第2章 依存句法分析 16-27 2.1 句法分析 16-18 2.1.1 依存语法 16-17 2.1.2 数据驱动的依存句法分析 17-18 2.2 基于转移的依存分析算法 18-21 2.2.1 解码算法 18-20 2.2.2 学习算法 20-21 2.3 基于图的依存分析算法 21-24 2.3.1 解码算法 21-23 2.3.2 学习算法 23-24 2.4 融合模型 24-25 2.5 依存句法分析的置信度 25 2.6 本章小结 25-27 第3章 基于转移的依存句法分析置信度计算 27-35 3.1 基于似然概率的置信度分析 27-28 3.2 基于重采样的置信度分析 28-29 3.2.1 KD-Fix 28-29 3.2.2 KD-PC 29 3.3 基于K-Best依存分析结果的置信度分析 29-30 3.4 实验结果与分析 30-33 3.4.1 实验数据 30 3.4.2 评价方法 30-31 3.4.3 结果与分析 31-33 3.5 本章小结 33-35 第4章 基于图的依存句法分析置信度计算 35-46 4.1 基于近似边缘概率的置信度分析 35-36 4.2 基于Logistic回归的置信度分析 36-41 4.2.1 分类器:Logistic回归 36-37 4.2.2 特征 37-38 4.2.3 训练数据的构建 38-39 4.2.4 评价方法 39-41 4.3 实验结果与分析 41-45 4.3.1 实验数据 41-42 4.3.2 结果与分析 42-45 4.4 本章小结 45-46 第5章 依存句法分析置信度的应用 46-54 5.1 篇章级情感分析 46-49 5.2 半指导依存句法分析 49-52 5.2.1 半指导依存句法分析系统的构建 49-51 5.2.2 实验及分析 51-52 5.3 本章小结 52-54 结论 54-56 参考文献 56-61 攻读硕士学位期间发表的论文及其他成果 61-63 致谢 63
|
相似论文
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- MyosinX在肿瘤侵袭性生长中作用的研究,R730.2
- 隐马尔可夫模型在视频场景分析中的应用研究,TP391.41
- 基于图的结构化图像特征提取与跟踪,TP391.41
- 基于磁滞优化的车辆路径问题研究,O224
- 基于概率图模型的态势估计,E917
- 基于航空立体多影像的城市建筑物识别技术研究,TP391.41
- 基于统计与图模型的若干机器学习算法及其应用,TP181
- 基于非集计模型的常规公交—拟建城市轨道交通客流转移研究,U12
- 基于粒子滤波的可靠视觉跟踪技术研究,TP391.41
- 基于模糊复合期权的房地产项目信贷决策研究,F832.4;F224
- 社会网络的节点重要性评估与社区发现研究,O157.5
- 基于模型的人体运动跟踪和姿态分析技术研究,TP391.41
- 语音端点检测和关键词检出技术的研究,TN912.3
- 模糊评判技术在物流商绩效评价中的应用研究,F224
- 基于VB6.0采空区风险评价模型研究及系统应用,TD325
- 脂氧素类似物BML-111对肝癌荷瘤小鼠肺转移的抑制作用,R735.7
- 基于猴群算法的入侵检测技术研究,TP393.08
- 基于混合层次关系的扩展角色图模型研究,TP393.08
- 双目视觉匹配算法研究,TP391.41
- 基于结构方程的旅游竞争力模型,F592
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|