学位论文 > 优秀研究生学位论文题录展示
基于联合方法的中文语义角色标注研究
作 者: 王文学
导 师: 李芳
学 校: 上海交通大学
专 业: 计算机技术
关键词: 语义角色标注 深层句法分析 浅层句法分析 SVM
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 41次
引 用: 0次
阅 读: 论文下载
内容摘要
语义角色标注(Semantic Role Labeling,SRL)是浅层语义分析的一种实现方式,该任务不对整个句子进行详细的语义分析,而只识别谓词的论元,并给它们附上有意义的角色标签。典型的语义角色包括施事,受事,来源,目的等。这些角色表示的语义信息对问答系统、信息抽取、机器翻译等自然语言处理领域起到非常重要的作用。目前基于机器学习的中文语义角色标注方法大致可以分为两类:基于深层句法分析的方法和基于浅层句法分析的方法。本文首先在基于深层句法分析的SRL的特征集上做了进一步探索,然后对基于这两种方法的SRL系统在性能上做了对比,最后采用联合的方法联合这两种不同方法的SRL系统的输出,通过一些全局特征,如多少系统输出了同样的角色等,训练出联合模型,对候选角色进行过滤,然后解决不满足句子论元结构限制的冲突角色得到最终标注结果,来提高标注的性能。在Chinese PropBank 1.0语料集上,联合模型的F值达到了78.41%,在基于深层句法分析的SRL的F值67.34%和基于浅层句法分析的SRL的F值71.67%基础了有了显著的提高,从而证明我们的联合方法是非常有效的。
|
全文目录
摘要 3-4 ABSTRACT 4-8 第一章 绪论 8-15 1.1 研究背景及意义 8-9 1.2 研究现状 9-12 1.2.1 相关研究 9-11 1.2.2 评价方法 11-12 1.2.3 国际评测 12 1.3 语义角色标注面临的挑战和研究趋势 12-14 1.3.1 面临的挑战 12-13 1.3.2 研究趋势 13-14 1.4 研究内容 14 1.5 论文结构 14-15 第二章 相关介绍 15-24 2.1 语料库 15-17 2.2 语义角色标注采用的监督方法介绍 17-22 2.2.1 监督方法的一般框架 17-18 2.2.2 监督方法的一般标注策略 18-19 2.2.3 支持向量机模型 19-21 2.2.4 条件随机场模型 21-22 2.3 深层句法分析 22-23 2.4 浅层句法分析 23 2.5 本章小结 23-24 第三章 基于深层句法分析的中文语义角色标注系统 24-35 3.1 系统概述 24-25 3.2 剪枝算法 25-26 3.3 基本系统使用的特征 26-28 3.4 扩展系统使用的特征 28-30 3.5 实验结果及分析 30-33 3.5.1 实验设置 30 3.5.2 实验结果及分析 30-33 3.6 本章小结 33-35 第四章 基于浅层句法分析的中文语义角色标注系统 35-46 4.1 浅层句法分析器中文chunker 实现 35-38 4.1.1 中文chunk 的定义 35-36 4.1.2 中文chunking 36-38 4.2 基于chunking 的SRL 38-40 4.2.1 方法概述 38-39 4.2.2 特征 39-40 4.3 实验结果和讨论 40-45 4.3.1 实验设置 40-43 4.3.2 基于浅层句法分析的SRL 系统的性能 43-44 4.3.3 讨论 44-45 4.4 本章小结 45-46 第五章 基于联合方法的中文语义角色标注 46-55 5.1 联合方法概述 46-48 5.2 候选生成阶段 48 5.3 候选打分阶段 48-49 5.4 冲突解决阶段 49-50 5.5 实验结果与分析 50-53 5.5.1 实验设置 50-51 5.5.2 独立系统的实验结果 51 5.5.3 联合模型的实验结果 51-53 5.5.4 讨论 53 5.6 本章小结 53-55 第六章 总结与展望 55-57 6.1 全文总结 55 6.2 研究展望 55-57 参考文献 57-61 致谢 61-62 攻读学位期间发表的学术论文目录 62-64
|
相似论文
- 基于计算机视觉的柑橘品质分级技术研究,TP391.41
- 基于粗糙集和模糊SVM的车牌识别技术研究,TP391.41
- 评价对象抽取研究,TP391.1
- 基于树核方法的中文语义角色标注研究,TP391.1
- 中文名词性谓词的语义角色标注研究,TP391.1
- 基于粒子群优化算法和支持向量机的上市公司财务危机预警研究,F275
- 基于马尔可夫逻辑网络的语义角色标注,TP391.1
- 互联网舆情监控分析系统的研究与实现,TP393.09
- 基于领域词典的汉语语块分析的研究,TP391.1
- 情感组块与机器学习相结合的文本倾向性分析,TP181
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 电子邮件安全检测与识别系统设计与实现,TP393.098
- 基于支持向量机和K近邻的联合分类研究,TP18
- 新闻语料中名词短语识别的研究,TP391.43
- 语义角色标注的集成策略的研究,TP391.1
- 支持向量机及其在MIMO-CDMA多用户检测中的应用研究,TN929.533
- 基于核主元分析的故障检测与诊断研究,TP277
- 基于Web的比较观点挖掘方法研究,TP391.1
- 框架元素语义核心词自动识别研究,TP391.1
- 基于改进LS-SVM的浮选回收率预测研究,TP18
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|