学位论文 > 优秀研究生学位论文题录展示
基于条件场的语义角色标注
作 者: 颜廷义
导 师: 何华灿
学 校: 北京邮电大学
专 业: 模式识别与智能系统
关键词: 语义角色标注 语料库 条件随机场 Chinese Propbank
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 71次
引 用: 1次
阅 读: 论文下载
内容摘要
近年来,语义角色标注在信息检索、问答系统等自然语言处理领域应用越来越广泛,但是大部分的研究主要针对于英文,其它语言由于缺少良好的标注语料,其研究相对较少。不久前,宾夕法尼亚大学发布了人工标注的汉语语料Chinese Propbanko本文中,我们尝试使用条件随机场的机器学习算法对Chinese Propbank1.0进行有监督的学习。在研究中,除了使用已有的一些基础特征之外,我们还提出了四个新特征,并通过大量的实验验证了特征的有效性,从最终的结果来看,每一个新特征都对实验结果起到正向作用。为了缩短训练时间,提高实验结果,我们采用两阶段分类的方法。在第一阶段先进行二元分类,判别一个句法成分是否为语义角色,然后对第一阶段中的语义角色再进行多元分类,给其分配具体的语义角色。由于考虑到第一阶段二元分类的准确率,召回率问题,我们选取相应的值作为门限概率以进行非语义角色的过滤,这在一定程度上召回了部分被错误判断的句法成分,提高了最终的实验结果。最终,我们选取了大量的门限值,从结果来看当门限值为0.5时,其实验结果可以达到最好,其准确率超过80%,F-score也将近80%。这在中文语义角色标注领域是令人满意的结果,我们相信,如果后期能加入更具有区分性的特征,实验结果一定会进一步得到提高。
|
全文目录
摘要 4-5 ABSTRACT 5-6 目录 6-9 第一章 绪论 9-17 1.1 课题背景及意义(自然语言处理与语义角色标注) 9-10 1.2 语料库的相关介绍 10-11 1.2.1 语料库的特点 10 1.2.2 语料库的三点基本认识 10-11 1.2.3 语料库方法 11 1.3 语义角色标注的应用 11-13 1.3.1 事件抽取 11-12 1.3.2 自动问答系统 12-13 1.4 国内语义角色的相关研究 13-14 1.5 语义角色标注研究现状 14-15 1.5.1 英文语义角色标注研究现状 14 1.5.2 中文语义角色标注的研究现状 14-15 1.6 中英文语义角色标注对比 15-16 1.7 本论文的组织 16-17 第二章 语义角色标注及方法研究 17-27 2.1 语义分析 17 2.2 语义角色标注概述 17-18 2.3 分词与词性标注介绍 18 2.4 标注的一般流程 18 2.5 目前语义角色标注的关键 18-19 2.6 标注单元 19 2.7 语料资源 19-21 2.8 语义角色标注的分类 21-23 2.8.1 基于规则的方法 21-22 2.8.2 基于统计的方法 22-23 2.9 语义角色标注分析过程分类 23-24 2.10 目前流行的标注方法 24 2.11 标注的前期处理 24-25 2.12 评价方法 25 2.13 存在的问题 25-27 第三章 条件随机场理论与特征介绍 27-33 3.1 条件随机场的相关介绍 27-30 3.1.1 条件随机场相关原理 27-28 3.1.2 CRF和HMM,MEMM的比较 28 3.1.3 Crf++工具包介绍 28-30 3.2 特征选择与特征分析 30-33 3.2.1 基础特征 31 3.2.2 新特征 31-33 第四章 实验语料统计与实验流程 33-39 4.1 实验语料统计 33 4.2 还原语义角色 33-35 4.3 多动词转化 35 4.4 二元分类:非语义角色的过滤 35-36 4.5 实验具体流程 36-39 第五章 实验结果及综述 39-44 5.1 评测程序介绍 39 5.2 实验结果及分析(参数的选择) 39-40 5.3 特征有效性分析 40-41 5.4 实验结果比较 41 5.5 实验数据量有效性分析 41-42 5.6 综述与展望 42-44 参考文献 44-47 附录 47-55 附录1 CRF++工具包使用方法简介 47-55 1 安装(编译器要求:C++编译器(GCC 3.0或更高)) 47 2 使用 47-51 2.1 训练和测试文件的格式 47-48 2.2 准备特征 48-51 2.2.1 基本模板 48-49 2.2.2 模板类型 49 2.2.3 使用标识符区分相对位置λ 49-50 2.2.4 具体实例 50-51 3 训练(编码) 51-52 3.1 使用CRF_LEARN命令 51-52 4 测试(解码) 52-55 4.1 使用CRF_TEST命令 52 4.2 详细的层次(VERBOSE LEVEL) 52-55 致谢 55-56 攻读硕士期间发表的论文 56
|
相似论文
- 基于中介语语料库的汉语递进复句习得研究,H195
- 基于语料库的上海世博会新闻报道的互文性分析,H052
- 基于语料库对TAKE用法的比较研究,H319
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于空间邻域词袋模型的图像标注技术,TP391.41
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 中国大学生英语作文中SO使用情况的语料库分析,H319
- 基于语料库的中外学术语篇中立场副词对比研究,H314
- 基于语料库的中国英语经济新闻报道中概念隐喻的研究,H315
- 中外英文学术语篇中词块的结构和功能对比研究,H315
- 基于条件随机场的RNA二级结构预测算法,R346
- 现代汉语功能句型及其语料库建设,H146
- 英语学术论文标题的短语学特征研究,H313
- 基于语料库的中美经济语篇批评分析,H052
- 基于物流专业词汇联想测试的心理词库研究,H319
- 基于语料库的英语专业学习者书面语中心理使役动词使用研究,H319
- 中美语言学硕士论文中因果标记语的对比研究,H313
- 中国政府文件中国特色英语词丛研究,H313
- 基于字词联合解码的中文分词研究,TP391.1
- 特定领域中文术语抽取,TP391.1
- 基于语料库对科技英语次技术词用法的研究,H314
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|