学位论文 > 优秀研究生学位论文题录展示

基于条件场的语义角色标注

作 者: 颜廷义
导 师: 何华灿
学 校: 北京邮电大学
专 业: 模式识别与智能系统
关键词: 语义角色标注 语料库 条件随机场 Chinese Propbank
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 71次
引 用: 1次
阅 读: 论文下载
 

内容摘要


近年来,语义角色标注在信息检索、问答系统等自然语言处理领域应用越来越广泛,但是大部分的研究主要针对于英文,其它语言由于缺少良好的标注语料,其研究相对较少。不久前,宾夕法尼亚大学发布了人工标注的汉语语料Chinese Propbanko本文中,我们尝试使用条件随机场的机器学习算法对Chinese Propbank1.0进行有监督的学习。在研究中,除了使用已有的一些基础特征之外,我们还提出了四个新特征,并通过大量的实验验证了特征的有效性,从最终的结果来看,每一个新特征都对实验结果起到正向作用。为了缩短训练时间,提高实验结果,我们采用两阶段分类的方法。在第一阶段先进行二元分类,判别一个句法成分是否为语义角色,然后对第一阶段中的语义角色再进行多元分类,给其分配具体的语义角色。由于考虑到第一阶段二元分类的准确率,召回率问题,我们选取相应的值作为门限概率以进行非语义角色的过滤,这在一定程度上召回了部分被错误判断的句法成分,提高了最终的实验结果。最终,我们选取了大量的门限值,从结果来看当门限值为0.5时,其实验结果可以达到最好,其准确率超过80%,F-score也将近80%。这在中文语义角色标注领域是令人满意的结果,我们相信,如果后期能加入更具有区分性的特征,实验结果一定会进一步得到提高。

全文目录


摘要  4-5
ABSTRACT  5-6
目录  6-9
第一章 绪论  9-17
  1.1 课题背景及意义(自然语言处理与语义角色标注)  9-10
  1.2 语料库的相关介绍  10-11
    1.2.1 语料库的特点  10
    1.2.2 语料库的三点基本认识  10-11
    1.2.3 语料库方法  11
  1.3 语义角色标注的应用  11-13
    1.3.1 事件抽取  11-12
    1.3.2 自动问答系统  12-13
  1.4 国内语义角色的相关研究  13-14
  1.5 语义角色标注研究现状  14-15
    1.5.1 英文语义角色标注研究现状  14
    1.5.2 中文语义角色标注的研究现状  14-15
  1.6 中英文语义角色标注对比  15-16
  1.7 本论文的组织  16-17
第二章 语义角色标注及方法研究  17-27
  2.1 语义分析  17
  2.2 语义角色标注概述  17-18
  2.3 分词与词性标注介绍  18
  2.4 标注的一般流程  18
  2.5 目前语义角色标注的关键  18-19
  2.6 标注单元  19
  2.7 语料资源  19-21
  2.8 语义角色标注的分类  21-23
    2.8.1 基于规则的方法  21-22
    2.8.2 基于统计的方法  22-23
  2.9 语义角色标注分析过程分类  23-24
  2.10 目前流行的标注方法  24
  2.11 标注的前期处理  24-25
  2.12 评价方法  25
  2.13 存在的问题  25-27
第三章 条件随机场理论与特征介绍  27-33
  3.1 条件随机场的相关介绍  27-30
    3.1.1 条件随机场相关原理  27-28
    3.1.2 CRF和HMM,MEMM的比较  28
    3.1.3 Crf++工具包介绍  28-30
  3.2 特征选择与特征分析  30-33
    3.2.1 基础特征  31
    3.2.2 新特征  31-33
第四章 实验语料统计与实验流程  33-39
  4.1 实验语料统计  33
  4.2 还原语义角色  33-35
  4.3 多动词转化  35
  4.4 二元分类:非语义角色的过滤  35-36
  4.5 实验具体流程  36-39
第五章 实验结果及综述  39-44
  5.1 评测程序介绍  39
  5.2 实验结果及分析(参数的选择)  39-40
  5.3 特征有效性分析  40-41
  5.4 实验结果比较  41
  5.5 实验数据量有效性分析  41-42
  5.6 综述与展望  42-44
参考文献  44-47
附录  47-55
  附录1 CRF++工具包使用方法简介  47-55
    1 安装(编译器要求:C++编译器(GCC 3.0或更高))  47
    2 使用  47-51
      2.1 训练和测试文件的格式  47-48
      2.2 准备特征  48-51
        2.2.1 基本模板  48-49
        2.2.2 模板类型  49
        2.2.3 使用标识符区分相对位置λ  49-50
        2.2.4 具体实例  50-51
    3 训练(编码)  51-52
      3.1 使用CRF_LEARN命令  51-52
    4 测试(解码)  52-55
      4.1 使用CRF_TEST命令  52
      4.2 详细的层次(VERBOSE LEVEL)  52-55
致谢  55-56
攻读硕士期间发表的论文  56

相似论文

  1. 基于中介语语料库的汉语递进复句习得研究,H195
  2. 基于语料库的上海世博会新闻报道的互文性分析,H052
  3. 基于语料库对TAKE用法的比较研究,H319
  4. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  5. 基于空间邻域词袋模型的图像标注技术,TP391.41
  6. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  7. 中国大学生英语作文中SO使用情况的语料库分析,H319
  8. 基于语料库的中外学术语篇中立场副词对比研究,H314
  9. 基于语料库的中国英语经济新闻报道中概念隐喻的研究,H315
  10. 中外英文学术语篇中词块的结构和功能对比研究,H315
  11. 基于条件随机场的RNA二级结构预测算法,R346
  12. 现代汉语功能句型及其语料库建设,H146
  13. 英语学术论文标题的短语学特征研究,H313
  14. 基于语料库的中美经济语篇批评分析,H052
  15. 基于物流专业词汇联想测试的心理词库研究,H319
  16. 基于语料库的英语专业学习者书面语中心理使役动词使用研究,H319
  17. 中美语言学硕士论文中因果标记语的对比研究,H313
  18. 中国政府文件中国特色英语词丛研究,H313
  19. 基于字词联合解码的中文分词研究,TP391.1
  20. 特定领域中文术语抽取,TP391.1
  21. 基于语料库对科技英语次技术词用法的研究,H314

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com