学位论文 > 优秀研究生学位论文题录展示
面向三维场景生成的中文语义角色标注方法研究
作 者: 冯娟娟
导 师: 李生
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 语义角色标注 文景转换 特征空间 子结构 核函数
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 30次
引 用: 0次
阅 读: 论文下载
内容摘要
本课题来源于国家自然科学基金资助项目——“基于Ontology的文本中空间关系的三维可视化研究”(简称文景转换),该项目以基于Ontology的自然语言文本到相应的三维动态虚拟场景转换与生成机制为主要研究内容。由于动态场景需要以动作为线索,就必须首先应用自然语言处理技术,要全面地理解和提取文章中的动词信息。因此提出了面向该领域的语义角色标注的研究与实现。语义角色标注是语义分析的一种主要实现方式,采用“谓语-角色”的结构形式,标记句子中的成分作为给定谓语的语义角色,包括施事、受事、时间、地点等。在本文的语义角色的识别和分类中,主要采用两类学习方法:基于最大熵模型的统计机器学习方法;基于Kernel的学习方法。本文的主要研究内容:(1)介绍了目前用于本研究的《伊索寓言》语料库的构建,包括:动词在文章中出现频率的统计;动词的聚类;选择待标注单元;确定要标注的语义角色类型;确定待标注的典型动词;仿照CPB的标注形式完成标注。(2)给出了完整的中文语义角色标注系统的设计方案,主要包括5部分:预处理,自动标注,后处理,评价方法和对系统的改进策略。(3)详细描述了该领域内基于最大熵模型的语义角色标注系统的实现:以句法成分作为待标注单元;根据剪枝规则,删除大部分不可能是语义角色的节点;利用最大熵模型,对候选节点进行识别和分类。在基础特征空间上整体F值达到60.185%;在上述系统中加入扩展特征空间,整体F值达到61.027%。使用了后处理规则,整体F值提高到63.862%。(4)详细描述了该领域内基于Kernel的语义角色标注系统的实现:给出了一种从特征构造出来的核函数PAK,将PAK嵌入到libSVM中,在《伊索寓言》语料上对前述的六类论元进行识别和分类,得到整体的精确率为65.321%。为了测试PAK对于角色识别系统的贡献,增加了一组对比实验,利用SVM中的多项式核函数,在相同的语料上进行实验,得到整体的精确率为69.028%。显然,这两组实验的整体效果要超过基于最大熵模型中的利用特征的分类效果。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-20 1.1 课题背景及研究的目的和意义 9-10 1.2 国内外在该方向上的研究现状及分析 10-17 1.2.1 语义角色标注的相关概念 10-11 1.2.2 研究方法 11-13 1.2.3 语料资源 13-16 1.2.4 英文研究现状 16 1.2.5 中文研究现状 16-17 1.3 论文的主要研究内容 17-18 1.4 本文的组织结构 18-20 第2章 语料库的构建与语义角色标注过程 20-28 2.1 《伊索寓言》语料库的构建 20-25 2.1.1 动词的统计 20 2.1.2 动词聚类 20-22 2.1.3 语料库的构建 22-25 2.2 语义角色标注系统 25-27 2.2.1 预处理模块 25-26 2.2.2 自动标注模块 26 2.2.3 后处理模块 26 2.2.4 评价方法 26-27 2.2.5 系统改进策略模块 27 2.3 本章小结 27-28 第3章 基于最大熵模型的语义角色标注 28-38 3.1 待标注对象的确定 28-29 3.2 语义角色剪枝规则 29 3.3 识别和分类 29-31 3.4 特征空间 31-33 3.4.1 基础特征空间 31-33 3.4.2 扩展特征空间 33 3.5 后处理规则 33-34 3.6 实验结果 34-36 3.7 实验结论 36-37 3.8 本章小结 37-38 第4章 基于核函数的语义角色标注 38-52 4.1 支持向量机(SVM) 38-41 4.2 核函数 41-47 4.2.1 Predicate-Argument Feature (PAF) 42-43 4.2.2 抽取PAF 的子结构集合 43-47 4.3 从特征中构造核函数 47-49 4.3.1 映射函数φ 47-48 4.3.2 核函数的计算 48 4.3.3 分类过程 48-49 4.4 实验结果 49-50 4.5 实验结论 50-51 4.6 本章小结 51-52 结论 52-54 参考文献 54-57 攻读学位期间发表的学术论文 57-59 致谢 59
|
相似论文
- 地波辐射源的调制类型识别与参数估计,TN957.51
- 基于图像的路面破损识别,TP391.41
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 不同类型农药园区周边农田土壤—作物重金属分布特征及评价研究,X833
- 电磁散射体积分方程的H矩阵算法的研究,O175.5
- 基于核回归与非局部方法的图像去噪研究,TP391.41
- 胶囊内镜便携式接收系统及内镜图像出血识别算法研究,TP391.41
- 基于非参数统计高斯核函数特征量的网络流量异常检测方法,TP393.07
- 基于特征点空间信息分布直方图的匹配方法研究,TP391.41
- 基于广义组合多核高斯函数的图像分类方法研究,TP391.41
- 基于核自组织映射的时间序列预测研究,O211.61
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 基于支持向量机的故障诊断问题研究,TP18
- 粒子群优化算法及支持向量机应用研究,TP18
- 支持向量机核函数的参数选择方法,TP18
- 两个Hilbert空间中再生核函数的构造及数值逼近,O177.1
- 一类互补问题基于核函数的原始—对偶大步—校正内点算法,O221.2
- 黑曲霉脂肪酶盖子结构域突变对其活性影响的研究,TQ925
- 实时子结构试验数值积分方法研究,TU317
- 基于中阶模态的固定界面子结构精确综合,TB122
- 支持向量机的核方法及其多核聚类算法的研究,TP18
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|