学位论文 > 优秀研究生学位论文题录展示
基于树核函数的汉语复句关系词特征分析
作 者: 罗越群
导 师: 杨进才
学 校: 华中师范大学
专 业: 计算机技术
关键词: 复句关系词 依存语法 短语结构语法 树核函数 特征分析
分类号: TP391.1
类 型: 硕士论文
年 份: 2014年
下 载: 0次
引 用: 0次
阅 读: 论文下载
内容摘要
中文信息处理的研究包括如下几个方面:字处理,词处理,句处理,篇章处理,其中句处理的研究包含对单句和复句的研究。现阶段,在字处理和词处理方面,已经进行了大量的研究,且取得了不错的效果;正在对句处理与篇章处理进行大量的研究。现有的很多有关句处理的研究主要集中在对单句的研究,对复句的研究工作较少。复句充当着连接小句和篇章的功能。通过对复句进行研究,能够进一步加深对小句的研究,同时,能够推动篇章处理的研究向前发展。因此,复句的研究显得具有紧迫性和必要性。复句的研究目标是正确标识复句,包含分句和非分句的识别,复句关系词的自动标识,复句层次的划分,复句关系的识别。复句关系词的自动标识是复句研究的核心内容之一。本论文提出了基于树核函数的复句关系词特征分析,其落脚点是复句关系词的自动标识。在含合用型关系词的复句中,相同的关系词,其句法特征信息具有某些相似性。本文分别选用不同策略从复句句法树中抽取特征序列,将树核函数应用于关系词特征序列之间的相似度计算。复句进行句法分析得到不同句法分析树形式,选用相对应的树核函数对从树中选取的关系词特征序列进行相似度计算。使用SVMLight分类器根据树核函数相似度的计算结果,对待标识关系词进行标识。在对合用型关系词自动标识过程中,树核函数的相似度计算所使用的特征序列分别为复句依存树中的最短路径包含树(SPT)和复句短语结构句法树中的上下文相关的路径包含树(CPT)时,分类器取得了特征序列各自所属复句句法树范畴的最佳标识效果。线性核和卷积核线性组合构成的复合核,将其用于关系词特征序列之间的相似度计算,SVMLight分类器根据此相似度计算结果对关系词进行标识,得到了最高的标识准确率。总结两件套形式的合用型关系词自动标识规律,将此规律应用于其它类型的关系词的自动标识当中。基于树核函数的复句关系词特征分析的实验结果表明,使用树核函数所捕获的特征信息对关系词自动标识是有效的。对于采用不同的策略获得的复句关系词特征序列,分别选用相对应的核函数用于特征序列之间的相似度计算,最终标识结果的差异性促使我们对特征选取策略以及核函数的形式进行进一步研究。
|
全文目录
摘要 5-6 Abstract 6-10 第一章 绪论 10-14 1.1 选题的背景及研究意义 10 1.2 研究现状 10-11 1.3 研究难点与创新 11-12 1.4 论文研究内容及目标 12 1.5 论文的组织结构 12-14 第二章 复句特征分析的关键技术 14-22 2.1 复句特征分析器 14-15 2.2 相关名词解释 15 2.3 关系词自动标识中规则的约束条件 15-17 2.4 汉语句法理论比较 17-19 2.4.1 短语结构语法 17-18 2.4.2 依存语法 18-19 2.5 支持向量机 19-21 2.5.1 非线性支持向量机 19-21 2.6 本章小结 21-22 第三章 基于树核的关系词特征信息的获取 22-46 3.1 复句句法树中关系词特征的选取 22-32 3.1.1 句法树中结构特征的选取 22-32 3.2 核函数方法简介及树核函数 32-38 3.2.1 核函数方法 32-33 3.2.2 线性核 33 3.2.3 卷积树核 33-35 3.2.4 依存树核 35-37 3.2.5 最短路径依赖核 37 3.2.6 复合核 37-38 3.3 关系词特征的相似度计算 38-40 3.3.1 卷积树核的特征相似度计算 38-39 3.3.2 依存树核的特征相似度计算 39 3.3.3 改进的最短路径依赖核的特征相似度计算 39-40 3.3.4 复合核的特征相似度计算 40 3.4 复句关系词的标识 40-45 3.4.1 根据特征序列相似度计算对关系词标识 40-41 3.4.2 复句关系词标识实例 41-45 3.5 本章小结 45-46 第四章 实验结果及分析 46-51 4.1 基于规则的关系词自动标识 46 4.2 基于依存树特征的关系词标识 46-47 4.3 基于短语结构树特征的关系词标识 47-50 4.3.1 卷积树核用于关系词的标识 48-49 4.3.2 线性核用于关系词的标识 49 4.3.3 复合核用于关系词的标识 49-50 4.4 本章小结 50-51 第五章 总结和展望 51-53 5.1 全文总结 51-52 5.2 进一步的研究工作 52-53 参考文献 53-57 校期间参加的科研项目和发表的论文 57-58 致谢 58
|
相似论文
- 基于核方法的高光谱图像异常检测算法研究,TP751
- 江苏省典型区域农村地表水环境现状空间分析及污染评价,S271
- 修辞的两重性初探,H05
- 基于中介语语料库的汉语递进复句习得研究,H195
- 基于雷达中频信号的脉内特征分析,TN957.51
- 阿勒泰地区中东部树木年轮气候重建与分析,S718.4
- 技术本科人才培养模式特征研究,G642.0
- 基于依存句法分析的互联网细粒度观点挖掘研究,TP391.1
- 小城市公交线网规划探讨,U491.17
- 心音信号特征分析与识别算法的研究,R318.04
- 网络舆情主体特征及其成因分析,G206
- 昆明旅游卫星账户(2008)的构建和实证分析,F592.7
- 基于KMV模型和符号数据分析的股票板块特征分析,F832.51
- 基于语义分析的汉语短语识别方法研究,TP391.43
- 北京地区冬季城市大气光化学特征分析,X131.1
- A大型综合交通工程进度管理体系构建研究,F542
- 基于多特征的Web页面分块算法MFPS的研究与实现,TP393.092
- 地震灾害遥感特征分析与信息提取技术研究,P237
- 基于依存树库的英语名词句法研究,H314.3
- 对软式排球正面扣球起跳瞬间—击球过网技术动作的运动学特征分析,G842
- 基于依存关系的中文语义角色标注研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|