学位论文 > 优秀研究生学位论文题录展示
汉语复句关系自动判定研究
作 者: 洪鹿平
导 师: 陈小荷
学 校: 南京师范大学
专 业: 语言学及应用语言学
关键词: 复句关系 复句切分 支持向量机 条件随机场 句法分析
分类号: H146.39.330
类 型: 硕士论文
年 份: 2008年
下 载: 208次
引 用: 1次
阅 读: 论文下载
内容摘要
中文信息处理已经完成了字处理,较好地解决了词处理,正在向句处理阶段迈进。汉语复句作为一种语法实体,上连分句,下连篇章,在分句和篇章之间起到了一个很好的衔接作用,同时兼有语法、语义和语用等多方面属性。然而,由于复句本身所具有的复杂且特殊结构,使得复句成为句处理中的一大亟待解决的难点。目前,对于复句的计算机处理研究不多见。汉语句子从结构上可以划分为单句和复句两大类。对于单句的研究主要侧重于句子成分以及成分之间关系的分析;对于复句来说则不仅仅是停留在成分分析这一层次上,还需要深入考察复句的直接构成单位——“分句”之间的内在联系。因此,本文在充分研究了复句的定义、单复句的差异以及复句分类等知识点的基础上,提出了“分而治之”的策略——首先实现复句的切分,然后在此基础上进一步实现复句关系的自动判定。本文的研究内容主要包括两个部分:第一部分是实现复句的切分。通过确定逗号的功能,来判定复句的切分点,将复句准确地划分为分句的有序集合:第二部分是复句关系的自动判定。对于分句间隐含的逻辑语义关系,我们通过充分挖掘句中所包含的词汇、词性的内在联系,最大化地利用句中存在的关联词语的指示作用,最终较好地实现了复句关系的自动判定。根据上述每一部分研究内容的特点,我们又分别选取了最佳的统计模型:支持向量机(SVM)和条件随机场(CRF)。为了使模型获得较好的分类精度,通过观察、分析大量相关的语言现象,将语言学本体知识融入到统计模型中,从而实现了模型的最优化。实验所使用的语料为TCT973树库(Tsinghua Chinese Treebank)。该树库目前已有100万汉字的规模。最终,各项实验的开放测试和封闭测试都取得了理想的效果。从分步实验来看,复句切分获得84.70%的正确率,复句关系的自动判定正确率最高达到94.86%;综合实验也达到了83.26%的正确率(以上报告的均为开放测试结果)。随着特征的改进以及关联词语标注信息的增多,系统有望取得更加好的判定效果。
|
全文目录
中文摘要 4-5 Abstract 5-6 第一章 前言 6-10 1.1 课题的提出 6-7 1.2 本文的研究内容 7-8 1.3 本文的研究意义 8 1.4 本文的研究方法 8-9 1.5 章节安排 9-10 第二章 相关研究综述 10-18 2.1 语言学本体方面的研究 10-15 2.2 计算语言学领域的研究 15-17 2.3 本章小结 17-18 第三章 基于SVM的汉语复句切分 18-37 3.1 汉语复句切分策略 18-19 3.2 汉语复句切分点的分类 19-21 3.3 SVM介绍 21-24 3.4 实验数据准备 24-29 3.5 训练及测试 29-31 3.6 初步实验结果 31-33 3.7 实验改进及结果 33-35 3.8 实验分析 35-37 第四章 基于CRF的汉语复句关系自动判定 37-52 4.1 汉语复句及其分类的界定 37-38 4.2 复句关系自动判定策略 38-39 4.3 CRF介绍 39-44 4.4 实验数据准备 44-47 4.5 训练及测试 47-49 4.6 实验小结 49-52 第五章 综合实验 52-54 5.1 综合实验结果 52 5.2 实验分析 52-54 结语 54-55 主要结论 54 未来工作 54-55 附录 55-59 附录1 TCT样例及标记集 55-57 附录2 关联词语表 57-59 参考文献 59-62 致谢 62
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 基于句法特征的代词消解方法研究,TP391.1
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 面向统计机器翻译的解码算法的研究,TP391.2
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 基于车载3D加速传感器的路况监测研究,TP274
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 基于机器学习的入侵检测系统研究,TP393.08
- 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
- 基于支持向量机的基因表达数据降维方法的研究,TP181
- 人类抗原肽载体结合力预测,R392.1
中图分类: > 语言、文字 > 汉语 > 语法 > 近代、现代语法 > 句法
© 2012 www.xueweilunwen.com
|