学位论文 > 优秀研究生学位论文题录展示

汉语复句关系自动判定研究

作 者: 洪鹿平
导 师: 陈小荷
学 校: 南京师范大学
专 业: 语言学及应用语言学
关键词: 复句关系 复句切分 支持向量机 条件随机场 句法分析
分类号: H146.39.330
类 型: 硕士论文
年 份: 2008年
下 载: 208次
引 用: 1次
阅 读: 论文下载
 

内容摘要


中文信息处理已经完成了字处理,较好地解决了词处理,正在向句处理阶段迈进。汉语复句作为一种语法实体,上连分句,下连篇章,在分句和篇章之间起到了一个很好的衔接作用,同时兼有语法、语义和语用等多方面属性。然而,由于复句本身所具有的复杂且特殊结构,使得复句成为句处理中的一大亟待解决的难点。目前,对于复句的计算机处理研究不多见。汉语句子从结构上可以划分为单句和复句两大类。对于单句的研究主要侧重于句子成分以及成分之间关系的分析;对于复句来说则不仅仅是停留在成分分析这一层次上,还需要深入考察复句的直接构成单位——“分句”之间的内在联系。因此,本文在充分研究了复句的定义、单复句的差异以及复句分类等知识点的基础上,提出了“分而治之”的策略——首先实现复句的切分,然后在此基础上进一步实现复句关系的自动判定。本文的研究内容主要包括两个部分:第一部分是实现复句的切分。通过确定逗号的功能,来判定复句的切分点,将复句准确地划分为分句的有序集合:第二部分是复句关系的自动判定。对于分句间隐含的逻辑语义关系,我们通过充分挖掘句中所包含的词汇、词性的内在联系,最大化地利用句中存在的关联词语的指示作用,最终较好地实现了复句关系的自动判定。根据上述每一部分研究内容的特点,我们又分别选取了最佳的统计模型:支持向量机(SVM)和条件随机场(CRF)。为了使模型获得较好的分类精度,通过观察、分析大量相关的语言现象,将语言学本体知识融入到统计模型中,从而实现了模型的最优化。实验所使用的语料为TCT973树库(Tsinghua Chinese Treebank)。该树库目前已有100万汉字的规模。最终,各项实验的开放测试和封闭测试都取得了理想的效果。从分步实验来看,复句切分获得84.70%的正确率,复句关系的自动判定正确率最高达到94.86%;综合实验也达到了83.26%的正确率(以上报告的均为开放测试结果)。随着特征的改进以及关联词语标注信息的增多,系统有望取得更加好的判定效果。

全文目录


中文摘要  4-5
Abstract  5-6
第一章 前言  6-10
  1.1 课题的提出  6-7
  1.2 本文的研究内容  7-8
  1.3 本文的研究意义  8
  1.4 本文的研究方法  8-9
  1.5 章节安排  9-10
第二章 相关研究综述  10-18
  2.1 语言学本体方面的研究  10-15
  2.2 计算语言学领域的研究  15-17
  2.3 本章小结  17-18
第三章 基于SVM的汉语复句切分  18-37
  3.1 汉语复句切分策略  18-19
  3.2 汉语复句切分点的分类  19-21
  3.3 SVM介绍  21-24
  3.4 实验数据准备  24-29
  3.5 训练及测试  29-31
  3.6 初步实验结果  31-33
  3.7 实验改进及结果  33-35
  3.8 实验分析  35-37
第四章 基于CRF的汉语复句关系自动判定  37-52
  4.1 汉语复句及其分类的界定  37-38
  4.2 复句关系自动判定策略  38-39
  4.3 CRF介绍  39-44
  4.4 实验数据准备  44-47
  4.5 训练及测试  47-49
  4.6 实验小结  49-52
第五章 综合实验  52-54
  5.1 综合实验结果  52
  5.2 实验分析  52-54
结语  54-55
  主要结论  54
  未来工作  54-55
附录  55-59
  附录1 TCT样例及标记集  55-57
  附录2 关联词语表  57-59
参考文献  59-62
致谢  62

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  4. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  5. 音乐结构自动分析研究,TN912.3
  6. 基于三维重建的焊点质量分类方法研究,TP391.41
  7. 基于句法特征的代词消解方法研究,TP391.1
  8. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  9. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  10. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  11. 面向统计机器翻译的解码算法的研究,TP391.2
  12. 基于图像的路面破损识别,TP391.41
  13. 基于支持向量机的故障诊断方法研究,TP18
  14. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  15. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  16. 基于车载3D加速传感器的路况监测研究,TP274
  17. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  18. 基于机器学习的入侵检测系统研究,TP393.08
  19. 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
  20. 基于支持向量机的基因表达数据降维方法的研究,TP181
  21. 人类抗原肽载体结合力预测,R392.1

中图分类: > 语言、文字 > 汉语 > 语法 > 近代、现代语法 > 句法
© 2012 www.xueweilunwen.com