学位论文 > 优秀研究生学位论文题录展示

组块识别技术的研究与实现

作 者: 邹宏梅
导 师: 王挺
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 句法分析 浅层分析 支持向量机(SVM) 基于转换的错误驱动学习 组块识别
分类号: TP391.1
类 型: 硕士论文
年 份: 2006年
下 载: 86次
引 用: 0次
阅 读: 论文下载
 

内容摘要


完全句法分析是当前自然语言处理中的一个难点和重点。为了降低完全句法分析的难度,研究人员提出了“分而治之”的策略,进行浅层分析也就是组块分析。在自然语言处理领域,组块分析对于句法分析、机器翻译和信息检索等都具有重要的理论意义与实际应用价值。本文对汉语和英语组块的分析方法和技术进行了研究。本文首先分析了当前句法分析所面临的困境和组块分析的重要性,并介绍了组块分析的研究现状以及组块分析的两条技术路线。随后对组块的界定方法进行了探讨。本文工作的目的之一是为建立英汉双语在短语级上的对齐提供良好的组块识别基础。因此,在现有研究的基础上,本文参考CoNLL-2000会议所定义的英语组块的标准,从句法功能的角度考虑,定义了5种组块类型。本文所用的实验语料是从宾州中英文树库中获取的,也就是根据本文对组块的定义和分类,从宾州中英文树库的句法树中获取汉语和英语组块库,进而转化成本文所需的实验语料。支持向量机(SVM)作为一种新兴的统计学习算法,在解决小样本、非线性以及高特征维数的样本学习问题中表现了其特有的优势。本文设计实现了一种SVM和基于转换的错误驱动学习相结合的组块识别方法。在SVM的组块识别的基础上,加入了基于转换的错误驱动学习方法对SVM的分析结果进行校正。将SVM分析结果和正确结果进行比较,不断学习和反馈,生成转换规则集合。转换规则较好地处理了语言现象中的特殊情况,进一步提高了SVM的识别结果。实验结果表明将SVM与基于转换的错误驱动学习相结合进行组块识别,有效地提高了组块识别的性能。本文设计了不同的实验方案,对影响SVM组块识别结果的各种因素:组块的定义、特征向量中的特征选取、语料库的规模进行了分析,实验中得出的结论对组块分析的研究工作有较好的参考作用。

全文目录


摘要  9-10
ABSTRACT  10-11
第一章 绪论  11-20
  1.1 研究背景和意义  11-13
    1.1.1 研究背景  11-12
    1.1.2 研究意义  12-13
  1.2 相关研究综述  13-17
    1.2.1 基于统计模型的组块分析  13-16
    1.2.2 基于规则的组块分析  16-17
  1.3 本文的主要研究工作  17-18
  1.4 本文的组织结构  18-20
第二章 组块的研究和定义  20-32
  2.1 引言  20
  2.2 组块的研究  20-26
    2.2.1 英语组块的现有研究  20-22
    2.2.2 汉语组块的现有研究  22-24
    2.2.3 本文对组块的界定  24-26
  2.3 组块的标注  26-27
  2.4 实验语料的获取  27-31
    2.4.1 宾州树库研究  27-28
    2.4.2 组块库的获取  28-31
  2.5 本章小结  31-32
第三章 SVM 理论和基于转换的错误驱动学习方法  32-40
  3.1 引言  32
  3.2 SVM 基本原理  32-35
    3.2.1 最优分类超平面  33-34
    3.2.2 广义最优分类超平面  34
    3.2.3 非线性可分最优分类超平面  34-35
  3.3 SVM 训练算法介绍  35-37
    3.3.1 块算法  36
    3.3.2 固定工作样本集的方法  36
    3.3.3 序贯最小优化算法(SMO)  36-37
  3.4 基于SVM 多类别分类方法  37-38
  3.5 基于转换的错误驱动学习方法  38-39
  3.6 本章小结  39-40
第四章 SVM 和基于转换的错误驱动学习相结合的组块识别  40-48
  4.1 引言  40
  4.2 机器学习中的特征选择  40-41
  4.3 SVM 特征向量的确定  41-43
    4.3.1 影响组块分析的语言特征  41-42
    4.3.2 SVM 特征向量的特征选取  42-43
  4.4 基于转换的错误驱动学习的规则获取  43-45
    4.4.1 初始状态标注器的构造  43-44
    4.4.2 转换规则模板的构造  44-45
    4.4.3 评价函数的定义  45
  4.5 系统的实现  45-46
  4.6 本章小结  46-48
第五章 实验结果及分析  48-65
  5.1 实验设置  48
  5.2 汉语组块识别结果及分析  48-51
    5.2.1 基于SVM 的汉语组块识别  48-49
    5.2.2 汉语组块的基于转换的错误驱动学习  49-51
  5.3 英语组块识别结果及分析  51-53
    5.3.1 基于SVM 的英语组块识别  51-52
    5.3.2 英语组块的基于转换的错误驱动学习  52-53
  5.4 影响SVM 组块分析结果的因素  53-63
    5.4.1 组块的定义对组块分析结果的影响  53-55
    5.4.2 特征选择对组块分析结果的影响  55-59
    5.4.3 学习曲线  59-63
  5.5 本章小结  63-65
第六章 结束语  65-67
  本文的研究工作  65-66
  今后的工作  66-67
致谢  67-68
参考文献  68-71
作者在学期间取得的学术成果  71

相似论文

  1. 基于句法特征的代词消解方法研究,TP391.1
  2. 面向统计机器翻译的解码算法的研究,TP391.2
  3. 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
  4. 语义网自动构建中句法分析的研究,TP391.1
  5. 基于SVM-RFE的潜在生物标志物选择算法研究,TP311.13
  6. 基于空间句法分析的城市地价与合理用地结构关系研究,F224;TU984.113
  7. 智能化教学中的情感识别方法研究,TP391.41
  8. 高速公路交通安全综合评价和瓶颈问题分析,U492.8
  9. 统计机器翻译中层次短语翻译模型的研究与实现,TP391.2
  10. 基于BCI多动作模式的ERD/ERS信号分析及识别方法的研究,TN911.6
  11. 基于对象语义的图像检索,TP391.41
  12. 基于贝叶斯分类方法的中文问句分类研究,TP391.1
  13. 基于数据库的自然语言查询技术研究与实现,TP391.1
  14. 基于知网和贝叶斯模型的词义消岐技术的研究,TP391.1
  15. 中文问答系统中问题分析关键技术的研究,TP391.1
  16. 基于条件随机场的汉语短语识别研究,TP391.1
  17. 基于支持向量机的地球同步轨道相对论电子事件预报方法研究,P353
  18. 支持向量机结合X11季节调整方法用于短期电力负荷预测,TP18
  19. “二程语录”被动式研究,H146
  20. 汉语联合短语结构分析与识别,H146
  21. 针对特征缺省数据集的模式识别方法与应用研究,TP391.4

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com