学位论文 > 优秀研究生学位论文题录展示

基于依存树的中文命名实体语义关系抽取的研究

作 者: 王苑
导 师: 徐德智
学 校: 中南大学
专 业: 计算机应用技术
关键词: 关系抽取 语法特征 启发式规则 模式权重因子 语义序列核
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 185次
引 用: 2次
阅 读: 论文下载
 

内容摘要


中文命名实体的语义关系抽取是关系抽取的一个重要研究方向。由于中文文本具有不同于英文文本的一些特有的语法特点,中文命名实体的语义关系抽取研究发展一直较为缓慢。中文文本多长句,长句中往往又包含着多个命名实体,该语法特点使得中文命名实体的语义关系抽取变的更加的困难。本文将着重在这方面进行研究。首先,论文简单介绍了课题的研究背景、概述了有关语义关系抽取研究的历史和发展状况、并重点阐述了有关中文命名实体语义关系抽取的几种有代表性的方法。接着,针对已有方法在处理复杂关系样例的实体关系抽取上的不足,本文提出了基于依存树的中文命名实体语义关系抽取的方法。该方法结合中文文本的语法特征,提出了七条启发式规则来提取实体间的关系特征,并采用加入模式权重因子的语义序列核函数和KNN机器学习算法联合构造分类器的方法来分类和标注关系的类型。最后,根据上述研究,本文设计并实现了基于依存树的中文命名实体语义关系抽取(CERE-DT)系统,并在此系统的基础上,利用网上收集的测试集对该系统的抽取效果进行了测试,同时采用信息抽取领域的准确率、召回率和F-测试值对实验数据进行了统计分析。从和已有方法的对比实验结果来看,此方法具有良好的效果。

全文目录


摘要  4-5
ABSTRACT  5-8
第一章 绪论  8-16
  1.1 课题研究背景  8-9
  1.2 语义关系抽取研究概述  9-13
    1.2.1 语义关系抽取研究发展史  9-12
    1.2.2 国内外研究现状  12-13
  1.3 研究的内容、目的和意义  13-14
  1.4 论文组织结构  14-16
第二章 命名实体语义关系抽取的相关技术  16-25
  2.1 基于特征向量的机器学习方法  16-18
    2.1.1 特征信息的选择  16-17
    2.1.2 特征信息的处理  17-18
  2.2 基于核函数的机器学习方法  18-23
    2.2.1 基于最短路径依存核函数的方法  19-21
    2.2.2 基于语义序列核函数的方法  21-23
  2.3 基于Bootstrapping的方法  23-24
  2.4 小结  24-25
第三章 基于依存树的语义关系抽取  25-37
  3.1 基于依存树的实体间关系特征的提取  25-31
    3.1.1 提取关系特征序列的启发式规则  27-30
    3.1.2 提取关系特征序列的过程  30-31
  3.2 关系特征序列的相似度计算  31-35
    3.2.1 基于语义序列核函数的相似度计算  31-33
    3.2.2 基于模式权重因子的相似度计算  33-35
  3.3 实体间语义关系类别获取  35
  3.4 小结  35-37
第四章 系统实现及实验分析  37-47
  4.1 系统结构及开发环境  37-42
    4.1.1 系统结构  37-41
    4.1.2 开发环境  41-42
  4.2 实验结果及分析  42-46
    4.2.1 测试数据集  42-43
    4.2.2 评价标准  43
    4.2.3 对比实验及分析结果  43-46
  4.3 小结  46-47
第五章 结论与展望  47-49
  5.1 研究工作及成果总结  47-48
  5.2 进一步研究方向  48-49
参考文献  49-55
致谢  55-56
攻读学位期间主要研究成果  56

相似论文

  1. 敦煌古藏文回向文写本及其语法特征研究,K870.6
  2. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  3. 基于CRF的命名实体和关系的联合抽取,TP391.4
  4. 多人共站装配线平衡问题的研究与优化,TG95
  5. 基于自学习的社会关系抽取的研究,TP391.1
  6. 互联网流量应用基准分类技术的研究,TP393.06
  7. 基于丰富特征和多核学习的蛋白质关系抽取,Q51
  8. 卫星对地观测需求分析方法及其应用研究,V474.26
  9. 面向概念查询的生物医学多文档摘要技术研究,TP391.1
  10. 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
  11. 日汉语拟声拟态词的对比研究,H36
  12. 蒙城方言动词研究,H17
  13. 基于分层需求的领域本体构建及语义标注方法研究,TP391.1
  14. 《金山寺梦游录》的语言特征研究,H55
  15. 现代汉语“一+量+形”结构的认知性研究,H146
  16. 中介语语法特征在高职英语学习中的表现及对教学的启示,H319
  17. 领域自适应的中文实体关系抽取研究,TP391.1
  18. 基于机器学习的蛋白质相互作用关系抽取的研究,Q51-3
  19. 基于Internet的商业信息抽取,TP399-C2
  20. 词汇功能语法下的汉语分裂句分析,H146
  21. 生成语法框架下并列结构的句法结构及语法特征研究,H043

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com