学位论文 > 优秀研究生学位论文题录展示

无监督的中文实体关系抽取研究

作 者: 王晶
导 师: 杨静
学 校: 华东师范大学
专 业: 计算机应用技术
关键词: 关系抽取 特征获取 语法特征 启发式规则 聚类算法
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 150次
引 用: 2次
阅 读: 论文下载
 

内容摘要


随着信息技术的发展,尤其是互联网的发展,大量的信息以电子文本形式出现在人们面前。面对信息爆炸带来的挑战,人们迫切需要一些能从海量数据中迅速获得有用信息的自动化的工具,信息抽取技术正是在这种背景下产生了。与此同时,实体关系抽取作为信息抽取的重要组成部分也受到了越来越多的关注。目前,相关研究工作者对实体关系抽取的研究方向主要集中在有监督和弱监督的机器学习方法上,并且已经在相关领域取得了初步成果。但有监督和弱监督方法的最大不足是无法自动识别出未预先定义好的关系,所以研究者们开始对无监督的关系抽取方法进行研究。总的来说对无监督关系抽取方法的研究还存在一些不足之处,如特征获取不准确、聚类结果不合理、关系抽取结果准确率较低,针对中文语料进行研究较少等。本文对无监督的中文实体关系抽取方法进行了改进,具体表现在以下两个方面:一方面,提出了一种基于启发式规则的特征获取算法,该算法结合中文语法特征,提出了五条启发式规则进行实体之间关系特征获取,通过对五条规则的应用,可以获得更加有效的实体对的上下文特征:另一方面,在对实体对进行聚类时,根据聚类算法本身的优缺点及数据集的特征提出了一种新的聚类算法,该算在k-means聚类算法的基础上,引入了联合聚类思想,这样不仅利用了k-means算法自身简单、快速的优点,而且充分利用了实体对与关系特征描述之间的二元性特征,最终获得了更加合理聚类结果。最后,本文设计并实现了改进的无监督中文关系抽取方法的原型系统。为了验证文中提出的两个改进算法对无监督关系抽取性能的影响,作者利用从网上收集的数据集对系统的实际效果进行了实验,同时,从与传统的特征获取算法和k-means聚类算法应用在无监督关系抽取方法中的对比实验结果来看,将本文提出的两个改进算法同时应用在系统中时,会获得更高的准确率。

全文目录


摘要  6-7
ABSTRACT  7-9
目录  9-12
第一章 绪论  12-17
  1.1 论文研究背景及意义  12
  1.2 国内外研究现状及分析  12-15
    1.2.1 国内外研究现状介绍  12-14
    1.2.2 国内外研究现状分析  14-15
  1.3 论文研究内容  15-16
  1.4 论文组织结构  16-17
第二章 无监督关系抽取方法研究相关工作  17-30
  2.1 无监督关系抽取方法介绍  17-18
  2.2 无监督关系抽取方法中关键点分析  18-29
    2.2.1 关系特征获取方法分析  18-24
      2.2.1.1 特征信息表示形式分析  18-21
      2.2.1.2 传统的关系特征获取方法分析  21-23
      2.2.1.3 无监督关系抽取中特征获取方法分析  23-24
    2.2.2 实体对聚类方法分析  24-29
      2.2.2.1 聚类介绍  24-25
      2.2.2.2 传统的聚类方法分析  25-28
      2.2.2.3 无监督关系抽取中聚类方法分析  28-29
  2.3 本章小结  29-30
第三章 无监督关系抽取中关系特征获取改进算法  30-40
  3.1 文中重要术语定义  30-31
  3.2 算法要解决的问题  31-32
  3.3 关系特征获取改进算法  32-38
    3.3.1 关系特征获取的启发式规则  32-36
    3.3.2 关系特征获取改进算法步骤  36-38
  3.4 算法优点  38-39
  3.5 本章小结  39-40
第四章 无监督关系抽取中聚类改进算法  40-51
  4.1 数据二元性分析  40-41
  4.2 算法要解决的问题  41-42
  4.3 基于k-means的联合聚类算法  42-49
    4.3.1 联合聚类思想引入  42-43
    4.3.2 算法步骤介绍  43-45
    4.3.3 算法中聚类数设定  45-47
    4.3.4 算法中相似度量  47-49
    4.3.5 算法终止条件  49
  4.4 算法优点  49-50
  4.5 本章小结  50-51
第五章 改进的无监督关系抽取方法实现及分析  51-63
  5.1 改进的无监督关系抽取方法原型系统设计与实现  51-53
    5.1.1 系统总体框架描述  51-53
    5.1.2 系统开发环境  53
  5.2 改进的无监督关系抽取方法性能实验及分析  53-62
    5.2.1 实验数据集  53-54
    5.2.2 评价标准  54-55
    5.2.3 实验结果及分析  55-62
      5.2.3.1 最优聚类数获取实验  55-58
      5.2.3.2 DCM关系标注结果  58-60
      5.2.3.3 系统实验结果及分析  60-62
  5.3 本章小结  62-63
第六章 总结与展望  63-66
  6.1 论文工作总结  63-64
  6.2 工作展望  64-66
附录一 作者攻读硕士学位期间发表的学术论文  66
附录二 作者攻读硕士学位期间参与的科研项目  66-67
参考文献  67-70
后记  70

相似论文

  1. K-均值聚类算法的研究与改进,TP311.13
  2. 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
  3. 基于变异粒子群的聚类算法研究,TP18
  4. K-means聚类优化算法的研究,TP311.13
  5. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  6. 基于遗传算法和粗糙集的聚类算法研究,TP18
  7. SAR干涉像对优化选取方法研究,P225.2
  8. 吐蕃简牍文献内容及其语法特征研究,K877.5
  9. 敦煌古藏文回向文写本及其语法特征研究,K870.6
  10. 基于粒子群优化的Fuzzy c-mean聚类算法的基因芯片图像处理,TP391.41
  11. 赣州方言形容词生动形式研究,H17
  12. 蛋白质关系抽取中平面特征和结构化信息的研究,TP181
  13. 基于聚类的英汉人名消歧研究,TP391.1
  14. 基于启发式规则的供应链协同调度问题仿真研究,F224
  15. 数据挖掘技术在高职教师绩效考核中的应用研究,TP311.13
  16. 模糊C均值聚类算法的相关问题研究,TP311.13
  17. 空间路径聚类算法的建模与研究,TP311.13
  18. 蛋白质相互作用网络实验对比分析,Q51
  19. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  20. Web数据挖掘技术在网络教育论坛中的应用研究,G434
  21. 改进分水岭算法在医学图像分割中的应用研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com