学位论文 > 优秀研究生学位论文题录展示

数值信息的抽取方法研究

作 者: 毋菲
导 师: 郑家恒
学 校: 山西大学
专 业: 计算机应用技术
关键词: 数值信息 实体特征值 事件论元值 决策树 Stanford parser
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 39次
引 用: 0次
阅 读: 论文下载
 

内容摘要


数值信息是文本中事件或实体的一些特定的附加信息,与实体的表现形式类似并以其属性为特征出现的。数值信息分为两类:一类是描述实体特征的值,比如分数、货币数以及一些电话号码和域名信息等;另一类是描述事件特征的值,比如对于犯罪这一事件,其中该犯罪事件的罪名、判刑期限,就是我们要抽取的数值信息,再比如在发生人事调动事件时,发生变动的职位信息也属于数值信息的范畴。数值信息的抽取也是中文信息抽取中的又一重要研究方向,它对自然语言处理的许多领域都有极其重要的研究意义,比如机器翻译、问答系统、信息检索等方向。目前国内的研究主要集中在对事件以及命名实体的抽取上,对该方向的研究并不是很多,其抽取方法也同样集中在两个方面,一是基于规则的方法,根据数值信息本身的特点以及上下文环境,结合内部和外部的特征制定相应的规则进行抽取,虽然准确率很高但可移植性不强。另一方面是基于统计的方法,最常用的就是HMM、Entropy Model还有CRF等,统计的方法大多是基于模型的方法,可移植性强,相对付出的代价小,因此也是自然语言处理中常用的方法。本文的主要研究工作有以下几个方面:(1)用1998年1月份人民日报语料作为测试语料,搜集要抽取的第一类数值信息的特征,挑选出合适的特征并建立规则集。(2)对于第二类数值信息,从语料中找出可以决定事件发生的触发词,并抽取该触发词的上下文特征,利用决策树的方法找出确定含有目标词的语句。(3)对抽取出的语句进行预处理,只保留分词后的结果,构建文本集。利用Stanford parser对文本集进行句法分析,生成句法树以及句法树的文本表示。(4)从句法树中找出要抽取数值信息的特征,从而进行相应的抽取,并对实验结果进行分析。本文中对两类数值信息分别采用不同的方法进行处理。对于有关实体特征的数值信息,由于特征明显我们使用规则的方法进行抽取;对于有关事件特征的数值信息,由于规则性不强,我们采用决策树和句法分析相结合的方法进行研究,实验结果表明该方法是可行的,在封闭测试中准确率和召回率均在70%左右,达到了比较好的结果。最后,本文对实验中的错误实例进行分析研究,找出问题所在并提出了相应的解决方案。在今后的研究中将会进一步扩大语料规模,对数值信息的抽取做更深入的研究。

全文目录


中文摘要  8-10
ABSTRACT  10-12
第一章 引言  12-18
  1.1 研究背景与意义  12-13
  1.2 数值信息抽取的主要研究内容  13-14
    1.2.1 实体特征值(ECV)  13
      1.2.1.1 Numeric  13
      1.2.1.2 Contact-info  13
    1.2.2 事件论元值(EAV)  13-14
      1.2.2.1 Crime  14
      1.2.2.2 Sentence  14
      1.2.2.3 Job-title  14
  1.3 数值信息抽取的困难  14-15
  1.4 论文的主要工作  15-16
  1.5 论文结构  16-18
第二章 有关数值信息的分析  18-20
  2.1 实体特征值的分析  18-19
    2.1.1 实体特征值的分类  18
    2.1.2 实体特征值的分析  18-19
  2.2 事件论元值的分析  19-20
    2.2.1 事件论元值的分类  19
    2.2.2 事件论元值的分析  19-20
第三章 实体特征值的抽取策略  20-26
  3.1 基于规则的抽取策略  20
  3.2 特征提取  20-26
第四章 事件论元值的抽取策略  26-38
  4.1 决策树算法的介绍  26-27
  4.2 属性的选取  27-28
  4.3 决策树的生成  28-29
  4.4 基于句法分析的事件论元值识别  29-36
    4.4.1 句法分析简介  29-30
    4.4.2 事件论元值的识别  30-36
  4.5 基于规则的事件论元值抽取  36-38
第五章 实验结果与分析  38-44
  5.1 实验语料  38
  5.2 评价指标  38
  5.3 实验结果及分析  38-44
结论与展望  44-46
参考文献  46-50
攻读学位期间取得的研究成果  50-51
致谢  51-52
个人简况及联系方式  52-54

相似论文

  1. 基于支持向量机的故障诊断方法研究,TP18
  2. 教学质量评估数据挖掘系统设计与开发,TP311.13
  3. 基于学生评教数据挖掘与教学质量分析系统的研究,TP311.13
  4. 基于粗糙集理论的决策树分类算法与应用研究,TP18
  5. 基于核心示例集的属性约简方法研究,O159
  6. 基于广义信息熵的决策树模型及其在绩效评价中的应用,TP18
  7. 基于改进的ID3算法的蛋白质纯化方法研究,Q51
  8. 五种决策树算法的比较研究,TP311.13
  9. 信用卡风险管理技术及利润预测模型,F224
  10. 汉语语音合成系统的改进与实现,TN912.33
  11. 中国15岁以上人群乙型肝炎免疫预防的决策分析模型研究,R392.1
  12. 广州市乙肝相关疾病经济负担及1~14岁人群乙肝疫苗接种策略研究,R186
  13. 基于数据挖掘的故障诊断方法研究,TP311.13
  14. 数据挖掘在研究生调剂中的应用研究,TP311.13
  15. 基于决策树分类算法的Web文本分类研究,TP391.1
  16. 基于决策树的短期负荷预测系统研究与实现,TM715
  17. 航次知识发现及其应用研究,F552.6
  18. 某型主动雷达制导导弹的通用自动测试设备研究,TJ760.6
  19. 南方针叶林遥感信息提取研究,TP79
  20. 中国乙肝疫苗接种效果追踪决策研究,R186
  21. 基于决策树和遗传算法的神经网络研究及应用,TP183

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com