学位论文 > 优秀研究生学位论文题录展示
数值信息的抽取方法研究
作 者: 毋菲
导 师: 郑家恒
学 校: 山西大学
专 业: 计算机应用技术
关键词: 数值信息 实体特征值 事件论元值 决策树 Stanford parser
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 39次
引 用: 0次
阅 读: 论文下载
内容摘要
数值信息是文本中事件或实体的一些特定的附加信息,与实体的表现形式类似并以其属性为特征出现的。数值信息分为两类:一类是描述实体特征的值,比如分数、货币数以及一些电话号码和域名信息等;另一类是描述事件特征的值,比如对于犯罪这一事件,其中该犯罪事件的罪名、判刑期限,就是我们要抽取的数值信息,再比如在发生人事调动事件时,发生变动的职位信息也属于数值信息的范畴。数值信息的抽取也是中文信息抽取中的又一重要研究方向,它对自然语言处理的许多领域都有极其重要的研究意义,比如机器翻译、问答系统、信息检索等方向。目前国内的研究主要集中在对事件以及命名实体的抽取上,对该方向的研究并不是很多,其抽取方法也同样集中在两个方面,一是基于规则的方法,根据数值信息本身的特点以及上下文环境,结合内部和外部的特征制定相应的规则进行抽取,虽然准确率很高但可移植性不强。另一方面是基于统计的方法,最常用的就是HMM、Entropy Model还有CRF等,统计的方法大多是基于模型的方法,可移植性强,相对付出的代价小,因此也是自然语言处理中常用的方法。本文的主要研究工作有以下几个方面:(1)用1998年1月份人民日报语料作为测试语料,搜集要抽取的第一类数值信息的特征,挑选出合适的特征并建立规则集。(2)对于第二类数值信息,从语料中找出可以决定事件发生的触发词,并抽取该触发词的上下文特征,利用决策树的方法找出确定含有目标词的语句。(3)对抽取出的语句进行预处理,只保留分词后的结果,构建文本集。利用Stanford parser对文本集进行句法分析,生成句法树以及句法树的文本表示。(4)从句法树中找出要抽取数值信息的特征,从而进行相应的抽取,并对实验结果进行分析。本文中对两类数值信息分别采用不同的方法进行处理。对于有关实体特征的数值信息,由于特征明显我们使用规则的方法进行抽取;对于有关事件特征的数值信息,由于规则性不强,我们采用决策树和句法分析相结合的方法进行研究,实验结果表明该方法是可行的,在封闭测试中准确率和召回率均在70%左右,达到了比较好的结果。最后,本文对实验中的错误实例进行分析研究,找出问题所在并提出了相应的解决方案。在今后的研究中将会进一步扩大语料规模,对数值信息的抽取做更深入的研究。
|
全文目录
中文摘要 8-10 ABSTRACT 10-12 第一章 引言 12-18 1.1 研究背景与意义 12-13 1.2 数值信息抽取的主要研究内容 13-14 1.2.1 实体特征值(ECV) 13 1.2.1.1 Numeric 13 1.2.1.2 Contact-info 13 1.2.2 事件论元值(EAV) 13-14 1.2.2.1 Crime 14 1.2.2.2 Sentence 14 1.2.2.3 Job-title 14 1.3 数值信息抽取的困难 14-15 1.4 论文的主要工作 15-16 1.5 论文结构 16-18 第二章 有关数值信息的分析 18-20 2.1 实体特征值的分析 18-19 2.1.1 实体特征值的分类 18 2.1.2 实体特征值的分析 18-19 2.2 事件论元值的分析 19-20 2.2.1 事件论元值的分类 19 2.2.2 事件论元值的分析 19-20 第三章 实体特征值的抽取策略 20-26 3.1 基于规则的抽取策略 20 3.2 特征提取 20-26 第四章 事件论元值的抽取策略 26-38 4.1 决策树算法的介绍 26-27 4.2 属性的选取 27-28 4.3 决策树的生成 28-29 4.4 基于句法分析的事件论元值识别 29-36 4.4.1 句法分析简介 29-30 4.4.2 事件论元值的识别 30-36 4.5 基于规则的事件论元值抽取 36-38 第五章 实验结果与分析 38-44 5.1 实验语料 38 5.2 评价指标 38 5.3 实验结果及分析 38-44 结论与展望 44-46 参考文献 46-50 攻读学位期间取得的研究成果 50-51 致谢 51-52 个人简况及联系方式 52-54
|
相似论文
- 基于支持向量机的故障诊断方法研究,TP18
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 基于学生评教数据挖掘与教学质量分析系统的研究,TP311.13
- 基于粗糙集理论的决策树分类算法与应用研究,TP18
- 基于核心示例集的属性约简方法研究,O159
- 基于广义信息熵的决策树模型及其在绩效评价中的应用,TP18
- 基于改进的ID3算法的蛋白质纯化方法研究,Q51
- 五种决策树算法的比较研究,TP311.13
- 信用卡风险管理技术及利润预测模型,F224
- 汉语语音合成系统的改进与实现,TN912.33
- 中国15岁以上人群乙型肝炎免疫预防的决策分析模型研究,R392.1
- 广州市乙肝相关疾病经济负担及1~14岁人群乙肝疫苗接种策略研究,R186
- 基于数据挖掘的故障诊断方法研究,TP311.13
- 数据挖掘在研究生调剂中的应用研究,TP311.13
- 基于决策树分类算法的Web文本分类研究,TP391.1
- 基于决策树的短期负荷预测系统研究与实现,TM715
- 航次知识发现及其应用研究,F552.6
- 某型主动雷达制导导弹的通用自动测试设备研究,TJ760.6
- 南方针叶林遥感信息提取研究,TP79
- 中国乙肝疫苗接种效果追踪决策研究,R186
- 基于决策树和遗传算法的神经网络研究及应用,TP183
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|