学位论文 > 优秀研究生学位论文题录展示
基于分类器融合的生物医学命名实体与关系识别研究
作 者: 马民艳
导 师: 马瑞民
学 校: 东北石油大学
专 业: 计算机应用技术
关键词: 生物医学命名实体识别 生物医学命名实体关系识别 特征提取 单分类器 分类器融合
分类号: TP391.4
类 型: 硕士论文
年 份: 2011年
下 载: 10次
引 用: 0次
阅 读: 论文下载
内容摘要
生物医学命名实体识别与关系识别是生物医学文本挖掘的基本任务。目前,国内外用于该方面研究的大部分识别模型是建立在单个机器学习算法的基础上,没有一种算法能够取得非常好的效果,这就说明单一算法不能够达到高效率识别的目的。通过对各种统计学习方法的分析可以发现,不同的学习模型之间存在着互补性和相关性,所以分类器融合是一种改进的新思路。本文主要从两个方面进行了深入研究:1、基于单分类器和多分类器融合的生物医学命名实体识别研究。首先研究了基于单分类器的生物医学命名实体识别,采用最大熵算法和条件随机域算法,对Yapex语料中的蛋白质名称进行了识别。系统中结合了丰富的特征集,我们引入缩写词识别模块、边界扩展模块和过滤器模块进行后处理。接着,针对存在的问题,我们研究了基于多分类器融合的生物医学命名实体识别,提出了一种融合方法,即把条件随机域算法与最大熵算法进行有机融合,利用不同学习模型之间存在的互补性和相关性,进一步提高了生物医学命名实体识别的性能。2、基于单分类器和多分类器融合的生物医学命名实体关系识别研究。我们主要研究了蛋白质相互作用关系识别,着重分析蛋白质相互作用关系的特点,抽取出各种浅层语言学特征,包括交互蛋白质实体对特征、关键词特征、语块特征、上下文环境特征等。基于有效的浅层语言学特征,先采用单分类器方法进行识别,针对单分类器方法存在的片面性,考虑到不同分类模型的分类结果之间具有的互补性和相关性,采用同样的融合方法,对蛋白质相互作用关系进行识别,取得了较好的识别性能。
|
全文目录
摘要 4-5 ABSTRACT 5-6 创新点摘要 6-9 前言 9-10 第一章 概述 10-17 1.1 生物医学文本信息抽取 10-11 1.2 生物医学命名实体识别 11-13 1.3 生物医学命名实体关系识别 13-14 1.4 评测标准 14-15 1.5 重要国际评测会议 15-17 第二章 基于单分类器的生物医学命名实体识别 17-29 2.1 引言 17 2.2 分类器模型 17-20 2.2.1 最大熵模型 17-19 2.2.2 条件随机域模型 19-20 2.3 特征选择 20-22 2.4 基于最大熵模型的蛋白质名称识别 22-26 2.4.1 模糊匹配算法 22-23 2.4.2 规则过滤 23-24 2.4.3 缩写词识别 24-25 2.4.4 左右边界扩展 25 2.4.5 实验结果与分析 25-26 2.5 基于条件随机域模型的生物医学命名实体识别 26-27 2.5.1 特征选择 26 2.5.2 缩写词识别 26 2.5.3 修改边界错误 26 2.5.4 其他识别策略 26-27 2.5.5 实验结果与分析 27 2.6 本章小结 27-29 第三章 基于分类器融合的生物医学命名实体识别 29-39 3.1 引言 29 3.2 多分类器融合基本理论 29-34 3.2.1 基本分类器的联系 31 3.2.2 获得不同基本分类器方法 31-33 3.2.3 融合基本分类器方法 33-34 3.3 基于分类器融合的生物医学命名实体识别方法 34-38 3.3.1 融合方法 34-35 3.3.2 特征提取 35-36 3.3.3 缩写词识别 36 3.3.4 嵌套识别 36 3.3.5 实验结果与分析 36-38 3.4 本章小结 38-39 第四章 蛋白质相互作用关系识别 39-49 4.1 引言 39 4.2 识别命名实体关系有关方法 39-41 4.2.1 数据知识库识别方法 39-40 4.2.2 机器学习识别方法 40 4.2.3 模式识别方法 40-41 4.3 生物医学命名实体关系评测语料及评价方法 41 4.4 基于浅层语言学特征识别蛋白质相互作用关系 41-44 4.5 实验结果与分析 44-45 4.6 基于分类器融合的蛋白质相互作用关系识别 45-48 4.6.1 选用的特征集合 45-46 4.6.2 融合分类器的构建 46 4.6.3 实验结果与分析 46-48 4.7 本章小结 48-49 结论 49-51 参考文献 51-56 发表文章目录 56-57 致谢 57-58 详细摘要 58-66
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
- 红外图像目标识别及跟踪技术研究,TP391.41
- 水下目标特征的压缩与融合技术研究,TN911.7
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置
© 2012 www.xueweilunwen.com
|