学位论文 > 优秀研究生学位论文题录展示

基于多层学习的病历实体识别算法设计与实现

作 者: 彭新茗
导 师: 赵大哲
学 校: 东北大学
专 业: 计算机应用技术
关键词: 电子病历 病历实体 本体 条件随机场 决策树
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 4次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着医疗信息化的快速发展,医疗机构在临床诊断过程中产生了大量的原始病历数据。由于电子病历多为非结构化、叙述性文本,不能较好地存储、组织和管理病历中的临床信息,因此电子病历文本信息很难被充分利用。在医疗科研领域中,病历实体识别的准确性和鲁棒性,以及病历实体组织存储模型的标准化和共享化成为对电子病历文本信息抽取的重要步骤。智能的临床系统要求病历实体模型在描述实体本身的同时,还需要进一步描述实体间的语义关系。通过对电子病历文本进行病历实体识别,进一步语义关系的识别,可以完成电子病历的结构化,从而支持现代临床系统的需求。命名实体识别作为文本信息提取的一项基本研究任务,用于将文本中描述的领域信息以命名实体的形式识别出来,并将其使用预先定义的命名实体标记符号进行标注。本文将命名实体识别技术应用于电子病历文本,对命名实体进行了广义定义,将电子病历中的命名实体称为病历实体,设计并实现了基于多层学习的病历实体识别算法。本文首先分析了电子病历特点,定义了所需识别的病历实体,分析病历实体含义及实体间关系,设计了一种面向病历实体、描述和关系的临床病历本体模型。然后设计了基于多层学习的病历实体识别算法,该算法的各层为:基于CRF的病历实体识别算法,以字为分割单位对病历文本进行分割,标记训练文本,训练CRF识别模型,完成病历实体的初识别;基于决策树的病历实体识别算法,将病历实体识别任务转化为病历实体分类任务,使用决策树算法作为分类算法训练分类器,对初识别结果进行修正;基于先验规则的病历实体识别算法,分析病历实体的构成,定义复杂病历实体符合的先验规则集合,对前两层的识别结果进行整合。最后本文在基于多层学习的病历实体识别实验平台中对该算法进行测试,实验证明,该算法对病历实体进行识别时具有很高的识别准确率及召回率,符合医生的临床应用需求,并且该算法具有很好的鲁棒性。

全文目录


摘要  5-6
Abstract  6-11
第1章 绪论  11-17
  1.1 课题背景  11-12
  1.2 现状分析  12-14
    1.2.1 文本分析与文本特征  12-13
    1.2.2 信息抽取与医学文本命名实体识别  13-14
  1.3 课题内容与论文结构  14-17
    1.3.1 课题内容  15
    1.3.2 论文结构  15-17
第2章 相关理论概述  17-25
  2.1 命名实体识别概述  17-22
    2.1.1 命名实体定义  17-18
    2.1.2 命名实体识别方法  18-21
    2.1.3 命名实体识别难点  21-22
  2.2 本体概述  22-24
    2.2.1 本体定义  22-23
    2.2.2 本体构建规则  23-24
    2.2.3 本体应用  24
  2.3 本章小结  24-25
第3章 病历实体建模与多层学习的病历实体识别算法总体设计  25-39
  3.1 电子病历特点  25-26
  3.2 基于本体的病历实体模型  26-32
    3.2.1 病历实体定义  26-29
    3.2.2 基于本体的病历实体建模  29-32
  3.3 多层学习的病历实体识别  32-38
    3.3.1 临床病历本体特点  33-34
    3.3.2 多层学习的病历实体识别框架设计  34-36
    3.3.3 多层学习的病历实体识别算法设计  36-38
  3.4 本章小结  38-39
第4章 多层学习的病历实体识别算法详细设计  39-63
  4.1 基于CRF的病历实体识别  39-51
    4.1.1 CRF模型原理概述  39-41
    4.1.2 基于CRF的病历实体识别算法设计  41-51
  4.2 基于决策树的病历实体识别  51-59
    4.2.1 决策树分类方法概述  51-55
    4.2.2 基于决策树的病历实体识别算法设计  55-59
  4.3 基于先验规则的病历实体识别  59-62
    4.3.1 病历实体先验规则定义  60-61
    4.3.2 基于先验规则的病历实体识别算法设计  61-62
  4.4 本章小结  62-63
第5章 基于多层学习的病历实体识别算法实现与性能分析  63-77
  5.1 基于多层学习的病历实体识别算法实现  63-68
    5.1.1 初识别层实现  63-64
    5.1.2 修正识别层实现  64-66
    5.1.3 整合识别层实现  66-67
    5.1.4 结果输出层实现  67-68
  5.2 实验结果与性能分析  68-76
    5.2.1 实验数据  68-69
    5.2.2 实验与分析  69-76
  5.3 本章小结  76-77
第6章 总结与展望  77-79
  6.1 总结  77-78
  6.2 展望  78-79
参考文献  79-83
致谢  83

相似论文

  1. 基于支持向量机的故障诊断方法研究,TP18
  2. 哲学思想在指导中学数学教学中的作用,G633.6
  3. 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
  4. 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
  5. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  6. 拉图尔的行动者网络理论研究,N02
  7. 俄语外来词的本土化及其深层解读,H35
  8. 二十世纪五十至六十年代中国儿童歌曲研究,J609.2
  9. 数据挖掘在高职院校学生成绩分析中的应用,TP311.13
  10. 低黄变亲水性有机硅柔软剂的开发与应用研究,TS195.23
  11. 基于领域本体的专利地图研究,TP391.1
  12. 基于数据挖掘的个性化在线教学辅助系统的研究与设计,TP311.13
  13. 基于数据挖掘的课程考核与分析决策系统的设计和实现,TP311.13
  14. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  15. 教学质量评估数据挖掘系统设计与开发,TP311.13
  16. 基于本体的食品投诉文档文本分类研究,TP391.1
  17. 评价对象抽取研究,TP391.1
  18. 基于SOA构架的社区医疗管理系统研究与实现,TP311.52
  19. RDF/RDFS到关系数据库模式映射方法的研究,TP311.13
  20. 基于本体的果树病虫害知识表示与推理的研究,S126
  21. 汉语嵌套命名实体识别方法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com