学位论文 > 优秀研究生学位论文题录展示

信息抽取中中文命名实体识别技术的研究

作 者: 崔向阳
导 师: 王小玉
学 校: 哈尔滨理工大学
专 业: 计算机应用技术
关键词: 信息抽取 中文命名实体识别 分级时序记忆模型 隐马尔科夫模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 4次
引 用: 0次
阅 读: 论文下载
 

内容摘要


信息抽取的目的是将文本中的信息按照需求进行提取,并将需要的信息进行结构化表示。在信息抽取的各个关键技术中,命名实体识别是一项重要而且基础的技术。命名实体是自然语言文本中最基本的单位,是文本中的固有名称和唯一标识,只有保证对命名实体的准确识别,才能对正确理解文本进行保证。命名实体识别是指对文本中命名实体的识别,在中文命名实体识别中这一过程通常为分词和命名实体标注。命名实体识别是自然语言处理领域的基础技术和关键技术,在许多相关领域起重要作用,如信息抽取、文本分类、信息检索和自动问答等。中文命名实体识别在中文信息处理中占据关键地位,近年来这一技术在各个领域的应用越来越广泛,中文命名实体识别的应用价值也越来越高。本文主要从若干网页的文本中,进行人名、地名和机构名的命名实体识别研究。主要研究内容包括:1.对中文命名实体识别进行介绍,并对其中的人名、地名和机构名的识别难点进行了详细分析和研究。2.通过隐马尔科夫模型和分级时序记忆模型对命名实体识别的测试。隐马尔科夫统计模型经过多年的应用,在效率和实现的成熟度上都较为优秀,而分级时序记忆模型是近年来出现的较为优秀的一种机器学习方法。3.对隐马尔科夫模型和分级时序记忆模型针对命名实体识别测试的实验结果进行分析和比较。隐马尔科夫统计模型经过多年的研究,经过调优之后可以得到较好的性能,但是传统的隐马尔科夫统计模型并没有充分的利用文本中的上下文信息。本文引入分级时序记忆模型进行中文命名实体识别,提高了实体识别的性能和效率。实验证明分级时序记忆模型可以较好的适用于中文命名实体识别。

全文目录


相似论文

  1. 网络语音传输丢包的恢复技术,TN912.3
  2. 领域实体属性及事件抽取技术研究,TP391.1
  3. 时间表达式识别与归一化研究,TP391.1
  4. 数据挖掘技术在证券市场分析中的应用研究,F830.91
  5. 基于C/C++语言的函数级程序理解可视化的研究与实现,TP311.11
  6. 程序理解中的信息抽取和声明语句解释的研究,TP311.11
  7. Web就业信息抽取系统的实现研究,TP393.09
  8. 中文命名实体识别及若干相关问题的研究,TP391.41
  9. 垂直搜索中信息属性抽取和分类模型研究与实现,TP391.3
  10. 基于条件随机场的中文命名实体识别研究,TP391.4
  11. 基于MongoDB的关系网络分析技术研究与应用,TP311.13
  12. 连续语音中关键词快速检出的研究,TN912.34
  13. 基于HL7的文本电子病历转换构件设计与实现,R197.324
  14. 基于本体的金融年报语义网自动构建方法,TP391.1
  15. 基于图像质量参数和图像内容相关性的数字图像盲取证,TP391.41
  16. 基于本体的Web航空产品型号信息抽取技术研究,V22
  17. 基于ontology的Blog信息抽取技术研究,TP393.092
  18. 离线手写中文签名鉴别技术的研究,TP391.43
  19. 中医药多源搜索引擎推荐系统研究及其实现,TP391.3
  20. 基于隐马尔科夫模型的入侵检测系统研究,TP393.08
  21. 脱机手写体阿拉伯字符识别关键技术研究,TP391.43

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com