学位论文 > 优秀研究生学位论文题录展示

信息抽取中中文命名实体识别技术的研究

作　者: 崔向阳
导　师: 王小玉
学　校: 哈尔滨理工大学
专　业: 计算机应用技术
关键词: 信息抽取中文命名实体识别分级时序记忆模型隐马尔科夫模型
分类号: TP391.1
类　型: 硕士论文
年　份: 2012年
下　载: 4次
引　用: 0次
阅　读: 论文下载

内容摘要

信息抽取的目的是将文本中的信息按照需求进行提取，并将需要的信息进行结构化表示。在信息抽取的各个关键技术中，命名实体识别是一项重要而且基础的技术。命名实体是自然语言文本中最基本的单位，是文本中的固有名称和唯一标识，只有保证对命名实体的准确识别，才能对正确理解文本进行保证。命名实体识别是指对文本中命名实体的识别，在中文命名实体识别中这一过程通常为分词和命名实体标注。命名实体识别是自然语言处理领域的基础技术和关键技术，在许多相关领域起重要作用，如信息抽取、文本分类、信息检索和自动问答等。中文命名实体识别在中文信息处理中占据关键地位，近年来这一技术在各个领域的应用越来越广泛，中文命名实体识别的应用价值也越来越高。本文主要从若干网页的文本中，进行人名、地名和机构名的命名实体识别研究。主要研究内容包括：1．对中文命名实体识别进行介绍，并对其中的人名、地名和机构名的识别难点进行了详细分析和研究。2．通过隐马尔科夫模型和分级时序记忆模型对命名实体识别的测试。隐马尔科夫统计模型经过多年的应用，在效率和实现的成熟度上都较为优秀，而分级时序记忆模型是近年来出现的较为优秀的一种机器学习方法。3．对隐马尔科夫模型和分级时序记忆模型针对命名实体识别测试的实验结果进行分析和比较。隐马尔科夫统计模型经过多年的研究，经过调优之后可以得到较好的性能，但是传统的隐马尔科夫统计模型并没有充分的利用文本中的上下文信息。本文引入分级时序记忆模型进行中文命名实体识别，提高了实体识别的性能和效率。实验证明分级时序记忆模型可以较好的适用于中文命名实体识别。

信息抽取中中文命名实体识别技术的研究

内容摘要

全文目录

相似论文