学位论文 > 优秀研究生学位论文题录展示
中文命名实体识别及若干相关问题的研究
作 者: 杨晓东
导 师: 晏立
学 校: 江苏大学
专 业: 计算机应用技术
关键词: 中文 命名实体识别 兼类型 简称识别 条件随机场 支持向量机
分类号: TP391.41
类 型: 硕士论文
年 份: 2010年
下 载: 141次
引 用: 1次
阅 读: 论文下载
内容摘要
命名实体是自然语言中承载信息的重要语言单位。中文命名实体识别是中文信息处理的关键技术之一,随着中文命名实体在各个领域的广泛应用,它既是一项基础性研究也是一项具有较高价值的应用研究。目前,在中文命名识别遇到问题主要是命名实体识别的众多影响因素导致具有复杂结构的命名实体识别效果差;尽管现有方法众多,但是中文命名实体识别仍没有达到较为理想的状态。目前对命名实体中人名、地名识别展开的研究比较成熟,而对机构名识别的研究不够理想。面对构造复杂的机构名获取特征,并运用这些特征来构建相应模型来解决机构名的识别问题以及对现有方法的不足进行改进是尤为重要的。首先,采用层叠式条件随机场模型方法,把处理文本看成一系列观察值,利用底层条件随机场模型对观察值做初步人名、地名识别,接着利用识别的结果传入到高层作为高层的观察值再进一步进行机构名识别;同时在层叠式条件随机场模型之间融合规则的方法来处理具有一定规律的特性的命名实体;在面对条件随机场模型训练耗费时间的问题上引入了一种快速的训练方法。然后,对复杂机构名的错误识别进行分析,指出了其影响因素,并针对其中因素之一(兼类型命名实体)进一步研究,运用了支持向量机模型在二值分类的优点对兼类型人名、地名进行了初步识别;并对简称难识别情况,这一机构名识别影响因素进行初步分析,并根据简称和全称的构词上下文构词特点一致的特性,给出一种以上下文构词组成的引导表结合全称匹配的方法对简称进行识别。最后,分别进行地名、机构名识别,兼类型人名地名以及简称识别等相关实验。针对地名、机构名从不同的语料规模、模板、词性特征等方面进行基于CRF模型的实验对比,给出了本文新方法和现有方法的比较:描述了训练和规则优化的实验结果以检验各优化方法的有效性;给出了兼类型人名、地名识别和简称识别实验结果,并给以初步分析。实验证明本文的方法是行之有效的,对中文信息处理有一定的意义。
|
全文目录
摘要 5-6 ABSTRACT 6-10 第一章 绪论 10-15 1.1 研究背景及意义 10-11 1.2 国内外研究现状 11-13 1.3 论文研究内容 13-14 1.4 论文组织结构 14-15 第二章 相关理论知识 15-28 2.1 概述 15 2.2 支持向量机 15-20 2.2.1 线性可分情况 15-17 2.2.2 线性不可分情况 17 2.2.3 核函数 17-19 2.2.4 间隔优化 19-20 2.3 条件随机场 20-26 2.3.1 隐马尔可夫 20-21 2.3.2 最大熵马尔可夫 21-22 2.3.3 条件随机场 22-26 2.3.4 条件随机场的优势 26 2.4 本章小结 26-28 第三章 基于CRFS的命名实体识别的研究 28-47 3.1 概述 28 3.2 命名实体识别难点 28-30 3.2.1 地名识别难点 28-29 3.2.2 机构名识别难点 29-30 3.3 基于CRFS的命名实体识别 30-38 3.3.1 标注粒度选择和BIN标注 30-32 3.3.2 地名模板 32-35 3.3.3 机构名模板 35-36 3.3.4 特征选择 36-37 3.3.5 模型参数估计 37-38 3.4 新方法:基于CCRF和规则相结合的方法 38-46 3.4.1 建立CCRF模型 38-40 3.4.2 训练优化 40-44 3.4.3 规则优化 44-45 3.4.4 基于新方法的复杂机构名识别 45-46 3.5 本章小结 46-47 第四章 命名实体识别若干问题的研究 47-56 4.1 概述 47 4.2 若干问题描述 47 4.3 问题一:兼类型命名实体问题 47-51 4.3.1 兼类命名实体定义 47-48 4.3.2 兼类型命名实体识别难点分析 48-49 4.3.3 基于SVM的兼类型人名地名识别 49-51 4.3.4 基于RS方法的兼类型人名地名识别 51 4.4 问题二:命名实体简称问题 51-54 4.4.1 机构名简称的概念及构成特征描述 52 4.4.2 机构名简称识别的难点分析 52-53 4.4.3 基于引导表和规则的机构名简称识别 53-54 4.5 本章小结 54-56 第五章 实验结果与分析 56-66 5.1 概述 56 5.2 实验环境与工具 56 5.3 衡量标准 56-58 5.3.1 标准公式 57 5.3.2 测评软件 57-58 5.4 命名实体识别实验 58-62 5.4.1 实验内容 58 5.4.2 地名、机构名识别结果比较 58-60 5.4.3 训练优化比较 60 5.4.4 规则优化比较 60-61 5.4.5 与现有的方法比较 61-62 5.5 兼类型人名地名识别实验 62-63 5.5.1 实验内存 62 5.5.2 兼类型人名、地名识别结果 62-63 5.6 机构名简称识别实验 63-65 5.6.1 实验内容 64 5.6.2 机构名简称识别结果 64-65 5.7 本章小结 65-66 第六章 总结与展望 66-68 6.1 概述 66 6.2 工作总结 66-67 6.3 研究展望 67-68 参考文献 68-73 致谢 73-74 附录A:研究生期间发表论文 74
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 基于车载3D加速传感器的路况监测研究,TP274
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 基于机器学习的入侵检测系统研究,TP393.08
- 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 网页属性抽取的方法研究,TP391.1
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com
|