学位论文 > 优秀研究生学位论文题录展示
领域本体在中文命名实体识别中的应用研究
作 者: 常卫丽
导 师: 邱奇志
学 校: 武汉理工大学
专 业: 计算机科学与技术
关键词: 分词 词性标注 条件随机场 中文命名实体识别 领域本体
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 45次
引 用: 0次
阅 读: 论文下载
内容摘要
命名实体识别(Named Entity Recognition,简称NER),作为自然语言处理任务中一项基础性工作,已经被广泛地应用在一些语言处理领域中,如信息检索、信息抽取和机器翻译等。国外最早的是基于英文命名实体识别的研究,随着命名实体识别技术的发展,中文命名实体识别逐渐引起了更多研究者的广泛重视。由于汉语自身的特点,使得中文命名实体识别成为一个比英文更加困难的任务。本文首先对当前命名实体识别的方法进行了总结和回顾,在众多识别方法的研究中,发现条件随机场CRFs模型(Conditional Random Fields,简称CRFs)取得了比其他模型更好的中文识别效果。为了提高中文命名实体识别的整体性能,本文采用基于统计和规则相结合的方法对命名实体进行了识别,重点考察了领域本体在中文命名实体识别中的具体支持方式和作用。首先将面向对象开发方法运用于构建本体的七步法中,建立了笔记本电脑领域本体;然后根据条件随机场CRFs模型着重研究了如何选择有效的特征来提高命名实体识别的效率,在此基础上,本文除选用常用的词上下文、词性特征外,还将本体作为其语义特征选择。最后,从领域本体实例化中抽取出规则用于识别用户所关心的常规命名实体,以对统计方法识别的结果进行补充,提高了命名实体识别的整体性能。为了验证领域本体被引入到条件随机场CRFs模型中的可行性,本文对其进行了对比实验,设计了两种不同的特征模板,通过对比分析显示,引入了本体的特征模板的命名实体识别的准确率、召回率和综合性能F值明显地高于常用的特征模板的,从而更进一步充分地说明了领域本体在中文命名实体识别中的作用;另外统计与规则相结合的命名实体识别效果优于基于CRFs模型的识别效果。为此,本文还完成了一个领域实体识别系统的原型,主要是为了可视化地展示进行命名实体识别的具体步骤。
|
全文目录
摘要 4-5 Abstract 5-10 第1章 绪论 10-15 1.1 研究背景及意义 10-11 1.2 国内外研究现状 11-12 1.3 研究目标及内容 12-13 1.4 论文组织结构 13-14 1.5 本章小结 14-15 第2章 中文命名实体识别综述 15-25 2.1 命名实体识别的任务和难点 15-16 2.1.1 命名实体识别的任务 15 2.1.2 中文命名实体识别的难点 15-16 2.2 命名实体识别的方法 16-19 2.2.1 基于规则的命名实体识别方法 16-17 2.2.2 基于统计的命名实体识别方法 17-18 2.2.3 规则和统计相结合的方法 18-19 2.3 条件随机场模型 19-23 2.3.1 形式化描述 19-21 2.3.2 参数估计与模型训练 21-22 2.3.3 模型的标注 22-23 2.4 命名实体识别的评价指标 23-24 2.5 本章小结 24-25 第3章 领域本体的构建 25-42 3.1 本体的基本知识 25-28 3.1.1 本体的定义 25-26 3.1.2 本体的基本构成元素 26-27 3.1.3 本体的分类 27-28 3.2 领域本体构建的关键技术方法 28-34 3.2.1 本体的构建原则 28-29 3.2.2 本体的构建方法 29-32 3.2.3 本体描述语言 32-33 3.2.4 本体的构建工具 33-34 3.3 笔记本电脑领域本体的构建 34-41 3.3.1 需求分析 34-35 3.3.2 概念类和关系的确定 35-37 3.3.3 属性的确定 37-38 3.3.4 类的实例化 38-39 3.3.5 领域本体的表示 39-40 3.3.6 领域本体的评价 40-41 3.5 本章小结 41-42 第4章 基于领域本体的中文命名实体识别 42-54 4.1 整体处理流程 42-43 4.2 语料库的处理 43-44 4.3 基于CRFs领域命名实体识别的研究 44-51 4.3.1 建模粒度的选择 44-45 4.3.2 标注集的确定 45-46 4.3.3 特征的选择 46-51 4.4 基于规则实体识别的补充 51-53 4.5 本章小结 53-54 第5章 领域命名实体识别系统的实现和评测 54-70 5.1 系统设计 54-55 5.2 系统实现 55-66 5.2.1 分词和词性标注模块 55-57 5.2.2 CRFs模型训练和标注模块 57-63 5.2.3 识别结果输出模块 63-66 5.3 实验测试及分析 66-69 5.3.1 实验语料 66 5.3.2 实验设计 66-67 5.3.3 实验结果及分析 67-69 5.4 本章小结 69-70 第6章 总结与展望 70-72 6.1 工作总结 70-71 6.2 工作展望 71-72 致谢 72-73 参考文献 73-76 攻读硕士期间发表的论文及参研情况 76
|
相似论文
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- 基于领域本体的海洋环境数据仓库设计,TP311.13
- 数据空间中数据资源之间关联关系发现模型研究,TP311.13
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于空间邻域词袋模型的图像标注技术,TP391.41
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 主观题自动评分技术研究,TP391.1
- 情景应对模式下数字化应急预案的语义模型研究,TP391.1
- 《汉语水平词汇等级大纲》甲级词汇词性标注研究,H146
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 中文XML压缩技术研究,TP311.11
- 基于条件随机场的RNA二级结构预测算法,R346
- 基于字词联合解码的中文分词研究,TP391.1
- 特定领域中文术语抽取,TP391.1
- 企业邮件监管系统的设计与实现,TP393.098
- 《元朝秘史》词频研究,H134
- 面向学科的文献资源聚类系统研究及应用,TP391.1
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- 中文命名实体识别与歧义消解研究,TP391.1
- 基于过滤技术的投诉信息智能分析与实现,TP391.1
- 基于词典和概率统计的中文分词算法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|