学位论文 > 优秀研究生学位论文题录展示

中文姓名自动识别系统的设计与实现

作　者: 余祖波
导　师: 高庆狮
学　校: 大连理工大学
专　业: 计算机应用技术
关键词: 中文信息处理统计语言模型局部二元统计模型中文人名识别
分类号: TP391.1
类　型: 硕士论文
年　份: 2008年
下　载: 209次
引　用: 2次
阅　读: 论文下载

内容摘要

中文命名实体或未登录词识别是中文信息处理的基础研究课题,是文本理解、文本校对、文本主题自动抽取、文本聚类、文本挖掘、文本过滤、信息抽取、机器翻译等多种自然语言处理技术的重要基础。因此,研究中文命名实体识别对提高词法分析、句法分析、语义分析乃至中文信息处理的质量有很重要的意义。本文针对现代汉语文本,主要研究人名的自动识别问题,我们在对大规模姓名样本库、姓名语料库进行统计的基础上,将姓氏按其在真实文本中成为真姓氏的概率对姓氏进行优先级划分,并重点研究了前300个姓氏作普通单字时其上下文用字规律及姓氏的词性规律,将局部二元统计语言模型作为基本框架,设计并实现了一个中文人名自动识别系统。具体地,本文的主要内容如下:本文首先分析了中文人名识别的困难,并对现有的人名识别方法进行了简单介绍和比较;然后建立了人名样本库、姓氏库、人名语料库等在人名识别前所需的语言学资源,并对这些资源进行统计分析的基础上,建立了各种人名用字表、姓氏概率表、分词词典、人名上下文信息表、姓氏用作普通单字时的上下文信息表、姓氏前缀、后缀表等人名识别过程中所需的数据资源。然后对姓氏按优先级进行分类,并通过3σ法则建立优先级阈值库;利用局部二元统计语言模型对人名识别问题进行建模,并给出各个优先级的姓氏的识别规则。最后,我们设计并实现了一个基于局部二元统计模型的中文人名自动识别系统。实验结果表明,本文提出的人名识别模型能够获得较为满意的结果。对98年1月《人民日报》26日～31日的语料进行的开放测试.在调整阈值参数c的情况下,获得了平均召回率和准确率分别为79.06%、81.16%,部分解决了人名的识别问题。

全文目录

摘要  4-5
Abstract  5-10
1 绪论  10-15
  1.1 研究背景  10-11
  1.2 研究意义  11
  1.3 中文人名识别的困难  11-13
  1.4 本文的主要工作  13-14
  1.5 本文结构  14-15
2 国内外研究现状  15-23
  2.1 词语切分方法概述  15-16
  2.2 人名识别方法概述  16-21
    2.2.1 基于规则的方法  17
    2.2.2 基于统计的方法  17-18
    2.2.3 统计与规则相结合的方法  18-19
    2.2.4 机器学习的方法  19-20
    2.2.5 其他方法  20-21
  2.3 各种方法比较  21-23
    2.3.1 各种方法使用资源小结  21
    2.3.2 各种方法比较  21-23
3 建立中文人名识别资源  23-35
  3.1 人名样本库  23-26
    3.1.1 单名用字表  23
    3.1.2 双名用字表  23-25
    3.1.3 双名首字、末字表  25-26
    3.1.4 名字用字分析  26
  3.2 姓氏库  26-27
    3.2.1 姓氏表  26
    3.2.2 姓氏用字分析  26-27
  3.3 人名语料库  27-35
    3.3.1 分词词典  27-28
    3.3.2 姓氏词性分析及其词表  28-29
    3.3.3 姓氏概率表  29-30
    3.3.4 人名上下文信息表  30-31
    3.3.5 姓氏作普通单字词的上下文信息表  31-34
    3.3.6 姓氏前缀、后缀表  34
    3.3.7 “于”前置词表  34-35
4 基于局部二元统计的人名识别模型  35-44
  4.1 相关定义  35-36
  4.2 姓氏的优先级  36-37
  4.3 人名识别模型  37-40
    4.3.1 统计语言模型概述  37-38
    4.3.2 局部二元统计模型  38-40
  4.4 人名识别思想描述  40-44
    4.4.1 人名识别方法  40-41
    4.4.2 人名识别过程  41
    4.4.3 阈值计算方法  41-42
    4.4.4 一些有用的规则  42-44
5 系统设计与实现  44-62
  5.1 系统结构  44-45
  5.2 系统资源定义  45-51
    5.2.1 人名用字类  45
    5.2.2 人名用字表类  45
    5.2.3 姓氏用字作普通单字词的上下文类  45-46
    5.2.4 姓氏上下文链表类  46
    5.2.5 姓氏类  46-47
    5.2.6 姓氏字典类  47-48
    5.2.7 人名上下文信息类  48-49
    5.2.8 人名上下文信息表类  49
    5.2.9 单词类  49
    5.2.10 词典类  49-50
    5.2.11 阈值类  50
    5.2.12 阈值表类  50
    5.2.13 人名识别资源定义  50-51
  5.3 识别过程描述  51-53
    5.3.1 文本中的人名识别过程  51-52
    5.3.2 当前姓氏人名识别过程  52-53
  5.4 实验及分析  53-62
    5.4.1 实验语料  53-54
    5.4.2 评测指标  54
    5.4.3 实验设计  54-55
    5.4.4 实验结果  55-59
    5.4.5 结果分析  59-62
结论  62-64
参考文献  64-68
攻读硕士学位期间发表学术论文情况  68-69
致谢  69-70

相似论文

网页属性抽取的方法研究,TP391.1
中文文本复制检测技术研究,TP391.1
基于蚁群算法的中文文本聚类研究,TP391.1
Kullback-Leibler距离检索框架下文摘在检索中的应用,TP391.3
汉语完全句法树库一致性检验方法研究,TP391.1
现代汉语新词提取研究,H08
面向中文信息处理的组合式述补结构研究,H146
面向中文信息处理的V+N结构句法与语义关系研究,H146
近似镜像网页去重方法研究,TP393.092
基于个性化搜索的网页特征提取相关技术的研究,TP391.1
中文信息处理关键问题的研究,TP391.1
基于语境和停用词驱动的中文自动分词研究,TP391.1
基于规则的命名实体识别研究,TP391.1
中文自动分词及人名识别技术研究,TP391.1
面向中文信息处理的复句特征分析器的研究与实现,TP391.1
N-gram技术在中文词法分析中的应用研究,TP391.1
基于中文分词技术的网络答疑系统个案研究,TP311.52
基于优化最大匹配的中文分词方法研究,TP391.1
中文信息的语义数据挖掘技术研究,TP391.1
贝叶斯同语言模型相结合的中文文本分类方法的研究,TP391.1
层次化蒙古语语言模型的构建研究,TP391.1