学位论文 > 优秀研究生学位论文题录展示

基于统计和规则混合策略的中国人名识别研究

作 者: 和雪娟
导 师: 夏幼明
学 校: 云南师范大学
专 业: 计算机软件与理论
关键词: 中国人名识别 统计 规则 候选人名 特征
分类号: TP391.43
类 型: 硕士论文
年 份: 2007年
下 载: 25次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在汉语自然语言处理领域,中文自动分词是一项基础性研究课题。而未登录词识别,乃至其中占多数的中国人名识别问题是中文分词的困难问题和关键问题。与英文命名实体识别相比,国内对中文专有名词识别研究起步较晚,随着中文信息提取研究的兴起,命名实体(或未登录词)识别研究到了更好的发展。据统计,约有48.6%的未登录词是中国人名,而中国人名识别的召回率和准确率还有待进一步提高。因此,如果能够处理好中文文本中的大量中文姓名,势必会有效地提高未登录词识别的精度,从而提高整个分词系统的切分精度,从而推动其他研究的发展。考虑到单纯地用基于统计的方法或基于规则的方法,在中国人名的自动识别上都存在一定的不足,而统计和规则相结合的方法可以互相补充,弥补一定的不足。本文采用统计与规则相结合的混合策略,提出了一种中国人名的自动识别方法。主要研究工作包括:(1)构建了姓氏资源库(SURNAME)、人名用字知识库(NAME)、以及著名人物字典(FAMOUS)和常用的小名库(PETNAME),利用各种库中的统计信息,对文本中的中国人名作初步的提取(称作候选人名的提取)。(2)分析了中国人名构成本身具有的内部特征,以及包括上下文信息、模板信息等在内的外部特征,提取出典型的特征集,并总结出相应的识别规则,对候选人名进行识别。(3)系统设计与实现:基于统计和规则混合策略构建了一个中国人名识别系统,在候选人名提取后做特征提取和规则施加,确定出输入的文本中存在的中国人名,并将其提取出来,存入结果文件中。本文还以1859K的测试语料作为实验数据,对构建的系统进行了测试,说明上述算法的可行性和有效性。

全文目录


1、基于统计规则混合策略的中国人名识别研究  4-39
  摘要  5-7
  第一章 引言  7-13
    1.1 研究背景及研究意义  7-8
    1.2 研究对象  8
    1.3 中国人名识别的难点  8-9
    1.4 国内外研究历史及现状  9-11
    1.5 论文的主要工作  11-12
    1.6 论文组织结构  12-13
  第二章 知识库及前期准备工作  13-18
    2.1 中国人名构成的特点  13-14
    2.2 中文分词软件  14-15
    2.3 姓氏资源库  15
    2.4 人名用字知识库  15-16
    2.5 其他辅助资源  16-18
  第三章 候选人名的提取  18-23
    3.1 Zipf法则  18-20
    3.2 Zipf法则在本文中的应用  20-21
    3.3 候选人名提取方法  21-22
    3.4 平滑机制  22-23
  第四章 特征提取和规则施加  23-29
    4.1 内部特征  23-24
    4.2 外部特征  24-25
    4.3 识别规则  25-29
  第五章 系统模型及实验结果分析  29-32
    5.1 系统模型  29
    5.2 实验结果  29-30
    5.3 实验结果分析  30-32
  第六章 总结与展望  32-34
  参考文献  34-37
  附录  37-39
2、中文未登录词识别技术研究  39-70
  第一章 引言  42-47
    1.1 IE(信息提取)技术简介  42-43
    1.2 中文分词  43-44
      1.2.1 关于中文分词  43
      1.2.2 中文分词的关键问题  43-44
    1.3 未登录词定义  44-45
    1.4 未登录词识别的难点  45-47
  第二章 英文NE识别历史及现状  47-51
    2.1 识别历史  47
    2.2 隐马尔可夫模型(Hidden Markov Model,HMM)  47-48
    2.3 支撑向量机(Support Vector Machine,SVM)  48
    2.4 决策树(Decision Tree)  48-49
    2.5 最大熵建模  49-50
    2.6 k最近邻分类  50-51
  第三章 中文未登录词识别  51-55
    3.1 中文未登录词的特点  51-52
    3.2 基于规则的方法  52
    3.3 基于统计的方法  52-53
    3.4 规则与统计相结合的方法  53
    3.5 解决方案  53-55
  第四章 典型的中文未登录词识别  55-61
    4.1 中国人名识别  55-56
    4.2 中国地名识别  56-57
    4.3 中国组织机构名识别  57-58
    4.4 外国译名的识别  58-59
    4.5 部分识别系统介绍  59-61
  第五章 评价机制  61-65
    5.1 评价标准  61-64
    5.2 测试集和测试方法  64-65
  第六章 总结与展望  65-67
    6.1 总结  65
    6.2 展望  65-67
  参考文献  67-70
3、Research of Chinese Person Names Recognition Based on Statistics and Rules  70-108
  Abstract  71-75
  Chapter 1 Preface  75-84
    1.1 Research background and research meaning  75-77
    1.2 Research object  77
    1.3 Difficulty in Chinese name recognition  77-78
    1.4 Domestic and international research history and current situation  78-81
    1.5 Main work of the thesis  81-82
    1.6 Structure of the thesis  82-84
  Chapter 2 Data base of knowledge and preliminary preparation  84-90
    2.1 Feature of the Chinese name  84-85
    2.2 Chinese participle software  85-86
    2.3 Surname resource base  86-87
    2.4 Knowledge base of choice words of name  87-88
    2.5 Other resources  88-90
  Chapter 3 Extraction of candidate name  90-97
    3.1 Zipf rule  90-91
    3.2 The application of Zipf rule in the thesis  91-94
    3.3 The extraction method of candidate name  94-95
    3.4 Smooth mechanism  95-97
  Chapter 4 Feature extracting and apply with the rules  97-103
    4.1 Inside feature  97-98
    4.2 External feature  98-100
    4.3 Recognition rule  100-103
  Chapter 5 System model and experiment result analysis  103-106
    5.1 System model  103
    5.2 Experiment result  103-104
    5.3 Experimental result analysis  104-106
  Chapter 6 Summary and the prospect  106-108
4、Research of Chinese Unlisted Words Recognition:A Survey  108-146
  Chapter 1 Preface  110-117
    1.1 Brief introduction of IE  110-111
    1.2 Chinese participle  111-113
      1.2.1 About the Chinese participle  111-112
      1.2.2 Key problems of the Chinese participle  112-113
    1.3 Definition of unlisted words  113-115
    1.4 Difficulties of the unlisted words recognition  115-117
  Chapter 2 History and current situation of English NE recognition  117-122
    2.1 Recognition history  117
    2.2 Hidden Markov model(HMM)  117-118
    2.3 Support Vector Machine(SVM)  118-119
    2.4 Decision tree  119-120
    2.5 Maximum entropy model  120-121
    2.6 k nearest neighbor classification  121-122
  Chapter 3 Chinese unlisted words recognition  122-128
    3.1 Characteristics of the Chinese unlisted words  122-123
    3.2 Method base on rules  123-124
    3.3 Method base on statistics  124-125
    3.4 Method base on statistics and rules  125-126
    3.5 Solution pattern  126-128
  Chapter 4 Typical Chinese unlisted words recognition  128-137
    4.1 Chinese name recognition  128-130
    4.2 Chinese place name recognition  130-132
    4.3 Chinese organization name recognition  132-133
    4.4 Foreign translated name recognition  133-134
    4.5 Introduction of some recognition systems  134-137
  Chapter 5 Mechanism of evaluation  137-142
    5.1 Evaluation criterion  137-141
    5.2 Testing set and testing method  141-142
  Chapter 6 Summary and prospect  142-146
    6.1 Summary  142-143
    6.2 Prospect  143-146
致谢  146

相似论文

  1. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  2. 东北满族民居的文化涵化研究,TU241.5
  3. 多厅影院空间架构研究,TU242.2
  4. 钢在建筑中的技术表现力研究,TU-0
  5. 长春市历史保护区的形态特征与保护对策研究,TU984.114
  6. 电网电压不平衡时复合型PWM整流器控制策略的研究,TM461
  7. 民国时期北平城市粮食市场区位分布及其等级研究,K291
  8. 昆明流动人口聚居区的现状、问题及其对策初步研究,C924.25
  9. 高频雷达信号电离层污染及时频分析方法研究,TN958.93
  10. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  11. 基于非规则LDPC码的BICM系统优化设计,TN911.2
  12. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  13. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  14. 海量数据压缩、操作和处理方法的研究,TP311.13
  15. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  16. 基于三维重建的焊点质量分类方法研究,TP391.41
  17. 基于句法特征的代词消解方法研究,TP391.1
  18. 基于特征的软构件建模方法及其在VMI管理系统中的应用,TP311.52
  19. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  20. Q学习在基于内容图像检索技术中的应用,TP391.41
  21. 森林防火系统中图像识别算法的研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 文字识别及其装置
© 2012 www.xueweilunwen.com