学位论文 > 优秀研究生学位论文题录展示
基于统计和规则混合策略的中国人名识别研究
作 者: 和雪娟
导 师: 夏幼明
学 校: 云南师范大学
专 业: 计算机软件与理论
关键词: 中国人名识别 统计 规则 候选人名 特征
分类号: TP391.43
类 型: 硕士论文
年 份: 2007年
下 载: 25次
引 用: 0次
阅 读: 论文下载
内容摘要
在汉语自然语言处理领域,中文自动分词是一项基础性研究课题。而未登录词识别,乃至其中占多数的中国人名识别问题是中文分词的困难问题和关键问题。与英文命名实体识别相比,国内对中文专有名词识别研究起步较晚,随着中文信息提取研究的兴起,命名实体(或未登录词)识别研究到了更好的发展。据统计,约有48.6%的未登录词是中国人名,而中国人名识别的召回率和准确率还有待进一步提高。因此,如果能够处理好中文文本中的大量中文姓名,势必会有效地提高未登录词识别的精度,从而提高整个分词系统的切分精度,从而推动其他研究的发展。考虑到单纯地用基于统计的方法或基于规则的方法,在中国人名的自动识别上都存在一定的不足,而统计和规则相结合的方法可以互相补充,弥补一定的不足。本文采用统计与规则相结合的混合策略,提出了一种中国人名的自动识别方法。主要研究工作包括:(1)构建了姓氏资源库(SURNAME)、人名用字知识库(NAME)、以及著名人物字典(FAMOUS)和常用的小名库(PETNAME),利用各种库中的统计信息,对文本中的中国人名作初步的提取(称作候选人名的提取)。(2)分析了中国人名构成本身具有的内部特征,以及包括上下文信息、模板信息等在内的外部特征,提取出典型的特征集,并总结出相应的识别规则,对候选人名进行识别。(3)系统设计与实现:基于统计和规则混合策略构建了一个中国人名识别系统,在候选人名提取后做特征提取和规则施加,确定出输入的文本中存在的中国人名,并将其提取出来,存入结果文件中。本文还以1859K的测试语料作为实验数据,对构建的系统进行了测试,说明上述算法的可行性和有效性。
|
全文目录
1、基于统计和规则混合策略的中国人名识别研究 4-39 摘要 5-7 第一章 引言 7-13 1.1 研究背景及研究意义 7-8 1.2 研究对象 8 1.3 中国人名识别的难点 8-9 1.4 国内外研究历史及现状 9-11 1.5 论文的主要工作 11-12 1.6 论文组织结构 12-13 第二章 知识库及前期准备工作 13-18 2.1 中国人名构成的特点 13-14 2.2 中文分词软件 14-15 2.3 姓氏资源库 15 2.4 人名用字知识库 15-16 2.5 其他辅助资源 16-18 第三章 候选人名的提取 18-23 3.1 Zipf法则 18-20 3.2 Zipf法则在本文中的应用 20-21 3.3 候选人名提取方法 21-22 3.4 平滑机制 22-23 第四章 特征提取和规则施加 23-29 4.1 内部特征 23-24 4.2 外部特征 24-25 4.3 识别规则 25-29 第五章 系统模型及实验结果分析 29-32 5.1 系统模型 29 5.2 实验结果 29-30 5.3 实验结果分析 30-32 第六章 总结与展望 32-34 参考文献 34-37 附录 37-39 2、中文未登录词识别技术研究 39-70 第一章 引言 42-47 1.1 IE(信息提取)技术简介 42-43 1.2 中文分词 43-44 1.2.1 关于中文分词 43 1.2.2 中文分词的关键问题 43-44 1.3 未登录词定义 44-45 1.4 未登录词识别的难点 45-47 第二章 英文NE识别历史及现状 47-51 2.1 识别历史 47 2.2 隐马尔可夫模型(Hidden Markov Model,HMM) 47-48 2.3 支撑向量机(Support Vector Machine,SVM) 48 2.4 决策树(Decision Tree) 48-49 2.5 最大熵建模 49-50 2.6 k最近邻分类 50-51 第三章 中文未登录词识别 51-55 3.1 中文未登录词的特点 51-52 3.2 基于规则的方法 52 3.3 基于统计的方法 52-53 3.4 规则与统计相结合的方法 53 3.5 解决方案 53-55 第四章 典型的中文未登录词识别 55-61 4.1 中国人名识别 55-56 4.2 中国地名识别 56-57 4.3 中国组织机构名识别 57-58 4.4 外国译名的识别 58-59 4.5 部分识别系统介绍 59-61 第五章 评价机制 61-65 5.1 评价标准 61-64 5.2 测试集和测试方法 64-65 第六章 总结与展望 65-67 6.1 总结 65 6.2 展望 65-67 参考文献 67-70 3、Research of Chinese Person Names Recognition Based on Statistics and Rules 70-108 Abstract 71-75 Chapter 1 Preface 75-84 1.1 Research background and research meaning 75-77 1.2 Research object 77 1.3 Difficulty in Chinese name recognition 77-78 1.4 Domestic and international research history and current situation 78-81 1.5 Main work of the thesis 81-82 1.6 Structure of the thesis 82-84 Chapter 2 Data base of knowledge and preliminary preparation 84-90 2.1 Feature of the Chinese name 84-85 2.2 Chinese participle software 85-86 2.3 Surname resource base 86-87 2.4 Knowledge base of choice words of name 87-88 2.5 Other resources 88-90 Chapter 3 Extraction of candidate name 90-97 3.1 Zipf rule 90-91 3.2 The application of Zipf rule in the thesis 91-94 3.3 The extraction method of candidate name 94-95 3.4 Smooth mechanism 95-97 Chapter 4 Feature extracting and apply with the rules 97-103 4.1 Inside feature 97-98 4.2 External feature 98-100 4.3 Recognition rule 100-103 Chapter 5 System model and experiment result analysis 103-106 5.1 System model 103 5.2 Experiment result 103-104 5.3 Experimental result analysis 104-106 Chapter 6 Summary and the prospect 106-108 4、Research of Chinese Unlisted Words Recognition:A Survey 108-146 Chapter 1 Preface 110-117 1.1 Brief introduction of IE 110-111 1.2 Chinese participle 111-113 1.2.1 About the Chinese participle 111-112 1.2.2 Key problems of the Chinese participle 112-113 1.3 Definition of unlisted words 113-115 1.4 Difficulties of the unlisted words recognition 115-117 Chapter 2 History and current situation of English NE recognition 117-122 2.1 Recognition history 117 2.2 Hidden Markov model(HMM) 117-118 2.3 Support Vector Machine(SVM) 118-119 2.4 Decision tree 119-120 2.5 Maximum entropy model 120-121 2.6 k nearest neighbor classification 121-122 Chapter 3 Chinese unlisted words recognition 122-128 3.1 Characteristics of the Chinese unlisted words 122-123 3.2 Method base on rules 123-124 3.3 Method base on statistics 124-125 3.4 Method base on statistics and rules 125-126 3.5 Solution pattern 126-128 Chapter 4 Typical Chinese unlisted words recognition 128-137 4.1 Chinese name recognition 128-130 4.2 Chinese place name recognition 130-132 4.3 Chinese organization name recognition 132-133 4.4 Foreign translated name recognition 133-134 4.5 Introduction of some recognition systems 134-137 Chapter 5 Mechanism of evaluation 137-142 5.1 Evaluation criterion 137-141 5.2 Testing set and testing method 141-142 Chapter 6 Summary and prospect 142-146 6.1 Summary 142-143 6.2 Prospect 143-146 致谢 146
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 东北满族民居的文化涵化研究,TU241.5
- 多厅影院空间架构研究,TU242.2
- 钢在建筑中的技术表现力研究,TU-0
- 长春市历史保护区的形态特征与保护对策研究,TU984.114
- 电网电压不平衡时复合型PWM整流器控制策略的研究,TM461
- 民国时期北平城市粮食市场区位分布及其等级研究,K291
- 昆明流动人口聚居区的现状、问题及其对策初步研究,C924.25
- 高频雷达信号电离层污染及时频分析方法研究,TN958.93
- 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
- 基于非规则LDPC码的BICM系统优化设计,TN911.2
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 海量数据压缩、操作和处理方法的研究,TP311.13
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 基于句法特征的代词消解方法研究,TP391.1
- 基于特征的软构件建模方法及其在VMI管理系统中的应用,TP311.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 森林防火系统中图像识别算法的研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 文字识别及其装置
© 2012 www.xueweilunwen.com
|