学位论文 > 优秀研究生学位论文题录展示
HCL2000手写汉字识别的理论与应用研究
作 者: 万欣欣
导 师: 张洪刚
学 校: 北京邮电大学
专 业: 模式识别与智能系统
关键词: 手写汉字识别 HCL2000 最优化度量模型 人机对比实验 验证码
分类号: TP391.43
类 型: 硕士论文
年 份: 2011年
下 载: 80次
引 用: 0次
阅 读: 论文下载
内容摘要
手写汉字识别是一个典型的大类别分类问题,其难点在于汉字本身结构复杂且相似,手写条件下变形严重,对切分和判别都造成一定的困难。近几年,手写汉字识别技术的发展进入了一个低谷期。研究人员不断提出新方法或改进旧方法,尝试从不同的角度解决汉字识别的问题,但系统性能并没有明显的改善。在阅读相关文献的过程中,我们发现方法是否可行性能如何受很多条件的制约和影响。事实上,仅以平均误识率衡量方法的有效性是不合理的。本文的研究工作即以理论方法的度量和评价为线索展开,主要涉及到脱机手写汉字识别课题的三个方面,即方法的度量模型和评价标准以及技术应用。根据矩阵论中的定理,本文推导出基于相似度/相异度的最优化度量模型,在此基础上论述了三种降维技术LDA、LPP和MFA的分类性能。总体来说,非线性降维方法通过样本的相对位置关系描述数据,线性降维方法通过样本的绝对空间分布描述数据,前者的分类效果要远远好于后者。针对HCL2000手写汉字识别的人机对比实验,本文提出了衡量以字为单位的识别方法的有效性的评价标准。实验结果表明,人在工整书写的单个汉字上的平均误识率为1.78%,而MFA在相同测试条件下的最小误识率不超过2.32%。受美国卡内基梅隆大学开发的一款开源产品reCAPTCHA的启发,本文设计了HCL2000手写汉字验证码识别系统。通过对比人与OCR软件的测试结果,证明了手写汉字验证码的有效性和安全性。实验结果表明,OCR软件几乎无法辨识系统生成的验证码,尤其是经干扰处理的手写汉字图像。
|
全文目录
摘要 4-5 ABSTRACT 5-8 第一章 引言 8-12 1.1 本文的研究背景与意义 8-9 1.2 本文的主要工作及成果 9-11 1.3 本文的内容安排与结构 11-12 第二章 脱机手写汉字识别的相关研究综述 12-20 2.1 脱机手写汉字识别的理论研究 12-18 2.1.1 脱机手写汉字识别的相关样本研究 12-15 2.1.2 脱机手写汉字识别的相关方法研究 15-18 2.1.2.1 脱机手写汉字识别的预处理方法 15-16 2.1.2.2 脱机手写汉字识别的分类方法 16-18 2.1.2.3 脱机手写汉字识别的后处理方法 18 2.2 脱机手写汉字识别的应用研究 18-19 2.3 本章小结 19-20 第三章 HCL2000手写汉字识别的理论研究 20-33 3.1 HCL2000脱机手写汉字标准数据库 22-24 3.1.1 HCL2000标准数据库格式 22-23 3.1.2 HCL2000标准数据库统计 23-24 3.2 降维技术的原理与最优化度量 24-32 3.2.1 降维技术的原理 24-27 3.2.1.1 LDA(Linear Discriminant Analysis) 24-25 3.2.1.2 LPP(Locality Preserving Projections) 25-26 3.2.1.3 MFA(Marginal FisherAnalysis) 26-27 3.2.2 降维技术的最优化度量 27-32 3.2.2.1 基于相似度/相异度的最优化度量模型 27-30 3.2.2.2 降维技术的最优化度量模型表示 30-32 3.3 本章小结 32-33 第四章 HCL2000手写汉字识别的统计与对比实验 33-39 4.1 HCL2000手写汉字识别的统计实验 33-36 4.1.1 统计实验方法 33-34 4.1.2 统计实验结果及分析 34-36 4.2 HCL2000手写汉字识别的对比实验 36-38 4.2.1 对比实验方法 36-37 4.2.2 对比实验结果及分析 37-38 4.2.3 对比实验改进 38 4.2.3.1 测试系统改进 38 4.2.3.2 统计方法改进 38 4.3 本章小结 38-39 第五章 HCL2000手写汉字识别的应用研究 39-47 5.1 验证码技术介绍 39-42 5.1.1 验证码技术的原理 40-41 5.1.2 验证码技术的应用 41-42 5.1.3 验证码技术的推广 42 5.2 HCL2000手写汉字验证码 42-46 5.2.1 HCL2000手写汉字验证码识别系统的设计 42-45 5.2.1.1 系统流程设计 42-43 5.2.1.2 系统结构设计 43-45 5.2.1.3 系统界面设计 45 5.2.2 HCL2000手写汉字验证码的对比实验 45-46 5.2.2.1 对比实验方法 45 5.2.2.2 对比实验结果及分析 45-46 5.3 本章小结 46-47 第六章 结束语 47-50 6.1 本文工作总结 47-48 6.2 研究工作展望 48-50 参考文献 50-56 致谢 56-57 攻读学位期间发表或已录用的学术论文 57
|
相似论文
- 基于RPROP人工神经网络对验证码识别的研究与实现,TP393.08
- 基于动态粗外围方向线素特征的脱机手写汉字识别,TP391.43
- 基于结构分析的离线手写汉字切分,TP391.43
- 基于Gabor理论的脱机手写汉字识别,TP391.43
- 基于笔顺重排的联机手写汉字识别的研究与实现,TP391.43
- 无约束联机手写汉字特征提取与识别融合的研究,TP391.41
- 基于ILDA的用户书写风格自适应方法及其应用,TP391.43
- SIFT与BIM特征提取方法的研究与应用,TP391.41
- 聚类分析在手写汉字识别中的应用,TP391.43
- 基于支持向量机的联机手写汉字识别的研究,TP391.43
- 基于多层次重叠网格的脱机手写汉字识别,TP391.43
- 赋权图匹配理论研究及联机手写汉字识别应用,TP391.43
- 联机无约束手写汉字文本行识别,TP391.43
- 基于BP神经网络的脱机手写汉字识别研究,TP391.43
- 基于细化处理的脱机手写汉字识别研究,TP391.43
- 手写数据远程采集系统,TP274.2
- 验证码识别系统的研究及实现,TP391.41
- 带干扰的验证码识别研究,TP393.092
- CPC模式下图形验证码对恶意点击的有效预防,TP393.08
- 网络点击欺诈及预防策略的研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 文字识别及其装置
© 2012 www.xueweilunwen.com
|