学位论文 > 优秀研究生学位论文题录展示
语句级联机手写汉字识别方法
作 者: 郭欣怡
导 师: 陈清财
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 联机手写识别 语句级 特征提取 AP聚类 语言模型
分类号: TP391.43
类 型: 硕士论文
年 份: 2010年
下 载: 54次
引 用: 0次
阅 读: 论文下载
内容摘要
联机的手写汉字输入技术已经非常成熟。而起着关键作用的联机识别算法还不能达到高准确率的水平。这主要原因是手写汉字类别多、字形的多样化、各种形近字、连笔输入等原因。所以怎样解决这些差异、选出最具分类能力的特征与分类器成为识别技术的关键。虽然各种成熟高识别率的书写识别产品不断更新问世,但都是限制在一个输入区域且每次只能识别一个汉字,但实际上是有上下文语义的句子或段落。单字输入时,就往往由于要从多个候选字中选择正确的目标汉字,而打断原来写文章的思路。平板电脑、大屏幕触摸设备提供了可以像传统纸张输入方式一样的可能性,一次可以输入多个汉字甚至一条语句。如此,“语句级”甚至“篇章级”汉字识别就成为汉字识别应用的一种新的趋势。联机手写汉字识别技术也会更加注重语句以及篇章级的识别方向。本文将根据语句级识别算法实现一个语句级的联机手写识别系统。用户可以在无约束的条件下手写输入,识别过程在后台进行。当用户完成一句或一个段落时,可以一次性的将整段文字进行识别并显示出来,并可以与手写文档一同保存起来。整个过程分为单字识别阶段与后处理语言模型阶段。单字识别的正确率是重要的因素,特别是对特征的提取。本文对连续的NCFE八方向特征提取算法进行改进,增加了向量的端点处理,根据不同情况运用不同的赋值方法,增强了特征的区分性能,同时将AP聚类算法引入识别的粗分类阶段,AP聚类算法与其他聚类算法相比对手写字符识别有着明显的优势。第二阶段充分利用了用户输入的语义信息,建立语言模型对整个段落进行基于语句级的候选识别结果调整。在这里词典的容量和领域对调整结果影响很大,单纯的依赖字典的调整结果有时不但没有提高识别率,反而影响到正确的识别结果。为了解决这个问题,本文建立了将单字识别结果与语言模型通过优化权重相结合的识别算法。最后,本文的算法在HIT-OR3C以及中科院CASIA-OLHWDB1手写数据集上进行实验与测试。结果表明与其他方法相比较,准确率有了明显的提高。整个语句级识别系统与现有识别系统来说,更是有着使用上的便利性。识别准确率能够满足使用要求。
|
全文目录
摘要 4-5 Abstract 5-8 第1章 绪论 8-15 1.1 课题来源 8-9 1.2 研究目的及意义 9-10 1.3 国内外相关技术发展现状 10-14 1.3.1 字符识别技术的发展和分类 10-11 1.3.2 联机汉字识别技术的发展 11-13 1.3.3 语句级汉字后处理技术的发展 13-14 1.4 研究内容 14-15 第2章 联机手写汉字识别相关技术 15-32 2.1 引言 15 2.2 预处理 15-21 2.3 特征提取 21-26 2.4 手写识别分类器 26-29 2.5 手写汉字后处理技术 29-32 第3章 语句级联机手写汉字识别算法 32-51 3.1 基于改进NCFE特征的单字联机汉字识别 32-47 3.1.1 联机字符预处理 32-35 3.1.2 改进NCFE特征提取方法 35-42 3.1.3 基于AP聚类的粗分类方法 42-47 3.2 联机汉字识别后处理算法 47-50 3.2.1 文法数据库 47-48 3.2.2 语言模型 48-50 3.3 本章小结 50-51 第4章 语句级联机手写汉字识别系统实现 51-55 4.1 引言 51 4.2 智能手写编辑系统结构 51-52 4.3 手写识别系统的结构与实现 52-54 4.4 本章小结 54-55 第5章 语句级联机手写汉字识别实验 55-69 5.1 联机手写汉字数据库介绍 55-56 5.2 单字识别实验结果 56-62 5.3 语言模型实验结果 62-69 结论 69-70 参考文献 70-76 攻读学位期间发表的学术论文 76-78 致谢 78
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 统计机器翻译中结构转换技术的研究,TP391.2
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 词义消歧语料库自动获取方法研究,TP391.1
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
- 红外图像目标识别及跟踪技术研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 文字识别及其装置
© 2012 www.xueweilunwen.com
|