学位论文 > 优秀研究生学位论文题录展示
基于笔画距离的手写文档检索算法研究
作 者: 付兴刚
导 师: 陈清财
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 手写体文档检索 笔画距离 动态时间弯曲
分类号: TP391.43
类 型: 硕士论文
年 份: 2009年
下 载: 33次
引 用: 0次
阅 读: 论文下载
内容摘要
笔式交互是多通道交互(Multi-Model Interaction, MMI)的一种重要形态,笔式交互允许用户通过自由勾画、手势等交互方式实现自然高效的交互,逐渐成为人机交互研究的热点。人们对笔式用户界面的需求和研究使得它得到了广泛的应用,包括便携和交互的平板电脑Tablet PC、PDA及其它移动设备,以及电子教学或智能办公环境下的电子白板和电子笔记本等。如何准确的在笔式交互系统产生的手写文档中进行查询、检索和定位是当前笔式交互技术的一个研究热点,必将进一步的推动笔式交互的应用和普及。本文以一种智能人机交互手写编辑系统为基础产生手写电子文档,并对手写文档中的文字检索方法进行了研究。手写体文档的检索既与手写体文字的识别有相似之处,但同时也有重要区别,主要体现在这种检索需要在开放的集合上执行,而文字识别通常可以看成是在一个事先建立的固定样本集合中查找与匹配。显然前者面临的情况会更复杂。为了有效解决这一问题,本文充分利用时间与空间信息,提出了一种基于笔画距离的手写文档检索算法。首先对手写文档中的文字进行归一化预处理,然后利用DTW(Dynamic Time Warping)算法计算笔画之间的距离,在此基础上,使用最小近邻优先算法和局部最优算法确定笔画对应关系,最终使用DTW距离计算手写文字的相似度,从而提出了基于笔画距离的手写文档检索算法。本文的方法不需要训练数据作为先验知识,对不同人书写的文字具有较高的容错能力。该算法在对HIT-OR3C(哈尔滨工业大学中文在线识别语料库)进行测试的时候,取得了较好的效果:对随机选取的一篇在线文档中出现频率最高的100个文字进行检索,基于笔画的DTW距离的检索方法比基于笔画整体距离的检索方法和基于能量弹性网格的检索方法的在准确率上提高了5%~20%,在召回率提高了3%~5%。与现有的手写输入检索方法相比,本文所提出的方法检索对笔画的随意性容忍程度高,正确率和召回率较高,基本满足实用需求。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-16 1.1 课题来源 9 1.2 本课题研究的目的及意义 9-10 1.3 手写文档检索国内外发展概况 10-15 1.3.1 手写文档检索概述 10-11 1.3.2 相关技术发展历史及现状 11-15 1.4 本文主要研究内容 15-16 第2章 手写文档检索的相关技术 16-27 2.1 引言 16 2.2 手写体汉字识别技术 16-22 2.2.1 预处理 16-17 2.2.2 特征提取 17-18 2.2.3 分类识别 18-20 2.2.4 基于笔画的手写汉字识别技术 20-22 2.3 基于网格特征的手写文档检索算法的原理 22-25 2.3.1 网格特征 22-24 2.3.2 基于能量弹性网格的手写文档检索方法 24-25 2.4 信息检索系统的评价方法 25-26 2.5 本章小结 26-27 第3章 基于笔画距离的手写文档检索算法 27-35 3.1 引言 27 3.2 手写文字预处理 27-29 3.2.1 手写文字的数据特征 27-28 3.2.2 手写文字的归一化 28-29 3.2.3 特征点的选取 29 3.3 笔画的距离公式 29-32 3.3.1 笔画的端点距离 30 3.3.2 笔画的部分距离 30-31 3.3.3 笔画的整体距离 31 3.3.4 笔画的DTW 距离 31-32 3.4 笔画对应关系确定算法 32-34 3.4.1 最小近邻优先算法 33 3.4.2 局部最优算法 33-34 3.5 相似度计算 34 3.6 本章小结 34-35 第4章 基于笔画距离的手写文字检索系统的实现 35-43 4.1 引言 35 4.2 智能手写编辑人机交互系统结构 35-36 4.3 HIT-OR3C 采集系统的结构与实现 36-39 4.4 手写文字检索系统的结构与实现 39-42 4.5 本章小结 42-43 第5章 实验与结果分析 43-50 5.1 引言 43 5.2 评测环境 43 5.3 HIT-OR3C 语料库 43-44 5.4 实验与结果分析 44-49 5.5 本章小结 49-50 结论 50-52 参考文献 52-56 攻读学位期间发表的论文 56-58 致谢 58
|
相似论文
- 在线手写文档识别方法的研究,TP391.43
- 阿克苏河径流的时间序列过程分析,TV121
- 快速时序相似性匹配及其在铁水含硅量建模中的应用研究,TF513
- 在线手写签名认证及其演化算法实现,TN918.2
- 基于GSM EFR编码器的语音命令识别技术,TN912.3
- 基于排气压力波分析的发动机故障监测诊断方法研究,U472.43
- 基于LS_SVM建立发酵过程动态模型的研究及软件实现,TQ920.1
- 基于手机势识别的通用控制研究,TP391.41
- 基于能量弹性网格的手写文档检索方法,TP391.3
- 基于语义分析的汉语短语识别方法研究,TP391.43
- 在线手写文档识别方法的研究,TP391.43
- 语句级联机手写汉字识别方法,TP391.43
- 基于CRF的中文命名实体识别研究,TP391.43
- 基于HMM-SVM混合模型的在线手写签名认证,TP391.43
- 基于笔顺重排的联机手写汉字识别的研究与实现,TP391.43
- 印刷体中文文档识别系统的研究,TP391.43
- 联机手写维吾尔文单词识别关键技术研究,TP391.43
- 基于模式—向量转化和转化程度函数的汉字识别,TP391.43
- 一种印刷体汉字特征点提取的新方法,TP391.43
- 基于DHMM的印刷体文字识别研究,TP391.43
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 文字识别及其装置
© 2012 www.xueweilunwen.com
|