学位论文 > 优秀研究生学位论文题录展示
基于向量线段的数学公式中特殊字符的识别
作 者: 高歌
导 师: 臧斌宇
学 校: 复旦大学
专 业: 计算机软件与理论
关键词: 特殊字符识别 特征提取 近似多边形 原型数据库 识别器
分类号: TP391.41
类 型: 硕士论文
年 份: 2011年
下 载: 31次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机和网络技术的发展,将印刷体文档通过光学字符识别技术(Optical Characters Recognition, OCR)转化为电子格式进行存储和管理已经成为重要的信息流通方式。传统的OCR系统已经广泛用于手写、打印文档的字符识别并且有了很高的识别率,但是在某些特殊领域:如掺杂了字符、图表、公式的混合文献,由于无法识别文献中的数学公式和图表,使其效率和准确率都明显降低。如何准确的提取、解析并重构文献中的数学公式,已经成为当前识别领域的一个研究热点。在数学公式识别系统中,公式预处理及字符识别模块的作用是极为重要的,也是决定识别效果的关键。本文主要针对印刷体数学公式字符识别展开研究,目的在于提高数学公式字符识别的速度,并同时确保数学公式识别的准确率,最终提高含有数学公式的印刷体文献的整体识别效率。本文设计了可以适应含有特殊字符、大小字体不同、二维分布等特点的特殊字符识别算法。引入向量线段的概念,通过特征算法提取字符中的向量线段组成近似多边形,并基于向量线段的特征矢量进行字符的比较识别,此外本文还架设了用于字符的比对和识别的包含丰富字符原型的字符数据库以及扩展性极强的识别器。在此基础上文章提出一个较为完善的测试结构,同时满足对六种不同的字符比较算法的字符识别测试,通过对测试结果的分析,进一步优化数据库和算法设计,最后通过实验证明该算法对于数学公式中特殊字符的分析识别具有较好的准确性和应用前景。
|
全文目录
摘要 5-6 Abstract 6-7 第一章 引言 7-13 1.1 研究背景 7-8 1.2 国内外研究近况 8-11 1.3 本文的工作 11-13 第二章 OCR算法概述 13-16 2.1 OCR系统概述 13-14 2.2 数学公式识别系统概述 14-15 2.3 数学公式识别算法的评价标准 15 2.4 本章小结 15-16 第三章 字符特征提取及去噪算法 16-26 3.1 字符提取的基本概念定义 16-17 3.1.1 轮廓线、向量线段和边界矩形 16-17 3.1.2 字符方向 17 3.2 提取向量线段 17-25 3.2.1 提取轮廓线 18-20 3.2.2 提取多边形 20-22 3.2.3 去除噪点 22-25 3.3 本章小结 25-26 第四章 字符识别比较算法 26-33 4.1 基于线段长度和近似方向的比较算法 26-27 4.2 基于向量线段和近似方向的比较算法 27-28 4.3 基于矢量组夹角及近似方向的比较算法 28 4.4 基于向量长度和近似方向的比较算法 28-30 4.5 基于线段长度和方向的比较算法 30-31 4.6 基于线段长度和坐标的比较算法 31-32 4.7 本章小结 32-33 第五章 构建字符比对数据库和测试框架 33-45 5.1 从Infty-CDB数据库中提取字符图像 34 5.2 定义比对数据库格式 34-36 5.3 构建测试框架 36 5.4 字符识别过程 36-37 5.5 实验项目实施概述 37-44 5.5.1 实验项目结构 37-38 5.5.2 建立对象模型 38-42 5.5.3 测试程序架构 42-44 5.5.4 模块测试 44 5.6 本章小结 44-45 第六章 实验结果分析 45-50 6.1 未识别字符分类 45-47 6.2 针对测试结果优化算法 47-48 6.3 结果评估 48-50 6.3.1 数据库待优化 48 6.3.2 最优算法存在限制 48-50 第七章 结束语 50-51 参考文献 51-53 致谢 53-54
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
- 红外图像目标识别及跟踪技术研究,TP391.41
- 水下目标特征的压缩与融合技术研究,TN911.7
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com
|