学位论文 > 优秀研究生学位论文题录展示
印刷体数学公式抽取方法的研究
作 者: 张立平
导 师: 田学东
学 校: 河北大学
专 业: 计算机应用技术
关键词: OCR 公式识别 公式抽取 非规则度特征 模糊逻辑
分类号: TP391.41
类 型: 硕士论文
年 份: 2007年
下 载: 11次
引 用: 0次
阅 读: 论文下载
内容摘要
经过几十年的发展,OCR(光学字符识别,Optical Character Recognition)技术已经进入了实用阶段,而且其速度和准确率都达到了令人满意的程度,克服了人工输入费时费力的缺点。然而现有的OCR系统在处理文档时,对其中的数学公式无能为力,只能将其按图片存储,不但占用大量空间,而且不能进行编辑和检索。在网络高速发展的今天,资源共享和资源复用越来越重要,把大量的含有数学公式的科技文献以电子文档方式保存显得尤为重要。因此,数学公式自动识别技术具有很高的实用价值。数学公式识别系统分为数学公式抽取、公式符号识别、公式结构分析和公式重构四个模块。数学公式抽取是其中的一个重要环节,相关研究已有很多,但这些研究大多基于识别结果且针对的是英文文档。本文针对中文文档自身的特点,提出了一种孤立公式、内嵌公式分步处理,内嵌公式分级处理的层次抽取方法。该方法分为两步:孤立公式抽取和内嵌公式抽取。对于孤立公式,采用统计特征并引入基于模糊逻辑的判决规则,取得了较好的抽取效果;对于内嵌公式,先用统计特征对图像中的字符粗分类,然后用内容特征对字符进行细分类,最终完成内嵌公式的抽取。这种分级处理内嵌公式的思想结合了统计方法速度快和识别方法精度高的优点,取得了较好的抽取效果。实验表明,这种层次抽取的方法对含有数学公式的中文文档具有较好的适应性和较高的准确率。
|
全文目录
摘要 4-5 Abstract 5-8 第1章 引言 8-11 1.1 研究背景和意义 8 1.2 国内外研究现状 8-10 1.3 文章组织 10-11 第2章 数学公式识别系统概述 11-15 2.1 数学公式识别系统的组成 11-14 2.1.1 公式抽取 11-12 2.1.2 公式符号识别 12-13 2.1.3 公式结构分析 13 2.1.4 公式重构 13-14 2.2 公式抽取的难点 14-15 第3章 图像预处理 15-29 3.1 图像去噪 15-20 3.1.1 均值滤波 15-16 3.1.2 中值滤波 16-17 3.1.3 八近邻内插法 17-18 3.1.4 掩膜处理法 18-20 3.2 倾斜校正 20-29 3.2.1 倾斜校正坐标系变换公式 20-21 3.2.2 斜度测量 21-26 3.2.3 倾斜校正 26-27 3.2.4 纵横向分辨率不同对倾斜校正的影响 27-29 第4章 公式抽取 29-48 4.1 连通区搜索 29-35 4.1.1 快速搜索算法 30-31 4.1.2 完全搜索算法 31-34 4.1.3 连通区后处理 34-35 4.2 非规则度定义 35-37 4.3 孤立公式抽取 37-41 4.3.1 孤立公式抽取概述 37-38 4.3.2基于模糊逻辑的孤立公式抽取方法 38-41 4.4 内嵌公式抽取 41-48 4.4.1基于Bayes分类规则的内嵌公式抽取方法 41-43 4.4.2基于非规则度的内嵌公式抽取方法 43-48 第5章 实验过程及结果分析 48-52 5.1 测试结果 48-50 5.1.1 孤立公式实验结果 48-49 5.1.2 内嵌公式实验结果 49-50 5.2 评价标准 50 5.3 结果分析 50-52 第6章 结论与展望 52-54 6.1 工作总结 52 6.2 后续工作展望 52-54 参考文献 54-57 攻读硕士学位期间发表论文情况 57-58 致谢 58-59 附录 59
|
相似论文
- 模糊制导律与导引品质的关系,TJ765
- 道路交通安全综合评价方法研究,U492.8
- 数字图像中文字移除和修复系统的设计和实现,TP391.41
- 基于模糊逻辑控制原理的WLAN MAC协议改进,TN925.93
- 印刷体数学公式识别的研究与实现,TP391.41
- 变速恒频双馈风电机组最大功率点追踪控制,TM614
- 基于粗集模糊逻辑的洗衣机模糊控制系统的应用研究,TP273.4
- 基于模糊逻辑的军用软件项目风险评估研究,TP311.52
- 人群驱散仿真系统的研究与实现,TP18
- 基于软开关的光伏发电系统最大功率跟踪技术的研究,TM615
- 混合动力汽车动力总成智能控制系统研究,U469.72
- 基于DM642的嵌入式林区火焰监控系统研究,TP277
- 印刷体数学公式中矩阵结构分析方法的研究,TP391.4
- 印刷体数学公式特殊结构的分析与重构,TP391.4
- 一种定位中文印刷体文档中数学表达式的方法,TP391.4
- 商业银行远程监督系统研究和开发,F832.2
- 基于模糊逻辑的导弹制导律应用研究,TJ765
- 基于改进人工势场法的足球机器人路径规划研究,TP242
- 基于层递式模糊神经网络的非线性系统辨识,TP183
- 基于模糊逻辑控制的汽车倒车防撞系统的研究与设计,TP273.4
- 兆瓦级双馈风力发电变流器及其控制,TM614
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com
|