学位论文 > 优秀研究生学位论文题录展示
一种定位中文印刷体文档中数学表达式的方法
作 者: 常新峰
导 师: 田学东
学 校: 河北大学
专 业: 计算机应用技术
关键词: OCR 数学表达式识别 数学表达式定位 决策树 BP神经网络
分类号: TP391.4
类 型: 硕士论文
年 份: 2009年
下 载: 12次
引 用: 0次
阅 读: 论文下载
内容摘要
印刷体数学表达式识别系统主要包括数学表达式定位、数学表达式符号识别、数学表达式结构分析和数学表达式重构四个组成部分。数学表达式定位是数学表达式识别的首要步骤,也是本文的研究重点。科技文献中的数学表达式分为孤立表达式和内嵌表达式,针对中文文档特点,提出了一种基于统计特征的决策树与BP神经网络相结合的数学表达式定位方法,该方法分别定位孤立表达式与内嵌表达式,采用ID3算法对文本行属性特征进行分析,构造决策树,利用生成的规则定位文档中的孤立表达式;提取除孤立表达式外的其它行内水平连通块特征训练BP神经网络定位内嵌表达式。实验表明,该方法对中文印刷体文档中的数学表达式定位具有较高的正确率、容错率和速率
|
全文目录
摘要 5-6 Abstract 6-9 第1章 引言 9-12 1.1 研究背景和意义 9 1.2 国内外研究现状 9-10 1.3 本文工作及组织结构 10-12 第2章 数学表达式识别系统概述 12-18 2.1 数学表达式识别系统的组成 12-14 2.2 数学表达式定位的难点 14-18 第3章 孤立数学表达式定位 18-27 3.1 查找水平连通块 19 3.2 定位孤立表达式 19-27 3.2.1 孤立表达式特征提取 20-22 3.2.2 基于决策树的孤立表达式定位方法 22-27 第4章 内嵌数学表达式定位 27-35 4.1 内嵌表达式特征提取 27-29 4.2 定位内嵌表达式 29-35 4.2.1 确定BP神经网络结构 29-33 4.2.2 利用BP神经网络定位内嵌表达式 33-35 第5章 实验结果及分析 35-42 5.1 实验结果 35-40 5.1.1 孤立表达式定位结果 35-37 5.1.2 内嵌表达式定位结果 37-40 5.2 结果分析 40-42 第6章 结论与展望 42-44 6.1 工作总结 42 6.2 后续工作展望 42-44 参考文献 44-47 攻读硕士学位期间发表论文情况 47-48 致谢 48
|
相似论文
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 机械臂视觉伺服系统的研究,TP242.6
- 基于支持向量机的故障诊断方法研究,TP18
- 市级旅游用地规划环境影响评价研究,X820.3
- 珠三角地区高性能混凝土配合比智能化系统,TU528
- 大学生综合素质测评研究,G645.5
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 高速公路拆迁民众生存系统评价研究,D523
- 煤矿风险信息集成与智能预警研究,X936
- 基于计算机视觉的柑橘品质分级技术研究,TP391.41
- 基于模拟的注塑模浇注系统及成型工艺参数优化研究,TQ320.662
- 基于神经网络的漯河技术监督局食品安全预警系统研究,F203
- 基于神经网络的自适应噪声主动控制研究,TP183
- 数字型仪表自动识读系统研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 多向变异遗传算法及其优化神经网络的研究,TP18
- 基于因子分析和BP神经网络的风机状态诊断研究,F426.61
- 基于BP神经网络的GPS高程拟合模型及其应用研究,P228.4
- 江西省水生态承载力分析,TV213.4
- 基于神经网络方法的高速公路养护决策优化问题研究,U418.2;F542
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置
© 2012 www.xueweilunwen.com
|