学位论文 > 优秀研究生学位论文题录展示

一种定位中文印刷体文档中数学表达式的方法

作 者: 常新峰
导 师: 田学东
学 校: 河北大学
专 业: 计算机应用技术
关键词: OCR 数学表达式识别 数学表达式定位 决策树 BP神经网络
分类号: TP391.4
类 型: 硕士论文
年 份: 2009年
下 载: 12次
引 用: 0次
阅 读: 论文下载
 

内容摘要


印刷体数学表达式识别系统主要包括数学表达式定位、数学表达式符号识别、数学表达式结构分析和数学表达式重构四个组成部分。数学表达式定位是数学表达式识别的首要步骤,也是本文的研究重点。科技文献中的数学表达式分为孤立表达式和内嵌表达式,针对中文文档特点,提出了一种基于统计特征的决策树BP神经网络相结合的数学表达式定位方法,该方法分别定位孤立表达式与内嵌表达式,采用ID3算法对文本行属性特征进行分析,构造决策树,利用生成的规则定位文档中的孤立表达式;提取除孤立表达式外的其它行内水平连通块特征训练BP神经网络定位内嵌表达式。实验表明,该方法对中文印刷体文档中的数学表达式定位具有较高的正确率、容错率和速率

全文目录


摘要  5-6
Abstract  6-9
第1章 引言  9-12
  1.1 研究背景和意义  9
  1.2 国内外研究现状  9-10
  1.3 本文工作及组织结构  10-12
第2章 数学表达式识别系统概述  12-18
  2.1 数学表达式识别系统的组成  12-14
  2.2 数学表达式定位的难点  14-18
第3章 孤立数学表达式定位  18-27
  3.1 查找水平连通块  19
  3.2 定位孤立表达式  19-27
    3.2.1 孤立表达式特征提取  20-22
    3.2.2 基于决策树的孤立表达式定位方法  22-27
第4章 内嵌数学表达式定位  27-35
  4.1 内嵌表达式特征提取  27-29
  4.2 定位内嵌表达式  29-35
    4.2.1 确定BP神经网络结构  29-33
    4.2.2 利用BP神经网络定位内嵌表达式  33-35
第5章 实验结果及分析  35-42
  5.1 实验结果  35-40
    5.1.1 孤立表达式定位结果  35-37
    5.1.2 内嵌表达式定位结果  37-40
  5.2 结果分析  40-42
第6章 结论与展望  42-44
  6.1 工作总结  42
  6.2 后续工作展望  42-44
参考文献  44-47
攻读硕士学位期间发表论文情况  47-48
致谢  48

相似论文

  1. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  2. 机械臂视觉伺服系统的研究,TP242.6
  3. 基于支持向量机的故障诊断方法研究,TP18
  4. 市级旅游用地规划环境影响评价研究,X820.3
  5. 珠三角地区高性能混凝土配合比智能化系统,TU528
  6. 大学生综合素质测评研究,G645.5
  7. 基于并行算法的模糊综合评价模型的设计与应用,TP18
  8. 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
  9. 高速公路拆迁民众生存系统评价研究,D523
  10. 煤矿风险信息集成与智能预警研究,X936
  11. 基于计算机视觉的柑橘品质分级技术研究,TP391.41
  12. 基于模拟的注塑模浇注系统及成型工艺参数优化研究,TQ320.662
  13. 基于神经网络的漯河技术监督局食品安全预警系统研究,F203
  14. 基于神经网络的自适应噪声主动控制研究,TP183
  15. 数字型仪表自动识读系统研究,TP391.41
  16. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  17. 多向变异遗传算法及其优化神经网络的研究,TP18
  18. 基于因子分析和BP神经网络的风机状态诊断研究,F426.61
  19. 基于BP神经网络的GPS高程拟合模型及其应用研究,P228.4
  20. 江西省水生态承载力分析,TV213.4
  21. 基于神经网络方法的高速公路养护决策优化问题研究,U418.2;F542

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置
© 2012 www.xueweilunwen.com