学位论文 > 优秀研究生学位论文题录展示

基于复杂度的自适应中文版面分析方法研究

作 者: 范玉凤
导 师: 殷波
学 校: 中国海洋大学
专 业: 计算机技术
关键词: 文本版面分析 投影算法 连通域算法 复杂度
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 26次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机技术、电子技术和人工智能等技术的飞速发展,OCR技术的发展成熟,越来越多的国内外专家学者关注着文档图像的自动处理。文档图像的自动处理主要包括文档图像的版面分析与版面理解(Document Layout Understanding)和OCR识别。版面分析与版面理解主要完成对文档图像的分割,分类等处理,以便将文字区作为OCR系统的有效输入。本文以文本版面分析为课题,主要研究对象为一种复杂的文档版面。本文研究的目的是,通过版面分析,能够将文档版面根据其复杂度进行分割,将版面划分出嵌入的图表或图像以及主体版面的各个段落、标题;在进行版面分析之前,先对输入的文档进行去噪处理和倾斜校正。在版面分析方面,本文采用复杂度分析的算法思想,对连通域进行搜索,结合版面先验知识,分析并提取异常于文字部分的连通域的,并对此部分进行投影分析,根据该部分的投影特征及连通域的形状,分析出该部分是图形、表格还是文本,对于剩余的文档部分,采用投影算法,设定自适应的阈值,划分版面的各个段落及标题;此法运算量较小,算法效率较高。

全文目录


摘要  5-6
Abstract  6-9
1 绪论  9-14
  1.1 OCR系统介绍  9-11
  1.2 版面分析基础知识  11-12
    1.2.1 版面分析研究意义  11-12
    1.2.2 中文版面的特点  12
    1.2.3 中文版面的分类  12
  1.3 本文的文章结构  12-14
2 文本图像的预处理方法  14-25
  2.1 预处理的简介  14
  2.2 文本图像的灰度化、二值化  14-21
  2.3 文本图像的倾斜校正  21-23
  2.4 本章小结  23-25
3 常见版面分析方法介绍  25-31
  3.1 自顶向下法  26-28
    3.1.1 游程平滑算法  26-27
    3.1.2 投影轮廓算法  27-28
  3.2 自底向上法  28-29
    3.2.1 近邻直线密度算法  28-29
    3.2.2 连通分量分析法  29
  3.3 其他各种分割与分类算法  29-30
  3.4 本章小结  30-31
4 基于复杂度的自适应版面分析  31-45
  4.1 连通域分析  31-37
    4.1.1 连通域分析及简单合并  32-35
    4.1.2 连通区域的行列切分  35-37
  4.2 版面复杂度分析  37-41
    4.2.1 投影法版面分析  37-39
    4.2.2 版面类型的划分  39-41
  4.3 文本域的处理  41-44
  4.4 本章小结  44-45
5 工作总结与展望  45-46
  5.1 工作总结  45
  5.2 工作展望  45-46
参考文献  46-48
致谢  48-49
个人简历  49

相似论文

  1. OFDM系统中选择性映射降低峰均比的研究,TN919.3
  2. 基于DM6446的电子稳像技术研究与实现,TP391.41
  3. 机载电子稳像系统设计与实现,TP391.41
  4. 交替投影法的应用,O224
  5. 基于LPP算法的人脸识别技术研究,TP391.41
  6. 超分辨率图像重建算法的研究及实现,TP391.41
  7. PET图像重建算法的研究与优化,TP391.41
  8. 插值法在CT图像重建中的应用,TP391.41
  9. 基于H.264的视频实时传输系统研究与设计,TN919.81
  10. 低复杂度LDPC解码器的VLSI设计与实现,TN764
  11. 基于H.264的码率控制算法研究,TN919.81
  12. DVB-S.2标准中LDPC码的研究,TN911.22
  13. 复杂的中文文档图像版面分析研究,TP391.41
  14. R树的粗几何性质,O174.12
  15. 无线传感器网络中的K覆盖问题,TN929.5
  16. 基于驾驶员注意力需求的道路线形复杂度分级研究,U412.3
  17. 多重幻方的构造与若干问题研究,O157
  18. 重新编码后语言和序列的性质,O157.4
  19. 脑电信号的复杂性分析,R318.0
  20. 带进位反馈移位寄存器的相关问题,TN918.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com