学位论文 > 优秀研究生学位论文题录展示
基于复杂度的自适应中文版面分析方法研究
作 者: 范玉凤
导 师: 殷波
学 校: 中国海洋大学
专 业: 计算机技术
关键词: 文本版面分析 投影算法 连通域算法 复杂度
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 26次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机技术、电子技术和人工智能等技术的飞速发展,OCR技术的发展成熟,越来越多的国内外专家学者关注着文档图像的自动处理。文档图像的自动处理主要包括文档图像的版面分析与版面理解(Document Layout Understanding)和OCR识别。版面分析与版面理解主要完成对文档图像的分割,分类等处理,以便将文字区作为OCR系统的有效输入。本文以文本版面分析为课题,主要研究对象为一种复杂的文档版面。本文研究的目的是,通过版面分析,能够将文档版面根据其复杂度进行分割,将版面划分出嵌入的图表或图像以及主体版面的各个段落、标题;在进行版面分析之前,先对输入的文档进行去噪处理和倾斜校正。在版面分析方面,本文采用复杂度分析的算法思想,对连通域进行搜索,结合版面先验知识,分析并提取异常于文字部分的连通域的,并对此部分进行投影分析,根据该部分的投影特征及连通域的形状,分析出该部分是图形、表格还是文本,对于剩余的文档部分,采用投影算法,设定自适应的阈值,划分版面的各个段落及标题;此法运算量较小,算法效率较高。
|
全文目录
摘要 5-6 Abstract 6-9 1 绪论 9-14 1.1 OCR系统介绍 9-11 1.2 版面分析基础知识 11-12 1.2.1 版面分析研究意义 11-12 1.2.2 中文版面的特点 12 1.2.3 中文版面的分类 12 1.3 本文的文章结构 12-14 2 文本图像的预处理方法 14-25 2.1 预处理的简介 14 2.2 文本图像的灰度化、二值化 14-21 2.3 文本图像的倾斜校正 21-23 2.4 本章小结 23-25 3 常见版面分析方法介绍 25-31 3.1 自顶向下法 26-28 3.1.1 游程平滑算法 26-27 3.1.2 投影轮廓算法 27-28 3.2 自底向上法 28-29 3.2.1 近邻直线密度算法 28-29 3.2.2 连通分量分析法 29 3.3 其他各种分割与分类算法 29-30 3.4 本章小结 30-31 4 基于复杂度的自适应版面分析 31-45 4.1 连通域分析 31-37 4.1.1 连通域分析及简单合并 32-35 4.1.2 连通区域的行列切分 35-37 4.2 版面复杂度分析 37-41 4.2.1 投影法版面分析 37-39 4.2.2 版面类型的划分 39-41 4.3 文本域的处理 41-44 4.4 本章小结 44-45 5 工作总结与展望 45-46 5.1 工作总结 45 5.2 工作展望 45-46 参考文献 46-48 致谢 48-49 个人简历 49
|
相似论文
- OFDM系统中选择性映射降低峰均比的研究,TN919.3
- 基于DM6446的电子稳像技术研究与实现,TP391.41
- 机载电子稳像系统设计与实现,TP391.41
- 交替投影法的应用,O224
- 基于LPP算法的人脸识别技术研究,TP391.41
- 超分辨率图像重建算法的研究及实现,TP391.41
- PET图像重建算法的研究与优化,TP391.41
- 插值法在CT图像重建中的应用,TP391.41
- 基于H.264的视频实时传输系统研究与设计,TN919.81
- 低复杂度LDPC解码器的VLSI设计与实现,TN764
- 基于H.264的码率控制算法研究,TN919.81
- DVB-S.2标准中LDPC码的研究,TN911.22
- 复杂的中文文档图像版面分析研究,TP391.41
- R树的粗几何性质,O174.12
- 无线传感器网络中的K覆盖问题,TN929.5
- 基于驾驶员注意力需求的道路线形复杂度分级研究,U412.3
- 多重幻方的构造与若干问题研究,O157
- 重新编码后语言和序列的性质,O157.4
- 脑电信号的复杂性分析,R318.0
- 带进位反馈移位寄存器的相关问题,TN918.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|