学位论文 > 优秀研究生学位论文题录展示

复杂背景图像的文本信息提取研究

作　者: 孙巧榆
导　师: 吕岳
学　校: 华东师范大学
专　业: 计算机应用技术
关键词: 文本信息提取文本定位均值偏移视觉关注尺度空间边缘检测连通元分析投影轮廓分析
分类号: TP391.41
类　型: 博士论文
年　份: 2012年
下　载: 588次
引　用: 0次
阅　读: 论文下载

内容摘要

图像中的文本包含大量有价值的信息,是智能控制系统和信息检测与检索系统的重要处理对象。手机及各种便捷式图像获取设备的普及使得越来越多的信息载体以图像或视频的形式存在,让计算机代替人来处理、识别和理解图像中所包含的文字信息有强烈的应用需求,然而计算机对图像文本信息的识别和理解能力与实际应用要求尚有不小的距离。图像中文本信息的有效提取一直受到研究者的关注,尤其是复杂背景中的文本信息提取技术依然是急需解决的技术难题。本文研究工作着眼于对手机和相机等便携设备拍摄的具有复杂背景的图像中检测和定位文本信息,通过分析复杂背景图像中文本的固有特性,研究了三种文本检测和定位算法,实现了一个文本信息提取与识别系统。本文的主要研究成果和贡献包括：(1)提出了一种基于纹理和统计特征的文本检测和定位方法。采用简化的均值偏移方法对图像进行平滑滤波,对图像进行去噪的同时能保留变化相对较强的细节信息：在边缘图像中根据文本的纹理特性构建像素的笔划特征,去除非文本像素；利用文本的统计特征,去除非文本区域块。实验表明,该算法具有较快的速度和较高的召回率,尤其对处于复杂背景或与背景粘连的文本比较有效。(2)提出了一种基于改进的视觉关注模型的文本检测和定位方法。对Itti视觉关注模型进行了改进,一是高斯金字塔的层数可以根据图像的大小自动调整；二是根据字符的特性选择强度特征图作为显著图,去掉可能弱化文本区域的归一化过程；三是为了突出显著图中的细节信息,获取显著图的时候对特征图进行上采样,得到与源图像尺寸相同的显著图。利用字符边缘点的方向分布呈对称性的特点对连通元做初步过滤后,采用显著图作为掩膜来验证候选文本区域的真伪。实验表明,该算法具有较好的检测性能,能够有效地检测出对比度较弱的文本区域。(3)提出了一种基于尺度空间的文本检测和定位的方法。改进了边缘检测的模板,将4个方向的Sobel算子模板中两个对角线方向的模板替换为对应方向的脊线算子模板,以改善文本和背景粘连的处理效果。利用尺度空间中拉普拉斯-高斯算子最大响应值的特性来滤除非文本块,该响应值在尺度上往往和字符的笔划宽度对应,并且分布在笔划的交界和末端,利用候选文本区域的笔划宽度作为启发条件,寻找尺度空间中是否有对应的较强响应点存在,结合这些点的分布情况滤除非文本区域。实验结果表明该算法具有较高的精确度。(4)实现了一个自然场景图像中的文本自动检测与识别系统。对于输入的自然场景图像首先利用文本检测和定位方法给出图像中的文本区域,然后对检测出的文本区域在二值化后进行尺度归一化处理,最后利用一个字符识别软件提取出文本区域中的文字信息。(5)对三种文本检测和定位方法的性能做了比较和分析,并实验表明每种方法各有优缺点,基于纹理和统计特征的文本检测和定位方法的整体性能指标虽然低于其余两种方法,但该方法对于复杂文本背景的图像比较有效；基于视觉关注模型的文本检测和定位方法的性能稍逊于基于尺度空间的文本检测和定位的方法,但该方法能够成功检测出对比度较弱的文本区域；基于尺度空间的文本检测和定位方法的整体性能指标最高,尤其是在精确度上具有优势,能够有效去除和文本类似的背景区域。

全文目录

摘要  6-8
ABSTRACT  8-10
目录  10-13
插图  13-15
表格  15-16
第一章绪论  16-40
  1.1 选题背景和研究意义  16-18
  1.2 研究现状  18-24
    1.2.1 基于区域方法  18-22
    1.2.2 基于纹理方法  22-23
    1.2.3 场景文本识别  23-24
  1.3 ICDAR文本定位竞赛  24-29
    1.3.1 ICDAR 2003文本定位竞赛  25-27
    1.3.2 ICDAR 2005文本定位竞赛  27
    1.3.3 ICDAR 2011文本定位竞赛  27-29
  14 文本定位算法数据集  29-33
    1.4.1 ICDAR 2003数据集  29-30
    1.4.2 ICDAR 2011数据集  30-31
    1.4.3 Microsoft Asia数据集  31
    1.4.4 ECNU-CCG数据集  31-33
  1.5 评价方法  33-38
    1.5.1 评价体系概述  33-35
    1.5.2 目标检测算法的评价方法  35
    1.5.3 文本检测的评价方法  35-38
  1.6 存在问题  38-39
  1.7 本文主要工作和研究成果  39-40
第二章基于纹理和统计特征的文本检测和定位方法  40-67
  2.1 均值偏移算法  40-45
    2.1.1 均值偏移算法的基本原理  40-43
    2.1.2 均值偏移算法的基本应用  43-45
  2.2 基于纹理和统计特征的文本检测和定位  45-54
    2.2.1 图像平滑和边缘检测  46-51
    2.2.2 文本检测和定位  51-54
  2.3 实验结果与讨论  54-66
    2.3.1 参数选择  54-63
    2.3.2 实验结果  63-66
  2.4 本章小结  66-67
第三章基于视觉关注的文本检测和定位方法  67-91
  3.1 Itti视觉关注模型  67-70
    3.1.1 早期视觉特征的提取  68-69
    3.1.2 显著图  69-70
  3.2 边缘方向直方图  70-73
    3.2.1 边缘的非对称性强度  70-71
    3.2.2 边缘方向直方图的获取  71-73
  3.3 基于视觉关注的文本检测和定位  73-82
    3.3.1 边缘检测  74-75
    3.3.2 利用连通元分析进行字符区域检测  75-78
    3.3.3 利用视觉关注模型进行文本区域确认  78-82
  3.4 实验结果与讨论  82-89
    3.4.1 参数选取  82-86
    3.4.2 实验结果  86-89
  3.5 本章小结  89-91
第四章基于尺度空间的文本检测和定位方法  91-117
  4.1 尺度空间理论  91-97
    4.1.1 多尺度表示  91-92
    4.1.2 Lindeberg的尺度空间理论  92-97
  4.2 基于尺度空间的文本检测和定位  97-110
    4.2.1 利用边缘和CCA进行文本检测  98-100
    4.2.2 尺度空间中拉普拉斯-高斯算子的最强响应  100-108
    4.2.3 文本区域的确认  108-110
  4.3 实验结果与讨论  110-115
    4.3.1 参数选取  110-113
    4.3.2 实验结果  113-115
  4.4 本章小结  115-117
第五章场景文本识别系统  117-126
  5.1 文本区域的二值化  117-120
  5.2 文本区域的尺度归一化  120-121
  5.3 文本区域的字符识别  121-125
  5.4 本章小结  125-126
第六章总结与展望  126-130
  6.1 本文主要工作及成果  126-128
  6.2 本文不足及将来的研究方向  128-130
附录  130-131
  A.攻读博士学位期间发表的论文  130-131
参考文献  131-141
后记  141-142

复杂背景图像的文本信息提取研究

内容摘要

全文目录

相似论文