学位论文 > 优秀研究生学位论文题录展示

基于极大稳定极值区的视频文本检测算法研究

作 者: 陈丽娇
导 师: 卢湖川
学 校: 大连理工大学
专 业: 电子与通信工程
关键词: 文本检测 梯度幅度图 形态滤波 最稳定极值区 图分割
分类号: TP391.41
类 型: 硕士论文
年 份: 2012年
下 载: 81次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着网络与多媒体技术的发展,大量的网络资源以媒体的方式存在,这就使视频检索成为人类生活中不可或缺的一部分。到目前为止,视频的检索还是以人工标记为主,如我们所知,这种人工标记的方法是不准确的,而视频中字幕和场景中的文字能够很好的表达视频的主要内容,因此,基于视频内容的语义分析成为一个热门领域。一般情况下,视频的背景都比较复杂,而且由于视频的有损压缩或视频质量不高,视频的字幕经常会出现颜色渗透、边缘模糊和对比度低的现象,这就给视频文本检测带来了挑战,在本文中提出了一个鲁棒的文本检测框架来解决这些问题。首先,我们使用梯度幅度图(GAM)来增强输入图像的文本边界,克服了文本边界模糊和颜色渗透的问题;其次,使用两个方向的形态滤波滤除部分背景干扰并增强了文本与背景的对比度;再次,使用最稳定极值(MSER)区域检测器来检测视频文本的连通区域,以MSER检测到文本区域的亮度均值作为Graph Cuts的标签集,HSI颜色空间的H、S、I三通道的欧式距离作为平滑项得到文本的最佳分割;最后利用文本的几何分布特性将文本连成文本行,并用多帧确认和一些启发教育的方法去除非文本区域。为了验证本文算法的有效性,我们对一系列具有挑战的视频进行测试,实验证明本文提出的文本检测框架具有很好的鲁棒性。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-14
  1.1 研究背景及意义  8-9
  1.2 国内外文本检测研究现状  9-14
    1.2.1 边缘分析方法  9-10
    1.2.2 纹理分析法  10-12
    1.2.3 连通域分析法  12-14
2 文本检测研究综述  14-20
  2.1 视频文本分类  14
  2.2 文本特征分析  14-18
    2.2.1 不依赖语言的文本特征  15-16
    2.2.2 依赖语言的文本特征  16-18
  2.3 论文主要任务和结构  18-20
    2.3.1 本文的主要任务  18-19
    2.3.2 本文结构  19-20
3 文本检测算法研究  20-33
  3.1 最稳定极值区检测  20-25
    3.1.1 MSER算法原理  20-21
    3.1.2 MSER的提取算法  21-25
  3.2 高/底帽变换  25-28
    3.2.1 灰度形态学基本定义  26
    3.2.2 高/底帽变换定义  26-27
    3.2.3 结构算子的选取  27-28
  3.3 Graph Cuts算法  28-30
    3.3.1 Graph Cuts算法原理  28-30
    3.3.2 目标能量函数最小化  30
  3.4 文本提取框架流程  30-33
    3.4.1 文本提取技术难题  30-31
    3.4.2 本文文本检测框架  31-33
4 文本检测算法实现  33-49
  4.1 视频文本检测  33-40
    4.1.1 HSI颜色空间  33-35
    4.1.2 GAM文本边界增强  35-36
    4.1.3 形态滤波增强的MSER  36-38
    4.1.4 字符分割  38-40
  4.2 候选文本区域定位  40-47
    4.2.1 文本几何特征分析  40-42
    4.2.2 RLSA算法  42-44
    4.2.3 文本粗定位  44-46
    4.2.4 笔画宽度标记  46-47
  4.3 多帧方式确认候选文本区域  47-49
5 实验结果与分析  49-56
  5.1 视频文本检测数据库介绍  49-50
  5.2 实验参数设定与结果评价准则  50-51
    5.2.1 参数设定  50
    5.2.2 结果评价准则  50-51
  5.3 实验结果评价与分析  51-53
    5.3.1 文本边缘增强对文本检测的作用  51-52
    5.3.2 高底帽变换对文本背景抑制的作用  52-53
    5.3.3 Graph Cuts对得到文本最优分割的作用  53
  5.4 综合实验分析  53-56
结论  56-57
参考文献  57-61
致谢  61-62

相似论文

  1. 基于运动检测的视频交通系统,TP391.41
  2. 基于视频的火灾识别算法研究,TP391.41
  3. 基于二值形态学的形态变换方法及应用,TP391.41
  4. 复杂背景下彝文古籍文本提取方法研究,TP391.1
  5. 电压波动与闪变检测方法的研究,TM933.2
  6. 基于Hilbert-Huang变换的滚动轴承故障诊断方法研究,TH165.3
  7. 面向字幕帧的视频图像文本识别,TP391.41
  8. 小电流接地系统选线装置的实用化研究,TM862
  9. 变压器在线监测中局部放电信号除噪技术的研究,TN911.4
  10. 舰船辐射噪声的特征线谱提取,U674.7
  11. 完备及欠定条件下盲分离在故障诊断中的应用研究,TN911.7
  12. 网络图片中文本区域的定位技术研究,TP391.41
  13. 基于小波分析与粗糙集理论的发动机智能故障诊断研究,TK407
  14. 数字形态滤波器应用及硬件实现,TN713
  15. 基于SOM的视频中人工文本检测方法研究,TP391.41
  16. 基于形态滤波和矩阵束理论的电能质量分析,TM711
  17. 基于GPU并行计算的重复文本检测系统,TP391.3
  18. 基于边缘和灰度的视频文字提取方法的研究与应用,TP391.41
  19. 复杂背景下彩色图像中的文字识别,TP391.41
  20. 基于多帧融合的视频文本检测,TP391.41
  21. 转子振动信号的数学形态滤波方法与量化特征提取问题研究,TN911.7

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com