学位论文 > 优秀研究生学位论文题录展示

基于语义的视频浏览系统中的关键技术研究

作 者: 钱学明
导 师: 信息与通信工程
学 校: 西安交通大学
专 业: 刘贵忠
关键词: 语义视频分析 视频摘要 视频浏览 视频检索
分类号: TP391.41
类 型: 博士论文
年 份: 2007年
下 载: 178次
引 用: 0次
阅 读: 论文下载
 

内容摘要


方便可得的视频媒体自然极大地丰富着人们的生活和工作,但是人们在享受信息时代方便快捷的服务时,同样也面临着一个长期困扰的问题:如何快捷地从网络视频媒体库中定位到自己真正感兴趣的内容。该问题是视频分析和检索领域中一个富有挑战性的研究课题。为了解决该问题,通常需要对视频进行语义的分类,以充分挖掘其中语义对象、概念以及他们之间的内在因果关系,以期望给用户提供类似于Internet上基于关键词的文本查询方式。另外,对视频媒体内容按照一个灵活的方式进行展示,以辅助用户进行内容的查询和浏览,就象翻书那样方便地从视频媒体库中找到自己感兴趣的内容。本文是针对基于语义的视频浏览系统中的关键技术研究而展开的,其中的工作包括如下几个方面:(1)基于压缩域信息的特征分析和特征提取。由于视频数据量大,而且视频数据不同于图像和文字等媒体内容,其最大的特点是存在极大的时间和空间上的冗余,因此视频媒体在存储和传输前都要进行去冗余的压缩编码。如何有效利用压缩域信息进行快速高效的特征分析和特征提取是我们研究的主要内容之一。在相关的研究中,使用I帧DCT系数来近似表示图像的纹理,用DC图像及其直方图来近似表达原始图像以及其直方图以快速进行分析,用压缩域中的运动矢量场来进行快速的运动特征描述等。这些为本文后续工作中采用压缩域信息的特征表示以及快速的特征分析和提取方法奠定了坚实的基础。(2)镜头边界检测以及基于语义的镜头分类。镜头边界检测也即场景切换类型检测是视频分析中的一个基本环节。本文从镜头切换的数学模型出发推导了Flashlight和Fade in/out的累计直方图差的一般特性,并用压缩域的DC图像的直方图来进行快速的检测。从累计直方图的特性,不仅可以检测出Fade in/out并且能够进行Fade in/out所对应的语义类型识别。在对Flahslight和Fade in/out确认的基础上进行Cut、Dissolve和其它类型的场景切换检测,极大地提高了镜头边界检测的性能。进行镜头的语义分类是视频检索中的一个重要环节,从语义的镜头类型信息以及相应的音频数据类型信息能够有效地进行视频故事单元的主题思想理解。本文对视频按照其所在领域知识、视频编辑中的约定俗成的制作手法,以及摄像机的运动模式将足球比赛视频中的镜头划分成一系列语义的类别。并且将音频按照时域和谱域的能量分布特性划分成纯说话、静音、纯音乐、含有背景噪声的说话以及含有背景音乐的说话片段等五种类型。这种场景切换类型识别、语义的镜头类型特征以及音频数据类型等都为我们进行后续高级语义事件和故事单元的检测和分类提供了重要的信息。(3)字幕检测、定位、跟踪、分割以及字幕类型划分方法。利用MPEG压缩域中I帧DCT系数所表达的纹理特征进行快速、高效的字幕检测和定位。并用压缩域中的DCT系数特征来对字幕的出现和消失帧予以快速的跟踪,最终融合包括前背景以及视频字幕的时间冗余特性来进行高效的字幕分割。并且对H.264/AVC和MPEG压缩域中的字幕检测性能进行了对比分析。将字幕按照其活动性以及存在时间的长度信息划分成滚动字幕、长期字幕、说话内容字幕和标题字幕等4种类型,以辅助进行基于语义的事件和故事单元检测和分类。(4)全局运动估计、基于摄像机运动模式的镜头细分和基于全局/局部运动相结合的应用。我们使用压缩域中的运动矢量场来进行快速的全局运动估计。其中包括基于运动矢量组的全局运动估计和基于遗传算法的全局运动估计。利用全局运动信息,将足球比赛视频中的全景镜头进行语义的细分。这种细分后的语义镜头类型信息为进行足球视频中的语义事件挖掘提供了重要的参考依据。另外,提出了基于GM/LM视频字幕遮挡区域恢复以及视频通信系统中的错误恢复,达到了较好的恢复效果。(5)语义事件和故事单元的检测和分类。融合语义的镜头类型信息、字幕类型信息、摄像机运动模式、视频领域相关知识来将体育比赛视频序列划分成进球、射门、犯规、定位球和普通等5种完备的事件集合。并且在此基础上对精彩事件按照摄像机运动模式分类到比赛中的两支球队中。融合视觉信息、字幕类型信息和音频类型特征来进行新闻视频故事单元的检测和分类。这种事件和故事单元的分类方式为进行基于高级语义特征的视频检索、摘要和浏览提供可能。(6)一个统一的灵活方便的视频摘要和浏览系统框架。在事件和故事单元的检测和分类基础上,按照书目编排的目录即ToC结构来有效进行新闻和体育视频内容组织。并提出了一种通用的基于ToC的视频内容浏览系统框架。在该框架中,按照事件和故事单元的分类情况,给出了一种可分级的视频摘要和浏览方案。不同级所生成的摘要,能够很好地提供对视频内容浏览的形式,使用户可以象浏览书本那样方便快捷地进行视频内容浏览,并对感兴趣的内容进行快速的定位。

全文目录


相似论文

  1. 沈阳电视台视频素材采编系统软件的设计与实现,TP311.52
  2. 基于压缩域特征的视频检索技术研究,TP391.41
  3. 视频镜头边界检测算法的研究,TP391.41
  4. 视频检索技术及其在交通中的应用研究,TP391.41
  5. 基于内容的新闻视频摘要技术研究,TP391.41
  6. 基于内容的县党政会议视频检索系统的实现,TP391.41
  7. 基于内容的视频检索关键技术的研究与实现,TP391.41
  8. 监控视频摘要生成技术的研究与实现,TP391.41
  9. 监控视频结构分段与视频摘要技术研究,TP391.41
  10. 基于音频分析的足球视频摘要系统分析研究,TP391.41
  11. 面向字幕帧的视频图像文本识别,TP391.41
  12. 高性能视频检索平台中网络性能优化设计与实现,TP393.09
  13. 随机算法及信息论在基于内容的视频检索中的应用,TP391.41
  14. 视频摘要研究与实现,TP391.41
  15. 视频摘要自动生成技术研究,TP391.41
  16. 无线移动终端上视频选播系统客户端的设计与实现,TN929.5
  17. 基于聚类挖掘的视频摘要生成研究,TP391.41
  18. 基于SVM的视频检索系统的研究和实现,TP391.41
  19. 基于内容的视频检索中镜头分割与关键帧提取研究,TP391.41
  20. 可分级视频编码传输系统的设计与实现,TN919.81
  21. 基于内容的视频检索研究与实现,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com