学位论文 > 优秀研究生学位论文题录展示

人像视频序列语义基编码的若干关键技术研究

作　者: 杨晓辉
导　师: 吴乐南
学　校: 东南大学
专　业: 信号与信息处理
关键词: 目标轮廓活动轮廓模型语义分割三维运动估计模型基编码图像综合
分类号: TP391.41
类　型: 博士论文
年　份: 2005年
下　载: 182次
引　用: 0次
阅　读: 论文下载

内容摘要

语义基编码是当前多媒体信息处理研究领域的一个热点,它突破信息论的理论框架,融合了计算机视觉、计算机图形学、统计学等多学科理论和技术,不仅在理论研究上具有较大挑战性,而且在技术实现上也有一定难度。人像序列是视频传输中常用的图像形式之一,本论文主要围绕人像视频序列语义基编码的若干关键技术问题展开研究,内容包括目标轮廓提取与跟踪、语义对象提取与跟踪、基于模型的运动估计和混合编码系统等。具体内容如下:1.目标轮廓精确提取与跟踪研究准确的目标轮廓提取和跟踪是基于内容描述的基础。由于在视频图像中,目标常常受到噪声干扰,有些目标还具有深度凹陷的边缘,这些都严重地影响了目标轮廓自动提取的准确性。目前,活动轮廓模型是目标轮廓提取常用的动态方法之一,而基于梯度矢量流的活动轮廓模型GVF Snakes(Gradient Vector Flow Snakes)是其改进型。尽管它克服了传统Snakes算法的缺陷,对具有凹陷边缘的目标能够有效地提取,但对于噪声和极度凹陷边缘的影响还比较敏感,常常会使部分活动曲线收敛到局部极值点处。遗传算法可以解决不具备诸如连续、可微等特性的函数优化问题,是一种全局最优搜索的有效方法。细粒度遗传算法(PGA-Parallel Genetic Algorithm)由于内在的并行机制,解决了遗传算法中各子种群的适应度计算和各子种群的新一代个体生成的并行性问题,极大地提高了算法的运算速度。因此,本文通过改进GVF Snakes梯度矢量流,并引入遗传优化搜索,提出了一种稳健的目标提取与跟踪算法:即对于收敛于局部极值处的轮廓控制点,利用细粒度遗传算法,将相邻的处于全局最优控制点的信息通过染色体遗传操作传递给这些点,并驱使它们向全局最优处运动。实验证明,该算法对受噪声干扰和具有凹陷边缘的目标轮廓提取不仅准确而且鲁棒。2.语义目标提取与跟踪研究目标分割是一个反问题,通常采用加约束的方法来获得合理的解。对于语义分割通常是在传统目标分割算法中,适当地引入如形状、结构等具有语义信息的先验知识来约束分割结果。头肩型视频是最常见的视频图像形式之一,其视频对象的主体是人的头肩部。在分析了不同姿态下头肩形状的几何特征基础上,论文对头肩轮廓形状进行分类,并定义了各类头肩形状模型;利用主成分分析(PCA-Principal Components Analysis)方法对各类头肩形状模型进行训练,并提取了形状模型的主分量,大大减小了形状矢量的冗余度和形状描述的复杂度。引入极大似然法判定目标轮廓形状所属形状类别,并利用相应主特征矢量合成最佳轮廓形状模板;然后,设计一个利用边缘、运动和曲率约束的离散变形模板算法来有效地提取和跟踪头肩部。对于静止的新闻图像由于缺少运动信息而使分割变得更加困难。本文还将形状模型引入到静止图像的头肩提取中,实现了轮廓约束的语义空间分割。3.基于线框模型的运动估计研究首先,介绍最常用的如预测最小二乘估计((PLS- Predictive Least Squares)和扩展卡尔曼滤波(EKF-Extended Kalman Filter)等三维运动估计算法,分析了它们对噪声数据比较敏感,对剧烈运动估计极易发散等缺陷。论文通过自适应参数修正和平滑滤波技术改进了扩展卡尔曼滤波算法,解决了EKF算法极易振荡和发散的问题,实现了精确、稳定地长序列运动估计。另外,还将自适应松弛迭代方法引入到运动估计中,一方面摆脱了上述算法中繁重的高维矩阵求逆运算所遇到的困难,保证了计算的收敛性;另一方面该算法程序简单、内存需要量小,适于在嵌入式系统中实现。4.混合视频编解码系统研究SPIHT小波编码尽管对图像具有较高的压缩比,但对于运动的视频序列常常要以丢失细节信息换取低码率,因此恢复的图像常常模糊。尽管模型基编码方法在甚低码率下能够合成具有较高主观质量的图像,但由于对于一般场景还很难用语义模型描述,而且对于运动视频场景,常常由于缺少必要的纹理信息而使合成图像质量有所下降,这些都制约了其广泛应用。论文提出了一种新的模型基辅助的混合视频编码系统方案,有机地将两者结合,并给出I、P、B帧速率控制、纹理补偿技术、局部表情剪切-粘贴和图像综合的实现方法。最后对该系统的编码性能及图像合成质量进行了仿真实验分析。

全文目录

中文摘要  5-7
英文摘要  7-12
第一章绪论  12-22
  1.1 引言  12-13
  1.2 MPEG-4标准  13-14
  1.3 模型基编码关键技术研究与现状  14-18
    1.3.1 模型基编码  14-15
    1.3.2 本论文研究的意义  15-16
    1.3.3 国内外相关技术发展现状  16-18
  1.4 论文的组织结构和主要工作  18-22
第二章基于可变形模型与遗传优化的目标提取与跟踪  22-42
  2.1 引言  22-23
  2.2 活动轮廓模型  23-28
    2.2.1 Snakes  23-25
    2.2.2 GVF-Snakes  25-27
    2.2.3 GVF修正  27-28
    2.2.4 GVF-Snakes 性能分析  28
  2.3 遗传算法  28-34
    2.3.1 并行遗传算法  28-30
    2.3.2 细粒度遗传算法  30-34
  2.4 曲线处理  34
  2.5 轮廓提取与跟踪算法  34-35
  2.6 实验结果与分析  35-38
    2.6.1 极端凹陷轮廓提取  35
    2.6.2 噪声干扰轮廓提取  35-38
    2.6.3 视频对象轮廓提取与跟踪  38
  2.7 小结  38-42
第三章语义目标的提取与跟踪  42-62
  3.1 引言  42-43
  3.2 分割方法  43-45
    3.2.1 基于运动分割  43
    3.2.2 基于模糊聚类分割  43-44
    3.2.3 不适定反问题  44-45
  3.3 头肩的形状统计分析  45-51
    3.3.1 形状模型  45-46
    3.3.2 特征提取  46-47
    3.3.3 分类判别分析  47-49
    3.3.4 实验结果与分析  49-51
  3.4 形状模型辅助的多约束头肩提取  51-57
    3.4.1 离散变形模板  51-52
    3.4.2 多约束离散变形模板算法  52-53
    3.4.3 初始模板生成  53-54
    3.4.4 形状模型辅助的多约束头肩提取算法  54
    3.4.5 实验结果与分析  54-57
  3.5 基于轮廓约束的空间语义分割  57-59
    3.5.1 颜色空间与肤色模型  57-58
    3.5.2 区域划分  58
    3.5.3 区域合并  58-59
    3.5.4 实验结果与分析  59
  3.6 小结  59-62
第四章基于线框模型的三维运动估计  62-82
  4.1 引言  62-63
  4.2 基于线框模型的三维运动估计问题  63-66
  4.3 带预测的非线性最小二乘估计  66-68
  4.4 自适应的扩展卡尔曼滤波估计  68-74
    4.4.1 扩展卡尔曼滤波估计  68-69
    4.4.2 自适应的扩展卡尔曼运动估计算法  69-71
    4.4.3 模拟仿真实验  71-73
    4.4.4 真实序列实验  73-74
  4.5 松弛迭代估计  74-80
    4.5.1 松弛迭代搜索  75
    4.5.2 松弛迭代的运动估计算法  75-77
    4.5.3 模拟仿真实验  77-79
    4.5.4 真实序列实验  79-80
  4.6 小结  80-82
第五章模型基辅助的混合编码系统研究  82-98
  5.1 引言  82
  5.2 模型辅助的混合编码方法框架  82-85
  5.3 SPIHT纹理编码  85-88
  5.4 基于模型的局部运动估计与补偿  88-89
    5.4.1 表情运动分析  88-89
    5.4.2 背景补偿  89
  5.5 图像合成  89-92
    5.5.1 仿射变换  89-91
    5.5.2 表情粘贴与图像合成  91-92
  5.6 仿真结果与分析  92-96
    5.6.1 视频编码实验1  92-94
    5.6.2 视频编码实验2  94-95
    5.6.3 失真分析  95-96
  5.7 小结  96-98
第六章全文总结与展望  98-100
附录A  100-102
参考文献  102-116
博士学习期间发表或完成的论文  116-117
致谢  117

人像视频序列语义基编码的若干关键技术研究

内容摘要

全文目录

相似论文