学位论文 > 优秀研究生学位论文题录展示

基于概率图模型的场景理解方法研究

作　者: 毛凌
导　师: 解梅
学　校: 电子科技大学
专　业: 信号与信息处理
关键词: 场景理解语义分割目标检测联合目标检测和语义分割条件随机场模型
分类号: TP391.41
类　型: 博士论文
年　份: 2013年
下　载: 141次
引　用: 0次
阅　读: 论文下载

内容摘要

场景理解作为计算机视觉研究领域中极其重要的基础问题和终极目标，其研究成果已广泛应用于机器人导航、安防、医疗、网络搜索等众多民生领域，彰显出重要的学术研究价值和现实意义。围绕“分而治之”的指导思想，场景理解的各分支任务，如目标检测、图像分割、场景分类等都已取得了突破性进展。但是整体场景理解的目标远未实现。近些年围绕“合而为一”的指导思想，学者们提出了“语义分割”的研究思路，研究如何将这些分支任务融为一体，以实现场景理解的最终目标，并据此提出“联合目标检测和语义分割”。语义分割不仅在一定程度上实现了对视觉场景的理解，更是推理出其他高层语义的基础；联合目标检测和语义分割则是在完成语义分割的同时，定位到每个物体并获得目标的数量信息。但是目前已有研究成果并不令人满意。因此，本文着眼于目标检测，语义分割，联合目标检测和语义分割等研究热点和难点，采用概率图模型，针对已有研究中的不足开展研究并提出了相应的解决方法。本文主要内容和贡献如下：1．研究了如何构建先进的条件随机场模型，使其准确反映现实视觉场景中的约束条件，从而提升语义分割性能。提出了三种模型：（1）基于扩充纹元图的点对条件随机场模型（下称模型I）。该模型由一元项和成对项组成，其中一元项由联合自举分类器构成，成对项反映了相邻像素间的平滑约束。该模型表达形式简单，简化了模型参数的学习过程。为更好地描述纹理特征，利用LBP、SIFT和Color SIFT等局部特征描述子扩充了原始纹元图；为获得更具区分力的特征表达，在扩充纹元图的基础上定义了纹理空间滤波器，引入了形状、位置和上下文信息，并将其作为联合自举分类器的弱分类器。实验结果表明，该模型得到了较好的语义分割效果。（2）基于全局同主题约束的高阶条件随机场模型（下称模型II）。为了克服模型I自身的局限性，引入了反映全局同主题约束的高阶项，构建出高阶条件随机场模型。首先采用规范化分割对输入图像进行多次分割，其次利用主题模型发现同主题分割块，然后在同主题分割块上定义高阶项，最后与模型I加权混合得到高阶条件随机场模型。该模型不仅考虑了局部纹理特征对于像素类别的约束，而且反映了同主题分割块类别一致性的全局约束，在实验中取得了良好的语义分割效果。（3）融合了像素和分割块两种基本处理单元的分层条件随机场模型。该模型由观察数据层、像素层、分割层三层组成。观察数据层即原始图像；以像素作为基本处理单元的模型I构成像素层，反映了局部纹理特征对于像素类别的约束以及像素间平滑约束；以分割块作为基本处理单元的模型I构成分割层，反映了分割区域的描述特征对于分割块类别的约束、区域一致性约束、以及分割块间平滑性约束。该模型在分割块和块内像素上定义了关联能量项，对两者进行了融合，克服了单独使用一种处理单元的缺陷。本文分别采用了基于多分割图模式和基于约束参数最小割两种方式来获得分割层。此外，本文还提出了一种新的一二阶合并方法来获得更为稳定可靠的分割区域的描述特征。2．提出了一种基于偏最小二乘分析的目标检测方法。首先对输入图像进行多尺度滑窗搜索，通过密集采样获得滑窗的高维特征描述。其次利用偏最小二乘方法从原始高维特征中抽取出少量潜在成分组成低维特征向量空间，从而得到新的目标特征表达。接着提出了一种利用模型质量比值确定最佳潜在成分数量的方法。最后利用基于高斯核的均值漂移算法进行最大值抑制，去除重叠检测边界框，得到最终的目标检测结果。实验结果表明：降维性能优于PCA，能够获得更具区分力的低维特征表达；目标检测性能优于Dalal提出的经典算法。3．提出了一种新的高阶条件随机场模型，以解决联合目标检测与语义分割问题。基本思想是：在模型II的基础上，引入目标检测高阶能量项，将基于目标检测器对搜索窗内像素类别的判断作为一种约束条件反映到能量方程中，与局部纹理特征、像素间平滑先验、分割块内像素类别一致性等约束条件一起“竞争”，共同决定像素的类别归属。此外，提出了两种目标检测能量项生成方法：一是直接利用目标检测器的检测结果生成能量项；二是同时提取边界框中的全局形状特征和局部纹理特征，并通过特征的一二阶合并方法获得更具鲁棒性的特征表达，再利用逻辑斯蒂回归分类器获得更准确的检测信任度，进而获取目标检测能量项。实验结果表明，该模型能够同时完成目标检测和语义分割任务，并且提升了语义分割性能，优于目前许多语义分割算法。

全文目录

摘要  5-7
ABSTRACT  7-16
第一章绪论  16-35
  1.1 课题背景及研究意义  16-19
  1.2 场景理解技术的发展历程  19-24
  1.3 场景理解技术的研究现状和发展趋势  24-30
    1.3.1 发表文章回顾和研究机构  24-25
    1.3.2 研究现状  25-30
      1.3.2.1 目标检测  27
      1.3.2.2 语义分割  27-29
      1.3.2.3 联合目标检测和语义分割  29-30
  1.4 场景理解技术的应用实例  30-32
  1.5 本文研究内容和章节安排  32-35
第二章基于全局同主题约束的语义分割  35-64
  2.1 引言  35-36
  2.2 基于扩充纹元图的点对 CRF 模型  36-48
    2.2.1 算法概述  36-37
    2.2.2 点对 CRF 模型  37-40
      2.2.2.1 CRF 模型的后验概率表达式  37-38
      2.2.2.2 CRF 模型的能量表达式  38-40
    2.2.3 扩充纹元图  40-42
      2.2.3.1 纹元图生成  40-42
      2.2.3.2 SIFT 图和 LBP 图生成  42
    2.2.4 一元能量项生成  42-46
      2.2.4.1 纹理空间滤波器  42-44
      2.2.4.2 纹元积分图计算  44
      2.2.4.3 联合自举分类器  44-46
    2.2.5 点对 CRF 模型参数学习  46-47
    2.2.6 点对 CRF 模型求解  47-48
  2.3 基于同主题约束的高阶 CRF 模型  48-55
    2.3.1 算法概述  48-49
    2.3.2 基于 N-Cuts 方法的多分割图生成  49-51
    2.3.3 发现同主题分割块  51-54
      2.3.3.1 视觉词汇生成  51-52
      2.3.3.2 主题模型  52-54
    2.3.4 同主题高阶能量项和高阶 CRF 模型  54-55
  2.4 实验结果与分析  55-62
    2.4.1 实验数据库  55-57
      2.4.1.1 Corel-7 类数据库  55-56
      2.4.1.2 Sowerby-7 类数据库  56
      2.4.1.3 MSRC-21 类数据库  56-57
    2.4.2 算法比较与分析  57-62
      2.4.2.1 点对 CRF 模型的算法比较与分析  58-61
      2.4.2.2 高阶 CRF 模型的算法比较与分析  61-62
  2.5 本章小结  62-64
第三章基于分层条件随机场模型的语义分割  64-86
  3.1 引言  64-65
  3.2 算法概述  65-66
  3.3 基于多分割图模式的分层条件随机场模型  66-71
    3.3.1 分层条件随机场模型  66-68
    3.3.2 与两类语义分割模型的联系  68-69
    3.3.3 多分割图模式  69-71
  3.4 基于 CPMC 的 HCRF 模型  71-78
    3.4.1 基于 CPMC 的分割层生成  71-75
      3.4.1.1 CPMC 算法  72-74
      3.4.1.2 生成分割层  74-75
    3.4.2 基于一二阶特征合并的分割区域预测  75-78
      3.4.2.1 特征的一二阶合并  76-77
      3.4.2.2 局部特征扩充  77-78
  3.5 实验结果与分析  78-85
    3.5.1 实验数据库  78-79
      3.5.1.1 PASCAL VOC2007 数据库  78-79
    3.5.2 算法比较与分析  79-85
      3.5.2.1 MS-HCRF 模型性能分析  79-82
      3.5.2.2 多分割对模型性能影响  82-83
      3.5.2.3 CPMC-HCRF 模型性能分析  83-85
  3.6 本章小结  85-86
第四章基于偏最小二乘分析的目标检测  86-106
  4.1 引言  86-87
  4.2 基于 PLS 的目标检测  87-96
    4.2.1 算法概述  87-88
    4.2.2 描述特征  88-89
    4.2.3 基于 PLS 的特征抽取方法  89-93
      4.2.3.1 单因变量 PLS 算法  89-91
      4.2.3.2 基于 PLS 的降维模型  91-92
      4.2.3.3 确定最佳潜在成分数量  92-93
    4.2.4 基于高斯核均值漂移的非极大值抑制  93-95
    4.2.5 基于 PLS 的多尺度目标检测算法  95-96
  4.3 实验结果与分析  96-104
    4.3.1 实验数据库  96-98
      4.3.1.1 MIT 数据库  96-97
      4.3.1.2 DC 行人库  97
      4.3.1.3 INRIA 人体库  97-98
    4.3.2 算法比较与分析  98-104
      4.3.2.1 PLS 特征选取性能分析  98-100
      4.3.2.2 最佳潜在成分数量  100-101
      4.3.2.3 PLS 方法与 PCA 方法的比较  101-102
      4.3.2.4 不同目标检测算法性能对比  102-104
  4.4 本章小结  104-106
第五章基于高阶 CRF 模型的联合目标检测和语义分割  106-129
  5.1 引言  106-107
  5.2 联合目标检测和语义分割  107-114
    5.2.1 算法概述  107
    5.2.2 初始目标检测  107-111
      5.2.2.1 原始 DPM 模型  108-109
      5.2.2.2 改进 DPM 模型  109-110
      5.2.2.3 初始目标检测步骤  110-111
    5.2.3 前景分割  111
    5.2.4 目标检测高阶能量项  111-113
    5.2.5 高阶条件随机场模型  113
    5.2.6 高阶 CRF 模型推理和目标检测  113-114
  5.3 改进的目标检测能量项  114-119
    5.3.1 方法概述  114-115
    5.3.2 特征表达  115-117
      5.3.2.1 全局形状特征  115-116
      5.3.2.2 前景区域的全局描述特征  116-117
    5.3.3 逻辑回归分类器  117-119
      5.3.3.1 分类器描述  117-119
      5.3.3.2 学习分类器参数  119
  5.4 实验结果与分析  119-128
    5.4.1 实验数据库  119-121
      5.4.1.1 PASCAL VOC2009 数据库  120-121
    5.4.2 算法比较与分析  121-128
      5.4.2.1 MSRC-21 类数据库实验  121-124
      5.4.2.2 PASCAL VOC 2009 数据库实验  124-128
  5.5 本章小结  128-129
第六章总结与展望  129-133
  6.1 本文工作总结  129-131
  6.2 未来工作展望  131-133
致谢  133-134
参考文献  134-149
附录  149-152
  附录 A  149-150
  附录 B  150-152
攻博期间取得的研究成果  152-154

基于概率图模型的场景理解方法研究

内容摘要

全文目录

相似论文