学位论文 > 优秀研究生学位论文题录展示

面向图像语义描述的场景分类研究

作 者: 顾广华
导 师: 赵耀
学 校: 北京交通大学
专 业: 信号与信息处理
关键词: 场景分类 特征融合 超像素网格 空间金字塔 上下文信息 特征映射
分类号: TP391.41
类 型: 博士论文
年 份: 2013年
下 载: 325次
引 用: 0次
阅 读: 论文下载
 

内容摘要


如何让计算机按照人类理解的方式对海量图像数据进行高效地分类与管理,成为了图像理解领域中一个亟待解决的问题。场景分析与理解为图像的语义分类提供了可能,场景分类被明确认定为是图像语义分类中的一个关键课题。本文主要成果有:(1)提出一种基于局部熵加权特征融合的场景分类方法。鉴于不同的特征描述子适合描述不同类型的场景图像,本文针对两种局部特征描述子进行特征融合以增加场景图像特征描述的区分力。首先,通过计算图像的局部熵定量分析场景图像的复杂度,据此定义平坦度,并通过叠加场景类内每幅图像的平坦度获得该场景类的平坦度;其次,提取两种分别适用于描述区域平滑和区域变化的局部特征描述子,并分别进行图像直方图描述;然后,利用场景类图像的平坦度计算两种局部特征的权系数,并对两种基于独立的局部描述子形成的图像直方图描述加权融合,获得场景类图像的最佳描述;最后训练概率生成模型,完成场景分类任务。实验结果表明,该方法对于不同类型的图像特征描述具有一定的普适性。(2)提出一种基于超像素网格空间金字塔图像描述的场景分类方法。鉴于传统的词包模型图像描述方法忽略空间信息的缺点,本文采用上下文特征和空间金字塔图像描述来加入图像的空间信息。首先,构建多尺度上下文特征使其能够保证特征描述时加入局部空间结构信息;其次,对图像进行超像素网格分块,网格的分辨率由金字塔层数决定;然后,对各层次上超像素网格分块得到的各个图像子块依据视觉词典生成图像直方图描述,并按照一定的权重组合在一起形成整幅图像的直方图描述;最后,训练分类器,完成场景分类任务。本文采用的超像素网格分块,避免了图像中对象的强制分割,从而保证了子区域内对象语义的一致性。实验结果验证了场景分类过程中上下文信息和超像素网格分块的优越性。(3)提出一种基于局部约束线性编码特征映射方式的场景分类方法。提取图像的视觉特征并聚类生成视觉码本以后,依据码本进行视觉特征映射形成图像描述。本文提出一种基于最大求和合并法的局部约束线性编码方式特征映射方法,将前t个概率最大的码字进行线性加权取平均作为特征映射编码结果,并分析讨论t的取值对于场景分类性能的影响,并讨论了不同的码本长度与场景分类性能之间的关系。实验证明,该方法提高了特征码字之间的相关性和特征映射的鲁棒性,取得了较好的场景分类性能。

全文目录


致谢  5-6
中文摘要  6-7
ABSTRACT  7-12
1 绪论  12-26
  1.1 场景分类的研究背景与意义  12-13
    1.1.1 课题背景  12-13
    1.1.2 课题意义  13
  1.2 场景分类的研究现状  13-21
    1.2.1 场景理解的层次化结构  13-15
    1.2.2 基于低层特征的场景分类  15-16
    1.2.3 基于中层语义建模的场景分类  16-20
    1.2.4 基于中层语义监督学习的场景分类  20
    1.2.5 基于中层语义无监督学习的场景分类  20-21
  1.3 场景分类的难点  21-24
  1.4 论文主要成果  24-25
  1.5 论文内容安排  25-26
2 场景图像分类过程  26-44
  2.1 场景分类  26
  2.2 特征提取与描述  26-32
    2.2.1 局部特征  27-30
    2.2.2 全局特征  30-32
  2.3 视觉词典  32-37
    2.3.1 K-Means算法  32-33
    2.3.2 K-Means++算法  33-34
    2.3.3 HIK算法  34
    2.3.4 通用码本和类别码本  34-37
  2.4 图像描述  37-38
  2.5 主题模型  38-43
    2.5.1 概率潜在语义分析模型  38-40
    2.5.2 隐含狄利克雷分配模型  40-43
  2.6 分类器  43
  2.7 本章小结  43-44
3 基于局部熵加权特征融合的场景分类  44-62
  3.1 引言  44
  3.2 算法原理  44-45
  3.3 特征提取  45-48
    3.3.1 特征提取  45-47
    3.3.2 图像描述  47-48
  3.4 图像加权  48-51
    3.4.1 局部熵  48-49
    3.4.2 平坦度测量  49-50
    3.4.3 权系数  50-51
  3.5 生成模型  51-53
  3.6 实验结果与分析  53-61
    3.6.1 数据集  53
    3.6.2 实验设置  53-56
    3.6.3 实验结果  56-60
    3.6.4 实验分析  60-61
  3.7 本章小结  61-62
4 基于超像素网格空间金字塔图像描述的场景分类  62-84
  4.1 引言  62
  4.2 空间金字塔  62-67
    4.2.1 金字塔匹配核  62-64
    4.2.2 空间金字塔匹配  64-65
    4.2.3 特征空间金字塔构建  65-67
  4.3 上下文特征  67-68
  4.4 超像素网格分块  68-74
    4.4.1 规则网格  68-69
    4.4.2 网格参数  69-70
    4.4.3 规则网格生成  70-72
    4.4.4 规则网格评价  72-74
  4.5 实验与分析  74-82
    4.5.1 数据集与参数设置  74
    4.5.2 实验结果  74-81
    4.5.3 实验分析  81-82
  4.6 本章小结  82-84
5 基于局部约束线性编码特征映射方式的场景分类  84-98
  5.1 引言  84-85
  5.2 特征映射编码  85-89
    5.2.1 矢量量化方式  86-87
    5.2.2 稀疏编码方式  87
    5.2.3 局部约束线性编码方式  87-89
  5.3 近似LLC快速编码  89-91
  5.4 特征编码合并方式  91
  5.5 实验结果与分析  91-97
    5.5.1 数据集与实验设置  91-92
    5.5.2 实验结果与分析  92-97
  5.6 本章小结  97-98
6 总结与展望  98-102
  6.1 论文总结  98-99
  6.2 工作展望  99-102
参考文献  102-108
作者简历  108-110
攻读博士学位期间发表的学术论文  110-114
学位论文数据集  114

相似论文

  1. 唇读中的特征提取、选择与融合,TP391.41
  2. 水下目标特征的压缩与融合技术研究,TN911.7
  3. 鲁棒流形学习算法研究,TP391.41
  4. 测量雷达智能诊断技术研究,TN957
  5. 空间手写识别特征提取研究,TP391.41
  6. 基于空间邻域词袋模型的图像标注技术,TP391.41
  7. 基于扩展监督主题模型的高分辨率合成孔径雷达图像的分类与标注,TN957.52
  8. 面向视觉传感器网络的目标定位与追踪研究,TP391.41
  9. 胶囊内镜便携式接收系统及内镜图像出血识别算法研究,TP391.41
  10. 基于改进梯度空间直方图的对象检测方法研究,TP391.41
  11. 基于特征融合的掌纹识别,TP391.41
  12. 基于多角度热释电红外信息的人体身份认证研究,TP391.41
  13. 基于量子进化特征选择的SAR图像分割,TN957.52
  14. 基于图学习的唐卡图像自动标注技术研究,TP391.41
  15. 基于拉普拉斯特征映射的人耳识别算法研究,TP391.41
  16. 多民系交集背景下惠州地区传统聚落和民居的形态研究,TU241.5
  17. 基于高分辨一维距离像的雷达目标识别研究,TN957.52
  18. 基于像素级空间金字塔和乘法融合的目标跟踪,TP391.41
  19. 基于特征联合和多核学习的运动目标跟踪,TP391.41
  20. 面向动漫素材的特征提取与分类识别,TP391.41
  21. 球面间S~4→S~7间的二次特征映射的分类,O186.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com