学位论文 > 优秀研究生学位论文题录展示

基于词袋模型的图像分类算法研究

作　者: 吴丽娜
导　师: 罗四维; 黄雅平
学　校: 北京交通大学
专　业: 计算机应用技术
关键词: 图像分类词袋模型视觉单词视觉短语迁移学习
分类号: TP391.41
类　型: 博士论文
年　份: 2013年
下　载: 57次
引　用: 0次
阅　读: 论文下载

内容摘要

随着互联网的高速发展,数字图像大量地出现在人们的生活中,其数量和类别都发生了大规模地增长。图像分类能够帮助人们有效地组织和管理图像,这种技术得到了越来越多的重视。在各种图像分类方法中,词袋模型作为一种基于局部特征的图像分类方法取得了很好的分类性能,因此得到了广泛的研究和应用。词袋模型的一个重要的研究内容是如何创建和优化视觉词典(视觉单词集),以便更有效的表示图像并提高算法的分类性能。其另一个重要研究内容是如何利用迁移学习提高算法在新图像类别中的分类性能。词袋模型的迁移学习不仅能避免在每一类新图像中词袋模型都需要重新学习的问题,还能适用于仅有少量样本的图像分类任务。本文以创建适合迁移学习的视觉词典为目标,研究视觉词典优化和改进方法,提出用局部空间信息将多个视觉单词进行组合构成视觉短语。这种视觉短语能更有效地挖掘和表示不同图像之间的共同特征,消除视觉单词的“语义歧义性”,并能迁移到新类别图像的视觉词典中。本文的研究内容分为两大部分：第一,研究如何获得有效并有判别力的视觉单词和包含空间信息的视觉短语,为图像分类提供必要的信息(特征的表面信息和空间信息);第二,在新类别的图像学习中,尤其是仅有少量图像样本时,研究如何利用已学好的图像类别知识,通过迁移视觉短语加快新类别图像的学习并提高分类性能。围绕上述内容,本文的主要研究工作和创新性体现在以下三个方面：第一,提出一种加权的最小冗余最大相关(Weighted minimal-redundancy-maximal-relevance,WMR-MR)准则。WMR-MR准则从信息论的角度出发,根据视觉单词与图像类别之间、视觉单词与视觉单词的相关性,综合评估视觉词典在分类过程中的相关性和冗余性。通过删除视觉词典中与类别相关性弱且与词典内其他单词具有冗余性的单词,优化视觉词典,既保留了富有判别力的视觉单词,又缩减视觉词典的规模。利用该准则可以用相对小规模的视觉词典完成对图像集的描述,并保持算法的分类性能,解决了视觉词典规模过大带来的计算复杂性高、单词之间存在冗余的问题。而且这种小规模的视觉词典为创建视觉短语,以及视觉短语的迁移学习建立了基础。第二,提出一种创建包含局部空间信息的视觉短语的方法。在提取图像局部特征的同时获取局部特征的空间位置信息,并依据局部特征之间的稳定的邻近关系建立视觉短语,获得能够表示局部空间信息的视觉短语模型。与全局空间信息相比,本文的包含局部空间信息的视觉短语能够更灵活地处理图像类内的变化,有较强的鲁棒性。而且,视觉短语有助于消除独立使用其中任一单词可能带来的歧义性,增强对图像描述的可靠性。描述图像局部特征表而信息的视觉单词和描述图像局部空间信息的视觉短语,共同构成图像分类任务的两条线索。由于不同类别图像的空间结构性不同,该算法可以通过设定权值对两条线索进行权衡,使之能够适用于不同类别图像的分类任务中。第三,提出一种基于视觉短语的迁移学习算法。提出采用视觉短语来描述不同类别图像之间的共同特征,充分利用已有的知识帮助新类别图像的学习。实验证明,与直接迁移视觉单词相比,迁移视觉短语能更有效地提高词袋模型的分类效果。在新图像类的学习过程中,算法通过循环迭代的方式调整所迁移的视觉短语,保留对新图像分类有益的视觉短语,使得分类器在新图像类中也能获得良好的分类效果。与重新学习视觉词典的分类算法相比,这种迁移算法有效地利用了已有知识,在新类别图像的训练样本较少的情况下,也能获得较好的分类效果。

全文目录

致谢  5-6
摘要  6-8
ABSTRACT  8-10
目录  10-13
1 绪论  13-28
  1.1 研究意义及背景  13-15
    1.1.1 图像分类的应用意义  13-15
    1.1.2 研究背景  15
  1.2 基于内容的图像分类技术的发展状况  15-18
  1.3 词袋模型的发展和研究现状  18-22
    1.3.1 视觉词典的作用  19-20
    1.3.2 含有空间信息的视觉词典  20-21
    1.3.3 视觉词典的语义信息研究  21-22
  1.4 迁移学习在图像分类中的应用研究现状  22-24
  1.5 本文的研究内容  24-25
  1.6 本文的章节安排  25-28
2 相关基础理论简介  28-43
  2.1 问题描述  29-30
  2.2 词袋模型算法的各阶段  30-41
    2.2.1 图像的特征提取和表示  30-33
    2.2.2 图像的特征提取和表示举例-SIFT算法  33-37
    2.2.3 视觉词典的创建  37-39
    2.2.4 分类器设计  39-41
  2.3 迁移学习算法  41-42
  2.4 小结  42-43
3 基于WMR-MR原则的创建视觉词典算法  43-61
  3.1 引言  43-44
  3.2 相关工作  44-47
    3.2.1 视觉词典创建的研究现状  44-45
    3.2.2 视觉词典优化的研究现状  45-47
  3.3 WMR-MR准则  47-51
    3.3.1 WMR-MR准则的定义  47-50
    3.3.2 WMR-MR准则的意义  50-51
  3.4 基于WMR-MR准则的词袋模型算法  51-55
    3.4.1 图像的特征提取和描述  52
    3.4.2 初始视觉词典的生成  52-53
    3.4.3 直方图计算与分类器训练  53-54
    3.4.4 视觉单词选择  54-55
    3.4.5 测试新视觉词典的分类效果  55
  3.5 实验与分析  55-60
    3.5.1 参数对算法的影响  56-58
    3.5.2 视觉词典的规模对分类性能的影响  58-59
    3.5.3 与K-均值聚类的比较  59-60
  3.6 小结  60-61
4 具有空间信息的词袋模型算法  61-78
  4.1 引言  61-62
  4.2 相关工作  62-63
  4.3 基于相对空间位置信息的视觉短语  63-68
    4.3.1 视觉短语的概念  63-64
    4.3.2 视觉短语的创建方法  64-66
    4.3.3 视觉短语的作用  66-68
  4.4 基于视觉短语的图像分类算法  68-72
    4.4.1 基于SIFT特征的稀疏编码表示  69-71
    4.4.2 创建视觉短语  71-72
  4.5 实验与分析  72-77
    4.5.1 视觉短语的有效性  73-75
    4.5.2 权值参数α对算法的影响  75-76
    4.5.3 本文算法与空间金字塔(SPM)模型的比较  76-77
  4.6 小结  77-78
5 视觉短语的迁移学习算法  78-100
  5.1 引言  78-79
  5.2 迁移学习的基本思想和相关研究  79-81
  5.3 源任务的视觉短语词典  81-85
    5.3.1 视觉短语在迁移学习中的作用  81-83
    5.3.2 视觉短语词典的创建  83-85
  5.4 基于视觉短语词典的迁移学习算法  85-89
    5.4.1 目标任务的视觉词典组成  85-86
    5.4.2 视觉短语的迁移方式  86-88
    5.4.3 视觉短语迁移算法的主要步骤  88-89
  5.5 实验与分析  89-99
    5.5.1 源视觉短语词典的创建  89-90
    5.5.2 本文算法与词袋模型算法的比较  90-91
    5.5.3 本文算法与通用视觉词典方法的比较  91
    5.5.4 样本数对算法的影响  91-94
    5.5.5 视觉单词迁移与视觉短语迁移的比较  94-99
  5.6 小结  99-100
6 总结与展望  100-103
  6.1 全文工作总结  100-101
  6.2 进一步研究设想  101-103
参考文献  103-111
攻读博士期间发表的学术论文  111-115
学位论文数据集  115

基于词袋模型的图像分类算法研究

内容摘要

全文目录

相似论文