学位论文 > 优秀研究生学位论文题录展示

视觉语言分析：从底层视觉特征表达到语义距离学习

作　者: 吴磊
导　师: 俞能海；李明镜
学　校: 中国科学技术大学
专　业: 信号与信息处理
关键词: 视觉语言模型视觉分析概念表达语义建模距离度量图像标注标签推荐
分类号: TP391.41
类　型: 博士论文
年　份: 2010年
下　载: 581次
引　用: 2次
阅　读: 论文下载

内容摘要

随着互联网的发展,网络图像资源与日剧增,伴随而来的是围绕着网络图像为对象的众多研究课题,比如图像标注、图像检索、图像搜索结果聚类、重复图像检测、图像标签推荐、图像索引、图像分类、物体检测等。这些相关研究都需要从根本上解决一个问题,即视觉语义的表达和度量。因此该问题成为了网络图像研究的一个基本和核心的问题,也是目前学术界和工业界的重要研究方向。目前来看,视觉语义的表达和度量主要包含四个基本问题,即图像表达、图像相似度量、概念表达和概念相关度量。图像表达是指图像的特征以及特征的组织形式。图像特征可以生成有一定分辨能力的视觉单词、视觉短语。图像的表达形式也是多种多样,比如有忽略特征间关系的,有考虑在一幅图像中空间关系的或者共发频率的,等等。图像的距离度量是在特定图像表达之上通过机器学习的方法得到的。选择不同的图像特征和图像表达,图像的距离度量或许不一样。同样,概念表达是指概念的特征及其组织形式。概念的特征是以众多包含某个概念的图像集合上提取的视觉特征为基础建立的模型,它的通常形式是某个视觉单词或者短语出现的频率、共发频率、条件分布、或者转移概率。目前有很多概念建模的方法,比如二维隐马尔可夫模型、条件随机场模型等。本文的后一部分章节将详细讨论我们提出的视觉语言模型,保语义单词包模型,并和其他各种模型进行比较。概念距离度量是建立在特定的概念表达模型或者文本语义关联之上的概念之间的相关性度量。目前常用的度量方法包括词网距离、谷歌距离、以及我们提出的Flickr距离。本文提出了解决视觉语义的表达和度量的一系列模型和方法,既有底层特征的创新,也有高层语义模型和距离度量方面的创新。发表的工作涉及了以上提及的四个方面挑战,为视觉语义的表达和度量相关研究提供了有意义的探索。具体来说本文的成果和创新之处包括以下几点：1.本文提出了视觉语言模型,减小了视觉领域和文本领域的语义分析的鸿沟。我们认为图像的局部特征和文本中的单词一样是满足一定的语法顺序的。利用计算这些局部特征在空间位置上的条件分布来表达这种语法顺序,就可以近似的估测图像中的视觉语义。因为该模型和文本分析中的自然语言模型形式上类似,因此很多文本分析中的方法可以很容易在该模型中推广。实验结果表明该模型效果和很多复杂的模型相近,但运算速度远远超过其它模型,可以很好的应用在大规模数据上。2.本文提出了保语义单词包模型来处理语义鸿沟问题。我们提出了一种语义鸿沟度量方法,并通过选择从视觉特征到视觉单词的映射空间来最小化语义鸿沟,从而使得我们产生的词典可以有更好的分辨能力。实验也证明了利用最小化语义鸿沟方法生成的词典在图像标注问题中效果明显优于其他方法。3.本文提出了概率相关成分分析方法用来改进图像相似度量。概率相关成分分析将图像之间的边信息表达为概率的形式而不是传统的非0即1的二进制表达,提高了图像距离学习的精度。网络图像标注的应用显示出该方法比传统的距离学习方法更加高效和准确。4.本文提出了基于视觉特征的概念相关性度量方法：Flickr距离。该距离可以用来度量两个概念的不相关度。我们认为相关的概念同时出现在同一幅图像中概率比较大。因此计算和两个概念分别相关的图像的视觉语言模型的差别,就可以有效地度量概念之间的不相关度。和其它基于文本的概念距离度量方法不同,Flickr距离应用了概念相关的图片信息,从视觉角度度量了概念的相关性。在多媒体相关的应用问题中可以显著地提高性能。和人工建立的词网距离比较,Flickr距离可以自动更新以覆盖更多的新概念,和传统的谷歌距离比较,Flickr距离利用了视觉信息,实验证明其更加符合人类的认知。5.本文将传统的线性空间距离学习推广到了非线性空间距离,提出了Bregman距离函数学习方法。传统的Mahalanobis距离学习是需要学习一个距离矩阵。该距离度量在整个空间中是一致的。而样本在空间的分布疏密可能是有差别的。利用Bregma距离学习可能得到一个和样本相关的度量,考虑了局部分布的特性,因此可能更加准确。实验表明该方法可以比其他方法更好地处理高维空间的距离学习问题。6.本文将传统的静态距离推广到了动态距离,提出了QOSS子空间选取方法。我们认为观测角度(度量空间)不同,对样本的距离度量会产生很大的影响。因此在判断两个样本是否相近的时候,在多个子空间中度量比在单个子空间度量要准确。我们提出了根据样本特性,自动选取多个子空间的策略对样本相似性进行度量。在网络图像近似重复检测中,我们发现经过不超过5轮迭代,检测精度可以显著提高。

全文目录

摘要  5-7
ABSTRACT  7-10
目录  10-17
第1章绪论  17-31
  1.1 图像分析和标注的发展简述  17-24
  1.2 图像分析和标注的关键问题  24-27
    1.2.1 语义鸿沟问题(Semantic Gap)  24
    1.2.2 大尺度问题(Large Scale)  24-25
    1.2.3 文本和视觉差异(Gap Between Text and Image)  25-26
    1.2.4 概念表达问题(Semantic Representation)  26-27
    1.2.5 相似性度量问题(Similarity Measurement)  27
  1.3 研究目的和任务  27-28
  1.4 主要内容和结构安排  28-31
第2章低层视觉分析  31-47
  2.1 视觉特征  31-34
    2.1.1 灰度平均值  32
    2.1.2 图像矩  32
    2.1.3 纹理直方图  32-33
    2.1.4 旋转不变纹理直方图  33-34
    2.1.5 尺度不变特征变换(SIFT)  34
  2.2 从视觉特征到视觉单词  34-42
    2.2.1 利用主成分分析进行映射  35-36
    2.2.2 通过聚类映射  36-38
    2.2.3 哈希编码映射  38-39
    2.2.4 通过距离学习的方法映射  39-42
    2.2.5 通过多种途径映射  42
  2.3 图像表达  42-44
  2.4 小结  44-47
第3章图像距离度量  47-71
  3.1 图像距离  47-48
  3.2 静态距离度量  48-50
  3.3 动态距离度量(QOSS)  50-52
  3.4 Mahalanobis距离  52-54
  3.5 传统Mahanalobis距离学习  54-56
    3.5.1 相关成分分析(RCA)  55
    3.5.2 区分成分分析(DCA)  55
    3.5.3 邻近成分分析(NCA)  55-56
    3.5.4 最大边际近邻分类(LMNN)  56
  3.6 概率相关成分分析(pRCA)  56-63
    3.6.1 确定边信息和非确定边信息  56-57
    3.6.2 非确定边信息生成  57-58
    3.6.3 计算  58-59
    3.6.4 基于非确定边信息的图像距离学习  59-60
    3.6.5 算法  60-63
  3.7 概率区分成分分析(pDCA)  63
  3.8 Bregman距离学习(Bregman Distance)  63-69
    3.8.1 Bregman距离函数  65-66
    3.8.2 Bregman距离学习  66-67
    3.8.3 算法  67-69
  3.9 小结  69-71
第4章高层语义分析  71-97
  4.1 "概念"定义  71-72
  4.2 单词包模型(BoW)  72-74
    4.2.1 Naive Bayes分类框架  72
    4.2.2 分层Bayes分类框架  72-74
    4.2.3 基于单词包模型的图像表达  74
  4.3 维隐马尔科夫模型(2D HMM)  74-76
  4.4 视觉语言模型(VLM)  76-81
    4.4.1 一元视觉语言模型  78-79
    4.4.2 二元视觉语言模型  79-80
    4.4.3 三元视觉语言模型  80-81
  4.5 尺度不变视觉语言模型(m-VLM)  81-84
    4.5.1 尺度问题  81-84
  4.6 保语义单词包模型(SPBoW)  84-93
    4.6.1 模型的原理  84-85
    4.6.2 视觉物体表达  85-86
    4.6.3 基于学习的词典优化  86-90
    4.6.4 词典生成过程  90-92
    4.6.5 视觉单词直方图  92-93
  4.7 保语义单词包模型在生成式和区分式模型中的应用  93-95
    4.7.1 生成式模型  94-95
    4.7.2 区分式模型  95
  4.8 小结  95-97
第5章视觉概念距离度量  97-113
  5.1 视觉概念距离研究概况  97-100
  5.2 词网距离(WordNet Distance)  100
  5.3 谷歌距离(Google Distance)  100-101
  5.4 标签共发距离(Tag Concurrence Distance)  101-102
  5.5 Flickr距离(FD)(Flickr Distance)  102-106
    5.5.1 Flickr距离概述  103-105
    5.5.2 概念距离度量  105-106
  5.6 视觉概念网络  106-107
  5.7 各种概念距离度量方法的测评  107-111
    5.7.1 主观测评  108-111
    5.7.2 客观测评  111
  5.8 小结  111-113
第6章应用  113-143
  6.1 近似图像检测(Near-Duplicate Detection)  113-118
    6.1.1 方法概述  114-115
    6.1.2 离线索引  115
    6.1.3 在线检测  115
    6.1.4 实验设置  115-116
    6.1.5 客观评测  116
    6.1.6 结果比较  116-118
  6.2 基于搜索的图像标注(Search Based Image Annotation)  118-124
    6.2.1 相关研究背景介绍  119
    6.2.2 自动图像标注  119-121
    6.2.3 结果比较  121-124
  6.3 基于内容的图像分类(Content Based Image Classification)  124-132
    6.3.1 利用视觉语言模型进行图像分类  126-128
    6.3.2 合理利用未现单词进行图像分类  128-129
    6.3.3 图像分类实验  129-132
  6.4 视觉概念聚类(Visual Concept Clustering)  132-133
  6.5 社会网络图像标注推荐(Social Media Recommendation)  133-140
    6.5.1 实验过程  137
    6.5.2 评价  137
    6.5.3 比较标签共发和多模态相关算法  137-139
    6.5.4 比较Rankboost和线性叠加算法  139-140
  6.6 小结  140-143
第7章总结和展望  143-145
  7.1 视觉语言分析及距离度量的本质  143-144
  7.2 本文的学术价值  144
  7.3 视觉分析与度量的未来发展  144-145
参考文献  145-155
致谢  155-157
在读期间发表的学术论文与取得的研究成果  157-159

相似论文

基于SCOT的语义标签推荐模型及算法研究,TP391.3
基于社会标签系统的推荐技术研究,TP391.3
社会标签推荐张量分解方法研究,TP393.09
鲁迅的书籍装帧艺术研究,J524
彩色图像序列的光流场计算研究,TP391.41
乳腺影像的语义检索技术研究,TP391.3
基于Web服务和语义的网络通信服务接入管理研究,TP393.09
问答式社区的标签推荐技术研究,TP391.1
多模态语篇的概念意义,H0
基于情感标签的音乐检索算法研究,TP391.3
面向盲人的图片自动描述系统的研究与实现,TP393.092
基于标签与内容的blog检索实验系统研究与实现,TP391.3
基于社会化标签的个性化推荐系统研究,G201
基于标签的协同过滤稀疏性问题研究,F713.36
“批评”图片：图片新闻中视觉符号的多模态批评性分析,G218
基于协同过滤和文本相似度的标签推荐及搜索优化,TP391.3
基于视觉分析的水下报警算法研究,TP277
~（13）N-NH_3联合~（18）F-FDG PET脑显像对癫痫术前定位的价值研究,R742.1
基于语义的标签推荐系统关键问题研究,TP311.52
社会性标注关键技术及其在信息检索中的应用研究,TP391.3