学位论文 > 优秀研究生学位论文题录展示

基于视频和三维动作捕捉数据的人体动作识别方法的研究

作　者: 赵琼
导　师: 周学海; 叶豪盛
学　校: 中国科学技术大学
专　业: 计算机系统结构
关键词: 人体动作识别高层语义搜索视觉词典视觉词袋模型多源约束近邻传播图划分问题隐马尔科夫模型
分类号: TP391.41
类　型: 博士论文
年　份: 2013年
下　载: 221次
引　用: 0次
阅　读: 论文下载

内容摘要

作为图像视频语义分析方向的一个新兴的研究课题,人体动作识别的研究融合了图像视频处理、计算机视觉、模式识别、统计学习、人工智能和认知科学等多学科的知识。它通过分析图像或视频等底层数据,从中提取与人体动作相关的信息,建立底层数据和高层语义之间的关系。因其在智能视频监控、人机交互以及虚拟现实等领域的广阔应用前景和深远研究意义,近年来人体动作识别问题得到了广泛的关注,研究者们提出了大量的研究方法并取得了丰硕的研究成果。本文主要研究如何从视频或三维动作捕捉数据自动识别出人体动作类别,通过对已有研究工作的分析,总结出人体动作识别算法中的两个关键性因素：1.高效的人体动作特征提取方法,2.高效的动作分类算法。本文分别从特征学习和分类器设计这两个方面提出新的思路和解决方法,它的主要贡献如下。本文提出了一个基于语义上下文分析的近语义视觉词典学习框架,称为contextual spectral embedding(CSE)框架,以及相应的基于近语义视觉词典的高层语义识别算法。它们主要解决视觉单词聚类映射方法引起的视觉单词语义模糊以及信息冗余等问题。首先,采用一种无参数的视觉单词语义相似度计算方法对视觉单词的语义上下文进行分析。其次,建立以视觉单词为结点,语义相似度为边权值的有权无向图,结合谱聚类算法对视觉单词进行聚类。语义相似的视觉单词被映射到同一个近语义视觉单词中,因而生成的近语义视觉词典在一定程度上避免了底层视觉特征与高层语义之间的“语义鸿沟”问题。该方法可以扩展到很多涉及视觉词典的高层语义识别问题中,如人体动作识别和视频概念检索。通过多个视频数据库上的人体动作识别实验和视频概念搜索实验可以得到结论,近语义视觉词典可以有效地提高这类高层语义识别的有效性和鲁棒性。本文研究了基于迁移学习的跨视角人体动作识别算法,该算法以视频的视觉单词表示为基础,通过异源异构视觉词典的协同语义学习,克服“视角障碍”问题使得不同视角下的类别标识信息能够迁移。为此提出了一个基于多源约束近邻传播方法的跨视角视觉词典学习框架,称为Bilingual visual word learning with multi-source constraint propagation(BiVWL+MSCP)(?)匡架。首先,它从视觉单词的时空分布中估计异源异构视觉单词之间的初始语义相似度,并结合多源约束近邻传播方法得到鲁棒稳定的估计值。最后,建立以异源异构视觉单词为结点,语义相似度为权值的二分图模型,采用二分图协同聚类方法对视觉单词进行聚类。语义相似但来自不同视角的视觉单词被映射到同一个跨视角视觉单词中,因此跨视角视觉词典作为桥梁使得类别标识信息在不同视角之间迁移。通过在多视角动作视频数据库上的实验得到结论,跨视角视觉词典可以有效地解决人体动作识别中的视角变化问题,达到跨视角人体动作识别的目的。本章提出了一种基于三维关节点空间时序信息的人体动作分类算法。该算法以人体三维骨架模型表示为基础,为解决维度灾难问题将一维隐马尔可夫模型扩展成空间时序隐马尔科夫模型(spatial-temporal HMM),并提出扩展的forward-backward算法解决模型的评估问题和训练学习问题。该模型不仅研究人体动作中的时序信息,同时研究人体骨架模型中相邻的关节点的空间信息。通过在动作捕捉数据库上的实验可以证明,空间时序隐马尔科夫模型在对一组常见动作类别进行识别时,它在识别率和鲁棒性方面优于一维隐马尔科夫算法。

全文目录

摘要  5-7
ABSTRACT  7-14
第1章绪论  14-20
  1.1 课题背景  14-15
  1.2 研究意义  15
  1.3 人体动作识别问题定义和描述  15-17
  1.4 本文研究内容  17-18
  1.5 结构安排  18-20
第2章相关工作介绍  20-40
  2.1 国内外研究现状  20-28
    2.1.1 动作描述方法  20-26
    2.1.2 动作分类方法  26-28
  2.2 视觉词袋模型  28-32
    2.2.1 视觉词袋模型的基本实现  29-31
    2.2.2 视觉词袋模型的改进  31-32
  2.3 支持向量机模型  32-34
  2.4 常用数据库  34-40
第3章基于近语义视觉词典学习的人体动作识别和视频分类方法的研究  40-52
  3.1 引言  40-42
  3.2 已有研究介绍  42-43
  3.3 近语义视觉词典生成算法  43-46
    3.3.1 视觉单词的语义分析  43-44
    3.3.2 视觉单词的语义学习  44-46
  3.4 实验结果  46-50
    3.4.1 实验设计  46-47
    3.4.2 客观评测  47
    3.4.3 动作数据库上的结果分析与比较  47-50
    3.4.4 TRECVID数据库上的结果分析与比较  50
  3.5 小结  50-52
第4章基于跨视角视觉词典学习的人体动作识别方法  52-68
  4.1 引言  52
  4.2 已有研究介绍  52-54
  4.3 跨视角人体动作识别算法  54-55
  4.4 跨视角视觉词典学习算法  55-62
    4.4.1 异源视觉单词的局部共生频率统计  56-58
    4.4.2 多源近邻语义相似约束传播  58-60
    4.4.3 多源视觉单词协同语义学习  60-62
  4.5 实验结果  62-66
    4.5.1 实验设计  62
    4.5.2 实验测评  62
    4.5.3 结果分析与比较  62-66
  4.6 小结  66-68
第5章基于空间时序隐马尔科夫模型的人体动作识别  68-80
  5.1 引言  68-69
  5.2 动作识别算法概述  69-71
    5.2.1 关节点的空间时序信息  69-70
    5.2.2 基于空间时序隐马尔科夫模型的识别算法  70
    5.2.3 特征处理过程  70-71
  5.3 动作分类器设计  71-76
    5.3.1 隐马尔科夫模型  71-72
    5.3.2 空间时序隐马尔科夫模型  72-74
    5.3.3 一种新的前向算法  74-75
    5.3.4 空间时序隐马尔科夫模型训练  75-76
  5.4 实验结果  76-78
  5.5 小结  78-80
第6章结论和展望  80-82
  6.1 工作总结  80-81
  6.2 未来工作展望  81-82
参考文献  82-90
致谢  90-92
在读期间发表的学术论文与取得的其他研究成果  92

基于视频和三维动作捕捉数据的人体动作识别方法的研究

内容摘要

全文目录

相似论文