学位论文 > 优秀研究生学位论文题录展示

图像序列中人的姿态估计与动作识别

作 者: 吴心筱
导 师: 贾云得
学 校: 北京理工大学
专 业: 计算机应用技术
关键词: 姿态估计 动作识别 流形学习 语义反馈 增量判别学习 时空兴趣点
分类号: TP391.41
类 型: 博士论文
年 份: 2010年
下 载: 631次
引 用: 0次
阅 读: 论文下载
 

内容摘要


动作识别和行为理解是计算机视觉和模式识别领域的热点问题,在高级人机交互、智能视频监控、虚拟现实等领域具有广泛的应用前景。本文主要研究图像序列中人的姿态估计与动作识别,包括姿态估计中高维状态向量的约减、单目图像估计三维姿态的多义性、动作识别中特征的提取与表示、分类器的设计与建模等问题。本文研究了基于非线性流形学习的三维人体姿态估计,提出时间邻域保持嵌入(Temporal Neighbor Preserving Embedding, TNPE)的非线性流形学习算法得到反映人体运动本质的低维流形空间。在基于学习的姿态估计框架下,采用贝叶斯混合专家(Bayesian Mixture of Experts, BME)模型对从低维流形空间到高维姿态空间的非线性映射关系进行建模。为计算每个专家的权重,采用高斯混合(Gaussian Mixture Model, GMM)模型对低维流形空间中的数据分布进行概率建模,得到各个专家的先验概率和先验分布形式。实验表明,该方法能够准确地估计人体姿态。本文提出了基于语义知识反馈的三维人体姿态估计框架,利用人体运动的高层语义知识自上而下地对人体姿态的估计进行指导,减少了单目图像三维姿态估计的多义性和不确定性。建立全局时间运动模板,表示运动中姿态之间的时间先后约束关系;建立局部空间运动关联函数,表示身体各部分之间的运动相关约束。将运动模板和运动关联函数分别定义为全局语义知识和局部语义知识,并利用这两种运动语义知识对由粗略估计得到的可能姿态进行筛选和更新,得到更加准确的估计结果。实验表明,引入高层语义知识反馈的估计方法能有效地提高估计的准确度。本文提出了增量判别典型相关分析方法(Incremental Discriminant-Analysis of Canonical Correlations, IDCC),用于复杂环境中人的动作识别。该方法通过判别投影矩阵将所有动作投影到一个新空间中,以实现同类动作之间的相关系数最大化和不同类动作之间的相关系数最小化。针对运动中人的表观特征由于周围事物的影响而不断变化的问题,该方法通过增量学习不断更新判别矩阵,使得判别模型能随着数据的变化而自我调整,减少了环境变化对识别效果的影响。多个行为数据库上的实验表明,增量判别典型相关分析方法在复杂多变的环境中也能鲁棒地识别不规则的动作。本文研究了基于时空兴趣点的动作识别方法,提出了时空兴趣点的多尺度时空分布词袋模型。该模型在视频中不同时空尺度的局部区域内,对兴趣点的时空分布信息进行建模,从多个层次描述了兴趣点之间的时空上下文关系。同时利用时空兴趣点的表观词袋模型对兴趣点的表观信息进行建模。多尺度时空分布特征和表观特征从两个不同的角度分别描述了兴趣点的“在哪里”和“是什么”属性,本文采用多核学习方法将这两种特征有机地融合起来,生成更具描述能力和判别能力的特征。基于时空兴趣点多特征的识别方法不需要目标检测、人体跟踪等预处理工作,在存在噪声阴影、摄像机发生抖动、视频分辨率低等情况下也能取得令人满意的识别结果。单视角和多视角行为数据库上的实验证明了该方法的有效性。

全文目录


摘要  4-6
ABSTRACT  6-11
插图目录  11-13
表格目录  13-14
第1章 绪论  14-18
  1.1 选题背景和研究意义  14-16
  1.2 研究内容  16-17
  1.3 论文结构  17-18
第2章 姿态估计动作识别研究现状  18-32
  2.1 引言  18-19
  2.2 三维人体姿态估计  19-24
    2.2.1 自底向上基于表象的估计方法  19-21
    2.2.2 自顶向下基于模型的估计方法  21-23
    2.2.3 结合自底向上和自顶向下的估计方法  23-24
  2.3 动作识别  24-30
    2.3.1 动作描述方法  24-27
    2.3.2 识别方法  27-30
  2.4 研究难点  30-32
第3章 非线性流形空间中的三维人体姿态估计  32-46
  3.1 引言  32-33
  3.2 相关工作  33
  3.3 人体运动的非线性流形空间  33-36
  3.4 基于学习的姿态估计  36-38
    3.4.1 映射函数建模  37
    3.4.2 低维流形空间的概率分布建模  37-38
    3.4.3 映射函数的参数学习  38
  3.5 实验  38-45
    3.5.1 三维人手姿态估计  38-42
    3.5.2 三维人体姿态估计  42-45
  3.6 小结  45-46
第4章 基于语义反馈的三维人体姿态估计  46-64
  4.1 引言  46
  4.2 相关工作  46-47
  4.3 语义知识建模  47-51
    4.3.1 局部语义知识  47-50
    4.3.2 全局语义知识  50-51
  4.4 语义知识反馈  51-53
    4.4.1 局部语义知识反馈  51-52
    4.4.2 全局语义知识反馈  52-53
  4.5 语义反馈用于姿态估计  53-58
    4.5.1 基于Hausdorff 距离的动作识别  54-56
    4.5.2 基于局部语义反馈和全局语义反馈的姿态估计  56-58
  4.6 实验  58-61
    4.6.1 实验设计  58
    4.6.2 结果分析与比较  58-61
  4.7 小结  61-64
第5章 基于增量判别相关分析的动作识别  64-80
  5.1 引言  64
  5.2 相关工作  64-66
  5.3 增量判别典型相关分析  66-69
    5.3.1 更新总典型相关矩阵  66-67
    5.3.2 更新类间典型相关矩阵  67-68
    5.3.3 更新判别矩阵  68-69
  5.4 半监督增量判别典型相关分析  69-70
  5.5 实验  70-79
    5.5.1 Weizmann 行为库实验  70-74
    5.5.2 KTH 行为库实验  74-77
    5.5.3 鲁棒识别实验  77-79
  5.6 小结  79-80
第6章 融合时空兴趣点的多特征用于动作识别  80-94
  6.1 引言  80
  6.2 相关工作  80-81
  6.3 时空兴趣点的检测及其表观模型  81-82
  6.4 时空兴趣点的时空分布模型  82-87
  6.5 基于多核学习的特征融合  87-88
  6.6 实验  88-92
    6.6.1 人体行为库  88-89
    6.6.2 实验设计  89-90
    6.6.3 结果分析与比较  90-92
  6.7 小结  92-94
第7章 结论与展望  94-98
  7.1 工作总结  94-95
  7.2 未来工作展望  95-98
参考文献  98-110
致谢  110-112
攻读博士学位期间发表的论文  112-114
攻读博士学位期间参与的科研项目  114-116
作者简介  116

相似论文

  1. 基于流形学习的高维流场数据分类研究,V231.3
  2. 唇读中的特征提取、选择与融合,TP391.41
  3. 基于流形学习的数据降维技术研究,TP311.13
  4. 基于学习的视频超分辨率重建算法研究及实现,TP391.41
  5. 基于脑电的情感识别,TP391.4
  6. 融合深度图和三维模型的人体运动捕捉技术研究,TP391.41
  7. 利用Kinect估计人体头部姿态,TP391.41
  8. 视频监控中目标的行为分析,TP391.41
  9. 基于分割一致性的二维人体姿态估计,TP391.41
  10. 人体运动时间序列可视化及多索引方法研究,TP391.41
  11. 视频中人体行为识别的判别稀疏编码方法研究,TP391.41
  12. 基于多基点定位的ISOMAP算法改进研究,TP181
  13. 基于模型的人体运动跟踪和姿态分析技术研究,TP391.41
  14. 暴雨中冰雹的识别,P429
  15. 流形学习中的增量谱嵌入方法,TP181
  16. 长期演进系统下入侵检测关键技术的研究,TP393.08
  17. 非线性系统的规律维及其可视化方法初探,TP391.41
  18. 基于流形学习的人脸表情识别研究,TP391.41
  19. 数字视频中的实时人脸姿态估计研究,TP391.41
  20. 人脸识别中图像描述方法的研究,TP391.41
  21. 无监督流形学习算法的若干探讨,O186.12

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com