学位论文 > 优秀研究生学位论文题录展示

智能环境下基于音频视频信息融合的多说话人跟踪

作 者: 郑景润
导 师: 曹洁
学 校: 兰州理工大学
专 业: 控制理论与控制工程
关键词: 音频视频 异类信息融合 目标跟踪 均值漂移 声源定位 肤色直方图 重要性粒子滤波
分类号: TN912.34
类 型: 硕士论文
年 份: 2011年
下 载: 65次
引 用: 0次
阅 读: 论文下载
 

内容摘要


人类大脑能够对来自各个感官的多源传感信息进行融合加工,帮助人们在复杂的环境下准确跟踪和识别事物。在智能会议环境中,对说话人进行跟踪是人机交互的一个重大研究课题,如何借鉴大脑的融合机理,利用多模态传感信息,有效融合同源说话人的语音信息和视频图像信息,从而达到鲁棒准确的跟踪效果,已成为异类信息融合的一个研究热点。在充分总结和探讨多源信息融合、视频跟踪、声源定位及滤波算法的研究现状和基本理论的基础上,提出了两种基于多源信息融合的人物跟踪算法。一种是基于多视频特征信息融合的多人物跟踪,另一种是基于音频视频信息融合的说话人跟踪。多视频特征信息融合的多人物跟踪系统,它是利用肤色抗旋转和抗遮挡的特性,通过颜色直方图给出了颜色似然模型;并利用轮廓信息能够较好的反映目标形状的特性,通过边缘梯度搜索策略给出了轮廓似然模型;最后在粒子滤波框架下,融合颜色信息和轮廓信息来跟踪多个人物。在音频视频信息融合的说话人跟踪系统中,结合同源说话人语音和视频图像之间的互补性,利用麦克风时延的声源定位和均值漂移肤色跟踪,分别建立音频模型和视频模型,以重要性粒子滤波为工具,建立融合似然模型和融合重要性函数,从中产生粒子并进行滤波跟踪。同时,采用流程化的闭环处理框架,并在跟踪过程中引入反馈环节,提高跟踪的准确性和完整性。仿真实验表明,上述信息融合跟踪算法是可行的。基于多视频特征信息融合的多人物跟踪算法对光照及背景变化等干扰都具有一定的鲁棒性。基于音频视频信息融合的说话人跟踪算法可以准确跟踪到会议中的主要发言人,在人物交错、移动、姿态变化等复杂情况下跟踪效果都较好。

全文目录


摘要  7-8
Abstract  8-10
插图索引  10-12
附表索引  12-13
第1章 绪论  13-22
  1.1 课题研究背景及意义  13-18
    1.1.1 课题的研究背景  13-17
    1.1.2 课题的研究意义  17-18
  1.2 音频视频目标跟踪的国内外研究现状  18-20
    1.2.1 目标跟踪概述  18
    1.2.2 音频视频说话人跟踪的国内外研究现状  18-20
  1.3 本文主要研究工作及组织结构  20-21
  1.4 本章小结  21-22
第2章 多源信息融合  22-35
  2.1 多源信息融合基础理论  22-27
    2.1.1 多源信息融合的概念  22-24
    2.1.2 多源信息融合的功能模型  24-25
    2.1.3 信息融合的级别  25-27
  2.2 多源信息融合跟踪系统  27-29
  2.3 异类信息融合  29-33
    2.3.1 雷达与红外融合目标跟踪  30
    2.3.2 音频视频融合目标跟踪与识别  30-33
  2.4 多源信息融合的研究现状  33-34
  2.5 本章小结  34-35
第3章 基于视频多特征信息融合的多人目标跟踪  35-46
  3.1 粒子滤波  35-39
    3.1.1 蒙特卡罗方法  35-36
    3.1.2 序贯重要性采样算法  36-37
    3.1.3 粒子权值退化现象  37-38
    3.1.4 重要性函数的选取  38
    3.1.5 重采样方法  38
    3.1.6 粒子滤波算法流程  38-39
  3.2 基于视频多特征信息的人物跟踪  39-43
    3.2.1 人脸肤色观测似然模型  40-41
    3.2.2 头部轮廓测似然模型  41-42
    3.2.3 多视频信息融合观测似然模型  42-43
  3.3 算法仿真与结果分析  43-45
  3.4 本章小结  45-46
第4章 音视频信息融合的说话人跟踪  46-57
  4.1 音频视频融合说话人跟踪系统  46-47
  4.2 基于肤色的人脸跟踪  47-49
  4.3 基于声源定位的音频跟踪  49-51
  4.4 音视频信息融合与反馈  51-52
  4.5 实验仿真及分析  52-56
  4.6 本章小结  56-57
结论与展望  57-59
参考文献  59-66
致谢  66-67
附录攻读学位期间参与科研项目和发表的学术论文目录  67

相似论文

  1. 带径向速度观测的跟踪算法研究,TN953
  2. 基于VRPF的机动目标跟踪的研究,TN957.52
  3. 多传感器组网及反隐身、抗干扰接力跟踪技术研究,TN953
  4. 空间交会接近视觉测量方法研究,TP391.41
  5. 基于嵌入式图像处理单元的运动目标跟踪系统研究,TP391.41
  6. 移动机器人视觉检测和跟踪研究,TP242.62
  7. 基于粒子滤波的自主机器人视觉目标跟踪研究,TP242
  8. 红外图像目标识别及跟踪技术研究,TP391.41
  9. 空间红外目标仿真与跟踪技术研究,TP391.41
  10. 基于运动目标轨迹分析的智能交通监控系统,TP277
  11. 基于支持向量机的视频目标检测方法研究,TP391.41
  12. 无线传感器网络的目标跟踪算法研究,TN929.5
  13. 基于主动视觉的运动目标检测与跟踪研究,TP391.41
  14. 基于无线传感器网络的目标定位跟踪研究,TN929.5
  15. 视频监控运动目标检索方法研究,TP391.41
  16. 运动目标检测与跟踪的研究,TP391.41
  17. 视频图像中的运动目标检测与跟踪,TP391.41
  18. 车载红外图像的行人检测与跟踪技术,TP391.41
  19. 无线传感器网络定位及目标跟踪的研究,TN929.5
  20. 基于无线传感器网络的目标跟踪算法研究,TN929.5
  21. 视频图像序列中运动目标的获取与跟踪,TP391.41

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com