学位论文 > 优秀研究生学位论文题录展示

基于动静态多源特征选取、对齐与融合的唇读方法

作 者: 杨帆
导 师: 姚鸿勋
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 唇读 多源特征 动态特征 特征对齐 特征融合
分类号: TP391.41
类 型: 硕士论文
年 份: 2010年
下 载: 27次
引 用: 0次
阅 读: 论文下载
 

内容摘要


唇读、唇动技术作为一种新兴的智能人机交互技术,近年来正逐渐走向实用化。对唇动技术的研究,主要集中在唇动身份识别和说话人内容识别(即,唇读)两大应用上。本文主要致力于改进后者的识别性能。用简单的唇部区域视频序列反映复杂的发音过程、语言过程,必然要求研究人员能够提出有效的、全面的反映唇区视频序列信息的特征提取方法。然而,视频序列中包含有许多身份相关信息。这些信息的表达不仅对唇读问题没有改善,而且很容易就会影响到唇读问题解决的鲁棒性和准确性,而且即使是视频序列中包含的唇读信息也存在易混淆、不统一、遍布于图像结构的各个层次中的问题。如何将唇区视频序列所包含的语言信息全面、准确的提取出来,就是本文的研究出发点。针对唇读信息的复杂性,本文提出使用不同种类、不同性质的多源特征来解决唇读信息描述的问题。本文引入了LBP、HOG、Gabor等静态特征对于图像不同层次上的静态信息加以描述。相比于其他模式识别问题,唇读包含有更丰富的动态信息。本文提出了富信息帧的概念,通过富信息帧度量视频序列片段的动态信息积累,并在此基础上引入光流的方法,提取视频中的动态信息。然而,多源特征的结构复杂,量纲不同,表示信息的方式与结构各不相同。为了使多源特征能协同工作,必须进行特征对齐。本文提出了多源特征对齐的两条准则,并在此基础上以二源特征为例介绍了多源特征对齐的方法,进而提出了多源特征对齐与融合的框架,以及两种使用LBP、HOG、Gabor和光流等特征的特征融合策略。最后,将本文提出的多源特征提取方法与目前主流的特征提取方法进行了实验对比,并对实验结果进行了分析。本文提出的多源特征对齐、融合的方法是一个可扩展的框架,对使用的多源特征特征种类和特征数量没有限制,是为多源特征协同工作提出了一种新的思路。而且,只要对特征的种类和特征的数量加以选择,就可以很容易地推广到模式识别领域的不同应用中。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-18
  1.1 课题来源及研究的目的和意义  9-11
    1.1.1 课题来源及背景  9-10
    1.1.2 课题研究的目的和意义  10-11
  1.2 国内外在该方向的研究现状及分析  11-17
    1.2.1 国内外唇读系统的研究现状  11-12
    1.2.2 唇读系统的主要组成部分  12-17
  1.3 本文的主要研究内容  17-18
第2章 多源特征中静态特征的提取与性质分析  18-28
  2.1 LBP 特征的提取与性质分析  18-22
    2.1.1 LBP 特征概述  18-19
    2.1.2 提取方法和性质分析  19-22
  2.2 HOG 特征的提取与性质分析  22-25
    2.2.1 HOG 特征概述  22
    2.2.2 HOG 特征的提取方法  22-24
    2.2.3 HOG 特征的性质分析  24-25
  2.3 Gabor 特征的提取与性质分析  25-27
    2.3.1 Gabor 特征概述  25-26
    2.3.2 提取方法与性质分析  26-27
  2.4 本章小结  27-28
第3章 唇读视频序列中的动态信息描述  28-37
  3.1 唇读中动态信息的基准—富信息帧  28-29
  3.2 富信息帧的提取方法  29-33
    3.2.1 基于动态信息积累的富信息帧提取  29-30
    3.2.2 提取阈值的训练  30-33
  3.3 唇读多源特征中使用的动态特征  33-36
    3.3.1 光流概述  33-34
    3.3.2 动态特征的提取方法与性质分析  34-36
  3.4 本章小结  36-37
第4章 多源特征在唇读识别系统中的使用  37-51
  4.1 多源特征提出与特点  37-38
  4.2 基于PCA 的多源特征对齐与融合  38-44
    4.2.1 主成分分析在唇读中的使用  38-39
    4.2.2 基于PCA 特征对齐方法的两条准则  39-40
    4.2.3 二源特征对齐与融合  40-42
    4.2.4 动态特征的对齐  42-44
  4.3 应用多源特征融合的策略  44-47
    4.3.1 语料库简介  44-45
    4.3.2 唇读系统工作流程  45-46
    4.3.3 多源特征融合的两种策略  46-47
  4.4 实验结果与分析  47-50
  4.5 本章小结  50-51
结论  51-53
参考文献  53-58
致谢  58

相似论文

  1. 森林防火系统中图像识别算法的研究,TP391.41
  2. 唇读中的特征提取、选择与融合,TP391.41
  3. 水下目标特征的压缩与融合技术研究,TN911.7
  4. 基于支持向量机的视频目标检测方法研究,TP391.41
  5. 车辆识别系统动态特征选择算法的研究与实现,TP391.41
  6. 指纹图像分割方法研究,TP391.41
  7. 基于特征融合的人脸识别算法研究,TP391.41
  8. 基于信息融合的模拟电路故障诊断研究,TN710
  9. 基于特征融合的膜蛋白跨膜螺旋预测,Q51
  10. 非重叠监控摄像机中行人关联技术研究,TP391.41
  11. 基于特征融合的目标识别技术的研究,TP391.41
  12. 钴结壳的非线性超声识别技术研究,TN912.34
  13. 阳高寺气田茅口组气藏资源潜力及开发对策研究,TE323
  14. 运动多目标检测与跟踪算法研究,TP391.41
  15. 复杂背景条件下的运动目标检测与跟踪的研究,TP391.41
  16. 基于特征融合的掌纹识别,TP391.41
  17. 粒子滤波框架下的自适应多特征融合目标跟踪方法研究,TP391.41
  18. 基于多角度热释电红外信息的人体身份认证研究,TP391.41
  19. 基于手指静脉和指背关节纹理的识别算法的研究,TP391.41
  20. 基于光场的三维对象检索中特征提取方法的研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com