学位论文 > 优秀研究生学位论文题录展示

唇读的静动态特征表示方法研究

作 者: 王丹
导 师: 姚鸿勋
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 唇读 静态特征表示 动态特征表示 时空特征 积分型特征
分类号: TP391.41
类 型: 硕士论文
年 份: 2008年
下 载: 43次
引 用: 1次
阅 读: 论文下载
 

内容摘要


唇读(Lipreading)研究试图赋予计算机根据唇部运动辨别说话内容和根据唇部运动规律辨别人物身份的能力。该研究具有重要的科学意义和应用价值。从学科建设和发展的角度,唇读作为一个科学问题,是一个典型的图像模式分析、理解和分类计算的问题,涉及模式识别,计算机视觉,智能人机交互,认知科学等多个学科。同时,作为生物特征识别技术之一的基于唇读的说话人识别技术则在公共安全、信息安全等领域具有潜在的应用前景。目前,唇读在说话内容识别上还没有获得理想的识别性能,其中一个重要的原因就是没有对唇区特征区域给出很好的定义和有效的特征表示。本文重点探讨了特征表示的一些技术和关键问题,对唇区的特征区域标定,静、动态特征表示方面进行了专门研究。本文主要的研究工作如下:1.提出了基于统计的自适应特征区域标定方法。特征区域的标定是唇读特征表示的第一步,本文提出的标定方法首先通过手动标定唇的“红色区域”,然后对其范围进行统计,得到以中心点为基准的最大尺寸,并将统计信息反馈给预处理模块,由预处理模块自动对特征区域重新标定,由此可以使标定尺寸自适应于不同的图片集。这种方法在本文的所有特征表示方法上取得了性能提升。2.基于静态图像的特征表示的研究中,本文对PCA、DCT、Gabor方法在唇读中的应用进行了深入研究和实验对比。针对目前的特征表示方法没有泛化能力的问题进行了探讨,引入一种新的特征描述子:局部二值模式,提出局部二值模式在唇读中的应用方法,该方法具有良好的泛化能力和较快的计算速度,在未来的实用唇读系统中具有很大的应用潜力。3.提出了基于三维时空体的唇读模型,并在模型基础上提出了三维时空体的特征表示方法:唇读的差分型特征表示和积分型特征表示。基于三维时空体的唇读模型结合了空间和时间的双重特点,能够充分表达唇动过程的运动特性。本文探讨了两种基于时空的特征表示方法,从实验对比、理论分析和数学证明三个方面证明了积分型特征在表达能力和可分性上的优势。

全文目录


摘要  3-4
Abstract  4-8
第1章 绪论  8-14
  1.1 课题研究的背景和意义  8-10
    1.1.1 课题来源  8
    1.1.2 研究的目的和意义  8-10
  1.2 课题研究现状  10-12
    1.2.1 唇读系统  10-11
    1.2.2 研究难点  11-12
  1.3 本文研究内容  12-14
第2章 唇的特征区域标定  14-28
  2.1 引言  14-15
  2.2 特征区域粗定位  15-16
  2.3 基于统计的自适应特征区域标定  16-20
    2.3.1 标定的语义解释  17-18
    2.3.2 特征区域的准确标定  18-20
  2.4 实验与分析  20-26
    2.4.1 数据库  20-21
    2.4.2 实验设计  21-22
    2.4.3 实验结果和分析  22-26
  2.5 特征区域的标定方法展望  26-27
  2.6 本章小结  27-28
第3章 基于静态图像的特征表示  28-47
  3.1 引言  28-29
  3.2 基于像素的特征提取方法  29-40
    3.2.1 基于统计的主成分分析  29-32
    3.2.2 基于局部分块的离散余弦变换  32-35
    3.2.3 Gabor 小波变换  35-37
    3.2.4 对比实验  37-40
  3.3 局部二值模式  40-45
    3.3.1 局部二值模式算子  41-42
    3.3.2 空间直方图特征的提取  42-44
    3.3.3 唇读中的LBP 应用及扩展  44-45
  3.4 本章小结  45-47
第4章 基于三维时空体的特征表示  47-64
  4.1 引言  47-48
  4.2 相关工作概述  48-50
    4.2.1 光流法  48-49
    4.2.2 基于运动矢量的特征表示  49-50
  4.3 基于时空体的唇读特征表示  50-54
    4.3.1 三维时空体的定义  51
    4.3.2 基于时空的差分型特征  51-53
    4.3.3 基于时空的积分型特征  53-54
  4.4 唇读的特征表示性能比较  54-59
    4.4.1 时空特征的性能比较  54-55
    4.4.2 静、动态特征性能比较  55-59
  4.5 唇读的特征表示方法分析  59-62
    4.5.1 定性解释  59-60
    4.5.2 数学描述和证明  60-62
  4.6 本章小结  62-64
结论  64-66
参考文献  66-72
攻读学位期间发表的学术论文  72-74
致谢  74

相似论文

  1. 唇读中的特征提取、选择与融合,TP391.41
  2. 基于旅游者交通行为的青岛旅游交通对策研究,F512.7
  3. 热带降水年际变化时空分布特征研究,P426.613
  4. 福克纳小说的叙事模式,I712.074
  5. 基于动静态多源特征选取、对齐与融合的唇读方法,TP391.41
  6. 甘肃省设区市土地集约度时空特征研究,F293.2
  7. 火烧迹地森林恢复的遥感影像时空特征谱研究,S771.8
  8. 宋代钱监研究,K244
  9. 时空视野下的春秋战国长城,K878
  10. 十一届全运会前八名女子铁饼运动员投掷技术时空特征的运动学研究,G824.2
  11. 辽宁沿海经济带人力资源优化配置研究,F249.27
  12. 海南入境旅游时空结构及其优化研究,F592.7
  13. 环鄱阳湖区农村面源污染成因及控制对策研究,X50
  14. 江苏省耕地集约利用时空变化特征分析,F301.21
  15. 上海城市热岛的时空特征及其演化规律研究,X16
  16. 基于头戴式摄像机的唇读特征提取与识别,TP391.41
  17. 内蒙古城市化空间扩展的遥感监测研究,P237
  18. 视频序列中人体简单行为识别的关键技术研究,TP391.41
  19. 心理调控对撑杆跳高运动员身心及技术的影响,G804.2
  20. 基于时空特征和词袋模型的多模态视频内容识别算法研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com