学位论文 > 优秀研究生学位论文题录展示

基于MPEG-4标准的三维人脸动画

作　者: 李楠
导　师: 陈纯
学　校: 浙江大学
专　业: 计算机应用技术
关键词: MPEG-4 面部动作编码系统表情交互参数化嘴唇协同发音隐式马尔可夫模型 IFNET 语音识别
分类号: TP391.41
类　型: 硕士论文
年　份: 2005年
下　载: 292次
引　用: 1次
阅　读: 论文下载

内容摘要

多媒体计算机的发展趋势要求计算机能与人进行交流，而人脸传递着人类最广泛的信息，如情感、精神状态等，虽然每个人脸特征很相似，但却有不同的表情特征，于是人脸成为计算计算机视觉与计算机图形学中重要的研究领域。本文的工作包括三个方面：基于MPEG-4标准的面部动作编码、中文文本驱动的人脸动画、连续汉语语音驱动的人脸动画，他们也一直是计算机视觉和计算机图形学中一直具有挑战性的研究课题。首先提出了本论文的研究背景及研究内容，然后回顾已有的人脸建模、人脸动画技术、嘴唇动画以及MPEG-4人脸动画标准，分别对这些方法进行分类，并比较其优点、缺点，指出研究的难点。本文提出了一种基于MPEG-4的面部动作编码系统，该系统从高到低定义了三个层次：MPA层，FC层和FAP层。以MPEG-4定义的68个人脸动画参数FAP为基础，首先进行FAP到FC的转换，根据MPA与FC的多对多关系，获得MPA集合，建立以MPA矢量表达的人脸视位。在基于MPA的人脸表情动画中，采用B样条插值生成过渡帧，FACS引擎会根据MPA—FC—FAP的映射关系把MPA所描述的人脸动作装化为MPEG-4规定的FAP的值，然后再驱动线框架的三维人脸模型产生动画。为了获取作为人脸动画基础的静态视位库，提出了一种基于参数化嘴唇模型的视位分类算法。参数化的嘴唇仅用7个参数就能比较精确地描述嘴唇动作，采用参数化的嘴唇来实现聚类算法比使用与嘴唇有关的特征点更鲁棒。在面部动作编码系统和静态视位库的基础上，提出了一套完整的文本驱动人脸动画的方法，以中文文本为数据源，提取出音素流，从嘴唇静态视位库中选取由MPA矢量表达的关键帧，采用基于权重函数的协同发音模型来拟合过渡帧，由FACS引擎来驱动三维人脸。为了得到更真实的嘴唇动画效果，在协同发音模型里面还建立了汉字之间停顿的自适应模型，协同发音上下文的边界模型，另外，还采用变频采样技术来强化爆破音和超短音的效果。语音驱动人脸动画与文本驱动相比，需要建立声音—视位的对应关系，本文采用识别连续汉语发音为策略，以识别的文本为选择静态视位的脚本，辅以协同发音过程，来合成人脸动画。为此提出了一种基于汉语发音规则的IFNET网络，模拟了汉字的拼写规则，脱离了庞大的样本数据库实现汉语语音识别。本文提出的算法具有潜在的应用价值，可以应用在虚拟主持人、低频带的网络通讯、电影、游戏和广告中的角色模拟等许多领域。

全文目录

第1章引言  7-10
  1．1 研究背景  7-8
  1．2 文本的工作  8-9
  1．3 本文的组织结构  9-10
第2章综述  10-20
  2．1 人脸模型  10-11
    2．1．1 自由变形人脸模型  10
    2．1．2 参数化人脸模型  10-11
    2．1．3 基于物理的人脸模型  11
  2．2 人脸动画技术  11-13
    2．2．1 基于协同发音模型的人脸动画  11
    2．2．2 表演驱动的人脸动画  11-12
    2．2．3 语音驱动的人脸动画  12-13
  2．3 嘴唇动画  13-15
    2．3．1 大规模弹性肌肉系统  14
    2．3．2 分层的弹性网格肌肉系统  14-15
    2．3．3 有限元方法  15
    2．3．4 参数化方法  15
  2．4 MPEG-4人脸动画标准  15-20
    2．4．1 MPEG-4  15-16
    2．4．2 MPEG-4中的人脸动画  16-20
第3章基于MPEG-4的面部动作编码  20-27
  3．1 面部动作编码系统概述  20-21
  3．2 基于MPEG-4的表情模型  21-22
  3．3 表情的生成  22-24
  3．4 表情动画  24-26
    3．4．1 B样条插值  24-25
    3．4．2 表情动画实验结果  25-26
  3．5 本章小结  26-27
第4章中文文本驱动的人脸动画  27-42
  4．1 系统概述  27-28
  4．2 基于参数化嘴唇模型的视位分类方法  28-32
    4．2．1 参数化嘴唇模型  28-30
    4．2．2 聚类算法  30-32
  4．3 获取静态视位库  32-33
  4．4 协同发音模型  33-40
    4．4．1 向前看协同发音模型  33-34
    4．4．2 固定时间协同发音模型  34
    4．4．3 混合协同发音模型  34
    4．4．4 基于权重函数的协同发音模型  34-38
    4．4．5 自适应的汉字之间的静音模型  38-39
    4．4．6 协同发音模型的边界问题  39
    4．4．7 协同发音过程中的变频采样技术  39-40
  4．5 协同发音模型的参数的训练  40-41
  4．6 本章小结  41-42
第5章连续汉语语音驱动的人脸动画  42-47
  5．1 系统概述  42
  5．2 语音信号处理和 HMM训练  42-43
  5．3 基于汉语发音规则的语音识别网络  43-45
  5．4 连续汉语语音识别中的搜索策略  45
  5．5 本章小结  45-47
第6章人脸动画原型系统  47-53
  6．1 系统结构  47-48
  6．2 二维特征跟踪  48
  6．3 FAP文件样例  48
  6．4 MPA文件样例  48-52
  6．5 基于FACS的表情动画  52
  6．6 语音驱动的人脸动画  52-53
第7章总结与展望  53-55
  7．1 总结  53
  7．2 展望  53-55
参考文献  55-61
致谢  61-62
附录一 FAP定义  62-67
附录二 MPA定义  67-69
附录三 FC定义  69

相似论文

多重ANN/HMM混合模型在语音识别中的应用,TN912.34
基于DSP的机器人语音命令识别系统研制,TN912.34
在智能手机环境下健康管理功能设计与研究,TN929.53
高效三维视频表达及编码技术研究与开发,TN919.81
嵌入式视频解码器运动补偿过程的数据布局优化,TN919.81
移动音视频交互业务执行平台的研究,TN915.09
载姜黄素MPEG-P（CL-co-PDO）聚合物胶束的研究,R283
基于TILE Pro64多核处理器的3G服务器视频转码软件设计,TP393.05
时空融合的视觉选择注意模型及其在MPEG压缩域应用研究,TP391.41
基于广义组合多核高斯函数的图像分类方法研究,TP391.41
呼叫中心IVR系统的设计与实现,TN99
基于HMM的机器人语音识别系统的研究,TN912.34
基于ASON的高速公路视频监控系统应用研究,TP277
基于改进MFCC的语音识别系统研究及设计,TN912.34
仿真机器人控制系统,TP242
基于压缩域特征的视频检索技术研究,TP391.41
基于VoiceXML的语音智能交互平台的研究与实现,TP311.52
基于MPEG-4的运动目标检测技术研究,TP391.41
基于运动矢量的视频水印算法,TP309.7
基于本体的监控视频描述与检索研究及流媒体发布平台开发,TN919.8
基于音频词袋和MPEG-7特征的暴力视频快速分类算法研究,TP391.41