学位论文 > 优秀研究生学位论文题录展示

MPEG-4兼容的人脸语音动画系统及其在网络通信中的应用

作　者: 吕江波
导　师: 虞露
学　校: 浙江大学
专　业: 通信与信息系统
关键词: MPEG4 人脸建模人脸动画 TTS 纹理映射虚拟通信
分类号: TP391.41
类　型: 硕士论文
年　份: 2003年
下　载: 188次
引　用: 1次
阅　读: 论文下载

内容摘要

MPEG-4是一个基于对象的多媒体压缩标准，允许将场景中的音频、视频对象(自然的或合成的)独立编码。MPEG-4中定义了“人脸对象”这样一个特殊的视频对象，通过脸部定义参数(FDP)和脸部动画参数(FAP)可以定制人脸模型，并使之产生动画效果。MPEG-4能够将人脸动画和多媒体通信集成在一起，并且可以在低带宽的网络上控制虚拟人脸。 TTS(Text to Speech，文本语音合成)作为MPEG-4中引入的一种有吸引力的合成语音编码技术，它与人脸动画的结合将具有广泛的应用前景。同时，MPEG-4为TTS合成器定义了一个应用程序接口，利用这个接口，TTS合成器可以为人脸模型提供音素和相关的时间标记信息，而音素可以转换成相应的口型，这将使得人脸动画和合成语音能够很好的结合在一起。本文是基于我们实验室已有的研究工作，在仔细考察了人脸动画的研究现状之后，确定了“MPEG-4兼容的人脸语音动画系统及其在网络通信中的应用”作为自己的研究方向。在MPEG-4标准的范畴下把人脸动画与TTS合成语音集成在一起，不仅是项崭新的研究工作，而且它将在虚拟主持人、窄带的网络通信等中有着很好的应用。因此在研究的基础上，本人还开发出了“Grimace VTTS”和“Grimace Chat”这两个有应用潜力的原型系统。本文将围绕上述研究方向详细的开展如下几个方面的讨论： 1、标准层面，对MPEG-4标准及其定义的“人脸对象”进行介绍和理解； 2、技术要素层面，对实现真实感图像绘制的OpenGL技术、以及采用到的Microsoft Speech SDK 5.0中的TTS引擎进行研究和实践； 3、系统架构层面，对本人提出的人脸语音动画系统(Grimace VTTS)的框架结构、以及适用于窄带网络下的可视通信系统(Grimace Chat)的框架结构进行介绍和分析； 4、具体算法层面，其中包含脸部肌肉的运动效果模拟方法、真人照片纹理贴图的优化算法、建立发音口型库和脸部表情库的方法、过渡帧的插值算法、运动混合与协同发音的算法、表情与语音动画叠加的方法、以及系统中实现动画口型与合成发音同步的方法等； 5、系统实现及应用层面，将详细介绍原型系统—“Grimace VTTS”和“Grimace Chat”的开发技术、系统功能、使用方法和应用场景； 6、系统性能评价层面，将介绍人脸动画系统的主观评价结果，并首次对系统开展客观性能的评测，其中包括动画绘制帧率、函数的运行性能分析等； 7、系统运行要求和工作展望层面，将介绍当前原型系统运行时对软、硬件平台的要求，同时对Grimace系统的发展做出展望，并将提出参考性建议。

全文目录

第一章人脸动画的研究状况及本文的研究工作介绍  6-16
  1．人脸动画研究的回顾  6-7
  2．人脸动画的研究现状和应用方向  7-13
    2．1 真实人脸的建模  7-8
    2．2 人脸模型基编码和虚拟可视通信  8-9
    2．3 人脸模型辅助视频编码  9-10
    2．4 人机交互和语音驱动的卡通人脸动画  10-11
    2．5 MPEG-4场景编辑工具（AUTHORING TOOLS）  11-13
  3．本文的研究目标和章节安排  13-16
    3．1 本文的研究目标  13-14
    3．2 本文的章节安排  14-16
第二章 MPEG-4简介及人脸动画对象的定义  16-27
  1． MPEG-4技术及其应用  16-21
    1．1 MPEG-4是MPEG家族中的一员  16-17
    1．2 MPEG-4的内容和特点  17-18
    1．3 MPEG-4的主要技术  18-20
    1．4 MPEG-4的应用领域  20-21
  2． MPEG-4中定义的人脸动画对象  21-27
    2．1 FAP集  22-23
    2．2 中性状态人脸和脸部动画参数单位  23-24
    2．3 FDP集  24-25
    2．4 MPEG-4兼容的人脸动画系统  25-27
第三章 OPENGL实现真实感图像的技术  27-37
  1． OPENGL简介  27
  2． OPENGL的实现原理  27-29
    2．1 基于WINDOWS的OPENGL体系结构  27-28
    2．2 OPENGL象素格式  28
    2．3 OPENGL的着色描述表  28-29
    2．4 OPENGL图形显示原理  29
  3． OPENGL动画原理  29-31
  4．基于OPENGL的纹理映射技术  31-37
    4．1 OPENGL下的纹理贴图介绍  31-33
    4．2 系统中纹理贴图的具体实现  33-37
第四章人脸语音动画系统中应用的TTS技术  37-48
  1． TTS技术介绍  37-38
  2． MICROSOFT SPEECH SDK介绍  38-40
  3． COM技术  40-42
  4．系统运用SAPI5．0 TTS的方法  42-48
    4．1 系统中主要运用的接口ISPVOICE介绍  42-44
    4．2 系统运用SAPI 5．0 TTS的简单示例  44-48
第五章人脸语音动画系统中的算法研究  48-57
  1．人脸语音动画系统的框图结构  48-49
  2．发音口型库和脸部表情库的建立方法  49-51
  3．过渡帧的插值方法  51-52
  4．动作混合与协同发音的算法  52-55
  5．系统实现口型动画与合成语音同步的方法  55-57
第六章 GRIMACE人脸语音动画系统  57-70
  1． GRIMACE VTTS—针对“虚拟主持人”的原型系统  57-62
    1．1 GRIMACE VTTS系统中的控件图解  57-60
    1．2 GRIMACE VTTS系统支持视频播放  60-62
  2． GRIMACE CHAT—针对“窄带可视通信”的原型系统  62-67
    2．1 GRIMACE CHAT客户程序的基本聊天功能  63-65
    2．2 GRIMACE CHAT客户程序的实时远程控制功能  65-66
    2．3 GRIMACE CHAT系统的框架结构  66-67
  3．真人照片纹理贴图的优化算法  67-70
第七章系统整体性能评测和研究方向展望  70-76
  1． GRIMACE系统整体性能评测  70-73
    1．1 人脸语音动画系统的主观评价  70-71
    1．2 GRIMACE系统的客观评测  71-73
  2． GRIMACE系统运行时的软、硬件平台要求  73
  3．原型系统的研究方向展望  73-76
    3．1 应用平台拓展  74
    3．2 真实感效果  74-75
    3．3 实时性要求  75
    3．4 带宽开销  75-76
参考文献  76-80
结论  80-81
致谢  81

MPEG-4兼容的人脸语音动画系统及其在网络通信中的应用

内容摘要

全文目录

相似论文