学位论文 > 优秀研究生学位论文题录展示

MPEG-4兼容的人脸语音动画系统及其在网络通信中的应用

作 者: 吕江波
导 师: 虞露
学 校: 浙江大学
专 业: 通信与信息系统
关键词: MPEG4 人脸建模 人脸动画 TTS 纹理映射 虚拟通信
分类号: TP391.41
类 型: 硕士论文
年 份: 2003年
下 载: 188次
引 用: 1次
阅 读: 论文下载
 

内容摘要


MPEG-4是一个基于对象的多媒体压缩标准,允许将场景中的音频、视频对象(自然的或合成的)独立编码。MPEG-4中定义了“人脸对象”这样一个特殊的视频对象,通过脸部定义参数(FDP)和脸部动画参数(FAP)可以定制人脸模型,并使之产生动画效果。MPEG-4能够将人脸动画和多媒体通信集成在一起,并且可以在低带宽的网络上控制虚拟人脸。 TTS(Text to Speech,文本语音合成)作为MPEG-4中引入的一种有吸引力的合成语音编码技术,它与人脸动画的结合将具有广泛的应用前景。同时,MPEG-4为TTS合成器定义了一个应用程序接口,利用这个接口,TTS合成器可以为人脸模型提供音素和相关的时间标记信息,而音素可以转换成相应的口型,这将使得人脸动画和合成语音能够很好的结合在一起。 本文是基于我们实验室已有的研究工作,在仔细考察了人脸动画的研究现状之后,确定了“MPEG-4兼容的人脸语音动画系统及其在网络通信中的应用”作为自己的研究方向。在MPEG-4标准的范畴下把人脸动画与TTS合成语音集成在一起,不仅是项崭新的研究工作,而且它将在虚拟主持人、窄带的网络通信等中有着很好的应用。因此在研究的基础上,本人还开发出了“Grimace VTTS”和“Grimace Chat”这两个有应用潜力的原型系统。 本文将围绕上述研究方向详细的开展如下几个方面的讨论: 1、标准层面,对MPEG-4标准及其定义的“人脸对象”进行介绍和理解; 2、技术要素层面,对实现真实感图像绘制的OpenGL技术、以及采用到的Microsoft Speech SDK 5.0中的TTS引擎进行研究和实践; 3、系统架构层面,对本人提出的人脸语音动画系统(Grimace VTTS)的框架结构、以及适用于窄带网络下的可视通信系统(Grimace Chat)的框架结构进行介绍和分析; 4、具体算法层面,其中包含脸部肌肉的运动效果模拟方法、真人照片纹理贴图的优化算法、建立发音口型库和脸部表情库的方法、过渡帧的插值算法、运动混合与协同发音的算法、表情与语音动画叠加的方法、以及系统中实现动画口型与合成发音同步的方法等; 5、系统实现及应用层面,将详细介绍原型系统—“Grimace VTTS”和“Grimace Chat”的开发技术、系统功能、使用方法和应用场景; 6、系统性能评价层面,将介绍人脸动画系统的主观评价结果,并首次对系统开展客观性能的评测,其中包括动画绘制帧率、函数的运行性能分析等; 7、系统运行要求和工作展望层面,将介绍当前原型系统运行时对软、硬件平台的要求,同时对Grimace系统的发展做出展望,并将提出参考性建议。

全文目录


第一章 人脸动画的研究状况及本文的研究工作介绍  6-16
  1. 人脸动画研究的回顾  6-7
  2. 人脸动画的研究现状和应用方向  7-13
    2.1 真实人脸的建模  7-8
    2.2 人脸模型基编码和虚拟可视通信  8-9
    2.3 人脸模型辅助视频编码  9-10
    2.4 人机交互和语音驱动的卡通人脸动画  10-11
    2.5 MPEG-4场景编辑工具(AUTHORING TOOLS)  11-13
  3. 本文的研究目标和章节安排  13-16
    3.1 本文的研究目标  13-14
    3.2 本文的章节安排  14-16
第二章 MPEG-4简介及人脸动画对象的定义  16-27
  1. MPEG-4技术及其应用  16-21
    1.1 MPEG-4是MPEG家族中的一员  16-17
    1.2 MPEG-4的内容和特点  17-18
    1.3 MPEG-4的主要技术  18-20
    1.4 MPEG-4的应用领域  20-21
  2. MPEG-4中定义的人脸动画对象  21-27
    2.1 FAP集  22-23
    2.2 中性状态人脸和脸部动画参数单位  23-24
    2.3 FDP集  24-25
    2.4 MPEG-4兼容的人脸动画系统  25-27
第三章 OPENGL实现真实感图像的技术  27-37
  1. OPENGL简介  27
  2. OPENGL的实现原理  27-29
    2.1 基于WINDOWS的OPENGL体系结构  27-28
    2.2 OPENGL象素格式  28
    2.3 OPENGL的着色描述表  28-29
    2.4 OPENGL图形显示原理  29
  3. OPENGL动画原理  29-31
  4. 基于OPENGL的纹理映射技术  31-37
    4.1 OPENGL下的纹理贴图介绍  31-33
    4.2 系统中纹理贴图的具体实现  33-37
第四章 人脸语音动画系统中应用的TTS技术  37-48
  1. TTS技术介绍  37-38
  2. MICROSOFT SPEECH SDK介绍  38-40
  3. COM技术  40-42
  4. 系统运用SAPI5.0 TTS的方法  42-48
    4.1 系统中主要运用的接口ISPVOICE介绍  42-44
    4.2 系统运用SAPI 5.0 TTS的简单示例  44-48
第五章 人脸语音动画系统中的算法研究  48-57
  1. 人脸语音动画系统的框图结构  48-49
  2. 发音口型库和脸部表情库的建立方法  49-51
  3. 过渡帧的插值方法  51-52
  4. 动作混合与协同发音的算法  52-55
  5. 系统实现口型动画与合成语音同步的方法  55-57
第六章 GRIMACE人脸语音动画系统  57-70
  1. GRIMACE VTTS—针对“虚拟主持人”的原型系统  57-62
    1.1 GRIMACE VTTS系统中的控件图解  57-60
    1.2 GRIMACE VTTS系统支持视频播放  60-62
  2. GRIMACE CHAT—针对“窄带可视通信”的原型系统  62-67
    2.1 GRIMACE CHAT客户程序的基本聊天功能  63-65
    2.2 GRIMACE CHAT客户程序的实时远程控制功能  65-66
    2.3 GRIMACE CHAT系统的框架结构  66-67
  3. 真人照片纹理贴图的优化算法  67-70
第七章 系统整体性能评测和研究方向展望  70-76
  1. GRIMACE系统整体性能评测  70-73
    1.1 人脸语音动画系统的主观评价  70-71
    1.2 GRIMACE系统的客观评测  71-73
  2. GRIMACE系统运行时的软、硬件平台要求  73
  3. 原型系统的研究方向展望  73-76
    3.1 应用平台拓展  74
    3.2 真实感效果  74-75
    3.3 实时性要求  75
    3.4 带宽开销  75-76
参考文献  76-80
结论  80-81
致谢  81

相似论文

  1. 基于粒子系统的火焰和烟花实时模拟技术研究,TP391.9
  2. 图像/视频中自动人脸替换研究,TP391.41
  3. 交互式局部约束织物纹理映射技术的研究与实现,TP391.41
  4. 单张正面人脸图像的三维人脸重建方法研究,TP391.41
  5. 面向数控加工的人像产品三维建模关键技术研究及应用,TP391.41
  6. 基于三维重建过程中纹理映射问题的研究,TP391.41
  7. 三维人脸重构方法研究,TP391.41
  8. 基于CTI技术的小型呼叫中心的研究与实现,TN99
  9. 基于数字音视频的事件记录仪设计,TP216.2
  10. 针对具有复杂属性的网格模型简化算法的研究,TP391.41
  11. 虚拟战场环境中纹理技术应用研究,TP391.41
  12. 虚拟场景下与物理模型分离的流体渲染方法研究与实现,TP391.41
  13. 基于Java3D的针灸铜人人脸模拟,TP391.41
  14. 三维人脸建模与表情动画技术研究,TP391.41
  15. 基于TD-SCDMA的3G视频压缩算法的改进与实践,TN929.5
  16. 非真实感绘制技术的研究与实现,TP391.41
  17. 基于OPENGL的场景动态效果模拟的研究与实现,TP391.41
  18. 基于实拍照片的纹理映射研究,TP391.41
  19. 基于图像序列的三维建模关键技术研究及应用,TP391.41
  20. 基于单张正面照片的三维人脸建模及表情合成的研究,TP391.41
  21. 基于粒子系统的形状动态烟花模拟,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com