学位论文 > 优秀研究生学位论文题录展示
MPEG-4兼容的人脸语音动画系统及其在网络通信中的应用
作 者: 吕江波
导 师: 虞露
学 校: 浙江大学
专 业: 通信与信息系统
关键词: MPEG4 人脸建模 人脸动画 TTS 纹理映射 虚拟通信
分类号: TP391.41
类 型: 硕士论文
年 份: 2003年
下 载: 188次
引 用: 1次
阅 读: 论文下载
内容摘要
MPEG-4是一个基于对象的多媒体压缩标准,允许将场景中的音频、视频对象(自然的或合成的)独立编码。MPEG-4中定义了“人脸对象”这样一个特殊的视频对象,通过脸部定义参数(FDP)和脸部动画参数(FAP)可以定制人脸模型,并使之产生动画效果。MPEG-4能够将人脸动画和多媒体通信集成在一起,并且可以在低带宽的网络上控制虚拟人脸。 TTS(Text to Speech,文本语音合成)作为MPEG-4中引入的一种有吸引力的合成语音编码技术,它与人脸动画的结合将具有广泛的应用前景。同时,MPEG-4为TTS合成器定义了一个应用程序接口,利用这个接口,TTS合成器可以为人脸模型提供音素和相关的时间标记信息,而音素可以转换成相应的口型,这将使得人脸动画和合成语音能够很好的结合在一起。 本文是基于我们实验室已有的研究工作,在仔细考察了人脸动画的研究现状之后,确定了“MPEG-4兼容的人脸语音动画系统及其在网络通信中的应用”作为自己的研究方向。在MPEG-4标准的范畴下把人脸动画与TTS合成语音集成在一起,不仅是项崭新的研究工作,而且它将在虚拟主持人、窄带的网络通信等中有着很好的应用。因此在研究的基础上,本人还开发出了“Grimace VTTS”和“Grimace Chat”这两个有应用潜力的原型系统。 本文将围绕上述研究方向详细的开展如下几个方面的讨论: 1、标准层面,对MPEG-4标准及其定义的“人脸对象”进行介绍和理解; 2、技术要素层面,对实现真实感图像绘制的OpenGL技术、以及采用到的Microsoft Speech SDK 5.0中的TTS引擎进行研究和实践; 3、系统架构层面,对本人提出的人脸语音动画系统(Grimace VTTS)的框架结构、以及适用于窄带网络下的可视通信系统(Grimace Chat)的框架结构进行介绍和分析; 4、具体算法层面,其中包含脸部肌肉的运动效果模拟方法、真人照片纹理贴图的优化算法、建立发音口型库和脸部表情库的方法、过渡帧的插值算法、运动混合与协同发音的算法、表情与语音动画叠加的方法、以及系统中实现动画口型与合成发音同步的方法等; 5、系统实现及应用层面,将详细介绍原型系统—“Grimace VTTS”和“Grimace Chat”的开发技术、系统功能、使用方法和应用场景; 6、系统性能评价层面,将介绍人脸动画系统的主观评价结果,并首次对系统开展客观性能的评测,其中包括动画绘制帧率、函数的运行性能分析等; 7、系统运行要求和工作展望层面,将介绍当前原型系统运行时对软、硬件平台的要求,同时对Grimace系统的发展做出展望,并将提出参考性建议。
|
全文目录
第一章 人脸动画的研究状况及本文的研究工作介绍 6-16 1. 人脸动画研究的回顾 6-7 2. 人脸动画的研究现状和应用方向 7-13 2.1 真实人脸的建模 7-8 2.2 人脸模型基编码和虚拟可视通信 8-9 2.3 人脸模型辅助视频编码 9-10 2.4 人机交互和语音驱动的卡通人脸动画 10-11 2.5 MPEG-4场景编辑工具(AUTHORING TOOLS) 11-13 3. 本文的研究目标和章节安排 13-16 3.1 本文的研究目标 13-14 3.2 本文的章节安排 14-16 第二章 MPEG-4简介及人脸动画对象的定义 16-27 1. MPEG-4技术及其应用 16-21 1.1 MPEG-4是MPEG家族中的一员 16-17 1.2 MPEG-4的内容和特点 17-18 1.3 MPEG-4的主要技术 18-20 1.4 MPEG-4的应用领域 20-21 2. MPEG-4中定义的人脸动画对象 21-27 2.1 FAP集 22-23 2.2 中性状态人脸和脸部动画参数单位 23-24 2.3 FDP集 24-25 2.4 MPEG-4兼容的人脸动画系统 25-27 第三章 OPENGL实现真实感图像的技术 27-37 1. OPENGL简介 27 2. OPENGL的实现原理 27-29 2.1 基于WINDOWS的OPENGL体系结构 27-28 2.2 OPENGL象素格式 28 2.3 OPENGL的着色描述表 28-29 2.4 OPENGL图形显示原理 29 3. OPENGL动画原理 29-31 4. 基于OPENGL的纹理映射技术 31-37 4.1 OPENGL下的纹理贴图介绍 31-33 4.2 系统中纹理贴图的具体实现 33-37 第四章 人脸语音动画系统中应用的TTS技术 37-48 1. TTS技术介绍 37-38 2. MICROSOFT SPEECH SDK介绍 38-40 3. COM技术 40-42 4. 系统运用SAPI5.0 TTS的方法 42-48 4.1 系统中主要运用的接口ISPVOICE介绍 42-44 4.2 系统运用SAPI 5.0 TTS的简单示例 44-48 第五章 人脸语音动画系统中的算法研究 48-57 1. 人脸语音动画系统的框图结构 48-49 2. 发音口型库和脸部表情库的建立方法 49-51 3. 过渡帧的插值方法 51-52 4. 动作混合与协同发音的算法 52-55 5. 系统实现口型动画与合成语音同步的方法 55-57 第六章 GRIMACE人脸语音动画系统 57-70 1. GRIMACE VTTS—针对“虚拟主持人”的原型系统 57-62 1.1 GRIMACE VTTS系统中的控件图解 57-60 1.2 GRIMACE VTTS系统支持视频播放 60-62 2. GRIMACE CHAT—针对“窄带可视通信”的原型系统 62-67 2.1 GRIMACE CHAT客户程序的基本聊天功能 63-65 2.2 GRIMACE CHAT客户程序的实时远程控制功能 65-66 2.3 GRIMACE CHAT系统的框架结构 66-67 3. 真人照片纹理贴图的优化算法 67-70 第七章 系统整体性能评测和研究方向展望 70-76 1. GRIMACE系统整体性能评测 70-73 1.1 人脸语音动画系统的主观评价 70-71 1.2 GRIMACE系统的客观评测 71-73 2. GRIMACE系统运行时的软、硬件平台要求 73 3. 原型系统的研究方向展望 73-76 3.1 应用平台拓展 74 3.2 真实感效果 74-75 3.3 实时性要求 75 3.4 带宽开销 75-76 参考文献 76-80 结论 80-81 致谢 81
|
相似论文
- 基于粒子系统的火焰和烟花实时模拟技术研究,TP391.9
- 图像/视频中自动人脸替换研究,TP391.41
- 交互式局部约束织物纹理映射技术的研究与实现,TP391.41
- 单张正面人脸图像的三维人脸重建方法研究,TP391.41
- 面向数控加工的人像产品三维建模关键技术研究及应用,TP391.41
- 基于三维重建过程中纹理映射问题的研究,TP391.41
- 三维人脸重构方法研究,TP391.41
- 基于CTI技术的小型呼叫中心的研究与实现,TN99
- 基于数字音视频的事件记录仪设计,TP216.2
- 针对具有复杂属性的网格模型简化算法的研究,TP391.41
- 虚拟战场环境中纹理技术应用研究,TP391.41
- 虚拟场景下与物理模型分离的流体渲染方法研究与实现,TP391.41
- 基于Java3D的针灸铜人人脸模拟,TP391.41
- 三维人脸建模与表情动画技术研究,TP391.41
- 基于TD-SCDMA的3G视频压缩算法的改进与实践,TN929.5
- 非真实感绘制技术的研究与实现,TP391.41
- 基于OPENGL的场景动态效果模拟的研究与实现,TP391.41
- 基于实拍照片的纹理映射研究,TP391.41
- 基于图像序列的三维建模关键技术研究及应用,TP391.41
- 基于单张正面照片的三维人脸建模及表情合成的研究,TP391.41
- 基于粒子系统的形状动态烟花模拟,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com
|