学位论文 > 优秀研究生学位论文题录展示

基于汉语驱动人脸语音动画的研究

作　者: 罗琰钦
导　师: 陈雷霆
学　校: 电子科技大学
专　业: 计算机应用技术
关键词: 人脸动画三维人脸建模协同发音 MPEG-4
分类号: TP391.41
类　型: 硕士论文
年　份: 2009年
下　载: 119次
引　用: 1次
阅　读: 论文下载

内容摘要

近年来,人脸动画在计算机图形学是一个极具挑战性的研究领域。人脸动画广泛的应用于教学、数字娱乐、游戏、人机交互、远程会议、影视制作、医学手术、人脸识别等领域。我们基于MPEG-4标准和中文语言学理论,以TTS引擎、OpenGL作为主要的开发工具,实现了一个基于汉语文本驱动的人脸语音动画系统。该系统主要由四部分组成:文本分析系统;语音合成系统;人脸动画系统和语音与动画同步系统。系统的执行流程是:一方面,语音合成系统接收输入的中文文本,分析处理后,合成语音并产生带有时间信息的音素流;另一方面,基于肌肉模型建立具有真实感的特定人脸模型,使用音素帧参数和表情帧参数驱动模型网格点移动,从而实现人脸动画;最后将合成的语音与人脸动画同步,就实现具有真实感的、带有表情的人脸语音动画。本系统建立的协同发音模型有效地解决了中文协同发音的问题,这是本论文的一个创新点。协同发音是指在连续说话过程中,一个音素的发音受到相邻语音段影响的现象。语音合成系统将中文可视音素划分为15组,可获得带有时间信息的中文可视音素序列,成功解决了TTS引擎不能直接产生中文音素和中文可视音素的问题,这是论文的第二个创新点。此外,系统在通用模型的基础上进行特定化修正,通过模型校准、纹理映射方法,生成具有高度真实感的人脸模型。系统还通过定义表情标签、表情过渡、表情与可视音素混合等处理,实现了带有表情的人脸动画。由于本系统实现的人脸动画,只是通过嘴唇来模拟说话和表情动作,而并没有考虑人脸其它部位在说话过程中的动作变化。因此,在人脸建模方面,对人脸其它部位(如眼睛,舌头等)的模拟是未来研究的一个方向。

全文目录

摘要  4-5
ABSTRACT  5-10
第一章绪论  10-17
  1.1 课题背景及研究意义  10-11
  1.2 国内外研究现状  11-12
    1.2.1 人脸建模方法  11
    1.2.2 人脸模型分类  11
    1.2.3 人脸动画研究方法  11-12
    1.2.4 人脸语音动画研究方法  12
  1.3 论文研究内容及创新点  12-14
  1.4 论文的框架结构及章节安排  14-15
    1.4.1 系统框架  14-15
    1.4.2 章节安排  15
  1.5 本章小节  15-17
第二章理论基础及开发平台  17-27
  2.1 系统开发平台  17-20
    2.1.1 SAPI5.0 简介  17-18
    2.1.2 TTS 引擎简介  18
    2.1.3 OpenGL 开发工具  18-20
  2.2 MPEG-4 人脸动画标准简介  20-25
    2.2.1 MPEG-4 人脸动画参数  20-21
    2.2.2 MPEG-4 人脸定义参数  21-23
    2.2.3 MPEG-4 中性人脸模型  23-24
    2.2.4 MPEG-4 人脸动画工作方式  24-25
  2.3 本章小节  25-27
第三章特定人脸模型的建立  27-45
  3.1 人脸肌肉模型  28-33
    3.1.1 线性肌的模拟  31-32
    3.1.2 括约肌的模拟  32-33
    3.1.3 片状肌的模拟  33
  3.2 嘴部参数模型  33-36
    3.2.1 人脸唇部运动机理  33-34
    3.2.2 参数控制的嘴部模型  34-35
    3.2.3 嘴部参数模型的模拟过程  35-36
  3.3 通用模型及其特定化  36-39
    3.3.1 通用模型的选取及其特定化  36-38
    3.3.2 通用模型特定化过程  38-39
  3.4 模型校准  39-41
    3.4.1 模型校准算法  39-40
    3.4.2 人脸模型校准的实现  40-41
  3.5 纹理映射  41-44
  3.6 本章小节  44-45
第四章中文文本分析及语音合成  45-55
  4.1 中文文本解析  45
  4.2 中文可视音素处理  45-51
    4.2.1 划分中文可视音素  46-48
    4.2.2 得到中文可视音素序列  48
    4.2.3 获得可视音素的时间信息  48-50
    4.2.4 可视音素过渡处理  50-51
  4.3 表情处理  51-53
    4.3.1 表情标签的表示方法  51-52
    4.3.2 表情过渡处理  52-53
  4.4 可视音素与表情混合  53
  4.5 本章小节  53-55
第五章人脸语音动画系统的实现  55-67
  5.1 合成视觉语音的方法  55-56
  5.2 中文协同发音处理  56-62
    5.2.1 中文协同发音的背景  56-57
    5.2.2 三音素模型和协同发音规则  57-60
    5.2.3 合成过渡唇形  60-62
  5.3 人脸动画的结构及实现  62-63
    5.3.1 人脸动画的四层控制结构  62-63
    5.3.2 人脸动画的实现过程  63
  5.4 人脸语音与动画同步系统  63-66
    5.4.1 语音与动画的同步  63-65
    5.4.2 语音动画系统的结构  65-66
  5.5 本章小节  66-67
第六章实验结果  67-71
第七章总结与展望  71-73
  7.1 工作总结  71-72
  7.2 展望  72-73
致谢  73-74
参考文献  74-78
攻硕期间取得的研究成果  78-79
  个人简历  78
  获奖情况  78
  发表论文  78-79

基于汉语驱动人脸语音动画的研究

内容摘要

全文目录

相似论文