学位论文 > 优秀研究生学位论文题录展示

基于汉语驱动人脸语音动画的研究

作 者: 罗琰钦
导 师: 陈雷霆
学 校: 电子科技大学
专 业: 计算机应用技术
关键词: 人脸动画 三维人脸建模 协同发音 MPEG-4
分类号: TP391.41
类 型: 硕士论文
年 份: 2009年
下 载: 119次
引 用: 1次
阅 读: 论文下载
 

内容摘要


近年来,人脸动画在计算机图形学是一个极具挑战性的研究领域。人脸动画广泛的应用于教学、数字娱乐、游戏、人机交互、远程会议、影视制作、医学手术、人脸识别等领域。我们基于MPEG-4标准和中文语言学理论,以TTS引擎、OpenGL作为主要的开发工具,实现了一个基于汉语文本驱动的人脸语音动画系统。该系统主要由四部分组成:文本分析系统;语音合成系统;人脸动画系统和语音与动画同步系统。系统的执行流程是:一方面,语音合成系统接收输入的中文文本,分析处理后,合成语音并产生带有时间信息的音素流;另一方面,基于肌肉模型建立具有真实感的特定人脸模型,使用音素帧参数和表情帧参数驱动模型网格点移动,从而实现人脸动画;最后将合成的语音与人脸动画同步,就实现具有真实感的、带有表情的人脸语音动画。本系统建立的协同发音模型有效地解决了中文协同发音的问题,这是本论文的一个创新点。协同发音是指在连续说话过程中,一个音素的发音受到相邻语音段影响的现象。语音合成系统将中文可视音素划分为15组,可获得带有时间信息的中文可视音素序列,成功解决了TTS引擎不能直接产生中文音素和中文可视音素的问题,这是论文的第二个创新点。此外,系统在通用模型的基础上进行特定化修正,通过模型校准、纹理映射方法,生成具有高度真实感的人脸模型。系统还通过定义表情标签、表情过渡、表情与可视音素混合等处理,实现了带有表情的人脸动画。由于本系统实现的人脸动画,只是通过嘴唇来模拟说话和表情动作,而并没有考虑人脸其它部位在说话过程中的动作变化。因此,在人脸建模方面,对人脸其它部位(如眼睛,舌头等)的模拟是未来研究的一个方向。

全文目录


摘要  4-5
ABSTRACT  5-10
第一章 绪论  10-17
  1.1 课题背景及研究意义  10-11
  1.2 国内外研究现状  11-12
    1.2.1 人脸建模方法  11
    1.2.2 人脸模型分类  11
    1.2.3 人脸动画研究方法  11-12
    1.2.4 人脸语音动画研究方法  12
  1.3 论文研究内容及创新点  12-14
  1.4 论文的框架结构及章节安排  14-15
    1.4.1 系统框架  14-15
    1.4.2 章节安排  15
  1.5 本章小节  15-17
第二章 理论基础及开发平台  17-27
  2.1 系统开发平台  17-20
    2.1.1 SAPI5.0 简介  17-18
    2.1.2 TTS 引擎简介  18
    2.1.3 OpenGL 开发工具  18-20
  2.2 MPEG-4 人脸动画标准简介  20-25
    2.2.1 MPEG-4 人脸动画参数  20-21
    2.2.2 MPEG-4 人脸定义参数  21-23
    2.2.3 MPEG-4 中性人脸模型  23-24
    2.2.4 MPEG-4 人脸动画工作方式  24-25
  2.3 本章小节  25-27
第三章 特定人脸模型的建立  27-45
  3.1 人脸肌肉模型  28-33
    3.1.1 线性肌的模拟  31-32
    3.1.2 括约肌的模拟  32-33
    3.1.3 片状肌的模拟  33
  3.2 嘴部参数模型  33-36
    3.2.1 人脸唇部运动机理  33-34
    3.2.2 参数控制的嘴部模型  34-35
    3.2.3 嘴部参数模型的模拟过程  35-36
  3.3 通用模型及其特定化  36-39
    3.3.1 通用模型的选取及其特定化  36-38
    3.3.2 通用模型特定化过程  38-39
  3.4 模型校准  39-41
    3.4.1 模型校准算法  39-40
    3.4.2 人脸模型校准的实现  40-41
  3.5 纹理映射  41-44
  3.6 本章小节  44-45
第四章 中文文本分析及语音合成  45-55
  4.1 中文文本解析  45
  4.2 中文可视音素处理  45-51
    4.2.1 划分中文可视音素  46-48
    4.2.2 得到中文可视音素序列  48
    4.2.3 获得可视音素的时间信息  48-50
    4.2.4 可视音素过渡处理  50-51
  4.3 表情处理  51-53
    4.3.1 表情标签的表示方法  51-52
    4.3.2 表情过渡处理  52-53
  4.4 可视音素与表情混合  53
  4.5 本章小节  53-55
第五章 人脸语音动画系统的实现  55-67
  5.1 合成视觉语音的方法  55-56
  5.2 中文协同发音处理  56-62
    5.2.1 中文协同发音的背景  56-57
    5.2.2 三音素模型和协同发音规则  57-60
    5.2.3 合成过渡唇形  60-62
  5.3 人脸动画的结构及实现  62-63
    5.3.1 人脸动画的四层控制结构  62-63
    5.3.2 人脸动画的实现过程  63
  5.4 人脸语音与动画同步系统  63-66
    5.4.1 语音与动画的同步  63-65
    5.4.2 语音动画系统的结构  65-66
  5.5 本章小节  66-67
第六章 实验结果  67-71
第七章 总结与展望  71-73
  7.1 工作总结  71-72
  7.2 展望  72-73
致谢  73-74
参考文献  74-78
攻硕期间取得的研究成果  78-79
  个人简历  78
  获奖情况  78
  发表论文  78-79

相似论文

  1. 高效三维视频表达及编码技术研究与开发,TN919.81
  2. 嵌入式视频解码器运动补偿过程的数据布局优化,TN919.81
  3. 载姜黄素MPEG-P(CL-co-PDO)聚合物胶束的研究,R283
  4. 基于TILE Pro64多核处理器的3G服务器视频转码软件设计,TP393.05
  5. 图像/视频中自动人脸替换研究,TP391.41
  6. 时空融合的视觉选择注意模型及其在MPEG压缩域应用研究,TP391.41
  7. 基于广义组合多核高斯函数的图像分类方法研究,TP391.41
  8. 基于ASON的高速公路视频监控系统应用研究,TP277
  9. 单张正面人脸图像的三维人脸重建方法研究,TP391.41
  10. 面向数控加工的人像产品三维建模关键技术研究及应用,TP391.41
  11. 基于压缩域特征的视频检索技术研究,TP391.41
  12. 基于MPEG-4的运动目标检测技术研究,TP391.41
  13. 基于运动矢量的视频水印算法,TP309.7
  14. 基于本体的监控视频描述与检索研究及流媒体发布平台开发,TN919.8
  15. 基于音频词袋和MPEG-7特征的暴力视频快速分类算法研究,TP391.41
  16. 基于802.11网络的无线视频传输系统设计,TN919.8
  17. 基于MPEG-2标准的音视频同步实现,TN949.197
  18. 聚乙二醇化的VLA-4拮抗肽对哮喘小鼠气道上皮Eotaxin和CCR3表达的影响,R562.25
  19. 基于Web的煤矿视频监控系统的研究与开发,TP277
  20. 酒钢生产指挥中心数字监控系统的设计与实现,TP277
  21. 基于MPEG-2的视频数字水印的研究与实现,TP309.7

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com