学位论文 > 优秀研究生学位论文题录展示
基于汉语驱动人脸语音动画的研究
作 者: 罗琰钦
导 师: 陈雷霆
学 校: 电子科技大学
专 业: 计算机应用技术
关键词: 人脸动画 三维人脸建模 协同发音 MPEG-4
分类号: TP391.41
类 型: 硕士论文
年 份: 2009年
下 载: 119次
引 用: 1次
阅 读: 论文下载
内容摘要
近年来,人脸动画在计算机图形学是一个极具挑战性的研究领域。人脸动画广泛的应用于教学、数字娱乐、游戏、人机交互、远程会议、影视制作、医学手术、人脸识别等领域。我们基于MPEG-4标准和中文语言学理论,以TTS引擎、OpenGL作为主要的开发工具,实现了一个基于汉语文本驱动的人脸语音动画系统。该系统主要由四部分组成:文本分析系统;语音合成系统;人脸动画系统和语音与动画同步系统。系统的执行流程是:一方面,语音合成系统接收输入的中文文本,分析处理后,合成语音并产生带有时间信息的音素流;另一方面,基于肌肉模型建立具有真实感的特定人脸模型,使用音素帧参数和表情帧参数驱动模型网格点移动,从而实现人脸动画;最后将合成的语音与人脸动画同步,就实现具有真实感的、带有表情的人脸语音动画。本系统建立的协同发音模型有效地解决了中文协同发音的问题,这是本论文的一个创新点。协同发音是指在连续说话过程中,一个音素的发音受到相邻语音段影响的现象。语音合成系统将中文可视音素划分为15组,可获得带有时间信息的中文可视音素序列,成功解决了TTS引擎不能直接产生中文音素和中文可视音素的问题,这是论文的第二个创新点。此外,系统在通用模型的基础上进行特定化修正,通过模型校准、纹理映射方法,生成具有高度真实感的人脸模型。系统还通过定义表情标签、表情过渡、表情与可视音素混合等处理,实现了带有表情的人脸动画。由于本系统实现的人脸动画,只是通过嘴唇来模拟说话和表情动作,而并没有考虑人脸其它部位在说话过程中的动作变化。因此,在人脸建模方面,对人脸其它部位(如眼睛,舌头等)的模拟是未来研究的一个方向。
|
全文目录
摘要 4-5 ABSTRACT 5-10 第一章 绪论 10-17 1.1 课题背景及研究意义 10-11 1.2 国内外研究现状 11-12 1.2.1 人脸建模方法 11 1.2.2 人脸模型分类 11 1.2.3 人脸动画研究方法 11-12 1.2.4 人脸语音动画研究方法 12 1.3 论文研究内容及创新点 12-14 1.4 论文的框架结构及章节安排 14-15 1.4.1 系统框架 14-15 1.4.2 章节安排 15 1.5 本章小节 15-17 第二章 理论基础及开发平台 17-27 2.1 系统开发平台 17-20 2.1.1 SAPI5.0 简介 17-18 2.1.2 TTS 引擎简介 18 2.1.3 OpenGL 开发工具 18-20 2.2 MPEG-4 人脸动画标准简介 20-25 2.2.1 MPEG-4 人脸动画参数 20-21 2.2.2 MPEG-4 人脸定义参数 21-23 2.2.3 MPEG-4 中性人脸模型 23-24 2.2.4 MPEG-4 人脸动画工作方式 24-25 2.3 本章小节 25-27 第三章 特定人脸模型的建立 27-45 3.1 人脸肌肉模型 28-33 3.1.1 线性肌的模拟 31-32 3.1.2 括约肌的模拟 32-33 3.1.3 片状肌的模拟 33 3.2 嘴部参数模型 33-36 3.2.1 人脸唇部运动机理 33-34 3.2.2 参数控制的嘴部模型 34-35 3.2.3 嘴部参数模型的模拟过程 35-36 3.3 通用模型及其特定化 36-39 3.3.1 通用模型的选取及其特定化 36-38 3.3.2 通用模型特定化过程 38-39 3.4 模型校准 39-41 3.4.1 模型校准算法 39-40 3.4.2 人脸模型校准的实现 40-41 3.5 纹理映射 41-44 3.6 本章小节 44-45 第四章 中文文本分析及语音合成 45-55 4.1 中文文本解析 45 4.2 中文可视音素处理 45-51 4.2.1 划分中文可视音素 46-48 4.2.2 得到中文可视音素序列 48 4.2.3 获得可视音素的时间信息 48-50 4.2.4 可视音素过渡处理 50-51 4.3 表情处理 51-53 4.3.1 表情标签的表示方法 51-52 4.3.2 表情过渡处理 52-53 4.4 可视音素与表情混合 53 4.5 本章小节 53-55 第五章 人脸语音动画系统的实现 55-67 5.1 合成视觉语音的方法 55-56 5.2 中文协同发音处理 56-62 5.2.1 中文协同发音的背景 56-57 5.2.2 三音素模型和协同发音规则 57-60 5.2.3 合成过渡唇形 60-62 5.3 人脸动画的结构及实现 62-63 5.3.1 人脸动画的四层控制结构 62-63 5.3.2 人脸动画的实现过程 63 5.4 人脸语音与动画同步系统 63-66 5.4.1 语音与动画的同步 63-65 5.4.2 语音动画系统的结构 65-66 5.5 本章小节 66-67 第六章 实验结果 67-71 第七章 总结与展望 71-73 7.1 工作总结 71-72 7.2 展望 72-73 致谢 73-74 参考文献 74-78 攻硕期间取得的研究成果 78-79 个人简历 78 获奖情况 78 发表论文 78-79
|
相似论文
- 高效三维视频表达及编码技术研究与开发,TN919.81
- 嵌入式视频解码器运动补偿过程的数据布局优化,TN919.81
- 载姜黄素MPEG-P(CL-co-PDO)聚合物胶束的研究,R283
- 基于TILE Pro64多核处理器的3G服务器视频转码软件设计,TP393.05
- 图像/视频中自动人脸替换研究,TP391.41
- 时空融合的视觉选择注意模型及其在MPEG压缩域应用研究,TP391.41
- 基于广义组合多核高斯函数的图像分类方法研究,TP391.41
- 基于ASON的高速公路视频监控系统应用研究,TP277
- 单张正面人脸图像的三维人脸重建方法研究,TP391.41
- 面向数控加工的人像产品三维建模关键技术研究及应用,TP391.41
- 基于压缩域特征的视频检索技术研究,TP391.41
- 基于MPEG-4的运动目标检测技术研究,TP391.41
- 基于运动矢量的视频水印算法,TP309.7
- 基于本体的监控视频描述与检索研究及流媒体发布平台开发,TN919.8
- 基于音频词袋和MPEG-7特征的暴力视频快速分类算法研究,TP391.41
- 基于802.11网络的无线视频传输系统设计,TN919.8
- 基于MPEG-2标准的音视频同步实现,TN949.197
- 聚乙二醇化的VLA-4拮抗肽对哮喘小鼠气道上皮Eotaxin和CCR3表达的影响,R562.25
- 基于Web的煤矿视频监控系统的研究与开发,TP277
- 酒钢生产指挥中心数字监控系统的设计与实现,TP277
- 基于MPEG-2的视频数字水印的研究与实现,TP309.7
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com
|