学位论文 > 优秀研究生学位论文题录展示
文本-可视语音合成系统的研究及实现
作 者: 傅蓉
导 师: 张振宇
学 校: 新疆大学
专 业: 计算机应用技术
关键词: 文本-可视语音合成系统 MPEG-4 人脸模型匹配 动态音节视位 基于语音韵律规则的动态音节视位调整方法
分类号: TN912.3
类 型: 硕士论文
年 份: 2005年
下 载: 173次
引 用: 2次
阅 读: 论文下载
内容摘要
文本-可视语音合成系统,将语音和图像两种模态结合到一起,建立了多模式人机交互接口,大大改善了人机交互的方式,在许多领域有着广泛的应用前景。为了生成具有较强真实感的,能应用于网络、嵌入式等环境的TTVS 系统,本文工作如下:本文首先建立了一个二维标准人脸模型,并应用MPEG-4 人脸动画原理开发了二维人脸动画数据编辑工具,在此基础上建立以FAP 为驱动源的基于标准人脸的动画机制。通过改进的主动形状模型方法,开发了基于单张人脸图片的人脸模型匹配工具,从而建立了适用于任意人脸的动画机制。提出动态音节视位的概念,将文本映射为相应的音节视位。在音节视位的拼接过程中,先根据语音韵律规则对音节视位进行调整,然后根据用户指定的表情进行表情与视位融合,最后应用改进的Hermite 插值算法对音节视位进行拼接,从而合成了富有表情具有语音韵律感的人脸动画。借助科大讯飞文语合成系统,实现了语音与动画同步机制,实现了一个文本驱动的人脸语音动画系统。在原有聊天系统的基础上增加TTVS 功能,实现了一个网络语音动画聊天系统。与以往不同,本文开发的TTVS 系统数据量小,能够实时生成,动画机制具有模型移植性,具有表情和语音韵律感,更具有真实感,能够适用于网络与嵌入式环境。本课题受国家自然科学基金项目“虚拟人多模式行为协同关系学习算法的研究”资助。
|
全文目录
第1章 绪论 6-12 1.1 意义及应用领域 6-7 1.1.1 意义 6 1.1.2 应用领域 6-7 1.2 可视人脸语音动画技术的分类 7-9 1.2.1 基于参数控制的方法 8-9 1.2.2 基于数据驱动的方法 9 1.3 本文的研究内容与主要工作 9-11 1.4 论文的组织结构 11-12 第2章 MPEG-4 动画原理 12-19 2.1 MPEG-4 的人脸动画的基本概念 12-15 2.1.1 FDP 12-13 2.1.2 FAP 13-14 2.1.3 FAPU 14 2.1.4 人脸动画规则及动画定义表 14-15 2.2 MPEG-4 人脸动画的原理 15-17 2.3 MPEG-4 人脸动画实现步骤 17-18 2.4 MPEG-4 人脸动画实现的难点 18-19 第3章 2D MPEG-4 人脸动画技术的实现 19-27 3.1 二维人脸模型创建 19 3.2 MPEG-4 标准人脸模型的人脸动画的定义表的构造方法 19-21 3.3 二维纹理映射算法 21-22 3.4 MPEG-4 的人脸动画模型编辑工具 22-24 3.5 MPEG-4 人脸动画的软件设计方案 24-27 3.3.1 类设计方案 24-26 3.3.2 动画生成流程 26-27 第4章 于ASM的人脸模型匹配工具 27-41 4.1 ASM方法简介 27-34 4.1.1 形状建模 27-31 4.1.2 局部纹理建模 31-32 4.1.3 ASM目标搜索过程 32-34 4.2 ASM方法的改进和增加的功能 34-38 4.2.1 瞳孔的精确定位 34-35 4.2.2 利用瞳孔进行模型初始化 35-36 4.2.3 利用边缘信息改变局部搜索方法 36-37 4.2.4 多策略自适应步长的确定 37-38 4.2.5 手动调整 38 4.3 人脸模型匹配工具及实验效果 38-41 第5章 TTVS系统实现 41-57 5.1 人脸语音动画生成流程 41 5.2 文本分析 41-42 5.3 音位视位转换 42-46 5.3.1 静态视位 42-43 5.3.2 基于音节的动态视位 43-44 5.3.3 视位参数获取方法 44-46 5.4 音节视位拼接 46-51 5.4.1 视位拼接算法 46-49 5.4.2 基于语音韵律规则的视位调整方法 49-50 5.4.3 表情与视位的融合 50-51 5.5 科大讯飞TTS引擎调用简介 51 5.6 语音与动画的同步 51-53 5.7 文本驱动人脸动画系统介绍 53-55 5.8 网络语音人脸动画聊天系统 55-57 第6章 结束语 57-58 6.1 本文的研究工作成果及结论 57 6.2 进一步的工作 57-58 参考文献 58-61 致谢 61
|
相似论文
- 高效三维视频表达及编码技术研究与开发,TN919.81
- 嵌入式视频解码器运动补偿过程的数据布局优化,TN919.81
- 载姜黄素MPEG-P(CL-co-PDO)聚合物胶束的研究,R283
- 基于TILE Pro64多核处理器的3G服务器视频转码软件设计,TP393.05
- 时空融合的视觉选择注意模型及其在MPEG压缩域应用研究,TP391.41
- 基于广义组合多核高斯函数的图像分类方法研究,TP391.41
- 基于ASON的高速公路视频监控系统应用研究,TP277
- 基于压缩域特征的视频检索技术研究,TP391.41
- 基于MPEG-4的运动目标检测技术研究,TP391.41
- 基于运动矢量的视频水印算法,TP309.7
- 基于本体的监控视频描述与检索研究及流媒体发布平台开发,TN919.8
- 基于音频词袋和MPEG-7特征的暴力视频快速分类算法研究,TP391.41
- 基于802.11网络的无线视频传输系统设计,TN919.8
- 基于MPEG-2标准的音视频同步实现,TN949.197
- 聚乙二醇化的VLA-4拮抗肽对哮喘小鼠气道上皮Eotaxin和CCR3表达的影响,R562.25
- 基于Web的煤矿视频监控系统的研究与开发,TP277
- 酒钢生产指挥中心数字监控系统的设计与实现,TP277
- 基于MPEG-2的视频数字水印的研究与实现,TP309.7
- 边防部队勤务监管与指挥调度系统的设计与实现,TP311.52
- 三维人脸建模与表情动画技术研究,TP391.41
- 关于个人视频录像机的研究与实现,TN946
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com
|