学位论文 > 优秀研究生学位论文题录展示

文本-可视语音合成系统的研究及实现

作 者: 傅蓉
导 师: 张振宇
学 校: 新疆大学
专 业: 计算机应用技术
关键词: 文本-可视语音合成系统 MPEG-4 人脸模型匹配 动态音节视位 基于语音韵律规则的动态音节视位调整方法
分类号: TN912.3
类 型: 硕士论文
年 份: 2005年
下 载: 173次
引 用: 2次
阅 读: 论文下载
 

内容摘要


文本-可视语音合成系统,将语音和图像两种模态结合到一起,建立了多模式人机交互接口,大大改善了人机交互的方式,在许多领域有着广泛的应用前景。为了生成具有较强真实感的,能应用于网络、嵌入式等环境的TTVS 系统,本文工作如下:本文首先建立了一个二维标准人脸模型,并应用MPEG-4 人脸动画原理开发了二维人脸动画数据编辑工具,在此基础上建立以FAP 为驱动源的基于标准人脸的动画机制。通过改进的主动形状模型方法,开发了基于单张人脸图片的人脸模型匹配工具,从而建立了适用于任意人脸的动画机制。提出动态音节视位的概念,将文本映射为相应的音节视位。在音节视位的拼接过程中,先根据语音韵律规则对音节视位进行调整,然后根据用户指定的表情进行表情与视位融合,最后应用改进的Hermite 插值算法对音节视位进行拼接,从而合成了富有表情具有语音韵律感的人脸动画。借助科大讯飞文语合成系统,实现了语音与动画同步机制,实现了一个文本驱动的人脸语音动画系统。在原有聊天系统的基础上增加TTVS 功能,实现了一个网络语音动画聊天系统。与以往不同,本文开发的TTVS 系统数据量小,能够实时生成,动画机制具有模型移植性,具有表情和语音韵律感,更具有真实感,能够适用于网络与嵌入式环境。本课题受国家自然科学基金项目“虚拟人多模式行为协同关系学习算法的研究”资助。

全文目录


第1章 绪论  6-12
  1.1 意义及应用领域  6-7
    1.1.1 意义  6
    1.1.2 应用领域  6-7
  1.2 可视人脸语音动画技术的分类  7-9
    1.2.1 基于参数控制的方法  8-9
    1.2.2 基于数据驱动的方法  9
  1.3 本文的研究内容与主要工作  9-11
  1.4 论文的组织结构  11-12
第2章 MPEG-4 动画原理  12-19
  2.1 MPEG-4 的人脸动画的基本概念  12-15
    2.1.1 FDP  12-13
    2.1.2 FAP  13-14
    2.1.3 FAPU  14
    2.1.4 人脸动画规则及动画定义表  14-15
  2.2 MPEG-4 人脸动画的原理  15-17
  2.3 MPEG-4 人脸动画实现步骤  17-18
  2.4 MPEG-4 人脸动画实现的难点  18-19
第3章 2D MPEG-4 人脸动画技术的实现  19-27
  3.1 二维人脸模型创建  19
  3.2 MPEG-4 标准人脸模型的人脸动画的定义表的构造方法  19-21
  3.3 二维纹理映射算法  21-22
  3.4 MPEG-4 的人脸动画模型编辑工具  22-24
  3.5 MPEG-4 人脸动画的软件设计方案  24-27
    3.3.1 类设计方案  24-26
    3.3.2 动画生成流程  26-27
第4章 于ASM的人脸模型匹配工具  27-41
  4.1 ASM方法简介  27-34
    4.1.1 形状建模  27-31
    4.1.2 局部纹理建模  31-32
    4.1.3 ASM目标搜索过程  32-34
  4.2 ASM方法的改进和增加的功能  34-38
    4.2.1 瞳孔的精确定位  34-35
    4.2.2 利用瞳孔进行模型初始化  35-36
    4.2.3 利用边缘信息改变局部搜索方法  36-37
    4.2.4 多策略自适应步长的确定  37-38
    4.2.5 手动调整  38
  4.3 人脸模型匹配工具及实验效果  38-41
第5章 TTVS系统实现  41-57
  5.1 人脸语音动画生成流程  41
  5.2 文本分析  41-42
  5.3 音位视位转换  42-46
    5.3.1 静态视位  42-43
    5.3.2 基于音节的动态视位  43-44
    5.3.3 视位参数获取方法  44-46
  5.4 音节视位拼接  46-51
    5.4.1 视位拼接算法  46-49
    5.4.2 基于语音韵律规则的视位调整方法  49-50
    5.4.3 表情与视位的融合  50-51
  5.5 科大讯飞TTS引擎调用简介  51
  5.6 语音与动画的同步  51-53
  5.7 文本驱动人脸动画系统介绍  53-55
  5.8 网络语音人脸动画聊天系统  55-57
第6章 结束语  57-58
  6.1 本文的研究工作成果及结论  57
  6.2 进一步的工作  57-58
参考文献  58-61
致谢  61

相似论文

  1. 高效三维视频表达及编码技术研究与开发,TN919.81
  2. 嵌入式视频解码器运动补偿过程的数据布局优化,TN919.81
  3. 载姜黄素MPEG-P(CL-co-PDO)聚合物胶束的研究,R283
  4. 基于TILE Pro64多核处理器的3G服务器视频转码软件设计,TP393.05
  5. 时空融合的视觉选择注意模型及其在MPEG压缩域应用研究,TP391.41
  6. 基于广义组合多核高斯函数的图像分类方法研究,TP391.41
  7. 基于ASON的高速公路视频监控系统应用研究,TP277
  8. 基于压缩域特征的视频检索技术研究,TP391.41
  9. 基于MPEG-4的运动目标检测技术研究,TP391.41
  10. 基于运动矢量的视频水印算法,TP309.7
  11. 基于本体的监控视频描述与检索研究及流媒体发布平台开发,TN919.8
  12. 基于音频词袋和MPEG-7特征的暴力视频快速分类算法研究,TP391.41
  13. 基于802.11网络的无线视频传输系统设计,TN919.8
  14. 基于MPEG-2标准的音视频同步实现,TN949.197
  15. 聚乙二醇化的VLA-4拮抗肽对哮喘小鼠气道上皮Eotaxin和CCR3表达的影响,R562.25
  16. 基于Web的煤矿视频监控系统的研究与开发,TP277
  17. 酒钢生产指挥中心数字监控系统的设计与实现,TP277
  18. 基于MPEG-2的视频数字水印的研究与实现,TP309.7
  19. 边防部队勤务监管与指挥调度系统的设计与实现,TP311.52
  20. 三维人脸建模与表情动画技术研究,TP391.41
  21. 关于个人视频录像机的研究与实现,TN946

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com