学位论文 > 优秀研究生学位论文题录展示

汉语语音合成韵律控制方法与实现的研究

作 者: 张鹏
导 师: 刘胜
学 校: 哈尔滨工程大学
专 业: 控制理论与控制工程
关键词: 文语转换 语音合成 语音自然度 韵律模型 韵律边界 韵律控制 PSOLA算法
分类号: TN912.3
类 型: 硕士论文
年 份: 2006年
下 载: 335次
引 用: 5次
阅 读: 论文下载
 

内容摘要


随着科学与技术的发展,语音合成和语音识别已经开始广泛应用于社会的各个方面,并且成为人工智能、语音信号处理以及人机多媒体交互研究领域的热点之一。然而对于语音合成来说,汉语不同于西方语系,表现在语法结构、语法规则、声学特性、韵律特征等多个方面。首先,汉语是声调语言,声调具有辨意作用。其次,字与字之间的音调前后彼此互相影响会发生变异,即出现协同发音现象。同时,连续语流中的发音中间还会有短暂的停顿,这体现了人说话的节奏感。在汉语的文语转换(TTS)中,对语音基频、时长、幅度等韵律信息的预测、分析和控制称作韵律控制。目前在汉语语音合成的韵律控制方法上还存在很多无法解决的问题,致使合成语音的音质在自然度和可懂度方面相对较低,还不能达到用户可以广泛接受的程度,从而制约了该项技术大规模地进入市场。针对上述问题,本文在广泛汲取汉语韵律知识和现代语音信号处理技术的基础上,对汉语语音合成技术及其实现方法进行了深入的研究,主要研究工作如下:1、本文从汉语的声学特点和韵律特征出发,诸如汉语的声调及特点、汉语的语调及模式,分析和研究汉语的韵律特征(基频、时长、幅度)、重音、停顿以及韵律边界之间的相互关系,提出了适用于汉语语音合成的韵律控制规则。2、通过对汉语的韵律及其层次结构的分析与对比,进行了韵律特征与韵律边界的声学分析,提出了韵律分层建模、韵律边界预测和韵律分层控制的思想。3、确定了以音节作为拼接的语音基元,采用基于数据驱动的统计模型和规则相结合的方法,实现韵律建模及其韵律控制。4、采用PSOLA算法,在有限范围内实现对合成基元的时长和基频的调整,以及它对合成语音音质的影响;研究了语调曲线的合成及其控制方法。利用上述方法,进行了汉语文语转换实验。实验结果表明,本文提出的语音合成与韵律控制方法是行之有效的。

全文目录


摘要  5-6
Abstract  6-11
第1章 绪论  11-21
  1.1 语音信号处理技术与语音合成  11-13
  1.2 语音合成技术与汉语语音合成技术的发展现状  13-16
  1.3 TTS系统的典型应用及发展方向  16-18
    1.3.1 在公共服务行业方面的应用  16
    1.3.2 在基于 PC的办公、教学、娱乐等多媒体软件上的应用  16-17
    1.3.3 在互联网及终端上的应用  17
    1.3.4 统一消息处理系统  17-18
    1.3.5 在移动信息终端及各种嵌入式设备上的应用  18
    1.3.6 存在的问题和发展方向  18
  1.4 本文研究的内容和意义  18-21
    1.4.1 本文研究的内容  18-19
    1.4.2 本文研究的意义  19-21
第2章 汉语的特点分析  21-29
  2.1 汉语的特点  21-22
  2.2 汉语的音节与结构  22
  2.3 汉语的声调及特点  22-23
  2.4 声调的声学特性  23-28
    2.4.1 声调的基频  24-25
    2.4.2 声调的时长  25-26
    2.4.3 声调的幅度  26
    2.4.4 声调的物理量、听感量之间的关系  26-27
    2.4.5 动态声调—协同发音现象  27-28
    2.4.6 汉语的语调及模式  28
  2.5 本章小结  28-29
第3章 汉语的韵律分析  29-43
  3.1 汉语的韵律特征  29-30
  3.2 汉语的韵律层级结构  30-35
    3.2.1 韵律词  31-32
    3.2.2 韵律短语  32
    3.2.3 语调短语  32
    3.2.4 停顿及其作用  32-33
    3.2.5 韵律结构的预测  33-35
  3.3 韵律层级结构边界的声学特性分析  35-38
  3.4 重音、语调对韵律特征参数的影响  38-42
    3.4.1 重音对音高、音长、音强的影响  38-41
    3.4.2 语调对音高的影响  41-42
  3.5 本章小结  42-43
第4章 韵律规则与韵律模型的研究  43-55
  4.1 韵律规则与韵律模型介绍  43-44
  4.2 韵律规则  44-48
    4.2.1 变调规则  44-45
    4.2.2 语调规则  45
    4.2.3 音长规则  45-46
    4.2.4 重音规则  46-47
    4.2.5 停顿规则  47-48
  4.3 韵律模型的研究  48-52
    4.3.1 基于统计模型的合成基元的选取  48
    4.3.2 基于韵律匹配代价的合成基元的选取  48-49
    4.3.3 基于韵律拼接代价的合成基元的选取  49-50
    4.3.4 基于韵律匹配代价与韵律拼接代价的合成基元的选取  50-51
    4.3.5 合成基元之间的拼接与平滑过渡  51-52
  4.4 基于统计模型和规则的韵律控制  52-54
  4.5 本章小结  54-55
第5章 韵律控制参数调整范围的研究  55-63
  5.1 PSOLA算法介绍  55-56
  5.2 TD-PSOLA时域基音同步叠加工作原理  56-60
    5.2.1 基音同步分析  57-58
    5.2.2 基音同步调整  58-59
    5.2.3 基音同步叠加  59-60
  5.3 韵律控制参数的调整  60-61
    5.3.1 基频调整  60
    5.3.2 时长调整  60-61
  5.4 PSOLA算法对合成语音音质的影响  61-62
  5.5 本章小结  62-63
第6章 汉语语调曲线的合成及控制方法的研究  63-70
  6.1 汉语的语调模型  64-67
  6.2 模型参数的设置  67
  6.3 基于规则的F_0的合成  67-69
  6.4 本章小结  69-70
第7章 语音合成实验  70-73
  7.1 主观听辨实验结果  70
  7.2 计算机合成语音的实验结果  70-72
  7.3 本章小结  72-73
结论  73-75
参考文献  75-82
攻读硕士学位期间发表的论文和取得的科研成果  82-83
致谢  83-84
个人简历  84

相似论文

  1. 声道频响合成方法在军队姓名语音库的应用,TN912.3
  2. 移动音视频交互业务执行平台的研究,TN915.09
  3. 基于Windows CE的监室管理系统设计与开发,TP311.52
  4. 仿真机器人控制系统,TP242
  5. 基于自动切分的PSOLA语音合成在大坝监控系统中的应用研究,TP277
  6. Ant在IVR系统测试的应用,TP311.52
  7. 基于VoiceXML的语音智能交互平台的研究与实现,TP311.52
  8. 语音库自动构建技术的研究,TN912.33
  9. 基于多层架构模型设计的呼叫中心设计及实现,TN99
  10. 基于HMM的可训练越南语语音合成系统,TN912.33
  11. 语音变调算法研究及其在语音合成中的应用,TN912.33
  12. 基于SOM网络的语音基频模式提取研究,TN912.3
  13. 基于嵌入式技术的射频识别信息终端研究开发,TP368.12
  14. 基于GSM网络具有语音合成功能系统的设计与实现,TN912.33
  15. 基于G.729标准的拼音合成算法及其DSP实现,TN912.3
  16. 藏语拉萨话新闻体韵律模型研究,TN912.3
  17. 基于移动终端的旅游信息推送服务系统关键技术研究,TN929.53
  18. 跨文化的情感语音分析,TP391.42
  19. 基于情感基音模板的情感语音合成,TN912.33
  20. 基于Web文语转换通讯系统的设计与实现,TP311.52
  21. 二维条码的编解码及分布式语音播报系统的研究,TP391.44

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com