学位论文 > 优秀研究生学位论文题录展示
汉语语音合成韵律控制方法与实现的研究
作 者: 张鹏
导 师: 刘胜
学 校: 哈尔滨工程大学
专 业: 控制理论与控制工程
关键词: 文语转换 语音合成 语音自然度 韵律模型 韵律边界 韵律控制 PSOLA算法
分类号: TN912.3
类 型: 硕士论文
年 份: 2006年
下 载: 335次
引 用: 5次
阅 读: 论文下载
内容摘要
随着科学与技术的发展,语音合成和语音识别已经开始广泛应用于社会的各个方面,并且成为人工智能、语音信号处理以及人机多媒体交互研究领域的热点之一。然而对于语音合成来说,汉语不同于西方语系,表现在语法结构、语法规则、声学特性、韵律特征等多个方面。首先,汉语是声调语言,声调具有辨意作用。其次,字与字之间的音调前后彼此互相影响会发生变异,即出现协同发音现象。同时,连续语流中的发音中间还会有短暂的停顿,这体现了人说话的节奏感。在汉语的文语转换(TTS)中,对语音基频、时长、幅度等韵律信息的预测、分析和控制称作韵律控制。目前在汉语语音合成的韵律控制方法上还存在很多无法解决的问题,致使合成语音的音质在自然度和可懂度方面相对较低,还不能达到用户可以广泛接受的程度,从而制约了该项技术大规模地进入市场。针对上述问题,本文在广泛汲取汉语韵律知识和现代语音信号处理技术的基础上,对汉语语音合成技术及其实现方法进行了深入的研究,主要研究工作如下:1、本文从汉语的声学特点和韵律特征出发,诸如汉语的声调及特点、汉语的语调及模式,分析和研究汉语的韵律特征(基频、时长、幅度)、重音、停顿以及韵律边界之间的相互关系,提出了适用于汉语语音合成的韵律控制规则。2、通过对汉语的韵律及其层次结构的分析与对比,进行了韵律特征与韵律边界的声学分析,提出了韵律分层建模、韵律边界预测和韵律分层控制的思想。3、确定了以音节作为拼接的语音基元,采用基于数据驱动的统计模型和规则相结合的方法,实现韵律建模及其韵律控制。4、采用PSOLA算法,在有限范围内实现对合成基元的时长和基频的调整,以及它对合成语音音质的影响;研究了语调曲线的合成及其控制方法。利用上述方法,进行了汉语文语转换实验。实验结果表明,本文提出的语音合成与韵律控制方法是行之有效的。
|
全文目录
摘要 5-6 Abstract 6-11 第1章 绪论 11-21 1.1 语音信号处理技术与语音合成 11-13 1.2 语音合成技术与汉语语音合成技术的发展现状 13-16 1.3 TTS系统的典型应用及发展方向 16-18 1.3.1 在公共服务行业方面的应用 16 1.3.2 在基于 PC的办公、教学、娱乐等多媒体软件上的应用 16-17 1.3.3 在互联网及终端上的应用 17 1.3.4 统一消息处理系统 17-18 1.3.5 在移动信息终端及各种嵌入式设备上的应用 18 1.3.6 存在的问题和发展方向 18 1.4 本文研究的内容和意义 18-21 1.4.1 本文研究的内容 18-19 1.4.2 本文研究的意义 19-21 第2章 汉语的特点分析 21-29 2.1 汉语的特点 21-22 2.2 汉语的音节与结构 22 2.3 汉语的声调及特点 22-23 2.4 声调的声学特性 23-28 2.4.1 声调的基频 24-25 2.4.2 声调的时长 25-26 2.4.3 声调的幅度 26 2.4.4 声调的物理量、听感量之间的关系 26-27 2.4.5 动态声调—协同发音现象 27-28 2.4.6 汉语的语调及模式 28 2.5 本章小结 28-29 第3章 汉语的韵律分析 29-43 3.1 汉语的韵律特征 29-30 3.2 汉语的韵律层级结构 30-35 3.2.1 韵律词 31-32 3.2.2 韵律短语 32 3.2.3 语调短语 32 3.2.4 停顿及其作用 32-33 3.2.5 韵律结构的预测 33-35 3.3 韵律层级结构边界的声学特性分析 35-38 3.4 重音、语调对韵律特征参数的影响 38-42 3.4.1 重音对音高、音长、音强的影响 38-41 3.4.2 语调对音高的影响 41-42 3.5 本章小结 42-43 第4章 韵律规则与韵律模型的研究 43-55 4.1 韵律规则与韵律模型介绍 43-44 4.2 韵律规则 44-48 4.2.1 变调规则 44-45 4.2.2 语调规则 45 4.2.3 音长规则 45-46 4.2.4 重音规则 46-47 4.2.5 停顿规则 47-48 4.3 韵律模型的研究 48-52 4.3.1 基于统计模型的合成基元的选取 48 4.3.2 基于韵律匹配代价的合成基元的选取 48-49 4.3.3 基于韵律拼接代价的合成基元的选取 49-50 4.3.4 基于韵律匹配代价与韵律拼接代价的合成基元的选取 50-51 4.3.5 合成基元之间的拼接与平滑过渡 51-52 4.4 基于统计模型和规则的韵律控制 52-54 4.5 本章小结 54-55 第5章 韵律控制参数调整范围的研究 55-63 5.1 PSOLA算法介绍 55-56 5.2 TD-PSOLA时域基音同步叠加工作原理 56-60 5.2.1 基音同步分析 57-58 5.2.2 基音同步调整 58-59 5.2.3 基音同步叠加 59-60 5.3 韵律控制参数的调整 60-61 5.3.1 基频调整 60 5.3.2 时长调整 60-61 5.4 PSOLA算法对合成语音音质的影响 61-62 5.5 本章小结 62-63 第6章 汉语语调曲线的合成及控制方法的研究 63-70 6.1 汉语的语调模型 64-67 6.2 模型参数的设置 67 6.3 基于规则的F_0的合成 67-69 6.4 本章小结 69-70 第7章 语音合成实验 70-73 7.1 主观听辨实验结果 70 7.2 计算机合成语音的实验结果 70-72 7.3 本章小结 72-73 结论 73-75 参考文献 75-82 攻读硕士学位期间发表的论文和取得的科研成果 82-83 致谢 83-84 个人简历 84
|
相似论文
- 声道频响合成方法在军队姓名语音库的应用,TN912.3
- 移动音视频交互业务执行平台的研究,TN915.09
- 基于Windows CE的监室管理系统设计与开发,TP311.52
- 仿真机器人控制系统,TP242
- 基于自动切分的PSOLA语音合成在大坝监控系统中的应用研究,TP277
- Ant在IVR系统测试的应用,TP311.52
- 基于VoiceXML的语音智能交互平台的研究与实现,TP311.52
- 语音库自动构建技术的研究,TN912.33
- 基于多层架构模型设计的呼叫中心设计及实现,TN99
- 基于HMM的可训练越南语语音合成系统,TN912.33
- 语音变调算法研究及其在语音合成中的应用,TN912.33
- 基于SOM网络的语音基频模式提取研究,TN912.3
- 基于嵌入式技术的射频识别信息终端研究开发,TP368.12
- 基于GSM网络具有语音合成功能系统的设计与实现,TN912.33
- 基于G.729标准的拼音合成算法及其DSP实现,TN912.3
- 藏语拉萨话新闻体韵律模型研究,TN912.3
- 基于移动终端的旅游信息推送服务系统关键技术研究,TN929.53
- 跨文化的情感语音分析,TP391.42
- 基于情感基音模板的情感语音合成,TN912.33
- 基于Web文语转换通讯系统的设计与实现,TP311.52
- 二维条码的编解码及分布式语音播报系统的研究,TP391.44
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com
|