学位论文 > 优秀研究生学位论文题录展示

个性化语音生成研究

作　者: 双志伟
导　师: 戴礼荣；王仁华
学　校: 中国科学技术大学
专　业: 信号与信息处理
关键词: 个性化语音生成说话人转换语音合成共振峰频谱弯曲模型自适应多语言
分类号: TN912.3
类　型: 博士论文
年　份: 2011年
下　载: 100次
引　用: 0次
阅　读: 论文下载

内容摘要

个性化语音生成是指生成具有特定说话人特征的语音。个性化语音生成的应用非常广泛,比如可以改变语音合成系统的语音以提供个性化的合成语音,或在语音聊天、在线游戏中隐藏说话人的真实身份,也可以在多媒体彩信中模仿他人以达到娱乐的效果等。目前最常用的个性化语音生成方法有两种:一是说话人转换方法二是语音合成模型自适应方法。两种方法有着各自的优缺点,适用于不同的应用场合。本文对这两种方法的特点和联系进行探讨,针对不同方法存在的问题和应用的实际需求进行改进,并通过系统评测验证了改进的效果。论文包括五部分内容:在第一部分,论文将对个性化特征、个性化语音生成的实际需求以及不同个性化语音生成方法的特点和使用场景进行总结分析。首先对人的发音过程的声学机理和数学模型进行了简要介绍,在此基础上总结了不同的说话人特征参数。然后对个性化语音生成的实际需求进行分析,并对个性化语音生成方法的优缺点和适用场景进行讨论。在第二部分,论文则是对最常用的两类说话人转换方法:基于GMM的方法和基于码本映射的方法,进行一个系统的分析。论文首先介绍GMM方法以及几种最重要的分支。接下去,对Abe的经典码本映射方法以及Alsan提出的STASC码本映射方法进行介绍。之后,论文将对这两种方法进行一个系统的分析比较,指出各自的优点和不足。最后,将讨论在实践中发现的GMM方法和码本映射方法存在的两个共同的问题:1.源和目标说话人对应数据的不匹配问题;2.转换频谱的过平滑问题。这些分析和讨论将指引本文探索新的说话人转换方法。论文在第三部分,针对现有说话人转换方法存在的问题,提出了一种基于频谱弯曲的说话人转换方法,其中频谱弯曲函数是基于源说话人和目标说话人的映射共振峰参数生成。这种方法有两个优点:一是所需训练数据非常少。二是转换语音具有较高的音质。为了进一步提高与目标说话人的相似度,论文提出了一种结合频谱弯曲和单元挑选的说话人转换方法以提高频谱细节上的相似度。该方法首先进行频谱弯曲,然后将弯曲后的频谱作为目标进行单元挑选。接下去将部分弯曲后的频谱用挑选到的目标说话人的真实频谱进行替换,最后重构出转换后的语音。评测结果表明,基于本文的频谱弯曲方法获得的转换语音音质远优于其他方法,并且在音质和相似度上取得较好的平衡。评测结果同时表明结合频谱弯曲和单元挑选可以比频谱弯曲获得显著的相似度提高。论文在第四部分,针对多语种语音合成系统遇到的实际问题,创新性地利用语音合成模型自适应和说话人转换方法相结合的个性化语音生成实现多语种语音合成系统。当今社会,中英文混合的文本越来越多。为了保证合成语音的自然连贯,通常要求中英文混合的文本内容用一个声音合成出来。然而,由于很多中文发音人的英文并不专业,直接用这种不专业的英文训练出来的模型合成的英文听起来会很不自然。这里,我们提出使用个性化语音生成方法借助一个英文母语发音人的模型,以获得更自然的中文说话人音色的英文合成语音。在使用最大似然语音合成模型自适应修改频谱模型的同时,我们利用说话人转换的韵律调整对韵律模型进行修改以获得更自然的合成韵律。评测结果表明,这种方法可以得到比其他方法更为自然的合成语音和一致的中英文音色。值得一提的是,该系统已被应用于2010年上海世博会官方网站,以帮助弱视人士聆听网站内容。第五部分将对本文进行总结,并对下一步的工作进行展望。

全文目录

摘要  5-7
ABSTRACT  7-12
第1章绪论-个性化语音生成与说话人特征  12-24
  1.1 说话人发音机理  12-16
    1.1.1 语音产生的生理机理  12-13
    1.1.2 语音产生的数学模型  13-16
  1.2 说话人识别与说话人特征参数  16-20
    1.2.1 说话人识别  16-18
    1.2.2 说话人特征参数和分类  18-20
  1.3 个性化语音生成实用需求  20-22
    1.3.1 实际使用中能够获得的输入信息  20-21
    1.3.2 用户对生成语音自然度的要求  21
    1.3.3 用户对生成语音与目标说话人相似度的需求  21-22
    1.3.4 用户的配合度和可以获得的训练语料的数量  22
    1.3.5 拥有的计算资源和实时性需求  22
  小结  22-24
第2章经典说话人转换方法分析  24-48
  2.1 基于 GMM 的转换方法  25-32
    2.2.1 GMM 方法的主要训练方法  26-30
    2.2.2 GMM 方法的转换过程及结果评价  30-32
  2.2 码本映射方法  32-41
    2.2.1 经典的码本映射方法  32-35
    2.2.2 STASC 码本映射方法  35-41
  2.3 GMM 方法与 STASC 码本映射方法的联系与区别  41-43
    2.3.1 相同的训练数据的准备  41
    2.3.2 不同的训练思路  41-43
  2.4 GMM 方法和码本映射方法问题分析  43-46
    2.4.1 对应源和目标数据的不匹配问题  43-45
    2.4.2 转换语音的过平滑问题  45-46
  小结  46-48
第3章基于映射共振峰的频谱弯曲方法  48-68
  3.1 基于频谱弯曲的说话人转换方法  48-50
  3.2 基于映射共振峰的转换方法  50-57
    3.2.1 基于映射共振峰的频谱弯曲函数训练  50-54
    3.2.2 频谱转换阶段  54-55
    3.2.3 基于频谱弯曲的说话人转换系统  55-57
  3.3 结合频谱弯曲方法和单元挑选的说话人转换算法  57-62
    3.3.1 训练阶段  58-59
    3.3.2 转换阶段  59-62
  3.4 说话人转换评测分析  62-67
    3.4.1 评测数据和测听人  62
    3.4.2 评测标准  62-63
    3.4.3 英文评测结果  63-65
    3.4.4 西班牙语评测结果  65-67
  小结  67-68
第4章个性化语音生成实现中英文混合语音合成系统  68-96
  4.1 基于隐马尔可夫模型的语音合成介绍  69-71
  4.2 中英文模型训练  71-82
    4.2.1 训练参数设置  72-73
    4.2.2 以音节为单位的中文模型训练  73-80
    4.2.3 以音素为单位的英文模型训练  80-82
  4.3 清浊判决修正  82-85
  4.4 英文频谱模型最大似然自适应和韵律整体调整  85-90
    4.4.1 最大似然自适应训练  85-89
    4.4.2 英文频谱和韵律模型  89-90
  4.5 合成时中英文共享的韵律结构  90-91
  4.6 合成语音对比评测及讨论  91-94
    4.6.1 系统介绍  91
    4.6.2 评测标准  91-92
    4.6.3 测试句、测听方法和评测人员  92-93
    4.6.4 评测结果和讨论  93-94
  小结  94-96
第5章总结与展望  96-98
参考文献  98-102
在读期间发表的学术论文与取得的其他研究成果  102-104
致谢  104-105

个性化语音生成研究

内容摘要

全文目录

相似论文