学位论文 > 优秀研究生学位论文题录展示

汉语语音合成系统的改进与实现

作 者: 贾志浩
导 师: 何新
学 校: 南京理工大学
专 业: 控制工程
关键词: 多音字 韵律结构预测 决策树 隐马尔科夫模型
分类号: TN912.33
类 型: 硕士论文
年 份: 2012年
下 载: 79次
引 用: 0次
阅 读: 论文下载
 

内容摘要


语音作为人机交互手段这一趋势已经初见倪端,语音作为人机交互手段包含两个方面:语音合成和语音识别。通常语音合成指的是文本转语音,即把文字按语音处理规则转换为声音并输出。一般来说语音合成系统包含三个模块:文本处理模块、韵律处理模块、声音合成模块。文本处理模块处于语音合成系统的前端,其内容有文本分词、非标准词正则化、字音转换。韵律处理模块的主要工作是从文本中提取韵律结构、重音和语调等与韵律有关的信息。声音合成模块是语音合成系统的后端模块,主要工作是合成声音并对其进行修改与输出。为了提高汉语语音合成系统合成语音的可懂度以及自然度,本文重点研究了文本处理模块和韵律处理模块,所做具体工作如下:(1)分析了语音合成系统的整体框架,理解了系统各个模块的主要作用以及工作原理。鉴于PSOLA在语音合成模块中的重要作用,重点研究了PSOLA的分类以及实现过程,并将它应用到语音合成原型系统中。(2)针对文本处理模块做了研究,并对多音字处理方法做了改进与实现。本文一共实现了两种多音字处理方法:一种是静态的依词判音法,一种是动态的词性规则判音法。依词判音法是基于词库匹配的判音法,词性规则判音法是基于C4.5的决策树判音法。(3)针对韵律处理模块做了研究,并对韵律结构预测方法做了改进。改进后的韵律结构预测方法用HTK对一定规模标注好的韵律词或韵律短语的词性词长序列进行训练,得到对应的隐马尔科夫模型。然后用训练好的隐马尔科夫模型进行韵律结构预测。在模型训练过程中采用Good Turing法对模型进行参数平滑。(4)搭建语音合成原型系统,并对原型系统进行评测。评测数据表明本文工作的确能够帮助提高汉语语音合成系统合成语音的可懂度与自然度。

全文目录


摘要  3-4
ABSTRACT  4-8
1 绪论  8-15
  1.1 语音合成的发展历史和研究现状  8-11
  1.2 语音合成系统面临的问题以及发展方向  11-12
  1.3 本文的研究内容  12-13
  1.4 论文的结构安排  13-15
2 语音合成系统的整体框架  15-24
  2.1 文本处理模块  15-17
  2.2 韵律处理模块  17-18
  2.3 声音合成模块  18-23
    2.3.1 声音合成模块中用到的算法  18-19
    2.3.2 PSOLA算法  19-23
  2.4 本章小结  23-24
3 文本处理模块的实现  24-48
  3.1 文本分词  24-30
    3.1.1 汉语分词的困难  26-27
    3.1.2 基于字符串匹配的分词方法  27-30
  3.2 非标准词正则化  30-34
    3.2.1 歧义非标准词的消歧  32-33
    3.2.2 标准词的生成  33-34
  3.3 字音转换中的多音字问题  34-35
    3.3.1 字音转换模块简介  34
    3.3.2 多音字给汉语语音合成带来的困难  34-35
  3.4 基于BOYER-MOORE匹配的依词判音法  35-41
    3.4.1 依词判音的原理  35-37
    3.4.2 Boyer-Moore算法  37-39
    3.4.3 依词判音实验  39-41
  3.5 基于C4.5的词性规则判音法  41-47
    3.5.1 词性规则判音法原理  41-42
    3.5.2 C4.5算法  42-45
    3.5.3 特征的选取  45-46
    3.5.4 词性规则判音法实验  46-47
  3.6 本章小结  47-48
4 汉语韵律结构预测的实现  48-61
  4.1 汉语韵律特征与韵律结构  48-52
    4.1.1 韵律词  50
    4.1.2 韵律短语  50-51
    4.1.3 语调短语  51-52
  4.2 中文韵律结构预测方法  52-53
    4.2.1 中文韵律结构预测  52
    4.2.2 中文韵律结构预测方法  52-53
  4.3 基于隐马尔科夫模型的韵律层级结构预测  53-60
    4.3.1 隐马尔科夫模型  53-56
    4.3.2 特征的选取  56-58
    4.3.3 模型的选用  58-59
    4.3.4 实验  59-60
  4.4 本章小结  60-61
5 基于本文工作的语音合成原型系统  61-65
  5.1 构建系统  61-62
  5.2 系统测试  62-64
    5.2.1 测试语料  62
    5.2.2 评测标注  62-63
    5.2.3 评测步骤  63
    5.2.4 评测结果  63-64
    5.2.5 结果分析  64
  5.3 本章小结  64-65
6 总结与展望  65-67
  6.1 工作总结  65
  6.2 工作展望  65-67
致谢  67-68
参考文献  68-71

相似论文

  1. 基于支持向量机的故障诊断方法研究,TP18
  2. 教学质量评估数据挖掘系统设计与开发,TP311.13
  3. 基于核心示例集的属性约简方法研究,O159
  4. 基于广义信息熵的决策树模型及其在绩效评价中的应用,TP18
  5. 基于数据挖掘的故障诊断方法研究,TP311.13
  6. 《附释文互注礼部韵略》多音字研究,H131
  7. Deep Web数据集成系统中数据标注研究,TP393.09
  8. 数据挖掘技术在高校招生和教务管理中的应用,TP311.13
  9. 基于数据挖掘技术的教学管理应用研究,TP311.13
  10. 基于Web数据挖掘在个性化远程教学系统中的应用研究,TP311.13
  11. 数据挖掘技术在网络故障诊断中的应用研究,TP311.13
  12. 数据挖掘和SPC在生产过程质量控制中应用研究,TP311.13
  13. 数据仓库与数据挖掘技术在高校教学管理系统中的应用研究,TP311.13
  14. 基于数据挖掘技术的个性化健康体检套餐设计,TP311.13
  15. 对外汉语教学中的多音字研究,H195
  16. 基于数据仓库的决策树算法研究与应用,TP311.13
  17. 数据挖掘在大学生就业信息管理中的应用研究,TP311.13
  18. 转导支持向量机在数据预测中的应用,TP274
  19. 手机一卡通项目管理的应用研究,F426.6
  20. 施工项目风险分析及评价研究,F284

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音合成
© 2012 www.xueweilunwen.com