学位论文 > 优秀研究生学位论文题录展示

数字波导网格模型及语音网格参数估计

作　者: 颜宗岳
导　师: 赵鹤鸣
学　校: 苏州大学
专　业: 通信与信息系统
关键词: 数字波导网格模型说话人识别声门波声道滤波器高斯混合模型
分类号: TN912.3
类　型: 硕士论文
年　份: 2011年
下　载: 14次
引　用: 0次
阅　读: 论文下载

内容摘要

数字波导网格是一种精确描述说话人发音器官的声学模型,它最早应用于声音的合成。通过数字波导网格,人们能够合成出自然度更高的语音。从语音中估计出数字波导网格的参数,是当前研究的热点和难点。波导网格参数中包含了语音的内容、说话人的个性特征等诸多信息,因此,从语音中估计出精确的参数,在语音识别、说话人识别等研究方面有很重大的意义的。然而,目前的参数估计研究中,仍存在着许多问题,比如需要借助某些照相设备或者假设一些与真实状况不符的条件等等;核磁共振成像(MRI)技术的使用,人在发音时声门、声道的状态能够被更精确地观测到,但是实际操作起来难度很大。针对以上问题,本文做了以下几方面工作。一、根据语音产生的声学模型,详细介绍了一维数字波导模型,并在传统的离散化声道长度的模型上作了改进,合成了可变声道长度的语音,丰富了语音合成的理论。二、引入了声门声道滤波器(GVTF)的概念,比较了它和传统声道滤波器(VTF)的关系和区别。介绍了一种从元音中提取GVTF、VTF和声门波的算法,和传统的LPC参数做了比较。本文首次在数字波导网格模型的基础上提出了运用计算机程序自动提取GVTF参数的方法,并讨论了其作为说话人识别参数的可行性。实验证明,GVTF参数能够较好的反映说话人的个性特征。三、验证了提取到的参数的有效性。首次将提取到的GVTF参数应用于说话人识别,在相同的GMM识别模型下,与传统的MFCC参数作了比较。实验证明,随着信道的变化,GVTF参数比MFCC具有更高的识别率。

全文目录

摘要  4-5
Abstract  5-9
第一章绪论  9-13
  1.1 数字波导网格的研究背景  9
  1.2 数字波导网格及其应用的研究现状  9-10
  1.3 本文的主要研究工作  10-11
  1.4 本文的章节安排  11-13
第二章语音产生及其模型  13-18
  2.1 语音的产生  13-16
    2.1.1 肺部  13
    2.1.2 喉部  13-15
    2.1.3 声道  15-16
  2.2 语音产生模型  16-18
第三章数字波导网格模型及在语音合成方面的应用  18-29
  3.1 数字波导网格的模型的提出  18
  3.2 语音的数字波导网格模型  18-22
    3.2.1 级联声管  18-20
    3.2.2 唇部边界条件  20-21
    3.2.3 声门边界条件  21-22
  3.3 数字波导网格的离散时间模型  22-24
    3.3.1 延时器与采样率的关系  22-23
    3.3.2 分数延时滤波器  23-24
  3.4 基于数字波导网格的语音合成  24-29
第四章数字波导网格参数的估计  29-45
  4.1 声道转移函数  29-31
  4.2 GVTF 的参数估计  31-34
  4.3 声门相位的定位  34
  4.4 VTF 的参数估计  34-36
  4.5 声门波的提取  36
  4.6 数字波导网格参数提取的实验  36-39
  4.7 数字波导网格参数提取的改进研究  39-45
    4.7.1 数字波导网格参数的自动提取  39-43
    4.7.2 不同说话人GVTF 参数的比较  43-44
    4.7.3 不同信道下GVTF 的参数的比较  44-45
第五章基于数字波导网格参数和高斯混合模型的说话人识别  45-52
  5.1 识别特征提取  45-46
  5.2 高斯混合模型  46-49
    5.2.1 GMM 模型的参数估计  47-48
    5.2.2 GMM 模型的识别方法  48-49
  5.3 说话人识别实验  49-52
    5.3.1 实验描述  49-50
    5.3.2 实验结果与分析  50-52
第六章总结和展望  52-54
参考文献  54-57
攻读学位期间发表的学术论文  57-58
致谢  58-59

数字波导网格模型及语音网格参数估计

内容摘要

全文目录

相似论文