学位论文 > 优秀研究生学位论文题录展示

数字波导网格模型及语音网格参数估计

作 者: 颜宗岳
导 师: 赵鹤鸣
学 校: 苏州大学
专 业: 通信与信息系统
关键词: 数字波导网格模型 说话人识别 声门波 声道滤波器 高斯混合模型
分类号: TN912.3
类 型: 硕士论文
年 份: 2011年
下 载: 14次
引 用: 0次
阅 读: 论文下载
 

内容摘要


数字波导网格是一种精确描述说话人发音器官的声学模型,它最早应用于声音的合成。通过数字波导网格,人们能够合成出自然度更高的语音。从语音中估计出数字波导网格的参数,是当前研究的热点和难点。波导网格参数中包含了语音的内容、说话人的个性特征等诸多信息,因此,从语音中估计出精确的参数,在语音识别、说话人识别等研究方面有很重大的意义的。然而,目前的参数估计研究中,仍存在着许多问题,比如需要借助某些照相设备或者假设一些与真实状况不符的条件等等;核磁共振成像(MRI)技术的使用,人在发音时声门、声道的状态能够被更精确地观测到,但是实际操作起来难度很大。针对以上问题,本文做了以下几方面工作。一、根据语音产生的声学模型,详细介绍了一维数字波导模型,并在传统的离散化声道长度的模型上作了改进,合成了可变声道长度的语音,丰富了语音合成的理论。二、引入了声门声道滤波器(GVTF)的概念,比较了它和传统声道滤波器(VTF)的关系和区别。介绍了一种从元音中提取GVTF、VTF和声门波的算法,和传统的LPC参数做了比较。本文首次在数字波导网格模型的基础上提出了运用计算机程序自动提取GVTF参数的方法,并讨论了其作为说话人识别参数的可行性。实验证明,GVTF参数能够较好的反映说话人的个性特征。三、验证了提取到的参数的有效性。首次将提取到的GVTF参数应用于说话人识别,在相同的GMM识别模型下,与传统的MFCC参数作了比较。实验证明,随着信道的变化,GVTF参数比MFCC具有更高的识别率。

全文目录


摘要  4-5
Abstract  5-9
第一章 绪论  9-13
  1.1 数字波导网格的研究背景  9
  1.2 数字波导网格及其应用的研究现状  9-10
  1.3 本文的主要研究工作  10-11
  1.4 本文的章节安排  11-13
第二章 语音产生及其模型  13-18
  2.1 语音的产生  13-16
    2.1.1 肺部  13
    2.1.2 喉部  13-15
    2.1.3 声道  15-16
  2.2 语音产生模型  16-18
第三章 数字波导网格模型及在语音合成方面的应用  18-29
  3.1 数字波导网格的模型的提出  18
  3.2 语音的数字波导网格模型  18-22
    3.2.1 级联声管  18-20
    3.2.2 唇部边界条件  20-21
    3.2.3 声门边界条件  21-22
  3.3 数字波导网格的离散时间模型  22-24
    3.3.1 延时器与采样率的关系  22-23
    3.3.2 分数延时滤波器  23-24
  3.4 基于数字波导网格的语音合成  24-29
第四章 数字波导网格参数的估计  29-45
  4.1 声道转移函数  29-31
  4.2 GVTF 的参数估计  31-34
  4.3 声门相位的定位  34
  4.4 VTF 的参数估计  34-36
  4.5 声门波的提取  36
  4.6 数字波导网格参数提取的实验  36-39
  4.7 数字波导网格参数提取的改进研究  39-45
    4.7.1 数字波导网格参数的自动提取  39-43
    4.7.2 不同说话人GVTF 参数的比较  43-44
    4.7.3 不同信道下GVTF 的参数的比较  44-45
第五章 基于数字波导网格参数和高斯混合模型说话人识别  45-52
  5.1 识别特征提取  45-46
  5.2 高斯混合模型  46-49
    5.2.1 GMM 模型的参数估计  47-48
    5.2.2 GMM 模型的识别方法  48-49
  5.3 说话人识别实验  49-52
    5.3.1 实验描述  49-50
    5.3.2 实验结果与分析  50-52
第六章 总结和展望  52-54
参考文献  54-57
攻读学位期间发表的学术论文  57-58
致谢  58-59

相似论文

  1. 基于特征选择及其融合方法的说话人识别,TN912.34
  2. 高质量语音转换系统中关键技术的研究,TN912.3
  3. 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
  4. 多特征融合的视觉跟踪算法研究,TP391.41
  5. 复杂信道下的说话人识别技术,TN912.34
  6. 基于VC++6.0的说话人识别系统的研究,TN912.34
  7. 无线传感器网络中的追击者—逃跑者跟踪问题研究,TP212.9
  8. 基于混合特征和高斯混合模型的说话人识别研究,TN912.34
  9. 基于Windows CE的说话人识别系统的设计与实现,TN912.34
  10. 说话人识别中特征参数的提取及优化研究,TN912.34
  11. 基于文本无关的说话人识别研究,TN912.34
  12. 高斯混合模型及在探测网络社区结构中的应用,TP393.094
  13. 运动人体检测与异常行为识别技术研究与实现,TP391.41
  14. 面向智能视频监控的事件检测建模及优化,TP391.41
  15. 层析芯片阳性信号的信息提取和定量分析研究,TP391.41
  16. 虚拟人运动合成技术及其工程应用研究,TP391.41
  17. 多路并行实时说话人识别算法研究与实现,TN912.34
  18. 基于因子分析的说话人确认,TN912.34
  19. 关于若干回归模型的研究,O212.1
  20. 基于隐马尔科夫模型的股价走势预测,F830.91

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com