学位论文 > 优秀研究生学位论文题录展示

基于动态贝叶斯网络的连续语音识别研究

作 者: 薛小燕
导 师: 张连海
学 校: 解放军信息工程大学
专 业: 军事情报学
关键词: 连续语音识别 动态贝叶斯网络 次音子DBN模型 控制层变化的次音子DBN模型 三音子DBN模型 离散噪声变量 隐马尔科夫模型
分类号: TN912.34
类 型: 硕士论文
年 份: 2010年
下 载: 95次
引 用: 0次
阅 读: 论文下载
 

内容摘要


隐马尔科夫模型(HMM)是一个简单、有效的统计模型,成功应用于语音识别中,但由于其建模时假设条件与实际不相符,很难描述出语音的动态特性。动态贝叶斯网络(DBN)具有易解释、易扩展、易分解的特性,具有很强的推理和学习能力,对语音时序性的建模能力强,可以更好地描述语音中的动态性。本文在研究DBN推理和学习方法的基础上,提出了四种基于动态贝叶斯网络(DBN)的连续语音识别改进模型,具体研究成果如下:(1)针对音子DBN模型中音子单元颗粒度大、区分性差,导致识别时插入错误多的问题,本文提出了一种次音子DBN模型。该模型首先将音子单元细分为次音子,在音子DBN模型上增加了次音子变量和次音子转移变量;然后通过分析确定了变量相关性的变化规律。因此次音子DBN模型可以更好地描述语音链多级结构的细节,实现对音子内部的动态变化性的精确建模。实验结果表明,与音子DBN模型相比,该模型较好地改善了连续语音识别系统的识别正确率和准确率。(2)针对大词汇量语音识别构建词转移变量决策树复杂度高,模型对词汇量缺乏适应性的问题,本文提出了一种控制层变化的次音子DBN模型。该模型在构建词典时为每一个词设定一个结束标记,相应地改变模型结构中词转移变量的父节点。词结束标记的设定减少了词中音子个数的差别所引起的差异性,降低了构建决策树的复杂度,训练和识别时参数读取的时间也相应减少。实验结果表明,该模型在不降低识别性能的情况下,在一定程度上提高了训练、识别的速度。(3)针对连续语音中普遍存在的协同发音现象,本文提出了一种新颖的三音子DBN模型。该模型在控制层变化的次音子DBN模型基础上,引入能较好地描述语音中上下文相关性的前后音子变量。由于三音子个数很多,采用了基于发音特点的判决树方法对不同的三音子进行聚类,确保三音子可以得到稳健的参数估计值。实验结果表明该模型可以提高大词汇量连续语音的识别性能。(4)针对训练环境和识别环境失配导致模型性能下降的问题,本文提出了一种引入离散噪声变量的DBN模型。该模型在DBN框架上引入一个离散噪声变量,该变量可以隐式地对不同信噪比的混合语音训练集进行分类训练。实验结果表明,该模型提高了DBN模型在不同信噪比环境的稳健性和适应性,可以有效改善混合训练集上识别器的识别性能。

全文目录


摘要  9-10
ABSTRACT  10-12
第一章 引言  12-24
  1.1 连续语音识别系统概述  12-15
    1.1.1 研究背景  12
    1.1.2 关键技术  12-15
  1.2 连续语音识别的发展现状  15-19
    1.2.1 特征提取  15
    1.2.2 声学模型  15-18
    1.2.3 语言模型  18
    1.2.4 搜索算法  18-19
  1.3 基于DBN 的连续语音识别的发展现状  19-21
    1.3.1 引入辅助变量的DBN  20
    1.3.2 基于发音特征的DBN  20
    1.3.3 多流DBN  20-21
  1.4 论文的主要工作和组织安排  21-24
    1.4.1 论文的研究内容  21
    1.4.2 论文的结构安排  21-24
第二章 DBN 及DBN 推理和学习  24-36
  2.1 DBN 的相关概念  24-25
  2.2 BN 的推理  25-30
    2.2.1 树状图推理  25-26
    2.2.2 一般拓扑结构图的推理  26-30
  2.3 DBN 推理  30-33
    2.3.1 Frontier 算法  30-31
    2.3.2 Interface 算法  31-33
    2.3.3 Islands 算法  33
  2.4 DBN 学习  33-35
  2.5 小结  35-36
第三章 次音子DBN 语音识别模型  36-52
  3.1 决策树  36
  3.2 音子DBN 模型  36-41
    3.2.1 交换父节点  36-37
    3.2.2 模型结构及相关定义  37-38
    3.2.3 控制层  38-40
    3.2.4 观测层  40-41
  3.3 次音子DBN 模型  41-43
    3.3.1 次音子  41
    3.3.2 模型结构及其参数  41-42
    3.3.3 相关性变化的过程  42-43
  3.4 控制层变化的次音子DBN 模型  43-44
    3.4.1 模型结构及其参数  43
    3.4.2 控制层变化后构建WT t 的决策树  43-44
  3.5 三音子DBN 模型  44-46
    3.5.1 三音子  44
    3.5.2 模型结构及其参数  44-46
  3.6 实验结果与性能分析  46-50
    3.6.1 评价方法  46
    3.6.2 MFCC 的提取  46-47
    3.6.3 小词汇的连续语音识别的实验结果及分析  47-49
    3.6.4 汉语的连续语音识别的实验结果及分析  49-50
  3.7 小结  50-52
第四章 引入离散噪声变量的DBN 语音识别模型  52-61
  4.1 辅助变量  52-53
    4.1.1 标准信息与辅助信息  52
    4.1.2 辅助噪声变量  52-53
  4.2 引入离散噪声变量的词DBN 模型  53-54
  4.3 其他引入离散噪声变量的DBN 模型  54-57
    4.3.1 引入离散噪声变量的次音子DBN 模型  55
    4.3.2 引入离散噪声变量的三音子DBN 模型  55-57
  4.4 实验  57-60
    4.4.1 词DBN 模型和次音子DBN 模型的识别性能  57-58
    4.4.2 引入离散噪声变量的DBN 模型的识别性能  58-60
  4.5 小结  60-61
结束语  61-63
参考文献  63-69
作者简历 攻读硕士学位期间完成的主要工作  69-70
致谢  70

相似论文

  1. 多传感器信息融合及其在可穿戴计算机上的应用,TP202
  2. 基于自适应的LVCSR系统半监督学习方法的研究,TN912.34
  3. 基于样本分析的贝叶斯网络动态建模,TP18
  4. 基于用户浏览路径的协同过滤推荐技术研究,TP393.092
  5. 基于HTK和Microsoft Speech SDK的连续语音识别系统的研究及实现,TP391.42
  6. 语音识别技术的研究及其在发音错误识别系统中的应用,TN912.34
  7. 基于飞行器的连续语音指令识别技术研究,TN912.34
  8. 小词汇量非特定人连续语音识别系统的研究,TN912.34
  9. 基于遗传算法和贝叶斯网的多时延基因调控网络构建研究,TP18
  10. 基于Sphinx的汉语连续语音识别,TN912.34
  11. 网络安全实时风险评估模型及其算法研究,TP393.08
  12. 基于动态贝叶斯网络的目标毁伤等级评估,TP18
  13. 基于因素化表示的强化学习方法研究,TP18
  14. 动态贝叶斯网络的近似推理算法研究,TP183
  15. 基于序贯贝叶斯方法的视频目标跟踪与行为识别,TP391.41
  16. 基于动态贝叶斯网络的评估模型研究及其在人力资源考核中的应用,TP183
  17. 面向连续语音识别的半监督学习方法的研究,TN912.34
  18. 基于基因芯片数据的基因调控网络的重构及其疾病学应用,TP18
  19. 基于Bayesian的基因调控网络的研究,Q78
  20. 动态贝叶斯网络在水文预报中的应用,TV124

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com