学位论文 > 优秀研究生学位论文题录展示
基于动态贝叶斯网络的连续语音识别研究
作 者: 薛小燕
导 师: 张连海
学 校: 解放军信息工程大学
专 业: 军事情报学
关键词: 连续语音识别 动态贝叶斯网络 次音子DBN模型 控制层变化的次音子DBN模型 三音子DBN模型 离散噪声变量 隐马尔科夫模型
分类号: TN912.34
类 型: 硕士论文
年 份: 2010年
下 载: 95次
引 用: 0次
阅 读: 论文下载
内容摘要
隐马尔科夫模型(HMM)是一个简单、有效的统计模型,成功应用于语音识别中,但由于其建模时假设条件与实际不相符,很难描述出语音的动态特性。动态贝叶斯网络(DBN)具有易解释、易扩展、易分解的特性,具有很强的推理和学习能力,对语音时序性的建模能力强,可以更好地描述语音中的动态性。本文在研究DBN推理和学习方法的基础上,提出了四种基于动态贝叶斯网络(DBN)的连续语音识别改进模型,具体研究成果如下:(1)针对音子DBN模型中音子单元颗粒度大、区分性差,导致识别时插入错误多的问题,本文提出了一种次音子DBN模型。该模型首先将音子单元细分为次音子,在音子DBN模型上增加了次音子变量和次音子转移变量;然后通过分析确定了变量相关性的变化规律。因此次音子DBN模型可以更好地描述语音链多级结构的细节,实现对音子内部的动态变化性的精确建模。实验结果表明,与音子DBN模型相比,该模型较好地改善了连续语音识别系统的识别正确率和准确率。(2)针对大词汇量语音识别构建词转移变量决策树复杂度高,模型对词汇量缺乏适应性的问题,本文提出了一种控制层变化的次音子DBN模型。该模型在构建词典时为每一个词设定一个结束标记,相应地改变模型结构中词转移变量的父节点。词结束标记的设定减少了词中音子个数的差别所引起的差异性,降低了构建决策树的复杂度,训练和识别时参数读取的时间也相应减少。实验结果表明,该模型在不降低识别性能的情况下,在一定程度上提高了训练、识别的速度。(3)针对连续语音中普遍存在的协同发音现象,本文提出了一种新颖的三音子DBN模型。该模型在控制层变化的次音子DBN模型基础上,引入能较好地描述语音中上下文相关性的前后音子变量。由于三音子个数很多,采用了基于发音特点的判决树方法对不同的三音子进行聚类,确保三音子可以得到稳健的参数估计值。实验结果表明该模型可以提高大词汇量连续语音的识别性能。(4)针对训练环境和识别环境失配导致模型性能下降的问题,本文提出了一种引入离散噪声变量的DBN模型。该模型在DBN框架上引入一个离散噪声变量,该变量可以隐式地对不同信噪比的混合语音训练集进行分类训练。实验结果表明,该模型提高了DBN模型在不同信噪比环境的稳健性和适应性,可以有效改善混合训练集上识别器的识别性能。
|
全文目录
摘要 9-10 ABSTRACT 10-12 第一章 引言 12-24 1.1 连续语音识别系统概述 12-15 1.1.1 研究背景 12 1.1.2 关键技术 12-15 1.2 连续语音识别的发展现状 15-19 1.2.1 特征提取 15 1.2.2 声学模型 15-18 1.2.3 语言模型 18 1.2.4 搜索算法 18-19 1.3 基于DBN 的连续语音识别的发展现状 19-21 1.3.1 引入辅助变量的DBN 20 1.3.2 基于发音特征的DBN 20 1.3.3 多流DBN 20-21 1.4 论文的主要工作和组织安排 21-24 1.4.1 论文的研究内容 21 1.4.2 论文的结构安排 21-24 第二章 DBN 及DBN 推理和学习 24-36 2.1 DBN 的相关概念 24-25 2.2 BN 的推理 25-30 2.2.1 树状图推理 25-26 2.2.2 一般拓扑结构图的推理 26-30 2.3 DBN 推理 30-33 2.3.1 Frontier 算法 30-31 2.3.2 Interface 算法 31-33 2.3.3 Islands 算法 33 2.4 DBN 学习 33-35 2.5 小结 35-36 第三章 次音子DBN 语音识别模型 36-52 3.1 决策树 36 3.2 音子DBN 模型 36-41 3.2.1 交换父节点 36-37 3.2.2 模型结构及相关定义 37-38 3.2.3 控制层 38-40 3.2.4 观测层 40-41 3.3 次音子DBN 模型 41-43 3.3.1 次音子 41 3.3.2 模型结构及其参数 41-42 3.3.3 相关性变化的过程 42-43 3.4 控制层变化的次音子DBN 模型 43-44 3.4.1 模型结构及其参数 43 3.4.2 控制层变化后构建WT t 的决策树 43-44 3.5 三音子DBN 模型 44-46 3.5.1 三音子 44 3.5.2 模型结构及其参数 44-46 3.6 实验结果与性能分析 46-50 3.6.1 评价方法 46 3.6.2 MFCC 的提取 46-47 3.6.3 小词汇的连续语音识别的实验结果及分析 47-49 3.6.4 汉语的连续语音识别的实验结果及分析 49-50 3.7 小结 50-52 第四章 引入离散噪声变量的DBN 语音识别模型 52-61 4.1 辅助变量 52-53 4.1.1 标准信息与辅助信息 52 4.1.2 辅助噪声变量 52-53 4.2 引入离散噪声变量的词DBN 模型 53-54 4.3 其他引入离散噪声变量的DBN 模型 54-57 4.3.1 引入离散噪声变量的次音子DBN 模型 55 4.3.2 引入离散噪声变量的三音子DBN 模型 55-57 4.4 实验 57-60 4.4.1 词DBN 模型和次音子DBN 模型的识别性能 57-58 4.4.2 引入离散噪声变量的DBN 模型的识别性能 58-60 4.5 小结 60-61 结束语 61-63 参考文献 63-69 作者简历 攻读硕士学位期间完成的主要工作 69-70 致谢 70
|
相似论文
- 多传感器信息融合及其在可穿戴计算机上的应用,TP202
- 基于自适应的LVCSR系统半监督学习方法的研究,TN912.34
- 基于样本分析的贝叶斯网络动态建模,TP18
- 基于用户浏览路径的协同过滤推荐技术研究,TP393.092
- 基于HTK和Microsoft Speech SDK的连续语音识别系统的研究及实现,TP391.42
- 语音识别技术的研究及其在发音错误识别系统中的应用,TN912.34
- 基于飞行器的连续语音指令识别技术研究,TN912.34
- 小词汇量非特定人连续语音识别系统的研究,TN912.34
- 基于遗传算法和贝叶斯网的多时延基因调控网络构建研究,TP18
- 基于Sphinx的汉语连续语音识别,TN912.34
- 网络安全实时风险评估模型及其算法研究,TP393.08
- 基于动态贝叶斯网络的目标毁伤等级评估,TP18
- 基于因素化表示的强化学习方法研究,TP18
- 动态贝叶斯网络的近似推理算法研究,TP183
- 基于序贯贝叶斯方法的视频目标跟踪与行为识别,TP391.41
- 基于动态贝叶斯网络的评估模型研究及其在人力资源考核中的应用,TP183
- 面向连续语音识别的半监督学习方法的研究,TN912.34
- 基于基因芯片数据的基因调控网络的重构及其疾病学应用,TP18
- 基于Bayesian的基因调控网络的研究,Q78
- 动态贝叶斯网络在水文预报中的应用,TV124
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com
|