学位论文 > 优秀研究生学位论文题录展示
噪声环境下的语音识别技术研究
作 者: 龙潜
导 师: 孔凡让
学 校: 中国科学技术大学
专 业: 精密仪器及机械
关键词: 鲁棒语音识别 特征提取 隐马尔科夫模型 排列熵 最小方差无失真响应 调制谱 特征补偿 现场可编程门阵列
分类号: TP391.42
类 型: 博士论文
年 份: 2007年
下 载: 1588次
引 用: 5次
阅 读: 论文下载
内容摘要
本论文以应用型语音控制技术为目标,以系统鲁棒性为研究重点,对噪声环境下嵌入式孤立词语音识别技术的各个主要方面作了深入探讨。通过对鲁棒语音识别问题进行系统的研究和实验,本文形成了一套完整的鲁棒语音识别研究体系,包括了实验平台、鲁棒端点检测算法、鲁棒特征提取算法、特征补偿算法、声学模型等关键部分,涵盖了鲁棒语音识别的全过程,获得了一些有意义的成果。所有研究成果都被完整地实现并在语音库上进行了验证,最终建立了一个完整的孤立词语音识别系统,包括语音库、软件程序、硬件实现、应用系统等,以此为基础可直接构建出一个实用的语音控制系统。上述这些研究成果具体主要包括以下几个方面:(1)语音识别实验系统建立了一个基于隐马尔科夫模型(Hidden Markov Model,HMM)的语音识别实验系统。针对孤立词语音识别的特点优化了系统中的HMM算法实现。给出了一套用于抗噪语音识别实验的选词方案,保证了实验的代表性。建立了完整的孤立词识别语音库和噪声库以及噪声度量标准,保证了实验的可重复性。(2)端点检测算法针对传统双门限端点检测算法在噪声环境下的不足之处,对算法细节作出了多处改进。首次将一种非线性动力学参数——排列熵(Permutation Entropy,PE)应用于噪声环境下的端点检测,提出了基于能频比和排列熵差分的双门限端点检测算法。在实验平台下与传统算法进行了对比实验,实验结果显示,提出的算法与传统算法相比,噪声鲁棒性更好,检测延时相当。(3)特征提取算法系统总结了目前常用的几种语音识别特征参数,特别是详细分析了线性预测编码(Linear Prediction Coding,LPC)特征和Mel频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)特征的原理、优缺点和实现细节。针对LPC特征和MFCC特征的问题,将最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)谱估计技术引入到语音特征提取中,使用这种技术得到的特征参数在某种程度上结合了上述两种主流特征参数的优点。针对语音信号的特点,给出了几种MVDR计算上的改进方法。最后通过实验对比了MVDR方法与其它方法的性能。(4)鲁棒语音识别技术全面研究了包括抗环境噪声、说话人自适应、信道自适应等在内的系统鲁棒性问题。提出了一种用于语音识别的鲁棒特征提取算法,这种算法基于MVDR谱估计技术,它在Mel频率尺度上估计MVDR谱,并对得到的MVDR谱进行调制谱滤波,然后提取其倒谱系数作为特征参数。在汽车噪声、人群噪声和高斯白噪声三种噪声环境下,与MVDR特征提取算法和MFCC特征提取算法按多种信噪比做了对比实验。实验结果表明使用该算法的系统在这三种噪声环境下的识别率均得到了不同程度的提高。(5)硬件实现问题针对孤立词语音识别算法的硬件实现问题,比较了通用处理器、数字信号处理器(Digital Signal Processog DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)等四种硬件实现方案,提出了一套基于FPGA的硬件实现方案。基于FPGA,针对孤立词语音识别算法,提出了完整的设计流程、设计方案和测试方案,并对每个模块的结构进行了详细说明。最后给出了外围电路的设计,从而完整地以硬件的方式实现了整个语音识别系统。
|
全文目录
摘要 5-7 ABSTRACT 7-13 第1章 绪论 13-23 1.1.研究背景与意义 13-15 1.2.语音识别技术的研究与应用现状 15-17 1.3.主要研究内容与技术路线 17-20 1.4.内容结构安排 20-21 1.5.论文的创新点 21-23 第2章 基于HMM的语音识别实验系统 23-46 2.1.引言 23-24 2.2.统计语音识别的基本原理 24-27 2.2.1.语音识别系统的构成 24-25 2.2.2.统计语音识别的数学模型 25-26 2.2.3.语音识别系统的性能评价 26-27 2.3.HMM理论 27-36 2.3.1.HMM的定义 27-30 2.3.2.HMM的三个基本算法 30-36 2.4.实验系统的实现 36-45 2.4.1.基于HMM的孤立词语音识别系统 36-40 2.4.2.语音库的建立 40-42 2.4.3.语音与噪声的合成 42-45 2.5.本章小结 45-46 第3章 基于排列熵的端点检测 46-63 3.1.引言 46-47 3.2.传统的端点检测算法及其改进 47-54 3.2.1.基于平均过零率和短时能量的检测算法 47-50 3.2.2.一些改进及相应起止点识别结果 50-51 3.2.3.短时能频值语音端点检测方法 51-53 3.2.4.多门限法 53-54 3.3.排列熵算法 54-57 3.3.1.算法原理 55-56 3.3.2.排列熵算法有效性验证 56-57 3.4.排列熵在语音信号端点检测中的应用 57-62 3.4.1.算法简介 58 3.4.2.算法分析 58-60 3.4.3.实验 60-62 3.5.本章小结 62-63 第4章 基于MVDR的特征提取 63-90 4.1.引言 63 4.2.基于LPC的特征参数 63-73 4.2.1.语音信号的产生机理及其声学特征 64-65 4.2.2.语音信号的离散时域模型 65-68 4.2.3.LPC分析概述 68-73 4.3.MFCC特征 73-79 4.3.1.语音信号的倒谱分析 73-76 4.3.2.Mel倒谱 76-78 4.3.3.算法实现 78-79 4.4.MVDR特征 79-89 4.4.1.MVDR谱估计技术 79-82 4.4.2.实现 82-86 4.4.3.仿真实验 86-89 4.5.本章小结 89-90 第5章 鲁棒语音识别技术 90-105 5.1.引言 90 5.2.抗噪声语音识别技术 90-93 5.2.1.声学环境的模型 91-92 5.2.2.主要的抗噪声技术 92-93 5.3.Mel频率最小方差调制谱 93-97 5.3.1.在Mel频率尺度上计算MVDR谱 93-95 5.3.2.调制谱滤波 95-96 5.3.3.系统实现 96-97 5.4.谱变换补偿技术 97-99 5.5.实验 99-103 5.5.1.实验系统的构造 99-100 5.5.2.对λ和CCBC的研究 100-103 5.5.3.实验结果 103 5.6.本章小结 103-105 第6章 基于FPGA的硬件实现 105-134 6.1.引言 105-107 6.2.FPGA原理 107-113 6.2.1.FPGA结构 107-109 6.2.2.FPGA的设计方法 109-113 6.3.设计方案 113-125 6.3.1.设计流程 113-115 6.3.2.算法原理 115-116 6.3.3.FPGA逻辑结构 116-117 6.3.4.FPGA顶层物理结构 117-118 6.3.5.主控制器结构 118-120 6.3.6.运算器模块结构 120-122 6.3.7.语音特征提取模块结构 122-123 6.3.8.语音特征匹配模块结构 123-125 6.4.应用系统的设计 125-133 6.4.1.应用系统框图 125-126 6.4.2.管脚说明 126-127 6.4.3.典型工作过程 127-128 6.4.4.控制时序 128-130 6.4.5.电路实现 130-133 6.5.本章小节 133-134 第7章 总结与展望 134-137 7.1.全文总结 134-136 7.2.今后工作展望 136-137 参考文献 137-142 致谢 142-143 在读期间发表的学术论文与取得的研究成果 143
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
- 红外图像目标识别及跟踪技术研究,TP391.41
- 水下目标特征的压缩与融合技术研究,TN911.7
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 声音识别及其装置
© 2012 www.xueweilunwen.com
|