学位论文 > 优秀研究生学位论文题录展示

噪声环境下的语音识别技术研究

作　者: 龙潜
导　师: 孔凡让
学　校: 中国科学技术大学
专　业: 精密仪器及机械
关键词: 鲁棒语音识别特征提取隐马尔科夫模型排列熵最小方差无失真响应调制谱特征补偿现场可编程门阵列
分类号: TP391.42
类　型: 博士论文
年　份: 2007年
下　载: 1588次
引　用: 5次
阅　读: 论文下载

内容摘要

本论文以应用型语音控制技术为目标，以系统鲁棒性为研究重点，对噪声环境下嵌入式孤立词语音识别技术的各个主要方面作了深入探讨。通过对鲁棒语音识别问题进行系统的研究和实验，本文形成了一套完整的鲁棒语音识别研究体系，包括了实验平台、鲁棒端点检测算法、鲁棒特征提取算法、特征补偿算法、声学模型等关键部分，涵盖了鲁棒语音识别的全过程，获得了一些有意义的成果。所有研究成果都被完整地实现并在语音库上进行了验证，最终建立了一个完整的孤立词语音识别系统，包括语音库、软件程序、硬件实现、应用系统等，以此为基础可直接构建出一个实用的语音控制系统。上述这些研究成果具体主要包括以下几个方面：(1)语音识别实验系统建立了一个基于隐马尔科夫模型(Hidden Markov Model，HMM)的语音识别实验系统。针对孤立词语音识别的特点优化了系统中的HMM算法实现。给出了一套用于抗噪语音识别实验的选词方案，保证了实验的代表性。建立了完整的孤立词识别语音库和噪声库以及噪声度量标准，保证了实验的可重复性。(2)端点检测算法针对传统双门限端点检测算法在噪声环境下的不足之处，对算法细节作出了多处改进。首次将一种非线性动力学参数——排列熵(Permutation Entropy，PE)应用于噪声环境下的端点检测，提出了基于能频比和排列熵差分的双门限端点检测算法。在实验平台下与传统算法进行了对比实验，实验结果显示，提出的算法与传统算法相比，噪声鲁棒性更好，检测延时相当。(3)特征提取算法系统总结了目前常用的几种语音识别特征参数，特别是详细分析了线性预测编码(Linear Prediction Coding，LPC)特征和Mel频率倒谱系数(Mel Frequency Cepstral Coefficient，MFCC)特征的原理、优缺点和实现细节。针对LPC特征和MFCC特征的问题，将最小方差无失真响应(Minimum Variance Distortionless Response，MVDR)谱估计技术引入到语音特征提取中，使用这种技术得到的特征参数在某种程度上结合了上述两种主流特征参数的优点。针对语音信号的特点，给出了几种MVDR计算上的改进方法。最后通过实验对比了MVDR方法与其它方法的性能。(4)鲁棒语音识别技术全面研究了包括抗环境噪声、说话人自适应、信道自适应等在内的系统鲁棒性问题。提出了一种用于语音识别的鲁棒特征提取算法，这种算法基于MVDR谱估计技术，它在Mel频率尺度上估计MVDR谱，并对得到的MVDR谱进行调制谱滤波，然后提取其倒谱系数作为特征参数。在汽车噪声、人群噪声和高斯白噪声三种噪声环境下，与MVDR特征提取算法和MFCC特征提取算法按多种信噪比做了对比实验。实验结果表明使用该算法的系统在这三种噪声环境下的识别率均得到了不同程度的提高。(5)硬件实现问题针对孤立词语音识别算法的硬件实现问题，比较了通用处理器、数字信号处理器(Digital Signal Processog DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)等四种硬件实现方案，提出了一套基于FPGA的硬件实现方案。基于FPGA，针对孤立词语音识别算法，提出了完整的设计流程、设计方案和测试方案，并对每个模块的结构进行了详细说明。最后给出了外围电路的设计，从而完整地以硬件的方式实现了整个语音识别系统。

全文目录

摘要  5-7
ABSTRACT  7-13
第1章绪论  13-23
  1.1.研究背景与意义  13-15
  1.2.语音识别技术的研究与应用现状  15-17
  1.3.主要研究内容与技术路线  17-20
  1.4.内容结构安排  20-21
  1.5.论文的创新点  21-23
第2章基于HMM的语音识别实验系统  23-46
  2.1.引言  23-24
  2.2.统计语音识别的基本原理  24-27
    2.2.1.语音识别系统的构成  24-25
    2.2.2.统计语音识别的数学模型  25-26
    2.2.3.语音识别系统的性能评价  26-27
  2.3.HMM理论  27-36
    2.3.1.HMM的定义  27-30
    2.3.2.HMM的三个基本算法  30-36
  2.4.实验系统的实现  36-45
    2.4.1.基于HMM的孤立词语音识别系统  36-40
    2.4.2.语音库的建立  40-42
    2.4.3.语音与噪声的合成  42-45
  2.5.本章小结  45-46
第3章基于排列熵的端点检测  46-63
  3.1.引言  46-47
  3.2.传统的端点检测算法及其改进  47-54
    3.2.1.基于平均过零率和短时能量的检测算法  47-50
    3.2.2.一些改进及相应起止点识别结果  50-51
    3.2.3.短时能频值语音端点检测方法  51-53
    3.2.4.多门限法  53-54
  3.3.排列熵算法  54-57
    3.3.1.算法原理  55-56
    3.3.2.排列熵算法有效性验证  56-57
  3.4.排列熵在语音信号端点检测中的应用  57-62
    3.4.1.算法简介  58
    3.4.2.算法分析  58-60
    3.4.3.实验  60-62
  3.5.本章小结  62-63
第4章基于MVDR的特征提取  63-90
  4.1.引言  63
  4.2.基于LPC的特征参数  63-73
    4.2.1.语音信号的产生机理及其声学特征  64-65
    4.2.2.语音信号的离散时域模型  65-68
    4.2.3.LPC分析概述  68-73
  4.3.MFCC特征  73-79
    4.3.1.语音信号的倒谱分析  73-76
    4.3.2.Mel倒谱  76-78
    4.3.3.算法实现  78-79
  4.4.MVDR特征  79-89
    4.4.1.MVDR谱估计技术  79-82
    4.4.2.实现  82-86
    4.4.3.仿真实验  86-89
  4.5.本章小结  89-90
第5章鲁棒语音识别技术  90-105
  5.1.引言  90
  5.2.抗噪声语音识别技术  90-93
    5.2.1.声学环境的模型  91-92
    5.2.2.主要的抗噪声技术  92-93
  5.3.Mel频率最小方差调制谱  93-97
    5.3.1.在Mel频率尺度上计算MVDR谱  93-95
    5.3.2.调制谱滤波  95-96
    5.3.3.系统实现  96-97
  5.4.谱变换补偿技术  97-99
  5.5.实验  99-103
    5.5.1.实验系统的构造  99-100
    5.5.2.对λ和CCBC的研究  100-103
    5.5.3.实验结果  103
  5.6.本章小结  103-105
第6章基于FPGA的硬件实现  105-134
  6.1.引言  105-107
  6.2.FPGA原理  107-113
    6.2.1.FPGA结构  107-109
    6.2.2.FPGA的设计方法  109-113
  6.3.设计方案  113-125
    6.3.1.设计流程  113-115
    6.3.2.算法原理  115-116
    6.3.3.FPGA逻辑结构  116-117
    6.3.4.FPGA顶层物理结构  117-118
    6.3.5.主控制器结构  118-120
    6.3.6.运算器模块结构  120-122
    6.3.7.语音特征提取模块结构  122-123
    6.3.8.语音特征匹配模块结构  123-125
  6.4.应用系统的设计  125-133
    6.4.1.应用系统框图  125-126
    6.4.2.管脚说明  126-127
    6.4.3.典型工作过程  127-128
    6.4.4.控制时序  128-130
    6.4.5.电路实现  130-133
  6.5.本章小节  133-134
第7章总结与展望  134-137
  7.1.全文总结  134-136
  7.2.今后工作展望  136-137
参考文献  137-142
致谢  142-143
在读期间发表的学术论文与取得的研究成果  143

噪声环境下的语音识别技术研究

内容摘要

全文目录

相似论文