学位论文 > 优秀研究生学位论文题录展示
语音识别系统中特征提取和声学建模的研究
作 者: 赵明明
导 师: 王洪春
学 校: 重庆师范大学
专 业: 系统分析与集成
关键词: 语音识别 改良MFCC RPCC 非齐次半连续隐式马尔可夫模型(NSCHMM)
分类号: TN912.34
类 型: 硕士论文
年 份: 2012年
下 载: 213次
引 用: 0次
阅 读: 论文下载
内容摘要
语音识别基本过程包括预处理、语音增强和语音消噪、语音分割、各类识别特征的提取、语音识别的声学模型、语音识别的语言学模型等几个部分。本文对上述过程进行了详细介绍,并对特征提取和声学模型进行了重点研究。本文分析了语音增强和消噪的一般方法,讨论了采用建立实时在线噪声数据库来提升语音增强和消除噪声的思路;介绍了语音识别中端点检测的方法和重要作用。详细归纳了各种特征参数,以及其提取方法和在语音识别中发挥的作用。重点分析了两种对美尔频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)的改良的特征参数提取方法。一种名为Bark子波美尔频谱倒谱系数(BarkMFCC,BMFCC),它将Bark子波变换嵌入到MFCC参数提取的过程中,比普通MFCC参数更准确的描述语音信号这种快速变化而又短时平稳性信号的频谱特征。另一种名为临频带小波变换美尔频谱倒谱系数(Critical Frequency Band andWavelet Transform MFCC,WMFCC),提取此参数时采用小波变换依照听觉临频带来构建新的更能准确反映人耳听觉的新型虑波器组来代替原来滤波器组的方法,相比MFCC参数的美尔频谱组成的听觉滤波器组,依照听觉临频带构建的小波滤波器组能更好的反映人耳耳蜗的工作机制。在对特征参数提取进行大量研究的基础上,提出了一种新型的特征参数,线性预测残差相位倒谱系数(Linear PredictiveResidual Phase Cepstrum Coefficients,RPCC), RPCC在提取的过程中将残差相位特征以线性叠加的方式与LPCC参数进行融合,改善了线性预测倒谱系数(LinearPredictive Cepstral Coding,LPCC)在反映各语音基元差别的不足,随后的实验证明了此参数的有效性。在声学模型方面,本文详细分析了各型的隐马尔可夫模型。并在分析对比现有的声学模型的基础上,提出了一种新型的声学识别模型,非齐次半连续隐马尔可夫模型(Nonhomogeneous Semi-continuous Hidden Markov Model,NSCHMM)。此模型与标准隐式马尔可夫模型相比,不仅比较准确的描述了观测量,而且改善了对马尔可夫链状态的描述。NSCHMM模型与齐次HMM对每个观测量都用高斯分布完全描述不同,采用特征向量共享的方式描述观测量,简化了模型;与齐次HMM采用几何分布描述内部隐含状态的段长分布不同,采用高斯分布来描述内部隐含状态的段长分布。通过对语音资料的驻留概率统计表明,语音的驻留概率并非几何分布形式,而是更接近于高斯分布、均匀分布等。因此采用高斯分布来描述内部隐含状态段长分布的NSCHMM相比用几何分布的齐次HMM更适合用于语音识别。在随后的与齐次HMM的连续语音识别实验中也证明了此模型的有效性。考虑到HMM类模型对易混语音识别存在先天缺陷,文章的最后也讨论了NSCHMM模型与支持向量机组成两级决策语音识别系统的思路。并分析了NSCHMM与基于置信度和采用改进的动态时间规整有向无环一分多支持向量机(DWT支持向量机)的联合作为声学识别模型的应用前景。
|
全文目录
摘要 5-7 ABSTRACT 7-11 1 引言 11-15 1.1 语音识别发展状况 11-12 1.2 语音识别急待解决的问题 12-13 1.3 本文主要工作和论文安排 13-15 2 语音识别基本过程 15-42 2.1 语音识别前期处理 15-20 2.1.1 纯净语音信号的提取 15-18 2.1.2 识别基元的精确端点检测 18-20 2.2 各类型特征参数及其提取办法 20-23 2.3 两种改良 MFCC 特征参数以及提取方法 23-30 2.3.1 MBFCC 特征参数以及其提取方法 23-27 2.3.2 临频带小波变换改良的 ZWFCC 的提取 27-30 2.4 语音识别中的声学模型 30-42 2.4.1 HMM 模型极其衍生模型 31-38 2.4.2 支持向量机模型及其应用 38-40 2.4.3 以上两种模型的性能局限 40-42 3 特征参数 RPCC 和声学模型 NSCHMM 42-51 3.1 线性相位残差 RPCC 特征参数 42-44 3.2 NSCHMM 模型 44-49 3.2.1 NSCHMM 模型拓扑结构 45 3.2.2 NSCHMM 的观测概率描述 45-46 3.2.3 NSCHMM 的状态转移概率描述 46-49 3.3 模型与 SVM 混合式声学模型的探讨 49-51 4 实验 51-53 4.1 RPCC 特征参数的实验 51-52 4.2 NSCHMM 语音识别模型的实验 52-53 5 总结与展望 53-54 5.1 论文的主要工作 53 5.2 下一步工作展望 53-54 参考文献 54-58 附录 A:作者攻读硕士学位期间发表论文及科研情况 58-59 附录 B:语音信号 RPCC 求解主要程序 59-62 附录 C:基于 NSCHMM 声音模型的语音识别主要程序 62-66 致谢 66
|
相似论文
- 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
- 基于DSP的机器人语音命令识别系统研制,TN912.34
- 在智能手机环境下健康管理功能设计与研究,TN929.53
- 基于ARM9的孤立词语音识别系统设计,TN912.34
- 语音识别技术研究与实现,TN912.34
- 车载汉语语音控制命令识别算法的研究,U463.6
- 基于分段概率模型语音识别算法的SOPC实现,TN47
- 车载多媒体语音识别系统设计,TN912.34
- 家庭监护机器人关键技术的研究与实现,TP242
- 基于SPCE061A单片机的数控机床控制系统的设计与实现,TG659
- 移动音视频交互业务执行平台的研究,TN915.09
- 基于动态贝叶斯网络的连续语音识别研究,TN912.34
- 基于STRAIGHT谱的语音识别算法研究,TN912.34
- 基于切分的汉语连续语音识别技术研究,TN912.34
- 基于语音识别的机器人控制技术的研究,TP242
- 基于DSP的助残智能语音识别及控制系统,TN912.34
- 基于快速沃尔什变换的藏语音识别技术,TN912.34
- 基于OMAP5912的嵌入式语音识别引擎的研究,TN912.34
- 支持向量机在语音识别中的应用研究,TN912.34
- 语音识别算法及其在嵌入式中的应用,TN912.34
- 基于语音控制的电动小车的设计,TP273
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com
|