学位论文 > 优秀研究生学位论文题录展示

听觉特性与鲁棒语音识别算法研究

作 者: 孙暐
导 师: 吴镇扬
学 校: 东南大学
专 业: 信号与信息处理
关键词: 语音识别 听觉分析 隐马尔可夫模型 估计准则 同步分析 异步分析 环境映射 判决函数
分类号: TN912.34
类 型: 博士论文
年 份: 2006年
下 载: 766次
引 用: 2次
阅 读: 论文下载
 

内容摘要


语音识别技术了开创人机交互的新纪元,它被广泛应用于工业、军事、商业、金融、服务、医疗、日常生活等很多领域。在实际应用中,由于环境不匹配,导致识别系统的性能急剧恶化。因而,语音识别的环境鲁棒性成为目前鲁棒语音识别研究的热点和难点。论文先后研究了目前语音识别以及鲁棒语音识别技术、人耳的听觉特性、语音识别中采用的估计准则、噪声环境对语音识别影响的途径,并根据人耳的感知特性、不同频带信号及噪声的功率谱差异,以及噪声对不同频带识别模型影响的不同,先后采用不同的模型框架、估计准则、匹配方法、可信度信息分析,提出多种鲁棒语音识别算法,改进了现有的鲁棒语音识别算法。模型分析与补偿技术是目前噪声环境下鲁棒语音识别研究的重要途径。在大量的理论分析与研究的基础上,论文研究了基于Fletcher-Allen规则的子带框架下的语音识别算法。提出了并行子带HMM最大后验概率自适应非线性类估计算法和非线性最大后验统计匹配鲁棒语音识别算法。在并行子带HMM最大后验概率自适应非线性类估计算法中提出了MAP估计、环境映射以及BP网络联合做非线性映射分类的方法。该算法在信号信息可信度上采用了信噪比分析,算法中还提出了有效反映噪声环境的先验信息估计方法。在非线性最大后验统计匹配算法中,提出了依信噪比进行MAP统计匹配并联合非线性映射进行分类的算法。实验表明,研究获得了不同程度识别性能的改进。基于听觉特性流组合的研究,论文研究了基于噪声污染假定的多带鲁棒语音识别算法。论文研究了多带异步处理模式下的鲁棒语音识别算法。首先,论文提出了多带最大似然鲁棒语音识别算法。该算法提出基于多带模式进行最大似然估计以及线性判别分析或联合信噪比及模型近似度判决分析的鲁棒语音识别方法。论文根据多带分析的特点,还提出了判决多带最大后验多变换算法以及它的简化算法(平均估计和JamesStein估计)。该算法采用多带处理、判别分析、MAP估计,以及信息多变换等,从多种角度提取识别信息获得了非常好的性能。论文还提出了联合信噪比和模型近似度判别分析的思想和具体处理方法,并对提出的几种可靠信息合并准则进行了比较实验。研究表明,鲁棒语音识别应该是基于可信信息抽取的,也就是说不同频带信号的处理模式应该是同步、异步交织进行。为此,论文在前面多带异步处理的基础上,提出了多带同步鲁棒语音识别算法,可以看到同步信息的利用可以大大简化模型。然后综合同步、异步问题的研究,提出了同步-异步语音识别模型,并联合对语音信号随机删除下语音识别性能的分析,研究了时变-频变噪声环境下的基于信噪比可信度判决的迭代识别结构。论文中大量的理论分析和仿真实验比较表明,根据听觉感知中表现的频率特性、信号及

全文目录


摘要  5-7
ABSTRACT  7-11
第一章 绪论  11-21
  1.1 引言  11-12
  1.2 语音识别技术的研究和发展  12-15
  1.3 鲁棒语音识别  15-17
    1.3.1 鲁棒语音识别的难点  15-16
    1.3.2 鲁棒语音识别研究的方法  16-17
  1.4 听觉特性的研究与环境鲁棒性  17-18
  1.5 本论文的主要工作和安排  18-21
第二章 统计语音识别的基本原理与鲁棒语音识别  21-41
  2.1 语音识别技术的分析模型  21-23
  2.2 语音识别的统计模型研究  23-30
    2.2.1 隐马尔可夫模型  23-26
    2.2.2 动态贝叶斯网  26-28
    2.2.3 随机轨迹模型与段模型  28-30
  2.3 噪声环境下的鲁棒语音识别  30-39
    2.3.1 噪声环境下鲁棒语音识别方法的研究  30-36
    2.3.2 环境对语音影响的研究  36-39
  2.4 本章小结  39-41
第三章 听觉特性的研究与识别估计准则分析  41-53
  3.1 听觉感知系统的研究  41-45
    3.1.1 人耳的听觉感知机理  41-42
    3.1.2 生理听觉特性在语音识别中的应用研究  42-45
  3.2 听觉特性的研究  45-49
    3.2.1 声音流的时差-频差分组现象  45-47
    3.2.2 听觉特性的频率选择性  47-48
    3.2.3 噪声环境下的听觉现象  48-49
  3.3 估计准则的研究与讨论  49-52
    3.3.1 贝叶斯估计理论  49-50
    3.3.2 最小均方误差  50
    3.3.3 最大似然  50
    3.3.4 最大后验  50-51
    3.3.5 最大互信息  51
    3.3.6 最小判别信息  51-52
    3.3.7 最小分类误差  52
  3.4 本章小结  52-53
第四章 基于Fletcher-Allen 规则的子带鲁棒语音识别算法  53-79
  4.1 噪声对不同频带信号的影响  53
  4.2 高斯模型下噪声影响的研究  53-60
  4.3 Fletcher-Allen 感知理论  60-61
  4.4 子带鲁棒语音识别算法  61-78
    4.4.1 子带算法理论性能分析  61-62
    4.4.2 并行子带HMM 最大后验概率自适应非线性类估计算法  62-72
    4.4.3 非线性最大后验统计匹配  72-78
  4.5 本章小结  78-79
第五章 多带鲁棒语音识别算法研究  79-101
  5.1 多带分析的理论基础  79-80
  5.2 多带异步分析  80-93
    5.2.1 多带异步分析的理论性能优势分析  80-81
    5.2.2 多带最大似然鲁棒语音识别算法  81-87
    5.2.3 基于判决合并的多带最大后验多变换算法  87-91
    5.2.4 合并函数的分析比较  91-93
  5.3 同步多带系统模型  93-97
    5.3.1 同步多带识别模型分析  93-95
    5.3.2 仿真实验与结果分析  95-97
  5.4 同步—异步分析模型  97-99
  5.5 本章小结  99-101
第六章 总结与展望  101-104
  6.1 全文总结  101-102
  6.2 展望  102-104
作者在博士期间的研究成果  104-105
致谢  105-107
后记  107-108
参考文献  108-116

相似论文

  1. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  2. 基于DSP的机器人语音命令识别系统研制,TN912.34
  3. 在智能手机环境下健康管理功能设计与研究,TN929.53
  4. 移动音视频交互业务执行平台的研究,TN915.09
  5. 呼叫中心IVR系统的设计与实现,TN99
  6. 基于HMM的机器人语音识别系统的研究,TN912.34
  7. 基于改进MFCC的语音识别系统研究及设计,TN912.34
  8. 仿真机器人控制系统,TP242
  9. 基于VoiceXML的语音智能交互平台的研究与实现,TP311.52
  10. 基于词片网格的语音文档主题分类,TN912.3
  11. 基于HMM和PNN的混合语音识别模型研究,TN912.34
  12. 移动机器人语音识别控制仿真系统的设计与实现,TN912.34
  13. 基于动态贝叶斯网络的连续语音识别研究,TN912.34
  14. 基于STRAIGHT谱的语音识别算法研究,TN912.34
  15. 面向机器人对话的语音识别关键技术的研究,TN912.34
  16. 基于自适应的LVCSR系统半监督学习方法的研究,TN912.34
  17. 汉语语音识别中语言模型的并行优化,TN912.34
  18. 基于双自由度自适应轮系多功能代步车,U489
  19. 基于切分的汉语连续语音识别技术研究,TN912.34
  20. 基于支持向量机的民族语语种识别研究,TN912.34
  21. 基于音素的错误发音自动检测方法研究与应用,TN912.34

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com