学位论文 > 优秀研究生学位论文题录展示

基于HTK的汉语连续语音识别系统的设计与实现

作 者: 饶耀全
导 师: 吴小培
学 校: 安徽大学
专 业: 计算机应用技术
关键词: 语音识别 HTK 隐马尔可夫模型 ATK 端点检测
分类号: TN912.34
类 型: 硕士论文
年 份: 2011年
下 载: 338次
引 用: 1次
阅 读: 论文下载
 

内容摘要


语音识别最直接的目的是让计算机听懂人说的话。经过半个多世纪的发展,语音识别理论已趋近成熟。大量的实验结果和实践操作证明,日前很多语音识别算法和识别模型非常有效。语音识别技术已被广泛应用于各行各业中。本文主要探究了语音识别理论在汉语连续语音识别中的应用。本文先介绍了语音识别系统的基本流程,语音信号处理的基本理论并且重点探讨了端点检测、特征参数提取的方法和原理。然后再从以下两方面对汉语连续语音识别的方法、原理进行深入的阐述:一方面从模式识别的研究角度,探讨了汉语语音的发音特点,提取了适合汉语语音识别的特征参数,训练了相应的语音识别模型,并且建立了汉语连续语音识别实验平台。本文基于隐马尔可夫模型(HMM)的连续语音训练和识别算法理论,结合美尔频率倒谱系数(MFCC)提取技术,单音素HMM建模技术,基于上下文相关的三音素HMM建模技术以及基于维特比算法的识别技术等一系列技术,利用隐马尔可夫模型工具箱(HTK)构建了基于HTK的连续语音识别实验平台。实验结果表明,随着HMM从单音素建模到三音素建模的转换,测试语句在语句级和字词级的识别率都呈增加的趋势,捆绑三音素后识别率达到稳定状态。语句级和字词级的识别率分别由开始的76.00%和90.67%提高到最后的96.00%和98.00%,识别效果非常理想。另一方面从语音识别软件开发的角度,设计和实现了汉语连续语音识别售票模拟系统。文中先介绍了HTK接口应用程序ATK (An Application Toolkit for HTK)的基本组成和基本原理,接着利用ATK在VS.NET平台上实现了汉语连续语音识别售票模拟系统,最后进行了相应的平台测试。测试结果表明它基本实现一个初级汉语语音识别售票系统的功能。

全文目录


摘要  3-4
Abstract  4-6
目录  6-9
第一章 绪论  9-14
  1.1 语音识别概述  9-11
    1.1.1 语音识别技术研究的意义  9
    1.1.2 语音识别技术研究的发展历史以及未来前景  9-10
    1.1.3 语音识别技术研究的难点  10-11
  1.2 汉语连续语音识别技术的研究价值  11-12
  1.3 本文所做的主要工作和结构安排  12-14
第二章 语音信号前端分析  14-36
  2.1 声学语音信号到数字语音信号的转化  14-15
    2.1.1 预滤波  14-15
    2.1.2 A/D变换  15
  2.2 语音信号的预处理  15-19
    2.2.1 预加重处理  15-16
    2.2.2 语音信号的分帧加窗  16-19
  2.3 语音信号的时域分析  19-21
    2.3.1 短时能量及短时平均幅度分析  19-20
    2.3.2 短时过零率  20
    2.3.3 短时相关分析  20-21
  2.4 复倒谱和倒谱  21-22
  2.5 特征参数提取  22-31
    2.5.1 LPCC特征参数  22-26
    2.5.2 MFCC特征参数  26-31
  2.6 端点检测  31-35
    2.6.1 基于过零率的端点检测  31-33
    2.6.2 基于能量的端点检测  33-35
  2.7 本章小结  35-36
第三章 连续语音识别应用中的隐马尔可夫模型  36-50
  3.1 隐马尔科夫模型的基本概念  36-38
    3.1.1 隐马尔可夫模型  36-37
    3.1.2 隐马尔可夫模型的基本元素  37-38
  3.2 隐马尔科夫模型的基本算法  38-43
    3.2.1 前向—后向算法  39-41
    3.2.2 维特比算法  41
    3.2.3 Baum-Welch算法  41-43
  3.3 连续型隐马尔科夫模型  43-46
    3.3.1 连续型隐马尔可夫模型基本定义  43-44
    3.3.2 连续型隐马尔可夫模型参数估计  44-46
  3.4 隐马尔科夫模型在连续语音识别应用中的一些问题  46-49
    3.4.1 下溢问题  46-47
    3.4.2 参数初始化问题  47-49
  3.5 本章小结  49-50
第四章 基于HTK的汉语连续语音识别系统的设计  50-64
  4.1 HTK的基本原理  50-52
  4.2 汉语连续语音识别系统的设计  52-63
    4.2.1 前期数据处理  52-55
    4.2.2 模型重估  55-60
    4.2.3 测试识别  60
    4.2.4 结论评估  60-63
  4.3 本章小结  63-64
第五章 基于HTK的汉语连续语音识别系统的实现  64-69
  5.1 ATK的基本原理  64-65
  5.2 汉语连续语音识别系统的实现  65-67
  5.3 本章小结  67-69
第六章 总结与展望  69-71
  6.1 全文总结  69-70
  6.2 工作展望  70-71
参考文献  71-75
致谢  75-76
攻读硕士学位期间发表论文  76

相似论文

  1. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  2. 网络语音传输丢包的恢复技术,TN912.3
  3. 领域实体属性及事件抽取技术研究,TP391.1
  4. 在智能手机环境下健康管理功能设计与研究,TN929.53
  5. 数字助听器中语音增强技术的研究,TN912.35
  6. 功率谱估计在宽带ADCP信号检测中的研究与应用,TN911.23
  7. 基于HMM的机器人语音识别系统的研究,TN912.34
  8. zigzag型石墨烯纳米带输运性质及其边界态研究,TB383.1
  9. 原子链吸附对石墨纳米带自旋输运的调控,O613.71
  10. 基于ACON/SVM/HMM混合算法的情感识别研究,TN912.34
  11. 基于DSP的机器人语音命令识别系统研制,TN912.34
  12. 基于多模式卫生信息网络门户的3G手机语音控制研究,TN929.53
  13. 基于HMM的分布式语音识别系统的研究与应用,TN912.34
  14. 异构无线Mesh网络切换机制研究,TN929.5
  15. 汉语普通话中双音节词水平测试系统的设计与研究,TN912.34
  16. 基于多平台的个性化词汇学习系统,H319
  17. 基于HMM的语音识别算法研究及FPGA上的硬件实现,TN912.34
  18. 基于语音结构化模型的连续数字语音识别,TN912.34
  19. 汉语连续语音声调及数字串识别系统的研究,TN912.34
  20. 基于USB Audio设备类的音频密钥系统设计,TP309.7
  21. 二维形状表示及分类方法研究,TP391.41

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com