学位论文 > 优秀研究生学位论文题录展示

语音识别技术的研究及其在发音错误识别系统中的应用

作　者: 孙望
导　师: 陈兵
学　校: 南京航空航天大学
专　业: 计算机应用技术
关键词: 连续语音识别 HMM Beam剪枝搜索算法自适应裁剪门限语音合成 SAPI
分类号: TN912.34
类　型: 硕士论文
年　份: 2008年
下　载: 167次
引　用: 0次
阅　读: 论文下载

内容摘要

二十世纪五十年代以来,语音识别的技术发展迅速。作为一门交叉学科,语音识别己经形成了完整的理论体系,基于PC平台的语音识别系统的研究也在技术上获得了一些成功。尽管目前各种各样的语音识别产品相继涌现,但在许多特定领域,由于其环境的特殊性,往往需要专门开发,以适应实际需要。因此,针对英语学习过程中,学习者往往缺乏标准且有效的口语训练的问题,设计并实现了一套具有示范、评分、报错功能的发音错误识别系统。首先,本文根据语音识别系统的基本构成模型,介绍了预处理、特征参数提取到模型的训练与匹配所涉及的数字信号处理、模式识别等方面的基本技术。其次,介绍了连续语音识别搜索算法的基本原理,对常用的基于动态规划思想的Beam剪枝搜索算法进行了深入研究,分析了该算法的不足,从两方面对Beam剪枝搜索算法进行了改进:使用自适应的裁剪门限代替固定的裁剪门限,提出了基于活动模型数变化的状态层自适应剪枝搜索算法,根据搜索初期阶段模型最少驻留帧数和活动模型数变化的关系自适应的改变裁剪门限;另一方面,提出了基于当前搜索路径的最高概率得分和平均概率得分变化的词层自适应剪枝搜索算法。最后将状态层和词层相结合的自适应剪枝算法与语音识别引擎相结合,利用SAPI接口调用优化后的语音识别引擎来完成了发音错误系统的设计与开发。实现了语音合成、语音识别和评分报错功能,并给出具体的工作流程和实现的关键代码。测试结果表明本系统较好地满足了连续语音识别的要求,学习者经过训练之后,其识别率可以达到81.2%,这也验证了状态层和词层相结合的自适应剪枝算法是可行的。

全文目录

摘要  4-5
Abstract  5-13
第一章绪论  13-18
  1.1 课题的来源，背景及研究意义  13-14
  1.2 语音识别的研究进展与现状  14-16
  1.3 课题的研究内容  16-17
  1.4 论文的组织结构  17-18
第二章语音识别技术的基本原理  18-28
  2.1 语音识别的处理过程  18
  2.2 预处理  18-23
    2.2.1 语音采样  18-19
    2.2.2 预加重  19
    2.2.3 分帧加窗  19-20
    2.2.4 短时能量，短时平均过零率和短时自相关函数分析  20-23
    2.2.5 端点检测  23
  2.3 特征参数提取  23-24
  2.4 模型的训练和匹配  24-27
    2.4.1 动态时间归整技术（DTW）  25
    2.4.2 隐马尔可夫模型技术（HMM）  25-26
    2.4.3 人工神经网络技术（ANN）  26-27
  2.5 小结  27-28
第三章基于隐马尔可夫模型的语音识别算法的研究  28-44
  3.1 基于隐马尔可夫模型的语音识别  28-35
    3.1.1 隐马尔可夫模型的三个基本问题  28-32
      3.1.1.1 估值问题  28-30
      3.1.1.2 解码问题  30-31
      3.1.1.3 训练问题  31-32
    3.1.2 连续密度隐马尔可夫模型  32-34
    3.1.3 隐马尔可夫模型的类型与结构  34-35
  3.2 基于隐马尔可夫模型的搜索算法  35-38
    3.2.1 连续语音识别搜索算法  35-37
    3.2.2 Beam 剪枝搜索算法  37-38
  3.3 Beam 剪枝搜索算法的改进  38-42
    3.3.1 状态层自适应剪枝  39-41
    3.3.2 词层自适应剪枝  41-42
  3.4 小结  42-44
第四章发音错误识别系统的设计  44-49
  4.1 系统概述  44
  4.2 系统建设目标  44-45
  4.3 系统设计方案的选择  45
  4.4 系统的总体设计  45-48
  4.5 小结  48-49
第五章发音错误识别系统的实现  49-69
  5.1 采用的技术架构  49-50
  5.2 模块的划分  50-54
    5.2.1 语音合成模块  50-51
    5.2.2 语音识别模块  51-53
    5.2.3 发音错误识别模块  53-54
  5.3 系统的实现  54-63
    5.3.1 语音合成  54
    5.3.2 语音识别  54-62
      5.3.2.1 识别引擎处理  55-56
      5.3.2.2 初始化 COM 对象  56-58
      5.3.2.3 创建识别上下文  58
      5.3.2.4 设置相关联的 TTS  58-59
      5.3.2.5 加载语法  59-60
      5.3.2.6 激活识别引擎  60
      5.3.2.7 注册事件通知机制  60-61
      5.3.2.8 设置事件过滤  61-62
      5.3.2.9 释放 COM 对象  62
    5.3.3 发音错误识别  62-63
  5.4 运行效果测试  63-68
  5.5 小结  68-69
第六章总结和展望  69-71
  6.1 主要工作及贡献  69
  6.2 下一步的研究工作  69-71
参考文献  71-75
致谢  75-76
攻读学位期间公开发表的论文和参与的项目  76-77
附录  77-79

语音识别技术的研究及其在发音错误识别系统中的应用

内容摘要

全文目录

相似论文