学位论文 > 优秀研究生学位论文题录展示

基于HTK和Microsoft Speech SDK的连续语音识别系统的研究及实现

作　者: 黄旭
导　师: 周昌乐；蔡骏
学　校: 厦门大学
专　业: 计算机软件与理论
关键词: 连续语音识别快速高斯计算 Speech API
分类号: TP391.42
类　型: 硕士论文
年　份: 2007年
下　载: 544次
引　用: 1次
阅　读: 论文下载

内容摘要

语音识别是近年来高速发展的一项技术。让计算机听懂人说话,甚至和人进行交流是我们梦寐以求的梦想。在不久的将来,这个梦想会变成现实。本文的主要目的是对连续语音识别进行探讨。本文开始先介绍了语音识别的基础知识,详细的讨论了语音信号的处理方法和语音识别系统的原理。接下来本文从两方面进行展开。一方面从模式识别的研究角度,探讨语音信号的提取和语音识别的原理,建立相应的语音识别模型。本文综合了基于MFCC的特征提取技术,HMM原理、训练算法和单音子模型的建模技术,上下文无关文法的定义和应用,Viterbi算法等方法,构筑了HTK3.4+TIMIT的连续语音识别实验系统,并做了关于混合分量维数的实验,结果表明随着混合分量数从1提高到128,系统的识别率从47.01%提高到了62.33%。针对LVCSR中混合分量数的提高带来的时间消耗增加问题,本文研究了似然率的快速算法。本文基于HTK 3.4实现了部分距离消去算法(PDE)、最佳混合预测算法(BMP)和特征矢量元素重排算法(FCR)。实验结果表明,快速似然率计算方法在可接受的识别率的降低范围内,可显著地降低似然率计算的时间开销。另一个方面从识别系统的软件开发考虑,建立一个基于篮球比赛的数据统计的语音识别系统。介绍了Microsoft的Speech SDK在系统中的嵌入,介绍了XML。之后给出一个实例,运用SAPI建立了能够识别多个句型和几十个词汇的一个限定领域的连续语音识别系统,用作篮球比赛数据统计系统的语音界面,经测试系统的识别率可以达到86%,之后介绍了噪声控制的一些技术和提高系统语音识别率的方法。

全文目录

摘要  4-5
ABSTRACT  5-11
第一章绪论  11-15
  1.1 语音识别概述  11-12
  1.2 语音识别现状  12-14
  1.3 本文主要内容及论文结构  14-15
第二章语音识别系统  15-35
  2.1 语音识别基本原理  15-16
  2.2 语音信号预处理和特征提取  16-23
    2.2.1 采样与量化  16
    2.2.2 预加重  16-17
    2.2.3 加窗  17
    2.2.4 LPC 倒谱分析  17-19
    2.2.5 Mel 倒谱分析  19-21
    2.2.6 感觉加权线性预测分析  21-23
  2.3 隐马尔可夫模型（HMM）  23-30
    2.3.1 隐式马尔可夫模型(HMM)的基本结构  23-24
    2.3.2 HMM 的三个基本问题  24-27
    2.3.3 HMM 的分类  27-30
  2.4 大词汇量连续语音识别实验  30-34
    2.4.1 HTK Toolkit 简介  30
    2.4.2 实验系统构建  30-32
    2.4.3 实验结果与评价  32-34
  2.5 小结  34-35
第三章似然率的快速算法  35-45
  3.1 似然率快速算法介绍  35-36
  3.2 基于矢量量化的高斯选择  36-38
  3.3 部分距离消去算法  38-41
  3.4 最佳混合预测算法和特征矢量元素重排算法  41-42
  3.5 实验  42-44
  3.6 小结  44-45
第四章基于SAPI 的语音识别系统  45-61
  4.1 系统介绍  45
  4.2 系统的设计  45-53
    4.2.1 Speech SDK  46-48
    4.2.2 XML 语言  48-49
    4.2.3 XML 在本系统的应用  49-53
  4.3 系统的具体实现  53-58
    4.3.1 语音识别程序  53-55
    4.3.2 语音识别程序与主程序的接口  55-56
    4.3.3 语音识别程序演示  56
    4.3.4 实验  56-57
    4.3.5 噪声控制  57-58
  4.4 改进系统识别率的方法  58-60
    4.4.1 界面的反馈和状态显示  58
    4.4.2 调节系统配置文件  58-59
    4.4.3 配置用户训练文件和进行针对性训练  59-60
  4.5 小结  60-61
第五章总结和展望  61-63
  5.1 总结  61
  5.2 展望  61-63
参考文献  63-66
研究生期间发表的论文  66-67
参加的科研项目  67-68
致谢  68

基于HTK和Microsoft Speech SDK的连续语音识别系统的研究及实现

内容摘要

全文目录

相似论文