学位论文 > 优秀研究生学位论文题录展示

基于HTK和Microsoft Speech SDK的连续语音识别系统的研究及实现

作 者: 黄旭
导 师: 周昌乐;蔡骏
学 校: 厦门大学
专 业: 计算机软件与理论
关键词: 连续语音识别 快速高斯计算 Speech API
分类号: TP391.42
类 型: 硕士论文
年 份: 2007年
下 载: 544次
引 用: 1次
阅 读: 论文下载
 

内容摘要


语音识别是近年来高速发展的一项技术。让计算机听懂人说话,甚至和人进行交流是我们梦寐以求的梦想。在不久的将来,这个梦想会变成现实。本文的主要目的是对连续语音识别进行探讨。本文开始先介绍了语音识别的基础知识,详细的讨论了语音信号的处理方法和语音识别系统的原理。接下来本文从两方面进行展开。一方面从模式识别的研究角度,探讨语音信号的提取和语音识别的原理,建立相应的语音识别模型。本文综合了基于MFCC的特征提取技术,HMM原理、训练算法和单音子模型的建模技术,上下文无关文法的定义和应用,Viterbi算法等方法,构筑了HTK3.4+TIMIT的连续语音识别实验系统,并做了关于混合分量维数的实验,结果表明随着混合分量数从1提高到128,系统的识别率从47.01%提高到了62.33%。针对LVCSR中混合分量数的提高带来的时间消耗增加问题,本文研究了似然率的快速算法。本文基于HTK 3.4实现了部分距离消去算法(PDE)、最佳混合预测算法(BMP)和特征矢量元素重排算法(FCR)。实验结果表明,快速似然率计算方法在可接受的识别率的降低范围内,可显著地降低似然率计算的时间开销。另一个方面从识别系统的软件开发考虑,建立一个基于篮球比赛的数据统计的语音识别系统。介绍了Microsoft的Speech SDK在系统中的嵌入,介绍了XML。之后给出一个实例,运用SAPI建立了能够识别多个句型和几十个词汇的一个限定领域的连续语音识别系统,用作篮球比赛数据统计系统的语音界面,经测试系统的识别率可以达到86%,之后介绍了噪声控制的一些技术和提高系统语音识别率的方法。

全文目录


摘要  4-5
ABSTRACT  5-11
第一章 绪论  11-15
  1.1 语音识别概述  11-12
  1.2 语音识别现状  12-14
  1.3 本文主要内容及论文结构  14-15
第二章 语音识别系统  15-35
  2.1 语音识别基本原理  15-16
  2.2 语音信号预处理和特征提取  16-23
    2.2.1 采样与量化  16
    2.2.2 预加重  16-17
    2.2.3 加窗  17
    2.2.4 LPC 倒谱分析  17-19
    2.2.5 Mel 倒谱分析  19-21
    2.2.6 感觉加权线性预测分析  21-23
  2.3 隐马尔可夫模型(HMM)  23-30
    2.3.1 隐式马尔可夫模型(HMM)的基本结构  23-24
    2.3.2 HMM 的三个基本问题  24-27
    2.3.3 HMM 的分类  27-30
  2.4 大词汇量连续语音识别实验  30-34
    2.4.1 HTK Toolkit 简介  30
    2.4.2 实验系统构建  30-32
    2.4.3 实验结果与评价  32-34
  2.5 小结  34-35
第三章 似然率的快速算法  35-45
  3.1 似然率快速算法介绍  35-36
  3.2 基于矢量量化的高斯选择  36-38
  3.3 部分距离消去算法  38-41
  3.4 最佳混合预测算法和特征矢量元素重排算法  41-42
  3.5 实验  42-44
  3.6 小结  44-45
第四章 基于SAPI 的语音识别系统  45-61
  4.1 系统介绍  45
  4.2 系统的设计  45-53
    4.2.1 Speech SDK  46-48
    4.2.2 XML 语言  48-49
    4.2.3 XML 在本系统的应用  49-53
  4.3 系统的具体实现  53-58
    4.3.1 语音识别程序  53-55
    4.3.2 语音识别程序与主程序的接口  55-56
    4.3.3 语音识别程序演示  56
    4.3.4 实验  56-57
    4.3.5 噪声控制  57-58
  4.4 改进系统识别率的方法  58-60
    4.4.1 界面的反馈和状态显示  58
    4.4.2 调节系统配置文件  58-59
    4.4.3 配置用户训练文件和进行针对性训练  59-60
  4.5 小结  60-61
第五章 总结和展望  61-63
  5.1 总结  61
  5.2 展望  61-63
参考文献  63-66
研究生期间发表的论文  66-67
参加的科研项目  67-68
致谢  68

相似论文

  1. 基于动态贝叶斯网络的连续语音识别研究,TN912.34
  2. 基于自适应的LVCSR系统半监督学习方法的研究,TN912.34
  3. 面向连续语音识别的半监督学习方法的研究,TN912.34
  4. 基于Sphinx的汉语连续语音识别,TN912.34
  5. 小词汇量非特定人连续语音识别系统的研究,TN912.34
  6. 基于飞行器的连续语音指令识别技术研究,TN912.34
  7. 语音识别技术的研究及其在发音错误识别系统中的应用,TN912.34
  8. 连续语音识别中声学模型的建立,TN912.3
  9. 非特定人连续语音识别的理论、分析和实验,TN912.34
  10. 汉语连续数目字语音识别的研究,TN912.34
  11. 抗噪连续语音识别的研究,TN912.34
  12. 贝叶斯网络在语音鲁棒性识别中的应用,TN912.34
  13. 汉语连续语音识别及其在移动机器人导航中的应用,TP242
  14. 连续语音识别搜索算法的研究与应用,TN912.3
  15. 面向语音识别的蒙古语语言模型的研究,TP391.42
  16. 基于仿生模式识别的连续语音关键词识别的研究,TP391.42
  17. 语音识别中区分性训练算法研究,TN912.34
  18. 声学模型区分性训练及其在LVCSR系统的应用,TN912.34
  19. 语音识别中的说话人自适应研究,TN912.34
  20. 小型语音识别系统的研究和开发,R318.6

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 声音识别及其装置
© 2012 www.xueweilunwen.com