学位论文 > 优秀研究生学位论文题录展示
语音识别技术的研究及其在发音错误识别系统中的应用
作 者: 孙望
导 师: 陈兵
学 校: 南京航空航天大学
专 业: 计算机应用技术
关键词: 连续语音识别 HMM Beam剪枝搜索算法 自适应裁剪门限 语音合成 SAPI
分类号: TN912.34
类 型: 硕士论文
年 份: 2008年
下 载: 167次
引 用: 0次
阅 读: 论文下载
内容摘要
二十世纪五十年代以来,语音识别的技术发展迅速。作为一门交叉学科,语音识别己经形成了完整的理论体系,基于PC平台的语音识别系统的研究也在技术上获得了一些成功。尽管目前各种各样的语音识别产品相继涌现,但在许多特定领域,由于其环境的特殊性,往往需要专门开发,以适应实际需要。因此,针对英语学习过程中,学习者往往缺乏标准且有效的口语训练的问题,设计并实现了一套具有示范、评分、报错功能的发音错误识别系统。首先,本文根据语音识别系统的基本构成模型,介绍了预处理、特征参数提取到模型的训练与匹配所涉及的数字信号处理、模式识别等方面的基本技术。其次,介绍了连续语音识别搜索算法的基本原理,对常用的基于动态规划思想的Beam剪枝搜索算法进行了深入研究,分析了该算法的不足,从两方面对Beam剪枝搜索算法进行了改进:使用自适应的裁剪门限代替固定的裁剪门限,提出了基于活动模型数变化的状态层自适应剪枝搜索算法,根据搜索初期阶段模型最少驻留帧数和活动模型数变化的关系自适应的改变裁剪门限;另一方面,提出了基于当前搜索路径的最高概率得分和平均概率得分变化的词层自适应剪枝搜索算法。最后将状态层和词层相结合的自适应剪枝算法与语音识别引擎相结合,利用SAPI接口调用优化后的语音识别引擎来完成了发音错误系统的设计与开发。实现了语音合成、语音识别和评分报错功能,并给出具体的工作流程和实现的关键代码。测试结果表明本系统较好地满足了连续语音识别的要求,学习者经过训练之后,其识别率可以达到81.2%,这也验证了状态层和词层相结合的自适应剪枝算法是可行的。
|
全文目录
摘要 4-5 Abstract 5-13 第一章 绪论 13-18 1.1 课题的来源,背景及研究意义 13-14 1.2 语音识别的研究进展与现状 14-16 1.3 课题的研究内容 16-17 1.4 论文的组织结构 17-18 第二章 语音识别技术的基本原理 18-28 2.1 语音识别的处理过程 18 2.2 预处理 18-23 2.2.1 语音采样 18-19 2.2.2 预加重 19 2.2.3 分帧加窗 19-20 2.2.4 短时能量,短时平均过零率和短时自相关函数分析 20-23 2.2.5 端点检测 23 2.3 特征参数提取 23-24 2.4 模型的训练和匹配 24-27 2.4.1 动态时间归整技术(DTW) 25 2.4.2 隐马尔可夫模型技术(HMM) 25-26 2.4.3 人工神经网络技术(ANN) 26-27 2.5 小结 27-28 第三章 基于隐马尔可夫模型的语音识别算法的研究 28-44 3.1 基于隐马尔可夫模型的语音识别 28-35 3.1.1 隐马尔可夫模型的三个基本问题 28-32 3.1.1.1 估值问题 28-30 3.1.1.2 解码问题 30-31 3.1.1.3 训练问题 31-32 3.1.2 连续密度隐马尔可夫模型 32-34 3.1.3 隐马尔可夫模型的类型与结构 34-35 3.2 基于隐马尔可夫模型的搜索算法 35-38 3.2.1 连续语音识别搜索算法 35-37 3.2.2 Beam 剪枝搜索算法 37-38 3.3 Beam 剪枝搜索算法的改进 38-42 3.3.1 状态层自适应剪枝 39-41 3.3.2 词层自适应剪枝 41-42 3.4 小结 42-44 第四章 发音错误识别系统的设计 44-49 4.1 系统概述 44 4.2 系统建设目标 44-45 4.3 系统设计方案的选择 45 4.4 系统的总体设计 45-48 4.5 小结 48-49 第五章 发音错误识别系统的实现 49-69 5.1 采用的技术架构 49-50 5.2 模块的划分 50-54 5.2.1 语音合成模块 50-51 5.2.2 语音识别模块 51-53 5.2.3 发音错误识别模块 53-54 5.3 系统的实现 54-63 5.3.1 语音合成 54 5.3.2 语音识别 54-62 5.3.2.1 识别引擎处理 55-56 5.3.2.2 初始化 COM 对象 56-58 5.3.2.3 创建识别上下文 58 5.3.2.4 设置相关联的 TTS 58-59 5.3.2.5 加载语法 59-60 5.3.2.6 激活识别引擎 60 5.3.2.7 注册事件通知机制 60-61 5.3.2.8 设置事件过滤 61-62 5.3.2.9 释放 COM 对象 62 5.3.3 发音错误识别 62-63 5.4 运行效果测试 63-68 5.5 小结 68-69 第六章 总结和展望 69-71 6.1 主要工作及贡献 69 6.2 下一步的研究工作 69-71 参考文献 71-75 致谢 75-76 攻读学位期间公开发表的论文和参与的项目 76-77 附录 77-79
|
相似论文
- 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
- 大鼠皮层神经细胞膜离子通道电流测量与重构,Q42
- 声道频响合成方法在军队姓名语音库的应用,TN912.3
- 移动音视频交互业务执行平台的研究,TN915.09
- 复杂环境下语音增强方法研究,TN912.35
- 基于HMM的机器人语音识别系统的研究,TN912.34
- 基于HMM-ANN混合模型的咳嗽音识别研究,TN912.34
- 仿真机器人控制系统,TP242
- 基于自动切分的PSOLA语音合成在大坝监控系统中的应用研究,TP277
- Ant在IVR系统测试的应用,TP311.52
- 基于VoiceXML的语音智能交互平台的研究与实现,TP311.52
- 基因表达式编程与HMM融合技术应用研究,TN912.34
- 语音库自动构建技术的研究,TN912.33
- 基于动态贝叶斯网络的连续语音识别研究,TN912.34
- 面向机器人对话的语音识别关键技术的研究,TN912.34
- 基于自适应的LVCSR系统半监督学习方法的研究,TN912.34
- 面向智能视频监控的事件检测建模及优化,TP391.41
- 包装箱表面印刷体汉字识别算法研究,TP391.41
- 语音情感识别研究,TN912.34
- 基于多层架构模型设计的呼叫中心设计及实现,TN99
- 孤立词语音识别算法优化的研究和实现,TN912.34
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com
|