学位论文 > 优秀研究生学位论文题录展示

基于元音长度调整的中文语音识别

作 者: 朱力
导 师: 曾毓敏
学 校: 南京师范大学
专 业: 电路与系统
关键词: 语音识别 隐马尔可夫模型 特征参数提取 动态时间规整 语速调整 元音分组
分类号: TN912.34
类 型: 硕士论文
年 份: 2011年
下 载: 24次
引 用: 0次
阅 读: 论文下载
 

内容摘要


语音识别一直都是国内外的一个重要的研究课题。目前的语音识别系统对发音人的语速具有一定的自适应调整能力。但对于不同的发音人来说,这些自适应调整能力都是不够的,往往在识别那些语速过快或过慢的语音的时候,得到的识别率都比较低。本文从研究语音识别的一些基本理论入手,为了改善语音发音长短不同,而导致识别率下降的问题,重点研究了基于HMM模型以及动态时间规整算法的元音长度调整算法和元音分组算法,并进行了仿真与比较。本文的主要研究工作如下:1、本文先对隐马尔可夫模型(Hidden Markov Model, HMM)和动态时间规整算法(Dynami c Time Warping, DTW)进行了详细的分析,并对基础模型、算法进行了仿真实验。将基于DTW算法的仿真结果,作为后续章节研究的基础识别率,从而可清晰地看出改进算法对识别率的提高。2、根据汉语语音发音时,每一个音节都含有元音,元音长度占音节长度的主要部分,但是却不包含发音的主要信息这些特点,研究了在语音的元音部分,利用相关系数寻找相似波形,然后对元音部分进行相似波形的插入或删除的方法,来改变元音部分的长度,进而调整语速。在对元音部分进行实际操作时,提出了一种新的计算方法,相对于原先的“调整—判断—再调整—再判断”方法,在算法速度上有了很大的提高。3、由于元音长度调整算法当中,阈值参数Lmax和Lmin的取值,不能完全兼顾到所有的孤立词。本文提出了一种改进算法,即元音分组算法。该算法使用三种分组方法,分别根据元音的类型、元音的相似性以及元音的长度进行分组。针对不同的元音组,选择不同的阈值参数Lmax和Lmin,真正做到“区别对待”。仿真实验结果表明,相较于元音长度调整算法,这种改进的算法对系统的识别率,有更为显著的提高。

全文目录


摘要  3-4
Abstract  4-6
目录  6-8
第一章 绪论  8-11
  1.1 选题背景  8
  1.2 语音识别的研究历史和现状  8-9
  1.3 语音识别面临的主要问题  9-10
  1.4 主要研究内容与章节安排  10-11
第二章 语音识别技术基础  11-24
  2.1 语音识别概述  11-12
    2.1.1 语音识别的分类  11
    2.1.2 语音识别的系统框图  11-12
  2.2 语音识别的常用方法  12-16
    2.2.1 基于模板匹配模型的方法  12-15
    2.2.2 基于概率模型的方法  15-16
  2.3 隐马尔可夫模型的原理  16-20
    2.3.1 HMM模型的参数  16-17
    2.3.2 HMM模型的三个基本问题  17-18
    2.3.3 HMM模型的三种算法  18-20
  2.4 语音信号的预处理  20-23
    2.4.1 预加重  20-21
    2.4.2 分帧加窗  21-22
    2.4.3 语音信号的端点检测  22-23
  2.5 本章小节  23-24
第三章 语音识别系统的特征参数  24-30
  3.1 线性预测倒谱系数(LPCC)  24-25
  3.2 Mel频率倒谱系数(MFCC)  25-26
  3.3 感知线性预测倒谱系数(PLPCC)  26-28
  3.4 三种特征参数仿真结果比较  28-29
    3.4.1 仿真实验条件  28
    3.4.2 仿真实验结果  28-29
  3.5 本章小结  29-30
第四章 基于元音长度调整的中文孤立词识别  30-49
  4.1 语音语速调整概述  30-31
  4.2 语音元音起止点的判断  31-39
    4.2.1 语音信号的时域波形  31-32
    4.2.2 语音信号的特点分析  32-33
    4.2.3 语音元音起止点判别算法  33-39
  4.3 元音长度调整算法  39-48
    4.3.1 元音长度调整算法的基本思路  39-40
    4.3.2 判断相似波形  40-45
    4.3.3 元音长度调整的实现  45-46
    4.3.4 对元音长度调整算法的改进  46-47
    4.3.5 元音长度调整算法仿真  47-48
  4.4 本章小结  48-49
第五章 元音分组语速调整  49-58
  5.1 语音库的构成  49-50
  5.2 元音分组算法的思路  50-51
  5.3 元音分组的主要方法  51-56
    5.3.1 根据元音的类型分组  52-53
    5.3.2 根据元音的相似性分组  53-54
    5.3.3 根据元音长度分组  54-56
  5.4 元音分组算法仿真  56-57
    5.4.1 实验条件  56
    5.4.2 仿真结果  56-57
  5.5 本章小结  57-58
第六章 总结与展望  58-60
科研及获奖情况  60-61
致谢  61-62
参考文献  62-64

相似论文

  1. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  2. 基于DSP的机器人语音命令识别系统研制,TN912.34
  3. 在智能手机环境下健康管理功能设计与研究,TN929.53
  4. 移动音视频交互业务执行平台的研究,TN915.09
  5. 呼叫中心IVR系统的设计与实现,TN99
  6. 基于HMM的机器人语音识别系统的研究,TN912.34
  7. 基于视频的签名识别算法研究,TP391.41
  8. 基于改进MFCC的语音识别系统研究及设计,TN912.34
  9. 仿真机器人控制系统,TP242
  10. 基于VoiceXML的语音智能交互平台的研究与实现,TP311.52
  11. 基于词片网格的语音文档主题分类,TN912.3
  12. 基于HMM和PNN的混合语音识别模型研究,TN912.34
  13. 移动机器人语音识别控制仿真系统的设计与实现,TN912.34
  14. 基于动态贝叶斯网络的连续语音识别研究,TN912.34
  15. 基于STRAIGHT谱的语音识别算法研究,TN912.34
  16. 面向机器人对话的语音识别关键技术的研究,TN912.34
  17. 基于自适应的LVCSR系统半监督学习方法的研究,TN912.34
  18. 汉语语音识别中语言模型的并行优化,TN912.34
  19. 基于双自由度自适应轮系多功能代步车,U489
  20. 随机载荷特征参数提取与疲劳寿命预测智能系统开发,TH87
  21. 基于视频与文本信息的说话者人脸标注,TP391.41

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com