学位论文 > 优秀研究生学位论文题录展示
基于拼音音元的语音识别系统研究与设计
作 者: 叶亮亮
导 师: 石锐
学 校: 重庆大学
专 业: 计算机软件与理论
关键词: 语音识别 基音音元 语义转换 波形修正 MFCC DTW
分类号: TN912.34
类 型: 硕士论文
年 份: 2013年
下 载: 72次
引 用: 0次
阅 读: 论文下载
内容摘要
随着社会的进步,人们对智能化的追求日益强烈。语音识别是人类与机器沟通的一个桥梁,越发受人们的关注。人们想要与机器自然随意的交流,就要求机器能够对大词量的连续语句准确理解,能够抵抗口语化、噪音等干扰因素的影响。然而大词量的连续语音识别在现阶段还遇到了很多的困难,大词量的连续语音识别系统识别效率还不能令人很满意。而且在全球化的进程中,多种语言的混合使得语音识别更加困难,如在一句话中夹杂有英语和汉语,对于这种情况,现在的语音识别系统都将无法应对。为了解决大词量和语音连续性的难题,本文对基于拼音音元的语音识别系统进行研究,在声韵母语音识别系统的基础上进一步对识别单元进行细化,使用已有的一些成熟的语音识别技术,结合本文提出的语音音元分割方法和语音语义识别分离的架构形成一种全新的语音识别系统框架,并在matlab环境下进行了初步的实验研究。本文的主要内容包含如下三个部分。1)对基于拼音音元的语音识别系统相关的语音技术进行讨论,对语音识别中用到的语音模型原理、汉语拼音相关知识、语音信号预处理技术、语音特征参数提取技术、模版匹配等技术都进行了详细介绍;并对特征参数LPCC与MFCC做了比对,分析了MFCC的优势。2)建立基于拼音音元的语音识别系统,并详细介绍了系统中各部分技术的具体求解方式。包括双门限法查找语音端点、FE算法分割声韵母、语音音元分割方法、MFCC系数作为声韵母的特征系数、DTW算法实现特征模版匹配、字库的建立与查找等技术的实现。重点对多种语音音元分割方法进行了分析和对比,本文提出的基于语音包络的语音音元分割方法和基于极值的语音音元分割方法具有较好的效果,其中基于极值的语音音元分割方法兼具有低计算量和高分割率的特点作为基于拼音音元的语音识别系统中的基音分割技术。基于拼音音元的语音识别系统将声韵母采用了不同的特征模版库,并对韵母部分进行了更细致的分割,使用其基元用于特征提取,减少了特征模版的长度。此外本系统在模版匹配后得到的是声韵母的字母序,此时实现的是语音的识别;再根据字母序,使用智能拼音的方式将字母序转换为具体的文字序,实现语义识别。语音与语义的分离能够减少匹配难度和搜索量,还有利于多种语言的混合识别,也有利于与其他更成熟的系统,如智能拼音系统,进行合作,实现更加智能的效果。3)在Matlab上对多种音元分割方法做实验对比,并在多种噪音情形下做对比处理,基于极值的音元分割方法具有较好的分割性能。音元分割对这个基于音元的语音识别系统非常重要,影响到韵母模版特征的提取,并会影响到最后的语音识别结果。基于极值的音元分割方法对于音元分割准确率可以高达90.2%,在与比较高效的汉语拼音输入法的联合应用中将可以对其中的部分错识的拼音进行一定的更正,语音识别系统整体识别率将更高。本文通过对基于拼音音元的语音识别系统的研究和部分关键技术的实验分析,为语音识别建立了一种语音识别与语义转换分离的架构,为大词量的语音连续语音实时识别技术提供了一种新的解决思路。
|
全文目录
摘要 3-5 ABSTRACT 5-10 1 绪论 10-17 1.1 研究背景和意义 10 1.2 研究现状 10-14 1.2.1 国内语音识别发展概况 11 1.2.2 语音识别研究现状 11-13 1.2.3 语音识别发展趋势 13-14 1.3 研究思路及创新点 14-15 1.3.1 研究思路和研究内容 14-15 1.3.2 本文创新点 15 1.4 本文内容结构 15-17 2 语音发声研究 17-21 2.1 语音发声的原理 17-18 2.2 语音发声的模型 18-20 2.2.1 激励模型 19 2.2.2 声道模型 19-20 2.2.3 辐射模型 20 2.2.4 发音模型 20 2.3 本章小结 20-21 3 汉语拼音基础知识 21-28 3.1 拼音组成与分类 21-25 3.2 拼音分析 25-26 3.3 汉语拼音输入法 26-27 3.4 带声调的汉语拼音输入方案 27 3.5 汉语拼音输入法的弱点 27 3.6 本章小结 27-28 4 常用的语音识别方法 28-43 4.1 语音识别系统基本模型 28-29 4.2 语音信号预处理 29-31 4.3 语音识别单元的选取 31-32 4.4 特征参数提取技术 32-38 4.4.1 LPC 系数特征的研究 32-35 4.4.2 LPCC 倒谱特征的研究 35-36 4.4.3 MFCC 系数特征的研究 36-38 4.4.4 LPCC 与 MFCC 系数特征的比较 38 4.5 模式匹配及模型训练技术(常用匹配算法) 38-42 4.5.1 DTW 算法 39-41 4.5.2 VQ 算法 41 4.5.3 HMM 算法 41-42 4.6 本章小结 42-43 5 基于音元的语音识别方法 43-65 5.1 声韵母分割 43-45 5.2 音元分割 45-55 5.2.1 ACF 基音检测法 48 5.2.2 AMDF 基音检测法 48 5.2.3 基于语音包络的基音分割方法 48-51 5.2.4 基于极值的音元分割方法 51-55 5.2.5 各种基音周期估计算法分析 55 5.3 特征的选择和提取 55-58 5.3.1 LPC 特征求解 55-57 5.3.2 LPCC 倒谱特征求解 57-58 5.3.3 MFCC 倒谱特征求解 58 5.4 查找音节声调 58-60 5.5 语音训练和特征库生成 60 5.6 语音识别与匹配算法 60-61 5.7 语音字库 61-64 5.7.1 Bigram 模型 62 5.7.2 字库查询 62-64 5.8 本章小结 64-65 6 实验结果与分析 65-72 6.1 基于音元分割的语音识别系统搭建 65-66 6.2 实验设计及结果分析 66-71 6.3 本章小结 71-72 7 主要结论与应用前景展望 72-74 7.1 主要结论 72 7.2 应用前景展望 72-73 7.3 进一步的工作 73-74 致谢 74-75 参考文献 75-78 附录 78 A.作者在攻读硕士学位期间发表的论文目录 78 B.作者在攻读硕士学位期间参加的科研项目目录 78 C.作者在攻读硕士学位期间取得的实用新型专利目录 78
|
相似论文
- 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
- 基于DSP的机器人语音命令识别系统研制,TN912.34
- 基于ARM9的孤立词语音识别系统设计,TN912.34
- 语音识别技术研究与实现,TN912.34
- 车载汉语语音控制命令识别算法的研究,U463.6
- 基于SOPC的说话人识别控制器,TN912.34
- 家庭监护机器人关键技术的研究与实现,TP242
- 基于SPCE061A单片机的数控机床控制系统的设计与实现,TG659
- 基于MIDI的乐器控制系统和音符的自动识别方法研究,TN912.34
- 基于加速度传感器的智能终端手势识别关键技术研究,TP212
- 基于哼唱的音乐检索系统,TN912.3
- 基于VC++6.0的说话人识别系统的研究,TN912.34
- 基于HMM-ANN混合模型的咳嗽音识别研究,TN912.34
- 基于嵌入式语音识别系统的研究,TN912.34
- 仿真机器人控制系统,TP242
- 小词汇量非特定人的孤立词语音识别系统研究,TN912.34
- 基于混合特征和高斯混合模型的说话人识别研究,TN912.34
- 移动机器人语音识别控制仿真系统的设计与实现,TN912.34
- 基于特定人的汉语语音识别的研究与实现,TN912.34
- 基于矢量量化技术和DTW算法的说话人识别系统的实验研究,TN912.34
- 基于DTW距离的两步式时间序列相似搜索,TP391.3
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com
|