学位论文 > 优秀研究生学位论文题录展示
基于语音识别与合成的低速率语音编码研究
作 者: 尹岩岩
导 师: 殷业
学 校: 上海师范大学
专 业: 通信与信息系统
关键词: 低速率语音编码 语音识别 端点检测 短时能零熵 语音合成
分类号: TN912.3
类 型: 硕士论文
年 份: 2013年
下 载: 91次
引 用: 0次
阅 读: 论文下载
内容摘要
在现代通信技术中,人类语音是最重要、最基本的交流媒介并将成为未来人机交互的主要手段。由于考虑到传输效率、耗费成本、占用的物理信道、存储空间等因素,人们总希望在保证较好语音质量的前提下,尽可能的压低语音编码的传输码率。因此,语音传输一般要经过压缩变成比特流的形式。这个压缩语音信息过程被称为语音编码。由Shannon理论可知,语音数据压缩是存在极限的。目前的信源编码方式已经接近极限,因此我们以牺牲算法的复杂度来无限逼近Shannon极限已经变得毫无意义。如果我们从信宿(接收者)的角度来考虑,根据信宿端的需求对发送端语音信息进行基于内容的压缩,去除大量非内容信息,这样就可以大大提高语音信号的压缩效率。本文主要工作及创新点有:1.论文首先对语音通信技术的现状进行了研究和总结,分析了极低速率语音编码应用领域及其重要意义。对国内外语音通信中的语音识别、语音合成和预处理等关键技术做了详细分析研究和仿真实验,并指出目前存在的不足。2.本文对语音信号端点检测的三个特征参数短时能量、短时平均过零率和基本谱熵进行逐一研究分析,在此基础上提出了短时能零熵值这种新型的语音参数,并作为端点检测的主要参数。3.试图寻找一种基于信宿相关的低速率语音编码。其理论依据是:语音的内容信息量总是小于语音的数据信息量。通过语音识别技术针对组成语音的基元,采用仿生模式识别后得到文本信息,把与文本信息相对应的标准语音和说话语音进行“比较”运算后得到个体特征信息,然后再对识别出的语音基元文本信息和个体特征信息进行编码、传输就可得到极低的编码速率(<80bit/s),在接收端,利用语音合成技术将文本信息和个体特征信息转换为语音输出,从而形成完整的语音传输过程。本文的研究主要应用于水声通信和军事通信,由于通信速率比较低,即使能够满足基于语音识别的语音实时通信,但是对于海、陆、空三维立体通信互联来说还是远远不够的。加快发展我国在该领域的技术进步是一项很紧迫的任务。
|
全文目录
中文摘要 4-6 Abstract 6-11 第一章 绪论 11-15 1.1 低速率语音编码概述 11-12 1.2 低速率语音编码新进展 12-13 1.3 极低速率语音编码——语音识别与合成技术 13 1.4 本课题研究的内容和安排 13-14 1.5 本课题所需的软件硬件环境 14-15 第二章 语音信号的数字模型 15-20 2.1 概述 15 2.2 语音的发声机理 15-16 2.2.1 人的发声器官构造及发生机理 15-16 2.2.2 语音生成 16 2.3 语音的听觉特性 16-18 2.3.1 听觉器官 16-17 2.3.2 掩蔽效应与临界带宽 17-18 2.4 语音信号模型 18-19 2.5 本章小结 19-20 第三章 语音识别关键技术及改进 20-41 3.1 概述 20-21 3.2 语音信号的预处理 21-22 3.2.1 预滤波、预加重 21-22 3.2.2 语音信号的分帧和加窗 22 3.3 语音信号特征参数 22-27 3.3.1 基音周期 22-24 3.3.2 线性预测参数及其倒谱 24-26 3.3.3 MFCC 参数的原理及提取 26-27 3.4 语音识别的模型 27-32 3.4.1 动态时间规整 DTW 27-28 3.4.2 隐马尔可夫模型 HMM 28-31 3.4.3 人工神经网络 ANN 31-32 3.4.4 高斯混合模型 GMM 32 3.5 端点检测技术及改进 32-40 3.5.1 短时平均能量 33-34 3.5.2 短时平均过零率 34-36 3.5.3 基本谱熵 36-37 3.5.4 基于短时能零熵的端点检测方法 37-40 3.6 本章小结 40-41 第四章 语音合成 41-50 4.1 概述 41-42 4.2 文语转换系统 42-47 4.2.1 TTS 系统组成 42 4.2.2 文本分析模块 42-43 4.2.3 韵律控制模块 43-45 4.2.4 现有语音合成方法 45-46 4.2.5 语音语料库 46-47 4.3 基于语音变换的个体特征语音合成 47-49 4.3.1 语音变换技术 47-48 4.3.2 个体特征语音合成的过程 48-49 4.4 本章小结 49-50 第五章 低速率语音识别与合成编码架构 50-55 5.1 低码率的语音通信系统 50-52 5.2 低速率语音编码的理论依据 52-53 5.3 低速率语音识别与合成架构 53-55 第六章 总结和展望 55-58 6.1 全文总结 55-56 6.2 未来展望 56-58 致谢 58-59 参考文献 59-63 攻读学位期间取得的研究成果 63
|
相似论文
- 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
- 基于DSP的机器人语音命令识别系统研制,TN912.34
- 在智能手机环境下健康管理功能设计与研究,TN929.53
- 基于ARM9的孤立词语音识别系统设计,TN912.34
- 语音识别技术研究与实现,TN912.34
- 车载汉语语音控制命令识别算法的研究,U463.6
- 基于分段概率模型语音识别算法的SOPC实现,TN47
- 车载多媒体语音识别系统设计,TN912.34
- 声道频响合成方法在军队姓名语音库的应用,TN912.3
- 家庭监护机器人关键技术的研究与实现,TP242
- 数字助听器中语音增强技术的研究,TN912.35
- 基于嵌入式Linux语音合成关键技术的研究与实现,TN912.33
- 基于电话信道的声纹识别算法研究,TN912.34
- 基于隐马尔科夫模型的天津方言语音合成,TN912.33
- 基于HMM的机器人语音识别系统的研究,TN912.34
- 基于改进MFCC的语音识别系统研究及设计,TN912.34
- 语音端点检测和关键词检出技术的研究,TN912.3
- 嵌入式语音合成技术的研究,TN912.33
- 基于嵌入式语音识别系统的研究,TN912.34
- 基于VoiceXML的语音智能交互平台的研究与实现,TP311.52
- 基于词片网格的语音文档主题分类,TN912.3
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com
|