学位论文 > 优秀研究生学位论文题录展示
多带激励声码器关键算法的研究
作 者: 周群群
导 师: 王宏远; 马泳
学 校: 华中科技大学
专 业: 信息与通信工程
关键词: 语音压缩 多带激励声码器 基音跟踪 子带清浊音判决 线性预测分析 语音合成
分类号: TN912.3
类 型: 博士论文
年 份: 2013年
下 载: 31次
引 用: 0次
阅 读: 论文下载
内容摘要
多带激励(MBE)声码器在理论上支持高质量的语音合成,是目前在低码率范围内研究最普遍的一种语音模型,具有广泛的应用前景。然而MBE声码器在实际参数估计、参数量化、无线传输和语音合成过程中均很有可能会引入误差,进而影响语音质量,尤其在低码率应用和信源信道双重噪声干扰的情况下语音质量存在很大落差,相关算法有待改进。本文主要针对参数估计和语音合成过程所涉及的关键算法进行改进。由于传统双路径基音跟踪算法对约束方程的门限取固定经验值,导致基音估计的鲁棒性差。首先构造全新的差值不等式作为约束方程,以降低建立门限自适应调整模型的难度。然后通过分析标准基音周期及其倍/次基音所对应的单帧拟合误差之间的最大差值关系来研究在单帧意义上的倍/次基音干扰特性,推广得到差值门限过低会降低对倍基音干扰的抑制能力而差值门限过高则会引入更多次基音错误的因果关系。从而提出双门限和全范围两种自适应双路径基音跟踪算法,相应的差值门限分别根据先前帧基音周期长短的统计结果和前一帧的倍基音错误识别信息进行更新。实验结果显示,以上两种算法对应基音估计的严重错误概率(GER)均普遍下降,尤其对于女声,当信噪比(SNR)为-5dB时女声基音估计的GER的平均性能改善分别达到82.13%和82.19%,虽然对应基音估计的一般错误均值(ME)均普遍增加,但是幅度很小,ME的性能损失相对GER的性能改善而言非常微弱。实验结果表明,以上两种算法对不同讲话者和不同程度高斯白噪声干扰均具有较强的适应能力,尤其在严重的高斯白噪声干扰的情况下基音估计准确性的改善更加明显。子带划分不可避免会增加清浊音误判的概率,现有的常用子带划分方式只凭经验进行划分,产生的失真影响较大,因此结合子带清浊音误判所导致的失真影响与子带能量必然有关的性质,提出一种基于谱分布特性的子带划分方式,根据当前帧的谐波结构以及谐波能量分布,按照兼顾各个子带之间的带宽平衡和能量平衡的原则进行划分。另外,背景噪声会降低子带信号的浊音度,传统子带清浊音判决算法存在鲁棒性差的问题,因此提出一种基于相关增强的子带清浊音判决算法:通过对不同背景环境和SNR的带噪语音以及纯净语音的清浊音聚类采用Fisher最佳投影矢量进行映射,得到新的更具可辨识性的清音聚类和浊音聚类,从而增强特征值与清浊音之间的相关性;同时采用以先前帧子带清浊音状态、清浊音状态在时间上的相关系数矩阵作为先验概率输入信息的最大后验概率判决准则,从而引入相邻帧清浊音之间的相关性。实验结果表明,上述优化算法的判决性能从整体上得到改善,在不同背景环境下均具有较强的抗噪声能力,语音听觉质量提高。低码率MBE声码器通常采用线性预测(LP)全极点模型来逼近MBE谱幅度矢量并最终将其等效为线谱频率(LSF)参数形式。当MBE谱密度序列过于稀疏或存在频域采样偏移时不能用于准确估计自相关序列,导致LP谱与MBE谱之间的逼近误差较大,因此提出一种MBE谱密度内插修正方案,将MBE谱密度序列扩展为频域均匀分布且频率充分取样的序列,并校准LP增益以避免由MBE谱密度内插造成的不同语音帧之间总功率不同程度的波动。另外,LSF系数提取算法不能确保实际LSF系数是升序的,因此提出一种LSF系数优化方案,分别在两个方向上进行局部微调,并直接将两者平均作为LSF系数的最终结果。实验结果表明,上述改进算法能够有效降低LP谱包络估计误差并避免合成语音出现局部异常尖峰,语音听觉质量提高。低码率MBE声码器通常采用重新生成方式得到浊音谐波相位信息,现有的相位生成算法容易引起语音波形失衡,相应语音信号的峰均比偏高,从而导致信号饱和失真概率增加或系统待机时间缩短,因此提出一种基于计算机遍历搜索的最佳初始相位设计方法,在假设各次谐波分量均为浊音的情况下为各次谐波分量任意分配一个初始相位,将最小峰值信号波形所对应的一组相位作为最佳初始相位。由此所得到的最佳初始相位能够用于在极少存储资源消耗和不增加额外的复杂度的情况下抑制语音波形出现失衡,具有很强的实用性和应用价值。
|
全文目录
摘要 4-6 Abstract 6-12 1 绪论 12-31 1.1 研究背景及意义 12-13 1.2 MBE声码器的基本模型 13-19 1.3 MBE声码器的研究与发展 19-28 1.4 本文的创新性及内容安排 28-31 2 基于自适应双路径基音跟踪算法的基音估计 31-57 2.1 基于传统双路径基音跟踪算法的基音估计 31-40 2.2 构造全新的差值不等式形式约束方程 40-41 2.3 倍/次基音干扰特性研究 41-45 2.4 双门限自适应双路径基音跟踪算法 45-51 2.5 全范围自适应双路径基音跟踪算法 51-56 2.6 本章小结 56-57 3 子带清浊音判决优化算法 57-77 3.1 传统子带清浊音判决算法 57-61 3.2 基于谱分布特性的子带划分方式 61-66 3.3 基于相关增强的子带清浊音判决算法 66-76 3.4 本章小结 76-77 4 谱幅度估计改进算法 77-90 4.1 谱幅度估计 77-82 4.2 MBE谱密度内插修正 82-85 4.3 LSF系数优化 85-89 4.4 本章小结 89-90 5 基于最佳初始相位设计的语音合成 90-100 5.1 语音合成模型 90-93 5.2 语音波形失衡实验 93-96 5.3 最佳初始相位设计 96-99 5.4 实验结果及其分析 99 5.5 本章小结 99-100 6 总结和展望 100-103 6.1 本文总结 100-101 6.2 未来工作展望 101-103 致谢 103-104 参考文献 104-113 附录1 攻读博士学位期间发表学术论文目录 113
|
相似论文
- 声道频响合成方法在军队姓名语音库的应用,TN912.3
- 基于嵌入式Linux语音合成关键技术的研究与实现,TN912.33
- 潮汕方言文语转换系统的研究与实现,TP391.1
- 基于小波变换的重叠语音信号分离,TN912.3
- 基于声场景分析的混叠语音信号分离,TN912.3
- 基于DSP的中文电子阅读系统的研究,TP391.1
- 一种改进的语音合成方法,TN912.3
- 基于二元语义标注的波形拼接语音合成,TP391.42
- 文本-可视语音合成系统的研究及实现,TN912.3
- 船载航行数据记录仪中的驾驶台语音通信增强和压缩处理,U675.7
- 嵌入式语音合成系统的研究与实现,TN912.34
- 基于E2C编码算法的VOIP系统,TN916.2
- 基于最佳小波包分解的语音压缩研究,TN912.3
- 智能机器人的语音技术研究,TP242
- 基于嵌入式系统的文本图像识别技术研究,TP391.41
- IP电话服务质量研究及改进,TN916.2
- 基于语料库的维吾尔语语音合成系统的研究与实现,TN912.33
- 基于韵律的蒙古语语音合成研究,H212
- 基于统计模型与发音错误检测的语音合成方法研究,TN912.33
- 个性化语音生成研究,TN912.3
- 真实感汉语可视语音合成关键技术研究,TN912.33
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com
|