学位论文 > 优秀研究生学位论文题录展示
不匹配信道下耳语音说话人识别研究
作 者: 顾晓江
导 师: 赵鹤鸣
学 校: 苏州大学
专 业: 信号与信息处理
关键词: 耳语音 说话认识别 联合因子分析 混合补偿 支持向量机
分类号: TN912.34
类 型: 硕士论文
年 份: 2011年
下 载: 29次
引 用: 1次
阅 读: 论文下载
内容摘要
耳语音作为人类的一种辅助发音方式,在日常生活中起着较为广泛的作用,尤其是在金融领域,公安司法领域中各种身份的确认。说话者为了保证信息的私密性,常常会用到耳语音。正因如此,耳语音说话人识别也作为一个新的课题被提出来。耳语音主要是用在手机通话中,语音必然会受到信道畸变的影响。传统的识别模型遇到训练和测试的信道环境差异变大时,识别率就会大大受到影响。因此,必然需要一种稳健的信道补偿算法来增强这个说话人识别系统。为了解决这个问题,本文做了以下几个方面的工作:一、将各种信道的耳语音数据混合在一起训练通用背景模型(UBM),然后在此基础上进行最大后验概率(MAP)自适应获得说话人模型,将此模型和常规的GMM模型进行识别率的比较。实验证明,UBM模型优于普通的GMM。二、将联合因子分析(JFA)应用到耳语识别中,根据耳语数据库的特性,采取分开估计和省略残差空间的方法。具体在识别过程中,通过将训练所得的说话人因子和测试所得的信道因子相结合的方式,达到说话人不断适应测试信道环境的目的。实验结果显示修改后JFA的识别效果大大提升。另外,根据JFA在短时识别方面效果不理想,提出了一种在模型上保持说话人因子不变,而将信道因子用到特征方面,对每一帧特征矢量进行补偿的混合补偿法,该方法相对于JFA来说补偿的更为细致,实验显示HH信道训练时1s和2s平均识别率分别提高4.36%和3.89%,EP信道训练时1s和2s平均识别率分别提高4.14%和2.64%。三、根据支持向量机(SVM)的区分性,将说话人超向量输入到SVM中,结果系统性能不如UBM-MAP系统。这时将说话人因子矢量输入到SVM中,由于说话人因子在辨认系统中特征维数低,易线性可分,获得了良好的识别效果。然后经过三种信道补偿方法进一步去冗余,取得了和JFA相当的识别结果。
|
全文目录
摘要 4-5 Abstract 5-10 第一章 绪论 10-15 1.1 耳语音研究背景 10 1.2 耳语音说话人识别研究现状 10-12 1.3 耳语音数据库介绍 12-13 1.4 本文的主要工作 13-14 1.5 论文结构 14-15 第二章 耳语音发音特点 15-22 2.1 耳语音的声理特性 15-17 2.2 耳语音不同信道的时频特点 17-22 2.2.1 时域特点 17-19 2.2.2 频域特点 19-22 第三章 基于GMM 的耳语说话人识别系统 22-39 3.1 常用的模型训练方法 23-24 3.2 特征参数 24-28 3.2.1 特征预处理 24-25 3.2.2 MFCC 提取 25-28 3.2.3 一阶差分参数 28 3.3 模型训练与识别 28-33 3.3.1 K 均值聚类算法 29-31 3.3.2 EM 算法 31-32 3.3.3 系统的构建 32-33 3.4 基于UBM-MAP的说话人识别系统 33-36 3.4.1 通用背景模型(UBM)概述 33-34 3.4.2 系统的训练与测试 34-36 3.5 两种系统的结果及分析 36-39 第四章 复杂信道环境中耳语说话人识别 39-58 4.1 常用的信道补偿技术 39-42 4.1.1 特征域 39-41 4.1.2 模型域 41-42 4.1.3 得分域 42 4.2 联合因子分析(JOINT FACTOR ANALYSIS) 42-44 4.2.1 因子分析与主成分分析的区别 42 4.2.2 GMM 均值超向量提取 42-43 4.2.3 联合因子分析概述 43-44 4.3 基于JFA的说话人辨认模型 44-49 4.3.1 UBM 和Baum-Welch 统计量计算 45-46 4.3.2 说话人空间和信道空间估计 46-47 4.3.3 残差空间估计 47-48 4.3.4 JFA 的训练与测试 48-49 4.4 实验结果及分析 49-52 4.5 改进JFA在短时方面的测试 52-58 4.5.1 常用的方法 52-53 4.5.2 提出的混合补偿法 53-54 4.5.3 提出方法的实验结果及分析 54-58 第五章 基于支持向量机的耳语说话人识别 58-76 5.1 支持向量机概述 58-63 5.1.1 最优分界面 58-59 5.1.2 基本原理及算法 59-62 5.1.3 常用核函数 62-63 5.2 基于超向量和SVM 的耳语说话人识别 63-67 5.2.1 超向量线性核函数 63-64 5.2.2 SVM 的实现平台 64-66 5.2.3 基于超向量的系统识别结果 66-67 5.3 因子分析下的耳语说话人识别 67-73 5.3.1 类内协方差规整(WCCN) 69-71 5.3.2 线性判别分析(LDA) 71-72 5.3.3 冗余属性投影(NAP) 72-73 5.4 基于说话人因子的系统识别结果 73-76 第六章 总结与展望 76-78 6.1 论文总结 76-77 6.2 今后展望 77-78 参考文献 78-83 攻读硕士学位期间发表的学术论文 83-84 致谢 84-85
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 软测量技术在氯甲烷回收中的应用研究,TQ222.214
- 基于改进的支持向量机的模拟电路故障诊断方法研究,TN710
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 外骨骼系统中控制信号的分析与处理,TN911.7
- 混沌时间序列一种长期预测方法研究,O415.5
- 面向三网融合的故障管理系统的研究及实现,TP315
- 基于机器学习的microRNA基因预测,R346
- 铁合金冶炼矿热炉电极位置检测建模及优化设定研究,TF63
- 支持向量机核函数的参数选择方法,TP18
- 乙肝病毒性肝硬化的血清代谢轮廓分析,R512.62
- 非平衡数据集分类方法研究及其在电信行业中的应用,TP311.13
- 基于自学习的社会关系抽取的研究,TP391.1
- 基于支持向量机运动预测的稳像技术,TP751
- 智能视频监控中的目标检测技术研究,TP391.41
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com
|