学位论文 > 优秀研究生学位论文题录展示

不匹配信道下耳语音说话人识别研究

作 者: 顾晓江
导 师: 赵鹤鸣
学 校: 苏州大学
专 业: 信号与信息处理
关键词: 耳语音 说话认识别 联合因子分析 混合补偿 支持向量机
分类号: TN912.34
类 型: 硕士论文
年 份: 2011年
下 载: 29次
引 用: 1次
阅 读: 论文下载
 

内容摘要


耳语音作为人类的一种辅助发音方式,在日常生活中起着较为广泛的作用,尤其是在金融领域,公安司法领域中各种身份的确认。说话者为了保证信息的私密性,常常会用到耳语音。正因如此,耳语音说话人识别也作为一个新的课题被提出来。耳语音主要是用在手机通话中,语音必然会受到信道畸变的影响。传统的识别模型遇到训练和测试的信道环境差异变大时,识别率就会大大受到影响。因此,必然需要一种稳健的信道补偿算法来增强这个说话人识别系统。为了解决这个问题,本文做了以下几个方面的工作:一、将各种信道的耳语音数据混合在一起训练通用背景模型(UBM),然后在此基础上进行最大后验概率(MAP)自适应获得说话人模型,将此模型和常规的GMM模型进行识别率的比较。实验证明,UBM模型优于普通的GMM。二、将联合因子分析(JFA)应用到耳语识别中,根据耳语数据库的特性,采取分开估计和省略残差空间的方法。具体在识别过程中,通过将训练所得的说话人因子和测试所得的信道因子相结合的方式,达到说话人不断适应测试信道环境的目的。实验结果显示修改后JFA的识别效果大大提升。另外,根据JFA在短时识别方面效果不理想,提出了一种在模型上保持说话人因子不变,而将信道因子用到特征方面,对每一帧特征矢量进行补偿的混合补偿法,该方法相对于JFA来说补偿的更为细致,实验显示HH信道训练时1s和2s平均识别率分别提高4.36%和3.89%,EP信道训练时1s和2s平均识别率分别提高4.14%和2.64%。三、根据支持向量机(SVM)的区分性,将说话人超向量输入到SVM中,结果系统性能不如UBM-MAP系统。这时将说话人因子矢量输入到SVM中,由于说话人因子在辨认系统中特征维数低,易线性可分,获得了良好的识别效果。然后经过三种信道补偿方法进一步去冗余,取得了和JFA相当的识别结果。

全文目录


摘要  4-5
Abstract  5-10
第一章 绪论  10-15
  1.1 耳语音研究背景  10
  1.2 耳语音说话人识别研究现状  10-12
  1.3 耳语音数据库介绍  12-13
  1.4 本文的主要工作  13-14
  1.5 论文结构  14-15
第二章 耳语音发音特点  15-22
  2.1 耳语音的声理特性  15-17
  2.2 耳语音不同信道的时频特点  17-22
    2.2.1 时域特点  17-19
    2.2.2 频域特点  19-22
第三章 基于GMM 的耳语说话人识别系统  22-39
  3.1 常用的模型训练方法  23-24
  3.2 特征参数  24-28
    3.2.1 特征预处理  24-25
    3.2.2 MFCC 提取  25-28
    3.2.3 一阶差分参数  28
  3.3 模型训练与识别  28-33
    3.3.1 K 均值聚类算法  29-31
    3.3.2 EM 算法  31-32
    3.3.3 系统的构建  32-33
  3.4 基于UBM-MAP的说话人识别系统  33-36
    3.4.1 通用背景模型(UBM)概述  33-34
    3.4.2 系统的训练与测试  34-36
  3.5 两种系统的结果及分析  36-39
第四章 复杂信道环境中耳语说话人识别  39-58
  4.1 常用的信道补偿技术  39-42
    4.1.1 特征域  39-41
    4.1.2 模型域  41-42
    4.1.3 得分域  42
  4.2 联合因子分析(JOINT FACTOR ANALYSIS)  42-44
    4.2.1 因子分析与主成分分析的区别  42
    4.2.2 GMM 均值超向量提取  42-43
    4.2.3 联合因子分析概述  43-44
  4.3 基于JFA的说话人辨认模型  44-49
    4.3.1 UBM 和Baum-Welch 统计量计算  45-46
    4.3.2 说话人空间和信道空间估计  46-47
    4.3.3 残差空间估计  47-48
    4.3.4 JFA 的训练与测试  48-49
  4.4 实验结果及分析  49-52
  4.5 改进JFA在短时方面的测试  52-58
    4.5.1 常用的方法  52-53
    4.5.2 提出的混合补偿法  53-54
    4.5.3 提出方法的实验结果及分析  54-58
第五章 基于支持向量机的耳语说话人识别  58-76
  5.1 支持向量机概述  58-63
    5.1.1 最优分界面  58-59
    5.1.2 基本原理及算法  59-62
    5.1.3 常用核函数  62-63
  5.2 基于超向量和SVM 的耳语说话人识别  63-67
    5.2.1 超向量线性核函数  63-64
    5.2.2 SVM 的实现平台  64-66
    5.2.3 基于超向量的系统识别结果  66-67
  5.3 因子分析下的耳语说话人识别  67-73
    5.3.1 类内协方差规整(WCCN)  69-71
    5.3.2 线性判别分析(LDA)  71-72
    5.3.3 冗余属性投影(NAP)  72-73
  5.4 基于说话人因子的系统识别结果  73-76
第六章 总结与展望  76-78
  6.1 论文总结  76-77
  6.2 今后展望  77-78
参考文献  78-83
攻读硕士学位期间发表的学术论文  83-84
致谢  84-85

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于三维重建的焊点质量分类方法研究,TP391.41
  4. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  5. 基于支持向量机的故障诊断方法研究,TP18
  6. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  7. 软测量技术在氯甲烷回收中的应用研究,TQ222.214
  8. 基于改进的支持向量机的模拟电路故障诊断方法研究,TN710
  9. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  10. 外骨骼系统中控制信号的分析与处理,TN911.7
  11. 混沌时间序列一种长期预测方法研究,O415.5
  12. 面向三网融合的故障管理系统的研究及实现,TP315
  13. 基于机器学习的microRNA基因预测,R346
  14. 铁合金冶炼矿热炉电极位置检测建模及优化设定研究,TF63
  15. 支持向量机核函数的参数选择方法,TP18
  16. 乙肝病毒性肝硬化的血清代谢轮廓分析,R512.62
  17. 非平衡数据集分类方法研究及其在电信行业中的应用,TP311.13
  18. 基于自学习的社会关系抽取的研究,TP391.1
  19. 基于支持向量机运动预测的稳像技术,TP751
  20. 智能视频监控中的目标检测技术研究,TP391.41

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com