学位论文 > 优秀研究生学位论文题录展示

基于缺失特征的文本无关说话人识别鲁棒性研究

作 者: 陆伟
导 师: 戴蓓蒨
学 校: 中国科学技术大学
专 业: 信号与信息处理
关键词: 说话人识别 说话人确认 基音频率 中国科学技术大学 识别系统 谱减法 信噪比 高斯模型 谱包络 重建方法
分类号: TN912.34
类 型: 博士论文
年 份: 2008年
下 载: 303次
引 用: 3次
阅 读: 论文下载
 

内容摘要


随着说话人身份识别研究的深入,提高实用环境下文本无关说话人识别系统性能鲁棒性已成为当前研究的重点。以高斯混合模型(Gaussian Mixture Model,GMM)为代表的概率统计模型由于可以有效的描述语音特征参数数据集分布,成为文本无关说话人识别领域的主流技术,但基于概率统计模型的说话人识别系统的性能有赖于语音参数数据集,尤其是训练与测试特征数据集的匹配程度。然而,实用环境下由于背景噪声的不同影响、传输通道的多样性,使得测试特征数据集与训练集失配,而导致了系统性能的下降。本文主要研究减少测试特征集与训练特征集间的失配程度以提高系统性能鲁棒性的方法,根据环境对语音中不同时频段污染程度不同,以及语音信号本身的冗余性,深入研究语音特征参数中受污染严重的缺失特征的筛选和重建方法。主要研究内容如下:1.给出了一种基于谱减法语音增强的说话人识别方法,采用改进的谱减法,直接由增强后的语音功率谱提取MFCC参数。在不同信噪比的白噪声和F16战斗机噪声环境的实验表明,谱减法可以在一定程度上提高噪声环境下系统的识别性能。分析并指出了语音增强方法很难得到信号在受噪声污染严重的频段的准确估计,这是限制语音增强方法进一步提高系统鲁棒性的重要原因。2.根据噪声对语音中不同时频段的影响程度不同,及语音信号本身含有很多冗余信息,给出了一种基于子带信噪比阈值的缺失特征边缘化说话人识别方法,利用子带信噪比将Mel子带特征的各维分量分为可靠特征与缺失特征,只用可靠特征对话者模型计算边缘化输出概率评分。由于将受污染严重的缺失特征丢弃,使系统噪声鲁棒性得到较大提高。在此基础上,又给出了一种基于谱减和缺失特征边缘化相结合的说话人识别方法,使系统性能得到进一步提高。3.给出了基于Mel子带相关性进行缺失特征重建的方法,根据同一个语音特征类的协方差关系,由说话人可靠特征进行缺失特征重建。提出了两种基于统计分布模型的特征重建方法:基于聚类单高斯模型的缺失特征重建和基于GMM模型的缺失特征重建方法,前一个方法是先聚类,再对子集特征进行高斯分布描述,而后一种方法则将两者合并一起做,从而能更精细地描述出整个特征集的统计分布,以及各个分布间的关系。实验表明,与缺失特征边缘化方法相比,缺失特征重建方法进一步提高了说话人识别系统在噪声环境下的性能。4.分析发现了基音频率会影响MFCC参数对声道特性的准确描述,进而影响说话人识别系统的性能;由此提出了一种基于平滑幅度谱的SMFCC参数(Smoothing MFCC),实验表明,SMFCC参数性能在整体上优于MFCC参数,在女性说话人数据集上识别性能提高尤其明显,并且具有更好的时间鲁棒性。

全文目录


摘要  5-7
ABSTRACT  7-9
目录  9-11
第1章 绪论  11-21
  1.1 说话人识别概述  11-12
  1.2 文本无关的说话人识别  12-15
    1.2.1 说话人识别系统基本组成  12-14
    1.2.2 说话人辨认与说话人确认  14-15
    1.2.3 文本无关说话人识别系统  15
  1.3 背景噪声对说话人识别系统的影响  15-18
  1.4 本文主要研究内容  18-21
第2章 基于MFCC与GMM的说话人识别  21-35
  2.1 引言  21-22
  2.2 MFCC参数  22-26
  2.3 高斯混合模型  26-30
    2.3.1 对角化协方差假设  27-28
    2.3.2 模型参数估计  28-30
      2.3.2.1 最大似然准则  28-29
      2.3.2.2 最大似然估计  29-30
  2.4 实验与讨论  30-34
    2.4.1 实验数据库  30-31
    2.4.2 GMM模型混合度大小的影响  31-32
    2.4.3 训练集的影响  32-33
    2.4.4 背景噪声的影响  33-34
  2.5 本章小结  34-35
第3章 谱减法用于噪声环境下说话人识别  35-47
  3.1 引言  35
  3.2 基于谱减法的语音增强  35-41
  3.3 基于谱减法增强的说话人识别实验  41-43
    3.3.1 基于谱减法增强的MFCC参数提取  41-42
    3.3.2 实验结果  42-43
  3.4 谱减法语音增强的不足之处  43-46
  3.5 本章小结  46-47
第4章 基于子带信噪比阈值的缺失特征边缘化识别方法  47-61
  4.1 引言  47
  4.2 缺失特征边缘化识别方法  47-50
    4.2.1 随机丢弃Mel子带特征对系统识别率的影响  48-50
  4.3 基于子带信噪比阈值的缺失特征判决  50-52
  4.4 基于缺失特征边缘化方法的说话人识别实验  52-57
    4.4.1 缺失特征阈值的选取  53-54
    4.4.2 理想缺失特征估计时的说话人识别  54-55
    4.4.3 实际缺失特征估计时的说话人识别  55-57
  4.5 谱减与缺失特征边缘化相结合的识别方法  57-58
  4.6 缺失特征边缘化识别方法的不足之处  58-60
  4.7 本章小结  60-61
第五章 缺失特征重建方法  61-77
  5.1 引言  61-62
  5.2 基于Mel子带特征相关性的缺失特征重建  62-65
    5.2.1 各维Mel子带之间的相关性  62-65
    5.2.2 Mel子带特征相关性用于缺失特征重建  65
  5.3 基于聚类单高斯模型的缺失特征重建  65-73
    5.3.1 基于聚类单高斯模型的特征分布描述  66-68
    5.3.2 基于最大后验概率准则的缺失特征重建  68-70
    5.3.3 基于聚类单高斯模型的缺失特征重建实验  70-73
      5.3.3.1 缺失特征重建实验  70
      5.3.3.2 说话人识别实验  70-73
  5.4 基于高斯混合模型的缺失特征重建  73-76
    5.4.1 基于GMM缺失特征重建的说话人识别实验  75-76
  5.5 本章小结  76-77
第六章 基于SMFCC参数的说话人识别系统  77-99
  6.1 引言  77-78
  6.2 基音频率对MFCC参数的影响  78-80
  6.3 MFCC参数中的基频信息对说话人识别的影响  80-84
  6.4 SMFCC参数的提取  84-91
    6.4.1 基于SEEVOC算法谱包络估计的SMFCC参数  84-88
    6.4.2 基于平均阈值法谱包络估计的SMFCC参数  88-91
  6.5 SMFCC改进系统的时间鲁棒性  91-93
  6.6 基于SMFCC与UBM\GMM模型的说话人识别系统  93-97
    6.6.1 UBM-MAP结构的说话人识别模型  93-95
    6.6.2 实验结果与讨论  95-97
  6.7 本章小结  97-99
第7章 总结与展望  99-103
参考文献  103-109
致谢  109-111
攻读学位期间的主要研究工作和论文发表情况  111

相似论文

  1. 网络语音传输丢包的恢复技术,TN912.3
  2. 基于小波变换的语音信号去噪及其DSP算法实现,TN912.3
  3. 基于∑-Δ调制的水声信号发射机研究,TN761
  4. 基于运动目标轨迹分析的智能交通监控系统,TP277
  5. 压感式指纹识别系统及算法研究,TP391.41
  6. 复杂场景中运动目标的检测与跟踪,TP391.41
  7. 基于量子搜索的Ad Hoc网络路由协议研究,TN929.5
  8. 复杂背景下车牌定位的研究与设计,TP391.41
  9. 数字助听器中汉语语音处理及语音增强的研究,TN912.3
  10. 安防监控系统中运动目标检测算法研究,TP391.41
  11. 运动目标检测与跟踪的研究,TP391.41
  12. OFDM基带自适应调制与编码算法的研究与实现,TN911.22
  13. 数字助听器中语音增强技术的研究,TN912.35
  14. Ⅵ视觉识别系统在高校校庆中的应用研究,J524
  15. MIMO系统信道容量的研究与分析,TN919.3
  16. 随机行列循环移位交织器及量子交织器的研究,TN911.22
  17. 基于二元光学的耦合透镜与阵列天线研究,TN820.15
  18. SAR图像可匹配性研究,TN957.52
  19. 大流量环境下实时P2P流媒体行为识别系统设计与实现,TN919.8
  20. NMR测井仪传感器分析及其噪声匹配研究,TP212
  21. 视频监控系统中的运动目标检测算法研究,TP391.41

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com