学位论文 > 优秀研究生学位论文题录展示

基于缺失特征的文本无关说话人识别鲁棒性研究

作　者: 陆伟
导　师: 戴蓓蒨
学　校: 中国科学技术大学
专　业: 信号与信息处理
关键词: 说话人识别说话人确认基音频率中国科学技术大学识别系统谱减法信噪比高斯模型谱包络重建方法
分类号: TN912.34
类　型: 博士论文
年　份: 2008年
下　载: 303次
引　用: 3次
阅　读: 论文下载

内容摘要

随着说话人身份识别研究的深入,提高实用环境下文本无关说话人识别系统性能鲁棒性已成为当前研究的重点。以高斯混合模型(Gaussian Mixture Model,GMM)为代表的概率统计模型由于可以有效的描述语音特征参数数据集分布,成为文本无关说话人识别领域的主流技术,但基于概率统计模型的说话人识别系统的性能有赖于语音参数数据集,尤其是训练与测试特征数据集的匹配程度。然而,实用环境下由于背景噪声的不同影响、传输通道的多样性,使得测试特征数据集与训练集失配,而导致了系统性能的下降。本文主要研究减少测试特征集与训练特征集间的失配程度以提高系统性能鲁棒性的方法,根据环境对语音中不同时频段污染程度不同,以及语音信号本身的冗余性,深入研究语音特征参数中受污染严重的缺失特征的筛选和重建方法。主要研究内容如下:1.给出了一种基于谱减法语音增强的说话人识别方法,采用改进的谱减法,直接由增强后的语音功率谱提取MFCC参数。在不同信噪比的白噪声和F16战斗机噪声环境的实验表明,谱减法可以在一定程度上提高噪声环境下系统的识别性能。分析并指出了语音增强方法很难得到信号在受噪声污染严重的频段的准确估计,这是限制语音增强方法进一步提高系统鲁棒性的重要原因。2.根据噪声对语音中不同时频段的影响程度不同,及语音信号本身含有很多冗余信息,给出了一种基于子带信噪比阈值的缺失特征边缘化说话人识别方法,利用子带信噪比将Mel子带特征的各维分量分为可靠特征与缺失特征,只用可靠特征对话者模型计算边缘化输出概率评分。由于将受污染严重的缺失特征丢弃,使系统噪声鲁棒性得到较大提高。在此基础上,又给出了一种基于谱减和缺失特征边缘化相结合的说话人识别方法,使系统性能得到进一步提高。3.给出了基于Mel子带相关性进行缺失特征重建的方法,根据同一个语音特征类的协方差关系,由说话人可靠特征进行缺失特征重建。提出了两种基于统计分布模型的特征重建方法:基于聚类单高斯模型的缺失特征重建和基于GMM模型的缺失特征重建方法,前一个方法是先聚类,再对子集特征进行高斯分布描述,而后一种方法则将两者合并一起做,从而能更精细地描述出整个特征集的统计分布,以及各个分布间的关系。实验表明,与缺失特征边缘化方法相比,缺失特征重建方法进一步提高了说话人识别系统在噪声环境下的性能。4.分析发现了基音频率会影响MFCC参数对声道特性的准确描述,进而影响说话人识别系统的性能;由此提出了一种基于平滑幅度谱的SMFCC参数(Smoothing MFCC),实验表明,SMFCC参数性能在整体上优于MFCC参数,在女性说话人数据集上识别性能提高尤其明显,并且具有更好的时间鲁棒性。

全文目录

摘要  5-7
ABSTRACT  7-9
目录  9-11
第1章绪论  11-21
  1.1 说话人识别概述  11-12
  1.2 文本无关的说话人识别  12-15
    1.2.1 说话人识别系统基本组成  12-14
    1.2.2 说话人辨认与说话人确认  14-15
    1.2.3 文本无关说话人识别系统  15
  1.3 背景噪声对说话人识别系统的影响  15-18
  1.4 本文主要研究内容  18-21
第2章基于MFCC与GMM的说话人识别  21-35
  2.1 引言  21-22
  2.2 MFCC参数  22-26
  2.3 高斯混合模型  26-30
    2.3.1 对角化协方差假设  27-28
    2.3.2 模型参数估计  28-30
      2.3.2.1 最大似然准则  28-29
      2.3.2.2 最大似然估计  29-30
  2.4 实验与讨论  30-34
    2.4.1 实验数据库  30-31
    2.4.2 GMM模型混合度大小的影响  31-32
    2.4.3 训练集的影响  32-33
    2.4.4 背景噪声的影响  33-34
  2.5 本章小结  34-35
第3章谱减法用于噪声环境下说话人识别  35-47
  3.1 引言  35
  3.2 基于谱减法的语音增强  35-41
  3.3 基于谱减法增强的说话人识别实验  41-43
    3.3.1 基于谱减法增强的MFCC参数提取  41-42
    3.3.2 实验结果  42-43
  3.4 谱减法语音增强的不足之处  43-46
  3.5 本章小结  46-47
第4章基于子带信噪比阈值的缺失特征边缘化识别方法  47-61
  4.1 引言  47
  4.2 缺失特征边缘化识别方法  47-50
    4.2.1 随机丢弃Mel子带特征对系统识别率的影响  48-50
  4.3 基于子带信噪比阈值的缺失特征判决  50-52
  4.4 基于缺失特征边缘化方法的说话人识别实验  52-57
    4.4.1 缺失特征阈值的选取  53-54
    4.4.2 理想缺失特征估计时的说话人识别  54-55
    4.4.3 实际缺失特征估计时的说话人识别  55-57
  4.5 谱减与缺失特征边缘化相结合的识别方法  57-58
  4.6 缺失特征边缘化识别方法的不足之处  58-60
  4.7 本章小结  60-61
第五章缺失特征重建方法  61-77
  5.1 引言  61-62
  5.2 基于Mel子带特征相关性的缺失特征重建  62-65
    5.2.1 各维Mel子带之间的相关性  62-65
    5.2.2 Mel子带特征相关性用于缺失特征重建  65
  5.3 基于聚类单高斯模型的缺失特征重建  65-73
    5.3.1 基于聚类单高斯模型的特征分布描述  66-68
    5.3.2 基于最大后验概率准则的缺失特征重建  68-70
    5.3.3 基于聚类单高斯模型的缺失特征重建实验  70-73
      5.3.3.1 缺失特征重建实验  70
      5.3.3.2 说话人识别实验  70-73
  5.4 基于高斯混合模型的缺失特征重建  73-76
    5.4.1 基于GMM缺失特征重建的说话人识别实验  75-76
  5.5 本章小结  76-77
第六章基于SMFCC参数的说话人识别系统  77-99
  6.1 引言  77-78
  6.2 基音频率对MFCC参数的影响  78-80
  6.3 MFCC参数中的基频信息对说话人识别的影响  80-84
  6.4 SMFCC参数的提取  84-91
    6.4.1 基于SEEVOC算法谱包络估计的SMFCC参数  84-88
    6.4.2 基于平均阈值法谱包络估计的SMFCC参数  88-91
  6.5 SMFCC改进系统的时间鲁棒性  91-93
  6.6 基于SMFCC与UBM\GMM模型的说话人识别系统  93-97
    6.6.1 UBM-MAP结构的说话人识别模型  93-95
    6.6.2 实验结果与讨论  95-97
  6.7 本章小结  97-99
第7章总结与展望  99-103
参考文献  103-109
致谢  109-111
攻读学位期间的主要研究工作和论文发表情况  111

基于缺失特征的文本无关说话人识别鲁棒性研究

内容摘要

全文目录

相似论文