学位论文 > 优秀研究生学位论文题录展示

基于排序GMM的说话人确认的研究

作 者: 余巍
导 师: 李辉
学 校: 中国科学技术大学
专 业: 电路与系统
关键词: 文本无关的说话人确认 通用背景模型 高斯混合模型 排序高斯混合模型 搜索宽度
分类号: TN912.34
类 型: 硕士论文
年 份: 2011年
下 载: 63次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着社会的不断进步和文明的不断发展,要求对特定说话人的身份进行鉴定的要求也越来越高。在所有的认证技术中,生物特征认证技术因其基于人类自身的生理和行为等特性的独特优势而得到广泛的应用,显示出生物特征认证技术在实际应用中的广阔前景。在已有的生物特征认证技术中,与文本无关的说话人确认被认为是最自然的生物特征认证技术之一,它是通过特定说话人的语音进行说话人身份认证的,也是语音识别研究中非常重要的一个研究方向。绝大多数的与文本无关的说话人确认系统都是基于短时倒谱参数和GMM-UBM-MAP模型结构的,采用这种结构的与文本无关的说话人确认系统已经达到了很高的识别率。系统的识别性能和运算量是选择说话人确认系统的两个最重要的标准。在传统的训练UBM过程中,对于每一个输入特征矢量,需要计算UBM中所有高斯分量的似然分,由于UBM采用高阶的高斯混合模型,并且是由大量的不同冒认者语音训练得到,所以训练UBM的运算量相当大,这在一定程度上限制了基于GMM-UBM-MAP结构的说话人确认系统的应用。针对与文本无关的说话人确认问题,本文深入研究了减少训练UBM的运算量,提高训练UBM的速度的方法。主要研究内容如下:1.详细介绍了基于GMM-UBM-MAP结构的与文本无关的说话人确认系统,讨论了GMM的训练算法和MAP算法。2.介绍了具有良好区分性的SVM模型,深入讨论了SVM应用于说话人确认系统中面临的问题,并比较了GMM-UBM-MAP结构和GMM-Sup-SVM结构的与文本无关的说话人确认系统的性能。3.介绍了两种基于短时分析的声道倒谱参数MFCC、LPCC的提取方法,并且讨论了它们在说话人确认中的有效性和鲁棒性。4.深入分析了训练UBM模型过程中运算量大的问题,介绍一种基于排序高斯混合模型的训练UBM的方法,该方法可以降低训练UBM的运算量,提高训练UBM的速度,它将UBM中各个混合度按照预定的准则进行顺序排列,输入的训练语音帧只需要参与到所有混合度中的部分高斯分量的训练中,从而降低训练UBM的运算量。采用排序高斯混合模型方法训练UBM后,不仅降低训练UBM的运算量,而且几乎不影响系统的识别性能。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-17
  1.1 说话人识别概述  9
  1.2 说话人识别的发展历程  9-11
  1.3 说话人确认系统的组成结构  11-12
  1.4 说话人确认系统的评估标准  12-14
    1.4.1 错误接受率FA 和错误拒绝率FR  12-13
    1.4.2 等误识率EER  13
    1.4.3 DET 曲线  13
    1.4.4 检测代价函数.  13-14
  1.5 论文的主要内容和安排  14-17
第2章 基于 GMM-UBM-MAP 的说话人确认  17-25
  2.1 引言  17
  2.2 高斯混合模型  17-20
    2.2.1 高斯混合模型的原理  17-19
    2.2.2 高斯混合模型参数的训练  19-20
  2.3 基于 GMM-UBM 的说话人确认系统  20-24
    2.3.1 GMM-UBM 结构  20-21
    2.3.2 MAP 自适应算法  21-23
    2.3.3 GMM-UBM-MAP 系统性能分析  23-24
  2.4 本章小结  24-25
第3章 SVM 说话人模型  25-41
  3.1 引言  25
  3.2 支持向量机  25-36
    3.2.1 基于风险最小的机器学习方法  26-27
    3.2.2 线性判决边界.  27-32
    3.2.3 非线性判决边界  32-34
    3.2.4 核函数  34-36
  3.3 基于 SVM 的说话人模型  36-39
    3.3.1 SVM 说话人模型的建模策略  36
    3.3.2 核函数的选择.  36-37
    3.3.3 惩罚系数C 的选择.  37
    3.3.4 GMM 大矢量  37-38
    3.3.5 GMM-Sup-SVM 系统性能分析  38-39
  3.4 本章小结  39-41
第4章 短时倒谱参数  41-51
  4.1 引言  41-42
  4.2 语音信号的前端处理  42-43
  4.3 短时倒谱参数  43-49
    4.3.1 语音信号的倒谱分析  43-44
    4.3.2 线性预测倒谱参数(LPCC)  44-45
    4.3.3 Mel 频率倒谱参数(MFCC)  45-48
    4.3.4 参数级通道噪声抗噪方法  48
    4.3.5 短时倒谱参数的识别性能实验  48-49
  4.4 本章小结  49-51
第5章 聚类和排序 GMM 相结合应用于训练 UBM  51-57
  5.1 引言  51
  5.2 聚类分析  51-52
  5.3 排序高斯混合模型  52-56
    5.3.1 排序码本矢量量化  52-53
    5.3.2 排序高斯混合模型  53-54
    5.3.3 算法说明.  54-55
    5.3.4 排序GMM 方法训练UBM 的性能分析  55-56
  5.4 本章小结  56-57
第6章 总结与展望  57-59
参考文献  59-63
致谢  63-64
在读期间发表的学术论文与取得的其他研究成果  64

相似论文

  1. 高质量语音转换系统中关键技术的研究,TN912.3
  2. 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
  3. 多特征融合的视觉跟踪算法研究,TP391.41
  4. 无线传感器网络中的追击者—逃跑者跟踪问题研究,TP212.9
  5. 高斯混合模型及在探测网络社区结构中的应用,TP393.094
  6. 基于锚空间的音频场景识别方法研究,TN912.34
  7. 基于语音信号的情绪识别研究,TN912.34
  8. 互联网才艺表演音频分类的研究,TP393.09
  9. 色情视频的音频辅助识别,TN912.34
  10. 基于区域聚类的SAR图像分割方法研究,TN957.52
  11. 会议室环境下基于音频视频信息融合的多说话人识别,TN912.34
  12. 宽带音频的非线性频带展宽技术,TN912.3
  13. EM算法研究及其遥感分类应用,TP751
  14. 基于有限混合模型的自动图像标注研究,TP391.41
  15. 基于EM算法的模型聚类的研究及应用,TP18
  16. 基于GMM和SVM的音频分类算法,TN912.3
  17. 广播音频的分割分类算法研究,TN912.3
  18. 信道失配条件下的话者确认研究,TN912.34
  19. 维纳混合滤波器及交通流预测算法研究,U491
  20. 声纹密码识别的关键问题研究,TN918.2

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com