学位论文 > 优秀研究生学位论文题录展示

说话人识别中集外话者的拒识方法研究

作 者: 张光成
导 师: 韩纪庆
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 说话人识别 说话人确认 话者拒识 高斯混合模型 特征变化统计量
分类号: TN912.34
类 型: 硕士论文
年 份: 2009年
下 载: 26次
引 用: 1次
阅 读: 论文下载
 

内容摘要


尽管在实验室环境下,说话人识别系统已经取得了较好的效果,但是现实中的很多因素使得系统性能明显下降,为了提高系统实用化程度,还需要解决很多问题,其中最关键的问题之一,就是如何在大量集外话者存在的情况下提高系统对集外话者的拒识性能。对于大量集外话者存在的问题,本文采用高斯混合模型-通用背景模型(Gaussian Mixture Model-Uniform Background Model, GMM-UBM)对说话人建模,以此为基础从说话人集内外分类和说话人确认两个方面研究如何减少系统对集外话者的误识。在说话人集内外分类方面,利用基准说话人识别系统收集的误识数据集和所有目标说话人的训练数据,采用最大化后验概率(Maximum A Posterior Probability, MAP)自适应方法,分别从UBM自适应得到集外模型和集内模型,根据测试语音在集内集外模型的得分进行集内外分类;在说话人确认方面,分别利用冒认者模型和语音特征变化统计量进行确认。冒认者模型是用基准系统收集的该说话人的全部误识数据从UBM自适应来的。语音特征变化统计量确认是本文提出的一种新的说话人确认方法,其主要利用了说话人的特征变化规律,计算目标说话人特征变化统计量,根据测试语音与说话人训练语音统计量的相似度进行确认。为了更进一步地提高系统的拒识性能,本文还采用了多种拒识方法融合的策略。实验结果表明集内外分类、冒认者辨识和特征变化统计量确认都能很好地提高系统的拒识性能,其中特征变化统计量确认方法不但可扩展性好,而且拒识效果最好,当召回率为95%时,错误接受率降低为基准系统的9%。三种拒识方法结合使用的效果最好,当召回率为95%时,错误接受率降低为基准系统的1.2%。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-14
  1.1 研究目的和意义  8-9
  1.2 国内外研究现状  9-13
    1.2.1 说话人识别的历史及现状  9-10
    1.2.2 说话人识别及集外话者拒识的主要方法  10-13
  1.3 本文的研究内容  13-14
第2章 基准说话人识别系统  14-25
  2.1 引言  14-15
  2.2 语料库  15
  2.3 基准说话人识别系统的建立  15-24
    2.3.1 特征提取  17-21
    2.3.2 说话人模型建立  21-23
    2.3.3 识别与判决策略  23-24
  2.4 本章小结  24-25
第3章 基于分类的集外话者拒识方法  25-39
  3.1 引言  25
  3.2 GMM-UBM 结构  25-32
    3.2.1 高斯混合模型  25-29
    3.2.2 基于MAP 的模型自适应  29-32
  3.3 集内外话者辨识  32-36
    3.3.1 集内外辨识方法  32-34
    3.3.2 集内和集外模型训练方法  34-35
    3.3.3 判决策略  35-36
  3.4 实验与讨论  36-38
  3.5 本章小结  38-39
第4章 基于说话人确认的集外话者拒识方法  39-54
  4.1 引言  39
  4.2 基于冒认者辨识的说话人确认方法  39-44
    4.2.1 说话人确认中的背景模型  40-41
    4.2.2 冒认者辨识方法  41-44
  4.3 基于特征变化统计量的说话人确认方法  44-45
  4.4 实验和讨论  45-53
    4.4.1 冒认者辨识  46
    4.4.2 特征变化统计量  46-47
    4.4.3 集外话者拒识方法融合  47-51
    4.4.4 实验总结和讨论  51-53
  4.5 本章小结  53-54
结论  54-55
参考文献  55-60
致谢  60

相似论文

  1. 高质量语音转换系统中关键技术的研究,TN912.3
  2. 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
  3. 多特征融合的视觉跟踪算法研究,TP391.41
  4. 复杂信道下的说话人识别技术,TN912.34
  5. 基于VC++6.0的说话人识别系统的研究,TN912.34
  6. 无线传感器网络中的追击者—逃跑者跟踪问题研究,TP212.9
  7. 基于混合特征和高斯混合模型的说话人识别研究,TN912.34
  8. 基于Windows CE的说话人识别系统的设计与实现,TN912.34
  9. 说话人识别中特征参数的提取及优化研究,TN912.34
  10. 基于文本无关的说话人识别研究,TN912.34
  11. 高斯混合模型及在探测网络社区结构中的应用,TP393.094
  12. 运动人体检测与异常行为识别技术研究与实现,TP391.41
  13. 面向智能视频监控的事件检测建模及优化,TP391.41
  14. 层析芯片阳性信号的信息提取和定量分析研究,TP391.41
  15. 虚拟人运动合成技术及其工程应用研究,TP391.41
  16. 多路并行实时说话人识别算法研究与实现,TN912.34
  17. 基于因子分析的说话人确认,TN912.34
  18. 关于若干回归模型的研究,O212.1
  19. 基于隐马尔科夫模型的股价走势预测,F830.91
  20. 基于分类及相似性的图像型垃圾邮件检测技术研究,TP393.098
  21. 基于支持向量机的说话人识别系统的开发,TN912.34

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com