学位论文 > 优秀研究生学位论文题录展示

基于GMM的说话人识别系统研究与实现

作 者: 陈强
导 师: 阙大顺
学 校: 武汉理工大学
专 业: 信号与信息处理
关键词: 语音处理 说话人识别 高斯混合模型 矢量量化 特征提取
分类号: TN912.34
类 型: 硕士论文
年 份: 2010年
下 载: 490次
引 用: 11次
阅 读: 论文下载
 

内容摘要


说话人识别也称声纹识别,其目的是根据说话人的声音特征来完成说话人的辨认或确认。随着网络信息化技术的迅猛发展,身份验证的数字化、隐性化、便捷化显得越来越重要,说话人识别作为一种生物认证技术,在视觉监控、身份验证、司法刑侦及金融安全等领域有着广泛应用前景,成为当前语音信号处理领域的研究热点。说话人识别技术研究的关键是语音信号的特征提取和模式匹配等问题。本文在研究当前说话人识别主要算法的基础上,通过研究基于声学特性的倒谱特征提取方法和基于模板匹配及概率统计的模式匹配方法,研究实现了基于矢量量化VQ的说话人识别系统,重点研究设计了与文本无关的基于混合高斯模型GMM的说话人识别系统。论文主要研究内容如下:(1)总结归纳说话人识别技术的发展、研究热点和难点,分析讨论了现有说话人识别主要算法。(2)分析研究了说话人识别语音预处理,重点对减谱法语音增强算法进行了改进,通过实验分析了语音增强效果,提高了噪声环境下的说话人识别系统的鲁棒性;研究了说话人识别的特征提取原理和方法,仿真实现了说话人基音特征、LPCC和MFCC参数及差分倒谱参数等的提取。(3)在分析VQ基本原理、LBG算法和VQ码本初始化的基础上,设计实现了基于VQ的说话人识别系统,完成了模型参数训练和匹配识别过程,实验分析了不同模型参数及不同语音样本时长下的系统识别性能。(4)为了提高系统识别率和稳定性,在研究GMM模型参数估计期望最大化(EM)算法、模型参数初始化、训练和识别过程的基础上,研究设计了基于GMM的说话人识别系统,并完成了系统仿真实验,分析了不同模型参数、不同特征提取方法、不同语音样本时长和不同信噪比噪声环境下的说话人识别性能。(5)分析了开集说话人识别方法、说话人确认阈值选取方法,研究了一种先辨认后确认的开集说话人识别方法,分析了针对集外冒充说话人的“拒识问题”,并完成了基于VQ和GMM两种模型的开集说话人识别系统性能分析比较。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-14
  1.1 说话人识别研究的目的与意义  9-10
  1.2 说话人识别发展历史和研究现状  10-12
  1.3 论文工作的主要内容  12-14
第2章 说话人识别技术概述  14-19
  2.1 说话人识别的分类  14-15
  2.2 说话人识别的基本原理和系统结构  15
  2.3 说话人识别模式匹配方法  15-17
    2.3.1 模板匹配法  16
    2.3.2 概率统计模型法  16-17
  2.4 说话人识别系统性能评价  17-18
  2.5 本章小结  18-19
第3章 说话人识别语音前端处理和特征提取  19-31
  3.1 语音信号预处理  19-22
  3.2 基于减谱法语音增强的语音前端处理  22-24
    3.2.1 减谱法语音增强基本原理  22-23
    3.2.2 改进减谱法语音增强  23
    3.2.3 减谱法语音增强应用于前端处理实验  23-24
  3.3 说话人识别特征提取  24-30
    3.3.1 基音特征参数提取  25-26
    3.3.2 LPCC特征参数提取  26-28
    3.3.3 MFCC特征参数提取  28-30
  3.4 本章小结  30-31
第4章 基于VQ的说话人识别系统研究与实现  31-39
  4.1 系统基本结构  31-32
  4.2 矢量量化基本原理  32-34
    4.2.1 VQ基本原理  32
    4.2.2 LBG算法  32-33
    4.2.3 初始码本的选定  33-34
  4.3 系统具体实现  34-36
    4.3.1 语音数据库建立  34
    4.3.2 系统模型的训练与识别  34-36
  4.4 实验结果及其分析  36-38
    4.4.1 码本容量对说话人识别系统性能的影响  36-37
    4.4.2 不同的样本训练时间和测试时间对系统性能的影响  37-38
  4.5 本章小结  38-39
第5章 基于GMM的说话人识别系统研究与实现  39-55
  5.1 系统基本结构  39-40
  5.2 高斯混合模型GMM  40-43
    5.2.1 模型描述  40
    5.2.2 模型参数估计  40-42
    5.2.3 模型参数初始化  42-43
  5.3 系统具体实现  43-48
    5.3.1 语音数据库  43-44
    5.3.2 系统模型的训练与识别  44-48
  5.4 实验结果及其分析  48-52
    5.4.1 GMM混合度对系统识别率的影响  48-49
    5.4.2 不同训练语音时长和测试时长对系统识别率的影响  49-51
    5.4.3 噪声环境下说话人识别系统分析  51-52
  5.5 基于VQ和GMM识别系统的性能比较  52-54
  5.6 本章小结  54-55
第6章 总结与展望  55-57
  6.1 论文工作总结  55-56
  6.2 未来工作展望  56-57
致谢  57-58
参考文献  58-61
攻读学位期间发表的论文和参加的科研项目  61
  一、攻读学位期间发表的论文  61
  二、参加的科研项目  61

相似论文

  1. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  2. 基于重叠变换与矢量量化的图像压缩算法及应用研究,TN919.81
  3. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  4. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  5. Q学习在基于内容图像检索技术中的应用,TP391.41
  6. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  7. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  8. 空间交会接近视觉测量方法研究,TP391.41
  9. 图像实时采集、存储与处理方法研究,TP391.41
  10. 唇读中的特征提取、选择与融合,TP391.41
  11. 多币种纸币处理技术的研究与实现,TP391.41
  12. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  13. 基于图像的路面破损识别,TP391.41
  14. 移动机器人视觉检测和跟踪研究,TP242.62
  15. 高光谱与高空间分辨率遥感图像融合算法研究,TP751
  16. 基于随机森林的植物抗性基因识别方法研究,Q943
  17. 基于图像处理技术的烟叶病害自动识别研究,S435.72
  18. 基于视觉的番木瓜外观品质检测技术研究,S667.9
  19. 羊绒与羊毛纤维鉴别系统的研究,TS101.921
  20. 红外图像目标识别及跟踪技术研究,TP391.41
  21. 水下目标特征的压缩与融合技术研究,TN911.7

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com