学位论文 > 优秀研究生学位论文题录展示

声纹密码技术研究

作　者: 潘逸倩
导　师: 刘庆峰; 戴礼荣
学　校: 中国科学技术大学
专　业: 信号与信息处理
关键词: 声纹密码说话人确认高斯混合帧模型区分性训练得分域特征分类器高斯混合模型-统一背景模型支持向量机
分类号: TN918.1
类　型: 博士论文
年　份: 2012年
下　载: 206次
引　用: 0次
阅　读: 论文下载

内容摘要

在生物特征认证技术领域,声纹密码具备快速、便捷、双重加密等优势,在刑侦、安全、经济、生活等各个方向拥有广阔的应用前景。经典的声纹密码系统首先采用语音识别系统对密码内容进行确认,再利用文本无关的说话人识别系统对说话人个性特征进行确认,两次确认策略确保了声纹密码系统的高性能。然而现有的声纹密码系统过多地依赖于语音识别对密码内容的预判决功能,如果冒认者已经获得密码内容,系统错误接收率将显著增加。在此背景下,本文针对冒认者已知密码文本的声纹密码任务,分别在特征域、模型域和得分域进行深入研究和创新,提升了密码文本已知时的系统性能。首先,本文在声纹密码系统特征前端提出特征域偏差估计(FSBE)的信道补偿方法。利用卷积信道噪声在倒谱域表现为线性偏移的现象,传统的CMS、CMVN、双高斯CDF-Matching等信道补偿方法基于单高斯或双高斯特征分布假设,利用各种特征参数归一化方法削弱信道和噪声干扰。相对于传统方法因单高斯或双高斯特征分布假设与实际数据分布不符带来的局限性,本文提出的FSBE方法利用最大化每条测试语音相对于说话人模型和冒认者模型似然度,将测试语音自动投影至目标模型各高斯分量对应的信道空间,训练获得线性或分段线性特征偏移参数。FSBE方法不再依赖参数归一化思想,通过训练获得较好的特征优化效果,也可用作传统信道补偿技术的补充方法。实验验证了特征域偏移估计方法对声纹密码系统信道失配问题具有一定的改善效果。其次,本文对声纹密码系统中说话人模型建模方法进行了研究,提出了高斯混合帧模型(GMFM)的新方法。传统的非参数与参数模型估计方法在密码已知的声纹密码系统中都存在不足之处,前者仅能反映有限注册数据的分布结构,无法描述潜在变化规律以及说话人内部差异,后者在数据稀疏情况下难以获得准确的参数估计,比如GMM-UBM方法中仅调整均值向量不更新协方差矩阵的近似策略导致说话人模型与实际数据分布差异较大,且GMM模型存在忽略文本相关瞬时信息的缺陷。本文结合非参数方法与参数估计方法提出了GMFM建模方法,以每帧训练样本注册一个高斯分量,令每个高斯密度函数的均值向量为对应帧特征向量。为了避免参数估计过拟合的问题,该策略假定所有高斯分量共享少量数目的协方差对角阵,利用最大似然准则进行训练,从而获得较为准确的说话人模型。GMFM方法兼顾了文本相关瞬时信息和说话人内部差异,并且通过绑定方差缓解了数据稀疏的影响,尤其适合短时声纹密码任务。实验表明基于GMFM模型的声纹密码系统相对基线系统获得较大性能提升。再次,本文在声纹密码任务中提出一种基于最小分类错误(MCE)准则的区分性声纹密码模型训练策略。传统区分性训练方法对数据量需求较大,在声纹密码这类短语音任务中难以发挥效用。本文提出的区分性训练新策略将训练集所有说话人的原始特征转换为一种表征其相对于注册模板距离的说话人无关新特征,从而可以集中所有说话人数据组成正例训练集和反例训练集,最终基于MCE准则进行两类区分性训练获得一对通用的正例和反例模型。该策略不仅巧妙地解决了声纹密码任务中区分性训练数据量不足的问题,而且将说话人相关的确认任务转化为说话人无关的经典分类任务,更加灵活有效、节省资源、适合大规模测试任务。实验表明基于区分性模型的声纹密码系统与GMM-UBM系统具有良好的互补性,融合后相对基线系统有明显性能提升。最后,本文引入得分域多维特征分类器方法以增强声纹密码系统的区分能力。传统声纹密码系统直接采用测试语音平均帧得分作为确认判决依据,由于不同类型的语音对目标说话人的区分能力不同,直接赋予所有帧得分相同权重会导致系统性能受损。本文提出的得分域多维特征分类器方法在两种帧分类策略基础上利用各类似然比得分构建得分域多维特征,并选择经典的支持向量机(SVM)方法实现训练和测试。相比于传统声纹密码系统得分域一维特征加阂值的判断策略,新方法引入并定义了合理的得分域多维特征,并辅之以稳定的区分性分类器,将传统的似然比检验策略转换成为多维特征空间上的二类分类问题,进一步提升了声纹密码系统的区分能力和鲁棒性。

全文目录

摘要  5-7
ABSTRACT  7-10
目录  10-14
英文縮写及主要符号对照表  14-17
插图索引  17-18
表格索引  18-19
第一章绪论  19-29
  1.1 引言  19-21
    1.1.1 背景介绍  19
    1.1.2 身份认证技术  19-21
  1.2 声纹密码  21-24
    1.2.1 说话人识别技术简介  21
    1.2.2 声纹密码技术简介  21-23
    1.2.3 声纹密码系统框架  23-24
  1.3 国内外相关工作进展  24-25
  1.4 数据库介绍  25-27
  1.5 系统性能评价指标  27
  1.6 论文组织结构  27-29
第二章传统声纹密码系统介绍  29-47
  2.1 引言  29-30
  2.2 特征前端  30
  2.3 基于动态时间规整方法的声纹密码系统  30-33
    2.3.1 DTW模板匹配  30-32
    2.3.2 存在问题及改进方法  32-33
  2.4 基于最近邻方法的声纹密码系统  33-35
    2.4.1 Nearest Neighbor模板匹配  33-34
    2.4.2 存在问题及改进方法  34-35
  2.5 基于高斯混合模型—通用背景模型的声纹密码系统  35-42
    2.5.1 UBM-MAP注册框架  36-41
    2.5.2 测试过程  41-42
  2.6 实验和分析  42-45
    2.6.1 实验细节和参数配置  42-43
    2.6.2 结果与分析  43-45
  2.7 本章小结  45-47
第三章声纹密码系统特征前端技术  47-63
  3.1 引言  47
  3.2 特征提取  47-50
  3.3 传统特征优化策略  50-56
    3.3.1 端点检测  51-53
    3.3.2 高阶差分  53
    3.3.3 高通滤波  53-54
    3.3.4 统计匹配方法  54-56
  3.4 特征域偏差估计方法  56-59
  3.5 实验和分析  59-61
    3.5.1 实验细节和参数配置  59-60
    3.5.2 结果与分析  60-61
  3.6 本章小结  61-63
第四章基于高斯混合帧模型的声纹密码建模方法  63-73
  4.1 引言  63-64
  4.2 高斯混合帧模型概述  64-65
  4.3 基于高斯混合帧模型的声纹密码系统  65-68
    4.3.1 模型参数估计  65-66
    4.3.2 与Nearest Neighbor算法的关系  66-67
    4.3.3 测试过程  67-68
  4.4 实验和分析  68-71
    4.4.1 实验细节和参数配置  68-69
    4.4.2 结果与分析  69-71
  4.5 本章小结  71-73
第五章基于最小分类错误的声纹密码区分性建模方法  73-89
  5.1 引言  73-74
  5.2 产生式模型与区分性模型的比较  74-75
  5.3 区分性训练概述  75-80
    5.3.1 MCE准则  76-78
    5.3.2 参数优化  78-80
  5.4 声纹密码区分性模型  80-85
    5.4.1 问题定义  81-83
    5.4.2 特征定义  83-84
    5.4.3 区分性训练  84-85
  5.5 实验和分析  85-88
    5.5.1 实验细节和参数配置  85-86
    5.5.2 结果与分析  86-88
  5.6 本章小结  88-89
第六章基于得分域多维特征分类器的声纹密码判决策略  89-113
  6.1 引言  89-90
  6.2 文本相关GMM-UBM系统  90-91
  6.3 得分域多维特征分类器原理  91-97
    6.3.1 分类函数  92-93
    6.3.2 转换函数  93-97
  6.4 得分域多维特征分类器系统实现策略  97-99
  6.5 支持向量机  99-108
    6.5.1 最大分割距离线性分类器  99-105
    6.5.2 GS-SVM系统  105-108
  6.6 实验和分析  108-111
    6.6.1 实验细节和参数配置  108-109
    6.6.2 结果与分析  109-111
  6.7 本章小结  111-113
第七章结论  113-117
  7.1 本论文工作总结  113-114
  7.2 进一步的研究工作  114-117
参考文献  117-125
致谢  125-127
博士期间发表的论文与参与的研究工作  127-128

声纹密码技术研究

内容摘要

全文目录

相似论文