学位论文 > 优秀研究生学位论文题录展示
说话人识别中语音特征参数提取方法的研究
作 者: 王玥
导 师: 钱志鸿;王树勋
学 校: 吉林大学
专 业: 通信与信息系统
关键词: 语音信号处理 扩展谱相减 RCAF基音提取算法 听觉滤波器模型 伽马通听觉特征 伽马啁啾听觉特征 特征降维
分类号: TN912.3
类 型: 博士论文
年 份: 2009年
下 载: 1246次
引 用: 12次
阅 读: 论文下载
内容摘要
本文主要研究了应用于说话人识别系统的语音特征提取技术。针对加性噪声环境中的语音增强和端点检测、基音特征提取、听觉特征参数提取及降维等方面进行了深入的研究与探讨。论文的主要研究内容如下:1.提出了一种基于扩展谱相减的语音增强算法,使得对背景噪声的估计相对传统方法更加精确。结合语音缺失概率和动态阈值法提出了一种新的端点检测算法。实验证明该算法在低信噪比条件下也能准确检测出语音起始点。2.提出了一种基于CAMDF的倒数加权自相关来进行基音周期估计方法,即RCAF(Reverse CAMDF Autocorrelation Function)算法。仿真实验结果表明,RCAF算法能够减少由共振峰和噪声所引起的异变点对搜索峰值的影响,从而精确地提取基音周期,相对于传统算法具有更强的抗噪声性能。3.对人耳听觉模型进行了深入研究,采用Gammatone和Gammachirp这两种滤波器来建立耳蜗工作模型并设计其数字滤波器的实现方法。该组滤波器与人耳听阈曲线拟合度高,具有良好的模拟人耳听觉的特性。4.提出了两种基于人耳听觉特性的语音特征参数:Gammatone滤波器系数(GTF)与Gammachirp滤波器系数(GCF),在与文本无关的说话人辨认实验中,取得了优于传统特征参数的性能。针对听觉特征维数较高难以应用的问题,探讨了基于主成分分析和离散余弦变换的特征降维方法,给出了基于PCA降维的说话人识别算法,通过离散余弦变换得到了听觉倒谱特征。在纯净语音和带噪语音情况下分别进行仿真实验,结果表明经过降维后的听觉特征仍然具有良好的噪声鲁棒性,在噪声条件下仍然获得了最优的识别率。
|
全文目录
内容提要 4-10 第一章 绪论 10-18 1.1 引言 10 1.2 语音信号的表示方法 10-11 1.3 语音信号的特征分析 11-12 1.4 说话人识别的研究背景 12-16 1.4.1 说话人识别技术发展历史和现状 12-13 1.4.2 说话人识别系统研究中尚存在的问题 13-15 1.4.3 影响说话人识别性能的因素 15-16 1.5 论文主要研究内容 16-18 第二章 说话人识别系统构成 18-30 2.1 引言 18 2.2 说话人识别的系统描述 18-19 2.3 系统使用的语料库 19-20 2.3.1 PKU-SRSC语音数据库 19-20 2.3.2 NOISEX-92噪声库 20 2.4 用于说话人识别的经典特征提取 20-25 2.4.1 线性预测系数LPC 20-22 2.4.2 线性预测倒谱系数LPCC 22 2.4.3 梅尔倒谱系数MFCC 22-24 2.4.4 Delta特征 24-25 2.5 说话人识别主要方法 25-29 2.5.1 模板匹配法 25-26 2.5.2 矢量量化 26 2.5.3 隐马尔科夫模型 26-27 2.5.4 高斯混合模型 27-29 2.6 本章小结 29-30 第三章 噪声环境下的语音增强与端点检测 30-44 3.1 引言 30 3.2 语音增强 30-35 3.2.1 谱相减原理 31-33 3.2.2 基于改进维纳滤波器的扩展谱相减算法 33-35 3.3 基于语音缺失概率方法的端点检测 35-39 3.3.1 语音缺失概率 SAP 36-38 3.3.2 语音缺失概率动态阈值的实现 38-39 3.4 仿真实验及结论 39-42 3.5 本章小结 42-44 第四章 基于搜索试探平滑的RCAF基音周期检测算法 44-62 4.1 引言 44-47 4.2 常用基音特征提取算法 47-53 4.2.1 自相关法 ACF 47-48 4.2.2 短时平均幅度差函数 AMDF 48-50 4.2.3 循环平均幅度差函数 CAMDF 50-52 4.2.4 自相关加权平均幅度差法 AWAC 52-53 4.3 基于RCAF方法的基音提取 53-57 4.3.1 RCAF方法 53-55 4.3.2 搜索试探平滑算法 55-57 4.4 仿真实验 57-61 4.5 本章小结 61-62 第五章 基于人耳的听觉模型研究 62-86 5.1 引言 62-63 5.2 人耳听觉系统 63-68 5.2.1 人耳听觉系统组成 63-65 5.2.2 听觉系统工作原理 65-66 5.2.3 听觉模型研究概况 66-68 5.3 基于Gammatone滤波器的听觉模型 68-72 5.3.1 Gammatone滤波器特性 68-70 5.3.2 Gammatone滤波器的数字实现 70-72 5.4 基于Gammachirp滤波器的听觉模型 72-81 5.4.1 Gammachirp滤波器 72-73 5.4.2 Gammachirp滤波器频域分析 73-75 5.4.3 Gammachirp函数与非对称函数的性质 75-77 5.4.4 非对称滤波器的数字实现 77-79 5.4.5 非对称补偿型Gammachirp滤波器 79-80 5.4.6 Gammachirp与非对称补偿型函数的相位谱和冲激响应比较 80 5.4.7 相似性分析 80-81 5.5 两种听觉滤波器的模型比较与听觉特征提取 81-84 5.5.1 基于听觉滤波器的语音特征提取 81-82 5.5.3 基于GTF与GCF特征的说话人识别系统 82-84 5.6 本章小结 84-86 第六章 基于多元统计分析的听觉特征降维 86-108 6.1 概述 86 6.2 多元统计分析与特征降维 86-89 6.2.1 多元统计分析 86-87 6.2.2 特征降维的数学描述 87-89 6.3 主成分分析 89-97 6.3.1 主成分分析的基本原理 89-91 6.3.2 PCA的最佳降维特性的证明 91-93 6.3.3 主成分分析的算法推导 93-96 6.3.4 PCA变换的流程 96-97 6.4 基于PCA特征降维的说话人识别系统 97-102 6.4.1 特征降维的说话人识别系统组成 97-98 6.4.2 实验结果分析 98-102 6.5 基于DCT变换的特征降维研究 102-106 6.5.1 听觉参数的倒谱特征 102-103 6.5.2 听觉倒谱特征的衍生特征 103-104 6.5.3 实验结果分析 104-106 6.6 本章小结 106-108 第七章 全文总结与展望 108-112 7.1 工作总结 108-109 7.2 讨论与工作展望 109-112 参考文献 112-122 攻读学位期间学术论文及取得的科研成果 122-124 致谢 124-125 摘要 125-128 Abstract 128-130
|
相似论文
- 膜蛋白分类的特征提取算法和数据集构建技术研究,Q51
- 基于NMF垃圾邮件过滤系统研究,TP393.098
- 中文文本倾向性分类系统研究,TP391.1
- 文本分类中特征降维技术的研究,TP391.1
- 基于LPP算法的人脸识别技术研究,TP391.41
- 文本分类中特征降维方法的研究,TP391.1
- 基于粗糙集的SVM层次文本分类技术研究,TP391.1
- 基于DK-Means算法的文本聚类的研究与实现,TP391.1
- G.729语音编解码算法的研究及其DSP实现,TN919.81
- 基于免疫遗传算法的聚类与特征降维研究,TP311.13
- 情感组块与机器学习相结合的文本倾向性分析,TP181
- 一种用于语音信号处理的12位Sigma-Delta调制器的设计,TN761
- 基于类核心词的文本分类技术研究,TP391.1
- 说话人识别技术的研究,TN912.34
- 基于潜在语义索引和支持向量机的文本分类过滤技术研究,TP391.1
- 基于HMM的情感语音识别,TN912.34
- 基于支持向量机的垃圾短信过滤方法研究,TP18
- 面向聋儿言语康复的发音检测技术的研究与应用,TN912.3
- 几种步态特征表示方法的研究,TP391.41
- 人脸表情识别若干问题的研究,TP391.41
- 基于听觉神经原理的语音信号处理,TN912.3
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com
|