学位论文 > 优秀研究生学位论文题录展示

基于汉语元音映射的说话人识别技术研究

作 者: 钱博
导 师: 唐振民
学 校: 南京理工大学
专 业: 模式识别与智能系统
关键词: 说话人识别 元音分类 汉语元音映射 矢量量化 仿生识别 BP神经网络 神经网络集成 元音帧检测 基音频率 噪声处理技术 高斯混合模型 特征补偿
分类号: TN912.34
类 型: 博士论文
年 份: 2007年
下 载: 277次
引 用: 2次
阅 读: 论文下载
 

内容摘要


语音是人类获取信息的主要来源之一,也是最方便、最有效、最自然的交流工具。说话人识别技术在近三十多年的时间里取得了很大的进步,这种技术的应用为人类的日常生活带来很大的便利。但是,随着说话人识别的实用化,不同应用领域对其要求。也越来越高。一方面,发音的多变性使说话人识别系统的适应性还有待提高;另一方面,噪声、训练时间以及通信信道失真等问题也会产生很大的影响。对于说话人识别来说,最主要的两个问题是如何从语音中提取单纯反映说话人身份信息的鲁棒特征,以及如何建立有效的识别模型达到实际应用中对速度、数据量、使用条件等方面的要求。本文针对汉语语音的特点,从分离身份信息和提高系统鲁棒性两个方面出发对汉语说话人识别展开研究,提出了新的说话人识别框架、模型和算法,主要取得了以下创新性成果。本文的核心是提出了一种新的基于汉语元音映射的说话人识别框架。该框架的基础是将汉语韵母中的元音部分以单元音音素为单位进行分解,对此我们使用频谱对比、特征对比、单元音滑动统计分布、分类器识别率等方式证实了从短时帧角度出发,汉语韵母可以分解为单元音音素的组合,并通过大量的实验建立了汉语韵母到单元音的映射表。相对于传统的说话人识别模型,新框架增加了汉语单元音音素分类模块进行韵母分解,并将多个针对单元音的说话人识别器组织起来代替传统的匹配或统计模块对帧特征进行处理。根据这个框架,每个针对单元音的说话人识别器进行说话人识别时避免了语义信息的干扰,增强了分类的针对性;同时,整个系统以短时帧作为基本识别单位,更易于达到实时处理的目标。根据基于汉语元音映射的说话人识别框架,提出了基于汉语元音分类的矢量量化说话人识别方法。由于每个矢量量化分类器在训练和识别过程中避免了语义信息的影响,该方法利用较小的码本就可以获得较高的识别率。然而,为了保证码本质量,需要大量的训练数据和识别数据。针对说话人识别方法需要大量数据参与训练和识别的缺点,结合新框架,本文又提出了基于仿生模式识别的汉语说话人识别方法。该方法在训练过程中为每个说话人的每个单元音音素帧特征在特征空间中建立一个包络;识别时通过分析测试帧特征与包络的关系进行判决,大大缩减了对训练和识别数据量的需求。在研究过程中,我们发现基于汉语元音映射的说话人识别框架由于增加了单元音分类模块,会带来分类误差并导致识别速度下降。对此,结合集成学习理论,我们提出了基于汉语元音映射的神经网络集成说话人识别方法。该方法在识别过程中不需要预先对测试语音帧进行元音分类,省略了元音分类模块,从而避免引入元音分类误差,加快了识别速度。此外,针对新的说话人识别框架的特点,本文在预处理和抗噪方面也进行了研究和改进,主要包括:提出了基于频谱特征的自适应元音帧提取算法,在损失端点检测准确性的前提下提高元音帧提取的速度和正确率;结合谐波积谱思想改进了基音提取算法;提出了基于背景估计的自适应抗噪方法,实现GMM模型下数据噪声背景不同时特征的提取、修正和识别;针对测试数据与训练数据背景不同的情况,从特征值处理和模型补偿两方面考虑,提出了基于高斯混合模型的加权特征补偿变换的抗噪方法,进一步改善了系统的性能。从本文一系列仿真实验的结果分析可得,基于本文新框架、模型和算法实现的说话人识别系统在识别率、识别速度和抗噪能力上都有所提高。特别是基于汉语元音分类的思想为分离语音特征中的语义信息和话者身份信息,将文本无关的说话人识别转变为文本有关的说话人识别提供了新的思路。

全文目录


摘要  5-7
ABSTRACT  7-9
目录  9-13
第一章 绪论  13-22
  1.1 引言  13
  1.2 说话人识别技术的应用  13-14
  1.3 说话人识别技术的特点和难点  14-16
    1.3.1 说话人发音的不稳定性  14-15
    1.3.2 声音的掩饰和模仿  15
    1.3.3 采集设备与环境影响  15-16
  1.4 国内外研究现状和发展方向  16-18
  1.5 研究思路和创新点  18-20
    1.5.1 研究思路  18-19
    1.5.2 主要创新点  19-20
  1.6 论文结构  20-22
第二章 说话人识别相关技术  22-37
  2.1 引言  22
  2.2 说话人识别原理  22-25
    2.2.1 说话人识别的分类  22-23
    2.2.2 说话人识别系统结构  23-24
    2.2.3 说话人识别系统性能的评价  24-25
  2.3 语音的产生和感知  25-26
    2.3.1 语音的产生  25-26
    2.3.2 语音的感知  26
  2.4 语音特征参数的提取  26-29
    2.4.1 基音周期  27
    2.4.2 线性预测倒谱系数  27-28
    2.4.3 美尔频率标度倒谱系数  28-29
  2.5 说话人识别模型  29-36
    2.5.1 K-最近邻方法  30-31
    2.5.2 矢量量化  31-32
    2.5.3 高斯混合模型  32-33
    2.5.4 人工神经网络  33-36
  2.6 本章小结  36-37
第三章 汉语元音映射技术  37-47
  3.1 引言  37
  3.2 汉语音节结构和韵母声学特征  37-39
    3.2.1 汉语语音基本特征  37-38
    3.2.2 韵母分析  38-39
  3.3 汉语元音特征映射技术  39-45
  3.4 基于汉语元音映射的说话人识别框架  45-46
  3.5 本章小结  46-47
第四章 基于元音映射说话人识别中的预处理技术  47-62
  4.1 引言  47
  4.2 基于频域能量分布分析的元音帧提取算法  47-54
    4.2.1 理论和算法  48-51
      4.2.1.1 含有MEL标度映射的频域能量分析方法  48-49
      4.2.1.2 基于能量和过零率的元音帧提取  49-50
      4.2.1.3 阈值的自适应策略  50
      4.2.1.4 算法步骤  50-51
    4.2.2 实验结果与数据分析  51-54
      4.2.2.1 单字音中的元音帧提取实验  51-53
      4.2.2.2 连续语音中的元音帧提取实验  53-54
  4.3 基于线性预测残差倒谱的基音检测算法  54-60
    4.3.1 算法描述  54-58
      4.3.1.1 倒谱法  54-55
      4.3.1.2 线性预测残差  55-56
      4.3.1.3 谐波积谱原理  56-57
      4.3.1.4 CBHPS算法  57-58
    4.3.2 实验和分析  58-60
  4.4 本章小结  60-62
第五章 基于汉语元音映射的说话人识别模型  62-85
  5.1 引言  62-63
  5.2 基于分类特征的矢量量化说话人识别研究  63-70
    5.2.1 矢量量化说话人识别原理  63-67
      5.2.1.1 特征参数的选取  64-65
      5.2.1.2 汉语元音特征的分类与识别  65-66
      5.2.1.3 矢量量化技术  66-67
    5.2.2 实验结果与数据分析  67-70
      5.2.2.1 矢量量化码本比较实验  67-68
      5.2.2.2 识别结果与分析  68-70
  5.3 基于仿生模式识别的说话人识别方法  70-77
    5.3.1 基于仿生模式识别的识别算法  70-74
      5.3.1.1 仿生模式识别理论  70-71
      5.3.1.2 改进的最近邻覆盖算法  71-72
      5.3.1.3 识别算法  72-73
      5.3.1.4 基于分层采样的KNN算法  73-74
    5.3.2 实验数据与分析  74-77
      5.3.2.1 算法性能实验  74-76
      5.3.2.2 针对连续语音的实验结果  76-77
      5.3.2.3 基于环域的分层采样算法实验  77
  5.4 基于神经网络集成的说话人识别算法  77-83
    5.4.1 基于单元音分类的神经网络集成  78-80
      5.4.1.1 研究动机  78-79
      5.4.1.2 系统结构和集成策略  79-80
      5.4.1.3 神经网络的训练方法  80
    5.4.2 仿真实验与数据分析  80-83
      5.4.2.1 针对单元音发音的实验结果  81
      5.4.2.2 针对连续语音的实验结果  81-82
      5.4.2.3 集成方法的对比  82-83
  5.5 本章小结  83-85
第六章 说话人识别系统中的噪声处理技术  85-99
  6.1 引言  85-86
  6.2 基于加权特征补偿变换的鲁棒性说话人识别方法  86-92
    6.2.1 加权特征补偿变换分析  86-88
      6.2.1.1 帧信噪比与加权因子  86-87
      6.2.1.2 加权特征补偿变换的提出  87-88
    6.2.2 鲁棒说话人识别仿真系统  88-89
      6.2.2.1 预处理和特征提取  88-89
      6.2.2.2 高斯混合模型的建立与识别  89
    6.2.3 仿真实验与结果分析  89-92
      6.2.3.1 仿真系统语音库  89
      6.2.3.2 加权因子仿真实验  89-90
      6.2.3.3 基于加权特征补偿变换的说话人识别方法的仿真研究  90-92
  6.3 基于背景噪声模型估计的自适应说话人识别技术  92-98
    6.3.1 语音帧/非语音帧的提取  93
    6.3.2 背景噪声模型估计和说话人特征提取  93-95
    6.3.3 说话人识别系统  95-96
      6.3.3.1 预处理和特征提取  95-96
      6.3.3.2 高斯混合模型的建立与识别  96
    6.3.4 仿真实验与结果分析  96-98
      6.3.4.1 仿真系统语音库  96
      6.3.4.2 基于背景噪声模型估计的自适应说话人识别技术的仿真研究  96-98
  6.4 小结  98-99
结束语  99-101
参考文献  101-111
致谢  111-112
附录  112-113

相似论文

  1. 学习困难儿童认知特征的研究,B842.3
  2. 基于概率模型的特征补偿算法在语音识别中的应用,TN912.3
  3. 贝叶斯网络在语音鲁棒性识别中的应用,TN912.34
  4. 不同玉米品种适应干湿交替水分逆境的根系特征差异研究,S513
  5. 语音识别中的环境补偿研究,TN912.34
  6. 连续语音识别的稳健性技术研究,TN912.34
  7. 噪声鲁棒语音识别中若干问题的研究,TN912.34
  8. 噪声环境下的语音识别技术研究,TP391.42
  9. 说话人辨认中的特征变换和鲁棒性技术研究,TN912.34
  10. 高质量语音转换系统中关键技术的研究,TN912.3
  11. 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
  12. 多特征融合的视觉跟踪算法研究,TP391.41
  13. 无线传感器网络中的追击者—逃跑者跟踪问题研究,TP212.9
  14. 高斯混合模型及在探测网络社区结构中的应用,TP393.094
  15. 基于隐马尔科夫模型的股价走势预测,F830.91
  16. 彩色图像有意义区域提取算法研究,TP391.41
  17. 关于若干回归模型的研究,O212.1
  18. 基于因子分析的说话人确认,TN912.34
  19. 虚拟人运动合成技术及其工程应用研究,TP391.41
  20. 基于GMM-UBM模型的语种识别,TN912.34

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com