学位论文 > 优秀研究生学位论文题录展示

基于语音信号时变特性的说话人识别

作　者: 徐良军
导　师: 费万春
学　校: 苏州大学
专　业: 纺织工程
关键词: 时变特性特征频率非平稳性 TVPAR模型说话人识别
分类号: TN912.34
类　型: 硕士论文
年　份: 2010年
下　载: 83次
引　用: 0次
阅　读: 论文下载

内容摘要

说话人识别是一类特殊的语音识别。近年来,这一技术迅速发展,与文本有关的说话人确认系统在一些需要进行身份核查的场所得到了应用。但仍然有一些问题需要解决,其中关键的问题是,究竟用语音信号的哪些特征描写说话人才是有效而可靠的。说话人识别包括说话人确认和说话人辨认,本文主要研究的是与文本有关的说话人辨认问题。基于语音信号的时变特性,在平均MEL倒谱基础上提取随时间变化的特征频率(包括时变的基音频率),由此得到了由各个语音信号特征频率倒谱值序列构成的时间序列。运用时间序列预处理和数理统计的方法,分离时间序列的趋势波动量和随机波动量。随机波动量是零均值自协方差非平稳的时间序列,利用满阶时变参数自回归(Time-Varying Parameter Autoregressive)模型对随机波动量序列进行分析,进一步提取说话人语音信号的特征参数。在随机波动量序列和用满阶TVPAR模型分析的基础上分别进行说话人识别研究。本文选择最小BIC(Bayesian Information Criterion)法则分析确定回归模型阶次,最后采用马氏距离对说话人进行判别。实验表明,用满阶TVPAR模型进行识别,识别率比随机波动量序列上的识别率有较大提高。在满阶TVPAR模型基础上,取一个特征频率时识别率达到97.3%,两个特征频率识别率达到98.6%。

全文目录

中文摘要  4-5
Abstract  5-10
第一章引言  10-17
  1.1 研究背景  10-11
  1.2 说话人识别历史和现状  11-12
  1.3 说话人识别方法  12-16
  1.4 本课题研究的内容和意义  16-17
第二章时间序列分析及统计分析方法  17-26
  2.1 时间序列的主要分类  17-18
  2.2 时间序列的平稳性  18
    2.2.1 随机过程  18
    2.2.2 时间序列平稳性定义  18
  2.3 时间序列分析  18-19
  2.4 自协方差非平稳时间序列的分析模型  19-22
    2.4.1 自协方差非平稳时间序列  20
    2.4.2 时变参数自回归模型  20-22
  2.5 统计分析方法介绍  22-25
    2.5.1 回归方程的定阶方法  22-23
    2.5.2 判别分析方法  23-25
  2.6 MATLAB 在时间序列分析中的应用  25
  2.7 小结  25-26
第三章语音信号的分析  26-36
  3.1 语音信号的数字化和预处理  26-27
    3.1.1 语音信号的采样和量化  26
    3.1.2 语音信号的预处理  26-27
  3.2 语音信号的时域分析  27-30
    3.2.1 短时能量分析  28
    3.2.2 短时过零分析  28-29
    3.2.3 短时相关分析  29-30
  3.3 语音信号分帧数的归一化  30
  3.4 语音信号的频域分析  30-33
    3.4.1 短时傅立叶变换  30-31
    3.4.2 倒谱分析  31-33
  3.5 MEL 频率倒谱参数（MEL Frequency Cepstral Coefficients）  33-34
  3.6 语音信号的语谱图  34-35
  3.7 小结  35-36
第四章基于基音频率的说话人识别  36-47
  4.1 基音提取  36-37
  4.2 基音周期的时变特性  37-38
  4.3 基音频率序列的提取  38-40
  4.4 基音频率MEL 倒谱值序列的回归分析  40-42
  4.5 随机波动量序列的自协方差非平稳性检验  42
  4.6 模板语音样本容量的选取  42-43
  4.7 基于基音频率的说话人识别  43-46
    4.7.1 随机波动量基础上的说话人识别原理  43-44
    4.7.2 满阶TVPAR 模型基础上的说话人识别原理  44-45
    4.7.3 实验结果与分析  45-46
  4.8 小结  46-47
第五章说话人识别及实验分析  47-60
  5.1 语音信号的时变特性  47-48
  5.2 特征参数的提取  48-52
    5.2.1 特征频率的提取  48-49
    5.2.2 特征频率对应MEL 倒谱值序列的选择.  49-50
    5.2.3 特征频率MEL 倒谱值序列的回归分析.  50-52
  5.3 识别方法及算法  52-54
    5.3.1 识别指标  52
    5.3.2 随机波动量基础上的说话人识别原理  52-53
    5.3.3 满阶TVPAR 模型基础上的说话人识别原理  53-54
  5.4 识别结果及概率分析  54-59
    5.4.1 识别结果及分析  54-55
    5.4.2 识别结果的概率分析  55-59
  5.5 小结  59-60
第六章结论与展望  60-62
参考文献  62-65
攻读学位期间公开发表的论文  65-66
附录  66-85
致谢  85-86

基于语音信号时变特性的说话人识别

内容摘要

全文目录

相似论文