学位论文 > 优秀研究生学位论文题录展示

说话人识别技术的研究与实现

作　者: 周翠梅
导　师: 殷福亮；陈喆
学　校: 大连理工大学
专　业: 电路与系统
关键词: 说话人辨认美尔倒谱系数话音激活检测高斯混合模型实时说话人识别系统
分类号: TN912.34
类　型: 硕士论文
年　份: 2010年
下　载: 177次
引　用: 0次
阅　读: 论文下载

内容摘要

说话人识别,也称为声纹识别,是一种利用测试语音对说话人进行身份识别的认证技术。作为语音信号处理的一个分支,说话人识别技术在网络安全、身份鉴别、电话会议、司法查证等领域已经得到广泛应用。随着信息技术的发展,这种生物认证技术逐步走出实验阶段向商用化方向发展。说话人识别技术从识别任务上分为说话人辨认和说话人确认,从识别内容上又分为文本无关和文本有关两方面。本文研究的内容主要是从应用角度出发,实现一个与文本无关的说话人辨认系统。本文的主要工作包括以下几方面：(1)概述了说话人识别技术的发展状况,并从两方面进行分析：表征说话人语音的特征参数选取和说话人辨认系统训练模型的建立。(2)选用了美尔倒谱系数(MFCC)作为语音特征参数,在具体实现时,使用了基于短时能量和短时过零率的话音激活检测(VAD)算法。为了进一步提高识别率,系统中加入了差分美尔倒谱系数(AMFCC).(3)主要采用高斯混合模型(GMM)进行系统建模识别,并对EM算法的初始分类分别采用了K均值和一般分类两种方法进行比较。(4)基于Windows音频采集系统,用MFC搭建界面,实现了实时说话人识别系统。该系统具有实时录音、实时识别等功能,实验数据给出了50人样本库的识别结果。

全文目录

摘要  4-5
Abstract  5-8
1 绪论  8-13
  1.1 研究的应用背景和技术优势  8-9
    1.1.1 说话人识别的应用背景  8-9
    1.1.2 说话人识别的技术优势  9
  1.2 研究的历史过程和发展趋势  9-10
  1.3 说话人识别技术研究重点及难点  10-11
  1.4 本文主要工作  11-12
  1.5 本文内容安排  12-13
2 说话人识别的基本介绍  13-19
  2.1 说话人识别任务分类  13-14
  2.2 说话人识别的基本原理  14-15
  2.3 说话人识别的常用特征  15-16
  2.4 说话人识别的主要模型  16-19
3 特征参数的提取  19-32
  3.1 二元激励模型  19-20
  3.2 听觉特性  20-22
  3.3 美尔倒谱系数  22-27
  3.4 差分美尔倒谱系数  27-28
  3.5 端点检测实现  28-32
4 高斯混合模型  32-42
  4.1 高斯混合模型的概念  32-34
  4.2 EM算法的分析  34-35
  4.3 高斯混合模型的训练  35-40
    4.3.1 GMM的参数估计  35-37
    4.3.2 GMM的参数的初始化  37-39
    4.3.3 GMM的训练流程  39-40
  4.4 高斯混合模型的识别  40-42
5 说话人识别系统的搭建  42-54
  5.1 系统开发环境  42
  5.2 语音采集模块  42-47
    5.2.1 Windows下音频处理  42-43
    5.2.2 相关Windows消息  43
    5.2.3 相关消息响应函数  43-44
    5.2.4 音频采集的流程  44-47
  5.3 系统界面的实现  47-49
    5.3.1 界面总体架构  47
    5.3.2 具体步骤实现  47-49
    5.3.3 其他类的添加  49
  5.4 实验结果分析  49-54
结论  54-56
参考文献  56-59
攻读硕士学位期间发表学术论文情况  59-60
致谢  60-62

说话人识别技术的研究与实现

内容摘要

全文目录

相似论文