学位论文 > 优秀研究生学位论文题录展示

说话人身份识别系统的设计及DSP实现

作　者: 洪家高
导　师: 俞一彪
学　校: 苏州大学
专　业: 信号与信息处理
关键词: 说话人身份识别 DSP 美尔倒谱系数高斯混合模型
分类号: TN912.34
类　型: 硕士论文
年　份: 2009年
下　载: 185次
引　用: 3次
阅　读: 论文下载

内容摘要

说话人识别属于生物识别的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数来自动识别说话人身份的技术。在生物识别技术领域中,说话人识别技术以其独特的方便性、经济性和准确性等优势受到人们的关注。近年来随着DSP技术的迅猛发展及其性能的不断改善,用DSP来做语音实时处理也越来越受到人们的重视。基于DSP的说话人识别系统具有精度高、速度快、体积小、操作简单、成本低等特点。可广泛的用于司法、公安、机场、办公室等场所,具有非常广阔的应用前景。本文概述了说话人识别技术的概况及特征提取、模式识别等说话人识别的主要技术理论。详细地分析基音频率、线性预测系数、美尔倒谱系数等特征提取的理论和方法以及动态时间规整、矢量量化、隐马可夫模型、高斯混合模型等模式匹配算法的原理及过程。在此基础上,论文针对实际应用进行DSP嵌入式说话人识别系统的设计,并研究如何提高系统的可靠性、识别率、减少识别时间并实现系统的自举运行。系统在TMS320C6713 DSK上实现,采用美尔倒谱系数作为特征参数,以高斯混合模型作为识别模型。为了实现自举运行,模型参数存储在FLASHROM存储器中,以保证参数在掉电情况下不会丢失。系统充分的体现了人性化特点,设置了训练和识别的选择功能,并可进行说话人删除、补充、替换和更新工作;系统运行过程中,由DSP实验板自带的LED灯组合来显示系统的运行状态及最终的运行结果。考虑到识别时间、识别准确率,系统稳定性的要求并结合TMS320C6713 DSK开发板的性能和特点,系统的识别范围选定为10个人。经过测试,识别的速度可达3秒之内,准确率达98%以上。与其他系统相比,本系统在实现方法上加以一定的改进,保证了识别的准确率和系统的稳定性;减少了识别时间;实现了系统的自举运行;同时充分的体现出了系统可操作性,具有更大的实用价值。

全文目录

中文摘要  3-4
Abstract  4-9
第一章绪论  9-15
  1.1 说话人身份识别的概述  9-12
    1.1.1 说话人识别的基本概念  9-10
    1.1.2 说话人识别的分类及特点  10-11
    1.1.3 说话人识别发展及应用前景  11-12
  1.2 DSP 的发展概况及其应用  12-13
  1.3 本论文的主要工作  13-15
第二章说话人识别的基本理论  15-36
  2.1 语音信号的产生模型  15-16
  2.2 语音的特征选取  16-22
    2.2.1 基音周期  17-18
    2.2.2 线性预测系数及其倒谱系数  18-20
    2.2.3 MEL 倒谱系数  20-22
  2.3 说话人识别的方法  22-36
    2.3.1 基于动态时间规整（DTW）的说话人识别  23-26
    2.3.2 基于矢量量化（VQ）的说话人识别  26-29
    2.3.3 基于隐马可夫模型（HMM）的说话人识别  29-30
    2.3.4 基于人工神经网络（ANN）的说话人识别  30-31
    2.3.5 基于高斯混合模型（GMM）的说话人识别  31-36
第三章 DSP 说话人识别系统的设计  36-49
  3.1 DSP 说话人识别的系统设计过程  36-37
  3.2 识别方法的选择  37-38
  3.3 算法的流程设计  38-39
  3.4 语音信号的预处理  39-43
    3.4.1 语音的采集  39
    3.4.2 语音信号的预加重  39-40
    3.4.3 语音信号的分帧  40
    3.4.4 语音信号的加窗  40
    3.4.5 语音信号的端点检测  40-43
  3.5 语音信号的特征提取  43-44
  3.6 模型的生成及模型匹配  44-49
第四章 DSP 说话人识别系统的实现  49-70
  4.1 系统实现的硬件平台  49-58
    4.1.1 语音采集模块  49-51
    4.1.2 数据处理模块  51-58
      4.1.2.1 功能单元CPU 的结构  52-54
      4.1.2.2 TMS320C6713 的集成外设  54-58
    4.1.3 其他模块  58
  4.2 系统的流程设计  58-68
    4.2.1 选择说话人  58
    4.2.2 AIC23 语音采集  58-61
    4.2.3 数据的存储  61-62
    4.2.4 数据的处理  62
    4.2.5 模型参数的存入及调出  62-64
      4.2.5.1 模型参数存入FLASHROM  62-63
      4.2.5.2 数据在FLASHROM 中安排  63
      4.2.5.3 模型参数调出FLASHROM  63-64
    4.2.6 说话人识别结果的显示  64-65
    4.2.7 系统的优化  65-66
      4.2.7.1 项目级优化  65
      4.2.7.2 C 语言级优化  65-66
    4.2.8 系统的引导及自举  66-68
      4.2.8.1 系统的引导  66-67
      4.2.8.2 系统的自举  67-68
  4.9 系统测试及相关结果  68-70
第五章总结及展望  70-72
参考文献  72-75
论文发表  75-76
致谢  76-77
详细摘要  77-79

说话人身份识别系统的设计及DSP实现

内容摘要

全文目录

相似论文