学位论文 > 优秀研究生学位论文题录展示

基于听觉神经原理的语音信号处理

作 者: 郭伟
导 师: 张丽清
学 校: 上海交通大学
专 业: 计算机软件与理论
关键词: 听觉系统 语音信号处理 语音识别 基音提取
分类号: TN912.3
类 型: 硕士论文
年 份: 2009年
下 载: 194次
引 用: 0次
阅 读: 论文下载
 

内容摘要


语音不仅是人类日常交流中的重要工具,也是百万年来哺乳动物大脑进化的结果。这项复杂的功能是区分人类和其他动物的重要标志,包括了大脑对语言从声音到图形乃至抽象符号层面的神经信息处理。尽管我们每天都要接触这项功能,但是语音信息处理究竟发生在我们大脑中的哪里,以及这项功能是怎么发生的,这些问题我们依然没有完整的答案。近几十年来,心理学家和神经科学家对人类听觉的外围系统,初级脑体,以及听觉皮层都进行了大量的观察。这些结果,尽管还不能完全的解决大脑语音处理机制的问题,但已经让我们对这个课题有了长足的了解。另外一方面,随着电子通信业的出现和计算机技术的发展,人们开始可以从数字信号处理的角度来了解语音。语音发声所引起的物理振动可以使用电子设备采集,然后这些信息可以利用计算机来进行处理。数字语音信号的采集和处理成为了通信和电子工程领域的一个重要分支。语音识别,也就是把数字语音信号转化为文字的过程,是这个领域被研究的最多的也是最有难度的一个问题。尽管信号处理技术和计算机的性能在以日新月异的速度发展,利用数字方式来处理语音仍然比不过人脑对语音的处理。人脑处理口语语言远比计算机的处理要鲁棒。神经系统在这项功能中的优越性使得我们可以考虑在数字语音信号处理的过程中模拟人脑,从而提高系统的性能。在本文中,我们用算法化的方法来模拟听觉系统中的一些神经信息处理机制,并把这些模块应用到语音识别系统中来进行测试。我们首先使用非负矩阵分解(Non-negative matrix factorization, NMF)的方法从语音信号中学习基函数,然后将这些基函数作为听觉皮层神经元时频感受野(Spectral-temporal receptive fields, STRF)的计算模型。这些神经元可以作为语音信号的特征提取系统。我们的实验显示,这些特征对噪声的鲁棒性比传统语音识别应用中的特征要好。我们还使用了一个NMF的改进版本,正交非负矩阵分解(Orthogonal non-negative matrix factorization,ONMF),作为工具来提取语音中最重要的信息之一—-基频。实验显示,这种方法不仅对噪声有一定的鲁棒性,而且可以同时追踪多个基音成分。这些优点在很多方面都超过了传统方法。总之,本文介绍了一些具有原创性的方法,通过模拟人听觉系统来进行语音信号处理,取得了较好的实验结果。由于我们对听觉系统的了解依然不完善,这些方法在理论框架的改进下仍然会有提高的余地。同时,这些方法属于交叉学科的范畴,因此它们对推进语音信号处理和神经科学未来的发展也有一定的探讨。

全文目录


摘要  3-5
ABSTRACT(英文摘要)  5-9
第一章 绪论  9-21
  1.1 语音信号处理问题概述  9-11
  1.2 传统语音信号处理方法  11-18
    1.2.1 语音信号的采集和数字化  11-12
    1.2.2 语音编码和语音特征提取  12-17
    1.2.3 语音识别  17-18
  1.3 采用神经信息处理的优势  18-19
  1.4 本文的目标  19-21
第二章 听觉神经系统及计算模型简介  21-35
  2.1 听觉神经系统的生理学研究  21-29
    2.1.1 外围听觉系统和耳蜗  21-24
    2.1.2 中脑的脑干体对听觉信息的处理  24
    2.1.3 听觉皮层  24-29
  2.2 听觉神经系统的心理学研究  29-31
    2.2.1 与外围听觉系统研究的结合  29-30
    2.2.2 听觉场景分析  30-31
  2.3 听觉神经系统机制的计算模型  31-35
    2.3.1 稀疏编码和感受野计算模型  31-33
    2.3.2 可计算听觉场景分析  33-34
    2.3.3 本文采用的模型  34-35
第三章 听觉神经编码及其在语音识别中的应用  35-47
  3.1 非负矩阵分解  35-37
    3.1.1 非负矩阵分解简介  35-36
    3.1.2 非负矩阵分解算法  36-37
    3.1.3 可控制稀疏性的非负矩阵分解  37
  3.2 利用非负矩阵分解计算语音信号基函数  37-42
    3.2.1 数据预处理  37-38
    3.2.2 第一层神经元  38-40
    3.2.3 第二层神经元  40-42
  3.3 利用神经编码进行语音特征提取  42-43
  3.4 实验结果  43-47
    3.4.1 基函数训练和特征提取的参数设置  43
    3.4.2 鲁棒性语音识别实验  43-47
第四章 基于听觉神经原理的基频提取  47-57
  4.1 传统基频提取方法及其局限性  47-48
  4.2 正交非负矩阵分解  48-49
    4.2.1 正交非负矩阵分解的性质  48-49
    4.2.2 正交非负矩阵分解算法  49
  4.3 利用正交非负矩阵分解提取语音基频信息  49-53
    4.3.1 数据预处理  49-50
    4.3.2 利用正交非负矩阵分解分离多声源的频谱  50-51
    4.3.3 基于频谱的基频提取  51-53
  4.4 实验结果  53-57
第五章 结论  57-59
  5.1 利用神经编码进行语音信号处理的优点  57-58
  5.2 未来的方向  58-59
参考文献  59-63
致谢  63-65
个人简历、在学期间的研究成果及发表的论文  65-68
上海交通大学学位论文答辩决议书  68

相似论文

  1. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  2. 基于DSP的机器人语音命令识别系统研制,TN912.34
  3. 在智能手机环境下健康管理功能设计与研究,TN929.53
  4. 移动音视频交互业务执行平台的研究,TN915.09
  5. 基于听觉侧抑制的滤波算法研究,TN911.72
  6. 呼叫中心IVR系统的设计与实现,TN99
  7. 基于HMM的机器人语音识别系统的研究,TN912.34
  8. 基于改进MFCC的语音识别系统研究及设计,TN912.34
  9. 仿真机器人控制系统,TP242
  10. 基于VoiceXML的语音智能交互平台的研究与实现,TP311.52
  11. 基于词片网格的语音文档主题分类,TN912.3
  12. 基于HMM和PNN的混合语音识别模型研究,TN912.34
  13. 移动机器人语音识别控制仿真系统的设计与实现,TN912.34
  14. 基于动态贝叶斯网络的连续语音识别研究,TN912.34
  15. 基于STRAIGHT谱的语音识别算法研究,TN912.34
  16. 面向机器人对话的语音识别关键技术的研究,TN912.34
  17. 基于自适应的LVCSR系统半监督学习方法的研究,TN912.34
  18. 汉语语音识别中语言模型的并行优化,TN912.34
  19. 基于双自由度自适应轮系多功能代步车,U489
  20. G.729语音编解码算法的研究及其DSP实现,TN919.81
  21. 基于切分的汉语连续语音识别技术研究,TN912.34

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com