学位论文 > 优秀研究生学位论文题录展示

基于计算听觉场景分析的混合语音分离研究

作 者: 刘继芳
导 师: 张磊
学 校: 哈尔滨工程大学
专 业: 信号与信息处理
关键词: 语音分离 计算听觉场景分析 声音的起始和结束时间
分类号: TP391.42
类 型: 硕士论文
年 份: 2009年
下 载: 76次
引 用: 2次
阅 读: 论文下载
 

内容摘要


计算听觉场景分析是利用听觉心理学和生理学的知识,让计算机来模拟人类听觉系统处理声音的过程。基于计算听觉场景分析的混合语音分离问题是目前人们研究的重点,该技术对于语音识别、多媒体检索、人工智能的发展都具有重要的意义。计算听觉场景分析中最重要的问题就是选择合适的声音分离线索,现有的计算听觉场景分析系统大都只能分离具有周期结构的浊音,而忽略了对清音的分离。研究表明声音的起始(onset)和结束(offset)时间通过信号能量的突然变化来分离声音,与语音中的清浊无关。因此本文基于计算听觉场景分析的理论,提出了使用onset/offset线索完成混合语音分离的思想。该方法通过在时域和频域上检测并匹配onset/offset,利用时频图上的onset/offset信息合并片段来实现混合语音的分离。通过实验可以得出onset/offset线索能够同时处理清音和浊音的分离,解决了用不同的声音线索处理清音和浊音的问题,使得算法更为简单;并且onset/offset线索对混合声音的类型没有限制,无论对于音乐、语音还是噪声都可以进行分离处理并都得到了很好的分离效果。

全文目录


摘要  5-6
ABSTRACT  6-9
第1章 绪论  9-16
  1.1 课题研究的目的及意义  9-11
  1.2 语音分离发展现状  11-14
    1.2.1 盲信号分离  11-12
    1.2.2 计算听觉场景分析  12-14
  1.3 本文研究内容及章节安排  14-16
    1.3.1 研究内容概述  14-15
    1.3.2 章节安排  15-16
第2章 计算听觉场景分析及分离线索研究  16-30
  2.1 听觉场景分析  16-18
  2.2 计算听觉场景分析  18-22
    2.2.1 基本概念  18-19
    2.2.2 理论依据  19-20
    2.2.3 系统模型  20-22
  2.3 声音分离线索  22-27
    2.3.1 分离线索介绍  22-26
    2.3.2 谐波线索分析  26-27
  2.4 基于onset/offset线索的CASA系统  27-29
  2.5 本章小结  29-30
第3章 外围听觉处理  30-41
  3.1 人耳听觉系统  30-32
  3.2 听觉外围模型  32-35
  3.3 平滑算法  35-40
    3.3.1 时间平滑  36-38
    3.3.2 频率平滑  38-40
  3.4 本章小结  40-41
第4章 Onset/offset算法与语音重构  41-50
  4.1 线索提取  43-45
    4.1.1 时域检测  43-45
    4.1.2 频域扩展  45
  4.2 onset/offset组织  45-47
  4.3 语音重构  47-49
  4.4 本章小结  49-50
第5章 实验与结果分析  50-62
  5.1 平滑实验  51-53
  5.2 音乐分离实验  53-55
  5.3 语音分离实验  55-58
  5.4 噪声分离实验  58-59
  5.5 实验结果分析  59-60
  5.6 本章小结  60-62
结论  62-64
参考文献  64-69
攻读硕士学位期间发表的论文和取得的科研成果  69-70
致谢  70

相似论文

  1. 复杂环境下语音增强方法研究,TN912.35
  2. 基于空域滤波的语音分离研究,TN912.3
  3. 移动机器人听觉导航系统中语音分离技术研究,TN912.3
  4. 基于振荡神经网络的语音分离算法的研究,TN912.3
  5. 多音音乐音高估计研究,TN912.3
  6. 基于麦克风阵列的语音增强和分离方法研究,TN912.3
  7. 基于计算声场景分析的混叠语音分离研究,TN912.3
  8. 听觉场景分析与声源定位的算法研究,TN912.3
  9. 语音信号增强与分离算法研究,TN912.3
  10. 非负稀疏信号分解及在单声道声音分离中的应用,TN912.34
  11. 带噪混叠语音信号盲分离方法研究,TN912.3
  12. 语音盲分离算法研究,TN912.3
  13. 语音盲分离算法的研究,TP301.6
  14. 基于稀疏分解的单通道混合语音分离算法研究,TN912.3
  15. 嵌入式音频播放系统设计与实现,TP391.42
  16. 跨文化的情感语音分析,TP391.42
  17. 与文本有关的说话人确认技术研究与应用,TP391.42
  18. 嵌入式声纹识别系统的研究与实现,TP391.42
  19. MTK平台上高级音频播放系统的设计与实现,TP391.42
  20. 噪声环境下的说话人识别研究,TP391.42

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 声音识别及其装置
© 2012 www.xueweilunwen.com