学位论文 > 优秀研究生学位论文题录展示

情感说话人识别的人机性能对比研究

作 者: 汪燊
导 师: 杨莹春
学 校: 浙江大学
专 业: 计算机应用技术
关键词: 说话人识别 情感语音 人耳听辨
分类号: TN912.34
类 型: 硕士论文
年 份: 2013年
下 载: 30次
引 用: 0次
阅 读: 论文下载
 

内容摘要


听声辨人是人类的重要感知功能之一,一直以来人们希望能研究出具有人耳辨别声音功能的机器自动识别系统。随着语音学、听觉机理和分类模型的研究发展,当前在实验室环境下说话人识别系统已取得了较好的性能。在实际环境中,人说话时具有情绪,这对语音产生了很大影响。对具有情感的语音进行说话人识别称为情感说话人识别。由于训练和测试时的情感不一致导致的不匹配极大的影响了系统识别性能。对于人耳听辨,其识别性能也因情感语音的影响出现了下降。通过比较机器识别错误和人耳听辨错误的样例,发现两者错误的情形并不相同。本文研究了情感语音的发音特点,设计实现了机器识别系统和人耳听辨实验,通过语谱图,特征分析和听觉感受,分析对比人耳与机器在分辨情感语音的优势劣势。主要工作总结如下:1.设计实现了机器识别系统网站平台,使得说话人实验更加快捷方便,更好的满足了说话人识别的大量实验需求。2.设计完成了人耳在情感语音库下的听辨实验。3.进行情感语音下说话人识别的人机性能对比研究,针对情感、说话人和文本内容三个维度,对比分析人机识别的特点。通过对MASC库的听辨,详细分析了情绪对语音的影响,对呼吸音,哭腔,耳语音和重读这几种特点进行了详细分析。将情绪影响分为时间连续型和时间离散型两类,并得出了这两类影响下语音的人耳听辨结果。最后提出了有效的人机结合说话人辨识策略。

全文目录


摘要  3-4
Abstract  4-11
第1章 绪论  11-17
  1.1 研究背景  11-13
  1.2 说话人识别技术发展  13
  1.3 影响系统性能的因素  13-15
  1.4 情感说话人识别  15
  1.5 人机系统对比  15-16
  1.6 本文内容安排  16-17
第2章 发音声学模型与听觉识别  17-32
  2.1 发音系统模型  17-20
  2.2 人耳听觉系统  20-29
    2.2.1 声波与声音  20-21
    2.2.2 人耳的听觉机理  21-29
  2.3 人耳听辨  29-30
    2.3.1 司法鉴定  29-30
    2.3.2 HASR介绍  30
  2.4 小结  30-32
第3章 基于高斯混合模型的说话人识别  32-46
  3.1 预处理  32-33
  3.2 特征提取  33-35
  3.3 建立模型  35-42
    3.3.1 UBM训练  37-41
    3.3.2 说话人模型MAP注册  41-42
  3.4 评判得分  42-43
  3.5 得分规整  43-45
  3.6 小结  45-46
第4章 机器识别系统与听辨系统实现  46-64
  4.1 情感数据库设计  46-50
    4.1.1 情感分类  46-47
    4.1.2 语料的自然度  47-49
    4.1.3 MASC语音库  49-50
  4.2 说话人识别系统Sonar v3  50-61
    4.2.1 模块构成  51-53
    4.2.2 系统设计  53-61
  4.3 人耳听辨实验组织  61-62
    4.3.1 听辨数据安排  61
    4.3.2 听辨规则  61-62
    4.3.3 听辨实验流程  62
  4.4 小结  62-64
第5章 情感说话人识别的人机性能对比  64-85
  5.1 实验设置  64-65
  5.2 机器和人耳总体性能对比  65-69
    5.2.1 不同情感的识别率分布  65-66
    5.2.2 不同说话人识别率分布  66-67
    5.2.3 不同文本的识别率分布  67-68
    5.2.4 不同听辨人识别率分布  68-69
  5.3 情感语音的发音变化  69-76
    5.3.1 基音频率  69-70
    5.3.2 能量和语速  70
    5.3.3 呼吸音  70-71
    5.3.4 哭腔  71-72
    5.3.5 耳语音  72-74
    5.3.6 重读  74-75
    5.3.7 其他  75-76
  5.4 机器识别错误语句分析  76-79
  5.5 人机优势对比  79-80
  5.6 人机融合  80-83
    5.6.1 机器识别可靠性分析  80-82
    5.6.2 人机结合方案  82-83
  5.7 本章小结  83-85
第6章 总结与展望  85-87
  6.1 总结  85
  6.2 工作展望  85-87
参考文献  87-89
致谢  89

相似论文

  1. 基于特征选择及其融合方法的说话人识别,TN912.34
  2. 数字波导网格模型及语音网格参数估计,TN912.3
  3. 基于保局部核多元RVM的说话人识别方法研究,TN912.34
  4. 基于SOPC的说话人识别控制器,TN912.34
  5. 听觉系统中语音信号处理相关性质研究,TN912.3
  6. 复杂信道下的说话人识别技术,TN912.34
  7. 基于VC++6.0的说话人识别系统的研究,TN912.34
  8. 基于混合特征和高斯混合模型的说话人识别研究,TN912.34
  9. 基于Windows CE的说话人识别系统的设计与实现,TN912.34
  10. 说话人识别中特征参数的提取及优化研究,TN912.34
  11. 基于文本无关的说话人识别研究,TN912.34
  12. 基于矢量量化技术和DTW算法的说话人识别系统的实验研究,TN912.34
  13. 多路并行实时说话人识别算法研究与实现,TN912.34
  14. 基于支持向量机的说话人识别系统的开发,TN912.34
  15. 双模态汉语情感语音合成的研究,TN912.33
  16. 普通话语音情感信息的分析与研究,TN912.34
  17. 与文本无关的开集说话人识别技术研究,TN912.34
  18. 噪声环境下的说话人识别研究,TN912.34
  19. 高表现力语音声学建模的研究,TN912.3
  20. 普通话的情感语音韵律分析,H116
  21. 基于EMD的说话人识别研究,TN912.34

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com