学位论文 > 优秀研究生学位论文题录展示

基于双层分类模型的实时语音情感与音素识别

作 者: 王博
导 师: 卜佳俊
学 校: 浙江大学
专 业: 计算机应用技术
关键词: 情感识别 音素识别 C4.5决策树 AdaBoost 差分特征 加权约束 协同发音 非线性降维
分类号: TP391.42
类 型: 硕士论文
年 份: 2008年
下 载: 85次
引 用: 0次
阅 读: 论文下载
 

内容摘要


语音交互是人机交互最自然的方式,作为其基础的语音识别技术一直是计算机领域的热门研究议题,语音识别过程包括语音信号预处理、声学特征提取、特征向量降维处理和基于统计模型的语音识别。本文着眼于该领域近年来备受关注的情感识别音素识别两大分支,通过对现有统计模型的改进,实现了语音的情感和音素实时识别。首先提出了本论文的研究背景及研究内容,简单说明了情感识别和音素识别的重要意义,然后回顾了目前语音研究中常用的各种声学特征,分别简要介绍了情感识别和音素识别中常用的统计模型和降维算法。本文将在文本分类、图像识别等领域应用广泛的AdaBoost+C4.5模型引入语音领域,并且将该模型改造为输出双标签的双层分类模型,讨论了该双层模型的两种训练策略,比较了两者的优劣,最终成功实现了语音的实时情感识别和音素识别。在上层的情感识别中,为了突出情感的连续性,引入了差分的声学特征,为了避免情感的跳跃变化,采用了加权投票的约束策略;在下层的音素识别中,为了克服协同发音的影响,采用了前向帧关联的发音模型,为了提高识别的速率,对多帧高维向量进行了Isomap非线性降维处理。本文提出的分类模型具有潜在的商业应用价值,可以应用在低频带网络通讯、虚拟主持人、游戏CG制作、自动客服系统、电影和广告中的角色模拟等许多领域。

全文目录


摘要  3-4
Abstract  4-9
第1章 绪论  9-13
  1.1 研究意义  9-11
  1.2 本文的工作  11
  1.3 本文的组织结梅  11-13
第2章 语音处理技术综述  13-38
  2.1 语音声学特征  13-19
    2.1.1 线性模型声学特征  14-19
    2.1.2 非线性模型声学特征  19
  2.2 语音情感识别概述  19-28
    2.2.1 情感的类别  20-22
    2.2.2 情感识别的常用统计模型  22-28
  2.3 语音音素识别概述  28-33
    2.3.1 音素识别的意义  28-29
    2.3.2 音素识别的常用统计模型  29-32
    2.3.3 协同发音  32-33
  2.4 特征向量的降维算法  33-37
    2.4.1 线性降维算法  34-36
    2.4.2 非线性降维算法  36-37
  2.5 本章小结  37-38
第3章 双层分类模型  38-49
  3.1 决策树与AdaBoost  38-42
    3.1.1 C4.5  39-41
    3.1.2 AdaBoost  41-42
  3.2 C4.5+ AdaBoost双层分类模型的训练与识别  42-48
    3.2.1 特征的连续性与离散化  43-44
    3.2.2 训练策略的选择  44-46
    3.2.3 识别结果分析  46-48
  3.3 本章小结  48-49
第4章 实时语音情感与音素识别  49-62
  4.1 系统结构概述  49
  4.2 语料采集与预处理  49-52
    4.2.1 基于HMM的音节切割  50-51
    4.2.2 基于人工标注的音素切割  51-52
  4.3 情感识别中语音特征的选择与约束策略  52-55
    4.3.1 情感识别中的声学特征选择  52-54
    4.3.2 情感识别中的加权投票约束  54-55
    4.3.3 结果分析  55
  4.4 音素识别中协同发音模型与非线性降维  55-60
    4.4.1 前向帧关联的发音模型与Isomap降维  56-60
    4.4.2 结果分析  60
  4.5 应用:语音驱动人脸动画  60-61
  4.6 本章小结  61-62
第5章 总结与展望  62-64
  5.1 工作总结  62
  5.2 展望  62-64
参考文献  64-70
攻读硕士学位期间主要的研究成果  70-71
致谢  71-72
作者简历  72

相似论文

  1. 基于三维重建的焊点质量分类方法研究,TP391.41
  2. 舌体特征的提取及融合分类方法研究,TP391.41
  3. 基于人眼检测的驾驶员疲劳状态识别技术,TP391.41
  4. 唇读中的特征提取、选择与融合,TP391.41
  5. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  6. 基于流形学习的数据降维技术研究,TP311.13
  7. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  8. 基于多重分形的语音情感识别研究,TN912.34
  9. 语音情感识别的特征选择与特征产生,TP18
  10. 基于差分演化的人脸识别方法研究,TP391.41
  11. 基于AdaBoost算法的人脸识别研究,TP391.41
  12. 基于单目视觉的车辆检测算法研究与实现,TP274
  13. 基于连续Adaboost算法的多角度人脸检测技术研究与实现,TP391.41
  14. 人脸表情识别算法研究,TP391.41
  15. 基于高斯特征的人体运动情感识别研究,TP391.41
  16. 基于脑电的情感识别,TP391.4
  17. 基于小波变换和线性子空间的人脸识别技术研究,TP391.41
  18. 基于红外视频的行人检测,TP391.41
  19. 视频数据中人体动作的分类研究,TP391.41
  20. 基于图像分析的人脸比对技术研究,TP391.41
  21. 不良图像检测系统的设计与实现,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 声音识别及其装置
© 2012 www.xueweilunwen.com