学位论文 > 优秀研究生学位论文题录展示

基于双层分类模型的实时语音情感与音素识别

作　者: 王博
导　师: 卜佳俊
学　校: 浙江大学
专　业: 计算机应用技术
关键词: 情感识别音素识别 C4.5决策树 AdaBoost 差分特征加权约束协同发音非线性降维
分类号: TP391.42
类　型: 硕士论文
年　份: 2008年
下　载: 85次
引　用: 0次
阅　读: 论文下载

内容摘要

语音交互是人机交互最自然的方式,作为其基础的语音识别技术一直是计算机领域的热门研究议题,语音识别过程包括语音信号预处理、声学特征提取、特征向量降维处理和基于统计模型的语音识别。本文着眼于该领域近年来备受关注的情感识别和音素识别两大分支,通过对现有统计模型的改进,实现了语音的情感和音素实时识别。首先提出了本论文的研究背景及研究内容,简单说明了情感识别和音素识别的重要意义,然后回顾了目前语音研究中常用的各种声学特征,分别简要介绍了情感识别和音素识别中常用的统计模型和降维算法。本文将在文本分类、图像识别等领域应用广泛的AdaBoost+C4.5模型引入语音领域,并且将该模型改造为输出双标签的双层分类模型,讨论了该双层模型的两种训练策略,比较了两者的优劣,最终成功实现了语音的实时情感识别和音素识别。在上层的情感识别中,为了突出情感的连续性,引入了差分的声学特征,为了避免情感的跳跃变化,采用了加权投票的约束策略;在下层的音素识别中,为了克服协同发音的影响,采用了前向帧关联的发音模型,为了提高识别的速率,对多帧高维向量进行了Isomap非线性降维处理。本文提出的分类模型具有潜在的商业应用价值,可以应用在低频带网络通讯、虚拟主持人、游戏CG制作、自动客服系统、电影和广告中的角色模拟等许多领域。

全文目录

摘要  3-4
Abstract  4-9
第1章绪论  9-13
  1.1 研究意义  9-11
  1.2 本文的工作  11
  1.3 本文的组织结梅  11-13
第2章语音处理技术综述  13-38
  2.1 语音声学特征  13-19
    2.1.1 线性模型声学特征  14-19
    2.1.2 非线性模型声学特征  19
  2.2 语音情感识别概述  19-28
    2.2.1 情感的类别  20-22
    2.2.2 情感识别的常用统计模型  22-28
  2.3 语音音素识别概述  28-33
    2.3.1 音素识别的意义  28-29
    2.3.2 音素识别的常用统计模型  29-32
    2.3.3 协同发音  32-33
  2.4 特征向量的降维算法  33-37
    2.4.1 线性降维算法  34-36
    2.4.2 非线性降维算法  36-37
  2.5 本章小结  37-38
第3章双层分类模型  38-49
  3.1 决策树与AdaBoost  38-42
    3.1.1 C4.5  39-41
    3.1.2 AdaBoost  41-42
  3.2 C4.5+ AdaBoost双层分类模型的训练与识别  42-48
    3.2.1 特征的连续性与离散化  43-44
    3.2.2 训练策略的选择  44-46
    3.2.3 识别结果分析  46-48
  3.3 本章小结  48-49
第4章实时语音情感与音素识别  49-62
  4.1 系统结构概述  49
  4.2 语料采集与预处理  49-52
    4.2.1 基于HMM的音节切割  50-51
    4.2.2 基于人工标注的音素切割  51-52
  4.3 情感识别中语音特征的选择与约束策略  52-55
    4.3.1 情感识别中的声学特征选择  52-54
    4.3.2 情感识别中的加权投票约束  54-55
    4.3.3 结果分析  55
  4.4 音素识别中协同发音模型与非线性降维  55-60
    4.4.1 前向帧关联的发音模型与Isomap降维  56-60
    4.4.2 结果分析  60
  4.5 应用:语音驱动人脸动画  60-61
  4.6 本章小结  61-62
第5章总结与展望  62-64
  5.1 工作总结  62
  5.2 展望  62-64
参考文献  64-70
攻读硕士学位期间主要的研究成果  70-71
致谢  71-72
作者简历  72

基于双层分类模型的实时语音情感与音素识别

内容摘要

全文目录

相似论文