学位论文 > 优秀研究生学位论文题录展示

汉语连续语音三字词基音提取及声调识别

作　者: 郑燕琳
导　师: 赵黎明
学　校: 吉林大学
专　业: 控制理论与控制工程
关键词: 三字词连续语音基音提取音节分割声调识别动态时间规整基于改进神经网络算法
分类号: TN912.3
类　型: 硕士论文
年　份: 2004年
下　载: 319次
引　用: 4次
阅　读: 论文下载

内容摘要

随着现代科学和计算机技术的发展，人们在与机器的信息交流中，需要一种更加方便、自然的方式。一般来讲，人与机器的语言通信大致分为两种情况：语音合成、语音识别。语音识别是以语音为研究对象，是语音信号处理的一个重要研究方向，是实现人机通信的主要技术。在计算机、信息处理、通信与电子系统、自动控制等领域中，在工业、军事、交通、医学、民用诸方面有着广泛的应用。但由于汉语自身的特点，汉语的语音信息处理比西方语言更为困难和复杂，语音识别还存在许多困难，远远达不到实用化的要求。寻求新的语音识别算法，提高识别准确率是目前所要解决的问题。汉语是音节声调语言。声母、韵母和声调是汉语音节的三个主要属性。作为主要属性之一的声调携带着重要的辩义信息，是连续语音切分的有力手段，在连续语流中声调组合及其模式还是提高单词和单句识别率及语音理解必不可少的。声调对探讨具有汉语特色的新的语音识别方法有重要意义，对形成个人语音声调特征进行说话人识别也具有重要意义。因此，研究汉语的声调特征是具有普遍意义的。三字词中音节的声调特征更接近连续语音中音节的声调特征，本文就是要探讨一种有效的汉语连续语音三字词基音检测及声调识别方法。本文主要研究内容为两部分：基音提取和声调识别。基音提取的准确度极大的影响声调识别的准确率。本文主要研究基音频率的特性，提出了一种有效的基音提取算法。另外，本文在研究已有的声调识别方法的基础上，提出了一种新的声调识别算法。本文首先介绍了语音识别技术的发展历史、语音识别的系统框架和目前语音识别技术的难点，以及声调识别技术的理论基础及现状。然后，本文重点研究所要探讨主要内容的理论算法，并提出新的算法：1.研究本课题关键技术之一：基音提取。基音提取是声调识别准确<WP=88>率提高的关键因素之一，准确的提取基音频率，尤其是较准确的提取三字词音节浊音段的频率是所要解决的问题。本文提出了一种音节分割方法，利用声母短时平均能量和短时过零率特性进行音节的有效分割。再结合自相关函数和平均幅度差函数法提取基音频率。实验证明这种方法取得了较好的效果。2.研究本课题关键技术之二：声调识别。本文利用基音提取的结果对已有的模糊声调识别算法进行研究，并提出了一种基于动态时间规整技术和改进的神经网络的声调识别算法。对不同的汉语词语，或不同人说相同的汉语词语时，其输入汉语语音词组信号的帧数不同，而大多数神经网络分类器的输入结构是固定的，我们利用动态时间规整技术提取固定长度的语音信号来解决这一难题。实验证明，这种方法取得了很好的效果。神经网络的设计是声调识别准确度提高的关键，我们将传统神经网络加以改进，提出S函数输出限幅算法、动量法、自适应学习算法，并用BP网络加以训练，这种改进的神经网络算法提高了声调识别的准确率。最后，本文对所提出的算法进行实验和性能分析。理论分析和实验结果都表明，应用本文提出的基音提取和声调识别方法可取得较高的声调识别准确率，并具较好的鲁棒性，但还存在一些缺点。我们在总结全文的基础上，指出了若干有待深入研究的问题。

全文目录

第一章绪论  7-13
  1.1 语音识别概述  7-11
    1.1.1 语音识别发展历史  8
    1.1.2 语音识别系统  8-10
    1.1.3 语音识别的难点  10-11
  1.2 语音识别--声调识别理论基础及现状  11-12
  1.3 本文的研究内容和方法  12
  1.4 本章小结  12-13
第二章基音提取及音节分割  13-30
  2.1 基音提取原理  13-21
    2.1.1 语音信号预处理  15-17
    2.1.2 自相关法和平均幅度差法相结合提取基音  17-20
    2.1.3 插值平滑  20-21
  2.2 音节分割原理  21-27
    2.2.1 清浊判决  22
    2.2.2 周期性判断  22-23
    2.2.3 音节分割  23-27
  2.3 基音提取及音节分割的算法与实验结论  27-29
  2.4 本章小结  29-30
第三章声调识别原理  30-38
  3.1 声调模式  30
  3.2 声调识别概述  30-31
  3.3 声调模糊识别原理  31-37
    3.3.1 特征提取  31-32
    3.3.2 声调模式分析  32
    3.3.3 模糊识别算法  32-37
  3.4 本章小结  37-38
第四章基于动态时间规整和改进神经网络的声调识别算法  38-68
  4.1 动态时间规整  38-42
    4.1.1 识别系统方案  38-39
    4.1.2 时间规整网络结构  39-41
    4.1.3 时间规整网络算法  41-42
  4.2 人工神经网络概述  42-43
  4.3 人工神经元网络基本原理  43-51
    4.3.1 人工神经元  43-46
    4.3.2 人工神经元网络模型  46-47
    4.3.3 人工神经元网络的学习过程  47-48
    4.3.4 人工神经元网络的学习规则  48-49
    4.3.5 Delta学习规则  49-51
  4.4 多层网络的误差逆传播校正方法  51-59
    4.4.1 误差逆传播校正方法  51-55
    4.4.2 BP网络的学习规则与计算方法  55-59
  4.5 BP网络的设计分析及其改进方案  59-63
    4.5.1 BP网络的设计分析  59-61
    4.5.2 BP网络的改进方案  61-63
  4.6 基于改进的BP网络的算法实现  63-67
  4.7 本章小结  67-68
第五章实验结果与分析  68-80
  5.1 基于动态时间规整和改进的神经网络算法  68-75
    5.1.1 神经网络隐含层神经元数的选择  68-72
    5.1.2 基于动态时间规整和改进神经网络算法实验结果分析  72-75
  5.2 基于动态时间规整和改进的神经网络算法与其它识别方法性能比较  75-77
  5.3 结论  77-79
  5.4 本章小结  79-80
第六章全文总结  80-82
参考文献  82-86
致谢  86-87
摘要  87-89
Abstract  89-91

汉语连续语音三字词基音提取及声调识别

内容摘要

全文目录

相似论文