学位论文 > 优秀研究生学位论文题录展示

长音频与文本的对齐研究

作 者: 周陈
导 师: 黄云清
学 校: 湘潭大学
专 业: 计算数学
关键词: HTK 鲁棒性 语音识别 长语音文本匹配 自适应 编辑距离
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 15次
引 用: 0次
阅 读: 论文下载
 

内容摘要


长语音和文本的对齐可以促进对丰富的语音资源的大规模研究,例如,有声读物收集或者多媒体文档索引。对于这样的资源,基于传统的维特比强制对齐算法被证明是不足以胜任的,原因在维特比算法受限于:一是转写文本必须是准确的和二音频相对没有噪声。由于近几年中文语音识别率有显著提升,具备了用语音识别引擎解决语音文本对齐的条件。在本文中,我们用C++语言实现了一个具有鲁棒性的长音频文本对齐的程序,并能规避传统对齐方法中的一些限制。它实现了一个自适应、迭代性的语音识别和文本对齐的方式,而且能够处理时长很长的音频(可能包含噪声),并对噪声音频具有一定的鲁棒性。本文通过运行人为拼接的来自TIMIT数据库和863语音数据库的长音频,本文将给出相关的参考文本的边界结果。

全文目录


摘要  6-7
Abstract  7-9
第一章 引言  9-13
  §1.1 研究背景  9
  §1.2 语音与文本匹配技术的研究现状和难点  9-11
  §1.3 主要研究内容和组织结构  11-13
第二章 传统的语音文本对齐算法  13-18
  §2.1 隐马尔可夫模型 HMM  13-15
  §2.2 维特比对齐算法  15-18
第三章 自适应长音频文本对齐算法  18-35
  §3.1 中文音频识别过程  18-29
    §3.1.1 参考文本预处理  18-21
    §3.1.2 端点检测技术  21-22
    §3.1.3 特征提取  22-25
    §3.1.4 声学模型和声学模型自适应  25-27
    §3.1.5 语言模型和语言模型自适应  27-29
  §3.2 识别文本与参考文本的对齐过程  29-31
    §3.2.1 编辑距离 Edit Distance  29-31
  §3.3 迭代过程  31
  §3.4 自适应语音文本对齐算法  31-34
  §3.5 具体实施  34-35
第四章 实验结果和分析  35-49
  §4.1 实验基本设置  35-39
    §4.1.1 语音识别引擎 HTK 和相关命令参数配置  35-37
    §4.1.2 Srilm 语言模型工具  37-38
    §4.1.3 文本与文本对齐工具 SCTK 之Sclite  38-39
  §4.2 实验结果  39-47
  §4.3 实验结果分析  47-49
第五章 总结与展望  49-50
  §5.1 全文总结  49
  §5.2 工作展望  49-50
参考文献  50-54
致谢  54-55
附录  55-59

相似论文

  1. 陀螺稳定吊舱控制系统稳定回路设计与研究,V241.5
  2. 航天器姿态动力学系统鲁棒自适应控制方法研究,V448.22
  3. 适应多总线通讯模式的感应电动机矢量控制系统研究,TM346
  4. 半导体激光器热电控制技术研究,TN248.4
  5. 基于视觉特性的视频编码技术研究,TN919.81
  6. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  7. 基于DSP的机器人语音命令识别系统研制,TN912.34
  8. 基于滑动相关双门限的扩频码同步捕获技术的研究,TN914.42
  9. 跳频通信系统中同步及频率自适应算法研究,TN914.41
  10. 基于纹理特征的视频编码技术研究,TP391.41
  11. 图像分割中阴影去除算法的研究,TP391.41
  12. 非线性变结构导引规律的研究,TJ765
  13. 一类欠驱动Lagrangian系统的最优同步控制,TP13
  14. 自适应双重控制在垂直起降机中的应用研究,TP273
  15. 陀螺稳定吊舱控制系统设计,TP273
  16. 关于混沌系统同步控制方面的研究,O415.5
  17. 有源电力滤波器及其在配电网中的应用,TN713.8
  18. 基于甘油跨膜运输混杂动力系统的鲁棒性与辨识,TQ223.162
  19. 自适应火灾应急预案调整研究,X928.7
  20. 用于电子签章图像系统的数字水印技术研究,TP309.7
  21. 增强现实中跟踪注册算法研究,TP391.9

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com