学位论文 > 优秀研究生学位论文题录展示
长音频与文本的对齐研究
作 者: 周陈
导 师: 黄云清
学 校: 湘潭大学
专 业: 计算数学
关键词: HTK 鲁棒性 语音识别 长语音文本匹配 自适应 编辑距离
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 15次
引 用: 0次
阅 读: 论文下载
内容摘要
长语音和文本的对齐可以促进对丰富的语音资源的大规模研究,例如,有声读物收集或者多媒体文档索引。对于这样的资源,基于传统的维特比强制对齐算法被证明是不足以胜任的,原因在维特比算法受限于:一是转写文本必须是准确的和二音频相对没有噪声。由于近几年中文语音识别率有显著提升,具备了用语音识别引擎解决语音文本对齐的条件。在本文中,我们用C++语言实现了一个具有鲁棒性的长音频文本对齐的程序,并能规避传统对齐方法中的一些限制。它实现了一个自适应、迭代性的语音识别和文本对齐的方式,而且能够处理时长很长的音频(可能包含噪声),并对噪声音频具有一定的鲁棒性。本文通过运行人为拼接的来自TIMIT数据库和863语音数据库的长音频,本文将给出相关的参考文本的边界结果。
|
全文目录
摘要 6-7 Abstract 7-9 第一章 引言 9-13 §1.1 研究背景 9 §1.2 语音与文本匹配技术的研究现状和难点 9-11 §1.3 主要研究内容和组织结构 11-13 第二章 传统的语音文本对齐算法 13-18 §2.1 隐马尔可夫模型 HMM 13-15 §2.2 维特比对齐算法 15-18 第三章 自适应长音频文本对齐算法 18-35 §3.1 中文音频识别过程 18-29 §3.1.1 参考文本预处理 18-21 §3.1.2 端点检测技术 21-22 §3.1.3 特征提取 22-25 §3.1.4 声学模型和声学模型自适应 25-27 §3.1.5 语言模型和语言模型自适应 27-29 §3.2 识别文本与参考文本的对齐过程 29-31 §3.2.1 编辑距离 Edit Distance 29-31 §3.3 迭代过程 31 §3.4 自适应语音文本对齐算法 31-34 §3.5 具体实施 34-35 第四章 实验结果和分析 35-49 §4.1 实验基本设置 35-39 §4.1.1 语音识别引擎 HTK 和相关命令参数配置 35-37 §4.1.2 Srilm 语言模型工具 37-38 §4.1.3 文本与文本对齐工具 SCTK 之Sclite 38-39 §4.2 实验结果 39-47 §4.3 实验结果分析 47-49 第五章 总结与展望 49-50 §5.1 全文总结 49 §5.2 工作展望 49-50 参考文献 50-54 致谢 54-55 附录 55-59
|
相似论文
- 陀螺稳定吊舱控制系统稳定回路设计与研究,V241.5
- 航天器姿态动力学系统鲁棒自适应控制方法研究,V448.22
- 适应多总线通讯模式的感应电动机矢量控制系统研究,TM346
- 半导体激光器热电控制技术研究,TN248.4
- 基于视觉特性的视频编码技术研究,TN919.81
- 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
- 基于DSP的机器人语音命令识别系统研制,TN912.34
- 基于滑动相关双门限的扩频码同步捕获技术的研究,TN914.42
- 跳频通信系统中同步及频率自适应算法研究,TN914.41
- 基于纹理特征的视频编码技术研究,TP391.41
- 图像分割中阴影去除算法的研究,TP391.41
- 非线性变结构导引规律的研究,TJ765
- 一类欠驱动Lagrangian系统的最优同步控制,TP13
- 自适应双重控制在垂直起降机中的应用研究,TP273
- 陀螺稳定吊舱控制系统设计,TP273
- 关于混沌系统同步控制方面的研究,O415.5
- 有源电力滤波器及其在配电网中的应用,TN713.8
- 基于甘油跨膜运输混杂动力系统的鲁棒性与辨识,TQ223.162
- 自适应火灾应急预案调整研究,X928.7
- 用于电子签章图像系统的数字水印技术研究,TP309.7
- 增强现实中跟踪注册算法研究,TP391.9
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|