学位论文 > 优秀研究生学位论文题录展示
广播语音的分割与分类研究
作 者: 陈宇超
导 师: 刘刚
学 校: 北京邮电大学
专 业: 模式识别与智能系统
关键词: 语音分割 语音 音乐 支撑向量机 基音频率 贝叶斯决策
分类号: TN912.34
类 型: 硕士论文
年 份: 2009年
下 载: 51次
引 用: 1次
阅 读: 论文下载
内容摘要
当今的大词汇量的语音识别系统,在安静的实验室语音情况下已经获得了很高的识别率。但是,想要把语音识别推入到更加广阔的应用空间中区,需要对系统的鲁棒性,计算速度上提出了更高的要求。广播语音,作为一种实际语音,有其复杂性,和一般的实验室语音有一定的区别,比如:广播语音包含各种音频要素,比如人声,音乐,长的静音段,噪音等。如何提取音频中的结构化信息和音频内容,是音频信息深度处理,基于内容检索和提高系统鲁棒性的基础。目前对于广播语音的分割与分类研究是当前的研究热点之一。本文主要研究了语音和音乐之间的区别,通过抽取特定的特征搭建了一个基于支撑向量机的语音、音乐的区分系统,完成语音、音乐两种最主要的音频要素的分类。另外,本文就一种最常见的特征基音频率进行了一定的研究,并将之用于区分语音、音乐的系统中去,完成了一些实验。除此之外,本文总结了当前国际上主要的音频分割的方法。使用其中贝叶斯信息准则应用到以距离为基础的检测法,搭建了一个说话人跳变点的区分系统。本文的工作为完整的语音分割系统的搭建打下了一定的基础,对进一步的深入研究具有一定推动和借鉴意义。
|
全文目录
摘要 4-5 ABSTRACT 5-10 第一章 绪论 10-21 1.1 研究背景与目的意义 10-13 1.1.1 背景 10-11 1.1.2 为什么要分割 11-13 1.2 广播语音分割 的学位论文">语音分割技术的发展 13-16 1.3 音频分割的方法 16-19 1.3.1 音频分割 16-18 1.3.2 音频分类 18-19 1.3.3 音频聚类 19 1.4 本研究出发点以及研究内容 19-20 1.5 论文的组成结构 20-21 第二章 基于支撑向量机的语音音乐区分系统 21-37 2.1 研究出发点 21 2.2 语音、音乐区分的现状 21-22 2.3 音频特征的选取 22-28 2.3.1 过零率(zero crossing rate) 23-24 2.3.2 短时能量(short time energy) 24 2.3.3 频域能量(frequency energy) 24-25 2.3.4 高过零率比率(High Zero Crossoing Rate Ration) 25-26 2.3.5 低能量比率(Low Short Time Energy Ratio) 26 2.3.6 频谱流量(Spectram flux) 26-27 2.3.7 子带能量(sub-band energy) 27-28 2.4 基于支撑向量机的分类方法 28-34 2.4.1 支撑向量机的简单介绍 29-32 2.4.2 基本的分类策略 32-34 2.5 实验结果以及分析 34-37 2.5.1 实验设计以及实验结果 34-35 2.5.2 实验结果分析 35-37 第三章 基于基音频率的音乐、语音关键帧判断 37-46 3.1 研究目的出发点 37 3.2 基音频率的特点 37-38 3.3 提取基音频率 38-43 3.3.1 基音周期的计算 39-43 3.3.2 结果的平滑处理 43 3.4 系统设计以及实验结果,分析 43-46 3.4.1 计算实现 43-44 3.4.2 实验结果 44-45 3.4.3 实验分析 45-46 第四章 基于假设检验的分割系统 46-56 4.1 研究出发点 46 4.2 通过贝叶斯信息决策方法(BIC)决定跳变点 46-50 4.2.1 贝叶斯信息决策法(Bayesian Information Criterion) 46-47 4.2.2 BIC信息决策法用于检测语者跳变点基本介绍 47-48 4.2.3 BIC跳变点检测法的优缺点 48 4.2.4 T~2-Statistic算法 48-50 4.3 贝叶斯信息准则应用到以距离为基础的检测法 50-54 4.3.1 检测语音窗长度带来的问题 50-51 4.3.2 用ALIZE平台,搭建的系统 51-53 4.3.3 系统的流程 53-54 4.4 实验结果以及分析 54-56 4.4.1 实验参数设置 54-55 4.4.2 实验结果与分析 55-56 第五章 总结与展望 56-58 5.1 本文工作总结 56-57 5.2 未来工作展望 57-58 参考文献 58-62 致谢 62-63 作者攻读硕士学位期间发表的论文 63
|
相似论文
- 布依语—英语语音对比研究,H319
- “体系即历史”——达尔豪斯音乐美学治学观蠡测,J601
- 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
- 基于DSP的机器人语音命令识别系统研制,TN912.34
- 音乐结构自动分析研究,TN912.3
- 网络语音传输丢包的恢复技术,TN912.3
- 基于小波变换的语音信号去噪及其DSP算法实现,TN912.3
- 基于停用词处理的汉语语音检索方法,TP391.1
- 在智能手机环境下健康管理功能设计与研究,TN929.53
- 事件观视阈下初中音乐生成性教学研究,G633.951
- 英语语音意识,句法意识与工作记忆对英语阅读理解之预测力的动态变化,G633.41
- 初中音乐课堂师生互动行为研究,G633.951
- 基于多重分形的语音情感识别研究,TN912.34
- 语音情感识别的特征选择与特征产生,TP18
- 论幼儿园音乐教学中的设计与表达,G613.5
- 论中国小学音乐教育中的自然主义教育观,G623.71
- 苏联专家在中央音乐学院执教始末,G649.2
- 多元智力理论在幼儿音乐领域教学中的应用研究,G613.5
- 音乐教师职业认同的特点、影响及促进研究,G633.951
- 浅析表演手段在小学低年级音乐课堂中的辅助作用,G623.71
- 广西博白地佬话比较研究,H17
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com
|