学位论文 > 优秀研究生学位论文题录展示

广播语音的分割与分类研究

作　者: 陈宇超
导　师: 刘刚
学　校: 北京邮电大学
专　业: 模式识别与智能系统
关键词: 语音分割语音音乐支撑向量机基音频率贝叶斯决策
分类号: TN912.34
类　型: 硕士论文
年　份: 2009年
下　载: 51次
引　用: 1次
阅　读: 论文下载

内容摘要

当今的大词汇量的语音识别系统,在安静的实验室语音情况下已经获得了很高的识别率。但是,想要把语音识别推入到更加广阔的应用空间中区,需要对系统的鲁棒性,计算速度上提出了更高的要求。广播语音,作为一种实际语音,有其复杂性,和一般的实验室语音有一定的区别,比如:广播语音包含各种音频要素,比如人声,音乐,长的静音段,噪音等。如何提取音频中的结构化信息和音频内容,是音频信息深度处理,基于内容检索和提高系统鲁棒性的基础。目前对于广播语音的分割与分类研究是当前的研究热点之一。本文主要研究了语音和音乐之间的区别,通过抽取特定的特征搭建了一个基于支撑向量机的语音、音乐的区分系统,完成语音、音乐两种最主要的音频要素的分类。另外,本文就一种最常见的特征基音频率进行了一定的研究,并将之用于区分语音、音乐的系统中去,完成了一些实验。除此之外,本文总结了当前国际上主要的音频分割的方法。使用其中贝叶斯信息准则应用到以距离为基础的检测法,搭建了一个说话人跳变点的区分系统。本文的工作为完整的语音分割系统的搭建打下了一定的基础,对进一步的深入研究具有一定推动和借鉴意义。

全文目录

摘要  4-5
ABSTRACT  5-10
第一章绪论  10-21
  1.1 研究背景与目的意义  10-13
    1.1.1 背景  10-11
    1.1.2 为什么要分割  11-13
  1.2 广播语音分割的学位论文">语音分割技术的发展  13-16
  1.3 音频分割的方法  16-19
    1.3.1 音频分割  16-18
    1.3.2 音频分类  18-19
    1.3.3 音频聚类  19
  1.4 本研究出发点以及研究内容  19-20
  1.5 论文的组成结构  20-21
第二章基于支撑向量机的语音音乐区分系统  21-37
  2.1 研究出发点  21
  2.2 语音、音乐区分的现状  21-22
  2.3 音频特征的选取  22-28
    2.3.1 过零率(zero crossing rate)  23-24
    2.3.2 短时能量(short time energy)  24
    2.3.3 频域能量(frequency energy)  24-25
    2.3.4 高过零率比率(High Zero Crossoing Rate Ration)  25-26
    2.3.5 低能量比率(Low Short Time Energy Ratio)  26
    2.3.6 频谱流量(Spectram flux)  26-27
    2.3.7 子带能量(sub-band energy)  27-28
  2.4 基于支撑向量机的分类方法  28-34
    2.4.1 支撑向量机的简单介绍  29-32
    2.4.2 基本的分类策略  32-34
  2.5 实验结果以及分析  34-37
    2.5.1 实验设计以及实验结果  34-35
    2.5.2 实验结果分析  35-37
第三章基于基音频率的音乐、语音关键帧判断  37-46
  3.1 研究目的出发点  37
  3.2 基音频率的特点  37-38
  3.3 提取基音频率  38-43
    3.3.1 基音周期的计算  39-43
    3.3.2 结果的平滑处理  43
  3.4 系统设计以及实验结果，分析  43-46
    3.4.1 计算实现  43-44
    3.4.2 实验结果  44-45
    3.4.3 实验分析  45-46
第四章基于假设检验的分割系统  46-56
  4.1 研究出发点  46
  4.2 通过贝叶斯信息决策方法(BIC)决定跳变点  46-50
    4.2.1 贝叶斯信息决策法(Bayesian Information Criterion)  46-47
    4.2.2 BIC信息决策法用于检测语者跳变点基本介绍  47-48
    4.2.3 BIC跳变点检测法的优缺点  48
    4.2.4 T~2-Statistic算法  48-50
  4.3 贝叶斯信息准则应用到以距离为基础的检测法  50-54
    4.3.1 检测语音窗长度带来的问题  50-51
    4.3.2 用ALIZE平台，搭建的系统  51-53
    4.3.3 系统的流程  53-54
  4.4 实验结果以及分析  54-56
    4.4.1 实验参数设置  54-55
    4.4.2 实验结果与分析  55-56
第五章总结与展望  56-58
  5.1 本文工作总结  56-57
  5.2 未来工作展望  57-58
参考文献  58-62
致谢  62-63
作者攻读硕士学位期间发表的论文  63

相似论文

布依语—英语语音对比研究,H319
“体系即历史”——达尔豪斯音乐美学治学观蠡测,J601
多重ANN/HMM混合模型在语音识别中的应用,TN912.34
基于DSP的机器人语音命令识别系统研制,TN912.34
音乐结构自动分析研究,TN912.3
网络语音传输丢包的恢复技术,TN912.3
基于小波变换的语音信号去噪及其DSP算法实现,TN912.3
基于停用词处理的汉语语音检索方法,TP391.1
在智能手机环境下健康管理功能设计与研究,TN929.53
事件观视阈下初中音乐生成性教学研究,G633.951
英语语音意识，句法意识与工作记忆对英语阅读理解之预测力的动态变化,G633.41
初中音乐课堂师生互动行为研究,G633.951
基于多重分形的语音情感识别研究,TN912.34
语音情感识别的特征选择与特征产生,TP18
论幼儿园音乐教学中的设计与表达,G613.5
论中国小学音乐教育中的自然主义教育观,G623.71
苏联专家在中央音乐学院执教始末,G649.2
多元智力理论在幼儿音乐领域教学中的应用研究,G613.5
音乐教师职业认同的特点、影响及促进研究,G633.951
浅析表演手段在小学低年级音乐课堂中的辅助作用,G623.71
广西博白地佬话比较研究,H17