学位论文 > 优秀研究生学位论文题录展示

基于GMM和SVM的音频分类算法

作　者: 周兴恩
导　师: 殷福亮；陈喆
学　校: 大连理工大学
专　业: 通信与信息系统
关键词: 音频分类音频特征分析高斯混合模型支持向量机端点检测
分类号: TN912.3
类　型: 硕士论文
年　份: 2009年
下　载: 321次
引　用: 1次
阅　读: 论文下载

内容摘要

随着计算机技术、网络技术和通讯技术的不断发展,图像、视频、音频等多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式,其中音频信息占有重要的地位。原始音频数据是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,给音频信息的深度处理和分析工作带来了很大的困难。如何提取音频中的结构化信息和内容语义是音频信息深度处理、基于内容检索和辅助视频分析等应用的关键。音频分类与分割技术是解决这一问题的关键技术,是音频结构化的基础。本文在总结前人研究成果的基础上,研究了音频特征的分析与抽取、基于GMM的音频分类和基于SVM的音频分类问题。本文工作主要包括以下内容:(1)分析了语音和音乐的特征参数,并提取其相关特征。(2)分别使用GMM和SVM分类算法做为语音和音乐的分类器,并比较了这两种分类器的性能。(3)使用SVM分类器实现语音端点检测,并与基于能量和过零率的端点检测方法进行了比较。(4)给出了一种基于GMM统计特性参数和SVM结合使用的音频分类系统。该方法结合了GMM鲁棒性好和SVM分辨力好的优点,提高了系统的性能和鲁棒性。

全文目录

摘要  4-5
Abstract  5-8
1 绪论  8-14
  1.1 研究背景  8-10
  1.2 音频分类的研究现状  10-12
  1.3 本文主要工作和论文结构  12-14
2 音频分类技术及原理  14-24
  2.1 音频分类概述  14
  2.2 音频信号特征分析  14-20
    2.2.1 基于帧的音频特征  14-18
    2.2.2 基于片段的音频特征  18-20
  2.3 分类器设计的常用方法  20-24
    2.3.1 基于规则的方法  20
    2.3.2 最小距离法  20
    2.3.3 统计模型  20-24
3 高斯混合模型  24-31
  3.1 高斯混合模型的基本概念  24-25
    3.1.1 高斯混合模型的含义  24
    3.1.2 高斯混合模型的描述  24-25
    3.1.3 高斯混合模型的训练  25
  3.2 EM算法  25-29
    3.2.1 EM算法的含义  26
    3.2.2 EM算法的原理  26-27
    3.2.3 用EM算法的估计GMM的参数  27-29
  3.3 基于GMM的分类器的设计  29-31
4 支持向量机  31-43
  4.1 统计学习理论  31-33
    4.1.1 经验风险  31
    4.1.2 VC维  31-32
    4.1.3 学习过程的一致性  32
    4.1.4 结构风险最小归纳原理  32-33
  4.2 支持向量机的算法原理  33-38
    4.2.1 最优超平面  34-35
    4.2.2 线性分类  35-36
    4.2.3 非线性分类  36-37
    4.2.4 核函数  37-38
  4.3 支持向量机的特点  38-39
  4.4 基于SVM的分类器的设计  39-43
5 基于GMM和SVM组合的音频分类系统  43-55
  5.1 音频信号的预处理  43-47
    5.1.1 预加重  43-44
    5.1.2 分帧  44-45
    5.1.3 加窗  45-46
    5.1.4 端点检测VAD  46-47
  5.2 特征分析与提取  47-51
    5.2.1 MFCC参数的分析与提取  47-49
    5.2.2 音频感知特征参数的分析和提取  49-51
  5.3 基于GMM聚类的特征变换  51-52
  5.4 基于GMM统计特性参数和SVM的音频分类  52-55
结论  55-56
参考文献  56-58
攻读硕士学位期间发表学术论文情况  58-59
致谢  59-60

基于GMM和SVM的音频分类算法

内容摘要

全文目录

相似论文