学位论文 > 优秀研究生学位论文题录展示

基于GMM和SVM的音频分类算法

作 者: 周兴恩
导 师: 殷福亮;陈喆
学 校: 大连理工大学
专 业: 通信与信息系统
关键词: 音频分类 音频特征分析 高斯混合模型 支持向量机 端点检测
分类号: TN912.3
类 型: 硕士论文
年 份: 2009年
下 载: 321次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着计算机技术、网络技术和通讯技术的不断发展,图像、视频、音频等多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式,其中音频信息占有重要的地位。原始音频数据是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,给音频信息的深度处理和分析工作带来了很大的困难。如何提取音频中的结构化信息和内容语义是音频信息深度处理、基于内容检索和辅助视频分析等应用的关键。音频分类与分割技术是解决这一问题的关键技术,是音频结构化的基础。本文在总结前人研究成果的基础上,研究了音频特征的分析与抽取、基于GMM的音频分类和基于SVM的音频分类问题。本文工作主要包括以下内容:(1)分析了语音和音乐的特征参数,并提取其相关特征。(2)分别使用GMM和SVM分类算法做为语音和音乐的分类器,并比较了这两种分类器的性能。(3)使用SVM分类器实现语音端点检测,并与基于能量和过零率的端点检测方法进行了比较。(4)给出了一种基于GMM统计特性参数和SVM结合使用的音频分类系统。该方法结合了GMM鲁棒性好和SVM分辨力好的优点,提高了系统的性能和鲁棒性。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-14
  1.1 研究背景  8-10
  1.2 音频分类的研究现状  10-12
  1.3 本文主要工作和论文结构  12-14
2 音频分类技术及原理  14-24
  2.1 音频分类概述  14
  2.2 音频信号特征分析  14-20
    2.2.1 基于帧的音频特征  14-18
    2.2.2 基于片段的音频特征  18-20
  2.3 分类器设计的常用方法  20-24
    2.3.1 基于规则的方法  20
    2.3.2 最小距离法  20
    2.3.3 统计模型  20-24
3 高斯混合模型  24-31
  3.1 高斯混合模型的基本概念  24-25
    3.1.1 高斯混合模型的含义  24
    3.1.2 高斯混合模型的描述  24-25
    3.1.3 高斯混合模型的训练  25
  3.2 EM算法  25-29
    3.2.1 EM算法的含义  26
    3.2.2 EM算法的原理  26-27
    3.2.3 用EM算法的估计GMM的参数  27-29
  3.3 基于GMM的分类器的设计  29-31
4 支持向量机  31-43
  4.1 统计学习理论  31-33
    4.1.1 经验风险  31
    4.1.2 VC维  31-32
    4.1.3 学习过程的一致性  32
    4.1.4 结构风险最小归纳原理  32-33
  4.2 支持向量机的算法原理  33-38
    4.2.1 最优超平面  34-35
    4.2.2 线性分类  35-36
    4.2.3 非线性分类  36-37
    4.2.4 核函数  37-38
  4.3 支持向量机的特点  38-39
  4.4 基于SVM的分类器的设计  39-43
5 基于GMM和SVM组合的音频分类系统  43-55
  5.1 音频信号的预处理  43-47
    5.1.1 预加重  43-44
    5.1.2 分帧  44-45
    5.1.3 加窗  45-46
    5.1.4 端点检测VAD  46-47
  5.2 特征分析与提取  47-51
    5.2.1 MFCC参数的分析与提取  47-49
    5.2.2 音频感知特征参数的分析和提取  49-51
  5.3 基于GMM聚类的特征变换  51-52
  5.4 基于GMM统计特性参数和SVM的音频分类  52-55
结论  55-56
参考文献  56-58
攻读硕士学位期间发表学术论文情况  58-59
致谢  59-60

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  4. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  5. 音乐结构自动分析研究,TN912.3
  6. 基于三维重建的焊点质量分类方法研究,TP391.41
  7. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  8. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  9. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  10. 基于图像的路面破损识别,TP391.41
  11. 基于支持向量机的故障诊断方法研究,TP18
  12. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  13. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  14. 基于车载3D加速传感器的路况监测研究,TP274
  15. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  16. 基于机器学习的入侵检测系统研究,TP393.08
  17. 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
  18. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  19. 基于AdaBoost算法的人脸识别研究,TP391.41
  20. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  21. 城市污水处理厂中A~2O工艺过程的建模研究,X703

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com