学位论文 > 优秀研究生学位论文题录展示
基于GMM和SVM的音频分类算法
作 者: 周兴恩
导 师: 殷福亮;陈喆
学 校: 大连理工大学
专 业: 通信与信息系统
关键词: 音频分类 音频特征分析 高斯混合模型 支持向量机 端点检测
分类号: TN912.3
类 型: 硕士论文
年 份: 2009年
下 载: 321次
引 用: 1次
阅 读: 论文下载
内容摘要
随着计算机技术、网络技术和通讯技术的不断发展,图像、视频、音频等多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式,其中音频信息占有重要的地位。原始音频数据是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,给音频信息的深度处理和分析工作带来了很大的困难。如何提取音频中的结构化信息和内容语义是音频信息深度处理、基于内容检索和辅助视频分析等应用的关键。音频分类与分割技术是解决这一问题的关键技术,是音频结构化的基础。本文在总结前人研究成果的基础上,研究了音频特征的分析与抽取、基于GMM的音频分类和基于SVM的音频分类问题。本文工作主要包括以下内容:(1)分析了语音和音乐的特征参数,并提取其相关特征。(2)分别使用GMM和SVM分类算法做为语音和音乐的分类器,并比较了这两种分类器的性能。(3)使用SVM分类器实现语音端点检测,并与基于能量和过零率的端点检测方法进行了比较。(4)给出了一种基于GMM统计特性参数和SVM结合使用的音频分类系统。该方法结合了GMM鲁棒性好和SVM分辨力好的优点,提高了系统的性能和鲁棒性。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-14 1.1 研究背景 8-10 1.2 音频分类的研究现状 10-12 1.3 本文主要工作和论文结构 12-14 2 音频分类技术及原理 14-24 2.1 音频分类概述 14 2.2 音频信号特征分析 14-20 2.2.1 基于帧的音频特征 14-18 2.2.2 基于片段的音频特征 18-20 2.3 分类器设计的常用方法 20-24 2.3.1 基于规则的方法 20 2.3.2 最小距离法 20 2.3.3 统计模型 20-24 3 高斯混合模型 24-31 3.1 高斯混合模型的基本概念 24-25 3.1.1 高斯混合模型的含义 24 3.1.2 高斯混合模型的描述 24-25 3.1.3 高斯混合模型的训练 25 3.2 EM算法 25-29 3.2.1 EM算法的含义 26 3.2.2 EM算法的原理 26-27 3.2.3 用EM算法的估计GMM的参数 27-29 3.3 基于GMM的分类器的设计 29-31 4 支持向量机 31-43 4.1 统计学习理论 31-33 4.1.1 经验风险 31 4.1.2 VC维 31-32 4.1.3 学习过程的一致性 32 4.1.4 结构风险最小归纳原理 32-33 4.2 支持向量机的算法原理 33-38 4.2.1 最优超平面 34-35 4.2.2 线性分类 35-36 4.2.3 非线性分类 36-37 4.2.4 核函数 37-38 4.3 支持向量机的特点 38-39 4.4 基于SVM的分类器的设计 39-43 5 基于GMM和SVM组合的音频分类系统 43-55 5.1 音频信号的预处理 43-47 5.1.1 预加重 43-44 5.1.2 分帧 44-45 5.1.3 加窗 45-46 5.1.4 端点检测VAD 46-47 5.2 特征分析与提取 47-51 5.2.1 MFCC参数的分析与提取 47-49 5.2.2 音频感知特征参数的分析和提取 49-51 5.3 基于GMM聚类的特征变换 51-52 5.4 基于GMM统计特性参数和SVM的音频分类 52-55 结论 55-56 参考文献 56-58 攻读硕士学位期间发表学术论文情况 58-59 致谢 59-60
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 基于车载3D加速传感器的路况监测研究,TP274
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 基于机器学习的入侵检测系统研究,TP393.08
- 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 城市污水处理厂中A~2O工艺过程的建模研究,X703
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com
|