学位论文 > 优秀研究生学位论文题录展示
歌曲风格与歌手音质自动分析研究
作 者: 姚青俊
导 师: 李海峰
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 高斯混合模型 歌曲风格向量 雷达图 节拍直方图 特征融合
分类号: TN912.34
类 型: 硕士论文
年 份: 2010年
下 载: 34次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机技术与通信技术的飞速发展,网络上的多媒体数据成几何级数增长,歌曲是众多数据的一种,为了快速有效的组织这些数据,就需要有高效的方法对歌曲风格与歌手音质进行自动的分类。本文主要针对歌曲风格与歌手音质的分类方法进行了研究,主要有以下几个方面的工作。首先对歌曲风格与歌手音质研究中特征的提取方法进行了研究。提出了使用适合于对歌曲处理的CQT(Constant Q Transform)特征和节奏方面的节拍直方图特征对歌曲风格进行分类,并对二者的特征提取方法进行了深入的研究。还研究了MFCC(Mel-Frequency Cepstrum Coefficients)及其一阶二阶差分、LPCC(Linear Prediction Cepstral Coefficients)及其一阶二阶差分、短时能量以及共振峰等广泛使用的特征。其次提出歌曲风格向量的表示方法以及用雷达图提供可视化分析。根据高斯混合模型的似然比建立歌曲风格向量,进而绘出雷达图,对类别之间的混识程度和双重风格歌曲的研究提供可视化分析。最后建立歌曲风格与歌手音质识别系统,对歌曲风格与歌手音质进行了深入的研究。歌曲风格方面,既研究了单一风格歌曲,又研究了双重风格歌曲,通过比较短时音质特征的识别率大小,找出适合于歌曲风格分类的短时特征,进而与长时特征进行融合,通过长短时特征的融合,取得了不错的识别率。还讨论了高斯混合数的变化对识别率的影响,CQT作用于歌曲风格分类的效果。歌手音质方面,研究了MFCC及其一阶二阶差分和前四共振峰频率的分类效果。
|
全文目录
摘要 4-5 Abstract 5-8 第1章 绪论 8-14 1.1 研究背景和意义 8-9 1.2 国内外研究现状 9-11 1.2.1 音频分类的研究现状 9-10 1.2.2 符号化音乐的研究现状 10 1.2.3 非符号化音乐的研究现状 10-11 1.3 研究内容及结构安排 11-14 第2章 歌曲风格与歌手音质研究中的特征提取方法 14-25 2.1 歌曲信号的预处理 14-16 2.1.1 采样与量化 14 2.1.2 分帧 14-15 2.1.3 预加重 15 2.1.4 加窗 15-16 2.2 传统特征的提取 16-20 2.2.1 MFCC特征 16-18 2.2.2 LPCC特征 18-19 2.2.3 共振峰与短时能量 19-20 2.3 CQT特征的提取方法 20-21 2.3.1 CQT特征的优点 20 2.3.2 CQT特征的分析 20-21 2.3.3 CQT特征的提取步骤 21 2.4 节拍直方图特征的提取方法 21-24 2.4.1 节拍特征分析 21-22 2.4.2 节拍直方图求解步骤 22-24 2.4.3 节拍直方图中的特征选择 24 2.5 本章小结 24-25 第3章 高斯混合模型、歌曲风格向量以及雷达图 25-32 3.1 高斯混合模型的概念、初始化及训练 25-29 3.1.1 高斯混合模型的概念 25-26 3.1.2 基于K-均值聚类的模型初始化算法 26-27 3.1.3 基于EM的模型训练算法 27-29 3.2 歌曲风格向量以及雷达图表示 29-31 3.2.1 歌曲风格向量及雷达图意义 29-30 3.2.2 歌曲风格向量的表示 30 3.2.3 雷达图的表示 30-31 3.3 本章小结 31-32 第4章 基于特征融合和雷达图的歌曲风格研究 32-45 4.1 系统构建、数据库及性能评价 32-33 4.1.1 系统构建 32-33 4.1.2 数据库 33 4.1.3 性能评价 33 4.2 基于短时音质特征的识别率比较 33-36 4.3 高斯混合数对识别率的影响 36-37 4.4 基于雷达图的可视化分析 37-38 4.5 基于长短时特征融合的单一风格歌曲分类 38-42 4.6 基于 CQT特征的单一风格歌曲分类 42-43 4.7 基于长短时特征融合的双重风格歌曲分类 43-44 4.8 本章小结 44-45 第5章 基于MFCC与共振峰的歌手音质研究 45-49 5.1 系统构建和数据库 45-46 5.1.1 系统构建 45 5.1.2 数据库 45-46 5.2 基于MFCC及其差分的歌手嗓音研究 46-47 5.3 基于共振峰的歌手嗓音研究 47-48 5.4 本章小结 48-49 结论 49-50 参考文献 50-53 攻读学位期间发表的学术论文 53-55 致谢 55
|
相似论文
- 唇读中的特征提取、选择与融合,TP391.41
- 水下目标特征的压缩与融合技术研究,TN911.7
- 基于支持向量机的视频目标检测方法研究,TP391.41
- 指纹图像分割方法研究,TP391.41
- 高质量语音转换系统中关键技术的研究,TN912.3
- 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
- 基于特征融合的人脸识别算法研究,TP391.41
- 多特征融合的视觉跟踪算法研究,TP391.41
- 基于信息融合的模拟电路故障诊断研究,TN710
- 基于特征融合的膜蛋白跨膜螺旋预测,Q51
- 非重叠监控摄像机中行人关联技术研究,TP391.41
- 基于特征融合的目标识别技术的研究,TP391.41
- 钴结壳的非线性超声识别技术研究,TN912.34
- 无线传感器网络中的追击者—逃跑者跟踪问题研究,TP212.9
- 运动多目标检测与跟踪算法研究,TP391.41
- 复杂背景条件下的运动目标检测与跟踪的研究,TP391.41
- 基于特征融合的掌纹识别,TP391.41
- 粒子滤波框架下的自适应多特征融合目标跟踪方法研究,TP391.41
- 基于动静态多源特征选取、对齐与融合的唇读方法,TP391.41
- 基于多角度热释电红外信息的人体身份认证研究,TP391.41
- 基于手指静脉和指背关节纹理的识别算法的研究,TP391.41
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com
|