学位论文 > 优秀研究生学位论文题录展示

歌曲风格与歌手音质自动分析研究

作 者: 姚青俊
导 师: 李海峰
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 高斯混合模型 歌曲风格向量 雷达图 节拍直方图 特征融合
分类号: TN912.34
类 型: 硕士论文
年 份: 2010年
下 载: 34次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机技术与通信技术的飞速发展,网络上的多媒体数据成几何级数增长,歌曲是众多数据的一种,为了快速有效的组织这些数据,就需要有高效的方法对歌曲风格与歌手音质进行自动的分类。本文主要针对歌曲风格与歌手音质的分类方法进行了研究,主要有以下几个方面的工作。首先对歌曲风格与歌手音质研究中特征的提取方法进行了研究。提出了使用适合于对歌曲处理的CQT(Constant Q Transform)特征和节奏方面的节拍直方图特征对歌曲风格进行分类,并对二者的特征提取方法进行了深入的研究。还研究了MFCC(Mel-Frequency Cepstrum Coefficients)及其一阶二阶差分、LPCC(Linear Prediction Cepstral Coefficients)及其一阶二阶差分、短时能量以及共振峰等广泛使用的特征。其次提出歌曲风格向量的表示方法以及用雷达图提供可视化分析。根据高斯混合模型的似然比建立歌曲风格向量,进而绘出雷达图,对类别之间的混识程度和双重风格歌曲的研究提供可视化分析。最后建立歌曲风格与歌手音质识别系统,对歌曲风格与歌手音质进行了深入的研究。歌曲风格方面,既研究了单一风格歌曲,又研究了双重风格歌曲,通过比较短时音质特征的识别率大小,找出适合于歌曲风格分类的短时特征,进而与长时特征进行融合,通过长短时特征的融合,取得了不错的识别率。还讨论了高斯混合数的变化对识别率的影响,CQT作用于歌曲风格分类的效果。歌手音质方面,研究了MFCC及其一阶二阶差分和前四共振峰频率的分类效果。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-14
  1.1 研究背景和意义  8-9
  1.2 国内外研究现状  9-11
    1.2.1 音频分类的研究现状  9-10
    1.2.2 符号化音乐的研究现状  10
    1.2.3 非符号化音乐的研究现状  10-11
  1.3 研究内容及结构安排  11-14
第2章 歌曲风格与歌手音质研究中的特征提取方法  14-25
  2.1 歌曲信号的预处理  14-16
    2.1.1 采样与量化  14
    2.1.2 分帧  14-15
    2.1.3 预加重  15
    2.1.4 加窗  15-16
  2.2 传统特征的提取  16-20
    2.2.1 MFCC特征  16-18
    2.2.2 LPCC特征  18-19
    2.2.3 共振峰与短时能量  19-20
  2.3 CQT特征的提取方法  20-21
    2.3.1 CQT特征的优点  20
    2.3.2 CQT特征的分析  20-21
    2.3.3 CQT特征的提取步骤  21
  2.4 节拍直方图特征的提取方法  21-24
    2.4.1 节拍特征分析  21-22
    2.4.2 节拍直方图求解步骤  22-24
    2.4.3 节拍直方图中的特征选择  24
  2.5 本章小结  24-25
第3章 高斯混合模型、歌曲风格向量以及雷达图  25-32
  3.1 高斯混合模型的概念、初始化及训练  25-29
    3.1.1 高斯混合模型的概念  25-26
    3.1.2 基于K-均值聚类的模型初始化算法  26-27
    3.1.3 基于EM的模型训练算法  27-29
  3.2 歌曲风格向量以及雷达图表示  29-31
    3.2.1 歌曲风格向量及雷达图意义  29-30
    3.2.2 歌曲风格向量的表示  30
    3.2.3 雷达图的表示  30-31
  3.3 本章小结  31-32
第4章 基于特征融合和雷达图的歌曲风格研究  32-45
  4.1 系统构建、数据库及性能评价  32-33
    4.1.1 系统构建  32-33
    4.1.2 数据库  33
    4.1.3 性能评价  33
  4.2 基于短时音质特征的识别率比较  33-36
  4.3 高斯混合数对识别率的影响  36-37
  4.4 基于雷达图的可视化分析  37-38
  4.5 基于长短时特征融合的单一风格歌曲分类  38-42
  4.6 基于 CQT特征的单一风格歌曲分类  42-43
  4.7 基于长短时特征融合的双重风格歌曲分类  43-44
  4.8 本章小结  44-45
第5章 基于MFCC与共振峰的歌手音质研究  45-49
  5.1 系统构建和数据库  45-46
    5.1.1 系统构建  45
    5.1.2 数据库  45-46
  5.2 基于MFCC及其差分的歌手嗓音研究  46-47
  5.3 基于共振峰的歌手嗓音研究  47-48
  5.4 本章小结  48-49
结论  49-50
参考文献  50-53
攻读学位期间发表的学术论文  53-55
致谢  55

相似论文

  1. 唇读中的特征提取、选择与融合,TP391.41
  2. 水下目标特征的压缩与融合技术研究,TN911.7
  3. 基于支持向量机的视频目标检测方法研究,TP391.41
  4. 指纹图像分割方法研究,TP391.41
  5. 高质量语音转换系统中关键技术的研究,TN912.3
  6. 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
  7. 基于特征融合的人脸识别算法研究,TP391.41
  8. 多特征融合的视觉跟踪算法研究,TP391.41
  9. 基于信息融合的模拟电路故障诊断研究,TN710
  10. 基于特征融合的膜蛋白跨膜螺旋预测,Q51
  11. 非重叠监控摄像机中行人关联技术研究,TP391.41
  12. 基于特征融合的目标识别技术的研究,TP391.41
  13. 钴结壳的非线性超声识别技术研究,TN912.34
  14. 无线传感器网络中的追击者—逃跑者跟踪问题研究,TP212.9
  15. 运动多目标检测与跟踪算法研究,TP391.41
  16. 复杂背景条件下的运动目标检测与跟踪的研究,TP391.41
  17. 基于特征融合的掌纹识别,TP391.41
  18. 粒子滤波框架下的自适应多特征融合目标跟踪方法研究,TP391.41
  19. 基于动静态多源特征选取、对齐与融合的唇读方法,TP391.41
  20. 基于多角度热释电红外信息的人体身份认证研究,TP391.41
  21. 基于手指静脉和指背关节纹理的识别算法的研究,TP391.41

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com