学位论文 > 优秀研究生学位论文题录展示

基于哼唱的MP3音乐检索研究

作 者: 高萍
导 师: 滕桂法;韩宪忠
学 校: 河北农业大学
专 业: 计算机应用技术
关键词: 哼唱检索 小波变换 基频提取 MP3 数值索引 DTW算法
分类号: TP391.42
类 型: 硕士论文
年 份: 2007年
下 载: 330次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着数字科技的发展,MP3凭借极高的压缩比与极小的失真,成为目前最受欢迎的数字音乐压缩格式,广泛在网络上流行。从大量的MP3音乐资料中检索出自己想要的歌曲,目前只能通过查询歌曲名或歌手名等信息进行检索。如果仅仅是知道一个曲调,就无法搜索到自己想要的歌曲。本文针对这种现况,主要对MP3音乐的哼唱检索进行了研究,使用户只要通过麦克风哼唱一首乐曲的旋律片段,就可以得到所要检索的MP3音乐。目前对哼唱检索系统的研究大部分都是对MIDI格式的检索,对MP3格式的处理研究的较少,另外对哼唱的要求多数是要求用特殊的哼唱方式,对于连续哼唱和带歌词哼唱研究较少。即使采用了连续哼唱的方式,也是提取出旋律轨迹信息后,使用用字符表示法表示,用字符匹配法进行匹配。在对哼唱信号的基频提取上,多数研究使用传统的方法对哼唱输入信号进行基频提取,在提取的过程中会出现种种的问题,对旋律轨迹的准确性造成一定程度的影响。由于连续哼唱方式下旋律轨迹数据量大,所以需要设计一个快速的旋律匹配算法进行旋律匹配计算。针对上面的问题,本文进行了如下的工作:在哼唱输入信号的特征提取模块中,对传统的基频提取算法进行了研究,发现了传统的基频提取算法中存在着各种各样的问题,针对要处理的带歌词哼唱和不带歌词哼唱两种哼唱输入信号,提出了一种小波变换结合自相关函数法对哼唱输入信号进行分析,提取基频轨迹的方法;在MP3旋律特征库的建立上,考虑到一首歌曲中最令人难忘的部分是人声演唱部分,所以首先对MP3音乐进行了预处理,将音乐中的人声信息提取出来,然后将人声部分的MP3音乐进行解码,在解码过程中提取基频;提出了一种精确音程表示法来表示旋律轮廓,使用音程表示法表示MP3旋律轮廓,并根据旋律轮廓建立MP3的旋律特征数据库;在旋律匹配检索模块中,提出了一种数值索引的方式,对旋律特征库中的音程信息建立索引,优化了动态时间规整(Dynamic Time Warping,DTW)算法;设计了一个基于哼唱的MP3音乐检索系统,针对各个模块进行实验模拟分析,证明了提出方法的有效性。

全文目录


摘要  4-5
Abstract  5-9
1 绪论  9-16
  1.1 研究目的及意义  9-10
  1.2 国内外研究现状  10-11
  1.3 基本乐理知识  11-13
  1.4 哼唱检索需要解决的问题  13-14
  1.5 本文研究的主要内容  14-16
2 哼唱信号基频轨迹提取技术  16-30
  2.1 引言  16
  2.2 传统的基频提取方法  16-24
    2.2.1 自相关函数法  16-19
    2.2.2 平均幅度差函数法  19-20
    2.2.3 倒谱法  20-22
    2.2.4 小波变换法  22-23
    2.2.5 基音检测的后处理  23-24
  2.3 小波分析用于基频提取  24-29
    2.3.1 小波分析基本理论  24-26
    2.3.2 传统基频提取方法存在的问题  26
    2.3.3 小波变换与自相关结合基频提取法  26-29
  2.4 本章小结  29-30
3 MP3音乐信息的分析与特征表示  30-44
  3.1 MPEG概述  30
  3.2 MP3的音乐格式分析  30-41
    3.2.1 MP3的编码技术  30-33
    3.2.2 MP3的帧格式  33-37
    3.2.3 MP3音乐的解码算法  37-41
  3.3 MP3音乐的基频提取与特征表示  41-43
    3.3.1 MP3音乐的预处理  41-42
    3.3.2 MP3音乐的基频提取  42-43
  3.4 本章小结  43-44
4 基于数值索引的DTW检索算法研究  44-51
  4.1 基于DTW的音乐检索算法  44-46
    4.1.1 DTW算法介绍  44-45
    4.1.2 基于DTW的音乐检索算法的缺陷  45-46
  4.2 改进的音乐旋律表示法  46
  4.3 基于数值索引的DTW音乐检索算法  46-50
    4.3.1 数值索引方法  46-49
    4.3.2 基于数值索引的DTW检索算法  49-50
  4.4 本章小结  50-51
5 系统设计及实验分析  51-57
  5.1 系统结构设计  51-52
  5.2 哼唱特征提取模块  52-55
    5.2.1 本文基频提取方法与传统自相关方法比较  52-53
    5.2.2 哼唱输入信号特征提取  53-55
  5.3 MP3音乐旋律的特征表示  55-56
  5.4 DTW匹配算法实验  56
  5.5 本章小结  56-57
6 结论与展望  57-59
  6.1 本文结论  57
  6.2 研究展望  57-59
参考文献  59-63
附录A 频率、临界频带率和绝对阈值表  63-65
在读期间发表的学术论文  65
论文刊用通知  65-66
作者简历  66-67
致谢  67

相似论文

  1. 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
  2. 图像的稀疏表示及编码模型研究,TP391.41
  3. 唇读中的特征提取、选择与融合,TP391.41
  4. 羊绒与羊毛纤维鉴别系统的研究,TS101.921
  5. 感觉刺激诱发脑电特征研究,R318.0
  6. 网络传输中的ROI图像编码算法研究,TN919.81
  7. 基于多尺度分析的图像融合算法研究,TP391.41
  8. 基于小波变换的三维模型特征提取技术的研究与实现,TP391.41
  9. 轮廓波变换及其在图像处理中的应用,TP391.41
  10. 基于小波的雷达视频压缩方法研究,TN957.52
  11. 脊波变换在全色图像和多光谱图像融合中的应用研究,TP391.41
  12. 一种多数据流聚类异常检测算法,TP311.13
  13. 基于图像的信息隐藏技术研究,TP309.7
  14. 基于DM6446与小波的图像压缩系统设计与实现,TP391.41
  15. 结合DWT的动态数据校正研究及应用,TP274
  16. 基于小波变换和马尔可夫链的流量预测模型,TP393.06
  17. 基于小波变换的信号稀疏表示及其在图像去噪中的应用,TP391.41
  18. 基于离散小波变换的图像水印算法研究,TP309.7
  19. 脑部CT图像的压缩应用,TP391.41
  20. 一类工具加工痕迹的检验识别,TP391.41
  21. 基于燃烧音识别的火灾探测系统的研究与设计,X924.4

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 声音识别及其装置
© 2012 www.xueweilunwen.com