学位论文 > 优秀研究生学位论文题录展示
基于哼唱的MP3音乐检索研究
作 者: 高萍
导 师: 滕桂法;韩宪忠
学 校: 河北农业大学
专 业: 计算机应用技术
关键词: 哼唱检索 小波变换 基频提取 MP3 数值索引 DTW算法
分类号: TP391.42
类 型: 硕士论文
年 份: 2007年
下 载: 330次
引 用: 1次
阅 读: 论文下载
内容摘要
随着数字科技的发展,MP3凭借极高的压缩比与极小的失真,成为目前最受欢迎的数字音乐压缩格式,广泛在网络上流行。从大量的MP3音乐资料中检索出自己想要的歌曲,目前只能通过查询歌曲名或歌手名等信息进行检索。如果仅仅是知道一个曲调,就无法搜索到自己想要的歌曲。本文针对这种现况,主要对MP3音乐的哼唱检索进行了研究,使用户只要通过麦克风哼唱一首乐曲的旋律片段,就可以得到所要检索的MP3音乐。目前对哼唱检索系统的研究大部分都是对MIDI格式的检索,对MP3格式的处理研究的较少,另外对哼唱的要求多数是要求用特殊的哼唱方式,对于连续哼唱和带歌词哼唱研究较少。即使采用了连续哼唱的方式,也是提取出旋律轨迹信息后,使用用字符表示法表示,用字符匹配法进行匹配。在对哼唱信号的基频提取上,多数研究使用传统的方法对哼唱输入信号进行基频提取,在提取的过程中会出现种种的问题,对旋律轨迹的准确性造成一定程度的影响。由于连续哼唱方式下旋律轨迹数据量大,所以需要设计一个快速的旋律匹配算法进行旋律匹配计算。针对上面的问题,本文进行了如下的工作:在哼唱输入信号的特征提取模块中,对传统的基频提取算法进行了研究,发现了传统的基频提取算法中存在着各种各样的问题,针对要处理的带歌词哼唱和不带歌词哼唱两种哼唱输入信号,提出了一种小波变换结合自相关函数法对哼唱输入信号进行分析,提取基频轨迹的方法;在MP3旋律特征库的建立上,考虑到一首歌曲中最令人难忘的部分是人声演唱部分,所以首先对MP3音乐进行了预处理,将音乐中的人声信息提取出来,然后将人声部分的MP3音乐进行解码,在解码过程中提取基频;提出了一种精确音程表示法来表示旋律轮廓,使用音程表示法表示MP3旋律轮廓,并根据旋律轮廓建立MP3的旋律特征数据库;在旋律匹配检索模块中,提出了一种数值索引的方式,对旋律特征库中的音程信息建立索引,优化了动态时间规整(Dynamic Time Warping,DTW)算法;设计了一个基于哼唱的MP3音乐检索系统,针对各个模块进行实验模拟分析,证明了提出方法的有效性。
|
全文目录
摘要 4-5 Abstract 5-9 1 绪论 9-16 1.1 研究目的及意义 9-10 1.2 国内外研究现状 10-11 1.3 基本乐理知识 11-13 1.4 哼唱检索需要解决的问题 13-14 1.5 本文研究的主要内容 14-16 2 哼唱信号基频轨迹提取技术 16-30 2.1 引言 16 2.2 传统的基频提取方法 16-24 2.2.1 自相关函数法 16-19 2.2.2 平均幅度差函数法 19-20 2.2.3 倒谱法 20-22 2.2.4 小波变换法 22-23 2.2.5 基音检测的后处理 23-24 2.3 小波分析用于基频提取 24-29 2.3.1 小波分析基本理论 24-26 2.3.2 传统基频提取方法存在的问题 26 2.3.3 小波变换与自相关结合基频提取法 26-29 2.4 本章小结 29-30 3 MP3音乐信息的分析与特征表示 30-44 3.1 MPEG概述 30 3.2 MP3的音乐格式分析 30-41 3.2.1 MP3的编码技术 30-33 3.2.2 MP3的帧格式 33-37 3.2.3 MP3音乐的解码算法 37-41 3.3 MP3音乐的基频提取与特征表示 41-43 3.3.1 MP3音乐的预处理 41-42 3.3.2 MP3音乐的基频提取 42-43 3.4 本章小结 43-44 4 基于数值索引的DTW检索算法研究 44-51 4.1 基于DTW的音乐检索算法 44-46 4.1.1 DTW算法介绍 44-45 4.1.2 基于DTW的音乐检索算法的缺陷 45-46 4.2 改进的音乐旋律表示法 46 4.3 基于数值索引的DTW音乐检索算法 46-50 4.3.1 数值索引方法 46-49 4.3.2 基于数值索引的DTW检索算法 49-50 4.4 本章小结 50-51 5 系统设计及实验分析 51-57 5.1 系统结构设计 51-52 5.2 哼唱特征提取模块 52-55 5.2.1 本文基频提取方法与传统自相关方法比较 52-53 5.2.2 哼唱输入信号特征提取 53-55 5.3 MP3音乐旋律的特征表示 55-56 5.4 DTW匹配算法实验 56 5.5 本章小结 56-57 6 结论与展望 57-59 6.1 本文结论 57 6.2 研究展望 57-59 参考文献 59-63 附录A 频率、临界频带率和绝对阈值表 63-65 在读期间发表的学术论文 65 论文刊用通知 65-66 作者简历 66-67 致谢 67
|
相似论文
- 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
- 图像的稀疏表示及编码模型研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
- 感觉刺激诱发脑电特征研究,R318.0
- 网络传输中的ROI图像编码算法研究,TN919.81
- 基于多尺度分析的图像融合算法研究,TP391.41
- 基于小波变换的三维模型特征提取技术的研究与实现,TP391.41
- 轮廓波变换及其在图像处理中的应用,TP391.41
- 基于小波的雷达视频压缩方法研究,TN957.52
- 脊波变换在全色图像和多光谱图像融合中的应用研究,TP391.41
- 一种多数据流聚类异常检测算法,TP311.13
- 基于图像的信息隐藏技术研究,TP309.7
- 基于DM6446与小波的图像压缩系统设计与实现,TP391.41
- 结合DWT的动态数据校正研究及应用,TP274
- 基于小波变换和马尔可夫链的流量预测模型,TP393.06
- 基于小波变换的信号稀疏表示及其在图像去噪中的应用,TP391.41
- 基于离散小波变换的图像水印算法研究,TP309.7
- 脑部CT图像的压缩应用,TP391.41
- 一类工具加工痕迹的检验识别,TP391.41
- 基于燃烧音识别的火灾探测系统的研究与设计,X924.4
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 声音识别及其装置
© 2012 www.xueweilunwen.com
|