学位论文 > 优秀研究生学位论文题录展示

歌词识别辅助的音乐检索研究

作 者: 郭芝源
导 师: 郭军
学 校: 北京邮电大学
专 业: 信号与信息处理
关键词: 音乐检索 歌词识别 哼唱检索 歌词检索 语言模型
分类号: TP391.41
类 型: 博士论文
年 份: 2013年
下 载: 94次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着数字技术的高速发展以及互联网、无线网的高度普及,数字音乐的获取变得非常容易。如何从海量的数字音乐中检出用户需要的音乐,已成为当前亟待解决的问题。基于内容的音乐检索,例如样例检索、哼唱检索,采用音乐本身的特征进行音乐检索,人工标注量小,用户使用方便,已成为主流研究方向。现有音乐检索系统通常仅使用旋律特征对音乐进行查找,当演唱者出现哼唱错误时,易导致检索失败。歌词是歌曲除了旋律之外的另一个重要组成部分,它存在于口语或者音乐中,在很多情况下可以辅助旋律特征提高音乐检索的精度。本文围绕如何利用歌词辅助音乐检索,对口语歌词的识别、基于口语歌词的音乐检索方法,以及清唱音乐的歌词识别、基于歌词和旋律的哼唱检索方法等关键问题进行了深入研究。本文的主要工作及创新包括以下几个方面:1.提出了一种基于词激活力的类的语言模型口语歌词识别中语言模型数据稀疏问题较为突出。为了提高口语歌词识别的准确率,本文围绕数据稀疏问题进行了相关研究。基于类的语言模型与基于词的语言模型插值是常用的解决语言模型数据稀疏问题的方法。但是基于类的语言模型的性能依赖于词类的性能。基于词激活力的亲和度测度在描述词语相似度上取得了很好的效果,本文使用该测度对词进行聚类,并使用聚类结果训练类的语言模型,称之为基于词激活力的类的语言模型。由于同一词类中词相似性强,基于词激活力的类的语言模型能够获得比经典的基于类的语言模型更优越的性能。实验结果表明,基于词激活力的类的语言模型与基于词的语言模型的插值模型在口语歌词识别任务中表现出了优越性能。2.提出了一种基于多层滤波的检索算法口语歌词经过识别后,如何快速准确地查找到目标歌词是基于口语歌词的音乐检索的关键问题。为此,本文提出了一种基于多层滤波的检索算法。该算法首先对识别结果进行查询扩展,针对完全识别正确的识别结果,第一层滤波器利用索引能够快速匹配到目标歌曲;针对出现误识的识别结果,第二层滤波器能够找到一个较小的候选集合;第三层滤波器采用基于声学相似度的模糊匹配算法实现候选集合与识别结果的精确匹配。实验证明,本文提出的基于多层滤波的检索算法显著提高了基于口语歌词的音乐检索系统的性能。3.提出了一种歌词识别辅助的哼唱检索算法利用歌词特征辅助哼唱检索是一个值得研究的难点问题。现有的方法采用连续语音识别技术直接对音乐中的歌词进行识别,由于识别出的歌词不够准确,因此性能提升并不明显。本文提出了一种歌词识别辅助的哼唱检索算法,该算法首先利用旋律特征找到多个候选音乐片段,然后利用候选音乐片段的歌词搭建识别网络,并采用孤立词识别技术实现歌词识别,最后结合旋律匹配和歌词匹配的结果对歌曲进行排序。本文提出的算法利用旋律检索显著缩减了歌词识别的范围,大幅度提高了识别准确率。实验证明,歌词识别辅助的哼唱检索算法能够有效地利用音乐中的歌词信息,显著提高哼唱检索系统的性能。

全文目录


摘要  5-7
ABSTRACT  7-13
第一章 绪论  13-25
  1.1 研究背景及意义  13-16
    1.1.1 音乐检索背景  13-14
    1.1.2 基于内容的音乐检索  14-15
    1.1.3 歌词辅助的音乐检索的研究意义  15-16
  1.2 研究现状  16-19
    1.2.1 基于旋律的音乐检索  16-18
    1.2.2 基于歌词的音乐检索  18-19
  1.3 研究内容  19-20
  1.4 论文结构安排  20-21
  参考文献  21-25
第二章 研究综述  25-45
  2.1 哼唱检索  25-35
    2.1.1 基于旋律的哼唱检索  25-32
    2.1.2 现有的基于旋律和歌词的哼唱检索系统  32-35
  2.2 语音识别技术  35-42
    2.2.1 语音识别发展历程  35-37
    2.2.2 语音识别概述  37-42
  2.3 本章小结  42
  参考文献  42-45
第三章 面向口语歌词识别语言模型  45-75
  3.1 引言  45-46
  3.2 N-GRAM语言模型  46-47
    3.2.1 语言模型  46-47
    3.2.2 N-gram语言模型  47
  3.3 语言模型数据稀疏问题的解决方法  47-55
    3.3.1 参数平滑算法  48-51
    3.3.2 基于类的语言模型  51-55
  3.4 基于词激活力的类的语言模型  55-65
    3.4.1 算法描述  56-57
    3.4.2 词的激活力  57-58
    3.4.3 词的亲和度测度  58-59
    3.4.4 谱聚类算法(Spectral Clustering)  59-64
    3.4.5 基于词激活力的词聚类  64-65
  3.5 实验设定与结果  65-72
    3.5.1 实验数据  65-66
    3.5.2 系统设定  66
    3.5.3 评价准则  66-67
    3.5.4 实验结果  67-72
  3.6 本章小结  72
  参考文献  72-75
第四章 基于口语歌词的音乐检索  75-93
  4.1 引言  75
  4.2 基于口语歌词的音乐检索算法描述  75-76
  4.3 数据库的线下处理  76-83
    4.3.1 歌词库的建立以及格式  76-77
    4.3.2 索引和停用词词表的建立  77-79
    4.3.3 音素混淆矩阵的训练  79-83
  4.4 基于多层滤波的检索算法  83-87
    4.4.1 查询扩展  84
    4.4.2 第一层滤波  84-85
    4.4.3 第二层滤波  85
    4.4.4 第三层滤波  85-87
    4.4.5 歌曲排序  87
  4.5 实验设定与结果  87-90
    4.5.1 实验数据与设定  87
    4.5.2 评价准则  87-88
    4.5.3 实验结果  88-90
  4.6 本章小结  90-91
  参考文献  91-93
第五章 清唱音乐的歌词识别  93-103
  5.1 引言  93-94
  5.2 现有的清唱音乐的歌词识别方法  94-95
  5.3 基于孤立词识别技术的歌词识别算法  95-97
    5.3.1 旋律检索  95-96
    5.3.2 基于孤立词识别技术的歌词识别算法流程  96-97
  5.4 实验设定与结果  97-100
    5.4.1 实验数据与系统设定  97
    5.4.2 评价准则  97-98
    5.4.3 实验结果  98-100
  5.5 本章小结  100
  参考文献  100-103
第六章 歌词识别辅助的哼唱检索  103-121
  6.1 引言  103
  6.2 哼/唱分类  103-109
    6.2.1 语音激活检测  104-105
    6.2.2 哼/唱分类特征提取  105-107
    6.2.3 基于支持向量机的哼/唱二分类  107-108
    6.2.4 中值平滑  108
    6.2.5 哼/唱判决  108-109
  6.3 基于哼/唱分类置信度的得分融合技术  109-110
  6.4 歌词识别辅助的哼唱检索算法  110-112
  6.5 实验设定与结果  112-117
    6.5.1 实验数据与系统设定  112
    6.5.2 评价准则  112-113
    6.5.3 实验结果  113-117
  6.6 本章小结  117
  参考文献  117-121
第七章 总结与展望  121-123
  7.1 论文总结  121-122
  7.2 研究展望  122-123
博士期间发表的论文  123-125
致谢  125

相似论文

  1. 基于P2P的网络戏曲音乐检索技术的研究与实现,TP393.02
  2. 基于哼唱的音乐检索系统,TN912.3
  3. 一种哼唱检索算法的研究,TP391.3
  4. 用改进人工蜂群算法优化基于内容的哼唱音乐检索系统,TP391.3
  5. 基于哼唱的音乐检索系统,TP391.3
  6. 基于旋律特征提取的哼唱式音乐检索,TP391.3
  7. 基于旋律的音乐检索系统设计与实现,TP391.3
  8. 基于内容的钢琴音乐检索研究,TP391.3
  9. 基于哼唱的歌曲检索系统的研究与设计,TP391.3
  10. 一种基于语谱特征提取的音乐检索系统的设计与实现,TP311.52
  11. 小型数字音乐图书馆的设计与实现,TP393.09
  12. 基于音乐旋律的特征聚类算法研究及其应用,TP311.13
  13. 基于内容的音乐检索关键技术研究,TP391.3
  14. 基于内容的音乐检索技术研究与实现,TP391.3
  15. 基于内容的音乐检索研究,TP391.3
  16. 基于MDA的本体建模方法研究,TP182
  17. 基于哼唱的音乐检索技术研究,TP391.3
  18. 音乐旋律自动抽取与哼唱检索系统关键技术研究,TP391.3
  19. 基于旋律哼唱的音乐检索,TP391.3
  20. HMM模型在哼唱检索中的应用,TP391.3
  21. 元建模在模型驱动架构中的应用研究,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com