学位论文 > 优秀研究生学位论文题录展示

歌词识别辅助的音乐检索研究

作　者: 郭芝源
导　师: 郭军
学　校: 北京邮电大学
专　业: 信号与信息处理
关键词: 音乐检索歌词识别哼唱检索歌词检索语言模型
分类号: TP391.41
类　型: 博士论文
年　份: 2013年
下　载: 94次
引　用: 0次
阅　读: 论文下载

内容摘要

随着数字技术的高速发展以及互联网、无线网的高度普及,数字音乐的获取变得非常容易。如何从海量的数字音乐中检出用户需要的音乐,已成为当前亟待解决的问题。基于内容的音乐检索,例如样例检索、哼唱检索,采用音乐本身的特征进行音乐检索,人工标注量小,用户使用方便,已成为主流研究方向。现有音乐检索系统通常仅使用旋律特征对音乐进行查找,当演唱者出现哼唱错误时,易导致检索失败。歌词是歌曲除了旋律之外的另一个重要组成部分,它存在于口语或者音乐中,在很多情况下可以辅助旋律特征提高音乐检索的精度。本文围绕如何利用歌词辅助音乐检索,对口语歌词的识别、基于口语歌词的音乐检索方法,以及清唱音乐的歌词识别、基于歌词和旋律的哼唱检索方法等关键问题进行了深入研究。本文的主要工作及创新包括以下几个方面：1.提出了一种基于词激活力的类的语言模型口语歌词识别中语言模型数据稀疏问题较为突出。为了提高口语歌词识别的准确率,本文围绕数据稀疏问题进行了相关研究。基于类的语言模型与基于词的语言模型插值是常用的解决语言模型数据稀疏问题的方法。但是基于类的语言模型的性能依赖于词类的性能。基于词激活力的亲和度测度在描述词语相似度上取得了很好的效果,本文使用该测度对词进行聚类,并使用聚类结果训练类的语言模型,称之为基于词激活力的类的语言模型。由于同一词类中词相似性强,基于词激活力的类的语言模型能够获得比经典的基于类的语言模型更优越的性能。实验结果表明,基于词激活力的类的语言模型与基于词的语言模型的插值模型在口语歌词识别任务中表现出了优越性能。2.提出了一种基于多层滤波的检索算法口语歌词经过识别后,如何快速准确地查找到目标歌词是基于口语歌词的音乐检索的关键问题。为此,本文提出了一种基于多层滤波的检索算法。该算法首先对识别结果进行查询扩展,针对完全识别正确的识别结果,第一层滤波器利用索引能够快速匹配到目标歌曲；针对出现误识的识别结果,第二层滤波器能够找到一个较小的候选集合；第三层滤波器采用基于声学相似度的模糊匹配算法实现候选集合与识别结果的精确匹配。实验证明,本文提出的基于多层滤波的检索算法显著提高了基于口语歌词的音乐检索系统的性能。3.提出了一种歌词识别辅助的哼唱检索算法利用歌词特征辅助哼唱检索是一个值得研究的难点问题。现有的方法采用连续语音识别技术直接对音乐中的歌词进行识别,由于识别出的歌词不够准确,因此性能提升并不明显。本文提出了一种歌词识别辅助的哼唱检索算法,该算法首先利用旋律特征找到多个候选音乐片段,然后利用候选音乐片段的歌词搭建识别网络,并采用孤立词识别技术实现歌词识别,最后结合旋律匹配和歌词匹配的结果对歌曲进行排序。本文提出的算法利用旋律检索显著缩减了歌词识别的范围,大幅度提高了识别准确率。实验证明,歌词识别辅助的哼唱检索算法能够有效地利用音乐中的歌词信息,显著提高哼唱检索系统的性能。

全文目录

摘要  5-7
ABSTRACT  7-13
第一章绪论  13-25
  1.1 研究背景及意义  13-16
    1.1.1 音乐检索背景  13-14
    1.1.2 基于内容的音乐检索  14-15
    1.1.3 歌词辅助的音乐检索的研究意义  15-16
  1.2 研究现状  16-19
    1.2.1 基于旋律的音乐检索  16-18
    1.2.2 基于歌词的音乐检索  18-19
  1.3 研究内容  19-20
  1.4 论文结构安排  20-21
  参考文献  21-25
第二章研究综述  25-45
  2.1 哼唱检索  25-35
    2.1.1 基于旋律的哼唱检索  25-32
    2.1.2 现有的基于旋律和歌词的哼唱检索系统  32-35
  2.2 语音识别技术  35-42
    2.2.1 语音识别发展历程  35-37
    2.2.2 语音识别概述  37-42
  2.3 本章小结  42
  参考文献  42-45
第三章面向口语歌词识别的语言模型  45-75
  3.1 引言  45-46
  3.2 N-GRAM语言模型  46-47
    3.2.1 语言模型  46-47
    3.2.2 N-gram语言模型  47
  3.3 语言模型数据稀疏问题的解决方法  47-55
    3.3.1 参数平滑算法  48-51
    3.3.2 基于类的语言模型  51-55
  3.4 基于词激活力的类的语言模型  55-65
    3.4.1 算法描述  56-57
    3.4.2 词的激活力  57-58
    3.4.3 词的亲和度测度  58-59
    3.4.4 谱聚类算法(Spectral Clustering)  59-64
    3.4.5 基于词激活力的词聚类  64-65
  3.5 实验设定与结果  65-72
    3.5.1 实验数据  65-66
    3.5.2 系统设定  66
    3.5.3 评价准则  66-67
    3.5.4 实验结果  67-72
  3.6 本章小结  72
  参考文献  72-75
第四章基于口语歌词的音乐检索  75-93
  4.1 引言  75
  4.2 基于口语歌词的音乐检索算法描述  75-76
  4.3 数据库的线下处理  76-83
    4.3.1 歌词库的建立以及格式  76-77
    4.3.2 索引和停用词词表的建立  77-79
    4.3.3 音素混淆矩阵的训练  79-83
  4.4 基于多层滤波的检索算法  83-87
    4.4.1 查询扩展  84
    4.4.2 第一层滤波  84-85
    4.4.3 第二层滤波  85
    4.4.4 第三层滤波  85-87
    4.4.5 歌曲排序  87
  4.5 实验设定与结果  87-90
    4.5.1 实验数据与设定  87
    4.5.2 评价准则  87-88
    4.5.3 实验结果  88-90
  4.6 本章小结  90-91
  参考文献  91-93
第五章清唱音乐的歌词识别  93-103
  5.1 引言  93-94
  5.2 现有的清唱音乐的歌词识别方法  94-95
  5.3 基于孤立词识别技术的歌词识别算法  95-97
    5.3.1 旋律检索  95-96
    5.3.2 基于孤立词识别技术的歌词识别算法流程  96-97
  5.4 实验设定与结果  97-100
    5.4.1 实验数据与系统设定  97
    5.4.2 评价准则  97-98
    5.4.3 实验结果  98-100
  5.5 本章小结  100
  参考文献  100-103
第六章歌词识别辅助的哼唱检索  103-121
  6.1 引言  103
  6.2 哼/唱分类  103-109
    6.2.1 语音激活检测  104-105
    6.2.2 哼/唱分类特征提取  105-107
    6.2.3 基于支持向量机的哼/唱二分类  107-108
    6.2.4 中值平滑  108
    6.2.5 哼/唱判决  108-109
  6.3 基于哼/唱分类置信度的得分融合技术  109-110
  6.4 歌词识别辅助的哼唱检索算法  110-112
  6.5 实验设定与结果  112-117
    6.5.1 实验数据与系统设定  112
    6.5.2 评价准则  112-113
    6.5.3 实验结果  113-117
  6.6 本章小结  117
  参考文献  117-121
第七章总结与展望  121-123
  7.1 论文总结  121-122
  7.2 研究展望  122-123
博士期间发表的论文  123-125
致谢  125

歌词识别辅助的音乐检索研究

内容摘要

全文目录

相似论文