学位论文 > 优秀研究生学位论文题录展示

基于安卓的乐音识别及MIDI文件输出的研究和实现

作　者: 童文
导　师: 侯增广; 朱凤华
学　校:
专　业: 控制工程
关键词: 乐音识别小波变换 FFT Android MIDI
分类号: TN912.34
类　型: 硕士论文
年　份: 2013年
下　载: 5次
引　用: 0次
阅　读: 论文下载

内容摘要

语音识别技术已经取得了不少进步,比如人们可以和Siri在苹果手机上对话了。另一个技术相关领域也有进展,乐音跟踪识别,比如微信可以摇一摇搜歌,手机根据“收听”到的音乐迅速查找出歌曲名称,并同步显示歌词,标志着乐音识别技术也越来越进入人们生活。技术的确在时时刻刻改变着人们的生活。本课题旨在探索用技术手段为热爱音乐DIY的人们打开一个新通道：设计一个手机APP(目前定位于Android平台),把使用者用某种乐器演奏的音符和节奏识别出来,并用MIDI文件记录下来,根据事前设定的乐器类型,还可轻松实现乐器换声,比如,用口琴吹奏,最后输出钢琴播放的音乐。这是个涉及音乐理论知识和计算机知识的综合性课题。这个需求要转换成现实,需要对乐理知识进行科学的把握,明确需求的技术本质。深入思考后不难发现,本课题从技术角度需要解决两个基本问题：一是音符的快速准确识别,二是对连续演奏的端点检测能力要稳定且迅速。为此,作者从当前较为成熟的音频识别技术入手,尤其是语言识别技术,深入了解各种时域和频域的分析方法,包括短时能量端点检测,自相关基频检测,快速傅立叶变换以及小波变换对音频信号的特征提取,了解了HMM及ANN在语音识别中的作用。并进一步通过在MATLAB上进行编程验证各种算法,最后提出在端点识别上的两点改进：一是启用一层db4小波分解并重构后的“细节”波形来进行短时能量检测,这个方法利用了“细节”波形在静音段较为平整的特点,较大程度上消除了在静音段误判,从而避免形成瞬时“跳音”的问题。二是把双门限端点检测法进行了改造,把4个状态变为2个状态进行判断,提出改进型能量门限反转端点识别法,在钢琴演奏和口琴演奏样本实验上端点识别效果较好。基音识别上,由于乐器演奏的音频较为清晰,频率成分较为确定,所以经过筛选验证选用了一种计算量小而且测得频率误差度较小的平均幅度差法。本课题已经设计和实现了一个基于Android的功能简单的APP,可以采集用户乐器演奏的乐音,按照事先设定的乐器种类输出与之对应的MIDI音乐文件,实现了在移动设备上无需使用MIDI键盘的MIDI输入,该APP经过一些完善后很快会免费分享给广大音乐爱好者。

全文目录

摘要  5-6
Abstract  6-8
目录  8-10
第一章绪论  10-16
  1.1 研究背景与意义  10-11
  1.2 国内外研究现状  11-13
  1.3 本文研究内容以及安排  13-16
第二章基本乐理及音频信号分析方法  16-32
  2.1 乐音及音频  16-20
    2.1.1 声音基本特征  16-17
    2.1.2 声音采样及存储  17
    2.1.3 乐音以及十二音律  17-19
    2.1.4 音符时值  19-20
  2.2 音频信号的特征提取方法  20-27
    2.2.1 基础时频域分析  20-23
    2.2.2 小波变换  23-25
    2.2.3 线性预测倒谱系数LPCC  25-26
    2.2.4 Mel频率倒谱系数MFCC  26-27
  2.3 音频识别方法  27-30
    2.3.1 语音识别技术  27-30
  2.4 本章小结  30-32
第三章乐音识别算法研究和设计  32-44
  3.1 乐音分割研究  32-36
    3.1.1 基础试验  33
    3.1.2 基于小波及短时能量的音频分割  33-34
    3.1.3 改进型能量门限反转端点识别法  34-36
  3.2 乐音基频识别研究  36-41
    3.2.1 基础试验  37-39
    3.2.2 基于平均幅度差的基频提取  39-41
  3.3 端点及连续帧联合音符识别  41
  3.4 乐音识别整体流程设计  41-42
  3.5 本章小结  42-44
第四章乐音识别应用程序的设计与实现  44-62
  4.1 Android开发环境  44-48
    4.1.1 核心音频架构  44-45
    4.1.2 Android支持的音频文件  45-46
    4.1.3 UI工作原理  46-47
    4.1.4 开发环境搭建  47-48
  4.2 音频文件格式详解  48-51
    4.2.1 WAV文件格式  48-49
    4.2.2 MIDI文件格式  49-51
  4.3 应用程序需求分析  51-52
  4.4 UI设计及功能介绍  52-54
    4.4.1 录音模式界面  52
    4.4.2 转换模式界面  52-53
    4.4.3 乐器类型选择界面  53-54
  4.5 应用程序框架及流程  54-55
    4.5.1 程序结构图  54
    4.5.2 主要流程图  54-55
  4.6 应用程序权限设定  55
  4.7 应用程序主要模块  55-57
    4.7.1 WAV格式处理模块  55
    4.7.2 音频分割模块  55-56
    4.7.3 音符识别模块  56-57
    4.7.4 MIDI格式处理模块  57
  4.8 应用程序的性能测试及验证  57-61
    4.8.1 口琴单音测试  57-58
    4.8.2 钢琴单音测试  58-59
    4.8.3 口琴连续音测试  59
    4.8.4 钢琴连续音测试  59-60
    4.8.5 现场录音测试  60-61
  4.9 本章小结  61-62
第五章总结与展望  62-66
  5.1 总结  62-63
  5.2 展望  63-66
参考文献  66-68
致谢  68-70
个人简历、在学期间发表的论文与研究成果  70

基于安卓的乐音识别及MIDI文件输出的研究和实现

内容摘要

全文目录

相似论文