学位论文 > 优秀研究生学位论文题录展示
基于安卓的乐音识别及MIDI文件输出的研究和实现
作 者: 童文
导 师: 侯增广; 朱凤华
学 校:
专 业: 控制工程
关键词: 乐音识别 小波变换 FFT Android MIDI
分类号: TN912.34
类 型: 硕士论文
年 份: 2013年
下 载: 5次
引 用: 0次
阅 读: 论文下载
内容摘要
语音识别技术已经取得了不少进步,比如人们可以和Siri在苹果手机上对话了。另一个技术相关领域也有进展,乐音跟踪识别,比如微信可以摇一摇搜歌,手机根据“收听”到的音乐迅速查找出歌曲名称,并同步显示歌词,标志着乐音识别技术也越来越进入人们生活。技术的确在时时刻刻改变着人们的生活。本课题旨在探索用技术手段为热爱音乐DIY的人们打开一个新通道:设计一个手机APP(目前定位于Android平台),把使用者用某种乐器演奏的音符和节奏识别出来,并用MIDI文件记录下来,根据事前设定的乐器类型,还可轻松实现乐器换声,比如,用口琴吹奏,最后输出钢琴播放的音乐。这是个涉及音乐理论知识和计算机知识的综合性课题。这个需求要转换成现实,需要对乐理知识进行科学的把握,明确需求的技术本质。深入思考后不难发现,本课题从技术角度需要解决两个基本问题:一是音符的快速准确识别,二是对连续演奏的端点检测能力要稳定且迅速。为此,作者从当前较为成熟的音频识别技术入手,尤其是语言识别技术,深入了解各种时域和频域的分析方法,包括短时能量端点检测,自相关基频检测,快速傅立叶变换以及小波变换对音频信号的特征提取,了解了HMM及ANN在语音识别中的作用。并进一步通过在MATLAB上进行编程验证各种算法,最后提出在端点识别上的两点改进:一是启用一层db4小波分解并重构后的“细节”波形来进行短时能量检测,这个方法利用了“细节”波形在静音段较为平整的特点,较大程度上消除了在静音段误判,从而避免形成瞬时“跳音”的问题。二是把双门限端点检测法进行了改造,把4个状态变为2个状态进行判断,提出改进型能量门限反转端点识别法,在钢琴演奏和口琴演奏样本实验上端点识别效果较好。基音识别上,由于乐器演奏的音频较为清晰,频率成分较为确定,所以经过筛选验证选用了一种计算量小而且测得频率误差度较小的平均幅度差法。本课题已经设计和实现了一个基于Android的功能简单的APP,可以采集用户乐器演奏的乐音,按照事先设定的乐器种类输出与之对应的MIDI音乐文件,实现了在移动设备上无需使用MIDI键盘的MIDI输入,该APP经过一些完善后很快会免费分享给广大音乐爱好者。
|
全文目录
摘要 5-6 Abstract 6-8 目录 8-10 第一章 绪论 10-16 1.1 研究背景与意义 10-11 1.2 国内外研究现状 11-13 1.3 本文研究内容以及安排 13-16 第二章 基本乐理及音频信号分析方法 16-32 2.1 乐音及音频 16-20 2.1.1 声音基本特征 16-17 2.1.2 声音采样及存储 17 2.1.3 乐音以及十二音律 17-19 2.1.4 音符时值 19-20 2.2 音频信号的特征提取方法 20-27 2.2.1 基础时频域分析 20-23 2.2.2 小波变换 23-25 2.2.3 线性预测倒谱系数LPCC 25-26 2.2.4 Mel频率倒谱系数MFCC 26-27 2.3 音频识别方法 27-30 2.3.1 语音识别技术 27-30 2.4 本章小结 30-32 第三章 乐音识别算法研究和设计 32-44 3.1 乐音分割研究 32-36 3.1.1 基础试验 33 3.1.2 基于小波及短时能量的音频分割 33-34 3.1.3 改进型能量门限反转端点识别法 34-36 3.2 乐音基频识别研究 36-41 3.2.1 基础试验 37-39 3.2.2 基于平均幅度差的基频提取 39-41 3.3 端点及连续帧联合音符识别 41 3.4 乐音识别整体流程设计 41-42 3.5 本章小结 42-44 第四章 乐音识别应用程序的设计与实现 44-62 4.1 Android开发环境 44-48 4.1.1 核心音频架构 44-45 4.1.2 Android支持的音频文件 45-46 4.1.3 UI工作原理 46-47 4.1.4 开发环境搭建 47-48 4.2 音频文件格式详解 48-51 4.2.1 WAV文件格式 48-49 4.2.2 MIDI文件格式 49-51 4.3 应用程序需求分析 51-52 4.4 UI设计及功能介绍 52-54 4.4.1 录音模式界面 52 4.4.2 转换模式界面 52-53 4.4.3 乐器类型选择界面 53-54 4.5 应用程序框架及流程 54-55 4.5.1 程序结构图 54 4.5.2 主要流程图 54-55 4.6 应用程序权限设定 55 4.7 应用程序主要模块 55-57 4.7.1 WAV格式处理模块 55 4.7.2 音频分割模块 55-56 4.7.3 音符识别模块 56-57 4.7.4 MIDI格式处理模块 57 4.8 应用程序的性能测试及验证 57-61 4.8.1 口琴单音测试 57-58 4.8.2 钢琴单音测试 58-59 4.8.3 口琴连续音测试 59 4.8.4 钢琴连续音测试 59-60 4.8.5 现场录音测试 60-61 4.9 本章小结 61-62 第五章 总结与展望 62-66 5.1 总结 62-63 5.2 展望 63-66 参考文献 66-68 致谢 68-70 个人简历、在学期间发表的论文与研究成果 70
|
相似论文
- 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
- 图像的稀疏表示及编码模型研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 在智能手机环境下健康管理功能设计与研究,TN929.53
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
- 基于ANDROID的H.264视频编解码技术的研究与实现,TN919.81
- 感觉刺激诱发脑电特征研究,R318.0
- 网络传输中的ROI图像编码算法研究,TN919.81
- 啤酒瓶在线检测相关技术的研究,TS262.5
- 小波变换在桥梁变形监测数据处理中的应用,TP274
- 西洋管弦乐MIDI制作技术与理论研究,J619
- 基于Android终端的小型VoIP系统设计与实现,TN916.2
- 基于Android终端的视频通话系统设计与实现,TN929.53
- 基于轮廓波变换的数字图像水印方法研究,TP309.7
- 基于多尺度分析的图像融合算法研究,TP391.41
- 一种多数据流聚类异常检测算法,TP311.13
- 基于图像的信息隐藏技术研究,TP309.7
- 基于Android智能手机平台的GPS开发,TP311.52
- 基于虚拟仪器技术的失真度测量系统的设计与实现,TP274
- 基于Nios Ⅱ的暂态电能质量扰动检测的SOPC设计,TN47
- UML在智能手机开发中的应用研究,TP311.52
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com
|