学位论文 > 优秀研究生学位论文题录展示
面向OPHONE手机的说话人识别技术移植研究
作 者: 陈文翔
导 师: 杨莹春
学 校: 浙江大学
专 业: 计算机应用技术
关键词: 说话人识别 移动平台 阀值确定 参数优化
分类号: TN912.34
类 型: 硕士论文
年 份: 2011年
下 载: 56次
引 用: 0次
阅 读: 论文下载
内容摘要
说话人识别是生物特征识别中最重要的身份认证技术之一。它通过分析人的声音波形特征,对目标说话人进行身份确认。目前,说话人识别技术的应用和研究绝大部分都集中在普通个人电脑和服务器上。然而,随着移动互联网的发展,移动平台上的身份认证需求不断扩大。本文主要任务是设计并实现一个在移动平台上运行的说话人识别系统。并通过大规模实验和测试,使得该系统在识别率和实时性上取得了一定的性能改善和优化。本文的主要贡献,可以归纳为以下几点:1设计并实现了一个参与NIST SRE评测的说话人识别子系统通过参加美国国家标准与技术局组织的NIST SRE说话人评测,我们利用GMM-UBM和本征通道因子分析等技术,实现了一个说话人识别系统。本文分别从特征预处理,特征提取,模型训练、得分规整策略以及多子系统融合的角度深入介绍了该系统。针对不同通道因素对说话人识别系统的影响,我们又采用因子分析和通道矩阵的对策来建立适应多通道的说话人识别模型。2设计并实现了移动平台的说话人识别系统利用现有的说话人识别系统,我们又在OPHONE移动平台上设计了一个说话人识别系统。该平台说话人识别系统的主体设计框架和NIST SRE系统类似。但是,我们通过大量的对比实验和参数调整实验,在识别率和实时性之间找到了一组最适合移动平台的实验参数。并通过小规模的测试和用户反馈实验,改善系统前端的用户体验。3提出了一个基于移动平台的快速说话人模型浮动阀值确定策略针对移动平台计算能力不足,计算资源匮乏的问题,我们通过浮动阀值系数,快速阀值上下限确定技术对移动平台说话人识别系统的阀值进行确定。阀值的上限由训练语音产生,而下限来自于一个冒领者语音数据库。此外,系统在验证失败后,还会推送一个机器计算的推荐系数阀值,供用户参考。4提出了一种说话人模型的自适应方法和多模型判别策略针对说话人语音的时间漂移以及话筒位置变化对阀值的影响,我们又提出了说话人模型的自适应方法和根据话筒位置变化的多模型判别策略。根据说话人一段时期语音的变化,我们将记录近期一部分说话人语音,并定期对说话人模型进行更新。对不同的话筒位置,我们会重新训练多个混合高斯模型减少话筒位置变化的影响。
|
全文目录
摘要 3-5 Abstract 5-12 第1章 引言 12-23 1.1 说话人识别研究现状 12-14 1.2 传统说话人识别的难题 14-15 1.2.1 说话人之间的变化 14 1.2.2 周围环境的变化 14-15 1.3 手机说话人识别系统的难点 15-16 1.4 NIST SRE评测 16-18 1.5 移动互联背景下的手机发展 18-19 1.6 现有移动平台上的语音应用 19-21 1.7 研究意义 21-22 1.8 本文安排 22-23 第2章 基于混合高斯-因子分析模型的说话人识别系统 23-47 2.1 NIST SRE 2010评测介绍 23-25 2.1.1 决策错误代价DET和等错误率EER 25 2.1.2 检测代价函数 25 2.2 基于混合高斯模型的说话人识别系统 25-37 2.2.1 梅尔倒谱系数特征提取 26-28 2.2.2 线性预测倒谱系数 28 2.2.3 前端特征处理 28-29 2.2.4 全局背景模型的训练 29-30 2.2.5 目标说话人模型的训练 30-31 2.2.6 EM算法的参数估计以及训练 31-34 2.2.7 测试 34-35 2.2.8 得分规整 35-37 2.3 因子分析识别子系统 37-44 2.3.1 因子分析介绍 37 2.3.2 说话人识别的因子分析方法 37-41 2.3.3 Eigen-Channel模型训练 41-43 2.3.4 因子分析测试计算过程 43-44 2.4 Focal线性融合实验 44-45 2.5 本章小节 45-47 第3章 面向OPHONE平台上的移植参数选择实验 47-61 3.1 ARM平台和PC平台区别 47-49 3.1.1 ARM和X86的区别 48 3.1.2 ARM指令集和X86指令集的比较 48-49 3.2 特征选择评估实验 49-55 3.2.1 快速傅里叶变换长度选择实验 49-54 3.2.2 特征维度选择 54-55 3.3 模型训练评估实验 55-60 3.3.1 高斯阶数实验 56-58 3.3.2 训练模型迭代次数 58 3.3.3 移动平台说话人识别参数 58-60 3.4 本章小结 60-61 第4章 移动平台说话人识别系统架构及实现 61-74 4.1 OPHONE手机介绍 61-63 4.1.1 ARM编译环境 61-63 4.2 系统后台设计 63-66 4.2.1 动态链接库JAVA调用 63-65 4.2.2 静态编译后端ADB运行 65-66 4.3 系统前端设计 66-69 4.3.1 前台锁管理界面设计 67-68 4.3.2 前台录音模块 68-69 4.4 前端锁原理设计 69-71 4.5 前后端通讯方法 71-73 4.6 本章小结 73-74 第5章 移动平台下说话人识别确认策略 74-81 5.1 OPHONE手机通道下的冒领者语料库 74-75 5.1.1 录音语句 74-75 5.2 浮动阀值设置 75-77 5.2.1 浮动阀值的上限 75-76 5.2.2 浮动阀值下限 76 5.2.3 浮动阀值系数设定 76-77 5.3 时间漂移下的说话人模型确定 77-78 5.4 话筒位置影响下的阀值设定 78-79 5.5 本章小结 79-81 第6章 总结与展望 81-84 6.1 总结 81-82 6.2 展望 82-84 参考文献 84-89 攻读硕士学位期间主要的研究成果 89-90 致谢 90
|
相似论文
- 莴笋渗透脱水传质动力学及渗后热风干燥特性研究,TS255.52
- 基于重型机床大型零件铣削加工性能及参数优化的研究,TG54
- 跨平台游戏引擎的设计与实现,TP311.52
- 遗传算法的若干改进及其在支持向量机中的应用研究,TP18
- LED芯片高速分选机摆臂机电联合仿真及实验验证,TN405
- 吸收—光助氧化法处理二氯甲烷废气研究,X701.7
- 基于支持向量机运动预测的稳像技术,TP751
- GSM网络优化性能研究,TN929.532
- 涤纶与粘胶混纺纱喷气涡流纺工艺及其对成纱性能和结构的影响,TS104
- 含风电场电网的电压稳定性研究,TM712
- 基于JAVA ME的移动学生课外辅导信息系统的设计与实现,TP311.52
- 基于粒子群神经网络的双色注塑工艺参数优化,TQ320.662
- 模具型腔表面磁流变抛光技术研究,TG580.692
- 基于高速铣削的ABS铝合金液压阀体加工研究,TG54
- 径向变量柱塞泵/马达用高速开关阀及其电磁铁的研究,TH134
- 基于PCA和SVM的汽车涂装线机电设备智能诊断,TH165.3
- DORIS系统卫星定轨方法研究,V412.41
- 客舱个性化座椅送风参数优化的实验研究,V223.2
- 考虑轨道竖曲线引起的载荷干扰的悬浮控制技术研究,U266.4
- 机车车轮加工工艺分析与优化,U260.33
- 基于遗传算法的隔振系统参数优化计算分析,TB535.1
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com
|