学位论文 > 优秀研究生学位论文题录展示

云南警用少数民族语种识别系统的设计与实现

作 者: 夏红刚
导 师: 姜丽红; 王明华
学 校: 上海交通大学
专 业: 软件工程
关键词: 语种识别 矢量量化 动态时间规整 Mel倒谱系数
分类号: TN912.34
类 型: 硕士论文
年 份: 2013年
下 载: 25次
引 用: 0次
阅 读: 论文下载
 

内容摘要


语种识别(Language Identification)(简称LID)是指通过计算机系统对说话人的语音信号进行自动识别判断,得出语音对应语言种类的技术。随着语音识别技术在全球的发展和应用,基于警用的语种识别技术在多语种语音前端识别、情报预警、信息搜集和打击刑事犯罪活动等方面有着重要的应用价值和广阔的发展前景。云南是一个少数民族聚居省份,各少数民族间语言互不相通及行业间语言人才缺失的现状,使得研究和开发一套满足云南公安业务需求的少数民族语种识别系统成为当前公安工作亟待解决的重点。系统选用模式匹配的语音识别方法,通过对矢量量化(Vector Quantization)(简称VQ)技术和动态时间规整(Dynamic Time Warping)(简称DTW)技术的充分应用,实现了对云南不同少数民族语种类型和关键词的识别功能。首先采用Mel频率倒谱系数(MelFrequency Cepstrum Coefficient)(简称MFCC)作为语种识别的特征类型参数,使用矢量量化技术将MFCC处理为具备语种发音特征的少数民族语种码本,通过计算语种码本与待识别语音MFCC的平均失真,找到最小的量化误差,以确定出最匹配的语种类型,从而实现对说话人语种类型和性别的识别;其次选取符合工作需求的特定关键词生成固定帧矢量矩阵,并对待识别语音计算生成测试帧矢量矩阵,使用DTW技术分别计算固定帧矢量矩阵与测试帧矢量矩阵之间的距离得到距离矩阵,得出与特定关键词的相似度值,从而实现对说话人语音中关键词的识别;最后根据实验数据,采用不同方法分别对语种码本和关键词模板进行修正,有效的提高了系统识别率。实验结果表明,MFCC能较好地反映人的听觉特性,VQ技术在各语种男女发音特征参数的处理上具备较好的聚类效果,DTW技术则在合理选取特征模板前提下也能取得较好的识别效果。系统历时1年,在昆明、玉溪等十六个州市公安机关的某部门相继完成软硬件安装部署和数据对接调测后,云南警用少数民族语种识别系统实现了全省的集中建设。目前,系统已上线在云南公安工作中正式使用,通过与其它公安信息系统的安全接入和交互工作,实现了对语音数据库的高效访问和查询。针对公安工作中急需明确语种类型的少数民族语音数据,展现出较高的语种和关键词识别能力,及时在涉及的相关案件中为侦查工作指明方向,甚至锁定犯罪嫌疑人;为特定时间段和特定地点重大活动的安保工作提供情报信息搜集、分析和预警功能。由于本文是在公安领域对云南少数民族语种识别系统的初次尝试,没有现成的系统和成果可以借鉴,所以在语音样本选取和语种特征提取上还存在不足,在实现算法上还研究不深,这些都需要根据工作需求和使用经验,不断对系统作出进一步改进和完善。

全文目录


摘要  5-7
ABSTRACT  7-12
1. 绪论  12-16
  1.1 背景  12
  1.2 研究目的和意义  12-13
  1.3 国内外研究现状  13-14
    1.3.1 国外研究现状  13
    1.3.2 国内研究现状  13-14
  1.4 研究内容  14-15
  1.5 论文结构  15-16
2. 关键技术介绍  16-23
  2.1 Mel 频率倒谱系数  16-18
  2.2 矢量量化  18-19
    2.2.1 矢量量化的失真测度  19
    2.2.2 LBG 算法  19
  2.3 动态时间规整  19-22
    2.3.1 动态时间规整原理  19-20
    2.3.2 动态时间规整算法实现  20-22
  2.4 解决方案  22
  2.5 本章小结  22-23
3. 系统需求和设计  23-54
  3.1 总体需求分析  23-28
    3.1.1 功能需求  23-26
    3.1.2 安全需求  26-27
    3.1.3 接口需求  27
    3.1.4 数据需求  27-28
  3.2 系统设计  28-32
    3.2.1 云南警用少数民族语种识别系统的特点  28-29
    3.2.2 云南警用少数民族语种识别系统的基本架构  29-30
    3.2.3 云南警用少数民族语种识别系统的特点的系统模型  30-32
  3.3 流程设计  32-35
  3.4 功能设计  35-40
    3.4.1 识别模块设计  35-37
    3.4.2 DEP 模块设计  37-38
    3.4.3 录音模块设计  38
    3.4.4 格式转换模块设计  38-39
    3.4.5 Web 模块设计  39-40
  3.5 安全设计  40-41
  3.6 接口设计  41-42
  3.7 数据设计  42-53
    3.7.1 系统数据交换结构  42-43
    3.7.2 语种数据设计  43-44
    3.7.3 关联条件数据设计  44-45
    3.7.4 数据库设计  45-53
  3.8 本章小结  53-54
4. 云南警用少数民族语种识别系统功能的实现  54-81
  4.1 系统结构部署  54
  4.2 系统软硬件配置  54-56
  4.3 主要功能实现  56-71
    4.3.1 识别模块实现  56-64
    4.3.2 录音模块实现  64-65
    4.3.3 格式转换模块实现  65-66
    4.3.4 Web 模块界面实现  66-71
  4.4 安全实现  71
  4.5 接口实现  71-73
  4.6 测试与改进  73-79
    4.6.1 系统测试  73-76
    4.6.2 结果分析  76-77
    4.6.3 改进措施  77-79
  4.7 上线实施  79-80
  4.8 本章小结  80-81
5. 总结与展望  81-83
  5.1 课题总结  81
  5.2 课题展望  81-83
参考文献  83-85
致谢  85-86
攻读学位期间发表的学术论文目录  86

相似论文

  1. 基于重叠变换与矢量量化的图像压缩算法及应用研究,TN919.81
  2. 基因表达时序数据聚类和比对分析方法研究,TP311.13
  3. 基于条件矢量及内插量化的抗分组丢失方法,TN912.3
  4. 语音识别在访问控制的应用,TN912.34
  5. 量子粒子群算法研究及其在图像矢量量化码书设计中的应用,TP301.6
  6. 基于局部特征的图像拷贝检测研究,TP391.41
  7. 压缩感知算法及其在矢量量化中的应用,TN911.7
  8. 化学需氧量在线监测网络节点及传感阵列模式识别算法,X832
  9. 移动机器人语音识别控制仿真系统的设计与实现,TN912.34
  10. AMR-WB+编码算法关键技术及码流识别研究,TN912.3
  11. 基于矢量量化技术和DTW算法的说话人识别系统的实验研究,TN912.34
  12. 基于视频与文本信息的说话者人脸标注,TP391.41
  13. 基于支持向量机的民族语语种识别研究,TN912.34
  14. 低速率语音编码参数高效量化算法研究,TN912.3
  15. 基于DTW的相似度查询在完井深度计算中的应用,TE257
  16. 基于电话语音的少数民族语种识别研究,TN912.34
  17. 噪声环境下的说话人识别研究,TN912.34
  18. 基于语言混合特征的情感识别研究,TN912.3
  19. 基于元音长度调整的中文语音识别,TN912.34
  20. 语种识别中的隐含语义分析,TN912.34
  21. 音乐特征分析及其在音乐检索中的应用,TP391.3

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com