学位论文 > 优秀研究生学位论文题录展示

计算机辅助普通话发音评测关键技术研究

作 者: 刘庆升
导 师: 王仁华
学 校: 中国科学技术大学
专 业: 信号与信息处理
关键词: 计算机辅助语言学习 语音识别 发音评测 模型自适应 多元线性回归
分类号: TN912.34
类 型: 博士论文
年 份: 2010年
下 载: 273次
引 用: 4次
阅 读: 论文下载
 

内容摘要


语言是人类沟通最便捷的手段,随着社会的发展,计算机辅助语言学习越来越受到人们重视。计算机辅助语言学习系统中的核心技术之一就是高性能的发音评测技术。发音评测技术可以使学习者随时了解自己的发音水平和发音能力,从而更有针对性的学习和朝着正确的方向进行训练。本文在基于统计语音识别的发音评测技术基础上,对发音评测的核心算法,发音评测声学模型的自适应方法,时长、语速在发音评测中的应用,以及发音评测系统中的打分映射模型等方面进行了研究。本文的研究成果在普通话发音评测方面经过验证基本达到了实用水平。本论文的具体研究工作和成果概述如下:首先,本文在介绍发音评测系统主要研究内容和研究方向的基础上,对发音评测的核心算法——对数后验概率算法进行了深入分析,并提出了包括:根据语音学知识改进发音评测中的识别网络来简化对数后验概率算式;基于模型间距离差来生成发音错误模式的思想,并以KLD差来计算模型间距离差,再以错误模式来构建发音评测的识别网络以简化对数后验概率算式;基于普通话水平测试中的重点音与难点音的带音素权重因子的后验概率规整算法等三种改进算法。这些改进,在针对普通话的发音评测基线系统上都取得了较好的性能提升。接着,本文针对发音评测中使用的语音模型的应用环境和训练环境的不匹配问题,仔细分析了发音评测与语音识别对声学模型的不同需求。指出,虽然发音评测与语音识别有诸多的相似,但两者在目的上截然不同,语音识别是要将不同人、不同时间下千差万别的同一个字的发音“模糊”识别为同一个文字,而发音评测是要“精细”分辨出这千差万别的发音的标准程度。最终,从语音识别中的模型自适应出发,提出了选择性自适应的策略,用以选择出发音人发音数据中的相对标准数据对发音评测系统所用的声学模型进行自适应,并分析了选择数据的量和数据选择的粒度对自适应效果的影响。然后,本文研究了时长和语速在发音评测上的应用。调研了早期关于语速的研究及其在语音合成和发音评测中的应用,重点介绍了绝对语速和基于ANGIE的时长模型,并运用ANGIE的时长模型实现了普通话发音评测的时长归一化和相对语速计算。文中还介绍了绝对语速、相对语速等时长模型计算时长得分的方法,并实验对比了几种时长得分的性能。最后,本文从构建一个实用的普通话发音评测系统出发,研究了发音评测系统中用于将评测测度转换为机器预测分数的打分映射模型。在介绍了通用的多元线性回归映射模型的算法和分析其在实际应用中的不足后,文中采用分段线性回归模犁对通用映射模型进行优化,并详细介绍了基于置信区间分段线性回归、GMM概率加权线性回归以及SVM分类分段线性回归等三种的分段线性回归模型算法。同时,实验对比了三种模型的性能。

全文目录


摘要  5-7
ABSTRACT  7-10
目录  10-14
第1章 绪论  14-22
  1.1.计算机发音评测技术的背景  14-17
    1.1.1.概述  14-16
    1.1.2.计算机发音评测研究历史及现状  16-17
  1.2.计算机发音评测对普通话水平测试的意义  17-18
  1.3.论文研究目标及内容安排  18-22
第2章 计算机发音评测系统简介  22-32
  2.1.发音评测系统的主要研究内容  22-27
    2.1.1.语料库及标注数据库的设计和建立  22-23
    2.1.2.发音评测算法研究  23-27
    2.1.3.打分映射模型的研究  27
  2.2.基线系统的建立  27-31
    2.2.1.语料库及标注数据库的设计和建立  28-29
    2.2.2.发音评测算法的选择  29
    2.2.3.性能评价指标选择  29-30
    2.2.4.基线系统的实验  30-31
  2.3.本章小结  31-32
第3章 改进的对数后验概率算法  32-48
  3.1.基于语音学知识的识别网络搭建  32-35
    3.1.1.普通话水平测试中的语言学知识  32-33
    3.1.2.实际应用中对数后验概率的计算问题  33-34
    3.1.3.基于语言学知识的改进  34-35
  3.2.基于KLD差的识别网络搭建  35-41
    3.2.1.方言发音错误模式在模型间距离上的反映  36-37
    3.2.2.基于模型间距离的错误模式生成方法及其不足  37-38
    3.2.3.基于模型间距离差的错误模式生成思想  38
    3.2.4.如何计算两个HMM之间的KLD  38-39
    3.2.5.基于KLD差的统计错误模式生成算法  39-41
  3.3.带音素权重因子的后验概率规整算法  41-44
    3.3.1.普通话水平测试等级标准中的难点音与等级判定  42
    3.3.2.真实数据上的音素权重分析  42-43
    3.3.3.带音素权重因子的后验概率规整算法  43-44
  3.4.实验及实验结果  44-46
    3.4.1.实验配置  44-45
    3.4.2.实验结果  45-46
  3.5.本章小结  46-48
第4章 模型自适应在发音评测中的运用  48-64
  4.1.MLLR原理介绍  48-53
    4.1.1.MLLR基础  48-50
    4.1.2.辅助函数的定义  50
    4.1.3.最大化辅助函数  50-51
    4.1.4.Tied Regression Matrices的估计公式  51-53
  4.2.MAP原理介绍  53-56
    4.2.1.MAP自适应简介  53
    4.2.2.语音识别的MAP自适应策略  53-56
  4.3.选择性自适应策略介绍  56-60
    4.3.1.语音识别与发音评测对语音模型需求的差异分析  56-57
    4.3.2.选择性自适应策略  57-58
    4.3.3.选择性自适应策略的语料选择粒度  58-60
    4.3.4.不同的数据筛选门限的影响分析  60
  4.4.实验及结果  60-62
    4.4.1.实验配置  60-61
    4.4.2.实验结果  61-62
  4.5.本章小结  62-64
第5章 时长和语速特征在发音评测上的应用  64-78
  5.1.早期关于语速的研究  65-69
  5.2.基于ANGIE的时长模型建模  69-72
    5.2.1.时长归一化  70-71
    5.2.2.相对语速  71-72
  5.3.时长相关实验及实验结果  72-75
    5.3.1 "绝对语速"——Nelson Morgan定义的语速实验结果  72-73
    5.3.2 "相对语速"——ANGIE模型语速实验结果  73-74
    5.3.3 音素分位置统计时长分布的实验结果  74-75
  5.4.时长得分对整体评测系统的改进性能  75-76
    5.4.1.实验配置  75-76
    5.4.2.实验结果  76
  5.5.本章小结  76-78
第6章 发音评测中的回归策略研究  78-94
  6.1.针对普通话水平测试新分差  78-80
  6.2.常用回归策略分析  80-81
  6.3.置信区间分段线性回归  81-83
  6.4.GMM概率加权分段线性回归  83-84
  6.5.SVM分类分段线性回归  84-86
  6.6.实验及实验结果  86-92
    6.6.1.实验配置  86
    6.6.2.基线回归系统性能  86
    6.6.3.置信区间分段线性回归实验结果  86-87
    6.6.4.GMM概率加权分段线性回归实验结果  87-88
    6.6.5.SVM分类分段线性回归实验结果  88-92
  6.7.本章小结  92-94
第7章 论文工作总结及展望  94-97
  7.1.论文工作总结  94-96
  7.2.今后改进方向  96-97
参考文献  97-102
博士期间发表的论文和参与的研究工作  102-104
  发表的论文  102
  申请的专利  102-103
  所获奖项及科技成果  103-104
致谢  104

相似论文

  1. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  2. 基于DSP的机器人语音命令识别系统研制,TN912.34
  3. 在智能手机环境下健康管理功能设计与研究,TN929.53
  4. 灰色系统理论及相关模型的分析比较,N941.5
  5. 酮类化合物的3D-QSPR研究,O641
  6. 海南雾的天气气候特征分析及预报方法研究,P457
  7. 商业银行贷后风险预警系统的设计和实现,TP311.52
  8. 基于声学特性检测西瓜糖度和空心的声学检测系统,TS255.7
  9. 完全叠接管节点局部刚度的数值分析,TU392.3
  10. 中长期负荷预测方法研究,TM715
  11. 移动音视频交互业务执行平台的研究,TN915.09
  12. 呼叫中心IVR系统的设计与实现,TN99
  13. 基于参数自适应差分进化算法的用水网络优化,TP18
  14. 基于HMM的机器人语音识别系统的研究,TN912.34
  15. 数字图像修复研究,TP391.41
  16. 基于改进MFCC的语音识别系统研究及设计,TN912.34
  17. 基于增值税转型的企业经营绩效研究,F224.32
  18. 基于灰色理论和多元线性回归分析的房地产预测模型及其实证分析,F293.3
  19. 飞燕式系杆拱桥施工监控研究,U448.225
  20. 无人艇载高清多光谱遥感影像配准研究,TP751
  21. Graves病患者个性特征、应对方式与易发情绪的多元线性回归分析研究,R581.1

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com