学位论文 > 优秀研究生学位论文题录展示

大词汇量连续语音识别系统中统计语言模型的研究

作 者: 邹荣
导 师: 郭军
学 校: 北京邮电大学
专 业: 信号与信息处理
关键词: 语音识别 隐马尔可夫模型 N-gram 语言模型 语料库 CMU_Cam-Toolkit 数据平滑 音字转换
分类号: TN912.34
类 型: 硕士论文
年 份: 2006年
下 载: 377次
引 用: 9次
阅 读: 论文下载
 

内容摘要


语音识别是模式识别领域的一个重要的研究课题,它的发展将会对未来的人机交互界面带来极大的影响。而在语音识别的研究中,大词汇量、非特定人、连续语音识别是最困难,最具有挑战性的一个课题。目前虽然已有许多大词汇量连续语音识别系统问世,但是其性能还远远达不到大规模应用的要求,对于它的进一步研究具有重要的实际意义。 语言模型是描述自然语言内在规律的数学模型。随着语料库语言学的崛起,基于语料库的统计语言模型逐渐取代了传统的人工编制的语言学文法,被广泛地应用于自然语言处理的各个应用领域。 本文研究的目的是建立基于词上下文的汉语统计语言模型。首先讨论了统计语言模型的构造原理、评价标准和存在的一些问题。建立了一个具有一定规模、分类齐全的语料库,并完成了语料库的预处理、分词方案。采用CMU_Cam_Toolkit工具包完成语言模型的训练和评价工作。此外,进行了大量的实验,从预处理方案、训练语料的规模、数据平滑方法、语料的搭配情况,词表文件的选择,工具包使用参数的设置等方面对语言模型进行了优化和改进,使语音识别系统识别率有了显著提高。 本文针对模型文件中的词表文件建立了一个音字转换系统,这个模块用于将语音识别系统中的声学模型和语言模型连接起来,具有十分重要的作用。解决了多音字处理问题,提出将多音字分的读音分为低频音和高频音的处理方法,解决了多音字词语注音时需要人工干预的问题,并且提出了一种有效的数据结构方法,大大提高了汉字拼音搜索匹配的速度。这个模块也可用于声学模型的拼接训练,不需要在识别内容改变的情况下重新进行整词训练,节省了大量的人力物力。 本文系统的介绍了大词汇量连续语音识别系统的整体模型和各个组成部分,并阐明一个可靠的语言模型对于提高连续语音识别系统的识别正确率,起着至关重要的作用。相对于已发展得较为成熟的声学模型来说,语言模型还有极大的发展空间。

全文目录


第一章 绪论  7-11
  1.1 引言  7-8
  1.2 本文研究的背景和意义  8-10
    1.2.1 大词汇量连续语音识别系统的研究背景  8-9
    1.2.2 语言模型研究的目的和意义  9-10
  1.3 论文的主要内容及其组织  10-11
第二章 语言模型的理论基础  11-22
  2.1 基于知识的语言模型  11-13
  2.2 统计语言模型  13-16
  2.3 基于知识的语言模型和统计语言模型的比较  16-17
  2.4 参数估计与平滑  17-20
  2.5 统计语言模型的评估方法  20-22
第三章 大规模语料库的建设  22-33
  3.1 语料库建设的作用和意义  22
  3.2 语料库的建设原则  22-24
  3.3 语料库的建设步骤  24-28
  3.4 语料库的预处理  28-33
第四章 N-gram语言模型的生成  33-53
  4.1 汉语大词表N-gram统计语言模型的构造算法  33-40
    4.1.1 统计语言模型N-gram的介绍  33-35
    4.1.2 CMU-CAMBRIDGE TOOLKIT工具包的介绍和使用方法  35-40
  4.2 影响N-gram语言模型参数的各种因素及系统性能测试  40-46
    4.2.1 语料规模和语料的搭配选取对N-gram语言模型的影响  40-42
    4.2.2 N-gram语言模型的数据平滑技术及性能比较  42-43
    4.2.3 预处理方案对语言模型的影响  43-44
    4.2.4 词表内容的确定  44-45
    4.2.5 语言模型的性能评估  45-46
  4.3 字音转换系统的搭建和测试  46-53
    4.3.1 字音转换系统中数据结构的介绍  47-48
    4.3.2 多音字的处理方法  48-53
第五章 语言模型在连续语音识别系统中的应用  53-59
  5.1 语音识别系统的整体模型  53-55
  5.2 连续语音识别系统的构建和组成部分介绍  55-57
    5.2.1 声学模型  55-56
    5.2.2 语言模型  56-57
    5.2.3 训练和识别算法  57
  5.3 语言模型对语音识别系统性能的改进作用  57-59
    5.3.1 实验数据及实验结果  57-58
    5.3.2 实验分析  58-59
第六章 总结与展望  59-60
参考文献  60-62
致谢  62

相似论文

  1. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  2. 基于DSP的机器人语音命令识别系统研制,TN912.34
  3. 统计机器翻译中结构转换技术的研究,TP391.2
  4. 词义消歧语料库自动获取方法研究,TP391.1
  5. 在智能手机环境下健康管理功能设计与研究,TN929.53
  6. 基于中介语语料库的汉语递进复句习得研究,H195
  7. 基于语料库的上海世博会新闻报道的互文性分析,H052
  8. 基于语料库对TAKE用法的比较研究,H319
  9. 近似字符串匹配研究及其在URL检测中的应用,TP393.08
  10. 中国大学生英语作文中SO使用情况的语料库分析,H319
  11. 基于语料库的中外学术语篇中立场副词对比研究,H314
  12. 基于语料库的中国英语经济新闻报道中概念隐喻的研究,H315
  13. 中外英文学术语篇中词块的结构和功能对比研究,H315
  14. 基于语料库的英国媒体关于中国制造报道的话语分析,H315
  15. 中国英语学习者与本族语者认识可能性显性表达研究,H319
  16. 基于语料库的中国人日本语学习者的汉字词误用情况和误用分析,H36
  17. 呼叫中心IVR系统的设计与实现,TN99
  18. 基于可比较语料库双语多词表达式对抽取,TP391.1
  19. 基于语料库的EFL学者学术英语论文词块初探,H315
  20. 基于语料库的英语谚语变体研究,H313
  21. 基于信息依存语言模型的英汉被动结构对比研究,H314.3

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com