学位论文 > 优秀研究生学位论文题录展示

基于VQ和ASR的多媒体课件检索

作 者: 王霅煜
导 师: 申瑞民
学 校: 上海交通大学
专 业: 计算机系统结构
关键词: 矢量量化 语音识别 关键字检出 多媒体检索
分类号: TP391.6
类 型: 硕士论文
年 份: 2010年
下 载: 18次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在E-learning教学环境中,多媒体课件是使用最为广泛的教学内容载体。而针对多媒体课件的检索服务可以使学生方便地选择他们所感兴趣的部分从而提高了教学效率。基于语音的内容检索是常用的多媒体文件检索,依靠相对较为成熟的语音识别技术这一检索技术在基于内容的多媒体文件检索领域具有很高的应用与研究价值。本文将针对E-learning应用环境,研究基于语音识别的多媒体资料检索方法。由于多媒体课件来自于各个专业,涵盖的内容较广且包含一些专业术语,在对其进行检索的过程中很难建立一个较完善的语言模型。因此本文提出的方法直接在声学模型级别完成搜索和匹配以避免词汇量不够(OOV)的情况。此外,由于课件均在实际教室中录制,其语音质量往往不高,本文提出的方法还将具备一定的容错能力。本论文的主要工作包括:1、研究并设计向量量化技术(VQ)对隐马尔可夫模型(HMM)的状态进行聚类并生成相应的码表,以用于对语音文件进行预处理的阶段。这一步骤主要将耗时较多的语音信号特征的提取与比较在离线状态下完成,并将语音信号匹配转换成状态序列的符号匹配,以便在实时处理检索请求时系统具有较快的反应速度。2、多级检索算法将利用路径搜索算法进行关键词检出(keyword spotting)作为初级检索,给出一组粗略的候选结果。利用自动语音识别技术(ASR)作为次级检索对候选结果进行筛选,验证等处理,最终找出与关键词相匹配的项并根据似然度评分原则排序输出。为学生提供多媒体课件检索服务。3、利用上述方法实现原型系统,并在实际课件点播环境中测试其性能。同时研究相应算法在该环境中的可行性。

全文目录


相似论文

  1. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  2. 基于DSP的机器人语音命令识别系统研制,TN912.34
  3. 在智能手机环境下健康管理功能设计与研究,TN929.53
  4. 基于分段概率模型语音识别算法的SOPC实现,TN47
  5. 化学需氧量在线监测网络节点及传感阵列模式识别算法,X832
  6. Pre~2VOD:一种VCR操作支持的VOD/P2P系统,TN948.64
  7. 基于重叠变换与矢量量化的图像压缩算法及应用研究,TN919.81
  8. 融合词性信息的声学模型建模及研究,TN912.34
  9. 汉语普通话中双音节词水平测试系统的设计与研究,TN912.34
  10. 基于HTK的汉语连续语音识别系统的设计与实现,TN912.34
  11. 抗噪语音识别系统研究与实现,TN912.34
  12. 仿真机器人控制系统,TP242
  13. 车载汉语语音控制命令识别算法的研究,U463.6
  14. 嵌入式语音识别系统的研究与实现,TN912.34
  15. 高频带静音压缩算法研究与实现,TN912.3
  16. 基于VQ的自适应视频压缩算法及FPGA实现,TP391.41
  17. 人脸识别系统的研究和设计,TP391.41
  18. 基于图像平滑性判断矢量量化的图像压缩系统的研究,TP391.41
  19. 小波分析在数字图像压缩中的研究,TP391.41
  20. 智能机器人语音远程控制系统的设计与实现,TP242.6
  21. 基于DTW模型的孤立词语音识别算法实现研究,TN912.34

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 教学机、学习机
© 2012 www.xueweilunwen.com