学位论文 > 优秀研究生学位论文题录展示

基于VQ和ASR的多媒体课件检索

作　者: 王霅煜
导　师: 申瑞民
学　校: 上海交通大学
专　业: 计算机系统结构
关键词: 矢量量化语音识别关键字检出多媒体检索
分类号: TP391.6
类　型: 硕士论文
年　份: 2010年
下　载: 18次
引　用: 0次
阅　读: 论文下载

内容摘要

在E-learning教学环境中,多媒体课件是使用最为广泛的教学内容载体。而针对多媒体课件的检索服务可以使学生方便地选择他们所感兴趣的部分从而提高了教学效率。基于语音的内容检索是常用的多媒体文件检索,依靠相对较为成熟的语音识别技术这一检索技术在基于内容的多媒体文件检索领域具有很高的应用与研究价值。本文将针对E-learning应用环境,研究基于语音识别的多媒体资料检索方法。由于多媒体课件来自于各个专业,涵盖的内容较广且包含一些专业术语,在对其进行检索的过程中很难建立一个较完善的语言模型。因此本文提出的方法直接在声学模型级别完成搜索和匹配以避免词汇量不够(OOV)的情况。此外,由于课件均在实际教室中录制,其语音质量往往不高,本文提出的方法还将具备一定的容错能力。本论文的主要工作包括:1、研究并设计向量量化技术(VQ)对隐马尔可夫模型(HMM)的状态进行聚类并生成相应的码表,以用于对语音文件进行预处理的阶段。这一步骤主要将耗时较多的语音信号特征的提取与比较在离线状态下完成,并将语音信号匹配转换成状态序列的符号匹配,以便在实时处理检索请求时系统具有较快的反应速度。2、多级检索算法将利用路径搜索算法进行关键词检出(keyword spotting)作为初级检索,给出一组粗略的候选结果。利用自动语音识别技术(ASR)作为次级检索对候选结果进行筛选,验证等处理,最终找出与关键词相匹配的项并根据似然度评分原则排序输出。为学生提供多媒体课件检索服务。3、利用上述方法实现原型系统,并在实际课件点播环境中测试其性能。同时研究相应算法在该环境中的可行性。

基于VQ和ASR的多媒体课件检索

内容摘要

全文目录

相似论文