学位论文 > 优秀研究生学位论文题录展示

广播新闻音频结构化技术研究

作　者: 张瑞杰
导　师: 李弼程
学　校: 解放军信息工程大学
专　业: 信号与信息处理
关键词: 音频分割与分类全局背景模型音色正交实验设计定长滑动窗可信度 SVM-GMM 粗分类精识别
分类号: TN912.3
类　型: 硕士论文
年　份: 2009年
下　载: 26次
引　用: 0次
阅　读: 论文下载

内容摘要

广播新闻音频结构化是指将广播新闻音频切分为一个个内容相对独立、稳定的结构单元,再通过对音频数据的分析获得不同音频结构单元所对应的音频场景。广播新闻音频结构化不仅有利于广播新闻音频的深入分析和处理,而且对基于内容的广播新闻视频分析与检索也可起到重要的辅助作用。本文主要研究广播新闻音频结构化的相关技术,包括音频特征提取、音频分割和音频分类。主要取得了如下研究成果:首先,在音频特征提取方面,提取了基于全局背景模型(Universal Background Model, UBM)映射的MFCC段级特征以及帧内和帧间标准方差均值两种音色段级特征。实验结果验证了新特征的有效性。采用正交实验设计法进行音频特征选择,为不同广播新闻音频类别下具体场景的识别构造各自最佳的识别特征集。其次,在音频分割方面,提出了一种基于可信度变化趋势检测的音频分割算法。新算法采用定长滑动窗检测结构,以减少累积错误;窗内计算各音频帧的可信度,再根据可信度的变化趋势检测跳变点,以避免阈值选择和硬门限判决造成的误检。实验结果表明,新算法的分割性能优于现有的几种有代表性的音频分割算法。最后,在音频分类方面,结合支持向量机(Support Vector Machine, SVM)对数据区分能力强和高斯混合模型(Gaussian Mixture Model, GMM)对数据表征能力强的优点,提出了基于SVM-GMM的音频分类算法。针对广播新闻音频的结构特点,采用先粗分类后精识别的策略,先用SVM将广播新闻音频粗分类为语音、音乐、语音音乐混合音和环境背景音,再用GMM精识别不同音频类别下的具体场景。实验结果表明,新算法的平均分类精度优于层次分类法、最近特征线法、HMM分类法和SVM分类法。

全文目录

摘要  10-11
ABSTRACT  11-12
第一章绪论  12-22
  1.1 研究背景与意义  12-13
  1.2 广播新闻音频结构化总体流程  13-15
    1.2.1 预处理  13
    1.2.2 特征提取  13-14
    1.2.3 音频分割  14
    1.2.4 音频分类  14
    1.2.5 平滑后处理  14-15
  1.3 国内外研究现状  15-21
    1.3.1 音频特征提取的研究现状  16
    1.3.2 音频分割的研究现状  16-18
    1.3.3 音频分类的研究现状  18-21
  1.4 本文主要工作和结构安排  21-22
    1.4.1 主要工作  21
    1.4.2 结构安排  21-22
第二章段级特征提取与选择  22-43
  2.1 音频段级特征提取  22-30
    2.1.1 基于帧的音频特征  22-26
    2.1.2 基于段的音频特征  26-30
  2.2 基于全局背景模型映射的MFCC 段级特征  30-31
  2.3 音色特征  31-34
    2.3.1 音色特征定义  31-32
    2.3.2 音色段级特征  32-34
  2.4 正交实验设计基本原理  34
    2.4.1 正交表构造  34
    2.4.2 正交实验  34
    2.4.3 正交实验结果分析  34
  2.5 实验结果和性能分析  34-41
    2.5.1 特征有效性分析  34-36
    2.5.2 正交实验设计在音频特征选择中的应用  36-41
  2.6 小结  41-43
第三章基于可信度变化趋势检测的音频分割  43-54
  3.1 有代表性的音频分割方法  43-47
    3.1.1 基于KL2 距离的音频分割算法  43
    3.1.2 基于隐马尔可夫模型的音频分割算法  43-44
    3.1.3 基于贝叶斯信息准则的音频分割算法  44-46
    3.1.4 基于熵变化趋势检测的音频分割算法  46-47
  3.2 基于可信度变化趋势检测的音频分割算法  47-50
    3.2.1 可信度检测跳变点原理  47-48
    3.2.2 定长滑动窗检测结构  48-49
    3.2.3 基于可信度变化趋势检测的音频分割算法流程  49-50
  3.3 实验结果和性能分析  50-53
  3.4 小结  53-54
第四章基于SVM-GMM 的音频分类  54-69
  4.1 常用音频分类方法  54-59
    4.1.1 层次分类法  54
    4.1.2 最近特征线法  54-55
    4.1.3 HMM 分类法  55-56
    4.1.4 SVM 分类法  56-59
  4.2 SVM-GMM  59-63
    4.2.1 高斯混合模型的定义  59-60
    4.2.2 参数调整算法—EM 算法  60-61
    4.2.3 VQ-GMM 模型  61-62
    4.2.4 SVM-GMM 分类法  62-63
  4.3 基于SVM-GMM 的广播新闻音频分类算法  63-65
    4.3.1 基于SVM 模型的粗分类  63-64
    4.3.2 基于GMM 模型的精识别  64-65
  4.4 实验结果和性能分析  65-68
  4.5 小结  68-69
结束语  69-71
参考文献  71-75
作者简历攻读硕士学位期间完成的主要工作  75-76
致谢  76

广播新闻音频结构化技术研究

内容摘要

全文目录

相似论文