学位论文 > 优秀研究生学位论文题录展示

广播新闻音频结构化技术研究

作 者: 张瑞杰
导 师: 李弼程
学 校: 解放军信息工程大学
专 业: 信号与信息处理
关键词: 音频分割与分类 全局背景模型 音色 正交实验设计 定长滑动窗 可信度 SVM-GMM 粗分类精识别
分类号: TN912.3
类 型: 硕士论文
年 份: 2009年
下 载: 26次
引 用: 0次
阅 读: 论文下载
 

内容摘要


广播新闻音频结构化是指将广播新闻音频切分为一个个内容相对独立、稳定的结构单元,再通过对音频数据的分析获得不同音频结构单元所对应的音频场景。广播新闻音频结构化不仅有利于广播新闻音频的深入分析和处理,而且对基于内容的广播新闻视频分析与检索也可起到重要的辅助作用。本文主要研究广播新闻音频结构化的相关技术,包括音频特征提取、音频分割和音频分类。主要取得了如下研究成果:首先,在音频特征提取方面,提取了基于全局背景模型(Universal Background Model, UBM)映射的MFCC段级特征以及帧内和帧间标准方差均值两种音色段级特征。实验结果验证了新特征的有效性。采用正交实验设计法进行音频特征选择,为不同广播新闻音频类别下具体场景的识别构造各自最佳的识别特征集。其次,在音频分割方面,提出了一种基于可信度变化趋势检测的音频分割算法。新算法采用定长滑动窗检测结构,以减少累积错误;窗内计算各音频帧的可信度,再根据可信度的变化趋势检测跳变点,以避免阈值选择和硬门限判决造成的误检。实验结果表明,新算法的分割性能优于现有的几种有代表性的音频分割算法。最后,在音频分类方面,结合支持向量机(Support Vector Machine, SVM)对数据区分能力强和高斯混合模型(Gaussian Mixture Model, GMM)对数据表征能力强的优点,提出了基于SVM-GMM的音频分类算法。针对广播新闻音频的结构特点,采用先粗分类后精识别的策略,先用SVM将广播新闻音频粗分类为语音、音乐、语音音乐混合音和环境背景音,再用GMM精识别不同音频类别下的具体场景。实验结果表明,新算法的平均分类精度优于层次分类法、最近特征线法、HMM分类法和SVM分类法。

全文目录


摘要  10-11
ABSTRACT  11-12
第一章 绪论  12-22
  1.1 研究背景与意义  12-13
  1.2 广播新闻音频结构化总体流程  13-15
    1.2.1 预处理  13
    1.2.2 特征提取  13-14
    1.2.3 音频分割  14
    1.2.4 音频分类  14
    1.2.5 平滑后处理  14-15
  1.3 国内外研究现状  15-21
    1.3.1 音频特征提取的研究现状  16
    1.3.2 音频分割的研究现状  16-18
    1.3.3 音频分类的研究现状  18-21
  1.4 本文主要工作和结构安排  21-22
    1.4.1 主要工作  21
    1.4.2 结构安排  21-22
第二章 段级特征提取与选择  22-43
  2.1 音频段级特征提取  22-30
    2.1.1 基于帧的音频特征  22-26
    2.1.2 基于段的音频特征  26-30
  2.2 基于全局背景模型映射的MFCC 段级特征  30-31
  2.3 音色特征  31-34
    2.3.1 音色特征定义  31-32
    2.3.2 音色段级特征  32-34
  2.4 正交实验设计基本原理  34
    2.4.1 正交表构造  34
    2.4.2 正交实验  34
    2.4.3 正交实验结果分析  34
  2.5 实验结果和性能分析  34-41
    2.5.1 特征有效性分析  34-36
    2.5.2 正交实验设计在音频特征选择中的应用  36-41
  2.6 小结  41-43
第三章 基于可信度变化趋势检测的音频分割  43-54
  3.1 有代表性的音频分割方法  43-47
    3.1.1 基于KL2 距离的音频分割算法  43
    3.1.2 基于隐马尔可夫模型的音频分割算法  43-44
    3.1.3 基于贝叶斯信息准则的音频分割算法  44-46
    3.1.4 基于熵变化趋势检测的音频分割算法  46-47
  3.2 基于可信度变化趋势检测的音频分割算法  47-50
    3.2.1 可信度检测跳变点原理  47-48
    3.2.2 定长滑动窗检测结构  48-49
    3.2.3 基于可信度变化趋势检测的音频分割算法流程  49-50
  3.3 实验结果和性能分析  50-53
  3.4 小结  53-54
第四章 基于SVM-GMM 的音频分类  54-69
  4.1 常用音频分类方法  54-59
    4.1.1 层次分类法  54
    4.1.2 最近特征线法  54-55
    4.1.3 HMM 分类法  55-56
    4.1.4 SVM 分类法  56-59
  4.2 SVM-GMM  59-63
    4.2.1 高斯混合模型的定义  59-60
    4.2.2 参数调整算法—EM 算法  60-61
    4.2.3 VQ-GMM 模型  61-62
    4.2.4 SVM-GMM 分类法  62-63
  4.3 基于SVM-GMM 的广播新闻音频分类算法  63-65
    4.3.1 基于SVM 模型的粗分类  63-64
    4.3.2 基于GMM 模型的精识别  64-65
  4.4 实验结果和性能分析  65-68
  4.5 小结  68-69
结束语  69-71
参考文献  71-75
作者简历 攻读硕士学位期间完成的主要工作  75-76
致谢  76

相似论文

  1. 贝里奥的新人声主义创作相关分析研究,J622.1
  2. 浅谈长号重奏在学习中的重要性,J624.1
  3. 民族唱法与通俗唱法音色差异成因初探,J616
  4. 基于不确定型层次分析法的矿山边坡稳定性评价研究,TD854.6
  5. 钻井复杂情况与事故诊断专家系统研究,TE24
  6. 电沉积Ni-W合金镀层的制备、结构及其性能研究,TQ153.2
  7. 上世纪六七十年代中国钢琴音乐作品研究,J624.1
  8. 本意、本源、本质—透析音乐作品中的音色差异,J624.1
  9. 基于网络连接特征的DDoS检测系统的研究与实现,TP393.08
  10. KYLIN操作系统中灵活角色管理的研究与实现,TP393.08
  11. 一种基于QoS与用户推荐的Web服务信誉度评价模型,TP393.09
  12. 面向系统集成领域的多Agent协作机制的研究,TP311.52
  13. 音频结构化技术研究,TN912.3
  14. 活性污泥工艺降解壬基酚聚氧乙烯醚的实验研究,X703
  15. 大庆石脑油热裂解汽烃比调节方案的研究,TQ221.211
  16. 浅析民族声乐演唱中的艺术处理,J616
  17. 论古筝音乐中的非乐音技法,J632.32
  18. 孙燕姿歌曲的编曲研究,J614
  19. 学生用户对SNS网站信任度的实证研究,G206
  20. 基于区域动态信任管理的可信路由协议,TN929.5

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com