学位论文 > 优秀研究生学位论文题录展示

基于多模态特征的新闻视频结构分析

作 者: 刘嘉琦
导 师: 封化民
学 校: 西安电子科技大学
专 业: 密码学
关键词: 新闻视频 多模态特征 主持人 字幕 音频 故事单元分割
分类号: TP391.41
类 型: 硕士论文
年 份: 2012年
下 载: 23次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来随着数据压缩、通讯、存储技术的飞速发展,以及计算机性能的不断提高和网络的广泛普及,多媒体视频的应用得到了极大的发展。尤其是新闻视频已成为人们获取新闻信息的重要来源。面对如此海量的新闻信息,如何快速有效地查询到包含人们所需要的新闻内容的信息成为多媒体技术的研究热点。新闻视频摘要和检索是解决这些问题的主要方法,而其中一个重要的基础工作就是新闻视频结构分析。本文提出了一种融合主持人镜头、视觉特征、音频特征和文本信息等多模态特征的新闻视频结构分析框架,该框架针对绝大部分的新闻视频结构模式,设计并实现了新闻视频的故事单元分割。首先对新闻视频进行预处理,将新闻视频分割成音频流和视频流。对于音频流,选择静音区间作为音频候选点;对于视频流,首先对新闻视频进行镜头分割,将镜头边界切变点作为视频候选点,然后进行主持人镜头和主题字幕的探测,将主持人镜头作为候选区间并记录主题字幕的起始位置和结束位置;最后基于时间轴融合音频候选点,视频候选点,主持人镜头和主题字幕对新闻视频进行故事单元分割。通过对中等规模的CCTV《新闻联播》视频进行实验,结果表明本文提出的分割方法可以较好的对新闻视频结构进行有效分析,获得平均83.18%的查全率和83.92%的查准率,可以较好的对新闻视频结构进行有效分析。

全文目录


摘要  3-4
Abstract  4-7
第一章 绪论  7-17
  1.1 课题的研究背景和意义  7
  1.2 相关理论及研究现状  7-15
  1.3 论文的主要工作  15-16
  1.4 论文的组织结构  16-17
第二章 系统总体结构设计  17-21
  2.1 总体结构  17-18
  2.2 各模块的主要工作内容  18-19
    2.2.1 视频预处理  18
    2.2.2 多模态特征提取  18
    2.2.3 新闻故事单元分割  18-19
  2.3 本章小结  19-21
第三章 基于多模态特征的新闻视频故事单元分割  21-43
  3.1 新闻视频镜头分割和切变点检测  21-23
  3.2 新闻视频主题字幕帧检测  23-28
    3.2.1 图像灰度变换  24-25
    3.2.2 图像边缘检测  25-28
    3.2.3 主题字幕帧判别  28
  3.3 主持人镜头检测  28-37
    3.3.1 关键帧提取  30
    3.3.2 人脸检测  30-32
    3.3.3 图像视觉特征提取  32-33
    3.3.4 基于 SVM 分类的主持人图像判定  33-37
  3.4 音频特征候选点探测  37-39
    3.4.1 音频预加重  37
    3.4.2 加窗分帧  37-38
    3.4.3 短时能量特征  38
    3.4.4 短时过零率特征  38-39
    3.4.5 静音帧判定  39
  3.5 多模态融合的新闻故事单元分割  39-41
    3.5.1 新闻视频的结构特点  39-40
    3.5.2 基于多模态特征融合的新闻视频故事单元分割  40-41
  3.6 本章小结  41-43
第四章 系统性能测试和结果分析  43-49
  4.1 实验数据与实验环境  43
  4.2 性能测试与结果分析  43-46
    4.2.1 新闻视频主题字幕帧检测结果分析  43-44
    4.2.2 新闻视频主持人镜头探测结果分析  44-45
    4.2.3 新闻视频静音点探测结果分析  45-46
    4.2.4 新闻视频故事单元分割结果分析  46
  4.3 本章小结  46-49
第五章 总结与展望  49-51
  5.1 总结  49
  5.2 展望  49-51
致谢  51-53
参考文献  53-57
在读期间的研究成果  57-58

相似论文

  1. 电视访谈节目主持人语言策略研究,G222.2
  2. 电视民生新闻主持人品牌化研究,G222.2
  3. 嵌入式透地通信系统平台设计,TN914
  4. 基于虚拟仪器的音频信号分析系统设计,TP274
  5. 从二维到多维的影视字幕视觉传达设计,J524
  6. 从改写理论的视角看电影字幕翻译中的创造性叛逆,H059
  7. 电视节目主持人策划与地方电视媒体竞争力研究,G222.2
  8. “主持人中心制”节目运作模式研究,G222.2
  9. 情感倾诉类广播节目主持人语言风格研究,G222.2
  10. 从德国功能翻译理论探析电影字幕翻译,H059
  11. 基于USB接口的嵌入式音频系统的设计,TN912.2
  12. 关联理论视角下的影视字幕翻译分析,H059
  13. 数字音频真实性检测方法的研究与实现,TN912.3
  14. 关联理论视角下的影视习语翻译,H059
  15. 电视节目本土化主持的生存策略研究,G222
  16. 当今汉英双语播音主持教学模式的研究,G222.2
  17. 音频水印的非线性检测器研究,TP309.7
  18. 基于QFN封装之D类音频功放测试,TN722.75
  19. 浅析全媒体时代下我国电视节目主持人的转型升级,G222.2
  20. 音频数字水印算法的研究,TP309.7
  21. 心音数字水印技术,TP309.7

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com