学位论文 > 优秀研究生学位论文题录展示
视频语义标注的若干问题研究
作 者: 唐金辉
导 师: 吴秀清
学 校: 中国科学技术大学
专 业: 信号与信息处理
关键词: 视频语义标注 训练集构造 半监督学习 标记传播 各向异性 线性邻域传播 核技巧 时间一致性 语义相关性 典型性排序
分类号: TP391.41
类 型: 博士论文
年 份: 2008年
下 载: 644次
引 用: 4次
阅 读: 论文下载
内容摘要
近年来随着存储设备、传输和压缩技术的发展,数字视频以极高的速度增长。如何有效的管理这些视频成为一个急待解决的问题。常用的方案是发展自动分析技术从视频中提取“元数据”(metadata)来对视频内容进行语义层的描述。有了这些元数据的帮助,就能有效的建立视频检索、摘要、发布和处理的工具和系统。视频或视频镜头的自动语义标注(在TRECVID任务中也称为高层特征提取)是获取这些元数据的一个基本步骤。手工进行视频集合的标注是最直接的方法,然而这样做非常耗时耗力,因此研究人员们提出了很多种基于机器学习的视频自动标注方法。目前基于学习的标注方法已经取得了一定的成功,然而由于底层视觉特征和高层语义概念之间的“语义鸿沟”的存在,基于机器学习的视频标注中仍然存在一些值得研究的问题,包括训练集的构造、如何利用大量的未标注数据、挖掘视频数据中的上下文知识,以及典型性排序问题。本论文针对这些问题进行了深入的研究并取得了如下成果:(1)针对训练集的构造问题,提出构造一个包含所有数据的时间和空间分布信息的小样本集进行人工标注作为训练集,这样在保证标注性能的同时又能大大降低人工劳动。本文给出了构造的训练集逼近原始数据集程度的评价指标并在此基础上提出了构造训练集的优化准则和近似解法。在一个家庭视频数据集合上的实验验证了本文构造方法的有效性。(2)把半监督学习的两个基本假设之一的结构假设直接嵌入进基于图的半监督学习方法的关键点相似性度量中,提出了各向异性流形排序算法,进一步提高了半监督学习方法的性能。并且从基于偏微分方程的扩散角度对该算法进行了分析,揭示了各向异性流形排序算法和普通基于图的方法的本质区别:本方法中的标记信息传播过程是各向异性的,而通常的基于图的方法都是各向同性的。在标准新闻视频集合TRECVID数据集上的实验显示了该方法明显优于SVM和其它常用的基于图的半监督学习方法。(3)分析了近期研究人员提出的局部邻域传播(LNP)的方法潜在的线性语义假设针对视频数据的不足,并受启发于核技巧(kernel trick)在模式识别领域取得的巨大成功,通过核方法把底层特征映射到一个非线性的特征空间中,解决了线性映射的限制,在映射空间中结合半监督学习中的一致性假设和非线性降维方法,提出了核映射局部邻域信息传播算法,进一步提高了视频语义标注的性能。(4)探索了视频数据的两种上下文知识,即时间一致性和语义相关性,并把这两种特性结合进机器学习方法,提出了两种利用上下文知识的视频标注方法:时间一致高斯随机场方法和基于多关系图的标记传播算法,实验说明了结合这些上下文知识能显著的提高标注性能。(5)针对目前的标注只考虑某特定语义是否存在于某个视频镜头中,忽视了镜头中该语义内容的典型程度的问题,讨论了标注中的典型性排序问题和评价指标,并给出了一个视频标注的典型性排序框架。此外,本文还结合半监督学习和多示例学习提出了一种半监督多示例典型性排序方法,并应用于自然场景标注。
|
全文目录
摘要 4-6 Abstract 6-12 第一章 绪论 12-22 1.1 视频标注研究的背景与现状 13-19 1.1.1 视频结构化 14-16 1.1.2 视频标注方法 16-18 1.1.3 特定领域中视频标注研究现状 18-19 1.2 本文的研究动机及内容 19-20 1.3 本文的内容安排和创新点 20-22 第二章 视频标注中的最优训练样本集构造 22-36 2.1 训练集的有效性度量 23-26 2.1.1 显著性度量 23-24 2.1.2 时间分散性度量 24 2.1.3 空间分散度度量 24-25 2.1.4 多样性度量 25-26 2.2 优化准则 26-30 2.3 实验 30-33 2.4 本章小结 33-36 第三章 结构敏感各向异性流形排序算法 36-53 3.1 研究动机 36-37 3.2 结构敏感各向异性排序 37-41 3.2.1 相关的基于图的半监督学习方法 38-39 3.2.2 概率密度的影响 39-40 3.2.3 提出的方法-结构敏感各向异性排序 40-41 3.3 与基于偏微分方程的扩散之间的联系 41-45 3.3.1 从热扩散到高斯随机场方法 42-43 3.3.2 从各向异性扩散到结构敏感各向异性流形排序 43-45 3.4 算法实现问题 45-46 3.5 实验 46-50 3.5.1 实验设置 46-47 3.5.2 实验结果 47-50 3.6 本章小结 50-53 第四章 基于核映射线性邻域传播的视频标注 53-67 4.1 线性邻域传播及其不足 54-55 4.2 核映射线性邻域传播 55-58 4.3 KLNP的扩展讨论 58-60 4.4 实验 60-62 4.5 本章小结 62-67 第五章 基于上下文知识的视频语义标注 67-81 5.1 时间一致高斯随机场方法 67-69 5.2 正则化框架 69-70 5.3 实验结果 70-72 5.4 基于多关系图的标记传播 72-79 5.4.1 视频概念中的语义关系建模 74-75 5.4.2 提出的方法—MRGLP 75-79 5.5 实验结果 79 5.6 本章小结 79-81 第六章 典型性排序 81-99 6.1 典型性排序 81-86 6.1.1 基于密度估计的标记预处理 82-83 6.1.2 基于用户反馈的标记预处理 83-85 6.1.3 基于主动学习的标记预处理 85-86 6.2 实验 86-89 6.3 半监督多示例典型性排序 89-95 6.3.1 相关学习方法 91-92 6.3.2 半监督多示例典型性排序方法 92-95 6.4 实验 95-96 6.5 本章小结 96-99 第七章 总结与展塑 99-103 7.1 本文总结 99-101 7.2 研究工作展望 101-103 参考文献 103-111 攻读博士学位期间的研究成果 111-115 致谢 115-116
|
相似论文
- 图像语义自动标注方法的研究,TP391.41
- 同语义类状位形容词和动词的语义搭配及习得考察,H146
- 不同条件下注视词N对词N+1跳读的影响,H19
- 基于语义相关性的XML关键字查询的研究与实现,TP311.52
- 留学生单音节多义语素习得考察,H195
- 基于角色的语义相关XML安全研究,TP312.2
- 无结构P2P网络中基于语义和节点存储能力的搜索关键技术研究,TP393.02
- 基于语义处理技术的信息检索模型研究,TP391.3
- 基于本体的电子政务资源管理系统研究,TP315
- 基于本体的政务信息交换技术的研究,TP311.52
- 基于Ontology的地理信息服务研究,P208
- 时空结合的深度视频估计及相关研究,TP391.41
- ATRs-EDB系统的实时数据定义与操作,TP311.13
- 基于HLA的多模复合精确末制导仿真系统设计与实现,TP391.9
- 监督和半监督典型相关分析及其应用研究,TP181
- 基于统计学习的多类别分类器研究,TP181
- 基于核方法的说话人辨认模型研究,TN912.34
- 非线性过程监测中的数据降维及相关问题研究,TP274
- 流形学习方法理论研究及图像中应用,TP391.41
- 基于半监督学习的图像分割系统的设计与实现,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com
|