深度学习模型在视频中的时间泛化能力研究

162 浏览量更新于2025-01-16 收藏 1.24MB PDF 举报

"该研究关注图像分类器在视频中的跨时间泛化能力，以及时间扰动对模型性能的影响。研究人员创建了两个新数据集ImageNet-Vid-Robust和YTBB-Robust，用于评估模型在面对感知相似的连续视频帧时的分类准确度。这些数据集经过人类专家的彻底重新注释，确保图像之间的相似性。实验结果显示，预训练的图像分类器在新数据集上的中位分类准确度下降了16至10个百分点。此外，检测模型在面对自然扰动时，中位检测mAP降低14个点，揭示了视频中自然发生的扰动对模型的实质性挑战。此研究强调了在需要稳定、低延迟预测的实时应用中，如自动驾驶，部署CNNs存在的问题。" 图像分类器在视频中的跨时间泛化能力是一个重要的研究领域，因为现有的模型往往在处理连续帧时出现“闪烁”现象，即在同一物体的不同但感知相似的帧上表现不稳定。这种不稳定性可能导致在线应用，如自动驾驶，出现严重的错误。研究者通过构建两个新的数据集，ImageNet-Vid-Robust和YTBB-Robust，包含大量感知相似的图像序列，旨在模拟视频中自然发生的时间变化。这两个数据集的建立是为了深入理解模型在面对时间扰动时的行为。它们来源于ImageNet-Vid和Youtube-BB，并且经过人类专家的精细标注，以确保图像间的视觉相似性。在这些数据集上，研究人员评估了预训练的多种图像分类器，发现它们在处理时间变化时的分类准确度显著下降，表明模型对自然的、时间相关的输入变化缺乏鲁棒性。此外，研究还涉及到了检测模型，结果表明这些模型在自然扰动下不仅分类性能下降，定位准确性也受到影响，检测mAP中位数下降14个点。这一发现揭示了视频中自然发生的扰动对模型的稳健性和可靠性构成的实际挑战。传统上，模型的鲁棒性研究主要集中在对抗性攻击或人工设计的输入变换上，而这些方法可能无法完全模拟视频中的实际扰动。这项工作强调了评估模型对自然、动态环境的适应性的重要性，特别是在那些要求连续、准确预测的实时应用中。因此，提高模型的跨时间泛化能力和对自然时间变化的鲁棒性是未来研究的重要方向，以确保其在实际应用中的安全性和有效性。

9663

锚定框架

锚帧

废弃框架

锚定框架

图2：时间上相邻的帧可能在视觉上不相似。我们展示了三个随机采样的帧对，其中附近的帧在人类审查期间被标

记为

ImageNet-Vid

健壮

YTBB

鲁棒

每年检查每个帧集。对于每个视频，我们随机采样一个

锚帧，取k

= 10

帧

已查看1，314 2，467

1，109（84%）2，030（82%）

更新标签-834（41%）

26，029 45，631

21，070（81%）36，827（81%）

表1：ImageNet-Vid-Robust和YTBB-Robust的数据集

统计。对于YTBB-Robust，由于Youtube-BB中的标签

不完整，我们更新了41%（834）的已接受锚点的标

签。

评估时间鲁棒性

ImageNet-Vid-Robust 和 YTBB-Robust 来源于

ImageNet-Vid和Youtube-BB数据集中的视频[27，24]。

ImageNet-Vid和Youtube-BB中的所有对象类（除了一

个

之外

）都来自WordNet层次结构[21]和ILSVRC-2012类

的直接祖先使用 WordNet 层次结构，我们构建了从

ILSVRC- 2012类到ImageNet-Vid和Youtube-BB类的规

范映射，这使我们能够在 ImageNet-Vid-Robust 和

YTBB-Robust上评估现成的ILSVRC-2012模型。我们

在附录中提供了有关源数据集的更多背景信息。

3.1.

数据集构造

接下来，我们描述了如何从ImageNet-Vid和Youtube-

BB 中提取自然扰动帧的集合以创建 ImageNet-Vid-

Robust和YTBB-Robust。一种直接的方法是选择一组

锚帧，并使用视频中的时间相邻帧，前提是这些帧只

包含来自锚的小扰动.然而，如图2所示，这一假设经常

被违反，特别是由于快速相机或对象运动。

在锚帧之前和之后作为候选扰动图像

。这导致两个数

据集，每个数据集包含来自3，139个视频的一个锚

帧，每个锚帧

具有大约20个候选扰动。

接下来，我们在四位专家人工注释员的帮助下管理

数据集。策展步骤的目标是确保每个锚定帧及其附近

的帧被正确地标记有相同的地面实况类，并且锚定帧

和附近的帧在视觉上相似。

Youtube-BB的密集标签。由于Youtube-BB以每秒1

帧的速度每帧仅包含单个类别标签，注释者首先逐个

检查每个锚帧并添加任何缺失的标签。总共，注释者

纠正了834帧的标签，平均每个锚帧添加0.5个标签然

后，这些标签以原生帧速率传播到附近的未标记帧，

并在下一步中进行验证。ImageNet-Vid密集地标记每帧

的所有类，所以我们跳过了这个数据集的这一步。

帧对审查。接下来，对于每对锚帧和附近帧，人类

注释（i）该对是否在数据集中被正确地标记，以及

（ii）该对是否相似。我们采取了几个步骤来减轻这项

任务的主观性，并确保高质量的注释。首先，我们训

练评论者在场景经历以下任何变换时将帧标记为不相

似：显著运动、显著背景变化或显著模糊变化。我们

要求评论者用这些变换中的一个或“其他”来标记每个

不相似的帧，并且如果对象的显著特征仅在两个帧中

的一个中可见（例如狗的脸），则将一对图像标记为

不相似的。如果注释者不确定正确的标签，她可以将

该对标记为“不确定”。其次，我们一次只向评审员呈

现一对帧，因为呈现视频或帧组可能会导致他们由于

变化盲视现象而错过大的变化[22]。

相反，我们首先收集自然的

初步

同样的方法，然后人-

锚定帧

帧对

剩余10页未读，继续阅读

cpongm

粉丝: 6

深度学习模型在视频中的时间泛化能力研究

图像分类算法研究：融合方法与子分类器精度比较

ELMexam: MATLAB实现极限学习分类器进行遥感图像分类

Bagging算法增强异构多分类器在图像识别中的应用

图像分类器：使用PyTorch对花卉种类进行分类的图像分类器

图像分类器

批量大小与卷积神经网络在医学图像分类中的泛化能力

FoodClassifier:食品图像分类器

基于图神经网络的深度学习图像分类器研究

半弱标签数据训练图像分类器的研究进展

图像分类器的CGP实现与本科毕业设计研究

最新资源