深度学习模型在视频中的时间泛化能力研究

0 下载量 162 浏览量 更新于2025-01-16 收藏 1.24MB PDF 举报
"该研究关注图像分类器在视频中的跨时间泛化能力,以及时间扰动对模型性能的影响。研究人员创建了两个新数据集ImageNet-Vid-Robust和YTBB-Robust,用于评估模型在面对感知相似的连续视频帧时的分类准确度。这些数据集经过人类专家的彻底重新注释,确保图像之间的相似性。实验结果显示,预训练的图像分类器在新数据集上的中位分类准确度下降了16至10个百分点。此外,检测模型在面对自然扰动时,中位检测mAP降低14个点,揭示了视频中自然发生的扰动对模型的实质性挑战。此研究强调了在需要稳定、低延迟预测的实时应用中,如自动驾驶,部署CNNs存在的问题。" 图像分类器在视频中的跨时间泛化能力是一个重要的研究领域,因为现有的模型往往在处理连续帧时出现“闪烁”现象,即在同一物体的不同但感知相似的帧上表现不稳定。这种不稳定性可能导致在线应用,如自动驾驶,出现严重的错误。研究者通过构建两个新的数据集,ImageNet-Vid-Robust和YTBB-Robust,包含大量感知相似的图像序列,旨在模拟视频中自然发生的时间变化。 这两个数据集的建立是为了深入理解模型在面对时间扰动时的行为。它们来源于ImageNet-Vid和Youtube-BB,并且经过人类专家的精细标注,以确保图像间的视觉相似性。在这些数据集上,研究人员评估了预训练的多种图像分类器,发现它们在处理时间变化时的分类准确度显著下降,表明模型对自然的、时间相关的输入变化缺乏鲁棒性。 此外,研究还涉及到了检测模型,结果表明这些模型在自然扰动下不仅分类性能下降,定位准确性也受到影响,检测mAP中位数下降14个点。这一发现揭示了视频中自然发生的扰动对模型的稳健性和可靠性构成的实际挑战。 传统上,模型的鲁棒性研究主要集中在对抗性攻击或人工设计的输入变换上,而这些方法可能无法完全模拟视频中的实际扰动。这项工作强调了评估模型对自然、动态环境的适应性的重要性,特别是在那些要求连续、准确预测的实时应用中。因此,提高模型的跨时间泛化能力和对自然时间变化的鲁棒性是未来研究的重要方向,以确保其在实际应用中的安全性和有效性。