2
相关工作
传统的视频学习方法使用手工制作的特征(从几帧开始)
- 诸如密集轨迹、HOG、HOF等
。[52]-捕获外观和视频动态,并使用词袋表
示或更优雅地使用Fisher向量[38]对其进行总结。随着深度学习方法的
成功,将视频数据作为RGB帧、光流子序列、RGB差异或3D骨架数据
直接馈送到CNN是首选。一种成功的这种方法是双流模型(及其变
体)[42,18,17,27],其使用(几帧的)视频片段来训练深度模
型,来自片段的预测经由平均池化融合以生成视频级预测。这种方法
也有一些扩展,可以以端到端的方式直接学习模型[17]。虽然,这样
的模型是吸引人的捕捉视频动态,它需要存储器来存储整个序列的中
间特征图,这可能是不切实际的长序列。已经探索了循环模型[2,
13,14,31,46,57]来解决这个问题,它可以学习在通过它们流式传
输视频时过滤有用的信息,但它们通常很难训练[37];可能是由于需要
随着时间的推移反向传播。使用3D卷积核[8,50]是另一个被证明有
前途的想法,但带来了更多的参数。 上述架构通常被训练用于提高分
类准确度,然而,不考虑其内部表示的鲁棒性-考虑到这一点可以提高
其对看不见的测试数据的可推广性。为此,我们探索模型中的脆弱因素
(通过生成对抗性扰动[35]),并以网络不可知的方式学习对这些因
素有弹性的表示。我们的主要灵感来自于Moosavi等人最近的工作。
[35]这表明存在准不可感知的图像扰动,可以欺骗训练有素的CNN模
型。他们提供了一个系统的程序来学习这种扰动的图像不可知论的方
式。在Xie et al.[56]中,这种扰动被用于提高物体检测系统的鲁棒性在
[34,36,58]中已经探索了类似的想法在Sun et al.[48]中,使用潜在模
型来显式地定位有区别的视频片段。在Chang et al.[9]中,引入了语义
池化方案,用于定位未修剪视频中的事件。虽然这些计划与我们的动
机相似,但问题设置和公式
完全不同
在我们的贡献的表示学习方面,有一些先前的池化方案在某种意
义上是相似的,它们也使用优化泛函的参数作为表示。最相关的工作
是rank-pooling及其变体[22,21,20,47,4,11,53],其使用rank-
SVM来捕获视频时间演变。与我们类似,Cherian et al.[10]提出使用子
空间来表示视频序列。然而,这些方法中没有一个确保时间排序约束
是否捕获有用的视频内容或捕获一些时间变化的噪声。为了克服这个
问题,Wang等人[54]提出了一种使用支持向量机分类器的决策边界的
表示在本文中,我们在数据相关的设置中重新考虑这个问题