基于深度神经嵌入的视频无监督学习

181 浏览量更新于2023-10-23 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9563基于深度神经嵌入的视频无监督学习庄承旭1天薇舍1亚历克斯·安多尼安2马克斯·索博尔马克1丹尼尔·杨欣1斯坦福大学2麻省理工学院{chengxuz，shetw，joelmax，young}@stanford.eduandonian@mit.edu摘要由于视频丰富的动态结构及其在日常生活中的普遍存在，视频数据可以作为视觉表示的强大无监督学习信号是一个很自然的想法。然而，实例化这个想法，特别是在大规模上，仍然是一个重大的人工智能挑战。在这里，我们提出了视频实例嵌入（VIE）框架，它在视频序列输入上训练深度非线性嵌入。通过学习嵌入维度来识别和分组相似的视频，同时在嵌入空间中将固有的不同视频分开，VIE捕获了视频中固有的强大统计结构，而无需外部注释标签。我们发现，当在大规模视频数据集上训练时，VIE对于动作识别和单帧对象分类都产生了强大的表示，在可能进行直接比较的情况下，显示出对最先进技术的实质性改进。我们证明了具有静态和动态处理途径的双途径模型是最佳的，提供了指示模型如何工作的分析，并进行消融研究，显示关键架构和损失函数选择的重要性。我们的研究结果表明，深度神经嵌入是一种很有前途的无监督视频学习方法，适用于各种任务领域。1. 介绍视频的时间序列通常包含关于世界上的动态和事件的信息，这些信息比其无序帧集中的例如，当物体和代理移动并相互作用时，它们产生与它们的视觉和物理身份强烈相关的视觉变化的特征模式，包括物体类别、几何形状、纹理、质量、变形性、运动趋势和许多其他属性。因此，这是一个有吸引力的假设，即无处不在的自然视频可以作为一个强大的信号，学习静态和动态视觉任务的视觉表征。然而，在一个具体的神经网络中实现这一假设是具有挑战性的，该神经网络可以消耗未标记的视频数据来学习有用的特征表示，特别是在大规模现实世界应用的背景下。然而，在无监督视频学习方面取得进展的最大困难可能是，即使对于单个静态图像，无监督学习也提出了巨大的挑战即使对于单个静态图像的情况，由非监督和监督神经网络学习的特征之间的表示能力的差距也非常大，以至于前者不适合用于任何大规模视觉任务。然而，最近在深度视觉嵌入学习方面的进展已经开始产生无监督的表示，这些表示可以与监督对应物学习的表示的视觉任务转移能力相媲美[37，36，40，3]。这些方法利用简单但明显强大的数据分离和聚类算法来迭代地引导特征表示，从而越来越好地捕获微妙的自然图像统计数据。因此，现在可以获得无监督的深度卷积神经网络，这些网络在ImageNet等具有挑战性的识别任务上表现出此外，监督视频分类、动作识别和视频字幕方面的工作已经提出了二维和三维卷积结构的新组合，这些结构越来越适合于视频特征提取[5]。在这项工作中，我们展示了如何使用深度无监督嵌入的想法来学习视频中的特征，并介绍了视频实例嵌入（VIE）框架。在VIE中，视频通过深度神经网络投影到紧凑的潜在空间中，然后调整其参数以最佳地分配嵌入的视频实例，使得相似的视频聚合，而不相似的视频分离。我们发现VIE9564学习强大的表示，用于将学习转移到大规模Kinetics数据集中的动作识别，以及Ima-geNet数据集中的单帧对象分类此外，在直接比较以前的方法是可能的，我们发现，VIE实质上提高了国家的最先进的。我们评估了无监督VIE损失函数的几种可能性，发现那些在单帧无监督学习中最有效的损失函数[40]在视频上下文中也最有效我们还探索了几种神经网络嵌入和帧采样架构，发现不同的时间采样统计量对于不同的传输任务是更好的先验，并且双通道静态-动态架构是最佳的。最后，我们提出了对经验代表的分析，给出了一些关于模型如何工作的直觉代码可在https://github.com/neuroailab/VIE找到。2. 相关工作深度视觉Em-bedding的无监督学习。在这项工作中，我们采用了一个框架，该框架源于最近关于图像嵌入的无监督学习的文献中首次引入的思想[37]。在实例识别（IR）任务中，训练深度非线性图像嵌入以最大化不同图像之间的距离，同时最小化增强（例如，裁剪），从而最大化NW或K识别单独图像实例的能力。在局部聚合（LA）任务[40]中，嵌入损失还允许选定的图像组聚合，基于局部聚类度量动态确定分组。从概念上讲， LA 方法类似于 IR 和最近的DeepCluster方法的混合[3]，并且比单独的IR或DeepCluster更强大，在图像的无监督学习上实现了最先进的结果另一个任务对比多视图编码（CMC）[28]在此嵌入框架内实现了与LA相似的性能，同时聚合给定图像的不同视图。CMC还被直接应用于视频，其中单个帧与其未来帧及其对应的光流图像聚类。VIE框架允许使用这些嵌入目标中的任何一个，我们在这里测试其中的几个。其他最近提出的方法，如[12]和[2]，通过优化图像不同视图的互信息，实现了与LA和CMC相当的结果，尽管它们使用更深更复杂的架构。视频网络的监督培训。神经网络已被用于各种监督视频任务，包括字幕[19]和3D形状提取[23，1]，但这些作品中部署的架构与这里使用的架构完全不同。我们采用的结构更直接地受到监督动作识别工作的启发。本文献中探讨的核心架构选择是如何以及在何处使用2D单帧与3D多帧卷积。一种纯2D方法是时间关系网络（TRN）[39]，它使用MLP读出来处理2D卷积特征的聚合。诸如I3D [4]等方法已经表明，2D和3D的组合可以是有用的，在RGB视频上部署2D处理，在光流分量上部署3D卷积。当前用于动作识别的高性能架构是SlowFast网络[5]，它从多个时间尺度的图像序列中计算混合的2D-3D卷积特征，包括用于低频事件的慢分支和用于高频事件的快分支。我们的双通道架构的动态分支被选择来模仿最成功的SlowFast网络。然而，我们发现在我们的架构中包含一个静态路径是有用的，不等同于SlowFast分支。无监督学习视频关于无监督视频学习的文献太广泛，无法在这里全面回顾，因此我们将重点讨论几种最相关的方法。时间自动编码器，如PredNet[22]，PredRNN [35]和PredRNN++ [34]是有趣的，但尚未在规模上获得实质性的迁移学习性能。迁移学习结果已经从各种方法中生成，包括几何引导CNN [6]，运动掩模[26]，VideoGAN [31]，成对帧连体三元组网络[33]，Shuf- fle和Learn方法[24]和顺序预测网络（OPN）[21]。最近的工作，包括视频旋转预测任务（3DRotNet）[16]，视频运动和外观任务（MoAp） [32]，时空谜题任务（ ST-puzzle）[18]和密集预测编码（DPC）任务[9]，都报告了在大规模数据集上进行预训练并使用时空网络架构的帮助下提高了性能。所有这些作品都只对单个视频中定义的关系进行操作，将它们与VIE区分开来，VIE通过定义在视频嵌入分布3. 方法VIE嵌入框架。从视频中进行无监督学习的一般问题可以表述为从输入视频V = { v i}中学习参数化函数φθ（·）|i=1，2，…N}，其中eaChvicon-95652图1：视频实例嵌入（VIE）框架的示意图。a. 来自各个视频的帧（v1，v2，v3）是b。采样为不同长度和时间密度的序列，并输入到c. 深度神经网络路径可以是静态的（单图像）或动态的（多图像）。D. 来自任一路径的帧样本的输出是D维单位球面SDRD+1中的向量。在每个视频的在线样本上计算嵌入向量的运行平均值，存储在存储体中，以及f. 在每个时间步，通过视频嵌入空间中的无监督损失函数进行比较。损失函数需要计算嵌入向量的分布特性。例如，局部聚集（LA）损失函数涉及近邻Ci（浅棕色）的标识点）和背景相邻点Bi（深棕色点），用于确定如何相对于其他点（红色/蓝色）移动目标点（绿色）。帧序列{fi，1，fi，2，...，fi，mi}。我们的总体方法寻求将视频{vi}作为特征向量E={ei}嵌入D维单位球面SD={x∈RD+1，||X||2=1}。这种嵌入通过具有权重参数θ的神经网络φθ：vi<$→SD来实现，其接收帧序列f={f1，f2，.，fL}，输出e=φθ（f）∈SD.尽管一个视频中的帧数可能是任意的，并且可能很大，但对于大多数深度神经网络来说，L通常必须是固定的。因此，在任何单个推理通道上的输入f被限制为根据帧采样策略ρ选择的v中的帧的子集，即，随机变量函数，使得对于从ρ（v）提取的所有样本v ′，v ′均为v。给定ρ，我们然后将视频v的相关联的视频实例嵌入（VIE）e定义为e在ρ下的赋范（向量值）期望，即e=Eρ [φθ（f）]D在下面的小节中，我们将描述这些主要组件（架构φθ、采样策略ρ和损失函数L）的自然选项。如第4节所示，这样的选择不仅会影响学习表示的质量，而且会改变静态和动态信息提取之间的频谱表示体系结构φ和采样策略ρ。近年来在有监督动作识别中的探索为φ θ提供了多种选择. 虽然非常复杂的网络选项是可能的[4]，但由于这项工作是对视频处理架构和无监督损失函数之间相互作用的初步探索，因此我们选择集中在五个简单但不同的模型系列上。它们的区别主要在于它们的帧采样假设如何表示关于输入的不同类型的时间信息1. 单帧2D-CNN 虽然深2D CON-||E ρ [φθ（f）]||2∈ S.（一）以一帧作为输入的卷积神经网络（CNN）忽略视频中的时间信息除了选择φθ和ρ之外，我们还必须选择损失函数L：E<$→R，这样相对于θ优化L将导致统计上相关的视频被分组在一起，而不相关的视频被分离。请注意，理论上该函数依赖于所有嵌入向量，尽管实际上它只被计算随机选择的批次上的任何一个时间，通过内存库捕获整个磁盘的影响它们仍然可以利用上下文信息，并且在动作识别数据集上实现了不平凡的性能[4]。它们也是衡量包含时间信息的效果的有用基线2. 3D-CNN具有密集等采样。具有时空滤波器的3D-CNN可以应用于密集的均匀采样帧，以捕获细粒度的时间信息。该架构已被证明在a. 视频输入Ve. 存储体1V2V3静态路径例如2D-CNND. 帧样本嵌入f. 视频嵌入C. 深度神经网络动态路径例如2D-3D-CNN存储体B. 采样. - 是. - 是9566EθJ2[29]的R3D网络和[10]的3DResNets。3. 具有稀疏不等采样的共享2D-CNN。时间关系网络将视频分成半秒的片段，选择L个连续的bin，并从每个bin中随机采样一帧。然后将共享的2D-CNN应用于每个帧，并将其输出按顺序合并并馈送到创建嵌入的MLP中。与密集采样方法不同，该方法可以通过稀疏采样捕获长范围的时间信息，但由于帧之间的间隔是不均匀的，时间信号可能是噪声。4. 具有稀疏相等采样的2D-3D-CNN为了解决第三类中的噪声时间信息问题，SlowFast [5]架构的Slow分支从输入视频中均匀但稀疏地采样帧。然后，这些帧通过具有空间池化的2D-CNN，一旦空间冗余减少，就在下游应用3D卷积。5. 多通道架构。组合架构允许利用自然视频中存在的多个时间尺度，包括SlowFast方法[5]（结合2和4），以及具有静态和动态路径的真正双路径网络（com）。在P（i|e，E）是通过从所有N项中随机选择Q的子集来估计的（更多细节见[37]）。直观地说，优化这种损失将对从同一视频采样的帧组的嵌入进行分组，然后隐式地收集其他类似的视频。LA算法。本地聚合通过允许更灵活的动态检测哪些数据点应该分组在一起来增强IR。定义特征e被识别为存在于视频集合A中的概率为P（A|e，E）= i∈AP（i|e，E）。对于视频vi及其嵌入ei，LA算法识别两个邻居集合，即近邻Ci和背景邻居Bi。Ci通过动态在线k-均值聚类计算，并识别预期与v i“特别相似”的数据点; B i通过k -最近邻方法计算，并设置距离的尺度在这方面的密切判断是衡量。给定这两个邻居集，局部聚合损失函数测量被识别为近邻的点的负对数似然，假定该点已经是背景邻居：LAP（Ci Bi|vi，E）2L（x，）= − log+λ（四）合并1、2和4）。我在我们的实验（§4）中，我们实现了这些模型P（Bi|vi，E）2使用CNN主干，虽然由于输入结构而容纳不可避免的小差异，但在其他方面尽可能相似，以便可以公平地比较学习的表示的质量损失函数L 最近在使用单个图像的无监督学习中的工作已经发现了用于测量深度视觉嵌入质量的有用的通用度量[37，40]，包括实例识别（IR）和局部聚合（LA）损失函数。这些方法试图在嵌入空间中将相似的输入分组在一起，同时分离不同的输入。它们基于一个简单的概率观点来解释紧嵌入空间[37，40]。具体地，任意特征e被识别为vi的样本的概率被定义为：exp（eTe/τ）直觉上，LA损失函数鼓励出现-在多个尺度上数据点的软集群的趋势。有关LA手术的更多详细信息，请参见[40]。内存库。 IR和LA损失函数都隐含地要求访问所有嵌入向量E以计算它们的向量。然而，对于大数据集，重新计算E是棘手的。如[37，36，40]所述，通过用记忆近似E来银行维持着大量的电子银行。4. 实验和结果实验设置。为了训练我们的模型，我们使用Kinetics-400数据集[17]，其中包含大约240 K的训练和20 K的验证视频，每个视频长度约为10秒，并标记在400个动作类别中的一个。下载后，我们标准-P（i|e，E）=Nj=1我exp（eTe/τ）（二）将视频调整为25fps的帧率，并重新整形所有帧，使最短边为320px。采样后，交流-其中，温度τ∈（0，1]是一个固定尺度的hyperpa，参数{ei}和e都投影到单位球面SD上。考虑到这个定义，我们可以定义IR和LA损失函数，通过等式2适应于视频上下文。1.一、IR算法 IR损失的VIE-version为：根据每种模型结构的帧采样策略，我们应用了[5]中的空间随机裁剪和随机采样方法在[40]之后，我们还应用了颜色噪声和随机水平翻转，对一个视频中的所有帧使用相同的空间窗口和颜色噪声参数在测试时，我们采样LIR（vi，E）= − log P（i|e，E）+ λ <$θ<$2（三）五个等间距的帧序列，调整它们的大小，使它们的最短边为256px，并采取中心其中λ是正则化超参数，并且其中为了计算效率，224× 224作物。然后对五个样本的Softmax logit进行平均，以生成最终的输出预测。9567我们使用ResNet-18 v2 [11]作为我们所有模型家族的卷积骨干，以实现模型性能和计算效率之间的平衡。用于不同模型系列的实现被标记为VIE-Single（“系列1”）、VIE-3DResNet 1（“系列2”）、VIE-TRN（“系列3”）、VIE-S1 ow（“系列4”）和VIE-S1 o w Fast（“系列5”）。通过级联单帧和多帧网络输出来创建双路径模型，从而产生 VIE-TwoPathway-S （组合 VIE-Single 和 VIE-Slow ）和VIE-TwoPathway- SF （组合 VIE-Single 和 VIE-Slowfast）。我们遵循[40]的一般网络训练超参数，包括初始学习率，优化器设置，学习率衰减时间表，批量大小和权重衰减系数。有关模型架构和培训的更多详细信息，请参阅补充材料。转移到动力学上的动作识别在Kinetics的未标记视频上训练所有模型之后，我们通过评估Kinetics动作识别任务的迁移学习性能来评估学习的表示。为了将我们的方法与以前的工作进行比较，我们重新实现了三个强大的无监督学习算法：[21]，3DRot- Net [16]，和RotNet [7]。由于OPN 和 RotNet 需要单帧模型，因此我们使用ResNet18作为其视觉骨干。对于3DRotNet，我们使用 3DResNet 18 ，其输入分辨率与 VIE-3DResNet相同。补充材料中有重新实施的详细信息。迁移学习通过固定学习权重的标准迁移过程进行评估，然后从固定模型的不同层训练linear-softmax读数我们按照[40]中的选择实施了此程序由于一些模型生成具有时间维度的输出，因此与单帧模型相比，为了确保公平的比较，因此，我们平均沿读出之前的时间维度的这些模型的功能。结果示于表1中。所有VIE变体的性能都明显优于OPN、RotNet和3DRotNet。多框架模型的性能大大优于单框架版本，这种改进不能仅仅通过附加框架的存在来解释（参见补充材料表S1）。双通道模型实现了最高的精度，最大精度约为48.5%。跨VIE变体的无监督性能的排名顺序与有监督的同行一致，表明无监督训练1为了与以前的工作相比较，我们的3DResNet使用了较低的输入分辨率，112×112。参见补充材料。过程在可用时利用增加的架构功率。基于LA的VIE-Single模型的性能优于基于IR的模型，这与静态对象识别的差距一致[40]。最后，尽管以前关于无监督视频学习的工作已经开始利用大规模数据集，如Kinetics [9，16，18]，但从未报道过训练模型到Kinetics动作识别的迁移学习性能。因此，我们希望这些结果是有用的理解的效果architec- ture的表示质量和提供一个强大的无人监督的基准为未来的工作。对UCF101和 HMDB51 采取行动。为了将VIE与以前的方法进行比较，我们评估了更常用的UCF 101 [27]和HMDB 51 [20]动作识别基准的结果。我们通过Kinetics上的预训练权重初始化网络，然后在这些数据集上微调它们，遵循最近工作中使用的程序[16，32，18]。我们注意到，在微调过程中使用的数据增强管道的细节可能会影响最终结果。最重要的是，我们发现具有颜色噪声增强可以提高精细化性能。然而，在以前的作品中，增强技术没有得到仔细的控制例如，ST-puzzle [18]， 3DRotNet [16]和MoAp [32]仅使用通常的随机裁剪和水平翻转增强，而DPC [9]也使用颜色噪声。为了确保我们与这些算法的比较是公平的，因此我们使用两个增强管道来测试我们的模型。详情可参阅补充资料。表2和表3表明VIE方法明显优于其他方法.进行这些比较需要一些注意，因为以前的工作中报告的结果经常被多个因素的变化混淆，很难确定改进是否真的是由于更好的算法，而不是更大的训练数据集，更强大的网络架构或输入数据类型的差异。首先，在保持网络架构和训练数据集固定的情况下，VIE-3DResNet在UCF 101和HMDB 51上分别超过了之前最先进的ST-Puzzle算法6.5%和11.1%，接近监督上限。在更好的增强管道下，UCF 101 的性能提高了 9.7% 。3DRotNet 在Kinetics-600 上训练，它包含的训练数据是 ST-Puzzle和VIE模型的两倍多，类别比ST-Puzzle和VIE模型多50%，并且使用更大的输入进行训练（64帧RGB vs VIE的16帧输入）。尽管如此，与同类投入型相比， VIE 仍显示出超过 6.2% 的改善。3DRotNet还报告了一个更大的融合模型的结果，该模型使用64帧RGB和帧RGB进行训练。9568数据集动力学ImageNet度量Super.Conv3Conv4Conv5Conv3Conv4Conv5随机-单次–9.408.436.847.987.786.23[21]第二十一话–16.8420.8220.8613.0117.6318.29[7]第七话–26.2530.2723.3325.7727.5916.133DRotNet-3DResNet*[16]–28.3029.3319.3323.3422.0512.45VIE-Single（IR）57.5923.5038.7243.8522.8540.4940.43VIE-Single57.5923.8438.2544.4125.0240.4942.33VIE-TRN59.4325.7239.3844.9127.2440.2837.44VIE-3DResNet53.2233.0141.3443.4030.1835.3732.62VIE慢60.8424.8040.4846.3620.1037.0237.45VIE-慢快62.3628.6842.0747.3722.6136.8436.60VIE-TwoPathway-S–26.3841.8047.1323.9840.5244.02VIE-TwoPathway-SF–29.8943.5048.5323.2340.7343.69受监督-单身22.3237.8238.26监督-TRN22.8241.1339.15监管-3DResNet–28.0934.4030.56监督-缓慢21.8640.7732.87监督-慢快20.2537.4130.75表1：Kinetics和ImageNet验证集上的前1名迁移学习准确率（%）。“随机”是指没有任何训练的随机初始化的ResNet-18。“Supervised-*”表示接受过动作识别的Kinetics训练。由于使用了不同的视觉骨干，我们的监督性能与[5]不直接可比。* ：这些数字是由我们生成的。不同的输入。尽管如此，VIE-Slowfast的性能仍然大大优于此模型，使用更少的可训练参数（21 Mvs 32 M ）和更少的训练数据（ Kinetics-400 vsKinetics-600）。与表3中的最新DPC算法[9]相比，VIE显示出超过7.3%的改进，即使DPC使用更多的帧（40 vs. 16)作为输入，并在动作读出层及其3DResNet之间添加了一个自适应递归单元。同样，VIE很好地利用了更复杂的体系结构，这可以在 SlowFast 中看到。对比 ResNet18 。此外，TwoPathway-SF实现了比SlowFast更好的性能。转换为静态对象分类。为了确定VIE程序学习一般视觉表示的程度，我们还评估了学习的表示，以便在ImageNet中转移到图像分类。对于需要多帧输入的模型，我们通过在多个帧上平铺静止图像来生成“静态视频”。结果示于表1中。由于他们的动作识别转移，双通道模型是最高的执行这项任务，以及。然而，有趣的是，与动作识别的情况不同，多帧动态模型在ImageNet传输任务中比单帧模型差得多，并且表现出性能下降在最高的卷积层。事实上，在Kinetics上训练的单帧无监督模型的传输性能实际上优于在Kinetics上监督的任何模型。综合来看，这些都是-网络算法UCFHMDBAlexNet†CMC [28]59.126.7OPN [21]56.322.1C3dMOAP [32]61.233.4[18]第十八话60.628.3划痕47.421.5ST谜题65.833.73DResNet3DRotNet [16]3DRotNet（64 f）[16]62.966.033.737.1VIE（我们的）72.344.8监督84.458.7划痕55.821.4慢快VIE（我们的）77.046.5监督88.468.4划痕46.717.3ResNet18VIE（我们的）71.238.4监督81.049.9VIE-TwoPathway-SF78.250.5表2：使用在动力学上预训练的模型对UCF 101和HMDB 51数据集进行前1微调的结果，而没有颜色噪声增强。我们还提供从头开始的培训（“Scratch”）和从监督培训的动力学对于3DRotNet，我们将其与使用RGB输入训练的模型进行比较，其中64f表示64帧。†：AlexNet结果都是在UCF 101上预训练的结果强烈地激发了双途径结构，9569网络算法UCFHMDB划痕60.027.03DResNetDPC [9]VIE（我们的）68.275.534.544.6监督84.860.2划痕70.037.0慢快VIE（我们的）78.950.1监督89.770.4划痕57.323.9ResNet18VIE（我们的）73.141.2监督83.552.9VIE-TwoPathway-SF80.452.5表3：使用在具有颜色噪声增强的Kinetics上预训练的模型对UCF 101和HMDB 51数据集进行前1微调的结果。有助于动作识别的高性能的特征-例如动态模式处理- 对于静态图像性能不是最佳的。然而，静态和双通道模型的相对较高的性能表明，VIE可以实现有用的泛化，即使训练和测试数据集与Kinetics和ImageNet一样广泛不同。5. 分析ImageNet的增长是一致的，并且基本上没有明显的饱和，这表明如果在ImageNet规模的视频数据集上训练，VIE的表示泛化能力将大大受益。视频检索我们进行了一个视频检索实验，使用嵌入空间中的距离。代表性实例如图2所示。虽然也观察到一些失败案例，但通常检索到的视频质量相似。此外，VIE- Slowfast似乎提取与上下文无关的动态信息，而VIE-Single更偏向于每帧上下文，进一步验证了多帧模型开发专注于动态特征的表示，而单帧模型更好地提取静态信息的想法。例如，在“清洁鞋”查询中，两个最近的VIE-Slowfast邻居与查询视频共享共同的动态（手部运动），而手部和鞋的同时，VIE-Single只捕获对象语义（手的存在），缺乏关于手将进行的运动的信息。回收失败同样会导致以下结果：在包扎和烘烤饼干的例子中，VIE-Slowfast捕获静态路径无法访问的高级运动模式。6. 结论受益于长期时间结构。VIE的一个关键思想是将整个视频嵌入到潜在空间中，这旨在利用视频中包含的上下文信息。这甚至可以用于具有包含广泛发散内容的多个场景的视频（常见于Kinetics），因为高维嵌入可能会学习在潜在空间中隐藏作为这种方法有效性的初步测试，我们通过将每个视频划分为等长的bin来生成新的训练数据集表4显示，全视频模型优于2-bin和5-bin模型，特别是在ImageNet迁移学习性能上，支持嵌入整个视频的选择，并且还表明使用更长，更复杂的上下文视频可以获得更好的性能从更多数据中获益。尽管VIE在动作识别上实现了最先进的无监督传输性能，并且创建了比动作识别监督更有用的静态对象分类表示，但其学习的表示在ImageNet分类上（毫不奇怪）比直接在（更大的）ImageNet训练集上训练的对应表示更差[40]。为了测试VIE是否会从更多视频中受益，我们使用子采样的Kinetics重新训练VIE-Single（见表4）。性能我们已经描述了VIE方法，这是一种将多流视频处理架构与无监督深度嵌入学习相结合的方法，并展示了初步证据，表明深度嵌入对于大规模无监督视频学习是有希望的。在这项工作中，我们的目标并不是要说明一个特定的新损失函数和架构的主导地位，而是要提供一个清晰的事实，即以前非常具有挑战性的目标-在大规模视频任务上的无监督学习-已经变得比以前更有效，由于最近的架构和损失函数的想法相结合。结合静态图像分类的最新结果[40，37，28，3]，我们的结果表明，深度嵌入方法是一个越来越可行的框架，用于许多视觉任务的一般我们还发现，不同类型的视觉任务的性能以一种可以理解的方式取决于架构如何完成帧采样，并且具有静态和动态路径的双路径模型相对优于单独的模型。有趣的是，这一结果与神经科学的观察结果一致，其中已经表明腹侧流[38]和背侧流[8]大脑通路都有助于视觉表现，前者对静态物体更敏感，而后者对静态物体更敏感。9570数据集动力学ImageNet层Conv3Conv4Conv5Conv3Conv4Conv5VIE-Single23.8438.2544.4125.0240.4942.3370%-VIE-Single26.1838.8743.5923.0539.6339.8530%-VIE-Single25.5437.4940.7223.3338.4936.232bin-VIE-单24.5439.1644.2425.5541.4339.365 bin-VIE-单25.1738.7343.3323.9040.4637.83表4：从使用不同数量的视频或将视频切成不同数量的bin训练的VIE-Single模型中，迁移学习到Kinetics和ImageNet的前1名准确率（%）。查询GT：跳远GT：烤饼干GT：美鞋GT：包扎VIE-慢快Pred：Longjump预测值：做披萨预测值：美鞋预测值：前举VIE-SinglePred：Longjump预测值：烤饼干预测值：脱毛腿预测值：侧踢图2：来自动力学验证集的VIE-Single和VIE-Slowfast模型的视频检索结果。GT=地面实况标签，Pred=模型预测。对于每个查询视频，示出了三个最近的训练邻居。红色字体表示错误。后者对动态刺激更敏感。然而，目前的方法有一些关键的局限性，需要在今后的工作中加以克服。我们在这项工作中选择局部聚合进行评估，不应该被认为是声明它是实现有用的无监督深度神经嵌入的唯一方法。特别是，探索使用其他最近的无监督学习损失，如CMC [28]和DIM [14]，也将引起极大的兴趣。我们预计，这些方法中的许多方法将与一般的VIE框架兼容，并可能对LA起到有益的补充作用。改进架构的另一个自然方向是研究递归神经网络基序[15，25]和注意力机制[30]的使用。这些或一些其他类型的改进架构可能会更好地利用丰富的中程时间结构（例如，长度为1 s-1m）的自然视频序列。此外，我们目前的结果可能受到Kinetics数据集的限制的影响，特别是对于强调动态处理的重要性，因为即使在监督的情况下，单帧性能也相对较高。在额外的数据集上寻找和评估VIE将是至关重要的-也许最重要的是，对于涉及大型和未经管理的视频数据的应用程序在视频任务领域而非分类中测试VIE也至关重要，包括对象跟踪、动态3D形状重建等。致谢。这项工作得到了McDonnell基金会的支持（ Grant No. 220020469 ）、西蒙斯基金会（543061）、斯隆基金会（FG- 2018-10963）、美国国家科学基金会（1703161和1844724）和美国国立卫生研究院（R 01 MH 069456），以及NVIDIA公司的硬件捐赠。9571引用[1] AmirAkbarzadeh，J-MFrahm，PhilipposMordohai ， Brian Clipp ， Chris Engels ， DavidGallup ， Paul Merrell ， M Phelps ， S Sinha ， BTalton，et al.基于视频的城市三维重建。在第三届三维数据处理、可视化和传输国际研讨会（3DPVTIEEE，2006年。[2] 菲利普·巴赫曼，R·德文·耶尔姆，威廉·布赫沃尔特.通过最大化跨视图的互信息来学习表示。arXiv 预印本arXiv：1906.00910，2019。[3] Mathilde Caron，Piotr Bojanowski，Armand Joulin，and Matthijs Douze.用于视觉特征的无监督学习的深度聚类在欧洲计算机视觉会议（ECCV）的会议记录中，第132-149页[4] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议论文集，第6299-6308页，2017年。[5] Christoph Feichtenhofer ， Haoqi Fan ， JitendraMalik，and Kaiming He.用于视频识别的慢速网络。arXiv预印本arXiv：1812.03982，2018。[6] Chuang Gan，Boqing Gong，Kun Liu，Hao Su，andLeonidas J Guibas.用于自监督视频表示学习的几何引导卷积神经网络在IEEE计算机视觉和模式识别会议论文集，第5589- 5597[7] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习arXiv预印本arXiv：1803.07728，2018。[8] 梅尔文·古德尔和大卫·米尔纳感知和行动的视觉路径分开。Trends in Neurosciences，15（1）：20[9] Tengda Han，Weidi Xie，and Andrew Zisserman.通过密集预测编码的视频表示学习。在IEEE计算机视觉研讨会国际会议论文集，第0-0页[10] 原贤章片冈广胜佐藤丰时空3D CNN可以追溯2D CNN和ImageNet的历史吗？IEEE计算机协会计算机视觉和模式识别会议论文集，第6546-6555页[11] Kaiming He ， Xiangyu Zhang ， Shaoying Ren ， andJian Sun.深度剩余网络中的身份映射。在欧洲计算机视觉会议上，第630-645页。施普林格，2016年。[12] Olivier J Hénaff ， Ali Razavi ， Carl Doersch ， SMEslami，and Aaron van den Oord.具有对比预测编码的数据高效图像识别。 arXiv 预印本 arXiv ：1905.09272，2019。[13] Geoffrey Hinton，Li Deng，Dong Yu，George Dahl，Abdel-rahman Mohamed ， Navdeep Jaitly ， AndrewSe- nior ， Vincent Vanhoucke ， Patrick Nguyen ，Brian Kings- bury，et al.用于声学建模的深度神经网络在语音识别中。 IEEE信号处理杂志，29，2012。[14] R Devon Hjelm 、 Alex Fedorov 、 Samuel Lavoie-Marchildon 、 Karan Grewal 、 Phil Bachman 、 AdamTrischler和Yoshua Bengio。通过互信息估计和最大化来学习深度表示arXiv预印本arXiv：1808.06670，2018。[15] Sepp Hochreiter和Jürgen Schmidhuber长短期记忆。神经计算，9（8）：1735-1780，1997。[16] Longlong Jing ， Xiaodong Yang ， Jingen Liu ， andYingli Tian. 通过视频旋转预测的自监督时空特征2018年。[17] WillKay ， Joao Carreira ， Karen Simonyan ， BrianZhang，ChloeHillier，SudheendraVijayanarasimhan，Fabio Viola，Tim Green，TrevorBack，Paul Natsev，et al.人体动作视频数据集。arXiv预印本arXiv：1705.06950，2017。[18] Dahun Kim，Donghyeon Cho，and In So Kweon.基于时空立方体谜题的自监督视频表示学习。2018年。[19] Ranjay Krishna、Kenji Hata、Frederic Ren、Li Fei-Fei和Juan Carlos Niebles。视频中的密集字幕事件。在IEEE计算机视觉国际会议论文集，第706-715页[20] H. Kuehne，H. Jhuang、E. Garrote，T. poggio和T. Serre. HMDB：一个用于人体运动识别的大型视频数据库。在2011年国际计算机视觉会议（ICCV）的会议记录中。[21] Hsin-Ying Lee，Jia-Bin Huang，Maneesh Singh，andMing-Hsuan Yang.通过排序序列进行无监督表示学习。在IEEE计算机视觉，

下载后可阅读完整内容，剩余1页未读，立即下载