无监督视频表示学习的进化损失

149 浏览量更新于2023-10-24 收藏 15.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

==......11330无监督视频表示学习的进化损失0AJ Piergiovanni，Anelia Angelova，Michael S.Ryoo Google研究{ajpiergi,anelia,mryoo}@google.com0摘要0我们提出了一种从大规模未标记的视频数据中学习视频表示的新方法。理想情况下，这种表示将是通用且可转移的，可以直接用于诸如动作识别和零样本或少样本学习等新任务。我们将无监督表示学习形式化为多模态、多任务学习问题，其中通过蒸馏在不同模态之间共享表示。此外，我们通过使用进化搜索算法来自动找到捕捉许多（自监督）任务和模态的损失函数的最佳组合，引入了损失函数演化的概念。第三，我们提出了一种无监督表示评估度量，使用分布匹配到大规模未标记数据集作为先验约束，基于Zipf定律。这种无监督约束不受任何标注的指导，产生了与弱监督、任务特定的结果相似的结果。所提出的无监督表示学习结果为单个RGB网络，并且优于先前的方法。值得注意的是，除了大型、完全标记的视频数据集之外，它还比几种基于标签的方法（例如ImageNet）更有效。01. 引言0视频表示学习是一个重要的问题，有助于高级感知任务，包括动作识别和视频目标检测[40, 6,41]。它有许多关键应用，例如网络视频检索、机器人感知以及智能家居和城市。然而，学习视觉表示通常需要大量标记的训练样本。对于视频来说，情况更加如此，因为视频是比图像更高维的输入，视频CNN的可学习参数比2D的更多。同时，与图像相比，视频的收集和注释成本更高，因为它们需要额外的、通常是模糊的时间注释[34]。此外，在罕见事件检测中，可能只有很少的示例可用。因此，获得一个良好的视频表示而不依赖于特定领域的标注视频样本是很重要的。0从未标记的数据中的表示空间0未来预测0重建0帧顺序检测0多个自监督任务0有序0乱序0动作/事件聚类0视频CNN0图1：我们无监督表示学习框架的概述。目标是从一组自监督任务中获得一个良好的表示（蓝色轮廓框）。我们使用进化算法自动找到任务的最佳组合，并使用幂律分布匹配来“监督”聚类并指导进化。不需要标注或监督。0在大规模视频数据整理和标注不可行的实际场景中，自动学习视频表示具有重要影响。在本文中，我们提出了一种新的、有原则的方法，用于从未标记的视频数据中无监督学习视频表示。该方法基于以下观察结果：通过优化多个自监督任务的组合，并通过多模态蒸馏进一步鼓励，往往足以学习到良好的特征表示。重要的是，我们证明了这种组合可以在没有按类别或按视频进行标注的情况下找到，而是通过将表示统计与视频类别的一般功率分布（例如Zipf定律）进行匹配来实现。我们的方法是训练网络，使其中间表示不仅反映直接从其自身输入模态（例如RGB图像）获得的信息，还反映不同模态（例如01 在本工作中，我们将无监督和自监督互换使用。...xRxFxAλLλLλLλLλLλLλM,1LM,1λM,2LM,2λM,NLM,N...1340任务1 任务2 任务N ... 任务1 任务2 任务N ... 任务1 任务2 任务N0光流 RGB 音频0蒸馏损失0E音频0λ d0图2：多任务、多模态、无监督表示学习框架。每种模态都被训练以优化一组任务。蒸馏正则化损失项“注入”每种模态的信息到主要的RGB网络（中间绘制）。我们通过无监督目标演化损失函数，自动找到每个任务和蒸馏位置的权重。目标是从单个RGB网络获得能够转移到识别任务的表示。0灰度、光流和音频）。这个想法是，同步的多模态数据源应该有助于彼此的表示学习，因为它们对应相同的内容。这是通过在多个网络流之间引入“蒸馏”[16]损失来实现的。蒸馏损失以及自监督任务不依赖于人工注释或监督。因此，我们的方法被制定为多模态、多任务的无监督学习，其中任务包括单模态任务（如帧排序）和多模态任务（如视频音频对齐）。然而，将多个不同的自监督任务损失和蒸馏损失组合起来进行无标签表示学习是一个具有挑战性的问题，因为某些任务和模态对最终任务的相关性更高，而不同的损失函数具有不同的尺度。因此，我们新引入了使用进化算法来获得更好的多模态、多任务损失函数的概念，该函数适当地组合了所有损失来训练网络。AutoML已成功应用于架构搜索[25]和数据增强[8]。在这里，我们将这个概念扩展到无监督学习，通过自动找到用于视频表示学习的自监督任务的加权。这种演化的“适应度”可以通过任务特定的标签（例如准确性）来自然地衡量。然而，我们提出了一种纯粹的无监督替代方案，它基于数据集之间的幂律分布匹配，使用KL散度约束。这些约束不需要任何标记数据，实现了完全无监督和无标签的学习。0我们的目标是找到基于单个RGB网络的视频特征表示，可以在不需要额外注释的情况下无缝地改进监督或无监督任务。主要贡献如下：0•将无监督学习制定为多模态、多任务学习，包括蒸馏任务，将特征跨模态传输到单流网络中。一旦学习到，它可以更快地计算表示，同时捕捉多模态特征。•通过进化搜索来自动组合对无监督表示学习有益的自监督和蒸馏任务的损失函数。•引入了一种基于幂律分布匹配的无监督表示评估指标，不需要标签，并且与基于标签的指标表现相似。0这项工作的令人惊讶的发现是，大量的未标记数据，结合自监督任务和幂律分布匹配，产生了非常强大的特征表示，仅被具有非常广泛的数据标注的大型数据集所超越：我们的特征表示（通过零标签获得）优于ImageNet预训练，并且优于小型和中型标记视频数据集的预训练；只有基于对200,000多个视频进行人工标注的Kinetics预训练的全注释才能超越它。此外，所提出的表示在与Kinetics标签微调时优于Kinetics训练。我们将该模型称为“ELo”，因为它基于进化的无监督损失。L =�m�tλm,tLm,t +�dλdLd(1)13502. 相关工作0无监督视频表示学习：获取标记的视频数据成本高昂，而未标记的视频数据丰富，已经有许多方法用于自监督学习视频表示。一些任务利用视频中的时间结构，例如预测帧是否按顺序出现、反向顺序、乱序、帧之间的颜色一致性等[12,26, 30, 24, 31, 47, 19, 21, 45, 46,42]。其他工作则探索利用图像中的空间结构，例如预测图像块的相对空间位置[28]或随时间跟踪图像块[44]，取得了有希望的结果。还有一些成功的方法是通过重建或预测未来帧[37]，或者通过时间对比学习[18,33]来获得表示。对比损失也很常见[39]。利用音频和视频特征进行学习的方法已经通过预测音频剪辑是否来自视频[2]或音频和视频是否在时间上对齐[29, 7, 22,3]进行了探索。多任务自监督学习也取得了有希望的结果[10, 32,48]，其中任务被假设具有相等的权重且不是多模态的。使用CNN特征进行k-means聚类生成弱标签[4,5]或使用元学习进行聚类[17]的方法也得到了探索。在本文中，我们提出了一种通用的无监督表示学习方法，允许多模态输入并自动发现有利于识别性能的任务。活动识别：活动识别是视觉研究的一个活跃领域，提出了各种方法[43, 40,35,11]。随着大型活动识别数据集的引入（例如Kinetics和Moments in Time[20,27]），可以实现更准确的深度视频CNN[6]。我们在这里展示，通过无监督表示学习，它们可以进一步改进。03. 方法0我们将无监督视频表示学习定义为多任务、多模态学习的组合。我们的目标不仅是利用多个自监督任务来学习（好的）表示空间，还要跨多个模态进行学习。我们的想法是，来自同步多模态数据的模型，共享相同的语义内容，将互相受益于彼此的表示学习。我们通过引入“蒸馏”损失来鼓励这一点。同时，每个模态可能有多个自监督任务及其相应的损失。图2说明了多任务、多模态的公式化形式，其中包含多个损失和蒸馏，第3.1节详细介绍了细节。为了促进多任务、多模态学习，我们引入了自动演化主要损失函数的新概念。某些任务和模态是更相关于最终任务的，因此表示需要更多地关注它们。我们的想法是通过计算搜索不同的多任务和蒸馏损失如何组合，而不是通过试错构建损失函数。我们在第3.2节中对此进行了更详细的讨论。一个关键的技术问题是如何在没有预定义任务或适应度函数的情况下引导演化。我们提出了一种无监督方法来评估每个损失函数，基于匹配活动类别的幂律分布（第3.2.2节）。0更相关于最终任务，因此表示需要更多地关注它们。我们的想法是通过计算搜索不同的多任务和蒸馏损失如何组合，而不是通过试错构建损失函数。我们在第3.2节中对此进行了更详细的讨论。一个关键的技术问题是如何在没有预定义任务或适应度函数的情况下引导演化。我们提出了一种无监督方法来评估每个损失函数，基于匹配活动类别的幂律分布（第3.2.2节）。03.1. 无监督多模态学习0我们为每个模态构建一个CNN。每个网络使用多个不需要标记的视频数据进行训练，并使用蒸馏[16]将每个模态的信息组合起来（图2）。更具体地说，我们利用多个自监督任务，例如帧重建、未来帧预测和帧时序排序（第3.3节详细讨论）。每个任务都会产生一个无监督损失用于训练。通过多个自监督任务进行学习使得我们的表示更加通用，因为它们需要推广到许多任务并且更易于迁移到未见过的任务。对于每个模态m及其输入Im，我们构建一个嵌入网络Em，用于生成输入的嵌入表示：xm =Em(Im)。xm是模态m的特征表示。我们的嵌入网络是（2+1）DResNet-50模型，它们利用2D空间卷积和1D时间卷积来表示视频；它们在视频理解任务上提供了最先进的性能。如前所述，对于每个模态，我们考虑了几个学习任务，例如帧重建。每个模态的每个任务都有自己的损失函数。Lm,t是模态m和任务t的损失，{t1, t2 ...,tNm}是该模态的任务集合。此外，为了更好地利用多模态表示，我们使用蒸馏将其他模态“注入”到RGB网络的不同位置。我们的最终目标是训练一个单一的RGB网络，为视频理解提供强大的表示。我们的公式化允许RGB网络从各种任务和模态中学习表示。我们通过加权求和的方式将多任务损失进行组合，对于每个模态，我们进一步将其与多个蒸馏损失Ld进行组合，以融合或同步多个模态：0其中 λ m,t 和 λ d 是损失的权重。加权和 L是我们用来训练整个模型的损失。Ld(Li, Mi) = ||Li − Mi||2(2)1360进化迭代0图3：我们最终损失函数权重的演化。每个方块代表一个 λ m,t，以及它在进化搜索中的变化。权重符号如下：第一个字母表示表示模态（R=RGB，A=音频，F=光流，G=灰度），任务包括S=Shuffle，C=着色，A=音频对齐，P=未来预测，B=反向检测，D=蒸馏，E=嵌入。数字表示蒸馏损失应用的层。03.1.1 蒸馏0蒸馏被引入用于通过匹配更深层次的网络的表示来训练较小的网络[16]，或者用于从预训练的网络中传递知识。在这里，我们使用蒸馏来将不同模态的表示“注入”到主要的RGB网络中。请注意，我们在训练过程中同时进行表示的蒸馏。蒸馏损失通过在模态之间传递信息来学习特征。更具体地说，我们的公式允许将音频、光流和时间信息蒸馏到单个基于RGB的卷积神经网络中。蒸馏损失是主网络中一层的激活M i 和另一个网络中一层的激活 L i 之间的 L 2差异。这样的约束鼓励主网络的激活与其他网络的激活相匹配，将其他特征注入到主网络中。0蒸馏先前已被用于组合网络，如集成[16]或学习从RGB预测光流特征[38]，在这里，我们扩展了其用于从无标签视频数据中学习多模态表示。虽然原则上蒸馏可以在所有模态之间发生，但我们只对RGB流进行蒸馏，以获得一个最终的单塔高效表示，用于学习后续任务。使用RGB网络的学习权重，我们可以提取一组视频的表示。03.2. 进化无监督的损失函数0我们的表示学习由方程1中损失的权重系数控制，它们需要适当确定。权重反映了每个任务和模态对主任务的重要性或相关性；例如，光流模态可能对跟踪很重要，而音频可能在某些情况下为视频的时间分割提供更多信息。03.2.1 无监督的损失构建0我们不是手动构建损失函数，而是通过利用成熟的进化算法来演化损失函数，例如[13]。更具体地说，我们的搜索空间包括损失函数的所有权重，包括任务权重和蒸馏权重。每个λ m,t 或 λ d 被限制在 [0, 1]范围内。我们的进化算法维护一个个体池（即种群），其中每个个体是一组权重值，组成最终的损失函数。03.2.2 无监督的Zipf分布匹配0进化算法需要在每一轮评估损失函数（即适应度度量），以优化损失权重系数。我们提出了一种新的无监督方法。为了衡量每个个体的适应度（即一组权重来组合任务和模态形成最终的损失），我们对用相应损失函数学习的表示应用k-means聚类，并分析聚类分布。我们首先使用较小的子集（100k）的无标签随机YouTube视频对网络进行训练，进行10000次迭代（使用相应的损失函数）。然后，我们使用一组随机的YouTube视频，并类似地提取表示 x RGB = E RGB ( I )。给定这些表示，我们可以将它们聚类成 k个簇。k-means聚类可以被视为具有固定方差的高斯混合模型，我们计算每个特征向量属于一个簇的概率，这可以简化为计算距离。具体而言，对于簇中心 { c 1 , c 2 , . . . c k }，其中 c i ∈ R D （一个 D维向量），我们可以计算特征向量 x ∈ R D 属于簇 c i的概率为：0p（x | c i）=√02σ2π exp � -（x - c i）202σ20�（3）0由于我们（天真地）假设所有聚类具有相同的方差（为了简单起见，令2σ2 = 1）和相等的先验j)=exp − (x−ci)22σ2�kj=1 exp − (x−cj)22σ2(4)which we nmax function applied tothe squared distances from a feature x to a cluster center ci.As observed in many large activity recognition datasets,like AVA [14] and Kinetics [20], the activity classes ofvideos follow a Zipf distribution. We can use this as a priorconstraint on the distribution of the videos in these clusters.Speciﬁcally, given the above probability of each video be-longing to each cluster, and the Zipf distribution, we com-1/is101370对所有聚类进行求和，我们可以使用贝叶斯规则重写为：0p（c i | x）= p（ci）p（x | c i）0= exp -（x - c i）20� k j = 1 exp -（x - c j）20H k,s，其中H是第k个调和数，s是某个实数常数。然后我们令p（c i）= 10x ∈ V p（c i |x），对集合中的所有视频进行平均。使用这两个表示类别/聚类的概率函数，我们可以最小化KL散度：0KL（p || q） =0i = 1 p（c i）log �p（c i）0q（c i）0�（5）0通过使用这个作为适应度度量，它对（学习的）视频表示在聚类中的分布提出了先验约束，使其遵循Zipf分布。注意，这种方法不需要标记数据，完全无监督。我们将这种完全无监督的方法称为“ELo”。0弱监督基准：作为我们方法的上界和替代方法，我们使用一些类别标签来评估聚类（称为ELo-weak）。这样做是为了比较，并且也是将最终损失与下游视频分类任务对齐的一个很好的替代方法。我们使用HMDB的一个子集，并对RGB流的输出表示应用k-means聚类。这些聚类用于最近邻分类，准确率是个体的适应度。由于k-means聚类中的随机性，在两种设置中，我们运行这个过程20次，并在所有试验中平均适应度。03.2.3 损失进化0与进化方法一般相同，损失的进化是由突变驱动的。由于我们的搜索空间包含在[0,1]中的连续值，我们比较了两种不同的进化策略：锦标赛选择[13]和CMA-ES[15]。对于锦标赛选择搜索，我们通过随机选择一个个体损失函数来突变。0对齐音频0RGB0未对齐音频0图4：多模态对齐任务示例。网络接受时间上对齐的RGB和音频（或其他模态）输入以及在时间上有差异的某个模态的样本。网络被训练用于预测一对样本是否在时间上对齐。0权重，并在[0,1]中均匀采样的范围内分配新值。对于CMA-ES，每次迭代都会根据进化池中所有个体的适应度改变所有组件。对于锦标赛选择，我们对损失函数进行2000轮的进化，生成和评估2000个不同的损失函数，并使用CMA-ES进行250轮，找到更快的收敛。图3显示了我们的权重在不同轮次上的演变示例，表4比较了不同搜索方法的性能。由于一切都是可微分的，我们也可以使用梯度下降来学习这些权重，但是，我们将这留给未来的探索，因为对于任务权重相对于整个网络的导数是非平凡的。03.3. 自监督任务0已经设计了许多用于无监督学习的任务。我们简要描述了我们用于表示学习的任务。重要的是，我们允许许多可能的任务，并让进化的损失函数自动发现哪些任务是重要的以及最佳的相对权重。我们还使用了诸如DeepCluster[5]和本地聚合[49]之类的任务。重建和预测任务：给定模态的表示xm，我们使用解码器CNN生成输出。由于重建仅用作监督信号，我们不需要生成质量非常高的重建。因此，我们使用一个小型、廉价的解码器，只有6个卷积层，节省内存和训练时间。一旦无监督学习完成，我们丢弃解码器。此外，遵循先前的工作[38]，我们的解码器没有时间卷积，强制表示包含所有所需的时间信息，这对于视频理解是有益的。每个模态（例如，RGB、光流和音频）都将被重建。我们还使用了几个跨模态传输任务：RGB到Flow，Flow到RGB等。1380学习视频时间结构的另一种方法是训练解码器来预测给定T帧的下一个N帧。以前已经使用未来帧的预测进行表示学习[37]，我们为每个模态执行此任务。对于这些任务，我们最小化地面实况（I）和预测输出（I^）之间的L2距离：0LR（I^，I）= ||I^ - I||2（6）0时间顺序：我们使用两个任务来学习利用时间结构的表示：有序帧和洗牌帧的二进制分类[26]以及正向和反向视频的二进制分类[31]。我们使用一个单独的全连接层进行表示的二进制分类：p =Wxm（xm是一个模态的表示）。这些任务的训练目标是最小化二进制交叉熵：0LB（p，y）= -（y log(p) + (1 - y) log(1 - p)）（7）0其中p是二进制分类器的输出，y是真实值。多模态对比损失：由于视频包含多个模态，我们希望利用这些不同的表示来通过使用多模态嵌入空间学习通用表示。给定每个模态的表示xm，我们最小化各种嵌入空间之间的对比损失：0Lc（x1，x2，xn）= ||x1 - x2||2 + max(0，α - ||x1 -xn||2)（8）其中x m1和xm2是来自同一视频但不同模态的表示，xn是来自不同视频的表示。该任务鼓励来自同一视频但不同模态的表示在表示空间中靠近，而来自不同视频的表示则更远。多模态对齐：我们还可以通过执行多模态对齐任务进一步利用时间信息和多模态数据，如图4所示。网络接受来自两个模态的时间上对齐的样本以及来自一个模态的时间上不同区域的样本。该模型被训练为在两个样本在时间上对齐时进行二进制预测。04.实验0无监督数据源。我们使用了来自Youtube-8M数据集[1]的两百万个随机未标记的YouTube视频剪辑（出于计算原因限制了大小）。以前的自监督学习工作使用了来自数据集的视频（例如[22]中的Kinetics或AudioSet），而忽略了标签，导致数据集中的偏差，因为这些视频被修剪为具有特定活动的时间间隔。使用来自Youtube的随机样本则不太容易受到这种偏差的影响。0方法k-means 1层微调0使用额外的标记数据进行监督从头开始（无预训练）15.7 17.835.2 ImageNet预训练32.5 37.8 49.8 Kinetics预训练68.871.5 74.30无监督使用未标记的视频帧洗牌[26] 22.3 24.3 28.4反向检测[31] 21.3 24.3 27.5 音频/RGB对齐[29, 22] 32.436.8 40.2 RGB到光流31.5 36.4 39.9 预测4个未来帧31.8 35.839.2 联合嵌入29.4 32.5 38.40我们的，弱监督聚类，使用未标记的视频进化损失 -ELo-weak 45.7 64.3 67.80我们的，无监督，使用未标记的视频随机损失（无监督）26.426.9 31.2 进化损失 - ELo（无监督）43.4 64.5 67.40表1：在HMDB51[23]上评估各种自监督方法。我们与随机初始化的、ImageNet预训练和Kinetics预训练的网络进行比较。我们还与各种单任务基线、10个随机抽样的损失函数的平均值以及使用两个适应性度量的进化损失函数进行比较。所有任务都在我们的随机未标记的YouTube视频上进行训练。0由于视频是由用户生成的，标签是自动标记的（没有人工验证），并且可能提供非常大的训练集（高达800万）。我们已经验证了这些数据集与模型评估的数据集（例如HMDB）之间没有重叠。评估数据集和协议。我们使用以下广泛使用的数据集进行评估：HMDB [23]，UCF101 [36]，Kinetics[20]。我们还使用Imagenet[9]和Kinetics进行预训练结果的报告，这是以前的工作中的惯例。在评估标记数据集上评估视频分类结果时，我们使用了先前工作采用的标准协议。有关数据集详细信息，请参阅补充材料。实施细节。我们使用（2+1）DResNet-50作为我们的主干网络。给定一个损失函数，我们在200万个未标记的视频上训练网络100个时期。学习率设置为0.1（在演化和最终训练期间都是如此）。在搜索期间，我们使用较小的网络，类似于ResNet-18，以便更快地学习。对于搜索，可以在8个GPU上找到每个模型的适应性，耗时4小时。最终模型使用64个GPU进行3天的训练（相当于在Kinetics上训练I3D/(2+1)D ResNet-50的时间）。04.1. 与先前方法的比较0我们将我们的方法与先前的无监督和监督表示学习进行比较。具体来说，01020304050607080010203040506070OursRandom Initialized BaselineImageNet-Pretrained BaselineKinetics-Pretrained Baseline010203040506070OursRandom Initialized BaselineImageNet-Pretrained BaselineKinetics-Pretrained Baseline020001020002000200020002000200Value of λt1390方法 HMDB UCF1010监督（2+1）D ResNet-50从头开始35.263.1（2+1）D ResNet-50 ImageNet 49.884.5（2+1）D ResNet-50 Kinetics 74.3 95.10无监督Shuffle [26] 18.1 50.2 O3N [12] 32.5 60.3OPN [24] 37.5 37.5 Patch [44] - 41.5 Multisensory[29] - 82.1 AVTS [22] 61.6 89.00弱引导，HMDB进化损失（我们的方法）67.8 94.10无监督进化损失（我们的方法，无蒸馏）53.7 84.2进化损失 - ELo（我们的方法）67.4 93.80表2：在HMDB51和UCF101上与最先进方法的比较。请注意，先前的方法在活动识别数据集（例如Kinetics）上进行训练，这些数据集与最终任务更加一致，而我们使用随机视频剪辑。即使使用更困难的数据，我们仍然超过了先前的方法。（顶部部分显示了(2+1)DResNet-50的结果，其使用了与表1中的监督预训练相同的方法。）00 5.6万 11.2万 16.8万 22.5万标记训练样本数量0准确率0随机初始化我们的方法（无监督）AVTS 洗牌监督基线0图5：一旦学习到无监督表示，需要多少标记的监督数据。我们使用大约一半的数据实现了可比较的性能，并且在使用整个数据集时优于监督基线。0我们在3个设置中评估表示：（1）对表示进行k均值聚类（2）固定网络的权重，并训练一个单独的全连接层进行分类，以及（3）对整个网络进行微调。这三个评估是通过直接评估表示以及微调整个网络来完成的。我们发现，虽然所有方法都优于随机初始化的网络，但只有我们的进化损失函数010万 50万 100万 150万 200万无标签样本数量0HMDB准确率010万 50万 100万 150万 200万无标签样本数量0HMDB准确率0图6：不同数量无监督数据的比较。左：固定总训练迭代次数（即随着数据的增加，迭代次数减少）。右：固定总训练轮次（即随着数据的增加，迭代次数增加）。我们观察到增加数据而不增加训练时间可以提高性能，而在更多数据上进行更长时间的训练效果更好。在HMDB上。0帧洗牌0光流洗牌0RGB/音频对齐0光流/音频对齐0RGB到光流0未来RGB0未来音频0进化轮次0图7：进化过程中各个任务的损失函数值。较高的权重值表示该任务更重要。学习到的损失函数自动找到对识别最有益的任务。0我们的方法在性能上超过了ImageNet预训练，并且与使用标记的Kinetics数据预训练的网络表现相当（表1）。此外，我们的方法超过了所有先前的无监督方法。尽管我们的方法是无监督的，但我们的方法的弱监督版本的性能与进化方法相似。我们还将其与从搜索空间中随机抽样的损失函数进行了比较，结果表现不佳。我们发现，某些任务对于表示学习并不有益，因此进化非常重要，因为这样可以自动找到最佳的任务和权重。在表2中，我们将我们的方法与先前报告的方法进行了比较。我们发现，即使我们的方法使用更困难的无标签数据，我们仍然以显著的优势超过了现有的方法。我们还发现蒸馏非常重要。没有蒸馏，RGB网络只能通过多模态任务利用其他模态的优势。04.2. 提高监督学习0在使用大量无标签数据学习表示空间后，我们想确定需要多少有标签数据才能达到竞争性能。在图5和表3中，我们比较了使用我们的无标签视频进行训练，然后在Kinetics数据集上进行微调的各种方法。02468101214HMDB Clustering Accuracy0.000.020.040.060.080.100.12Zipf Matching Score020406080100HMDB Clustering Rank020406080100Zipf Matching Rank1400方法 400 2k 4k 8k 20k 40k 80k 120k 160k 225k（所有样本）0随机初始化 0.93 2.1 2.8 4.4 6.2 12.5 26.4 52.5 64.3 71.20帧洗牌 1.5 5.3 12.4 18.4 28.4 32.5 38.2 57.4 66.8 70.9 音频对齐 2.5 9.8 17.2 28.1 36.0 46.0 54.164.3 69.5 71.5 ELo（无监督） 3.6 15.8 24.8 47.0 58.3 67.5 69.2 70.2 72.2 74.40表3：使用不同数量的有标签样本在当前可用（2019年3月）的Kinetics-400数据集上使用（2+1）DResNet-50进行训练。我们只使用约50%的数据就能达到类似的性能。使用整个数据集，我们超过了随机初始化的网络。0图8：学习到的损失函数的热力图可视化。较高的值表示组件的重要性。有关说明，请参见图3。方法迭代次数准确率0随机搜索 2000 52.4 网格搜索 2000 57.3锦标赛选择 2000 61.4 CMA-ES 250 67.40表4：使用不同进化策略在HMDB上评估的最佳损失函数的比较。0使用不同数量的有标签数据对Kinet- ics进行实验。Kinet-ics数据集有225k个有标签样本，我们发现仅使用25k个（10%）就能获得合理的性能（58.1%的准确率），仅比我们使用所有样本的基线完全监督模型低11%。我们能够使用120k个样本，约为数据集的一半，达到相同的性能。使用整个数据集，我们超过了基线网络，这是由于更好的初始化和将模态融合到RGB流中的蒸馏效果。04.3. 额外无标签数据的好处0我们研究了使用不同数量的无标签数据的效果。给定一个损失函数，我们使用N个无标签样本训练一个网络。我们比较了保持迭代次数固定和保持纪元数固定的训练。在HMDB上的结果如图6所示。当将迭代次数固定为100k时，随着添加更多数据，性能提高，即使纪元数（例如，每个样本被看到的次数）减少。这表明在无监督训练过程中，使用更多的多样化数据是有益的，即使样本被看到的次数较少。当将纪元数固定为100时，我们发现添加更多数据进一步提高了性能，这表明更多的训练加上更多的数据是最好的。0图9：对100个不同损失函数的两种适应度度量进行比较。图中显示了HMDB聚类和KL散度与Zipf分布在随机视频上的情况。这两种度量具有很强的相关性。左图：适应度值（相关系数r = 0.93）。右图：每个损失函数的排名（Spearman'srho ρ = 0.91）。04.4. 附加分析0通过检查进化的损失函数的权重λm,t和λd，我们可以确定哪些任务对于目标任务更重要。图7显示了250个进化轮次中几个任务（λm,t）的权重。我们观察到像RGB帧洗牌这样的任务的权重非常低，这表明它们对于动作识别任务并不是非常有用。而音频对齐等任务则非常重要。图8显示了最终完全进化的损失函数。表4比较了不同的搜索方法。从中可以看出，CMA-ES收敛速度最快，适应度最好。在图9中，我们比较了两种不同的适应度度量，发现它们之间存在很强的相关性。这表明Zipf匹配适用于无监督表示评估。05. 结论0我们提出了一个多任务、多模态无监督视频表示学习的统一框架，并发现它有助于识别任务。我们进一步引入了损失函数演化的概念，以自动找到自监督任务和模态的权重，具有无监督的适应度度量。我们发现强大的无监督视频表示，优于先前的自监督任务，并且可以与在有监督数据上训练的网络的性能相匹配或改进。1410参考文献0[1] Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，PaulNatsev，George Toderici，BalakrishnanVaradarajan和Sudheendra Vijayanarasimhan.Youtube-8m：一个大规模视频分类基准。arXiv预印本arXiv:1609.08675，2016年，60[2] Relja Arandjelovic和Andrew Zisserman.看、听和学习。在IEEE国际计算机视觉会议（ICCV）论文集上，第609-617页，2017年，30[3] Relja Arandjelovic和Andrew Zisserman.发出声音的物体。在欧洲计算机视觉大会（ECCV）论文集上，2018年，30[4] Miguel A Bautista，Artsiom Sanakoyeu，EkaterinaTikhoncheva和Bjorn Ommer.Cliquecnn：深度无监督示例学习。在神经信息处理系统进展（NIPS）论文集上，第3846-3854页，2016年，30[5] Mathilde Caron，Piotr Bojanowski，ArmandJoulin和Matthijs Douze.无监督学习视觉特征的深度聚类。在欧洲计算机视觉大会（ECCV）论文集上，第132-149页，2018年，3，50[6] Joao Carreira和Andrew Zisserman. Quovadis，动作识别？一种新模型和动力学数据集。在IEEE计算机视觉和模式识别会议（CVPR）论文集上，2017年，1，30[7] J. S. Chung和A. Zisserman.时间上的不匹配：野外自动化嘴唇同步。在多视角唇读研讨会上，ACCV，2016年，30[8] Ekin D Cubuk，Barret Zoph，Dandelion Mane，VijayVasude- van和Quoc V Le.Autoaugment：从数据中学习增强策略。arXiv预印本arXiv:1805.09501，2018年，20[9] J. Deng，W. Dong，R. Socher，L.-J. Li，K. Li和L. Fei-Fei.ImageNet：一个大规模的分层图像数据库。在CVPR09，2009年，60[10] Carl Doersch和Andrew Zisserman.多任务自监督视觉学习。在IEEE国际计算机视觉会议（ICCV）论文集上，2017年，30[11] Christoph Feichtenhofer，Haoqi Fan，Jitendra Malik和KaimingHe.Slowfast网络用于视频识别。arXiv预印本arXiv:1812.03982，2018年，30[12] Basura Fernando，Hakan Bilen，EfstratiosGavves和Stephen Gould.带有奇异网络的自监督视频表示学习。在IEEE计算机视觉和模式识别会议（CVPR）论文集上，2017年，3，70[13] David E. Goldberg和Kalyanmoy Deb.遗传算法中使用的选择方案的比较分析。在遗传算法基础上，第69-93页。Morgan Kaufmann，1991年，4，50[14] Chunhui Gu，Chen Sun，SudheendraVijayanarasimhan，Car- oline Pantofaru，David A.Ross，George Toderici，Yeqing Li，Susanna Ricco，RahulSukthankar，Cordelia Schmid和Jitendra Malik.AVA：一个时空定位的原子视觉动作视频数据集。arXiv预印本arXiv:1705.08421，2017年，50[15] Nikolaus Hansen, Sibylle D M¨uller, and Petros Koumout-sakos.降低协方差矩阵适应性演化策略（CMA-ES）的时间复杂度。进化计算，2003年，50[16] Geoffrey Hinton，Oriol Vinyals和Jeff Dean.提取神经网络中的知识。arXiv预印本arXiv:1503.02531，2015年，2，3，40[17] Kyle Hsu, Sergey Levine和Chelsea Finn.元学习的无监督学习. 在国际学习表示会议上，2019年. 30[18] Aapo Hyvarinen和Hiroshi Morioka.通过时间对比学习和非线性ICA进行无监督特征提取. 在D. D.Lee，M. Sugiyama，U. V. Luxburg，I. Guyon和R.Garnett编辑的《神经信息处理系统29》中，2016年. 30[19] Dinesh Jayaraman和Kristen Grauman.缓慢而稳定的特征分析：视频中的高阶时间相干性.在计算机视觉和模式识别（CVPR）IEEE会议论文集中，2016年. 30[20] Will Kay, Joao Carreira, Karen Simon

下载后可阅读完整内容，剩余1页未读，立即下载