视频跟踪监督的对比预训练

162 浏览量更新于2023-10-16 收藏 1.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1560PreViTS：带视频跟踪监督的对比预训练1RamprasaathR.胡安·卡洛斯·尼布尔斯3Nikhil Naik31哥伦比亚大学2Artera AI3Salesforce Research，{bc2754，sc250}@ columbia.eduram@artera.ai{jniebles，nnaik}@ salesforce.com摘要由于对象的自然时间变换的存在，视频是视觉表示的然而，当前的方法通常随机采样视频剪辑用于学习，这导致不完美的监督信号。在这项工作中，我们提出了PreViTS，SSL框架，利用无监督的跟踪信号选择剪辑包含相同的对象，这有助于更好地利用对象的时间变换。PreViTS进一步使用跟踪信号来空间约束帧区域以从中学习，并通过对Grad-CAM注意力图提供监督来训练模型以定位有意义的对象。为了评估我们的方法，我们使用PreViTS在VGG-Sound和Kinetics-400数据集上训练了动量对比（ MoCo ）编码器。使用PreViTS进行训练在视频下游任务上优于单独通过对比策略学习的表示，在动作分类上获得最先进的性能。PreViTS有助于学习对背景和上下文的变化更鲁棒的特征表示，如在具有背景变化的数据集上的实验所示。我们的实验还证明了我们的模型所捕获的各种视觉变换不变性。使用PreViTS从大规模视频中学习可以带来更准确和更强大的视觉特征表示。1. 介绍视觉表示的自监督学习（SSL）[58，63，35，50，20，9，10，11]已经成为监督学习的一种有竞争力的替代方案，而不需要手动注释标签。从图像SSL的一个关键组成部分是对比学习，这是一个学习目标，它将来自相同实例（称为查询和密钥）的不同数据增强拉得彼此更接近，并将来自不同实例的数据增强推离。然而，并非所有常用的图像增强都能反映我们在现实世界中看到的视觉变化。相比之下，视频提供了一个自然的数据来源，(a) 视频中的时间变换提供了数据增强的自然来源，使其对自监督学习（SSL）具有吸引力。(b) 对比视频SSL中随机选择的查询和关键片段可能会导致对象丢失。(c) 查询和关键字剪辑还可以包含完全不同的视觉(d) 由于许多视频包含固定的背景，SSL模型可以通过关注背景来作弊。图1：当前的对比视频自监督学习方法接收到不完美的监督信号，并且在学习表示时可以依赖于背景相关性我们提出了一种新的方法，通过视频跟踪和Grad-CAM监督来解决这些问题。如图1a所示，物体经历变形和遮挡，以及视点和照明的变化。因此，最近的工作已经解决了来自视频的SSL，以寻求更自然的增强和有意义的语义[38，36，32，56，29，5，57，27、45、41、25]。一种常见的方法[17，8]是在视频中随机采样附近的剪辑作为查询和关键字，作为数据增强的自然方式，表示相同的信息。1561因为在时间上接近的帧可能共享相似的内容。然而，如图1b和1c所示，这种用于增强的采样策略存在一些问题。首先，当从视频的较长跨度中采样实例时，内容可能会发生很大变化，导致样本包含完全不同的语义概念。这种采样策略导致不完善的监督信号，不鼓励语义理解。其次，当从同一视频中采样剪辑时，两个剪辑中的背景通常非常相似，这使得模型可以通过查看背景来欺骗，以最大限度地减少对比度损失[52]，如图1d所示。这种采样策略导致模型学习虚假的背景相关性和背景，这可能使它们的可转移性和潜在的偏见[12]。为了缓解这些问题，我们提出了视频跟踪监督预训练（PreViTS）。PreViTS包括一种智能方法来选择查询和关键片段，该方法利用视频的无监督跟踪。使用这种免费提供的监督形式，我们设计了一个时间约束选择剪辑，确保查询和关键字包含相同的对象。此外，利用目标的空间范围跟踪信息，设计空间约束来掩盖背景。总之，这些时空约束导致更好的监督信号，用于从视频中进行对比学习。在选择更多信息的查询和关键片段之后，我们训练模型学习使用基于Grad- CAM [47]的注意力损失来定位查询和关键中表示相同概念的特定区域我们使用 VGG-Sound 和Kinetics-400数据集在基于图像和视频的SSL主干上使用PreViTS预训练了动量对比编码器（MoCo）[20]对视频下游任务（包括动作识别、视频检索）的评估表明，PreViTS训练的模型学习到更准确的视觉表示。特别是，我们获得国家的最先进的perfor-曼斯对视频动作分类。由于其定位对象的能力，PreViTS训练的模型可以在任意长度的视频中执行无监督跟踪，如我们在DAVIS挑战中的实验所示[40]。在具有背景变化的图像和视频数据集上进行的额外实验表明，使用Pre-ViTS训练的模型对背景相关性的依赖性较低，并且对视觉分类中的背景变化更具鲁棒性。我们还展示了我们的模型所捕获的各种不变性（遮挡，视点）.总之，我们的工作表明，现有的方法从视频对比SSL不有效地使用对象的时间变换。通过设计更好的剪辑采样策略和鼓励对象定位的损失，我们能够从视频中学习对背景变化鲁棒的更准确的视觉表示。2. 相关工作自我监督表示学习（SSL）。对比SSL方法通过形成正对和负对来学习图像表示[2，21，50，64，9，31，3正对是从单个图像实例中通过人工数据增强（如随机裁剪、缩放、颜色失真和高斯模糊）生成的[9]。除了从图像中学习表示之外，不同的视频帧提供了自然的视点变化和时间信息，这可以帮助以自我监督的方式学习更好的表示[1，55，38，56，51，42，44，23，43]。对比鲜明，从同一视频中采样阳性对的基于学习的方法[17，41，25，62，15]已经表明，可以从视频中学习视点不变表示。与以前的方法[55，41]不同，这些方法从具有边界框的无监督提案中采样正对，我们引入了一种基于使用无监督显着性图获得的空间和时间约束的采样对方法，再加上Grad-CAM监督[47]以学习更好的接地表示。Grounded Representation Learning. 我们的工作也与最近关于学习更好的基础代表的工作有关。Henaff等人[22]介绍了DetCon，这是一种自我监督的目标，它通过在不同的图像增强中识别对象级别的特征来对表示进行Mo等人[33]介绍了一种在对比预训练过程中混合不同图像背景的技术，并表明它导致模型学习减少上下文和背景偏见。Xie等人[60]提出了一种对象级预训练方法，用于从复杂场景中学习CAST [48]通过显着性监督学习视觉基础FAME [14]通过帧差和颜色统计来提取运动前景，以消除背景偏差。3. 方法我们提出了视频跟踪监督预训练（PreViTS），通过利用无监督对象跟踪从视频中学习视觉表示。首先，我们将回顾标准的基于对比的视频表示学习框架，然后讨论我们的方法。3.1. 背景当对视频执行对比学习时，正对是从不同时间选择的来自同一视频的剪辑，而负对是由从其他视频获取的剪辑形成的。在这项工作中，我们在动量对比（MoCo）[20]模型的基础上构建了我们的方法，该模型使用InfoNCE [35]目标并存储1562M一∈M图2：视频跟踪监督预训练（PreViTS）：给定输入视频，我们执行无监督跟踪并应用时间约束来提取包含跟踪对象区域的连续帧。然后，我们将基于IoU的空间约束应用于样本查询和关键视频片段及其掩码。查询和关键字的编码器表示通过对比丢失进行对齐。然后，我们屏蔽的关键，并使用Grad-CAM本地化的查询区域，最大限度地提高（关键前景，查询）的相似性。然后，我们使用余弦距离损失来监督Grad-CAM跟踪查询掩码，以鼓励模型在对比预训练期间依赖于适当的突出对象区域在动态存储器组中的负样本与移动平均编码器。形式上，给定视频V，我们学习从同一视频采样的查询q和密钥k的特征表示目标是将正对q和k的特征距离拉得更近，并将查询q的特征推离负特征集，其他视频N ={n1，n2，...，n m}。MoCo损失为：我们首先使用Deep-USPS [34]，一种无监督的显着性预测算法，来获得视频中初始帧的显着性图。我们使用该显著性图作为用于跟踪的目标对象，并应用SORT[4]，这是一种跟踪算法，其检查跨连续帧掩码的IoU约束以通过视频跟踪目标对象。形式上，给定具有高度h、宽度w和时间长度t的输入视频V，我们获取视频对象分段。Mocoexp（q·k）/τ）（一）站映射M∈ {0，1}h×w ×t，其中M=1指示L= −logΣn∈{N，k}、exp（q·n）/τ）ijk像素（i，j，k）是显著的，并且显著区域在时间t其中τ是温度常数。是t=Σi，jM i，j. 显着图是一个二进制掩码。在视频模型中，除了MoCo损失之外，我们还使用相对速度预测任务，已经发现该任务有利于理解RSPNet[8]中提出的视频片段之间的相对速度。我们对三个视频片段进行采样：两个区段具有相同的速度，另一个区段具有不同的速度。目标是将具有相同速度的段的特征距离拉得更近，同时将具有不同速度的段的特征推离。应用三重态损失[46]：LSpeed=max（0，γ−（pair+ −pair−）），（2）其中，正对pair+的距离应该比负对pair−的距离大一个余量γ >0。3.2. 视频中的无监督跟踪为了从同一视频中选择包含相同视觉概念的查询和关键片段，我们建议使用无监督对象跟踪来指导片段选择。从视频中获取无监督跟踪信息由于绝大多数网络视频（因此，视觉数据集中的视频）都集中在单个对象上，因此我们只利用视频中的一个（最大的）显著区域进行跟踪，并且在这项工作中不考虑多个对象。基于视频跟踪的时空裁剪：一旦我们获得了视频的跟踪管，我们就将随机采样约束到跟踪管所覆盖的视频片段，如图2的左半部分所示，其中t0。这确保了我们的采样查询和关键片段包含视频中相同对象的有意义的实例此外，我们设置了一个空间约束（图2）：查询或键的随机裁剪应该至少具有μ[0，1）IoU与跟踪掩码。这种空间约束试图确保查询和键包含相同的对象，以便进行对比预训练。我们获取用于视频片段Mq和Mk的两个3D掩模，其表示查询的掩码和包含显著区域的关键字1563∗A·`联系我们Conv5−αAfqQQ.Σ3.3. 视频跟踪监控（PreViTS）PreViTS旨在鼓励模型学习本地化查询中的特定区域和表示相同概念的键。我们首先确定网络在将关键字xk中的对象区域与查询xq中的对象区域进行匹配时所依赖的区域。为了获得关键中的对象区域，我们使用视频分割掩码Mk作为过滤器来屏蔽关键，以获得关键前景，xkm=xk Mk。为了理解网络在对比匹配特定作物区域的代表时对它们的重要性，我们以对比训练的方式计算Grad-CAM [47我们通过首先向前传播关键前景xkm和查询xq来实现这一点，通过相应的编码器来获得km和q。为了获得有助于最大化其相似性的区域，我们取其点积并计算查询编码器的最后卷积层激活的梯度fq，如下所示：全球集中共用4. 实验我们的目标是证明，使用PreViTS训练视频自监督我们通过在两个数据集上预训练表示并将其转移到各种视频和跟踪任务来验证这一点。4.1. 实现细节我们在两个数据集上独立地预训练我们的模型，两个数据集都包含10秒长的视频，每秒25帧：（1）VGG-Sound [7]数据集包含从YouTube收集的20万个视频。收集VGG-Sound的目的是创建具有不同声音的视听数据集，并包含由音频标签定义的300个类。与之前测试视频下游任务的视频SSL方法所以我们选择了VGG-Sound，它包含一个αq=¸Σix,`j˛q kmfqconv5（三）与视频理解文献中常见的动作分类数据集相比，更广泛的对象类和更高的对象中心性此外，大多数反向传播梯度其中αq表示最后一个卷积层神经元对于最大化查询和关键前景表示的相似性的重要性。通过 αq与最后卷积的加权组合层激活A fq 在零点处剪切它们，我们可以得到Grad-CAM图，Gq。ΣQConv5=ReLUQnVGG-Sound视频仅包含单个前景对象，正如我们通过使用监督分割发现的那样，这与我们在学习阶段的单个对象假设一致(2)Kinetics-400数据集[6]是一个广泛使用的数据集，它使我们能够将PreViTS的性能与先前的方法进行比较它由大约240k训练视频和400个人类动作类组成我们将发布复制我们工作的代码更多细节和图片`线性组合xGq中的较高值表示网络重新连接的区域。在将查询映射到关键前景时，理想情况下，我们希望网络只依赖于查询中在关键前景中突出显示的跟踪对象区域。因此，我们应用基于余弦距离的注意力损失来鼓励Grad-CAM热图Gq接近查询段Mq中的跟踪对象掩码。这强制模型学习对象的类似表示，而不管帧在时间上远离时剪辑中可能存在的视点和变换变化。我们将Mq插值到与Gq相同的空间和时间维度，以获得伪分段地面实况，M_n_q作为监督，Grad-CAM热图。注意力损失定义为：方法数据集UCF-101RSPNet VGG Sound 86.4+T机架约束抽样VGGSound 87.5+1.1+PreV iTSV GGSound 88.9+2.5RSPNet K400 87.6+T机架约束抽样K400 89.1+1.5+PreV iTS K400 91.8+4.2表1：视频动作分类：PreViTS在UCF-101动作识别的下游任务中获得了显着的性能提升。跟踪约束采样是指我们的无监督跟踪为基础的时空采样策略。拉特 =1Gq·Mq.（五）∥G∥∥Mˆ∥4.2. 视频任务我们的完整模型经过训练，以最小化上述损失的总和。L总计=L MoCo +L速度+ λL属性（六）动作识别：为了评估PreViTS训练模型在视频分类任务上的性能，我们对UCF-101数据集进行了动作识别[49]。继Xuet al.[61]在所有实验中，我们微调G.（四）识别实验可以在补充中找到1564PreViTS224× 224 9.6M S3D-g 90.8RSPNet [8]224× 224 9.6M S3D-g89.0−×112×112112× 112112× 112STS [53]224×224224 224 9.6M S3D-g 89.6[24]第二十四话224× 224 9.6M S3D-g91.8表2：与UCF-101性能的先前工作的比较：当使用可比较的训练资源时，我们使用PreViTS训练的最佳模型在UCF-101下游性能上优于所有现有的视频自监督学习方法。方法顶部-kk= 1k= 5k= 10k= 20k= 50Pace [54]RSPNet [8]31.936.049.756.759.266.568.976.380.287.7STS [53]39.159.268.877.686.4CACL [18]43.261.169.978.288.2[第13话]48.667.675.582.5-PreViTS 53.4 69.4 77.8 85.5 93.0表3：UCF 101上的视频检索结果。我们的模型优于其他基线使用相同的架构C3D骨干。我们在50个epoch的标记视频上的预训练模型的学习率为0.05。我们去掉投影头，用一个随机初始化的全连接层代替它我们在表 1 中报告了在 VGG-Sound 和Kinetics- 400数据集上使用PreViTS进行预训练时UCF-101数据集的前1准确度。通过PreViTS培训，在两个预训练数据集上都比RSPNet有了实质性的改进。值得注意的是，在Kinetics- 400上预训练的模型在RSPNet上具有更好的性能，在RSPNet + PreViTS上具有更大的绝对改善（4.2%对2.5%），超过VGG-Sound。我们推测，由于人类行为在Kinetics-400中得到了更好的表现，因此使用这些视频学习的表现更好地转移到UCF-101，并且从PreViTS训练中受益更多最后，我们在表2中比较了用Kinetics-400预训练的RSPNet + PreViTS与其他最先进的视频SSL方法[8]的性能。通过相同的架构，计算预算，历元，批量大小和预训练数据进行公平比较，我们的方法优于先前的工作并获得最先进的性能。视频检索：我们还评估我们的视频检索任务图3：视频背景挑战：我们通过引入视频背景挑战来评估PreViTS，以评估视频模型的背景鲁棒性。FG=前景，BG =背景。前景-背景组合包括：仅BG-B（FG：黑色，BG：未改性），仅BG-T（FG：平铺背景，BG：未改性）、混合-相同（FG：未修改，BG：相同类别的随机BG）、混合随机（FG：未修改的，BG：随机类别的随机BG）和混合下一个（FG：未修改的，BG：下一节课的随机BG。）UCF-101数据集上。给定一个视频作为查询，我们使用最近邻搜索通过余弦距离搜索最相关的视频。在[8]之后，我们在UCF 101数据集的分裂1上评估了我们的方法，并将前k个精度（k=1，5，10，20，50）作为评估指标。如表3所示，我们的模型比其他基线表现得更好，显示了所提出的训练过程的有效性。4.3. 背景挑战我们期望使用Pre- ViTS获得的特征表示较少依赖于对象背景和上下文。为了量化这一点，我们在图像和视频分类任务中使用背景挑战首先，我们在原始的背景挑战[ 59 ]上评估我们的模型，该挑战旨在测试模型对各种背景变化的鲁棒性。它包含9个ImageNet类，每个类有450个图像。我们评估我们的模型以及在VGG-Sound上预训练的基线模型，并使用ImageNet-1 K训练线性层。结果表明，PreViTS预训练不同设置的示例见图3。在只有FG设置，丁，其中背景被设置为黑色，PreViTS获得了12的绝对改善。1%，这表明它对背景信息的依赖程度较低。当交换背景时（混合-相同、混合-随机、混合-下一个），PreViTS获得3的绝对改进。六四2%，表明使用PreViTS学习的表征减少了对背景相关性的依赖。有一个方法输入大小Params骨干UCF-101RSPNet [8]CACL [18]PreViTS112× 112112× 11233.4M33.4M33.4MC3DC3DC3D76.777.578.7Pace [54]STS [53][37]第三十七话RSPNet [8]PreViTS112× 112112× 112112× 11214.4M14.4M14.4M14.4M14.4MR（2+1）D R （ 2+1）D R（2+1）DR（2+1）77.177.878.781.181.91565[59]第五十九话VGG Sound原始混合-相同混合随机数混合-下一个仅FG无FG只有-BG-B仅BG-TMoco77.953.337.833.840.924.69.713.5PreViTS81.0+3.156.9+3.642.0+4.238.0+4.253.0+12.128.0+3.48.8−0.913.0−0.5K400视频背景挑战RSPNet70.740.730.329.520.949.135.228.6PreViTS74.0+3.348.0+7.335.9+5.632.7+3.227.8+6.951.9+2.833.7−1.528.3−0.3表4：对背景变化的稳健性。在图像和视频背景挑战数据集上，PreViTS的性能优于包括前景的基线（列1-5），特别是仅FG设置。此外，当完全消除前景信息时，PreViTS训练的模型不太准确（第7列，第8列），表明它们对背景信息的依赖性降低。前十名前二十五名表5：视频表示的不变性：与基线MoCo相比，通过PreViTS学习的表示对各种变换更具不变性，如前k表示不变性分数（RIS）所示[41]。视点不变性的大幅度提高可能是由于我们对具有不同视点的跟踪对象进行采样的策略实例不变性的大幅改善表明PreViTS更擅长学习对象概念，而不是低级别的像素相似性。改进的不变性对于对象识别任务是有用的。有关RIS的详细信息，请参见第4.4节。在No-FG设置中性能略有提高，可能是由于模型从视频中学习轮廓信息然而，在不提供来自前地的信息的设置（仅BG-B和仅BG-T）中，PreViTS获得比基线更低的准确度，这加强了其更少地依赖于背景信号。视频背景挑战赛（ JHMDB ）。从 BackgroundsChallenge数据集中汲取灵感，我们构建了一个新的视频背景挑战来测试视频的背景鲁棒性。我们使用JHMDB数据集[26]-由21个HMDB [28]动作识别类组成，每个类有50个视频-其中地面真实前景掩码可用。我们跟着萧et al. [59]为JHMBD构建8个前景-背景组合（图3我们使用在Kinetics-400上训练并在UCF-101和JHMDB上微调的模型来评估性能。使用PreViTS训练的模型在所有设置中都优于基线模型（RSPNet）。与Backgrounds Challenge的趋势类似，PreViTS在背景设置为黑色或由另一个视频的背景替换的设置中获得了显著的改进。在前景被移除的设置中，我们发现与基线相比，PreViTS的准确度下降更高（22.1 vs. 21.6）。视频表示学习模型已被证明存在过度依赖背景的问题，[30]或[12]。PreViTS培训可以帮助减轻这种偏见。4.4. PreViTS捕获的不变性我们期望通过PreViTS学习的表示对各种变换（遮挡、视点、照明、实例）具有更在[41]之后，我们使用top-k表示不变性分数（RIS）预测类时测量了表示的不变性。我们从编码器中选择前10/25个神经元，在转换之间具有相似的激活行为，PreViTS比其他基线对转换的不变性更明显（表5）。4.5. 视频跟踪评估为了证明接地和跟踪能力，我们以Grad-CAM注意力方式对PreViTS进行了单对象视频跟踪[40在原始视频跟踪任务中，输入是视频的第一帧以及前地面分割掩码。目标是预测后面视频帧中前景的像素级掩模。在我们的设置中（图2），我们输入第一帧及其分割以获取关键前景。然后，我们将后面的帧作为查询提供，并在-方法闭塞观点前十名前二十五名照明方向前十名前二十五名照明颜色前十名前二十五名例如前十名前二十五名实例+视点前十名前二十五名Moco83.2576.4584.8375.3185.0974.7499.4295.8848.9943.5551.2346.83[41]第四十一话83.2676.5284.9776.1888.3079.3499.7797.7048.8144.3853.3149.04PreViTS85.1178.8489.3581.2891.6683.9499.9298.8955.4549.0956.9751.70156680.8-3.783.4 −2.184.5×JJ-JDJOM区域相似性J平均值M↑回忆O ↑衰减D↓Moco0.3150.6380.025PreViTS0.5440.769-0.014表6：DAVIS 2016上的无监督跟踪通过我们的接地监督，我们能够(a) 不同时间取样策略的影响空间面积阈值µ=0。0µ=0。2µ=0。3µ= 0。4更好地跟踪任意长度的视频中的对象，仅给定第一帧及其相关的分割图。VOC0771.5 −1.572.1 −0.9UCF-10183.7−3.7八十五1+0.6(b) 面积阈值μ的影响（固定μ = 0。第三章72.8−0.284.2−0.3损耗加权因子λ = 0。0λ = 2。0λ=3。0λ = 4。0VOC07UCF-10170.3-2.772.4 −0.673.072.6−0.484.1−0.6(c) 损耗加权因子λ的影响（固定λ = 3。0个）追踪无追踪不好框不好掩模辅助核算Seg图4：无监督对象跟踪。使用Grad- CAM注意力和查询键框架，PreViTS训练的模型可以用于在给定第一帧和相应的分割图VOC0768.3−4.771.9−1.1UCF-10179.0−5.583.0−1.5(d) 不同跟踪监督的效果75.0+2.086.1+1.6要跟踪的对象。PreViTS能够在视点变化下定位对象，而基线模型不能这样做。张力热图以定位后面帧中的对应区域。由于注意力热图分辨率为7 7，因此我们无法执行像素级预测。我们的评估指标如下[40]。我们计算：区域相似度（），其表示预测的前景掩模和GT前景掩模之间的IoU;Mean（）是的平均值; Recall（）评估得分高于阈值的序列的分数; Decay（）评估随时间推移的平均性能下降，例如，t=4t=1。 PreViTS的性能明显优于基线MoCo（表6），这证明了我们的模型在动态视频中定位对象的能力。图4显示了PreViTS如何能够定位对象，而当对象出现在新视点时基线失败（图4（d））。4.6. 消融和分析我们对设计决策的影响进行了消融研究我们评估了在K400上训练了50个时期的UCF-101 [39]。我们还测试了在VGG- Sound上训练200个epoch的图像数据集PASCAL VOC对象检测[16]图像模型的更多细节可以在补充中找到。正对之间的时间距离约束：我们在表7a中研究了不同时间采样策略的效果。我们定义δ为查询和关键字段之间的时间距离。δ=0使用相同的样本段进行查询，关键字与image相同表7：PreViTS培训的消融：我们隔离了我们的训练成分的效果。我们发现，（a）从查询键剪辑之间的较短时间距离开始，并随着训练的进行放松约束，可以提高性能。（b）基于具有跟踪掩模的IoU添加一定量的空间约束，确保不同剪辑包含共同的显著区域，并且这提高了性能。（c）增加关于注意力损失的权重将下游性能增加到某一点。（d）用噪声边界框跟踪管代替无监督视频跟踪监督实现了超过基线的显著增益。应用监督跟踪- ING提高下游性能略有改善。增强常数δ以1.7秒的固定长度对查询和键进行采样，这最终成为模型的一个更容易的任务，并且不会推广到下游任务。改变δ并不约束片段之间的距离，这是指随机抽样查询和密钥，而没有额外的时间距离约束。我们发现这种设置表现最好，因为它使网络能够跨剪辑定位区域，而不管它们的时间距离。面积阈值μ的影响：我们在对正对进行采样时应用空间约束，其中裁剪至少覆盖跟踪对象面积的μIoU在这里，我们研究了µ在0到0.9范围内的不同值。表7b中的结果表明，添加空间约束有助于模型关注视频中有意义的对象。我们还发现性能结果对μ值不敏感，证明了我们方法的一致改进。减肥效果λ：我们测试不同的减肥效果λ73.084.573.084.5时间采样变化δ常数δδ=0VOC07UCF-10173.084.572.4−0.683.7−1.867.5−5.584.3−0.21567图5：动作分类的视觉基础。PreViTS提供了更好的视觉基础，如在UCF-101上微调的预训练模型的Grad-CAM注意力图所示。在（a）中，我们的模型专注于人类和自行车，而基线模型关注看似无关的区域，包括背景中的道路在（b）中，我们的模型除了关注篮球场外，还关注空中的人和球，而基线模型主要关注球场。图6：物体的区分定位。当提供具有对应于不同前景对象和关键前景的两种不同分割的查询时，PreViTS训练的模型能够准确地定位对象，捕获对象之间的类特定语义区分。在两种损失之间取得平衡。表7b的结果显示λ的非零值优于λ = 0.0，表明注意力丧失在PreViTS中很重要。较高的λ可在一定程度上提高性能-λ= 2.0、3.0时性能提高，λ= 4.0时性能略有下降。我们发现λ=3。0为最佳。跟踪掩模质量的稳健性：为了理解跟踪监督质量的影响，我们通过用边界框替换分割掩码来试验较低质量的跟踪掩码，这在对象的形状方面不太准确（Ta-1）。表7d）。与我们的最佳模型相比，该模型在PASCAL VOC上获得了显著增益，超过基线（+3.6）和（-1.1）。我们使用无监督跟踪模板训练的模型仍然达到与使用监督分割的模型相当的性能，这表明了它对无监督跟踪产生的噪声的鲁棒性。视觉基础和定位：我们还可视化了使用Grad-CAM在UCF-101上微调的PreViTS训练模型的接地和定位能力。与基线相比，我们的模型具有更好的基础能力，并且专注于前景对象而不是背景场景（图5）。在图6中，我们提供了一个查询，其中两个不同的分割对应于不同的前景对象我们将查询和关键前景馈送到PreViTS训练的模型中以计算Grad-CAM注意力热图。给定不同的关键前景，我们的模型可以分别定位人和球。同时，基线中的注意力热图更加分散，不能产生对两个对象的区分性注意。即使PreViTS5. 结论局限性和潜在影响：我们的方法有一些局限性。首先，获取和利用无监督跟踪需要额外的计算资源。此外，由于我们当前的跟踪方法捕获视频中最显著的对象，因此我们不对视频中的多对象交互进行建模，这是一个有趣的未来工作方向。此外，我们的预训练数据集比YouTube上的随机视频相对更干净。目前还不清楚我们的方法是否可以推广到不同的类型，如新闻和游戏。最后，我们的预训练数据集可能包含意想不到的社会，性别，种族和其他偏见，其影响在当前工作中未被检查。结束语：我们提出了一个视觉自监督网络，学习本地化前景对象存在于视频数据利用无监督跟踪监督。在多种视频下游任务上的实验表明，引导模型聚焦于前景区域有利于准确的视频表示自监督学习。此外，我们还展示了我们所学习的功能的不同属性，这些功能可以捕获视点，遮挡，照明和实例不变性。我们的模型的结果显示出更好的接地能力，更小的背景偏差。我们希望我们的方法能够进一步研究从互联网上的大规模未经策划的视频数据中进行鲁棒，准确1568引用[1] PulkitAgr awal，Jo aBocoCarreira，andJitendraMa l ik. 学习通过移动来观察2015年IEEE计算机视觉国际会议，ICCV 2015，智利圣地亚哥，2015年12月7日至13日。[2] 菲利普·巴赫曼河德文·耶尔姆和威廉·布奇沃特通过最大化跨视图的互信息来学习表示神经信息处理系统进展32：2019年神经信息处理系统年会，NeurIPS 2019，2019年12月8日至14日，加拿大不列颠哥伦比亚省温哥华，2019年。[3] Sagie Benaim 、 Ariel Ephrat 、 Oran Lang 、 InbarMosseri 、 William T Freeman 、 Michael Rubinstein 、Michal Irani和Tali Dekel。Speednet：学习视频中的速度。在IEEE/CVF计算机视觉和模式识别会议论文集，第9922-9931页[4] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos和Ben Upcroft。简单的在线和实时跟踪。2016年IEEE图像处理国际会议（ICIP）。IEEE，2016.[5] Uta Buchler、Biagio Brattoli和Bjorn Ommer。通过深度强化学习改善时空自我监督欧洲计算机视觉会议，2018年。[6] J oaoCarreira和Andr e wZisserman。Quovadis，动作识别？新模型和动力学数据集。在2017年IEEE计算机视觉和模式识别会议上，CVPR 2017，檀香山，HI，美国，2017年7月21日至26日。[7] 陈洪烈，谢伟迪，安德烈·维达尔迪，安德鲁·齐斯瑟曼。Vggsound：一个大规模的视听数据集。在2020年IEEE声学，语音和信号处理国际会议上， ICASSP2020，西班牙巴塞罗那，2020年5月4日至8日。[8] Peihao Chen ， Deng Huang ， Dongliang He ， XiangLong，Runhao Zeng，Shilei Wen，Mingkui Tan，andChuang Gan. Rspnet：用于无监督视频表示学习的相对速度感知。2021年AAAI人工智能会议[9] 陈婷、西蒙·科恩布里斯、穆罕默德·诺鲁齐和葛offrey E.辛顿视觉表征对比学习的一个简单框架。ICML ，Proceedings of Machine Learning Research，2020。[10] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey E.辛顿大的自监督模型是强半监督学习器。在神经信息处理系统的进展33：2020年神经信息处理系统年会，NeurIPS 2020，2020年12月6日至12日，虚拟，2020年。[11] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。ArXiv预印本，2020年。[12] 蔡镇宇，陈高，Joseph C. E. Messou和黄家斌。为什么我不能在商场里跳舞？学习在动作识别中对场景偏置进行调节。在神经信息处理系统进展32中：年会关于神经信息处理系统2019，NeurIPS 2019，2019年12月8日至14日，温哥华，不列颠哥伦比亚省，加拿大，2019。[13] Ishan Dave 、 Rohit Gupta 、 Mamshad Nayeem Rizve 和Mubarak Shah。Tclr：用于视频表示的时间对比学习arXiv预印本arXiv：2101.07974，2021。[14] 丁双瑞，李毛毛，杨天宇，钱瑞，徐浩航，陈庆义，王珏，熊宏凯.通过前景-背景合并的运动感知对比视频表示学习。IEEE/CVF计算机视觉和模式识别会议论文集，第9716-9726页，2022年[15] Debidatta Dwibedi，Yusuf Aytar，Jonathan Tompson，Pierre Sermanet，and Andrew Zisserman.时间周期一致性学习。在IEEE/CVF计算机视觉和模式识别会议集，第1801-1810页[16] 放大图片作者： Mark Everingham， Luc Van Gool，Christopher K. I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。Pascal Visual Object Classes（VOC）IJCV，2009年。[17] Daniel Gordon ， Kiana Ehsani ， Dieter Fox ， and AliFarhadi.观看世界：从未标记的视频中进行表示学习ArXiv预印本，2020年。[18] Sheng Guo，Zihua Xiong，Yujie Zhong，Limin Wang，Xiaobo Guo，Bing Han，and Weilin Huang.跨架构自监督视频表示学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第19270-19279页[19] Tengda Han，Weidi Xie，and Andrew Zisserman.用于视频表示学习的自监督协同训练。在神经信息处理系统的进展33：神经信息处理系统2020年年度会议，NeurIPS2020，2020年12月6日至12日，虚拟，2020年。[20] Kaiming He，Haoqi Fan，Yuxin Wu，Saying Xie，andRoss B.娘娘腔。无监督视觉表征学习的动量对比。2020年IEEE/CVF计算机视觉和模式识别会议，CVPR2020，美国华盛顿州西雅图，2020年6月13日至19日。[21] Ol i v i erJ. 他是F F。数据有效的图像识别与对比预测编码。ICML，Proceedings of Machine Learning Research，2020。[22] OlivierJHe'naff ， SkandaKoppula ， Jean-BaptisteAlayrac ， AaronvandenOord ， OriolVi n yal s ，andJo aBazoCarreira. 有效的视觉预训练与对比检测。ArXiv预印本，2021年。[23] 胡凯，邵杰，刘源，拉吉比丘，萨维德斯，沈志强.视频自监督学习的对比度和顺序表示。在IEE

下载后可阅读完整内容，剩余1页未读，立即下载