基于流等方差的自监督表示学习

58 浏览量更新于2023-10-13 收藏 2.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10191基于流等方差的自监督表示学习Yuwen Xiong Mengye Ren Wenyuan Zeng Raquel UrtasunWaabi*，多伦多大学{yuwen，mren，wenyuan，urtasun} @ cs.toronto.edu摘要自监督表示学习能够学习语义上有意义的特征;然而，它最近大部分成功依赖于用很少的物体对图像进行多次裁剪。人类不是从简单的图像中学习视图不变的表示，而是通过观察物体的运动、变形、姿态变化和自我运动来学习具有变化场景的复杂世界中的表示。出于这种能力，我们提出了一个新的自监督学习表示框架，可以直接部署在视频流的复杂场景与许多移动对象。我们的框架具有一个简单的流等效性目标，该目标鼓励网络通过对当前帧的特征应用流变换来预测另一帧的特征我们的表示，从高分辨率的原始视频，可以很容易地用于静态图像的下游任务。在具有挑战性的语义分割、实例分割和对象检测基准上的读出实验表明，我们能够优于从包括SimCLR [6]和BYOL [18]在内的先前最先进的方法中获得的表示。1. 介绍丰富且信息丰富的视觉表示是过去十年来计算机视觉深度学习革命的缩影。深度神经网络在对象检测[15，34，9]和语义分割[4，50]等任务上提供了令人惊讶的竞争力。直到最近，视觉表示已经通过大规模监督学习来学习。然而，对于更具挑战性的任务，如语义或实例分割，与对象分类相比，获得标签要昂贵得多。另一方面，人类大脑从复杂世界的原始视频中学习通用视觉表示，而无需太多明确的监督。这是我们希望在本文件中更接近的方向*这项工作由所有作者在Uber ATG时完成BYOLFlowE（我们的）流在线I1-一个目标I2特征空间图1：我们提出的基于流等方差（FlowE）的自监督表示学习。我们的方法基于BYOL [18]，这是一种用于静态图像表示学习的最先进方法。我们鼓励特征服从与输入图像对相同的流变换自我监督或无监督表示学习的最新进展，如SimCLR [6]和BYOL [18]，似乎为我们指出了一条光明的道路：通过简单地最小化单个图像的两个不同视图之间的特征距离，并且在顶部在测试时间执行线性读出，现有技术的方法现在能够匹配用端到端的完全监督训练的网络的分类性能[23，36，21]。虽然不使用任何类别标签，但这些方法仍然依赖于仔细选择具有平衡类别分布的干净和以对象为中心的图像的数据集策展过程。相比之下，野外视频具有拥挤的场景和严重的数据不平衡。因此，同一帧的不同裁剪通常会导致不感兴趣的区域或拥挤区域中不同实例的错误对齐。此外，这些方法都没有利用包含丰富的对象移动、变形和姿态变化集合的时间信息。虽然已经有大量关于从视频学习表示的文献[43，24，44，35，12，13，41，42]，但是它们通常集中在跨帧的预测对应性上，并且在通用下游上没有显示出更好的性能。在线I1目标I210192不不语义和实例分割等任务比ImageNet的预训练监督表示[20]。在本文中，我们感兴趣的是从原始高分辨率视频中学习通用表示，这些视频对对象检测以及语义和实例分割直接有用。鉴于先前基于不变性的学习算法完全忽略了跨帧的自我运动和流变换，我们认为这些是负责复杂场景中视觉表示学习的基本元素[1]。代替如先前文献[19，6，18，16]中所提倡的强制相同图像（或相邻帧）的多个裁剪在特征空间中接近，我们提出了一个简单的流等方差目标，其可以在特征图上的每个像素处密集地应用，如图1所示。特别地，给定两个连续的视频帧，我们估计表示逐像素变换在两个框架之间。我们然后训练网络以最小化第一帧h1和第二帧-1（h2）的扭曲特征之间的距离。使用光流可确保以精确的实例对齐方式处理是还值得注意的是，可以使用来自图形模拟[2，11，26]或来自自我运动和深度估计[33]的任意一个来训练现成的流量估计器，而不需要任何人为标记的努力。实验在两个复杂的驾驶视频数据集上进行，BDD100 K [48]和我们的内部数据集Ur- banCity，它们是从移动汽车上的前置摄像头收集的，就像在野外看到移动代理一样我们的方法，从原始视频中学习，可以实现语义和实例分割任务上的竞争性读出性能令人惊讶的是，我们也能够超越ImageNet [21]的预训练表示，这可能是因为ImageNet图像和驾驶视频之间存在很大的域差距。2. 相关工作在过去的几年里，在学习没有类标签监督的视觉表示方面取得了巨大的进展[17]。通常，网络被训练来预测关于输入的某些保留信息，例如上下文[10，28]，旋转[14]，着色[49]和计数[29]。虽然它们已经显示出学习有趣的表示，但它们在分类任务上仍然明显落后于监督表示。最近，对比学习[30，40]已经成为表示学习的一个有前途的方向，缩小了与ImageNet上的监督表示的差距。高级想法是使用随机裁剪和其他数据增强来获得相同图像的不同视图以用作正标签，与用作负标签的其他图像形成对比。MoCo [19]提出在编码负的网络上执行动量平均SimCLR [6]建议增加一个非线性投影头，以使核心表示更加通用。沿着这条工作线，BYOL [18]通过简单地使用一个缓慢的网络来消除对负样本的需要，其中权重从快速网络中缓慢更新BYOL提出简单地最小化同一图像的一对视图之间的特征距离。它是目前ImageNet上表示学习的最先进方法之一然而，上述所有方法都依赖于干净的静态图像，而这些图像无法通过原始视频轻松在视频上应用对比学习似乎是一种直接的扩展。[43]提出了首先执行无监督跟踪以从视频序列中的不同帧获得图像的正和负裁剪。[35]提出了一种多视图方法，该方法试图通过匹配来自多个相机的不同视图来学习最近，[31]将相邻帧视为正对，而[32]通过类别不可知的对象检测器预处理视频。[16]提出了多标签视频对比学习。当以视频为输入时，这些方法只考虑了帧间的不变关系，而忽略了跨帧的变换。该缺点可能通过另一类自监督学习算法来补充，该算法旨在预测跨帧的某种程度的对应性或变换[1，24]。循环一致性是一种流行的自我监督形式，它鼓励帧序列上的前向流和后向流保持一致[44，22]。[12]研究了逐帧对应性，并鼓励不同视频之间的周期一致性。通常，这些方法在视频对应和标签传播方面表现出竞争性性能[44，22]，显示了对光流的粗略理解。虽然在早期文献[41，42]中可以使用流对应作为动作识别的表示，但我们希望通过提供来自现成估计器的流预测来解耦预测流对应和学习通用视觉表示之间的两个任务也有大量关于等值学习的文献。就像卷积算子是平移等变的一样，[27，7，45]在变换群上强制严格等变。相比之下，我们不强制执行严格的等方差，而是将其编码在我们的训练目标中，以实现自我监督。我们的工作与[39]最相似，后者也使用光流[52，51]扭曲特征图。而[39]试图直接回归相对坐标，我们在特征空间中使用更简单的距离损失最后，[39]产生了三维图像编码，相比之下，我们产生了通用的高维视觉表示。10193MMFM·1112图2：FlowE学习算法。给定视频I1和I2的两个图像，独立流网络预测密集光流场1→2。两个图像的增强版本v=t（I1）和v′=t′（I2）分别被馈送到在线和目标神经网络。空间维度在前向传递期间被保留逆变换T-1用于将投影表示z2扭曲到p2，使其与p1对齐。3. 方法3.1. 背景在背景部分中，我们首先回顾BYOL，一种最先进的自监督重复学习算法，我们将在其上构建我们的FlowE算法。然后我们将介绍流扭曲的基础知识。Bootstrap your own latent（BYOL）：BYOL通过将同一图像的两个不同视图匹配在一起来执行表示学习。它由两个神经网络组成在线网络在每次迭代时更新，目标网络保持权重的动量平均副本。在训练期间，在线网络将预测目标网络产生的特征，并且具有单独目标网络的动机是避免所有图像都折叠为相同表示的琐碎解决方案。更具体地，同一样本的两个增强视图v1和v2被馈送到在线和目标网络的编码器f中，以得到表示h1、h2。为了保持表示对于其他读出任务的通用性，BYOL添加了投影仪g，就像SimCLR [6]一样。g将h1，h2变换为z1和z2。最后，预测器q取z1，并试图产生与z2匹配的p1。具体地，BYOL最小化p~1和z~2之间的平方L2距离：L=p~−z~，（1）通过光流进行翘曲：光流被广泛地用于许多视频处理应用中。流场是定义两个不同视频帧之间的密集像素对应的二维向量场给定流场1→2，对于I1上的每个像素，我们可以找到I2上的相应位置，并通过双线性插值获得像素值。扭曲操作也可以应用于卷积特征图[52，51]。在我们的工作中，我们使用现成的光流预测器RAFT [38]，因为它的经验成功。3.2. 从流等方差我们的方法学习密集的像素级表示的基础上的流等方差的目标，这鼓励的功能，以遵守相同的流变换的输入，把图像对。我们的等方差目标确保了一对像素是从两个不同的视频帧中的同一对象中采样的。图2显示了我们的框架的概述。接下来，我们将详细解释它是如何工作的。光流&随机仿射变换：给定一段视频中的两幅图像I1和I2，我们使用冻结流网络来预测稠密光流场从两个图像中的1→2然后，我们通过执行随机仿射变换A1和A2来获得两个图像的增强版本：1 22v=A（I）⑵其中~表示单位归一化。注意，目标网络只通过移动平均更新，以避免折叠表示的平凡解。在完成自监督训练之后，丢弃在线网络的投影器和预测器以及目标网络，并且在线网络的编码器将被保留用于进一步读出下游任务，例如对象分类。v2= A2（I2）.（三）在[6，18]之后，我们进一步对每个图像应用随机颜色失真和高斯模糊v1和v2之间的流量变换T因此定义如下：T=A−11◦M1→2◦A2。（四）10194不不××2·算法1类PyTorch风格的伪代码。(a) 原始（b）比例（放大）(c)缩放（缩小）（d）旋转图3：随机仿射变换。我们考虑在将图像发送到网络之前添加随机缩放和旋转。对于data_loader中的I1、I2：使用no_grad（）：flow = flownet（I1，I2）# [B，2，H，W]v1，A1 = data_aug（I1）v2，A2 = data_aug（I2）h1 =编码器（v1）# f_thetaz1 =投影器（h1）# g_thetap1 =预测器（z1）#q_theta使用no_grad（）：h2 = target_encoder（v2）# f_xiz2= target_projector（h2）#g_xi#上采样以匹配流形状p1 =上采样（p1）#[B，C，H，W]z2 =上采样（z2）# [B，C，H，W]T = apply（apply（inv（A1），flow），A2）inv_T = inv（T）p2 = transform（z2，inv_T）l =损失（归一化（p1），归一化（p2））(5)l.backward（）optimizer.update（[encoder，projector，predictor]）动量更新（[target_encoder，target_projector]）然后我们将这两个视图馈送到一个在线网络fθ，gθ中以及动量更新网络fξ、gξ，以获得表示h1、h2、投影z1、z2和预测p1，如示于图二、等方差学习：我们的网络是完全卷积的，并且保留了特征图的空间维度以表示复杂视频场景的多个对象。我们建议使用等方差作为我们的训练目标-客观的具体地说，我们使用逆流−1将z2向后弯曲，得到p2=−1（z2）。我们使用预测器的在线网络输出p1与p2进行匹配.的目标仅仅是在所有空间位置上平均的平方2随后的投影器G和预测器Q也被替换为11个卷积层来处理卷积特征图。注意，通过使用11卷积，与原始BYOL相比，我们不增加额外的参数流动网络：对于光流预测，我们使用RAFT [38]作为现成的解决方案。该模型在Flying Chair [11]，FlyingThings [26]和Sin- tel [2]数据集上进行训练。所有这些数据集仅包含合成数据，没有人类标记。在我们的实验中，网络保持冻结。1L=HWp~1-p~ 22，（5）数据增强：对于颜色失真和高斯模糊，我们使用与在其中，Δ表示跨通道的单位归一化尺寸，并且H和W表示的空间分辨率卷积特征图类似于等式1中的损失，我们确保p1和p2中的每个像素对具有小的平方L2距离。完整算法：完整的学习算法以PyTorch风格总结在算法1中。3.3. 实现细节网络架构：我们使用ResNet-50作为我们的基础编码器网络。我们提高了输出的分辨率。在[50]之后，我们使用扩张卷积[3]并在编码器的最后两个阶段中移除下采样操作，这导致具有输出步幅8的编码器投影仪和预测器中的通道数量与BYOL [18]相同为了保留输出特征图的空间维度，我们移除编码器f中的最终全局平均池化层。中的线性层SimCLR [6]。对于仿射变换，我们对0进行随机缩放。五分之二0×并旋转−3030度。流程后处理：由于仿射变换和流操作由于裁剪和对象遮挡而不是严格的双射，因此在损失函数中，我们忽略任何不具有对应性的像素。然后可以通过前向-后向流一致性检查找到被遮挡的像素[37]。4. 实验我们首先在两个自动驾驶数据集Ur-banCity和BDD100 K [48]上训练我们的模型，以评估学习的表示的质量，我们将语义和实例分割以及对象检测作为使用标记图像的读出在UrbanCity上进行了烧蚀实验，验证了模型各组成部分的有效性。我们进一步测试了10195方法Miou城市mAP mIoU†mAP†MiouBDD100kmAP mIoU†mAP†随机初始化9.40.027.36.49.80.022.05.5CRW [22]19.00.031.615.219.41.734.722.9[16]第十六话30.60.947.417.823.20.139.523.8FlowE（我们的）49.65.861.719.037.65.849.824.9端到端监督63.32.267.016.552.08.056.620.0表1：UrbanCity和BDD100K的自监督学习结果，与其他自监督视频表示学习方法的比较。除了“端到端监督”条目之外，所有读出都使用冻结主干完成带有†的结果是用较重的读出标题获得的。方法列车数据Miou城市mAP mIoU†AP†MiouBDD100kmAP mIoU†mAP†监督ImageNet39.63.357.718.834.03.652.424.9SimCLR [6]ImageNet37.03.058.621.028.12.751.026.8BYOL [18]ImageNet35.42.459.819.528.32.852.426.0[16]第十六话R2V223.61.257.418.119.41.447.024.2FlowE（我们的）-49.65.861.719.037.65.849.824.9表2：UrbanCity和BDD100K上的读出结果，与在其他数据源上训练的竞争性表示学习方法进行比较。通过仅对Cityscapes数据集[8]进行读出实验来学习特征，其中模型在UrbanCity和BDD100K上训练。4.1. 数据集我们在以下包含复杂视觉场景的驾驶视频数据集上评估我们的方法。• UrbanCity是我们自己收集它包含大约15，000个视频片段，每个片段长约25秒，1080p和10 fps，共有350万帧。其中，11，580和1，643个图像被密集标记，分别用于训练和验证。它们包含7个实例类和13个语义类。我们从视频中均匀采样了256，000帧，0.4第二时间间隔作为训练帧对。在读取设置中，我们使用带注释的train和val split来执行语义和实例分割任务。• BDD100K[48]是一个大规模的自动驾驶数据集，包含100，000个未标记的街景原始视频片段，每个片段长约40秒，720p和30 fps。它捕捉不同的天气条件，包括晴天，阴天和雨天，以及一天中的不同时间，包括夜间。类定义与Cityscapes [8]相同，后者由8个实例组成用于对象检测的19个类，以及用于语义分割的总共19个类7,000个train和1,000个val图像被密集标记用于语义分割;标记70，000个序列，10，000个val图像用于对象检测。我们使用官方训练分割中的70，000个视频片段来执行自我监督学习。在每次迭代中，我们将从视频中随机采样两个时间间隔为0.5秒的帧，并且不应用进一步的过滤为了评估，我们使用的注释图像进行读出实验的语义分割和对象检测。• Cityscapes[8]是另一个自动驾驶数据集，包含城市环境中以自我为中心的驾驶场景的5000张图像，这些图像被分为2975、500和1525张，分别用于训练、验证和测试。它由8个实例类和11个语义类组成。由于缺乏大量的标记数据，我们有兴趣研究是否可以很容易地将从其他源视频数据集学习到的表示转移到一个新的数据集。因此，我们使用在UrbanCity和BDD100K上预训练的模型对Cityscapes进行读出4.2. 竞争性方法我们比较了以下最近用于从视频数据中进行表示学习的竞争性10196××∼ ××• CRW[22]是一种自我监督的方法，用于学习视觉对应的表示。我们使用具有0.1秒时间间隔的5帧作为输入。• VINCE[16]是利用多标签对比对象的最新视频表示学习方法我们还训练了一个VINCE模型，这是最近提出的一种方法，它扩展了MoCo [19]并从视频中学习我们使用具有0.1秒时间间隔的4帧的输入。为了公平比较，我们在我们的驱动视频数据集上训练这些方法此外，我们还将我们的方法与ImageNet的预训练SimCLR [6]和BYOL [18]进行了比较。请注意，我们也尝试在驾驶视频上应用Sim- CLR和BYOL，但它们往往表现得很差，因为它们是为主要是单个对象的干净视觉场景设计的。因此，我们将这些结果推迟到补充材料中。4.3. 实验装置流程E：我们使用64个GPU，每个GPU具有2个视频帧对。LARS [47]优化器与余弦衰减学习率计划一起使用，无需重新启动[25]，初始学习率为0.1，权重衰减为 1 e-6 。目标网络的指数移动平均参数对于UrbanCity，我们将随机缩放图像对0的情况。751 .一、25 ，并随机裁剪5121024在两个图像的相同位置处的补片对;模型运行160，000次迭代（80个时期）。对于BDD 100 K，我们首先将图像上采样为1080 - 1920，并遵循与UrbanCity相同的设置;模型运行了60，000次迭代（110个epoch），值得注意的是，性能尚未饱和，更长的迭代可能会产生更好的性能。读数设置：对于语义分割任务，我们在两个数据集上训练了60，000次SGD迭代的模型，其中批量大小为16，初始学习率为0.02，并且“poly”学习率下降时间表[ 4 ]。大小为512 - 1024的块从图像中随机裁剪，所述图像被随机调整大小，短边从512到2048。对于UrbanCity上的实例分割任务，我们训练了32个SGD时期的模型，批量大小为8，初始学习率为0.01，衰减因子为0.128.使用多尺度训练，短边从800到1024。对于BDD100K上的目标检测任务，我们训练了12个SGD时期的模型，小批量大小为16，初始学习率为0.02，衰减因子为0.1，分别在时期8和11，我们保持图像分辨率不变，不应用多尺度训练。标准读数头：在我们的读出设置中，编码器被冻结，只训练新添加的层。就像Ima-geNet [19，6，18]上的线性评估协议一样，我们的目标是添加尽可能少的参数。因此，我们使用DeepLab v1 [3]作为我们的语义分割模型，因为它没有像DeepLab V3 [5]那样额外的重型解码器。除了在编码器中使用扩张卷积之外，仅在编码器的顶部添加一个卷积层以输出每像素分类logit。类似地，对于BDD 100 K上的对象检测，我们使用更快的R-CNN和ResNet-C4架构，这是在[21]中提出的。只引入了少量参数：一个小的convnet RPN [34]和两个用于边界框分类和回归的线性例如，在UrbanCity上的分割，使用相同的ResNet-C4架构，其中添加了两个以上的卷积层，例如掩模预测，如在[20]中所较重的读数头：虽然我们认为标准读出头应该主要用于评估表示的质量，因为存在较少数量的额外参数，但它们可能不足以捕获用于语义和实例分段的复杂输出结构。为了提供更强的比较，在LoCo [46]之后，我们还使用更重的报头执行读出，例如DeepLab V3解码器和FPN风格的Faster和Mask R-CNN，其中使用这些模型获得的结果用mIoU和mAP来表示。4.4. 主要结果UrbanCity 和 BDD100K 培训结果： UrbanCity 和BDD100K的结果如表1所示。我们将FlowE与各种基线进行比较，包括随机初始化（从随机投影读出），VINCE [16]和CRW [22];并且我们的方法能够以较大的幅度超越它们CRW的语义分割性能较差，因为它专注于视频对应作为其训练目标，并且不容易区分不同类别的静态对象的特征对于VINCE，我们可以看到它可以成功地从视频数据中学习一些然而，我们的方法仍然明显更好。基于其他数据训练的结果：我们还将 FlowE 与在ImageNet等其他数据集上训练的方法进行了比较，包括监督学习，ImageNet上的SimCLR [6]和BYOL [18]以及R2V2上的VINCE [16][ 16]。结果示于表2中。我们简单地冻结预训练的模型权重，并在UrbanCity 和BDD100K上进行读出实验。对于监督学习基线，我们使用 Torchvi- sion 提供的 ResNet-50 检查点对于SimCLR，我们使用我们自己的实现，并在ImageNet上训练了一个具有69.8% top-1准确率的模型。为10197标签%1% 10% 100%端到端监督42.0FlowE（我们的）53.959.5 63.364.0 68.8像素基于仿射变换光学流Miou地图mIoU†mAP†方法列车数据mIoU mAPmIoU†mAP†✓21.30.740.112.3✓✓28.72.745.915.1✓✓37.33.351.916.2✓✓17.80.733.110.937.93.853.216.5✓✓✓表3：不同设计选择的消融研究。数字显示UrbanCity上的语义分割和实例分割读出结果。BYOL和VINCE，我们使用作者在线发布的权重。在大多数情况下，我们的方法可以优于或保持与其他强基线相当，特别是在使用标准读出头时。值得注意的是，Superved/SimCLR/BYOL是三个非常强大的基线，它们在ImageNet上进行了预训练，ImageNet是一个大规模和高度策划的数据集。尽管要击败这些最先进的ImageNet方法并不容易，但我们仍然在四个指标中的三个指标上超越了它们。重要的是，我们的框架可以直接从原始视频数据中学习语义上有意义的表示，使其适用于现实世界的应用程序，其中离线策划的数据集不可用。4.5. 消融研究我们进行了消融研究，结果见表3。所有条目都经过16K次迭代训练，以加快实验速度。当将视频数据与流匹配一起使用时，我们可以看到巨大的性能改进，表明从视频中导出的等方差目标的重要性。对于非基于像素的变体，我们简单地在编码器之后使用全局平均池化并获得向量表示。它在读出任务上的不良表现表明保持表示的空间维度的必要性。随机仿射变换也可以带来一些额外的收益。最后，我们的完整模型实现了最佳性能。4.6. 城市景观中的代表性可转移性当在新的驾驶数据集上存在有限的标记数据时，通常期望从另一源的大规模未标记驾驶视频学习无监督表示。然而，标准的自监督方法仅适用于对象较少的静态图像虽然ImageNet预训练的检查点在线可用，但可能存在较大的域差距。在本节中，我们通过在Cityscapes数据集上执行语义和实例分割读出实验来进一步测试FlowE的学习表示的可转移性[8]。我们的模型是在我们的-表4：具有从其他数据集学习的表示的Cityscapes上的读出结果表5：在UrbanCity上具有有限标记数据的语义分割结果。我们将FlowE与端到端监督基线进行比较。我们的模型在未标记的视频上进行预训练，然后在标记的数据上进行微调。banCity和BDD100K。按照通常的做法，例如分割，我们训练64个时期，批量大小为8，初始学习率为0.01，在时期56衰减10倍;对于语义分割，我们用批量大小为8、初始学习率为0.01的“poly”学习率衰减时间表来训练40，000次迭代。结果示于表4中。结果与表2中的评估高度一致，与ImageNet预训练相比，我们的方法可以表现得更好或更好，这表明我们的方法可以被视为从大量未标记视频中引导表示的更好的替代方法。我们还尝试使用在Flying Chair，Flying Things和Sintel（C+T+S）上训练的RAFT模型的中间激活具体来说，我们使用RAFT特征编码器作为骨干来取代ResNet-50，并添加DeepLab v1/v3解码器作为标准/更重的头部，用于语义分割读出。结果清楚地表明，从光流模型表示不包含丰富的语义信息4.7. 有限标记数据另一个非常实用的设置是半监督学习，其中记录了大型视频数据集，但仅注释了数据集的非常小的部分。为了研究我们的算法是否可以减少对标记数据的依赖，我们从UrbanCity随机抽取1%，10%的标记数据，并在语义分割的监督任务上微调我们的预训练模型。我们将其与端到端监督学习基线进行比较。如表5所示，在标签稀缺时，对未标记的视频数据进行预训练可以显著提高性能监督ImageNet43.8 6.159.9 25.3SimCLRImageNet39.9 5.060.328.9BYOLImageNet38.2 4.159.8 27.4文斯R2V226.7 1.157.5 25.6筏C+T+S10.5-32.4-FlowE（我们的）BDD100k45.6 5.756.6 25.3FlowE（我们城市51.1 7.463.728.110198图4：读数可视化。左图：UrbanCity上的实例分割;中：BDD 100 K上的物体检测;右图：Cityscapes上的语义分割。对于UrbanCity和BDD100K，模型在具有较重读出头的相应数据集上进行训练。对于Cityscapes，我们使用带有标准读出头的UrbanCity预训练模型。并且即使当使用100%的标记数据时，预训练仍然是有益的。4.8. 可视化我们在图 4 中显示了 UrbanCity 上的实例分割、BDD100K [48]上的对象检测和Cityscapes [8]上的语义分割的可视化结果。对于UrbanCity和BDD100K，模型在具有较重读出头的相应数据集上进行训练。对于Cityscapes，我们使用UrbanCity预训练模型和标准读出头，它在所有像素上只有一个简单的线性分类层。我们的模型可以为这些分割任务产生令人印象深刻的结果。4.9. 限制我们观察到，当使用较重的读出头而不是标准读出头时，在ImageNet上训练的模型我们注意到，在这些情况下，我们的方法在实例上的性能要差得多类，如骑手和摩托车，这通常是罕见的数据集。这可能是由于使用基于像素的目标时数据不平衡造成的仅仅依赖等方差目标和缺乏不变性目标也可能牺牲一些更高级别的表示，因为当使用更重的读出头时，我们的方法没有像ImageNet预训练模型那样改进。5. 结论在本文中，我们提出了一个新的自监督表示学习框架的基础上流等方差对象。我们的方法是能够学习像素级表示，从原始的高分辨率视频与复杂的场景。驾驶视频的大规模实验表明，我们的无监督表示是有用的对象检测，语义和实例分割，并在许多情况下执行国家的最先进的表示从Ima-geNet。10199引用[1] Pulkit Agrawal、Joao Carreira和Jitendra Malik。学习通过移动来观察。在IEEE计算机视觉国际会议论文集，第37-45页，2015年。2[2] Daniel J Butler 、 Jonas Wulff 、 Garrett B Stanley 和Michael J Black。一个用于光流评估的自然开源电影。欧洲计算机视觉会议，第611-625页。Springer，2012.二、四[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割arXiv预印本arXiv：1412.7062，2014。四、六[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2017。1、6[5] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 6[6] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv：2002.05709，2020。一、二、三、四、五、六[7] 塔可·科恩和麦克斯·威林群等变卷积网络。在机器学习国际会议上，第2990-2999页，2016年。2[8] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213五七八[9] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展，第379-387页，2016年。1[10] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在Proceedings of theIEEE international conference on computer vision，pages1422-1430，2015中。2[11] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在IEEE计算机视觉国际会议的论文集，第2758-2766页，2015年。二、四[12] Debidatta Dwibedi，Yusuf Aytar，Jonathan Tompson，Pierre Sermanet，and Andrew Zisserman.时间周期一致性学习。在IEEE计算机视觉和模式识别会议论文集，第1801- 1810页一、二[13] Debidatta Dwibedi，Yusuf Aytar，Jonathan Tompson，Pierre Sermanet，and Andrew Zisserman.报数时间：班级不可知的视频重复计数。在IEEE/CVF计算机视觉和模式识别会议论文集，第10387-10396页，2020年。1[14] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。arXiv预印本arXiv：1803.07728，2018。2[15] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页1[16] Daniel Gordon ， Kiana Ehsani ， Dieter Fox ， and AliFarhadi. 观看世界经过：从未标记的视频中进行表示学习二、五、六[17] Priya Goyal 、 Dhruv Mahajan 、 Abhinav Gupta 和 IshanMisra。缩放和基准自我监督的视觉表示学习。在IEEE国际计算机视觉会议论文集，第6391-6400页2[18] Je a n-BastienGrill ， FlorianStrub ， FlorentAltch e´ ，CorentinTallec，PierreHRichemond，ElenaBuchatskaya ， Carl Do- ersch ， Bernardo Avila Pires ，Zhaohan Daniel Guo，Moham- mad Gheshlaghi Azar，etal. Bootstrap你自己的潜在：一种自我监督学习的新方法。arXiv预印本arXiv：2006.07733，2020。一、二、三、四、五、六[19] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729二、六[20] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页二、六[21] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。一、二、六[22] Allan Jabri、Andrew Owens和Alexei A Efros。作为对比随机游走的时空对应arXiv预印本arXiv：2006.14613，2020。二、五、六[23] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。Communications of the ACM，60（6）：84-90，2017。1[24] Xueting Li ， Sifei Liu ， Shalini De Mello ， XiaolongWang，Jan Kautz，and Ming-Hsuan Yang.时间对应的联合任务神经信息处理系统进展，第318-328页，2019年。一、二[25] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr：Stochas-tic 梯度下降与热重启。 arXiv 预印本 arXiv ：1608.03983，2016。6[26] Nikolaus Mayer ， Eddy Ilg ， Philip Hausser ， PhilippFischer ， Daniel Cremers ， Alexey Doso

下载后可阅读完整内容，剩余1页未读，立即下载