没有合适的资源?快使用搜索试试~ 我知道了~
7546MultiSiam:用于自动驾驶的陈凯1洪岚清2许航2李振国2迪特-杨燕11香港科技大学2华为诺亚kai. connect.ust.hk{honglanqing,xu.hang,li.zhenguo}@dyyeung@cse.ust.hk huawei.com摘要多年来,自动驾驶引起了人们的广泛关注,但事实证明比预期的要困难,这可能是由于难以收集用于模型训练的标记数据自监督学习(SSL),它只利用未标记的数据进行表示学习,可能是一种很有前途的方法来提高模型的性能。然而,现有的SSL方法通常依赖于单中心对象保证,这可能不适用于多实例数据集,例如街道场景。为了减轻这种限制,我们提出两个问题来解决:(1)如何定义跨视图一致性的正样本以及(2)如何在多实例情况下测量相似性。我们首先在随机裁剪过程中采用IoU阈值,将全局不一致性转换为局部一致性。然后,我们提出了两种特征对齐方法,使二维特征图的多实例相似性测量。此外,我们采用自注意的图像内聚类进一步挖掘图像内的相似性和平移不变性。实验表明,当在Waymo数据集上进行预训练时,我们的方法称为多实例暹罗网络(MultiSiam)显着提高了泛化能力,并在自动驾驶基准测试中实现了最先进的传输性能,包括Cityscapes和BDD 100 K,而现有的SSL同行如MoCo,MoCo-v2和BYOL显示出显着的性能下降。通过在大规模自动驾驶数据集SODA 10M上进行预训练,MultiSiam超过了ImageNet预训练的MoCo-v2,展示了特定领域预训练的潜力。代码将在https://github.com/KaiChen1998/MultiSiam网站。1. 介绍近年来,自动驾驶引起了广泛关注[19,15,32]。然而,在这样一个人工智能进步的时代,这比人们预期的要难。全自动驾驶汽车仍然遥不可及,除非在特殊的试验计划中,主要是由于每个车型的限制。图1. Waymo [20](左)和ImageNet [9](右)上不同随机作物的可视化。在ImageNet上,图像很小,并且经过预处理,以保证只有一个对象位于其中心部分(即单中心对象)。然而,Waymo的图像分辨率很高,并且包含多个实例。不同的随机裁剪可以表示不同的语义(即,全局不一致性),这将限制当前自监督学习方法的有效性。表演。其中一个主要限制是自动驾驶数据集的注释成本比其他数据集昂贵得多。考虑到自动驾驶汽车在运行时不断收集未标记的数据,自监督学习(SSL)可能是一种有前途的方法来减轻对标记数据的需求并提高模型性能,其仅使用未标记数据在不同的下游任务现有的SSL方法主要基于实例判别和跨视图一致性框架,其基本假设是不同的视图(例如数据增强)应该在不同度量下在特征空间中是一致的,例如余弦距离[10,7]、聚类分配[4]和不一致性。负样本的犯罪性[27,21,5,12,6,18],这个假设在ImageNet等单中心对象数据集上得到了很好的满足然而,在自动驾驶中,7547数据通常是高分辨率图像,在单个图像上包含多个实例(参见图1中的说明)。在这里,我们定义实例为任何单独的对象,无论其语义类以下吴等。[27]第10段。在这种情况下,不同的作物可能对应于不同的实例,并表示不同的语义,这导致多实例图像的全局不一致性。实例区分和交叉视图一致性的有效性不再能够得到保证。为了使现有的实例区分和跨视图一致性框架适应多实例环境,我们需要解决两个问题:(1)如何定义跨视图一致性的正样本,以及(2)如何计算多实例图像内的两个随机生成的视图的相似性。考虑到图像的局部性,我们首先在随机裁剪期间添加IoU阈值作为代理,以控制两个视图彼此不太远,并将全局不一致性转换为局部一致性。为了区分不同的实例,我们维护骨干网络的最终2D特征图,并提出RoI对齐和偏移对齐来解决由其引入的特征未对齐(参见图4(a)),这在采用全局池化层时通常被忽略。此外,我们观察到在多实例环境中自然存在的聚类层次结构,因此为了对实例之间的关系进行建模,我们在单个图像内执行聚类不是为了图像间相似性[2,4],而是为了进一步挖掘图像内相似性。为了缓解聚类分配的模糊性,我们部署了一个自我注意机制与预测器,以更精确的聚类预测。在学习的表示中也增强了平移不变性,这有利于下游像素级视觉任务,如语义分割。这项工作的主要贡献包括三个部分:1. 我们提出了多实例暹罗网络(MultiSiam)的跨视图一致性框架扩展到多实例的情况下,通过处理正样本的定义和相似性度量的二维特征图。2. 在 Cityscapes [8]和 BDD 100 K [31]上的 实验 表明,与MoCo,MoCo-v2和BYOL相比,在Waymo[20]上预训练的MultiSiam对多实例数据集具有更强的泛化能力,并在下游自动驾驶基准上实现了最先进的传输性能。此外,MultiSiam在大规模自动驾驶数据集SODA 10 M [11]上进行了预训练,超过了ImageNet预训练的MoCo-v2,揭示了特定领域预训练的潜力。3. 据我们所知,我们的工作是第一个在大规模高分辨率多实例街道场景数据集(例如,街道场景)上执行自监督学习的工作。Waymo),这将有利于在进一步的自动驾驶研究中赋予SSL权力2. 相关工作对比学习。 对比学习广泛用于自监督表示学习,其已经显示出对各种任务的有希望的性能[27,21,5]。12、6、18、22]。主要思想是将每个图像视为一个单独的类,并训练模型以使用InfoNCE损失将正样本对拉得更近,同时将负样本对推离[23]。MoCo [12,6]提出用暹罗网络维护负样本的队列,并将网络的一个分支移位到动量编码器中以提高队列的一致性。然而,SimCLR [5]直接使用当前批次中共存的阴性样本。对比学习需要将每个正样本与许多其他负样本进行比较才能正常工作,这通常是通过从大量单中心对象图像中裁剪来实现的。然而,在诸如街道场景的多实例数据中,来自单个图像的两个随机裁剪可能对应于不同的实例,导致现有对比方法可能无效集群。聚类是无监督表示学习的另一种流行范式[2,3,1,4]。其主要思想是考虑每个集群作为一个单独的类,而不是每一个单一的图像作为对比学习不捕捉图像之间的相似性,通过聚类的表示和学习预测的集群分配交替。Deep Cluster [2]基于当前表示迭代地对所有图像进行聚类,并将聚类索引视为伪标签,以从头开始训练分类器虽然不需要负样本,但引入了昂贵的离线聚类过程。SwAV [4]通过从一个分支计算分配并在每个批次的平衡分区约束下从另一个分支预测分配来与以前的方法不同,在建议的MultiSiam,我们执行聚类,而不是整个数据集内的一个单一的图像,以进一步发现图像内的相似性,在多实例cir- cumstances。余弦相似性。负样本和聚类都被认为对防止自监督学习中的模型崩溃是有用的。BYOL [10]提出了一种仅具有余弦相似性的跨视图一致性框架,该框架可以在动量目标网络的帮助下产生有意义的表示。SimSiam [7]进一步指出,停止梯度操作是防止基于EM类假设的模型崩溃的关键组成部分。由于其简单性和有效性,我们采用BYOL作为我们的基线模型,并表明图像内聚类是一个更好的相似性度量在多实例的情况下。7548查看详情在线网络查看详情目标网络(a)������������������(������,���������)≥0。五个?二维聚类一致性1D图像级一致性(Δ,Δ)������2(1)RoI路线(2)偏移路线(b)特征对准������������������(⋅,⋅)预测梯度������������(⋅)一致性质心������������������ans(⋅)(c)二维聚类一致性图2. MultiSia m的模型结构。(a)仅当Iout值大于给定阈值时,才馈送两个视图v和v’用于进一步计算。(b)我们维护2D特征图,并提出两种方法用于投影和翻转后的特征对齐(更多细节见图4)。RoI对齐仅提取相交区域的特征,而偏移对齐将坐标偏移图提供给预测器以用于隐式特征对齐。(c)在对齐的目标特征图上执行图像内聚类,并且在线网络需要预测聚类质心。我们部署了一个自我注意机制来处理聚类的模糊性。3. 方法在本节中,我们将首先介绍BYOL [10]网络在第3.1节中,它可以实现最先进的传输性能,而不需要任何负样本L1Dimg−cos(q,z′)=−∠q,z′∠||Q||2·||z′||2、(1)或群集。由于其有效性和简单性,我们选择BYOL作为我们的基线模型。 然后我们扩展通过讨论两个问题,提出了多实例环境下的跨视图一致性框架:如何定义正样本和如何在多实例图像中度量相似 性 , 并 分 别 在 3.2 和 3.3 节 中 提 出 我 们 最 终 的MultiSiam模型。3.1. 初步:BYOL给定单个图像x,BYOL通过最大化特征空间中两个随机视图v和v’的相似性来BYOL首先随机生成两个视图vT(x)和v′T′(x),然后分别输入在线网络和目标网络。在线网络由具有全局池化层、MLP投影器和MLP预测器的主干组成,而目标网络共享除最终预测器之外的相同架构。为了防止模型崩溃,BYOL在目标网络上采用了停止-梯度操作.最后,BYOL最小化在线其中cos(·,·)是余弦相似度,q和z’都是1D特征向量。为了进一步提高性能,BYOL将目标网络ξ的参数更新为在线网络参数θ的指数移动平均值,如下所ξ←τξ+(1−τ)θ,(2)其中τ∈[0,1]是动量,并且将增加到1.0,直到训练结束。3.2. 多实例数据中的正样本实例判别的基本假设是同一图像的不同视图在特征空间中应该是一致的。然而,这种强假设仅在ImageNet [9]上得到很好的满足,具有单中心对象保证 ,但 无法 扩展 到 更真 实的 数据 集 ,如Waymo[20],如图1所示。肯定需要一个新的定义,积极的样本,以扩展跨视图一致性框架的工作,多实例的情况。7549查看详情未对准查看详情(a) 原始图像(b)IOU = 0.3(c)IOU = 0.5(d)IOU = 0.7图3. Waymo上具有不同Intersection-over-Union值的随机作物(每列)。(a)原始图像;(b)IoU = 0。3;(c)IoU = 0。5;(d)IoU = 0。7 .第一次会议。 当IoU =0时。月3两种随机作物遭受全球不一致性。随着IoU值的增加,两个随机视图被限制在局部区域内,并且局部一致性增加。当IoU= 0时。7、两种观点看起来几乎是一样的。如第4.3节所示,IoU在数据增强期间控制噪声和数据复杂性之间的权衡Intersection-over-Union作为代理。图像是连续的自然信号,具有很强的局部性。在多实例情况下发生不一致的主要原因之一是两个随机作物可能彼此远离。考虑到图像的局部性,如果两个视图“足够接近在这里,我们建议使用Intersection-over-UnionIoU(v,v′)作为两个随机作物有多接近的代理,并在数据增强期间设置额外的IoU阈值。仅当两个视图的IoU(v,v’)大于预定义阈值时,才使用这两个视图进行进一步计算。我们在图3中展示了不同的IoU值将如何影响两种随机作物的一致性。当IoU(v,v′)= 0. 3,我们仍然可以看到汽车在底部作物但顶部作物已主要被车库占用 随着IoU(v,v′)的逐渐增大,两种作物的语义趋于一致,当IoU(v,v′)=0时,两种作物的语义趋于一致。7、两种观点看起来几乎是一样的。在第4.3节中,我们将展示使用不同的IoU阈值实际上是数据增强期间噪声和数据复杂性之间的权衡。如果未指定,则我们在所有实验中将IoU阈值默认设置为0.5(a) 特征未对准查看详情查看详情查看详情(Δ,Δ)查看详情(b) RoI对齐(c)偏移对齐图4.两个随机视图的特征未对准(即,蓝框和绿框)在局部区域中(即,黑盒子)。(a)特征未对准:V和V’的右上角表示不同的像素,因此不再存在一一对应关系;(b)RoI对齐:使用RoI对齐[13]来提取重叠区域的特征(即,红框);(c)偏移线形:计算相同相对位置处的每个像素对的坐标偏移以得到偏移图ΔC,然后将其与投影的在线2D特征图G = gθ(F)连接并馈送到预测器中。通过2D特征图进行一致性学习。即使使用IoU阈值,单个crop中也可能存在多个实例,如图3(d)所示。现有的方法都是在主干的末端部署一个全局池化层来产生一个一维特征向量,这将丢失二维特征空间的空间和结构信息,并且模型不再能够区分不同的实例。因此,我们丢弃全局池化层并保持在线和目标骨干网络的最终2D特征映射F,F ′∈ RH×W×C。同时,我们用1 × 1卷积层替换投影仪和预测器中的MLP,以便在保持参数数量不变的情况下匹配2D结构。特征未对准。然而,天下没有免费的午餐。使用2D特征图引入了另一个特征未对准问题,当全局池化层可用时,该问题尚未被考虑,如图4(a)所示v和v′的右上角位于不同的位置。一对一对应(例如,v的右上角对应于v′的右上角)不再存在,因为我们对两个视图应用了不同的空间增强。为了检索对应关系,我们提出了两种对齐方法:RoI对齐和偏移对齐。(1) RoI对齐。由于IoU阈值保证v和v’之间的非平凡重叠,因此RoI对齐将重叠区域视为两个视图的感兴趣区域,并使用RoI对齐[13]来提取帧间特征7550i、ji、j仅截面区域我们将两个视图中重叠的相对框坐标R=RoIAlign(gθ(F),B),(3)R′=RoIAlign(gξ(F′),B′),(4)其中gθ(·)和gξ(·)是在线网络和目标网络的投影器 如果未指定,则默认情况下,R和R′的空间分辨率与F和F ′相同。(2) 偏移对齐。虽然保证了精确的特征对齐,但RoI对齐并未充分利用(类别)(实例)(像素)非重叠区域的信息。出于Liu等[16],我们提供坐标偏移映射∆C∈(a) 聚类层次(b) 类集群(c)实例集群从投影的在线2D特征图G=gθ(F)到投影的目标特征图G′=gξ(F′)的RH×W×2,作为预测器的附加信息,用于隐式特征对齐,如图4(c)所示。具体i∈[1,H],j∈[1,W],我们定义偏移映射∆C为:图5. Waymo上的聚类层次(a)从类聚类到实例和像素聚类;(b)类聚类:属于同一语义类的不同实例的像素;(c)实例聚类:属于同一实例的像素。集群实际上是一个相对的概念。相同的像素P可能属于∆C坐标(G′ )−coord(Gi、j)、(五)在(b)和(c)的不同上下文中的不同集群。i、jcoord(GH,W)−coord(G1, 1)基于以上分析,我们认为聚类还可以其中coord(·)返回原始图像中给定像素的相应坐标。请注意,∆C应通过v的大小进行归一化,以减小方差,因为具有偏移对齐的预测器实际上是在估计条件期望(更多详情请参见第4.3节和附录A)。则R和R’可以表示为:R=concat(gθ(F),∆C),(6)R′= gξ(F ′)。(七)在特征对齐之后,模型可以恢复一个-以进一步捕获图像内相似性。具体来说,我们在对齐的目标特征图R’上部署K-means算法,以获得每个像素的指定聚类质心,表示为Kmeans(R’)。然后将对齐的在线特征图R馈送到预测器中以预测聚类分配qθ(R),由于特征对齐之后的一一对应关系,聚类分配q θ(R)应该与每个像素的K均值(R′)一致该网络将为同一集群Ri,j与R′的一一对应对于i∈从而也促进了平移不变性。[1,H],j∈[1,W].3.3. 二维特征映射的相似性度量使用2D特征图,我们可以对不同实例之间的关系进行建模。我们发现在多实例环境中自然存在从类簇到实例簇和像素簇的簇的层次结构,如图5(a)所实例聚类是指属于同一实例的像素另一方面,类聚类建议属于相同语义类的不同实例的像素也应该形成单独的聚类。此外,像素簇是指共享共同特征的像素组。自我关注。如图5(b)和(c)所示,集群实际上是一个相对概念。相同的像素P在不同的上下文下可能属于不同的簇。这里,我们将Person类集群和Adult实例集群视为不同的集群,因为它们具有不同的质心,即使理想情况下Adult可能是Person的子集。然而,预测器qθ(·)仅由局部操作的1×1需要一个“全局在这里,我们部署了与Xie等人相同的非本地网络风格[24]自我注意模块。[29]第10段。具体地,对于i∈[1,H],j∈[1,W],Ri,j的最终聚类预测Qi,j被定义为:特征如像素强度(例如,超像素)。这种层次结构在自动驾驶数据集中更常见(例如,ΣHQi,j=ΣWsim(Ri,j,Ri′,j′)·qθ(Ri′,j′),(8)Waymo [20]),其语义类集相对较小。图像内聚类。聚类以前在SSL中主要用于挖掘图像间的相似性[2,4],以减少对比学习期间的假阴性。然而,在这方面,i′=1j′=1其中qθ(·)是原始局部预测器,sim(·,·)是相似度函数,定义为:sim(Ri,j,Ri′,j′)=(max(cos(Ri,j,Ri′,j′),0))2.超像素超像素成人女孩人7551(九)7552i、j方法预训练数据集历元城市景观BDD100k地图AP50Miou地图AP50Miou随机初始化监督-ImageNet-9025.432.951.159.665.374.616.421.930.440.050.758.8[27]第二十七话ImageNet20033.060.173.321.438.957.2SwAV† [4]ImageNet20033.962.473.022.540.857.1BYOL† [10]ImageNet20033.862.975.121.839.359.1MOCo† [12]ImageNet20032.359.375.322.440.459.7MoCo-v2† [6]ImageNet20033.960.875.723.141.360.0BYOL [10]Waymo32528.830.531.431.8 +3。032.2 +3。434.1 +5。355.757.159.459.6 +3。959.9 +4。261.7 +6。069.473.973.674.1 +4。775.5 +6。175.8 +6。418.121.020.921.1 +3。021.8 +3。723.5 +5。433.839.138.939.3 +5。540.2 +6。442.7 +8。953.757.056.657.6 +3。956.9 +3。260.3 +6。6MoCo [12]Waymo325MoCo-v2 [6]Waymo325MultiSiamWaymo325MultiSiam††Waymo325MultiSiamSODA5M55表1. Cityscapes和BDD100K实例和语义分割的比较。度量包括用于例如分割的掩码mAP和AP50以及用于语义分割的mIoU(1)BYOL,MoCo和MoCo-v2都遭受了全局不一致性和性能下降,从ImageNet到Waymo,(2)但直接基于BYOL的MultiSiam恢复了其下降,并表现出更好的泛化能力,在Waymo预训练中实现了最先进的性能(3)通过在SODA 5 M上进行预训练,MultiSiam超过了ImageNet预训练的MoCo-v2,揭示了特定领域预训练的潜力†:我们采用官方发布的预训练权重并报告微调结果。††:基于MoCo的MultiSiam的简单实现。最终的2D聚类一致性损失被定义为:如果先前应用了水平翻转,则在特征对齐之前将投影的2D特征图向后所有的预兆-ΣHL2D集群HWΣW−cos(Qi,j,Kmeans(R′))。站点参数与BYOL保持一致。培训详情。我们采用标准ResNet-50 [14]作为i=1j =1(十)骨干网。 动量从0.996开始与1D图像级一致性合并。我们还保留了第3.1节中定义的1D图像级一致性分支,因为它有效地提高了分类性能。分类和定位对于视觉感知任务如语义分割都 是 重 要 的 。 我 们 以 多 任 务 学 习 方 式 制 定MultiSiam,最终损失函数是1D图像级一致性和2D聚类一致性的加权和:LMultiSiam=λL1 D img+(1-λ)L2 D cluster,(11)其中平衡权重λ默认设置为0.5。4. 实验4.1. 实现细节数据集。我们主要在广泛使用的Waymo Open [20]自动驾驶数据集上预训练MultiSiam,该数据集由大约79万张训练图像组成图像大小范围从(1920,968)到(1920,1280)。数据扩充。我们遵循BYOL [10]中的标准数据增强流水线,并采用所提出的IoU阈值。 生成IoU大于预定义阈值(默认为0.5)的两个随机作物,并将其分配给第一作物。在训练过程结束时逐渐增加到1.0。我们使用LARS[30]优化器和余弦学习率调度器进行大批量训练。基本学习率设置为1.0,它将随批量大小线性缩放(lr = lrbase× bs/256)。权重衰减设置为1 e-5。我们使用一批大小为1024运行在8特斯拉V100 GPU每个实验。我们在Waymo上预训练了325个epoch,以保持类似的训练迭代,并在Ima-geNet上训练了200个epoch,以进行公平的比较。对于消融研究,我们采用150个epoch预训练,然后在Cityscapes [8]val集上进行评估,4.2. 传输设置和结果基线。在本文中,我们选择强BYOL [10],MoCo [12]和 MoCo-v2 [6] 作 为 我 们 的 基 线 方 法 。 我 们 使 用OpenSelfSup1作为我们的代码库来预训练Waymo上的所有基线方法,并根据Cityscapesval集150 epochs预训练的传输结果调整超参数,以获得更好的性能。传输设置。我们选择广泛使用的Cityscapes [8]和BDD100K [31]实例以及自动驾驶的语义分割作为下游任务,使用Detectron2 [26]为两个数据集调整MoCo[12例如分割,我们微调a然后调整到224×224,接着是随机水平线-语音翻转、颜色抖动、高斯模糊和日晒。我们翻转1https://github.com/open-mmlab/OpenSelfSup17553#群集K距离度量密集Miou(a) IoU阈值0.3✓69.20.4✓68.60.5✓70.00.6✓69.70.7✓69.2(b) 特征对齐方法表2.阳性样本定义上的消融。(a)IoU阈值;(b)特征对准。所有结果均在三次独立试验中在Cityscapesvalset上进行评价。Mask R-CNN检测器(FPN-主干)用于24 k次迭代,而FCN-16 s [17]被训练用于90 k次迭代以进行序列分割。我们在两个训练集上训练模型,并分别在相应的val集上进行评估讨论我们在表1中报告了最终转移结果。从ImageNet到Waymo,所有基线方法都遭受了显著的性能下降,揭示了当前模型的全局不一致性的脆弱性。然而,我们的MultiSiam恢复了减少,并且更好地概括了多实例情况。与我们的直接BYOL基线相比,MultiSiam分别提高了3.0%/3.0%的mAP和4.7%/3.9%的mIoU以及语义分割,超越了强大的MoCo基线,并在Waymo预训练中实现了最先进的性能。为了验证聚类的指导效果,我们还在没有K-means的情况下训练了MultiSiam (更多细节见附录B.1),并在Cityscapes 和 BDD 100 K 上 实 现 了 71.0% 和 54.8% 的mIoU,这明显比MultiSiam差,这表明K-means可能有助于在自监督学习期间产生更强大的目标。特定领域的预培训。虽然是一个自动驾驶数据集,但Waymo在数量(0. 79 M vs 1. 28 M)和质量(例如, 前景和背景的不平衡),这可能会损害Waymo表示的性能我们进一步在大规模自动驾驶数据集SODA 10 M [11]上预训练MultiSiam ,使用类似的GPU时间进行ImageNet预训练,并超过ImageNet预训练的MoCo-v2,如表1所示,揭示了特定领域预训练的潜力。由于硬件重新-(a) 簇数K3余弦70.04余弦68.45余弦69.7(b) 密集聚类距离度量表3.图像内聚类的消融(a)聚类数K;(b)密集聚类和聚类距离度量。方法组件Miou∆BYOL67.2+ IoU thre 0.569.2+2.0MultiSiam+L簇+自我关注70.071.2+0.8+1.2+ 偏移对齐71.9+0.7/+ offset align nonorm71.2+0.0表4.对申报组件进行消融。该模型灵活性.如表1所示,BYOL与MoCo具有显著的性能差距,因为纯交叉视图一致性框架可能比对比方法更容易受到全局不一致性的影响,这是对MultiSiam改进的补充。作为一个灵活的即插即用模块,MultiSiam可以自然地扩展到基于SSL方法的对比学习在这里,我们部署了一个简单的基于MoCo的MultiSiam实现(更多细节请参见附录B.2),并获得了进一步的改进(例如0.4%mAP和1.4%mIoU)。为了实现最佳性能,肯定需要更精细的设计,我们将在未来的工作中深入研究。概括。虽然最初是为多实例的情况下,我们的MultiSiam也表现出显着的泛化能力,以单中心的对象数据集。如附录C所示,即使与最近的SSL方法相比,ImageNet预训练的MultiSiam仍然达到了最先进的性能[25,28]。4.3. 消融研究和分析Setup.我们进行了150个时期的预训练,所有消融研究的基础学习为0.3。批次大小设置为1024,每四次迭代更新一次参数,以模拟BYOL [10]后的批次大小4096。我们报告了三次独立试验的平均结果以减少方差。更多消融见附录D。来源,这里我们仅使用SODA10M的500万个子集(分割0、2、4、6、8),表示为SODA5M。请注意,由于单中心对象保证,收集大量类似ImageNet的样本的成本很高,这使得多实例自监督学习在实践中更有价值。IoU阈值。如表4中所示,在随机裁剪期间简单地配备有所提出的IoU阈值的BYOL可以实现2.0%mIoU的显著改善,显示局部一致性的有效性。我们进一步发现当IoUIoU Thre特征对准MiouROI偏移偏移非范数0.50.50.50.5✓✓✓68.870.069.569.433余弦余弦✓70.069.03欧氏69.37554在表2(a)中,阈值被设置为0.5有趣的是,当阈值被设置为0.7时,该模型实现了超优结果,这可以在图3(d)中生成良好对齐的随机作物。我们认为这是因为通过控制两种作物的接近程度请记住,数据扩充的动机是生成两个不同但一致的视图。我们不想把这两种观点区别太大,因为这会违背实例歧视的基本假设同时,这两种观点不应该完全相同。否则,网络将由于微不足道的监督信号而趋于崩溃。要素对齐。我们在表2(b)中消除了所提出的两种特征对齐方法。该模型遭受1.2%mIoU的性能下降,由于没有一对一的对应关系,没有特征对齐。RoI和偏移对齐都实现了显著的改进,正如我们在表4中看到的,当自我注意可用时,偏移对齐的我们还验证了在等式(5)中的偏移对准期间坐标归一化的必要性。如表2(b)和表4所示,无论是否可获得自注意力,具有坐标归一化的偏移对准都执行得更好我们分析的有效性的偏移对齐的基础上提出的EM等假设。[7]的文件。具体地,具有偏移对齐的预测器实际上是估计以在线特征和偏移图为条件 的目 标聚 类质 心的 期 望( 参见 附 录A 中 的证明):(a) 图片(b)BYOL(c)MultiSiam图6. BYOL和MultiSiam的聚类(K= 3)结果。不同的颜色代表不同的聚类。MultiSiam可以更好地捕获不同情况下的图像内相似性。第3.3节中的聚类分配的模糊性。通过引入自注意力和预测器,引入"全局注意,偏移对齐与自注意一起执行得更好,因为引入相对偏移可以更好地利用图像局部性进行聚类预测。4.4. 可视化q最优Σ′Σ图6示出了最终背面上的聚类结果θ(R,∆C)=EKmeans(R)|∆C,R)。(十二)因此,为了减少训练过程中的方差,使用归一化偏移映射应该是比绝对值更好的选择。聚类数K。我们在表3(a)中的K均值算法期间当K= 3时获得最佳性能。其中一个原因是像Waymo这样的自动驾驶数据集通常具有相对较小的语义类集(例如,Waymo的尺寸为4此外,正如我们在3.3节中讨论的,多实例环境中的集群定义实际上是一个依赖于随机作物的特定上下文的相对概念,它不仅限于实例或类。将聚类的数量K保持在相对小的值将使模型对不同的图像上下文更鲁棒。密集聚类。代替预测聚类中心,密集聚类计算与对应聚类中的每个像素的余弦相似度。如表3(b)中所示,预测质心执行得更好,因为如等式(12)中所讨论的,预测器估计条件期望,而密集聚类将增加方差。自我关注。如我们在表4中可以看到的,使用局部预测器只能在具有0.5IoU阈值的BYOL上实现0.8%mIoU的边际改进,因为在BYOL中,局部预测器的阈值是0.5mIoU。在单实例、同类多实例和异类多实例的情况下,对BYOL和MultiSiam 的骨骼二维特征图进行了比较BYOL显示随机聚类模式,而MultiSiam可以更好地捕获内部相似性。它识别第一排的汽车,将背景人群与第二排的男人分开,并在第三排成功区分女士和汽车。MultiSiam的聚类结果更加平滑,这表明平移不变性也得到了增强。5. 结论本文探讨了SSL在一般多实例自动驾驶环境中的使用。我们表明,目前的方法依赖于单中心对象ImageNet,在Waymo等多实例数据集上的性能下降。针对这个问题,我们提出的MultiSiam表现出更好的泛化能力,并通过处理正样本定义和采用具有自注意力的图像内聚类来实现最先进的传输性能我们相信多实例数据中的信息仍然是未充分开发的(例如长距离相似性)。我们希望我们简单而有效的方法可以引起研究人员7555引用[1] Yuki Markus Asano , Christian Rupprecht , and AndreaVedaldi.通过同时聚类和表示学习的自标记。arXiv:1911.05371,2019。二个[2] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在ECCV,2018。二、五[3] 马蒂尔德·卡隆、彼得·博亚诺夫斯基、朱利安·麦拉尔和阿尔芒·儒林。在非策划数据上对图像特征进行无监督预训练。在ICCV,2019年。二个[4] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.通过对比聚 类 分 配 的 视 觉 特 征 的 无 监 督 学 习 。 arXiv :2006.09882,2020。一、二、五、六[5] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv:2002.05709,2020。一、二[6] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe. 通 过 动 量 对 比 学 习 改 进 基 线 。 arXiv :2003.04297,2020。一、二、六[7] Xinlei Chen,Kaiming He.探索简单的连体表示学习。arXiv:2011.10566,2020。一、二、八[8] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。二、六[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei.Imagenet:一个大规模的分层图像数据库。CVPR,2009。第1、3条[10] Jean-B astienGrill , FlorianStrub , FlorentAltch e,CorentinTallec,PierreHRichemond,ElenaBuchatskaya , Carl Do- ersch , Bernardo Avila Pires ,Zhaohan Daniel Guo , Mo- hammad Gheshlaghi Azar ,and others. B o o t s t r a p 你自己的潜在:一种自我监督学习的新方法。arXiv:2006.07733,2020。一二三六七[11] 韩建华,梁希文,徐航,陈凯,洪兰青,叶朝强,张伟,李振国,梁晓丹,徐春静. Soda10m:迈向自动 驾 驶 的 大 规 模 物 体 检 测 基 准 。 arXiv :2106.11118,2021。二、七[12] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR,2020年。一、二、六[13] Kai m ing He,Geo r gia Gkioxari,Piotr Doll ar,andRoss Gi r- shick.面具R-CNN。InICCV,2017. 四个[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。六个[15] JoelJanai , FatmaGuên ey, AseemBehl , AndreasGeiger, et al. Computer vision for autonomous vehicles : 问题、数据集和最新技术水平。在计算机图形和视觉的基础和趋势®,2020年。一个[16] Rosanne Liu 、 Joel Lehman 、 Piero Molino 、 FelipePetroski Such 、 Eric Frank 、 Alex Sergeev 和 JasonYosinski。卷积神经网络和coordconv解决方案的有趣失败。arXiv:1807.03247,2018。五个[17] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR,2015。七个[18] Ishan Misra和Laurens van der Maaten。预文本不变表示的自监督学习在CVPR,2020年。一、二[19] Scott Drew Pendleton , Hans Andersen , Xinxin Du ,Xiaotong Shen , Malika Meghjani , You Hong Eng ,Daniela Rus,and Marcelo H Ang.自动驾驶车辆的感知、规划、控制和协调。InMachines,2017. 1[20] Pei Sun , Henrik Kretzschmar , Xerxes Dotiwalla ,Aurelien Chouard,Vijaysai Patnaik,Paul Tsui,JamesGuo,Yin Zhou,Yunning Chai,Benjamin Caine,andothers.自动驾驶感知的可扩展性:Waymo开放数据集。在CVPR,2020年。一二三五六[21] Yonglong Tian,Dilip Krishnan,and Phillip Isola.对比多视图编码。arXiv:1906.05849,2019。一、二[22] YonglongTian , ChenSun , BenPoole , DilipKrish
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功