没有合适的资源?快使用搜索试试~ 我知道了~
11789发现可以移动Zhipeng Bao*,†,1Pavel Tokmakov*,2Allan Jabri3Yu-Xiong Wang4Adrien Gaidon2Martial Hebert11CMU2丰田研究所3加州大学伯克利分校4UIUC摘要本文研究了目标发现问题现有的方法利用外观线索,如颜色,纹理和位置,分组像素到对象一样的区域。然而,由于仅依赖于外观,这些方法无法在杂乱的场景中将对象与背景这是一个基本的限制,因为对象的定义本质上是模糊的,并且依赖于上下文。为了重新解决这种模糊性,我们选择关注动态对象–然后,我们将最近的基于自动编码器的框架扩展到从玩具合成图像到复杂的现实世界场景的无监督对象发现为此,我们简化了他们的architec- ture,并增加了一般的运动分割算法的弱学习信号产生的模型我们的实验表明,尽管只捕获了一小部分移动的对象,但该信号足以generalize分割动态对象的移动和静态实例我们表明,我们的模型规模到一个新收集的,照片般逼真的合成数据集与街道驾驶场景。此外,我们利用该数据集中的地面实况分割和流注释进行彻底的消融和评估。最后,我们在真实世界的KITTI基准测试上的实验表明,该方法通过利用运动线索,优于基于启发式和基于学习的方法。1. 介绍物体是感知的关键组成部分[31,50]。我们不是从像素、表面或整个场景的角度来理解世界,而是从单个物体及其组合的角度来理解世界。以对象为中心的表征使更高层次的认知能力,如偶然的推理,计划等,变得容易驾驭,并且对于泛化和适应是至关重要的[5,60]。在计算机视觉中,最近在物体识别方面取得了进展[9,24,46],但这些*同等贡献†在TRI图1.来自TRI-PD数据集的样本:(a)来自[14]的运动分割,(b)我们的方法产生的前10个片段,(c)基于运动学的MCG [3],以及(d)基于学习的SlotAtention [38]。我们的方法使用嘈杂的,稀疏的运动分割,学习从背景中分离动态对象的移动和静态实例,而其他人不能解决对象定义的模糊性,仅基于外观。这些方法依赖于大量昂贵的手动标签,并且仅覆盖对象类别的固定词汇表发现对象及其在数据中的范围使这项任务特别具有挑战性的是,对象的概念本质上是模糊的,并且依赖于上下文。考虑图1中的一辆汽车:它的左车门和车门上的把手可以被视为单独的对象,或者整体的一部分。因此,尝试基于外观自动将对象与背景分离的现有方法在受控场景之外挣扎并不奇怪。特别是,使用基于图的推理的经典方法往往会过度或欠分割对象[3,18](图1,左下)。最近的基于学习的方法使用结构化生成网络对对象发现进行建模,通常在自动编码器的瓶颈中利用迭代推断[8,16,22,37,38]。虽然已经证明了有希望的结果,但这些方法通常仅限于在普通背景上具有彩色几何形状的玩具图像,并且在现实场景中完全失败(图1,右下)。我们认为,虽然对象定义的模糊性(c)第(1)款(b)第(1)款(d)其他事项(一)11790在没有直接超视的静态图像世界中是不可分辨的,但在视频的动态世界中具有自然的分辨率具体地说,我们选择关注动态对象,我们将其定义为能够在世界中独立移动的实体独立的物体运动是一种强有力的分组线索,已被证明可以驱动动物感知中的物体学习[13,49]。在计算机视觉中,存在一长串关于运动分割的工作,其基于光流自动地将运动对象与背景分离[7,14,33,41,41,61]。这些方法在无监督[2,43]和弱监督机器学习算法[27,44,56]中有许多应用。在这项工作中,我们展示了如何运动分割可以引导到组实例,即使它们是静态的。我们在Locatello等人提出的非监督对象发现框架之上构建我们的方法。[38],并展示如何将其从玩具图像扩展到现实视频。我们通过引入时空记忆模块[4]将该架构扩展到任意长度的视频,并简化分组机制以将模型缩放到具有大分辨率和数十个对象的真实场景然后,我们展示了基于独立对象运动的归纳偏见的重要性,以及它在多大程度上捕捉对象。特别是,我们展示了运动片段(图1,左上角)如何引导atten- tion操作来发现静态对象。至关重要的是,我们证明了不同质量的运动分割我们的方法只需要视频进行培训,可以在推理时分割静态图像中的对象。为了超越[38]中使用的玩具数据,同时仍然能够彻底分析该方法的各个方面,我们利用了一个新的,照片般逼真的合成数据集,该数据集是使用TrielDomain平台[1](TRI-PD)收集的。它由数百个视频组成,其中包括拥挤的街道驾驶场景,并带有全套地面实况注释,包括对象分割,3D坐标和光流,使我们能够消除运动分割质量对方法性能的重要性最后,我们证明了所得到的方法可以推广到具有挑战性的KITTI数据集[19]上的真实视频,并与现有的启发式和基于学习的方法 相 结 合 。 我 们 的 代 码 、 模 型 和 合 成 数 据 可 在https://github.com/zpbao/Discovery_Obj_Move/上获得。2. 相关工作在这项工作中,我们研究了现实视频中的对象发现问题,利用运动分割作为自下而上分组的学习信号。下面,我们将回顾这些领域中最相关的工作。对象发现是将对象从背景无手动标签。传统的计算机视觉方法将其视为感知分组[36]-这种值得注意的方法包括[18],它使用基于图形的推理来识别区域边界,[3]首先使用归一化切割算法在多个尺度上提取区域,然后将它们分组为候选对象。然而,纯粹基于外观,这些方法没有很好地解决对象定义的固有模糊性。随着基于学习的对象发现方法的引入,这个问题最近重新受到关注[8,16,17,22,23,29,37,38,59,64]。一种常见的方法是使用迭代推理将一组变量绑定到图像中的对象[16,22,38],通常使用变分自动编 码 器 [35 , 47] 。 Locatello 等 人 [38] 在 他 们 的SlotAttention框架中提出了一个更有效的变体。具体来说,他们使用CNN(卷积神经网络)执行图像编码的单个步骤,然后进行迭代注意操作,该操作用于将一组变量(称为插槽)绑定到图像位置。然后,这些时隙被单独解码并组合以重建图像。上面的许多方法都能够在玩具、合成场景中发现对象,但正如我们在4.5节中所展示的,它们在更真实的环境中失败了,在那里,仅凭外观不足以将对象从背景中分离出来。在这项工作中,我们通过修改模型的架构将SlotAttention扩展到现实视频,使其能够扩展到具有数十个对象的关键是,我们的方法只使用运动作为稀疏学习信号,训练的模型能够分割运动和静态实例。最后,最近有几项工作探索了以3D几何约束的形式整合归纳偏差[11,15,26,51]。然而,这些方法仍然局限于玩具、合成环境。相比之下,我们的方法使用独立的对象运动作为学习信号,使其能够推广到现实世界的场景。几何先验与我们的方法正交,结合不同形式的归纳偏差是未来工作的一个有前途的方向。运动分割涉及使用光流将对象从背景中分离出来[28,53,55]。早期的方法[7,33,41,41]跟踪具有流动的单个像素,然后对受共同命运原则启发的所得轨迹进行聚类[36]。虽然这些方法已经在运动分割基准上显示出有希望的结果,但是由于它们基于运动的性质,它们在野外不能很好地推广。最近,已经提出了几种基于学习的方法[14,61]。特别是,Dave等人重新设计了一种最先进的对象检测架构[24],以检测和分割光学系统中的移动对象。11791√我∈∈∈∈∈×∈∈×我--我Σ∗流场进行该模型是在一个玩具上训练的,合成的FlyingTh-状态W=1Dk(H)·q(S)∈RN×K,其中k和q是ings3D数据集[39],但由于流提供的外观抽象,我们使用这种方法在我们的工作中,由于其高性能和简单性结合最低的监督要求。请注意,由于我们的方法需要实例级移动对象掩码,因此二进制运动分割技术[42,57,62]不适用于我们的场景。从运动中学习是一种受认知科学研究证据启发的范式,其中独立物体运动是人类视觉系统发展的关键线索[49]。在计算机视觉中,它已被用于弱监督对象检测[44]和语义分割[27,56],以及无监督表示学习[2,43]。然而,这些作品都没有解决从未标记的视频中发现对象的问题Yang等人。[63]使用二进制运动分割来训练显着性模型,但不分割复杂场景中的单个对象。最近,Tangemann et al.[54]已经提出使用运动分割来构建合成的、生成的场景模型。然而,他们的方法采用运动分割作为训练期间的预处理步骤,并且不能在推理时发现对象。3. 方法在本节中,我们首先介绍用于无监督对象发现的SlotAttention框架,它是我们在第3.1节中的方法的基础。然后,我们在第3.2节中描述了如何将这种架构扩展到具有数十个对象的真实世界视频,并在第3.3节中介绍了我们结合独立运动先验的方法。3.1. 背景继之前的工作[8,22]之后,SlotAttention [38]将对象发现建模为自动编码器框架中的推理具体地,给定图像IRH×W×3,它首先通过编码器CNN以获得隐藏表示H=fenc(I)RH′×W′×D输入然后,它由我们下面描述的注意力模块处理,以将H映射到一组称为槽S的固定长度K的特征向量RK×D插槽。 每个槽S iS被广播到2D网格上,并使用解码器CNN O i=f dec(S i)RH×W×4单独解码,其中输出的第4维表示alpha掩码A i。用I ′表示O i的前3个通道,通过I′=AiI′获得完整的图像重建,并用于监督具有MSE(均方误差)损失的模型。注意模块是该方法的关键组成部分。它使用一种迭代注意力机制,类似于Transformer [58]中使用的机制,从输入H映射到插槽S。特别是,注意力权重是通过输入要素和槽之间的点积计算的可学习的线性变换和N = H′W ′。然后,这些注意力权重用于通过U=W T v(H)RK×D计算更新值,其中W是归一化的注意力权重,v是另一个线性变换。与经典Transformer架构的一个关键区别是,槽是随机初始化的,并且推理是迭代的。特别地,在每个步骤l,通过S l= update(S l-1,U l)更新时隙,其中更新函数被实现为GRU(门控递归单元)[12]。这种方法背后的直觉是,槽作为一个代表性的瓶颈和槽的单独解码的结果在他们绑定到空间相干的区域 , 如 对 象 。 接 下 来 , 我 们 将 描 述 如 何 修 改SlotAttention框架以将其扩展到真实世界的视频。3.2. 视频中对象发现的框架我们的模型,如图2所示,采用视频帧I1,I2,.,IT作为输入。 在[38]之后,每个帧然后由编码器CNN处理,以黄色显示,以获得单个帧表示H t= fenc(I t)。这些单独的表示由Con-vGRU时空存储器模块[4]聚合,以通过H′t=ConvGRU(Rt−1,Ht)获得视频编码,其中Rt−1RH′×W′×Dinp是循环记忆状态。接下来,我们继续将视频表示H′t映 射到时隙集合St。然而,很容易看出,[38]中提出的重复时隙分配策略不能很好地扩展到顺序输入。实际上,给定每个帧的长度为T和L的推断步骤的序列,处理该序列所需的注意力操作的总数为T L。 这种嵌套递归在计算上是低效的,并且可以加剧消失梯度问题。 为了解决这个问题,如图2中的蓝色块所示,我们仅执行单个注意操作来直接计算槽状态St=W tTv(H′t),其中注意力矩阵Wt是使用上一帧S t−1。 对于第一帧,我们使用可学习的初始状态S0。值得注意的是,[38]的作者认为,对随机初始化槽的迭代推理对于模型能够在测试时推广到不同数量的对象至关重要然而,我们已经发现,简单地增加插槽的数量,以最大的预期数量的对象是足够的推广到不同的复杂性的场景。在这方面,我们的方法类似于DETR [9],它也使用Transformer查询向量作为可学习的对象建议,能够解析密集和稀疏的场景,但以完全监督的方式进行训练。最后,需要用解码器CNN(在图2中以绿色示出)处理所得到的时隙状态St,以获得帧重构。然而,单个插槽11792St#1K✓✓✗✗…✗运动分割“1”关注模块阿阿勒…我$CNN骨干ConvGRU…I3…阿我&$…我&3…………运动监控StKSt&St3St$St1St#1&St#13St#1$St#11我其中,L(m,W分段iΣ不--∅M {}联系我们我Σ槽(Ft)∈RH×W×3.∈使用图2中的棋盘图案,并通过σ=argminL分段(mi,W),(1)I11$&1图2.我们的方法将一系列帧作为输入,并使用骨干网络(黄色显示)和ConvGRU递归内存模块单独处理它们生成的特征映射H′t被传递给attention模块(以蓝色显示),attention模块通过attention操作将它们绑定到一组固定的槽变量我们还使用自动估计的运动分割来指导注意时隙的子集的操作。最后,时隙状态被组合在单个特征图Ft中并被解码以重构帧。重建目标强制从移动实例到静态实例的泛化。来自[38]的解码方法不能很好地随时隙的数量缩放。实际上,需要针对每个时隙计算完整的图像重建,这在存储器方面迅速变得过于昂贵,特别是对于大分辨率帧。相反,我们建议颠倒顺序时隙解码和时隙重组步骤。特别地,我们首先广播每个单独的时隙特征St∈RD因此需要将可变数量的运动分段Ct映射到每个帧中的固定数量的时隙K。在基于集合的监督[9,52]的先前工作之后,我们首先找到预测和运动掩模之间的最佳二分匹配,然后优化特定于对象的分割损失。具体地说,我们认为Mt也是一组长度K填充了(无对象)。 查找二分匹配到一个特征图F tRH′×W′×D槽,并使用注意掩模W t作为阿尔法掩模At。 然后我们就在这两个集合之间,我们寻找K的置换成本最低的元素:,itΣit tK结构化单个输出特征映射F=iAiFi,显示为如我们在第4.3节中所展示的,所提出的单次解码策略降低了空间噪声的强度。不:,σ(i)运动掩模M)是分割损失之间在原始SlotAttention架构之前的内聚性,降低了其对象发现能力。然而,我们也证明了这一先验并不普遍超越玩具,合成场景。相反,在下一节中,我们将描述我们的方法,以纳入一个独立的运动先验,它提供了一个更强的学习信号,并工作得很好i和插槽的注意力地图,dexσ(i)。在实践中,我们有效地近似最优分配与贪婪匹配算法。一旦计算出分配σb,最终的运动监控目标定义如下:K使用单次解码策略。L运动=1{mii=1Lseg(mi,Wi,σi(i)))的情况。(二)3.3. 排除独立运动先验我们的方法假设一组稀疏的实例级运动分割掩码=M1,M2,...,M T被提供给每个视频,其中M t=m1,m2,.,其中,Ct是在帧t中被连续分段的移动对象的数量,并且0,1H′×W′是二进制掩码(下采样以匹配空间维度的特征图)。注意,对于每个帧,Mt=.这反映了现实的假设,即在任何给定的帧中,可变数量的对象可以移动,并且在某些帧中,所有对象都可以是静态的。我们建议使用这些运动分割掩模来直接监督槽注意力图Wt∈RN×K。我们也就是说,仅针对已经为其分配了运动掩模的槽计算损失,并且剩余的槽不受约束并且可以绑定到图像中的任何区域这在图2的右侧部分中示出,其中运动分割掩模仅可用于拥挤的室外场景中的两个对象,并且它们与注意力图与掩模最相似的槽匹配。其余的插槽是不受约束的,但仍然设法捕捉移动和静态对象,以及背景,由图像重建物镜驱动。实际的分割损失Lseg在等式(1)中。2是二进制交叉熵:NLseg ( m , W ) = −mjlog ( Wj ) − ( 1−mj ) log(1−Wj)。 (三)解码器我不I′t=fDecσi=1:,σ(i)11793j=111794TT+1TLL∈××3.4. 损失函数与优化我们的最终目标如下:L=L重建+λML运动+λTL温度,(4)其中重建是图像重建的MSE损失temp是时间一致性正则化项,λM和λT是运动监督和时间一致性项的权重。后者定义为T−1Ltemp(S)=I−softmax(S·(S)),(5)t=1其中I RK×K是单位矩阵。 很容易看出,该术语鼓励连续帧中的时隙的特征表示之间的相似性,从而提高时隙绑定的时间一致性。 该模型在长度为T的视频片段上进行训练,我们确保至少一批中的一半剪辑具有非空的运动分段集合M。4. 实验评价4.1. 数据集和评价我们使用两个合成数据集来分析所提出的方法:CATER [20]用于消融模型的架构,以及用于分析运动分割质量对模型性能的影响的真实的此外,我们使用真实世界的KITTI基准[19]与最先进的技术进行比较。CATER是CLEVR [30]数据集的视频版本,该数据集用于最近许多关于无监督对象分布的工作[8,29,38]。我们利用提供的引擎生成2,000个视频,方法是在普通背景上随机放置4到8个几何形状,如立方体或圆锥体,并为每个实例分配随机颜色。每个对象可以在随机轨迹上移动或保持静止,相机运动也是随机的。我们使用1,600个视频进行训练,400个视频进行评估,每个视频都是40帧长,分辨率为128 128(见图3,左)。对于消融分析,我们在每个视频中随机分配一个对象作为移动对象,并使用该对象的地面真实掩模作为运动掩模。请注意,我们在更具挑战性的TRI-PD和KITTI上进行了自动估计运动分割的实验。TrielDomain(TRI-PD)是一个具有街道驾驶场景的合成数据集(见图3,中心)。它是使用最先进的合成数据生成服务收集的[1]。该训练集包含924个照片级逼真的10秒长视频,其中包括以20 FPS捕捉的城市环境中的驾驶场景我们使用51个视频从一组不相交的场景进行评估。每个视频都带有一套完整的地面实况注释,包括光流,使我们能够进行CATER PD KITTI图3.来自我们实验中使用的视频数据集的帧样本。CATER[20](左)是一个玩具,合成数据集类似于以前的作品中使用的数据集。TRI-PD(中心)是一个照片般逼真的合成视频集合,这是视觉复杂性的一个重大进步。KITTI [19](右)是一个真实世界的户外场景基准。详细分析了运动分割质量对算法性能的影响。补充资料中提供了更多的统计数据和定性例子KITTI是一个真实世界的基准测试,带有各种注释的城市驾驶场景(图3,右)。在这项工作中,我们使用数据集的实例分割子集它包含200帧,我们将其调整为3681,248。请注意,在此数据集中的各个图像上提供了由于我们的模型是无监督的,我们使用KITTI训练集中的所有147个视频来发现现实世界中可以移动的对象。评估指标。 我们使用调整后的兰德指数(ARI)作为比较模型的对象发现能力的主要指标,但也在补充报告中报告了更传统的分割指标,如F-measure和mIoU。ARI是一种聚类相似性度量,它以置换不变的方式捕获预测的分割掩码与地面真实掩码的匹配程度。这比mIoU更适合于无监督方法的评估,因为它不需要方法来决定哪些片段代表对象,哪些片段对应于背景。根据先前的工作[22,38],我们仅基于前景对象测量ARI,我们将其称为Fg。阿里4.2. 实现细节对于与SlotAtten- tion [38]共享的模型组件,我们完全遵循其架构和训练协议,并在下面描述其余细节。我们用ResNet18 [25]替换了[38]中使用的浅层编码器,以将代表性能力扩展到现实场景。我们还在补充语中尝试更深的主干除非另有说明,否则所有模型都是从头开始训练的。我们还在补充报告中报告了对比学习预训练的结果。为了能够捕获小对象,我们从ResNet中删除最后2个最大池化层,并添加相应的11795以保持视野。我们使用10个插槽的CATER和TRI-PD和KITTI的实验45插槽占更多的对象。所有模型都使用Adam [34]训练了500个epoch,批量大小为20,学习率为0.001。在[38]之后,我们使用学习率预热[21]和指数衰减时间表来防止早期饱和并减少方差。我们在CATER的验证集上设置λM为0.5,λT为0.01,并在所有实验中使用这些值。基于视频的变体使用长度为5的剪辑进行训练。在推理时,以步长5的滑动窗口方式评估模型。我们实验了两种运动分割算法- 一个这两种方法都将光流作为输入,因此我们使用地面实况流和使用最先进的监督[55]和无监督[53]方法估计的流来评估它们。由于这两种方法的输出都包含许多噪声段,因此我们应用一些通用的后处理步骤来清理结果。它们去除非常大和非常小的片段,以及图像边界处的片段。补充资料中提供了后处理的详细信息我们比较我们的方法,最近几个学习为基础的对象发现算法,以及一个经典的,基于知识的方法。特别是 , 我 们 选 择 SlotAtten- tion [38] , MONet [8] ,SCALOR [29]和S-IODINE [22]作为基于学习的方法的代表性样本,S-IODINE也是基于视频的方法。对于MONet和S-IODINE,我们用ResNet 18替换原始主干,并将输入分辨率与我们的方法所使用的分辨率进行匹配,以进行公平的比较,但保留所有其他细节。所有模型都经过训练,直到收敛。我们使用MCG [3]作为基于运动学的基线。这是一种建议生成方法,因此为了获得图像的单一解释,我们对得分最高的建议进行采样,直到覆盖所有像素对于重叠的片段,我们将相应的像素分配给较小的片段。4.3. 架构分析在本节中,我们通过研究表1中CATER的验证集上的对象发现的自动编码器框架的变体来开始分析我们的方法。首先,我们评估了原始的SlotAttention模型(表中的第1行),它是我们方法的基础,并发现它在这个玩具数据集上表现得相当好ARI评分明显低于CLEVR原始论文[38]中报告的评分。这是由CATER中的场景更具有挑战性的事实来解释的,具有更大的对象数量变化和更多的遮挡。接下来,我们将SlotAt的帧级架构转换为ConvGRU插槽输入温度解码运动侦察Fg. Ari–Iter✗每时隙✗✓64.4帧Iter✗每时隙✗✓66.3夹Iter✗每时隙✗✓71.5夹单次拍摄✗每时隙✗✓83.2夹单次拍摄✓每时隙✗✓86.7夹单次拍摄✓单次拍摄✗✓34.5夹单次拍摄✓单次拍摄✓✓92.7夹单次拍摄✓单次拍摄✓77.9✗表1. 使用Fg. ARI打开CATER的验证集。我们消融的ConvGRU模块,槽推理策略,时间一致性约束,解码策略,独立的运动先验,和重建目标。将运动先验与重建相结合可以获得最佳结果。通过在编码器之后添加ConvGRU来关注视频级模型。当在1帧序列上训练时,这对性能只有很小的影响(表中的第2行),但是在视频剪辑上训练(第3行)导致Fg增加5.2点ARI评分。这表明递归模型的特征空间可以捕获视频动态,从而简化了对象与背景的分离。然而,从单帧输入到剪辑增加了模型的内存需求为了缓解这个问题,我们现在研究3.2节中提出的架构修改。首先,用一个可学习的初始化操作代替随机初始化槽上的迭代推理,不仅提高了计算效率,而且显着提高了性能。在损失中增加时间一致性项进一步提高了Fg。ARI评分由于更稳健的插槽绑定。接下来,切换到单次解码显著降低了模型的内存消耗,但也导致它在很大程度上失去了其对象发现能力。这表明,在SlotAttention模型之前,单个时隙解码对于加强空间内聚性至关重要。尽管有这个缺点,但以运动分割的形式结合弱学习信号不仅可以恢复,而且可以显着提高模型的性能。这表明独立运动是比SlotAttention中使用的外观和位置相似性更强和更通用的先验,即使在像CATER这样的玩具最后,表1的最后一行显示,通过强制从移动到静态实例的泛化,重建目标对于实现最佳性能仍然很重要。4.4. 真实视频我们现在探索上面介绍的模型如何在表2和图4中的TRI-PD数据集中缩放到真实的户外场景。我们分别报告了FG。移动和静态对象的ARI我们从评估没有独立运动先验的模型的基线变体开始,并观察到外观相似性确实不足以11796模型运动隔离Fg. ARI Stat.Fg. ARI移动Fg. ARI全部我们没有一10.518.413.1我们GT all69.072.271.7我们GT移动53.362.759.6我们[33]第三十三话39.947.542.8我们[14]第十四话48.354.951.7我们RAFT流量+[14]46.855.650.9我们[14]第十四话47.354.850.5-RAFT流量+[14]2.75.33.4学习型TRI-PDKITTI[38]第三十八话✓10.213.8莫奈[8]✓11.014.9[29]第二十九话✓18.621.1[22]第二十二话MCG [3]✓✗9.825.114.440.9我们✓50.947.1表2.在TRI-PD验证集上分析运动分割质量对模型性能的影响我们逐渐降低运动片段的质量,从地面实况开始到完全估计。我们的方法学习发现由非常稀疏的运动信号引导的移动和静态实例在现实场景中的对象发现,如低Fg所反映的。ARI评分。定性地,图4的第一列说明了该变体完全无法发现任何对象,而是基于颜色和位置相似性将场景分割成随机接下来,我们通过使用所有地面实况对象片段(对应于移动和静态对象)进行训练来建立模型性能的上限这种完全监督的方法达到了Fg。ARI得分为71.7,显著低于我们的模型在CATER上的最佳版本所获得的92.7,进一步强调了TRI-PD的复杂性。从质量上看,如图4的第二列所示,该变体成功地捕获了场景中所有清晰可见的对象,并且还将背景像素分组在一起。仅使用与移动对象对应的地面实况片段(模拟了我们拥有完美运动分割算法的理论ARI点,这对于静态对象尤其明显,但是总体分数仍然比在没有运动先验的情况下训练的基线高46.5点定性地,模型能够准确地分割大多数移动和静态实例,如图4中的第三列所示。然而,这种变体过度分割了背景,这表明解释场景中尽可能多的对象对于学习强背景模型至关重要。切换到实际的运动分割算法,我们首先使用地面真实光流作为表2的第5行和第6行中的输入来比较最先进的基于算法和基于学习的方法。正如预期的那样,我们观察到,最近的基于学习的方法产生更准确的运动分割,这反过来又导致我们的方法的性能更高。从质量上讲,这个模型(如图4中的第4列所示)由于学习信号较稀疏,因此召回率略低于使用地面真实移动片段有趣的是,用最先进的监督RAFT [55]或自监督SMURF [53]算法估计的地面实况流替换地面实况流几乎不会改变性能,表3.与使用Fg的 TRI-PD和KITTI验证集上的最新对象描述方法进行比较阿里我们的方法通过利用独立的运动线索,优于基于学习和基于经验的尽管运动分割质量明显下降(图4中的最后一列)。这个结果证明了我们的方法对噪声的鲁棒性。我们使用RAFT流的其余实验。最后,为了更好地量化我们的模型从稀疏的、有噪声的运动分割推广到拥挤场景中对象的整个分布的能力,我们评估了Fg。表2的最后一行中的运动分段本身的ARI评分。我们可以看到,这些掩模确实主要捕捉移动对象;然而,即使对于那些,也只有一小部分被分割。相比之下,我们的方法,利用这种嘈杂和不完整的信号,增加了15倍的整体ARI评分。4.5. 与最新技术最后,我们将我们的方法与表3中TRI-PD和KITTI验证集的最新技术进行了比较。首先,我们观察到所有基于学习的方法都未能在两个数据集上获得重要的结果。这证实了我们的假设,即在现实环境中,仅凭外观并不足以将物体与背景分开。相比之下,我们提出的方法优于所有这些方法通过利用独立的运动线索的大幅度有趣的是,经典MCG方法的性能明显优于最近的基于学习的方法(此外,正如我们在补充资料中所示,即使在玩具CATER基准测试中,这一观察结果也成立)。我们的方法在两个数据集上都优于MCG,在TRI-PD上的边缘明显更大。回想一下,KITTI是一个基于图像的基准,其中选择注释帧以突出显示感兴趣的对象。相比之下,TRI-PD是一个密集标记的视频数据集,具有更具挑战性的摄像机角度和更多的背景杂波(参见图5的定性比较)。因此,PD的更大利润率突出了我们基于学习的方法与基于运动学的MCG相比的优势。5. 讨论和限制从原始数据中发现对象及其范围是一个具有挑战性的问题,这是因为对象的组成是模糊的。11797图4.我们的模型在TRI-PD的验证集上产生的前10个面具具有不同的运动先验质量我们在相应模型的输出上显示了用于监督的运动掩码在最后两列的方法戴夫等人。[14]用于运动分割。我们的方法学习发现的对象,即使稀疏和嘈杂的运动分割的基础上估计的流量。插槽注意事项MCG我们图5.我们的方法和代表性的启发式和基于学习的方法在TRI-PD和KITTI的验证集上的定性比较(显示前10个掩码)。我们的方法成功地将物体从背景中完全分离出来,而基于外观的方法则在杂乱的环境中挣扎。物体。在这项工作中,我们提出了一种方法来自动解决这种模糊性,通过专注于动态对象,并使用独立的运动作为自动编码器框架中的归纳偏差。我们的分析在现实环境中展示了有希望的结果,同时进一步提出了一些重要的问题。泛化到非动态对象。虽然独立对象运动为从数据中发现对象提供了方便的信号,但它忽略了不能自己移动但可能对下游任务很重要特别地,在室内环境中,人们与配件、电子产品、食物等交互,捕获这些对象对于动作识别[45,66]和机器人技术[6,40]至关重要但是,请注意,将动态对象的定义扩展到那些通过它们本身或可以被人类移动的物体涵盖了大多数此类情况。经典的运动分割方法[7,33]确实试图捕获落入这个更一般定义的所有对象,但不会在野外进行推广开发这些方法的更健壮、基于学习的版本是迈向通用对象发现算法的关键一步。现实世界中的对象类别不平衡。像任何其他基于学习的方法一样,我们的方法容易关注最常见的类别,而忽略分布尾部的对象。例如,在现实世界中,我们可能会看到很多移动的人,车辆和动物,有时一个人捡起一块垃圾。从理论上讲,这应该允许我们的方法不仅可以发现人,汽车和动物是什么,还可以发现垃圾。然而,在实践中,这种情况可能很少发生。幸运的是,这个问题在少数和持续学习领域[10,32,48,65]中得到了很多关注,并且所提出的解决方案可以集成到我们的框架中。监督用于训练运动分割算法。 Dave等人的方法。[14],在我们的实验中使用,在玩具上训练,合成FlyingThings3D [39]数据集与地面真实移动对象掩码。这就提出了一个问题,即是否是这种间接的对象级监督使我们的方法优于其他完全无监督的方法。为了解决这个问题,在补充中,我们以完全监督的方式直接在Flying-ingThings 3D上预训练SlotAttention,表明由于大的域间隙,这对其在现实视频中的对象发现性能没有显着影响。鸣谢。 我们感谢Alexei Efros、Vitor Guizilini和Jie Li的宝贵意见,以及Achal Dave在计算运动分割方面的帮助。这项研究得到了丰田研究所的支持。KITTIPD11798引用[1] 平行域。 https://paralleldomain.com/网站,二零二一年十一月。二、五[2] Pulkit Agrawal、Joao Carreira和Jitendra Malik。学习通过移动来观察。CVPR,2015。二、三[3] 巴勃罗·阿贝·拉伊兹、乔迪·蓬-图塞特、乔纳森·T·巴伦、费兰·马克斯和吉滕德拉·马利克.多尺度组合分组CVPR,2014。一、二、六、七[4] 尼古拉斯·巴拉斯、李耀、克里斯·帕尔、亚伦·考维尔。深入研究卷积网络以学习视频表示。ICLR,2016年。二、三[5] Christopher Berner , Greg Brockman , Brooke Chan ,Vicki Cheung,Przemyslaw Debiak,Christy Dennison,David Farhi , Quirin Fischer , Shariq Hashme , ChrisHesse,et al. Dota 2 with large scale deep reinforcementlearning.arXiv预印本arXiv:1912.06680,2019。1[6] 奥德·比拉德和丹妮卡·克拉吉奇。机器人操作的趋势和挑战。Science,364(6446),2019. 8[7] 托马斯·布洛克斯和吉坦德拉·马利克通过点轨迹的长期分析的对象分割。ECCV,2010年。二、八[8] ChristopherPBurgess 、 LoicMatthey 、 NicholasWatters、Rishabh Kabra、Irina Higgins、Matt Botvinick和Alexander Lerchner。MONet:无监督场景分解和表示。arXiv预印本arXiv:1901.11390,2019。一、二、三、五、六、七[9] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV,2020年。一、三、四[10] Nadine Chang , Zhiding Yu , Yu-Xiong Wang , AnimaAnand- kumar,Sanja Fidler,and Jose M Alvarez.图像级还是对象级?长尾检测的两种策略。在ICML,2021。8[11] 张晨,邓飞,安成镇。根:以对象为中心的表示和渲染的三维场景. JMLR,2021年。2[12] KyunghyunCho,BartVanMerrieünboer,CaglarGulcehre , Dzmitry Bahdanau , Fethi Bougares ,Holger Schwenk,and Yoonge Bengio. 使用rnn编码器-解码器学习短语表示用于统计机器翻译。在EMNLP,2014年。3[13] M. Cynader,N. Berman和A.嘿在频闪照明下饲养的猫:对视觉皮层感受野的影响. 美国国家科学院院刊,70(5):1353-1354,1973。2[14] 阿查尔·戴夫帕维尔·托克马科夫和德瓦·拉玛南分割任何移动的物体。在ICCV研讨会,2019年。一二六七八[15] Yilun Du , Kevin Smith , Tomer Ulman , JoshuaTenenbaum,and Jiajun Wu.从视频中无监督地发现3D物理对象。ICLR,2021年。2[16] Martin Engelcke、Adam R Kosiorek、Oiwi Parker Jones和Ingmar Posner。GENESIS:使用以对象为中心的潜在表示进行生成场景推理和采样。在ICLR,2020年。一、二[17] SM Eslami,Nicolas Heess,Theophane Weber,YuvalTassa,David Szepesvari,Geoffrey E Hinton,et al.参加,推断,11799重复:使用生成模型快速理解场景。在NeurIPS,2016。2[18] Pedro F Felzenszwalb和Daniel P Huttenlocher。高效的基于图的图像分割。IJCV,2004年。一、二[19] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?KITTI视觉基准测试套件。CVPR,2012。二、五[20] Rohit Girdhar和Deva Ramanan CATER:用于组合动作和时间推理的诊断数据集。在ICLR,2020年。5[21] PriyaGo yal,PiotrDolla´r,RossGirshick,PieterNoord-huis , Lukasz Wesolowski , Aapo Kyrola , AndrewTulloch,Yangqing Jia,and Kaiming He.准确的,大的小批量SGD :1小时内训练ImageNet。arXiv预印本arXiv:1706.02677,2017。6[22] KlausGref
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 深入浅出:自定义 Grunt 任务的实践指南
- 网络物理突变工具的多点路径规划实现与分析
- multifeed: 实现多作者间的超核心共享与同步技术
- C++商品交易系统实习项目详细要求
- macOS系统Python模块whl包安装教程
- 掌握fullstackJS:构建React框架与快速开发应用
- React-Purify: 实现React组件纯净方法的工具介绍
- deck.js:构建现代HTML演示的JavaScript库
- nunn:现代C++17实现的机器学习库开源项目
- Python安装包 Acquisition-4.12-cp35-cp35m-win_amd64.whl.zip 使用说明
- Amaranthus-tuberculatus基因组分析脚本集
- Ubuntu 12.04下Realtek RTL8821AE驱动的向后移植指南
- 掌握Jest环境下的最新jsdom功能
- CAGI Toolkit:开源Asterisk PBX的AGI应用开发
- MyDropDemo: 体验QGraphicsView的拖放功能
- 远程FPGA平台上的Quartus II17.1 LCD色块闪烁现象解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功