没有合适的资源?快使用搜索试试~ 我知道了~
1基于前景运动聚类的视频对象发现克里斯托弗·谢1于翔2扎伊德·哈沙维1迪特尔·福克斯2,11华盛顿大学2NVIDIAchrisxie@cs.washington.edu{yux,dieterf}@nvidia.comzaid@uw.edu摘要我们考虑的问题,提供密集的segmenta- tion面具的对象发现视频。我们制定的对象发现问题的前景运动聚类,其中的目标是集群的前景像素在视频到不同的对象。我们引入了一种新的像素轨迹递归神经网络,它可以学习跨时间链接的前地面像素轨迹的特征嵌入。通过聚类流轨迹嵌入发现对象使用学习的特征嵌入的像素轨迹,我们的方法建立了跨视频帧的前景对象掩模之间的对应关系为了证明我们的目标发现框架的有效性,我们在常用的运动分割数据集上进行实验,在那里我们实现了最先进的性能。1. 介绍从视频中发现对象是智能系统需要具有的重要能力。想象一下,将机器人部署到一个新的环境中。如果机器人能够通过观察发现和识别环境中的未知物体,这将使机器人能够更好地了解其工作空间。在交互感知设置中,机器人甚至可以通过触摸或推动物体与环境交互以发现物体。为了解决对象发现问题,我们需要回答这样一个问题:对象的定义是什么在这项工作中,我们认为一个实体,可以移动或被移动的对象,其中包括各种刚性,可变形和铰接对象。我们利用运动和外观线索来发现视频中的对象。基于运动的视频理解已经在计算机视觉中研究了几十年。在低级视觉中,已经提出了不同的方法来找到跨视频帧的像素之间的对应关系,这被称为光流估计[18,3]。摄像机运动和物体运动都由于在像素级估计对应性,因此这些方法不知道场景中的对象,在某种意义上说,它们不知道哪些像素属于哪些对象。在高层次视觉中,在NVIDIA实习期间完成了部分工作图1:我们的框架概述RGB图像和光流被馈送到一个递归神经网络中,该网络计算像素轨迹的嵌入。这些嵌入被聚集到不同的前景对象中。视频中的对象检测和对象跟踪已经被充分研究[1,22,16,50,4,48]。这些方法使用带注释的数据训练特定对象类别的模型。因此,它们无法检测或跟踪在训练数据中没有看到的未知换句话说,这些方法不能从视频中发现新的对象。相比之下,运动分割方法[9,24,5,34]旨在分割视频中的运动对象,可以利用这些运动对象来基于它们的运动发现新对象。在这项工作中,我们制定了前景运动聚类的对象发现问题,其中的目标是集群像素在视频中的不同对象的基础上,他们的运动。在解决这一问题方面有两个主要挑战首先,前景物体如何从背景中区分出来?基于移动的前景对象具有与背景不同的运动的假设,我们设计了一种新的编码器-解码器网络,该网络以视频帧和光流作为输入,并为每个像素学习特征嵌入,其中这些特征嵌入在网络中用于将像素分类为前景或背景。与传统的前景/背景分割方法[10,19]相比,我们的网络自动学习了一种强大的特征表示,它结合了图像中的外观和运动线索。其次,我们如何在视频帧中一致地分割前景对象?我们希望分割每个视频帧中的各个对象,并在视频帧中建立同一对象的启发9994RGB像素轨迹递归神经网络9995通过[9]对视频帧中的像素轨迹进行聚类以进行对象分割,我们建议使用一种新的递归神经网络(RNN)来学习像素轨迹的特征由于像素轨迹在时间上是链接的,因此我们的方法通过聚类轨迹来自动建立跨视频帧的对象对应关系。与[9]采用手工特征来聚类像素轨迹不同,我们的方法自动学习轨迹的特征表示,其中RNN控制如何沿着轨迹组合像素特征图1展示了我们的对象运动聚类框架。由于我们的问题公式旨在基于运动发现对象,因此我们对五个运动分割数据集进行实验以评估我们的方法:Flying Things 3D [29],DAVIS [35,37],Freiburg-Berkeley motion segmen [35,37]tation [32],ComplexBackground [30]和CamouflagedAn[6].我们表明,我们的方法是能够分割潜在的看不见的前景物体在测试视频和一致的视频帧。与最先进的运动分割方法的比较表明,我们学习的轨迹嵌入对象发现的有效性。总之,我们的工作有以下主要贡献:• 我们引入了一种新的编码器-解码器网络来学习视频中像素的特征嵌入,该特征嵌入结合了外观和运动线索。• 我们引入了一种新的递归神经网络来学习视频中像素轨迹的特征嵌入。• 我们使用前景掩模作为一种注意力机制,专注于聚类的相关像素轨迹的对象发现。• 我们在常用的运动分割数据集上实现了最先进的性能本文的组织结构如下。在讨论了相关工作之后,我们介绍了我们为目标发现而设计的前景运动聚类方法,并给出了实验结果和结论。2. 相关工作视频前景分割。视频前景分割是将视频中的每个像素分类为前景或背景的任务这已经在视频对象分割的背景下得到了很好的研究[6,33,44,44,21],特别是引入了DAVIS数据集的无监督挑战[35]。[6]使用了一种概率模型,该模型作用于光流来估计移动物体。[33]通过迭代地细化运动边界同时鼓励时空平滑来预测视频前景。[44、45、21]采用基于学习的方法并训练卷积神经网络(CNN),该网络利用RGB和光流作为输入来产生前景分割。我们的方法建立在这些想法的基础上,并使用前景分割作为像素轨迹聚类的注意机制。实例分段。实例分割算法分割图像中的各个对象实例。许多实例分割方法都采用了将分割与对象建议相结合的一般思想[17,36]。虽然这些方法只适用于在训练集中看到的对象,但我们没有做出这样的解释,因为我们的目的是发现对象。最近,一些作品已经通过学习像素嵌入[11,31,27,13]将实例分割问题作为像素标记问题进行了研究。[31]预测像素级特征使用双变量半卷积算子。[13]学习具有种子分数的像素嵌入,用于组成实例掩码。[11]设计了对比损失[27],我们利用这些想法来设计我们的学习嵌入的像素轨迹的方法。运动分割用于运动分析的像素轨迹首先由[42]引入。[9]在频谱聚类方法中使用它们来产生运动片段。[32]提供了变分最小化以从轨迹产生逐像素运动分割。建立在这一思想基础上的其他工作包括将轨迹聚类公式化为多切割问题[23,24,25]或密度峰值聚类[46],以及检测轨迹谱嵌入中的不连续性[15]。最近的方法包括使用遮挡关系来产生分层分割[43],将分段刚性运动与预先训练的CNN相结合以将刚性运动合并到对象中[7],以及联合估计场景流和运动分割[39]。我们在递归神经网络中使用像素轨迹来学习运动聚类的轨迹嵌入。3. 方法我们的方法将视频帧和帧对之间的光流作为输入,通过编码器-解码器网络进行馈送,从而产生像素级特征。这些特征用于预测移动对象的前景掩模此外,设计了一个递归神经网络来学习前景模板中像素轨迹的特征嵌入。最后,将轨迹嵌入聚类到不同的对象中,为每个发现的对象提供一致的分段掩码。网络架构如图2所示。3.1. 编码器解码器:Y网设It∈RH×W×3,Ft∈RH×W×2分别为t时刻的RGB图像和前向光流图像我们9996)帧#tT图2:总体架构。首先,从Y-Net中提取每帧的特征图。 接下来,计算前景蒙版,以橙色显示。PT-RNN使用这些前景掩码来计算轨迹嵌入(从帧1到T的示例前景轨迹以紫色显示),这些轨迹被归一化以产生单位向量。反向传播通过蓝色实线箭头,但不通过红色虚线箭头。网络从视频中接收这些图像作为输入,并在每个时间步长将它们单独馈送到编码器-解码器网络中,其中编码器-解码器网络为每个视频帧提取密集特征。我们的编码器-解码器网络是U-Net架构[38](图3a)的扩展,用于两种不同的输入类型,即,RGB图像和光流图像,通过增加一个额外的输入分支。我们将这种低分辨率特征的中级融合表示为Y-Net。我们在图3b中说明了Y-Net架构。详细地说,我们的网络有两个并行的编码器分支,用于RGB和光流输入。每个编码器分支由两个3×3卷积的四个块组成(每个块后面是GroupNorm层[47]和ReLU激活),然后是2×2最大池化层。然后,RGB和光流分支的编码被级联并输入到解码器网络,该解码器网络包括:类似于[38]的架构,具有从两个编码器分支到解码器的跳过连接。我们认为,这种中级融合比编码器-解码器网络的早期融合和后期融合(使用完全独立的RGB和光流分支,类似于双流网络[40,14,45])性能更好,同时使用更少的参数,并在第二节中根据经验显示这一点。第4.1节。Y-Net的输出φ(It,Ft)∈RH× W× C是场景的像素密集特征表示。我们将参考作为视频的像素嵌入。3.2. 前景预测Y-Net为每个视频帧提取密集的特征图,该特征图结合了对象的外观和运动信息。使用这些功能,我们的网络通过简单地在Y-Net输出上应用另一个卷积来计算前景logits来预测每个视频帧的前景掩码。这些对数通过S形层,阈值为0.5。对于本文的其余部分,我们将mt表示为时间t处的二进制前景掩码。前景掩模被用作关注机制以关注轨迹嵌入的聚类这导致更稳定的性能,如第4.1节所示。请注意,虽然我们在工作中专注于移动对象,但前景可以根据问题指定。例如,如果我们指定某些对象(如汽车)应该是前景,那么我们将学习一个网络,该网络将学习发现和分割视频中的汽车实例。3.3. 轨迹嵌入为了在视频帧中一致地发现和分割对象,我们建议学习视频的前景像素轨迹的深度表示。具体来说,我们考虑整个视频中的密集像素轨迹,其中轨迹如[42,9]中所定义给定Y-Net的输出,我们将轨迹嵌入计算为沿轨迹的像素嵌入的加权和。轨迹嵌入PT-RNNFG口罩特征图Y-Net()()(9997¨2¨ˆΣ不不不其中,不t=1t=1RC}Lψ {xit,jt}L=t=1不不、(二)Ft−1FtFtF值+1t−1不t+ 1t+ 2(a) (b)Y-Net架构图3:我们展示了U-Net [38]和我们提出的Y-Net,以直观地展示差异。Y-Net对于每个输入模态都有两个编码分支(以绿色显示),它们被融合(以紫色显示)并传递给解码器(以黄色显示)。跳过连接显示为蓝色箭头。3.3.1链接前景轨迹我们首先描述的方法来计算像素轨迹ac-”[42]。记Ft−1∈RH×W×2为正向图4:我们说明了前景像素的像素传输链接前景蒙版以橙色显示,前向流由蓝色虚线箭头表示,后向流由红色虚线箭头表示。该图示出链接帧t-1、t、t+ 1中的像素的轨迹。显示了两种可能导致轨迹结束的故障情况在帧t+ 1和t+ 2之间:(1)不满足,以及2)像素之一未被分类为前景。这些轨迹的真实嵌入。将{(it,jt)}L表示为时间t−1和F−1处的光流场∈RH×W ×2是前景轨迹的像素位置,{xit,jt∈t成为时间t处的后向光流场。如[42]中所定义的,我们说时间t-1处的两个像素(i,j)和时间t处的(i′,j′)的光流是一致的,如果不t=1为前景轨迹的像素嵌入(Y-Net输出,即,xt=φ(It,Ft)),L为轨迹的长度。我们定义前景轨迹将像素嵌入的加权和设为像素嵌入fi,j′′2+Fi,j≤0。01. ¨Fi,j?+′Fi,j ′¨2Σ +0。五、(一)沿着前景轨迹。具体来说,我们有t−1tt−1-1¨t¨Σ.ΣLwit,jtxit,jt这个条件要求反向流动点在与前向流动相反的方向,直到流量大小呈线性的公差像素(i,j)和(i′,j′)被链接在像素轨迹中,如果等式(1)保持。为了定义前景像素轨迹,我们增加了上述定义,并且假设像素(i,j)和(i′,j′)是链接的,如果等式(1)(1)成立,并且两个像素都被分类为前景。利用这一点,我们定义了一个前景一致的扭曲函数g:RH×W→RH×W,其使像素集合v ∈RH×W翘曲其中,n表示逐元素乘法,除法符号表示逐元素除法,并且wit,jt∈[0,1]C。为了计算轨迹嵌入,我们将RNN(·)编码为一种新的RNN结构,我们将其表示为像素轨迹RNN(PT-RNN)。在其隐藏状态下,PT-RNN存储.hit,jt:=wiτ,jτxiτ,jτ,Wit,jt:=wiτ,jτ,在时间上沿着它们的前景轨迹前进:t ττ=1τ t ττ=1(三)′′g(v)i,j=vi,jif(i,j),(i′,j′)linked0否则。这允许其跟踪整个前景轨迹的运行和和总权重。而Eq。(三)这可以通过用双线性插值将V与F_t进行比较并乘以二进制一致性掩码来实现该掩模可以通过使用等式(1)将前景掩模mt-1与Ft进行扭曲来获得。(1)并将其与mt相交,如果(i′,j′)链接到前景,则时间t-1时的像素。图4展示了前景像素轨迹中的像素链接3.3.2像素轨迹RNNW.表示Ft−1的第i,j个元素。本质上Lt=1it,j9998˜˜Σ描述了每个像素位置和时间步长的隐藏状态,我们可以通过执行以下操作有效地为所有像素实现PT-RNN:在时间步t,PT-RNN首先应用前景一致性扭曲函数来计算ht−1:=g(ht−1),Wt−1=g(Wt−1)。接下来,我们计算wt. 我们设计了PT-RNN的三种变体来计算wt,命名标准(基于简单的RNN),conv(基于convRNNs)和convGRU(基于[2])。比如我们conv体系结构描述为:在将前景像素链接到轨迹之后,我们描述ct= ReLU。WChWt−1xt(四)我们提出的递归神经网络(RNN)学习fea-wt=σ(Ww<$ct),9999˜.定义x,k=1,. . . ,K,i=1,. . . ,N为列表k2i=1nΣǁΣ我我,.Σi=1K我K我 i=1nΣK.Σ其中,ω表示卷积,Wc,Ww是3×3卷积核。在PT-RNN计算出wt之后,我们用以下方式更新隐藏状态:其中我们在实验中设置λfg=λintra=λinter= 1RISFG是通常用于前景预测的逐像素二进制交叉熵损失。我们将其应用于预测的前景logits。Intra和Inter操作于ht=ht−1+wtxtW t=Wt−1+wt。(五)前景轨迹嵌入。受[11]的启发,其目标是鼓励同一对象的轨迹嵌入接近,同时推动不同对象的轨迹所有型号变体在补充中详细描述本质上,standard将每组链接的像素视为一个简单的RNN,conv包含来自相邻像素的信息,convGRU允许网络通过利用显式内存状态来捕获长期依赖关系。当轨迹完成时,即, pixel(i,j)不链接到下一帧中的任何像素,PT-RNN输出hi,j/Wi,j,其等于Eq.(二)、这导致apart. 为了简化符号,让我们重载符号Ki其中k是对象和i索引嵌入。由于所有的特征嵌入都被归一化为具有单位长度,我们使用余弦距离函数d(x,y)=1(1−x<$y)来测量两个特征嵌入x和y之间的距离。t t命题1设{yi}N是一组单位向量,对每个前景像素进行C维嵌入,无论它的长度,何时开始,何时结束。注意,这些轨迹嵌入是像素密集的,那是我 的。 定义这组单位向量的球面平均值为使余弦最小的单位向量消除了对变分最小化步骤的需要[32]。嵌入被规范化,以便它们位于单元距离µ:= argmin1d(w,y)(6)球体标记轨迹的一个好处是,我们可以-1=1yiw我i=1强制时间上的一致性,因为一致的前向和后向光流通常意味着像素是真实的,则µ=n1=1.有关证明,请参阅补充。伊伊联系我们[42]然而,在运动和对象边界周围可能出现问题,这可能导致轨迹错误地漂移并表示两个不同对象的运动。对象或对象和背景[42]。 本案中对象内损失的目标是鼓励这些学习物体的轨迹嵌入接近它们的球面平均值。这导致前景掩模是有益的,并且能够在轨迹漂移之前切断轨迹。我们还注意到,DA-RNN架构[49]在一个1内压=KN✶d(µk,xk)−α≥0d2(µk,xk)你好。d(μ,xk)−α≥0μRNN用于语义标记。3.3.3空间坐标模块前景轨迹嵌入包含来自RGB和光流图像的信息。然而,它们不编码关于图像中的轨迹的位置的信息。因此,我们引入了一个空间坐标模块,它计算每个前地轨迹的位置信息。具体来说,我们计算由每个轨迹的平均x,y像素位置和位移组成的4维向量,并将其通过两个完全连接(FC)层以将其膨胀为C维向量,其中,μ是对象k的轨迹xkNk的球面平均值,并且μ表示指示函数。注意,µk是嵌入的函数指示器功能起作用作为一种硬负挖掘,它将损失集中在距离球面平均值比边际α更远的在实践中,我们不会让分母变得太小,因为它可能会导致不稳定的梯度,所以我们允许它达到最小值50。最后,设计了对象间损失抵消器,以将不同对象的轨迹推开。我们希望星系团被推开一定的距离δ,=2<$[δ−d(µ,µ′)]2,我们将其添加到(·)的输出(在前景轨迹嵌入的归一化除其他K(K−1)kk′k k +3.4. 损失函数为了训练我们提出的网络,我们使用了一个由三项组成的损失函数L=λfg fg+λintra intra+λinter inter,其中[x]+= max(x,0)。这个损失函数鼓励球面意味着不同物体之间至少相距δ。由于我们的嵌入位于单位球面上,并且我们的距离函数测量余弦距离,因此δ不需要依赖于特征维度C。在我们的实验中,我们设置δ= 0。5,这鼓励集群至少分开90度。i=1KΣk=1i =1Σ10000FT3D戴维斯FBMSY-Net0.9050.7010.631早期融合0.8830.6360.568后期融合0.8970.6310.570表1:融合消融。性能以IoU衡量。3.5. 轨迹聚类在 推 理 时 , 我 们 使 用 von Mises-Fisher 均 值 漂 移(vMF-MS)算法对前景轨迹嵌入进行聚类[26]。这给了我们聚类以及聚类的数量,这是视频中对象的估计数量。vMF-MS使用von Mises-Fisher分布找到核密度估计的密度可以被描述为对于单位向量y的p(y;m,κ)=C(κ)exp(κmy),其中κ是标量参数,κm2= 1,并且C(κ)是归一化常数。k应设置为反映了α的选择。如果训练损失是完美的,d(μk,xk)<α,μi = 1,. . . ,Nk,则所有xk都位于表2:FBMS测试集的架构和数据集消融随机梯度下降,固定学习率为1 e-2.我们使用长度为5的序列通过时间进行反向传播来训练PT-RNN。每个图像都将调整大小224×400,加工前。在训练期间(FT3D除外),我们执行数据增强,其中包括平移、旋转、裁剪、水平翻转和颜色扭曲。我们设C=32,α= 0。02,δ= 0。5,κ= 10。我们通过[20]提取光流。我角半径为cos−1的球我(1−2α)的µk。 在我们每个前景轨迹的标签由轨迹中最后一个像素的帧级标签。 由于在实验中,我们设置α= 0。02,得到cos−1(1−2α)<$16度因此,我们设置κ= 10,导致几乎50%的密度集中在半径为m的16度的球中(通过观察[41]的图2.12)。运行完整的vMF-MS聚类是低效的,因为我们的轨迹表示是像素密集的。相反,我们在一些随机选择的种子上运行算法,这些种子在余弦距离上相距很远。如果网络学会正确预测聚类轨迹嵌入,那么这种随机初始化应该在结果中提供很小的变化。此外,为了提高效率,我们使用了vMF-MS集群的PyTorch-GPU实现4. 实验数据集。我们在五个数据集上评估了我们的视频前景分割和多对象运动分割方法:Flying Things 3d(FT3D)[29]、DAVIS 2016 [35]、Freibug-Berkeley运动分割[32]、复杂背景[30]和Camerotic Aged Animal [6]。对于FT3D,我们将对象分割掩码与前景标签相[44]以产生运动分割掩模。对于DAVIS 2016,我们使用J-度量和F-度量进行评估。对于FBMS、复杂背景和Camou标记的动物,我们使用精确度、召回率和F分数,[32,7]中定义的用于评估的对象度量每个数据集的完整细节可以在补充中找到。众所周知,最初的FBMS标签是模糊的[5]。一些标签显示一个聚合运动的多个分割,或将(静态)背景分割因此,[5]提供了我们用于评估的校正标签。实施详情。我们训练我们的网络,稀疏标记的FBMS训练数据集,我们扭曲标签使用方程。(1)使每个帧都有标签。最后,由于FBMS的规模较小(29个视频用于训练),我们利用DAVIS 2017数据集[37]并从90个视频中手动选择42个视频,这些视频大致满足以下标准:[5]增加FBMS训练集。我们将其表示为DAVIS-m。DAVIS-m中的确切视频可以在补充中找到。在长视频上评估完整模型时,我们会受到GPU内存限制的影响。因此,我们设计了一个滑动窗口方案来处理这个问题。首先,我们把所有的地面轨迹集中在一个窗口内。我们使用匈牙利算法将此窗口的我们使用聚类中心之间的距离作为我们的匹配成本,并进一步要求匹配的聚类必须具有v ed(µk,µk′)<0。二、当一个clus-ter与之前的任何clusters都不匹配时,我们将其声明为一个新对象。我们使用一个5帧窗口,并采用这种方案的FBMS和Camero-aged动物数据集。在第4.2节中,我们使用图2的convPT-RNN变体,在FT 3D上训练150 k次迭代,然后在FBMS+DAVIS-m上微调100 k次迭代。我们的实现是在PyTorch中,所有实验都在单个NVIDIA TitanXP GPU上运行。给定光流,我们的算法以大约15 FPS运行请注意,我们不使用CRF后处理步骤进行运动分割。4.1. 消融研究融合消融术。我们表明,根据经验,使用Y-Net进行中级融合的选择比编码器-解码器网络的早期融合和后期融合更好。对于早期融合,我们将RGB和光流连接起来,并将其通过单个U-Net。对于晚期融合,有两个U-多目标前景PRFObjPRF转换PT-RNN75.966.667.34.990.387.687.7标准PT-RNN72.266.666.04.2788.189.387.5convGRUPT-RNN73.663.864.84.0789.685.886.3逐帧嵌入79.956.759.711.292.185.487.4无FG遮罩63.560.359.61.9782.585.782.1无SCM70.465.563.23.7089.389.188.1无FT3D前70.263.663.13.6687.688.286.3无DAVIS-M66.963.662.12.0787.186.985.210001表3:FBMS、ComplexBackground(CB)、CamouflagedAnimal(CA)以及这些数据集中所有视频的平均结果(ALL)。最佳结果以红色突出显示,第二佳结果以蓝色突出显示。FST [33]FSEG [21]MPNet [44]LVO [45]我们戴维斯JF55.851.170.765.370.065.975.972.174.273.9FT3DIOU--85.9-90.7表4:DAVIS 2016和FT3D的视频前景分割结果。最佳结果以红色突出显示。Nets:一个用于RGB,一个用于光流,最后有一个conv层来融合输出。请注意,Y-Net的参数比早期融合多,但比晚期融合少。表1显示,在前台IoU方面,Y-Net优于其他公司请注意,性能差距在真实世界的数据集上更为突出。架构消融。我们评估模型的每个部分的贡献,并在FBMS测试集上显示多对象设置和二进制设置(前景分割)的结果。所有模型都在FT 3D上进行了15万次迭代的预训练,并在FBMS+DAVIS-m上进行了10万次迭代的训练。不同PT-RNN变体的实验表明,convPT-RNN在F分数方面表现最好,因此我们将其用于与最先进方法的比较。Standard的表现类似,而convGRU的表现更差,可能是由于对小数据集的过度拟合。接下来,我们移除PT-RNN架构(每帧嵌入)并将前景像素聚类为会受苦最后,我们删除了空间坐标模块(无SCM),并观察到较低的性能。与每帧嵌入实验类似,前景预测不受影响。数据集消融。我们还研究了训练时间表和训练数据集选择的影响。特别是,我们首先探索了没有预先训练对FT3D的影响,如表2的底部所示。其次,我们探索了仅在FBMS上训练模型的效果(没有DAVIS-m)。这两个实验都显示了在多对象和前景/背景设置中的性能明显下降,这表明这些想法对我们的性能至关重要。4.2. 与最新技术水平方法的比较视频前景分割。对于FBMS、ComplexBackground 和CamouflagedAnimal,我们遵循[7]中的协议,该协议将运动分割标记转换为单个前景掩模,并使用[32]中定义的度量,并报告这三个数据集的平均结果。我们将我们的方法与最先进的方法进行比较,包括PCM [6],FST [33],NLC [12],MPNet [44],LVO [45]和CCG[7]。我们在表3中报告了结果。在F分数方面,我们的模型在FBMS和CamouflagedAnimal上优于所有其他模型,但在每一帧F-score显著下降,并且CNObj更差,这可能是由于该版本没有及时一致地标记集群。由于前景预测不受影响,这些数字仍然是合理的。接下来,我们移除前景遮罩(无FG遮罩)并聚类所有前景和背景轨迹。聚类更加敏感;如果背景轨迹在嵌入空间中没有被充分地聚类,PCM和CCG背后的复杂背景看所有视频,我们显示了4.4%的相对增益的F分数相比,第二个最好的方法CCG,由于我们的高召回。此外,我们还报告了FT3D模型的结果和DAVIS2016的验证集 我们将我们的模型与最先进的方法进行比较:[24][25][26][27][28][29仅在本实验中,我们在FT3D上训练了C= 64通道的Y-Net所有视频前景分割多目标运动分割[24][25][26][27][28][29]电话: +86-021 - 88888888传真:+86-021 - 888888882019-06 -2510:00:00电话:+86-051-88888888传真:+86-051-服务对象-11.7 7.74.04.9电话: +86-10 - 88888888传真:+86-10 - 888888882019 -05 - 25 10:00:00电话:+86-61 - 88888888传真:+86-61- 8888888服务对象-------3.4 3.43.2电话: 0755- 8888888传真:0755 -888888882019 - 06 - 22 00:00:0000:00电话:+86-021 - 88888888传真:+86-021 - 88888888服务对象-22.2 5.75.05.480.8 82.1 84.7 85.387.4 84.787.173.874.575.174.1电话: +86-021 - 8888888传真:+86-021 -8888888电话:+86-021 -8888888传真:+86-021 -CACBFBMS10002RGB Flow GT CCG我们的RGB Flow GTCCG我们的图5:运动分割的定性结果这些视频是:山羊01,马02,和汽车10从FBMS,和森林复杂的背景。对于100k次迭代,导致性能优于MPNet 5.6%的相对增益。然后,我们对DAVIS 2016的训练集进行了50k次迭代微调,并使用CRF [28]后处理步骤。 我们在F方面优于所有方法-测量和所有方法,但LVO对J-测量。注意与LVO不同的是,我们不对视频前景使用RNN分割,但我们仍然实现了与最先进技术相当的性能。此外,LVO [45]报告了未使用CRF的J -测量值为70.1,而我们的方法在未使用CRF的情况下获得了71.4的J-测量值。这证明了Y-Net架构的有效性多目标运动分割。我们将我们的方法与最先进的方法CCG [7],CUT [24]和CVOS [43]进行比较。我们在表3中 报 告 了 我 们 的 结 果 。 我 们 在 FBMS 和 Camou-flagedAnimal数据集上的F得分优于所有模型在FBMS上,我们在精确度,召回率和F分数上占主导地位,与第二好的方法CCG相比,F分数的相对增益为3.5%。我 们 在 ObjectiveObj 上 的 性 能 与 其 他 方 法 相 当 。 在Camou-flagedAnimal上,我们表现出更高的召回率和更低的准确率,导致F分数相对增加4.4%。同样,我们在ObjectiveObj上的结果是可比较的。然而,我们的方法在ComplexBackground数据集上排名第三。这个小的5序列数据集显示了不同深度的背景,这对我们的网络来说很难正确分割。然而,在查看所有视频时,我们在F分数上仍然优于所有其他方法与二元情况类似,这是由于我们的高召回率。因为我们是第一个使用FT3D进行运动分割的工作,我们在补充中为感兴趣的读者报告了FT3D的结果。为了说明我们的方法,我们展示了定性结果,图5.我们绘制了RGB,光流[20],地面实况,来自最先进的CCG [7]的结果,以及我们对4个序列的结果(山羊 01 , 马 02 和 来 自 FBMS 的 汽 车 10 , 以 及 来 自ComplexBackground的森林在goats01上,我们的结果表明,由于我们预测的前景掩模,我们的方法能够正确地分割没有瞬时流的对象。CCG在这种情况下挣扎。在horses02上,我们展示了一个类似的故事,而CCG努力估计物体的刚性运动。请注意,我们的方法提供了准确的分割,而无需使用CRF后处理步骤。我们展示了我们算法的两种失效模式:1)如果前景蒙版很差,性能就会受到影响,如cars10和forest所示,2)集群崩溃可能会导致多个对象被分割为单个对象,如cars10所示。5. 结论我们提出了一种新的深度网络架构,用于解决使用对象运动线索的对象发现问题。我们介绍了一种编码器-解码器网络,它学习视频帧和光流的表示,以及一种新型的递归神经网络,它学习前景掩模内像素轨迹的特征嵌入。通过对这些嵌入进行聚类,我们能够发现和分割视频中潜在的不可见对象。我们证明了我们的方法在几个运动分割数据集的对象发现的有效性。确认我们感谢Pia Bideau提供评估代码。这项工作的部分资金来自NDSEG奖学金、10003引用[1] B. Babenko,M. H. Yang和S.贝隆吉具有在线多实例学习 的 鲁 棒 对 象 跟 踪 。 IEEE trans-actions on patternanalysis and machine intelligence,2011。1[2] N.巴拉斯湖姚角,澳-地Pal,和A.考维尔深入研究卷积网络以学习视频表示。国际学习表征会议(InternationalConference on Learning Representations , ICLR ) ,2016。4[3] J. L. Barron,D.J. Fleet和S.S. Beauchemin 光流技术的性能国际计算机视觉杂志,12(1):43-77,1994。1[4] J. Berclaz,F. Fleuret,E. Turetken和P.呸使用k-最短路径 优 化 的 多 目 标 跟 踪 。 IEEE transactions on patternanalysis and machine intelligence,2011。1[5] P. Bideau和E.学习米勒。运动分割的详细规则arXiv预印本arXiv:1610.10033,2016。1、6[6] P. Bideau和E.学习米勒。它一个概率模型的因果运动分割 在 移 动 摄 像 机 视 频 。 欧 洲 计 算 机 视 觉 会 议(ECCV),第433-449页。施普林格,2016年。二六七[7] P. Bideau,A.罗伊乔杜里河R. Menon和E.学习-米勒。两全其美:结合cnn和几何约束的分层运动分割。在IEEE计算机视觉和模式识别会议(CVPR),2018年。二、六、七、八[8] J. Bohg,K.豪斯曼湾桑卡兰岛布洛克D. 克拉吉奇,S. Schaal和G.S. 苏哈梅交互感知:感知中的杠杆作用和行 动 中 的 感 知 .IEEE Transactions on Robotics , 33(6):1273-1291,2017。1[9] T.布洛克斯和J·马利克通过点轨迹的长期分析的对象分割。欧洲计算机视觉会议(ECCV),2010年。一、二、三[10] J. 郑,J.Yang,Y.Zhou和Y.崔。用于前景分割的灵活图像和视觉计算,2006年。1[11] B. De Brabandere,D. Neven和L.范古尔基于判别损失函数的语义实例分割。arXiv预印本arXiv:1708.02551,2017。二、五[12] A. Faktor和M.伊拉尼基于非局部一致性投票的视频分割。英国机器视觉会议(BMVC),2014年。7[13] A. Fathi,Z. Wojna,V. Rathod,P. Wang,H. O. 歌、S. Guadarrama和K. P·墨菲基于深度度量学习的语义实例分割。arXiv预印本arXiv:1703.10277,2017。2[14] C. Feichtenhofer、A. Pinz和A.齐瑟曼。卷积双流网络融合视频动作识别。在IEEE计算机视觉和模式识别会议(CVPR),2016年。3[15] K. Fragkiadaki,G. zhang和J.石通过跟踪轨迹嵌入中的不连续性来进行在IEEE计算机视觉和模式识别会议(CVPR),2012年。2[16] S. Hare , S.Golodetz , A. 萨 法 里 河 谷 Vineet , M.-M.Cheng,S.L. Hicks和P.H. 乇Struck:结构化输出跟踪,内核IEEE Transactions on Pattern Analysis and MachineIntelligence,2016。1[17] K. 他,G.吉基奥萨里山口多拉尔河和娘娘腔。面具R-CNN。IEEEInternational Conference on Computer Vision(ICCV),2017年。2[18] B. K. Horn和B.G. Schunck 确定光流。Artificial intelligence,17(1-3):185-203,1981. 1[19] W. Hu,X. Li,X. Zhang,X. Shi,S. Maybank和Z.张某增量张量子空间学习及其在前景分割与跟踪中的应用。国际计算机视觉杂志,2011年。1[20] E. Ilg,N. Mayer,T. Saikia、M. Keuper,A. dosovitskiy和T.布洛克斯流动网络2.0:利用深度网络的光流估计的演进。在IEEE计算机视觉和模式识别会议,2017。六、八[21] S.杰恩湾Xiong和K.格劳曼 Fusionseg:学习结合运动和外观,实现视频中通用对象的全自动分割。arXiv预印本arXiv:1701.05384,2017。二、七[22] Z. Kalal,K. Mikolajczyk,J. Matas等人跟踪-学习-检测IEEEtransactionsonpatternanalysisandmachineintelligence,2012。1[23] M.库伯用于运动分割的高阶最小成本提升多分割。2017年IEEE计算机视觉国际会议(ICCV),第4252-4260页,2017年。2[24] M.科伊珀湾Andres和T.布洛克斯运动轨迹分割,通过最低 成 本 多 切 割 。 IEEEInternational Conference onComputer Vision(ICCV),2015年。一、二、七、八[25] M. Keuper,S.唐湾Andres,T.Brox和B.席勒运动分割多目标跟踪的相关共聚类方法。IEEE关于模式分析和机器智能的交易,2018。2[26] T. Kobayashi和N.大津超球面上聚类的von-mises-fisher均值 漂 移 。 2010 年 国 际 模 式 识 别 会 议 ( InternationalConference on
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功