运动模式学习：基于完全卷积网络的视频运动分割方法

117 浏览量更新于2023-10-15 收藏 1.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3386学习视频中的运动模式帕维尔·托克马科夫·卡尔蒂克·阿拉哈里因里亚河科迪莉亚·施密德摘要确定物体是否在运动而不考虑相机运动的问题远未解决。我们通过学习视频中的运动模式来解决这个具有挑战性的任务。我们方法的核心是一个完全卷积的网络，它完全从合成视频序列及其地面实况光流和运动分割中学习。这种编码器-解码器风格的体系结构首先学习光流场特征的粗略表示，然后迭代地对其进行细化以产生原始高分辨率的运动标签。我们进一步改进了这种标记的对象图和条件随机场，占错误的光流，也专注于移动的“东西”，而不是“东西”。每个像素的输出标签表示其是否经历了独立运动，即，而与摄像机运动无关。我们证明了这种学习框架的好处-工作的移动对象分割任务，其目标是分割所有运动中的对象我们的方法在最近发布的DAVIS基准数据集（包括真实世界的序列）上的表现优于顶级方法5.6%。我们还评估了伯克利运动分割数据库，实现国家的最先进的结果。1. 介绍分析运动模式的任务在计算机视觉中有很长的历史[3，8，14，27，35，37，41]。这包括用于运动估计[3，35]、场景[37]和光学[8，14]流计算、视频分割[27，41]的方法;所有这些方法的目的都是估计或利用场景中的运动线索。尽管取得了这一进展，但无论相机运动如何，识别物体是否确实在移动的基本问题仍然具有挑战性。在本文中，我们取得了重大进展，以解决这一挑战，与一个新的基于CNN的框架，自动学习视频中的运动模式，并使用它来分割运动对象;参见图1中的样本结果。为了说明这个任务，考虑图2，来自FlyingThings3D数据集的序列[23]。它描绘了一个合成生成的场景，涉及一个移动的相机（可以通过比较图像的左上角很容易地观察到（a）法国格勒诺布尔市，因里亚市，让·昆茨曼律师事务所图1. DAVIS数据集上的结果。左：输入到我们的MP-Net的光流场，使用[6]计算右图：我们的分割结果覆盖在视频帧上。请注意，我们的方法准确地分割移动对象，并学会区分对象和相机运动（在流场中看到）。和（b）），与运动中的物体，例如，帧中心的三个大我们工作的目标是研究视频序列中的这种运动模式（使用光流场（c）），并学会区分物体的真实运动换句话说，我们针对（d）中的移动对象分割。我们的方法的核心是一个可训练的模型，运动模式网络（MP-Net），用于分离独立的对象和相机运动，它以光流为输入，并输出移动对象的每像素分数。受全卷积网络（FCN）[8，22，31]的启发，我们提出了一种相关的编码器-解码器风格架构来完成这种双标签分类任务。该网络是用合成数据从头开始训练的[23]。用于训练的像素级地面实况标签是自动生成的（参见图2（d）），并表示每个像素是否在场景中移动。网络的输入是流场，如图2（c）所示。第3节提供了网络的更多细节以及如何训练网络。通过这种训练，我们的模型学习区分对象和背景的运动模式。然后，我们用对象线索[29]和条件随机场（CRF）模型[19]（见§4），以证明整个框架对移动对象分割任务的有效性（见§6）。这些改进步骤是不-3387(a)（b）（c）（d）图2.（a，b）来自FlyingThings3D数据集中序列的两个示例帧[23]。摄影机在此场景中处于运动状态，同时还有四个独立移动的对象。(c)（a）的地面实况光流，其示出了前景对象和背景两者相对于下一帧（b）的运动。(d)此场景中移动对象的地面实况分割。重要的是要考虑流场中的误差，也要瞄准移动的物体，而不是像移动的水这样的东西。我们对密集注释的视频分割（DAVIS）[28]和Freiburg/Berkeley运动分割数据集（BMS-26，FBMS）[3，5，26，36]进行了评估，所有数据都包含真实数据序列。我们在这些具有挑战性的数据集上获得了最先进的结果。特别是，尽管仅在帧级别上操作，但我们在DAVIS上的交叉部分超过联合得分上我们已经在线提供了源代码和训练模型。12. 相关工作我们的工作涉及以下处理运动线索的任务：运动和场景流估计以及视频对象分割。我们将回顾与这些主题最相关的工作，以及在本节剩余部分中对相关CNN架构的回顾。运动估计用于估计运动的早期尝试集中在基于几何的方法上，例如[35]，其中利用RANSAC识别潜在的运动集合最近的方法依赖于其他线索来估计移动对象区域。例如，Papzouglou和Ferrari [27]首先通过测量光流场的变化来提取运动边界，并使用它来估计运动区域。他们还使用外观特征迭代地完善这个初始估计。这种方法产生了有趣的结果，但受到启发式初始化的限制。我们表明，将我们基于学习的运动估计纳入其中可以显着改善结果（见表4）。Narayana等人[24]在概率模型中使用光流取向来为像素分配与它们各自的真实世界运动一致的标签。这种方法假设纯粹的平移相机运动，并且当对象和相机运动彼此一致时容易出错。Bideau等人[3]提出了一种替代方案，其中前景和背景运动模型的初始估计随着时间的推移而更新，具有新帧的光流方向。这种初始化也是启发式的，并且缺乏鲁棒的学习框架。虽然我们的目标也是找到运动中的物体，但我们对这个问题的解决方案是一种新颖的方法。1http://thoth.inrialpes.fr/research/mpnet基于学习的方法场景流，即，场景中的3D运动场[37]是运动估计的另一种形式，但是使用附加信息来计算，例如从立体图像[15，40]计算的视差值或估计的3D场景模型[38]。与我们的MP-Net相比，这些方法都不遵循基于CNN的学习方法。视频对象分割。视频对象分割的任务是将属于一类的像素进行时空关联;换句话说，提取与对象边界相关的片段，以及每当对象像素出现在视频中时在时间上关联对象像素。这可以通过将一个或多个帧中的手动片段标签传播到视频序列的其余部分来实现[2]。这类方法不适用于我们的场景，其中没有可用的手动分割。我们解决分割问题的方法不需要任何手动标记的区域。该范例中的几种方法生成视频的过分割[4，12，18，21，41]。虽然这对于视频中的一些识别任务来说可能是有用的中间步骤，但它没有对象的概念。实际上，在这种情况下，大多数提取的片段不直接对应于对象，使得从该中间结果获得视频对象分割是不平凡的另一种方法是运动分割[5，10，25]，它可以产生更多具有点轨迹的相干区域然而，它们假设在整个对象上运动的均匀性，这对于非刚性对象是无效的。另一类分割方法将问题视为前后台分类任务[9，20，27，34，39，43]。其中一些最初的估计一个或多个区域[27，39]，其潜在地对应于前景对象，然后学习前景/背景外观模型。然后将学习的模型与其他线索整合，例如，显着图[39]，成对约束[27，43]，对象形状估计[20]，以计算最终的对象分割。这一框架的替代办法是：（i）视频的不同部分之间的长距离交互，以克服低质量视频中的噪声初始化[9]，以及（ii）遮挡物/遮挡关系，以获得分层分割[34]。我们提出的方法优于所有的顶部这类分割方法中的一种（见§6）。3388图3. 我们的运动模式网络：MP-Net。编码器部分（a）中的蓝色箭头表示卷积层，以及ReLU和最大池化层。解码器部分（b）中的红色箭头是具有ReLU的卷积层以绿色显示的单元表示最后一个解码器单元的输出的双线性插值。相关CNN架构我们的CNN模型预测每个像素的标签，类似于其他任务的CNN，例如语义分割[13，22，31]，光流[8]和视差/深度[23]估计。我们采用了一个编码器-解码器风格的网络，灵感来自[8，22，31]中类似架构的成功。他们首先学习具有逐渐增加大小的感受野的粗略表示，然后用上卷积层迭代地对其进行细化，即，通过对特征图进行上采样并执行卷积来获得原始高分辨率的输出。与[8，22]相比，[8，22]预测每个上卷积层中的标签，我们将以不同分辨率计算的特征连接起来以形成强表示，并估计最后一层中的标签与[31]相比，我们的架构在编码部分的层中也有更少的通道，以适应更大的训练集批次，从而减少训练时间。我们的架构的更多细节在第3.1节中介绍。3. 学习运动模式我们的MP-Net采用对应于视频序列的两个连续帧的光流场作为输入，并产生每像素的运动标签。换句话说，我们将每个视频视为帧对的序列，并为每个帧对独立计算标签。如图3所示，网络包括几个“编码”（卷积和最大池化）和“解码”（上采样和卷积）层。运动标签由网络的最后一层产生，然后重新缩放到原始图像分辨率（见§3.1）。我们完全在合成数据上训练网络--在这种情况下，可以很容易地获得地面实况运动标签（见第3.2节）。3.1. 网络架构我们的编码器-解码器风格的网络的动机是分割不同的运动模式在流场中，这需要一个大的感受野，以及在原始图像分辨率的输出的目标。一个大的感受野对于将上下文纳入模型至关重要。例如，当由小的感受野提供的支持的空间区域（用于执行卷积）完全落在具有非零流值的对象，则不可能确定它是由于对象还是照相机运动。另一方面，更大的感受野将包括与对象以及背景相对应的区域，从而提供足够的上下文来确定场景中正在移动的内容以原始图像分辨率生成的输出的第二个要求是捕捉对象的精细细节，例如，当只有一部分物体在移动时。我们的网络通过以下方式满足这两个要求：（i）编码器部分学习具有增加大小的感受野的特征，以及（ii）解码器部分对中间层输出进行上采样，以最终以全分辨率预测标签。图3说明了我们的网络架构。光流场输入由网络的编码部分（由图中的（a）表示）处理，以生成粗略表示，即输入的32×32下采样版本这里的每个3D块都代表一个特征图，由一系列的层所引起。在编码部分，每个特征映射都是应用卷积的结果，然后是ReLU非线性层，然后是2×2最大池化层。通过这一部分中的最终操作集学习的粗略表示，即，32×32下采样的ver-由解码器部分（（b））逐渐上采样，图）。在每个解码器步骤中，我们首先将前一步的输出上采样2x2，并将其与相应的中间编码表示连接，然后进行最大池化（图中用黑色箭头向下表示）。然后处理具有两个卷积层，随后是非线性，以产生用于下一个（更高分辨率）解码步骤的输入。最后的解码器步骤以原始分辨率的一半产生运动标签图。我们对此结果进行双线性插值，以估计原始分辨率的标签。3.2. 使用合成数据进行我们需要大量完全标记的示例来训练我们提出的卷积网络。在我们的情况下，该数据对应于在不同条件下捕获的几种类型的对象的视频（例如，移动或静止相机），以及它们各自的移动对象注释。3389(a)(b)（ c ）第（1）款图4.每行显示：（a）来自FlyingThings3D中的序列的示例帧，（b）（a）的地面实况光流，其示出了前景对象和背景两者相对于下一帧的运动，以及（c）我们利用地面实况光流作为输入对该场景中的移动对象的估计。选项。目前没有满足这些要求的真实世界场景的大型数据集，主要是由于为每帧生成地面实况注释和流的成本我们采用了流行的使用合成数据集的方法，在其他工作中遵循[8，11，23]。具体来说，我们使用FlyingThings3D数据集[23]，其中包含2250个运动中的几个物体的视频序列，具有地面实况光流。我们使用地面实况移动对象标签来增强该数据集，这些标签是使用数据集中可用的视差值和相机参数准确估计的，如第5节所述。参见图2（d）的说明。我们在几个设置下用mini-batch SGD训练网络用地面实况光流作为输入训练的一个显示出最佳性能。在第6.2节中对此进行了详细分析。请注意，虽然我们使用地面实况流在合成数据集上训练和评估网络，但我们对真实世界测试数据的所有结果都只使用估计的光流。在训练过程收敛之后，我们获得了运动模式的学习模型。我们的方法利用了CNN最近在像素级标签任务中的成功，例如语义图像分割，它在RGB空间中其最佳性能的关键是能够捕捉图像中的局部模式各种类型的物体和相机运动也会在流场中产生一致的局部模式，我们的模型能够学习识别。这给了我们一个明显的优势，超过其他像素级运动估计技术[3，24]，不能检测局部模式。[27]中使用的基于运动边界的运动学可以被视为一种特定类型的模式，代表独立的对象运动。我们的模型能够学习许多这样的模式，这大大提高了运动估计的质量和鲁棒性。4. 检测运动模式我们将我们的训练模型应用于合成（FlyingTh-ings3D）以及真实世界（DAVIS，BMS-26，FBMS）测试数据。图4显示了我们的模型在FlyingThings3D测试集上的样本预测，其中地面实况光流作为输入。前两行中的示例表明，我们的模型可以准确地识别对象中的细节：薄的结构，即使当它们微妙地移动时，例如第一行中右上角的吉他的琴颈（参见光流场（b）中的微妙运动），精细的结构，如花瓶中的叶子，以及第二行中的吉他的主轴箱。此外，我们的方法成功地处理对象表现出高度变化的运动在第二个例子。第三行显示了一个极限情况，我们的网络的感受野完全落在一个大物体的内部，因为移动的物体占主导地位。传统的方法，如RANSAC，在这种情况下也不起作用。为了检测真实世界视频中的运动模式，我们首先用流行的方法计算光流[6，30，33]。利用该流作为网络的输入，我们估计运动标签图，如图5（c）中的示例所示。尽管我们的帧对前馈模型的预测在帧中的几个区域中是准确的（图中的（c）），但我们面临着两个挑战，这在合成训练集中没有观察到。第一个是场景中物体的运动[1]，例如，由于风筝冲浪者的运动（图中的第一行）而导致的水上图案，这与移动对象分割无关。第二个是光流中的显著误差，例如，在婴儿车的前面（图中的底行中的（b））。我们通过以下方式应对这些挑战：（i）将对象属性[29]纳入我们的框架，以及（ii）使用全连接条件随机场（CRF）[19]改进结果。以下两节将详细介绍这些问题，并在6.3节中分析其影响。4.1. 分割真实世界的视频如上面的示例中所提到的（图5，顶行），真实世界视频可以包含正在进行独立运动的东西虽然研究这种运动很有趣，而且我们的模型确实估计了它（见第一行中的网络预测（c）），但它在任何移动对象分割的标准数据集中都没有注释。为了对标准基准进行公平的评估，我们引入了对象的概念，并根据对象建议计算对象性得分，以消除“移动的东西”。我们将这个分数与我们的网络输出相结合，以获得更新的预测。我们首先在每个帧中生成对象建议，一种最先进的方法[29]。然后，我们使用像素级投票方案来计算对象分数。像素i处的得分是包括该像素的提议的数量。该分数由提案总数归一化3390(a)（b）（c）（d）（e）（f）图5.DAVIS数据集上的示例结果显示了我们方法的所有组件每行显示：（a）视频帧，（b）用LDOF [6]估计的光流，（c）用LDOF流作为输入的MP-Net的输出，（d）用建议[29]计算的对象图，（e）初始移动对象分割结果，（f）用CRF细化的分割。以获得oi，像素i处的对象性得分在0-1范围内。从本质上讲，我们汇总了几个可能代表感兴趣对象的提案，以获得一个ob-tech。如图5（d）中的示例所示。然后，我们将其与MP- Net在像素i处的运动预测相结合，mi∈[0，1]，以获得更新的预测。pi为：pi=min（mi<$（k+oi），1），其中k∈[0，1]是一个p-控制对象影响的参数。它被设置为0的情况。5，以确保高置信度网络预测mi仅在没有对象建议支持它时才被抑制。在风筝冲浪者的示例中（顶行在图5）中，对象图（d）没有水上对象的建议，即“移动的4.2. 细分细化如合成测试序列所示，图4，我们的模型在几种情况下产生准确的对象边界这部分是由于精确的光流输入;回想一下，我们对合成数据使用地面实况流。当然，计算流的准确性低于此，并且通常无法提供精确的对象边界（见图5（b）），特别是在低纹理区域。这样的误差不可避免地导致不精确的运动段。为了解决这个问题，我们遵循使用CRF [7]细化分割结果的常见做法我们使用一个完全连接的CRF [19]，我们的预测更新了作为一元项的客观性分数，以及标准的基于颜色的成对项。在图5（f）中定性地示出了细化，其改进了（e）中的初始分割，例如，中间一排推婴儿车的人的轮廓。5. 数据集FlyingThings3D （ FT3D ）。我们使用合成的FlyingThings3D数据集训练我们的网络[23]。它包含各种物体沿着随机轨迹飞行的视频，随机构建的场景。视频序列的产生具有复杂的摄像机运动，这也是随机的。FT3D包含2700个视频，每个视频包含10个立体帧。数据集分为训练集和测试集，分别有2250和450个视频。地面实况光流、视差、内在和外在相机参数为所有视频提供对象实例分割掩模。没有注释可直接用于区分移动对象和静止对象，这是训练我们的网络所需的。我们从以下提供的数据中提取这一利用给定的相机参数和立体图像对，我们首先计算视频帧t中所有像素的3D坐标。使用帧t和t+1之间的地面实况流来找到一对对应的像素，我们检索它们各自的3D场景点。现在，如果像素在这两个帧之间没有经历任何独立的运动，则场景坐标将是相同的（直到小的舍入误差）。我们已经在我们的项目网站上公开了这些标签。测试集上的性能被测量为预测分割和地面实况掩码之间的标准交集。戴维斯我们使用密集注释的视频分割数据集[28]专门用于评估我们的方法。DAVIS是一个非常新的数据集，包含50个全高清视频，具有不同类型的对象和相机运动。它包括具有挑战性的例子与闭塞，运动模糊和外观的变化。为所有视频帧中的运动对象提供精确的像素级注释。请注意，即使场景中有多个移动对象，每个视频我们使用 [28] 中使用的三个度量在DAVIS上评估我们的方法，即区域相似性的交集，轮廓精度的F度量，以及测量分段随时间推移的平滑度的时间稳定性。我们遵循[28]中的协议，并使用降采样因子为2的图像。其他数据集。我们也评价对序列来自Berkeley （ BMS-26 ） [5 ， 36] 和 Freiburg-Berkeley（FBMS）[26]运动分割数据集。BMS-26数据集由26个视频组成，具有用于选择帧的地面实况对象分割。观察到这些视频中的一些注释不对应于具有独立运动的对象，其中10个在[3]中被排除为了与[3]进行比较，我们遵循他们的实验方案，并对BMS-26的相同子集进行评价。FBMS是BMS-26的延伸，在FBMS中具有59个序列。3391我们方法流相平均IoUMP-NetLDOF52.4MP-NetEpicFlow56.9MP-Net +对象LDOF63.3MP-Net +对象EpicFlow64.5MP-Net +客观性+CRFLDOF69.7MP-Net +客观性+CRFEpicFlow68.0表1. 比较不同输入方式对FlyingThings3D（FT3D）测试集和DAVIS的影响。性能显示为平均交集对联合得分。# dec.是指MP-Net中的解码器单元地面实况流用于评估DAVIS的FT3D和LDOF流。总计，以及分别为29和30的训练和测试分裂。在本文中，我们使用测试集。这两个数据集上的性能使用F度量进行评估，如[3，34]中所做6. 实验和结果6.1. 实现细节训练我们使用小批量SGD与一批大小为13张图片的最大可能，由于GPU内存约束。网络从头开始训练，学习率设置为0。003，动量为0。9，重量衰减到0的情况。005。训练进行了27个epoch，学习率和权重衰减降低了0倍。每次之后1次九个纪元。我们对FT3D通过因子2训练集，并通过随机裁剪和镜像执行数据增强批量归一化[16]应用于网络的所有卷积层。其他细节。我们对流场矢量进行零均值归一化，类似于[32]。当同时使用流角和幅值（我们称之为流角场）时，我们缩放幅值分量，以使两个通道处于相同的范围。我们在每帧中使用100个建议来计算对象性得分（见4.1节）。此外，为了与DAVIS上的其他方法进行公平比较我们不学习该数据集上的全连接CRF的参数，而是将它们设置为用于相关像素级分割任务的值[7]。我们的模型是在Torch框架中实现的。6.2. 输入方式我们首先分析了不同输入模式对训练网络的影响。具体来说，我们使用RGB数据（单帧和图像对），光流场（地面实况和估计值），直接作为流向量，即，在x和y轴上的流，或作为角度场（流矢量角度与流幅度相关），以及RGB数据和流的组合这些结果在FT3D测试集和DAVIS上呈现，以研究合成视频上的观察结果如何转移到真实世界中，如表1所示。出于计算原因，我们在较小版本的MP-Net上使用不同的模态进行训练和测试，其中使用一个解码器单元而不是四个。然后我们选择最好的方式表2.我们最好的网络（在GT角度场上训练的4个解码器单元）在DAVIS上具有额外的线索（客观性，CRF）和不同的流输入（LDOF，EpicFlow）。来训练和测试完整的、更深层次的网络。从表1中可以看出，DAVIS的性能低于FT3D。这是预期的，因为从合成数据到真实数据存在域变化，并且我们使用地面真实光流作为FT 3D测试数据的输入，但使用DAVIS的估计流量[6，33作为基线，我们在单个RGB帧上进行训练（表中的“RGB单帧”）。显然，在这种情况下无法学习运动模式，但网络在FT3D测试（68.1）中表现合理，因为它学会了将物体外观与其运动相关联。这种直觉得到了DAVIS（12.7）上“RGB单帧”失败的事实的证实MP-Net在“RGB对”上训练两个连续帧的RGB数据在FT3D（69.1）和DAVIS（16.6）上的表现略好，表明它捕获了一些类似运动的信息，但仍然依赖于外观，因为它不能很好地传输到DAVIS。在对应于图像对（“GT流”）的地面实况流向量上进行训练，将FT 3D的性能提高了5.4%，并将DAVIS的性能显著提高了27.7%。这表明，MP-Net从合成示例中学习的流可以转移到真实世界的视频中。然后，我们将气流角作为输入的一部分进行实验。如[24]中所讨论的，当相机仅进行平移运动时，与流矢量不同，流方向与相机的深度无关使用地面实况流角场（流角和幅度的级联）作为输入（“GT角场”），我们注意到FT3D上的IoU分数略有下降（1.4%），其中强烈的相机旋转是丰富的，但在真实示例中，这种运动通常是温和的因此，我们在所有进一步的实验中使用角场表示。使用级联流和RGB表示（“RGB + GT角度场”）在FT 3D上表现更好（1.7%），但在DAVIS上较差7%，再次证实了我们的观察结果，即两个数据集之间的外观特征不一致。最后，对计算流量[ 6 ]（“LDOF角度场”）的训练导致两个数据集的显着下降：在FT3D上为9.9%（使用GT流进行测试），在DAVIS上为8.5%，显示了高质量训练数据对于学习准确模型的重要性。我们的MP-Net的完整版本，有4个解码器单元，提高了#Dec.在FT3D上训练，FT3D戴维斯RGB单帧68.112.7RGB对69.116.61燃气轮机流量GT角场74.573.144.346.6RGB + GT角度场74.839.6LDOF角场63.238.14GT角场85.952.43392测量NLC [9]CVOS [34]TRC [10]味精[5]关键[20]SAL [39]FST [27][3]我们是说64.151.450.154.356.942.657.545.569.7J召回73.158.156.063.667.138.665.244.382.9衰减8.612.75.02.87.58.44.411.85.6是说59.349.047.852.550.338.353.646.166.3F召回65.857.851.961.353.426.457.943.778.3衰减8.613.86.65.77.97.26.510.76.7不是说35.624.332.725.019.060.027.651.368.6表3.与DAVIS上最先进的方法进行比较，包括交集（J），F-测量（F）和时间稳定性（T）。[27]第六届中国国际纺织品展览会[ 27]图6.与DAVIS上性能最好的方法进行定性比较从左到右：地面实况，光流[6]，FST的结果[27]，NLC [9]和我们的方法。最后一行显示了我们的方法的失败案例，即，摩托车的一部分不见了。FT3D上的IoU增加了12.8%，DAVIS上的IoU增加了5.8%。请注意，我们的完整模型在FT 3D上的性能非常出色，剩余的错误主要是由于固有的模糊情况，如物体靠近相机移动（见图4中的第三行），或非常强烈的物体/相机运动。在DAVIS上，结果相当低，尽管运动挑战性较小。为了研究这在多大程度上是由于流量估计中的错误造成的，我们在FT3D测试集上计算LDOF [6]流量，并评估我们在地面实况流量上训练的完整模型。我们观察到性能显著下降27.2%（从85.9%降至58.7%）。这证实了光流质量的影响，并表明流量估计的改进可以提高我们的方法在真实世界视频上的性能。6.3. 真实视频评测我们在表2中显示了我们的MP-Net在DAVIS上的性能，以及对额外线索和所使用的流首先，我们通过比较EpicFlow [30]（一种最近的方法）和LDOF [6，33]（一种更经典的方法）来评估估计的流量质量的重要性使用EpicFlow，它利用运动轮廓，产生更准确的对象边界，并提高了MP-Net使用LDOF的4.5%。如第4.1节所述，使用我们的网络（表中的 “MP-Net +Objectness”）来描述对象线索，和EpicFlow。如第4.2节所示，使用完全连接的CRF（“MP-Net + Objectness + CRF”）对这些分割当使用LDOF流时，这种细化具有显著的影响，因为它改进了对象边界周围的分割，如图5 所示。另一方面，EpicFlow已经整合了运动边界，并且在此流程的结果之上的CRF细化具有不太明显的改进。总体方法“MP-Net + Objectness + CRF”在LDOF（69.7）中的表现优于EpicFlow（68.0）。虽然EpicFlow在对象边界周围具有比LDOF更好的精度，但它往往在其他区域产生更大的误差，这无法通过CRF细化来校正因此，我们在以下实验中使用LDOF。6.4. 与最新技术水平的比较表3显示了与DAVIS上的无监督最先进方法的比较。除了与[28]中报道的方法进行比较外，我们还使用作者提供的源代码评估了BMS-26上的最佳表现者PCM [3]。注意，对DAVIS测试序列使用监督的方法（例如，第一帧中的注释）确实执行得更好，但不能直接与我们的方法相比。我们的框架级方法+ CRF3393测量[第17话]FST [27]TRC [10]MTM [42]CMS [24][3]MP+对象MP+Obj + FST [27日]F73.064.172.866.062.578.271.878.1表4.与[3]中使用的BMS-26子集的最新方法进行比较，采用F-测量。地面实况光流[6] FST [27] PCM [3] MP+Obj + FST [27]图7.来自BMS-26的两个样品序列的定性比较从左到右：地面实况，光流[6]，FST [27]，PCM [3]的结果NLC [9]。请注意，两种顶级方法，NLC和FST [27]通过在视频中传播运动标签来执行视频级推断，这与我们一次仅使用一对视频帧的方法不同。我们的网络在IoU和F-measure分数的平均值和召回率方面表现最佳。所有方法在衰减分数上的表现类似，衰减分数量化了随时间的性能损失/增益。由于MP-Net使用有限的时间信息（两帧光流），并且不执行视频级别的推理，因此它不是时间稳定性度量的最佳方法。这种限制可以通过后处理步骤来解决，例如使用时间CRF。图6在DAVIS上定性地比较了我们的方法与两种性能最好的方法FST [27]和NLC [9]在第一行中，FST定位移动的船，但是由于运动跟踪中的误差，其分割泄漏到船周围的背景区域NLC锁定移动的水，而我们的MP-Net精确地分割船只。在第二行中，我们的分割结果比FST和NLC更精确和完整。最后一行显示了一个失败的情况，其中摩托车的一部分由于高度不精确的流量估计而丢失。表4显示了[3]中使用的BMS-26亚组的定量比较。我们观察到，当物体不进行独立运动时，它们在某些序列中被注释。因此，我们的具有对象性的MP-Net的结果（表中的“MP +Obj”）不能直接与使用帧间传播的其他方法进行比较，尽管它们仍然与许多先前的方法相当。为了解决与MP-Net的这种不匹配，MP-Net仅分割移动对象，我们将帧级运动估计结果纳入最先进的视频分割方法[27]。这是通过将[27]中的位置一元分数替换为与对象集成的运动预测分数来实现的。的结果特别是，使用我们在[27]中的运动预测将结果提高了14%。我们还在FBMS测试集上评估了这种组合（“MP +Obj + FST”），其中它在F测量中达到77.5%，并且优于最先进的方法：FST [27]（69.2）、CVOS [34]（74.9）和CUT [17]（76.8）。图7将我们在BMS-26上的结果与该数据集上的顶级方法PCM [3]和基线视频级方法FST [27]进行了比较。在第一行中，FST只分割前景中两辆移动的汽车中的一辆，因为第二辆汽车的运动非常慢将我们的运动预测引入FST段，这两辆车。这一结果与PCM相当。然而，这些方法都没有分割背景中的第三辆车。在第二行中，PCM未能分割女人，并且FST仅分割夹克，但是将我们的运动估计包括到FST中显著地改善了结果。FST中固有的跟踪误差导致分割泄漏到背景中。7. 结论本文介绍了一种新的方法来学习运动模式的视频。它的实力证明了移动对象分割的任务，我们的方法优于许多复杂的方法，依赖于engi- neered功能。今后的工作包括：（i）开发用于视频语义分割的端到端可训练模型，（ii）使用用于视频对象分割的存储器模块，（iii）使用附加信息，例如，由用户标注的帧的子集，以处理不明确的情况。致谢。这项工作得到了ERC高级资助ALLEGRO，MSR-Inria联合项目，Google研究奖和Facebook礼物的部分支持。我们衷心感谢NVIDIA为这项研究捐赠GPU的支持。3394引用[1] E. H.阿德尔森看东西：人类和机器对材料的感知。SPIE，2001年。[2] 诉Badrinarayanan，F.Galasso和R.西波拉视频序列中的标签传播CVPR，2010。[3] P. Bideau和E. G.学习米勒。它在动！运动摄像机视频中因果运动分割的概率模型。在ECCV，2016年。[4] W. Brendel和S.托多洛维奇基于区域跟踪的视频对象分割ICCV，2009年。[5] T.布洛克斯和J·马利克通过点轨迹的长期分析的对象分割。ECCV，2010年。[6] T.布洛克斯和J·马利克大位移光流：变分运动估计中的描述符匹配。PAMI，2011年。[7] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。使用深度卷积网络和全连接CRF进行语义图像分割。2015年，国际会议。[8] A. Doso vitski yP.Fischer，E.Ilg ，P.Hausser，C.哈兹巴斯，Golkov，P. van der Smagt，D. Cremers和T.布洛克斯FlowNet：使用卷积网络学习光流.在ICCV，2015年。[9] A. Faktor和M.伊拉尼基于非局部一致性投票的视频分割。InBMVC，2014.[10] K. Fragkiadaki，G.zhang和J.石通过跟踪轨迹嵌入中的不连续性来进行视频分割CVPR，2012。[11] A.盖东，Q. Wang，Y. Cabon和E.维格虚拟世界作为多目标跟踪分析的代理。在CVPR，2016年。[12] M. Grundmann，V.Kwatra，M.汉和我艾萨高效的基于层次图的视频分割。CVPR，2010。[13] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克用于对象分割和细粒度定位的炒作r列。CVPR，2015。[14] B. K. Horn和B. G. Schunck确定光流。人工智能，1981年。[15] F. Huguet和F.德弗奈从立体序列中估计场景流的变分方法。载于ICCV，2007年。[16] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015。[17] M.科伊珀湾Andres和T.布洛克斯运动轨迹分割，通过最低成本多切割。在ICCV，2015年。[18] A. Khoreva，F.加拉索湾Hein和B.席勒用于视频分割的基于分类器的图构造。CVPR，2015。[19] P. Kr aühenbuühl和V. 科尔顿具有高斯边缘电位的全连接CRF中的有效推理NIPS，2011年。[20] Y. J. Lee、J. Kim和K.格劳曼视频对象分割的关键段。见ICCV，2011年。[21] J. Lezama，K. Alahari，J. Sivic，and I.拉普捷夫追踪未来：具有长距离运动线索的时空视频分割。CVPR，2011。[22] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。[23] N. Maye r，E. Ilg，P. Hausse r，P. Fische r，D. 克雷默斯A. Dosovitskiy和T.布洛克斯一个大型数据集，用于训练用于视差、光流和场景流估计的卷积网络。在CVPR，2016年。[24] M. Narayana，A. R. Hanson和E. G.学习米勒。基于光流方向的运动摄像机视频相干运动分割。InICCV，2013.[25] P. Ochs 和 T. 布洛克斯高阶运动模型和频谱聚类。CVPR，2012。[26] P. Ochs，J. Malik，and T.布洛克斯通过长时间视频分析分割运动对象。PAMI，2014年。[27] A. Papazoglou和V.法拉利无约束视频中的快速对象分割。InICCV，2013.[28] F. Perazzi，J.蓬蒂塞湾麦克威廉斯湖范古尔，M.恶心，A。索金-霍恩视频对象分割的基准数据集和评估方法。在CVPR，2016年。[29] P. O. Pinhe i ro，T.- Y. 林河，巴西-地Collobert和P. 娃娃。学习细化对象分段。在ECCV，2016年。[30] J. Revaud ，P. Weinzaepfel ，Z. Harchaoui和C.施密特EpicFlow：光流对应的边缘保持插值。CVPR，2015。[31] O.龙内贝格山口Fischer和T.布洛克斯U-Net：用于生物医学图像分割的卷积网络在MIC-CAI，2015年。[32] K. Simonyan和A.齐瑟曼。用于视频中动作识别的双流卷积网络。在NIPS，2014。[33] N. Sundaram，T. Brox和K.库茨用gpu加速的大位移光流实现稠密点轨迹ECCV，2010年。[34] B. 泰勒，V。Karasev和S.索阿托从持续性遮挡引起的视频对象分割CVPR，2015。[35] P. H. S.乇几何运动分割和模型选择。腓伦敦皇家学会A：数学，物理与工程科学，1998年。[36] R. Tron和R.维达尔三维运动分割算法比较的基准。CVPR，2007。[37] S. Vedula、S. Baker，P. Rander，R. Collins和T.卡纳德三维场景流。PAMI，2005年。[38] C. Vogel，K. Schindler和S.罗斯基于分段刚性场景模型的三维场景流估计。IJCV，2015年。[39] W. Wang，J. Shen，and F.波里克利显著性感知测地线视频对象分割。CVPR，2015。[40] A. Wedel，T. Brox，T.沃什角Rabe，U.弗兰克，还有D.克莱姆斯用于3D运动理解的立体场景流计算。IJCV，2011年

下载后可阅读完整内容，剩余1页未读，立即下载