基于内存聚合网络的高效交互视频对象分割

185 浏览量更新于2023-10-23 收藏 2.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10366基于内存聚合网络的高效交互式视频对象分割Jiuxu Miao1，2Yunchao Wei2Yi Yang2†1百度研究2ReLER，悉尼科技大学jiaxu. student.uts.edu.au，{yunchao.wei，yi.yang}@ uts.edu.au摘要交互式视频对象分割（iVOS）旨在通过用户交互有效地获取视频中目标对象的高质量分割掩模。大多数先前的最先进技术利用两个独立的网络来处理iVOS，这两个网络分别用于进行用户交互和节奏传播，导致推理阶段的效率低下。在这项工作中，我们提出了一个统一的框架，命名为内存聚合网络（MA-Net），以更有效的方式来解决具有挑战性的iVOS。我们的MA-Net将交互和传播操作集成到一个网络中，这显著提高了iVOS在多轮交互方案中的效率更重要的是，我们提出了一个简单而有效的记忆聚合机制来记录信息的知识，从以前的互动轮，提高发现具有挑战性的感兴趣的对象的鲁棒性大大提高。我们对DAVIS Challenge2018基准的验证集进行了广泛的实验特别是，我们的MA-Net实现了76.1%的J@60分数，没有任何额外的功能，超过了2.7%的最先进水平。1. 介绍视频对象分割（VOS）的目的是从视频序列中分离出前景对象，适用于许多重要应用，包括视频编辑、场景理解和自动驾驶汽车。大多数现有的VOS方法可以大致分为两种设置：无监督（无手动注释）和半监督（在第一帧给出注释）。然而，这两种设置有其自身的局限性，并且在实践中并不现实：1）无监督方法没有引导信号供用户选择感兴趣的对象，†通讯作者。部分工作是在苗佳旭（Jiaxu Miao）在百度研究院实习时完成的。图1.圆形iVOS。目标对象的掩模由用户在一帧处的注释生成（例如，帧58处的绿色涂鸦），并且传播所计算的掩码以生成用于整个视频的掩码。用户可以通过在假阴性和假阳性区域上重复提供注释来细化分割掩模（例如，在帧28处的绿色和红色潦草特别是对于多对象的情况是有问题的; 2）半监督方法需要第一帧的完全注释的掩码，这是冗长的获取（每个实例大约79秒）[6]。此外，对于这两种方案，用户没有机会纠正这些低质量段，以满足他们的要求。交互式视频对象分割（iVOS）通过提供用户友好的注释形式克服了上述限制，涂鸦在该方案中，用户可以通过在错误预测的区域上绘制涂鸦来逐渐改进输出。先前的iVOS方法[29，25，1]利用旋转描记过程[4，15]，其中用户逐帧地顺序处理视频。这些方法由于在每帧处需要大量用户交互而效率低下。最近，Caelleset al. [6]提出了一个基于轮的交互方案，如图所示。1.一、在这种设置中，用户首先在一个选定的帧处的目标对象上绘制涂鸦，然后采用一种算法来计算具有时间的框架28第1第58帧第70帧互动1…………第2互动2…………第3互动3…………每一轮的用户交互...通过帧的时间传播10367传播重复用户注释和掩模分割的过程，直到获得可接受的结果。这样的基于轮的交互方案更有效，因为它需要更少的用户注释（每轮一帧仅几次涂写）。此外，用户可以灵活地控制分割模板的质量，因为更多轮的用户交互将保证更准确的分割结果。在本文中，我们探讨如何建立一个有效的互动系统，以解决在基于轮的互动环境下的iVOS问题。虽然最近提出了一些基于深度学习的方法[21，12，20，3，6]来处理基于轮的iVOS，但存在几个限制：1）用户交互和时间传播通常由两个独立的网络处理[12，3];2）整个神经网络必须在每一轮交互中开始新的前馈计算[21]，或者需要后处理[20]来进行进一步的细化，这是耗时的; 3）仅利用最新一轮的输出来细化分割结果，而信息丰富的多轮交互通常被忽略[12]。考虑到这些局限性，我们提出了一个统一的，高效的，准确的框架命名为内存聚合网络（MA-Net），以处理iVOS在一个更优雅和有效的方式。具体地说，我们的MA-Net通过共享相同的主干，将交互网络和传播网络这样，在提取具有共享骨干的像素嵌入之后，MA-Net采用两个“浅”卷积分割头来分别预测涂鸦标记帧和所有其他帧的对象段。在基于轮的iVOS方案下，我们只需要提取第一轮中所有帧的像素嵌入。在接下来的所有轮次中，这些提取的嵌入可以简单地应用于使用两个“浅”分割头进行进一步的细化更重要的是，我们提出了一个简单而有效的记忆聚合机制，这是用来记录用户的交互和预测的面具在以前的交互轮的信息性知识这种聚合信息使得MA-Net对具有各种外观的目标实例具有鲁棒性，大大提高了模型的准确性我们的MA-Net在DAVIS Challenge 2018的交互基准上进行了定量评估[6]。在DAVIS验证集上，我们的MA-Net实现了76.1%的J@60评分，没有任何额外的功能，例如引入额外的光流信息[12]或应用耗时的CRF进行后处理[20，14]。此外，我们的MA-Net可以在60秒内完成7轮交互，这比60秒内完成5轮交互的最新技术水平更有效率。2. 相关工作无监督视频对象分割。无监督VOS不需要任何用户注释。大多数无监督分割模型[26，30]学习基于运动信息或外观信息自动分割视觉上显著的对象。无监督VOS的局限性在于用户不能选择感兴趣的对象。半监督视频对象分割。半监督VOS采用第一帧的完整注释来选择感兴趣的对象许多半-有监督的VOS方法[8，13，27，32，22，34，5，28，19，35，36]已经被提出，并取得了良好的性能。一些半监督VOS方法[5，28，16，18]依赖于在测试时使用第一帧注释进行微调。例如，OSVOS [5]采用预先训练的卷积神经网络进行前景-背景分割，并在测试时使用第一帧地面实况微调模型OnAVOS[28]和OSVOS-S[19]通过使用实例级语义信息在线更新网络来进一步改进OSVOS。PReMVOS [18]通过微调和合并来集成不同的网络在线微调方法取得了良好的性能，但效率较差，由于到测试时的微调过程。最近，一些VOS方法没有第一帧微调已经提出，并取得了非常高的速度和有效的。这些方法中的一种是基于传播的[32，35，2]，其通常将图像和前一帧的预测分割掩码的组合作为输入。例如，RGMP [32]采用了一个连体架构网络。一个流对目标帧的特征和前一帧的掩码进行编码，而另一个流对第一帧及其给定的地面实况进行编码。另一种类型的无微调方法是基于匹配的[8，13，27，31]，它利用像素嵌入学习。例如，PML [8]通过三元组丢失和最近邻分类器来学习像素嵌入空间。VideoMatch [13]提出了一种软匹配机制，通过计算匹配特征的相似性得分图来生成平滑预测。FEELVOS [27]采用逐像素嵌入，同时具有全局和局部匹配机制。通过考虑前景-背景集成，CFBI[36]实现了最新的技术水平。我们的方法受到FEELVOS [27]的启发，并利用全局和局部匹配映射将涂鸦注释和先前帧的信息传输到目标帧。交互式视频对象分割。在交互式VOS设置中，用户可以提供各种类型的输入（例如点、涂鸦）来选择感兴趣的对象并通过提供更多的交互来细化分割结果。以前的交互式方法[29，25，1]，要么使用10368图2.我们的MA-Net的管道，包括像素嵌入主干，交互分支和传播分支。在推理过程中，所有帧的像素嵌入仅在第一轮中提取一次。交互分支采用传播分支使用存储器聚合机制来记录信息性知识和在图中所示的匹配过程中，绿色越深，被预测为目标对象的概率越高。最好用彩色观看。手工制作的功能还是需要大量的交互，无法达到很好的性能或效率。最近，已经提出了一些用于iVOS的基于轮的深度学习方法[21，12，20，3]。Benard等人[3]和Heo [12]将交互式VOS视为两个子任务：使用所述涂写来生成分割掩码，以及使用所生成的掩码来推断其他帧的掩码作为半监督VOS。Oh [21]使用两个网络，交互和传播，来处理这两个子任务。这两个网络内部和外部相连。这些方法[3，12，21]有几个局限性：（1）它们使用两个没有共享权重的独立网络，并且在每个交互轮中需要新的前馈计算[21，12]，使得当轮增长时效率低下;（2）它们没有充分利用多轮信息。最近，Oh[22]提出了一种时空记忆机制来存储信息性知识，并实现了最先进的性能。与我们的内存机制不同，它们需要复杂的键值计算。此外，它们还需要在每一轮交互中进行新的前馈计算，这是耗时的。3. 方法基于圆形的iVOS旨在在给定用户注释的视频的所有帧中剪切出目标对象（例如，scrib-bles）在一个帧上。用户可以在查看分割结果后在帧上提供额外的反馈注释，以细化下一轮的分割掩码以前的方法[12，21，3]选择采用两个独立的神经网络（交互和传播），没有共享的权重或通过中间层连接两个网络，这通常会影响推理效率。在本文中，我们处理的两个子任务（交互和传播）下一个统一的像素嵌入学习框架。为此，我们提出了MA-Net，它包含三个模块：像素嵌入编码器，交互分支和传播分支，如图所示二、像素嵌入编码器将给定视频的RGB帧作为输入，并将每个像素编码为嵌入向量。交互分支利用用户传播分支使用像素嵌入将用户注释帧和先前帧的信息性知识传播到当前帧。这两个分支共享像素嵌入编码器的权重，然后分别使用两个具有多个所有帧的像素嵌入仅在第一轮交互中提取在接下来的几轮细化过程中，只使用了两个方法.在本文中，我们将当前处理帧表示为第t帧，将先前帧表示为第（t-1）帧，并且将使用r-注释帧表示为第t个第h帧。Pixels表示为p，并且像素相互作用r像素嵌入主干交互分支传播分支UserA nn o tat ed Frame t！像素嵌入像素嵌入第r轮涂鸦concat嵌入式编码器相互作用分段头Scribble增强第r-1轮时的掩模当前帧t写像素嵌入嵌入式编码器写入全局读取存储器全球地图像素嵌入全局匹配concat像素嵌入嵌入写入当地读编码器存储本地匹配本地地图帧t-1的掩码上一帧t-1传播分段头帧t-1的掩码共享权重convconvconvconvconvconvconvconv10369t，r−1t，r你是安娜·达·弗拉姆！当前Frr en tFrametPrevu sFramet-1图3.全局匹配和局部匹配过程。对于在时间t的当前处理帧中的每个像素，利用由涂鸦（全局图）或预测掩模（局部图）注释的目标对象的像素来计算距离，并且使用距离的最小值（最近邻）来构造匹配图。对象图像涂鸦增强贴图FEELVOS [27]，我们分别采用全局和局部匹配图作为用户注释帧和前一帧的软线索。全局地图和局部地图的匹配过程如图所示。3.第三章。与FEELVOS [27]不同的是，我们的MA-Net提出采用内存聚合机制来记录和聚合先前多轮交互期间的信息知识，这是专门为iVOS设计的。全局地图存储器。令Pi表示当前第t帧的所有像素的集合，并且Pi表示第r轮中的交互第t帧的使用r注释的像素的集合。的互动。如图1左侧所示。3.对于每个像素p∈Pt，我们可以计算它在Pt中的最近邻点的距离，以构造全局匹配距离图，该距离图定义为：Gt，r（p）= minq∈Pt，o，r d（p，q）。（二）图4.通过像素嵌入和涂鸦计算的增强图的示例。被注释或预测为属于目标对象O的Q。在下文中，我们将更详细地描述每个模块。像素嵌入编码器。像素嵌入学习的目的是学习一个嵌入空间，其中属于同一对象的像素距离较近，而属于不同对象的像素距离较远。我们采用DeepLabv3+架构[7]基于ResNet101 [11]作为我们的骨干，并添加一个嵌入层，由一个深度可分离卷积组成，内核大小为3×3。像素嵌入特征的步长为4，维数为100。对于输入RGB帧中的每个像素p我们在学习的嵌入空间中学习语义嵌入向量Ep 在本文中，我们编码的像素嵌入-与获得完全注释的帧的半监督VOS不同，交互式设置在每轮中仅向感兴趣的对象提供少量的潦草注释因此，在一轮中产生的全局匹配图通常不足以发现整个目标对象。为了解决这个问题，我们建立了一个全局存储单元来记录和聚合历史全局匹配图，以丰富目标对象的信息反对。设Mg∈Rn，o，h，w表示全局地图存储器，其中n，o，h，w表示视频帧的总数目标对象、嵌入特征映射的高度和宽度考虑匹配图中的值的范围是从0到1，其中接近0的像素的值更可能属于所选对象，反之亦然。我们用1初始化Mg，并通过保留不同交互轮中每个像素的最小值来更新Mg我们在图中演示了全局映射内存的更新过程第五条（a）款。形式上，对于r的轮和时间t处的帧，Mg被写为：在欧几里得空间中，期望同一对象中的两个像素之间的欧几里得范数较小。类似于[10，27]，我们定义像素gt，r= min（Mg，Gt，r）的情况。（三）p和q的相应嵌入向量ep和eqas当我们读取R轮的累积全局映射时，我们直接使用更新后的全局映射存储器Mg。d（p，q）=1−21 +exp（经验） -e 2）。（一）本地地图记忆和遗忘。既然动议是-两个相邻帧之间的距离通常很小，以便于p q2该操作旨在将像素距离在0和1之间归一化。我们遵循FEELVOS [27]的策略，采用像素距离作为软提示，通过两个“浅”分割头进一步细化传播科。传播部门的目标是传播来自所述用户注释帧和所述先前帧的信息以预测所述目标对象在所述当前帧处的所述分割掩模。以下从前一帧的预测掩码的信息的阶段，我们进一步引入局部匹配图[27]。为了避免假阳性匹配以及节省计算时间，我们只使用一个小的地方区域。设Pt-1，o表示在时间t-1的帧中被预测为对象o的像素。N（p）表示像素p的邻域集，其中包含像素最多k个像素远离p。如图右侧所示。对于在时间t属于帧的每个像素p，我们像素嵌入像素嵌入像素嵌入处理像素全局匹配局部匹配M10370轮相互作用读当前帧过去的R轮本地地图存储器时间本轮q∈t−1，ot，rt−1，o第1轮第2轮第3轮第4轮...框架2框架12…框架14（一）框架20…框架60（b）第（1）款图5. （a）全球地图记忆机制。传播分支中的全局映射和交互分支中的增强映射被记录并聚集在存储器中。（b）局部地图记忆和遗忘机制。每个交互轮中的局部映射被记录在存储器中，并且读取过去R轮中的最近时间映射以计算掩码。早期互动回合的局部地图随着回合的增长而被遗忘。蓝色箭头表示时间传播。然后可以通过下式计算局部匹配距离图Lt，r：.记忆机制。局部地图存储和获取机制如图所示.5（b）。形式上，表示L（p）=最小PNt−1，o d（p，q）如果PN/=0（四）循环中当前第tt，r1否则，′t，r，然后L′通过以下方式从Ml读取其中PN：=Pt−1，o<$N（p）是′t，rlt，r′，r′=argmin|t−tr|and|r′−r|≤R（6）R前一帧像素集合Pt-1，o和相邻集合N（p）。与提供的潦草注释不同，用户，前一帧的掩码信息是不可靠的，因为前一帧的分割掩码是由算法预测的。在实际应用中，我们发现由于传播过程中的漂移和遮挡，误差会累积。如果当前帧距离用户标注的帧较远，则分割结果会变差。因此，为了防止误差积累，我们还增加了-ally建立一个局部存储单元Ml∈Rn，r，o，h，w，用于记录上一次交互中的历史局部匹配图子弹。形式上，通过下式将轮r中的第t帧的局部映射Lt，r写入局部存储器中：我们利用具有四个卷积层的传播头来预测每个选定对象的一维logits图。传播头将像素嵌入、从存储器读取的全局和局部匹配图以及前一帧的预测我们堆叠logits，在对象维度上应用softmax以获得每个像素的概率图。互动处。交互分支的目的是在给定用户注释的情况下生成用户注释帧（交互帧）的分割掩码所示图2，为了在当前轮中生成交互帧的分割掩码，我们将像素lt，r= Lt，r，（5）嵌入，涂鸦和预测掩模从最后一轮沿通道的维度，并使用一个相互作用这意味着本地存储器的写入过程仅仅是记录。当从本地存储器读取时，对于当前的第t帧，我们计算时间到每轮r的用户注释的第t帧的距离，|t−tr|得双曲正弦值.选择离用户注释帧最近的帧作为fi。本地地图随着交互轮数的增长，分割的准确性越来越高.例如，使用第8轮的局部图的处理帧，尽管远离该轮中的用户注释帧，但可能比使用与用户注释帧相邻的第1因此，我们采用遗忘机制，仅在过去的R轮中使用与用户注释帧最近的局部映射。早期互动回合的本地地图将被遗忘。R=1意味着我们只使用当前回合的本地地图，而不使用框架49框架16框架15互动1互动2互动3计算全球地图框架14当前处理帧存储器写入全局地图存储器存储器读取DistLL =MM10371- 具有四个卷积层的分割头，以生成目标对象o的分割逻辑。对于多对象情况，交互分割头提取所有对象的logit的一维特征图，然后将其堆叠在一起，以通过在对象维度上应用softmax操作来获得每个像素的概率图。在iVOS中，交互分支不仅需要生成当前一轮交互帧的分割掩码，而且还需要记录和积累涂鸦的信息知识，以便在下一轮中改进该帧的分割结果。通过挖掘像素嵌入空间的性质，提出了一种匹配映射来对不完整的涂鸦进行扩充，并将扩充映射记录到全局存储器Mg中。在像素嵌入中-丁空间，靠近注释像素的像素具有10372minq∈Pd（p，q）如果P特岛第1轮中的注释帧原始涂鸦带有注释背景的粗略ROI图6.在第一轮比赛中，没有背景的注释。我们使用一个粗略的ROI和注释像素的ROI作为背景（黑色区域）。绿色和蓝色涂鸦分别注释第一个和第二个对象。属于同一物体的概率更高。与传播分支中提出的局部映射相似，我们采用匹配距离映射来增强涂鸦。假设Pt表示所有像素的集合（具有步幅表示属于目标对象o的涂写注释像素的集合。F或每个pixelp∈Pt，我们计算其最近邻在注释的pi x elsPti，o来构造匹配距离图。为了避免引入与注释像素相似但具有大空间距离的非预期噪声像素，对于每个pix elp∈P t ∈ Pt∈P t，我们只考虑其局部邻域内的pix el我们将N（p）表示为p的邻域集，其中N（p）包含距离p最多k个像素的像素。因此，pix elp的增广映射At（p）定义为：用于参考帧的涂鸦以训练传播网络。然而，合成的涂鸦都是从地面真实掩模密集生成的。在执行大量迭代的训练之后，实际上使用了地面实况掩码。由于传播分支是独立训练的，并且以在线方式从groundruth密集生成合成涂鸦通常是耗时的，因此我们直接使用参考系的地面实况实例掩码。在实践中，我们发现使用地面实况的参考帧在训练期间实现了与使用合成涂鸦类似的在第二阶段，在训练了像素嵌入编码器和传播分支之后，我们固定了像素嵌入编码器并训练了交互分支。收集大量用户注释的涂鸦是不因此，我们用合成的涂鸦训练我们的模型。在第一轮中，我们使用DAVIS Challenge 2018提供的训练集的涂鸦[6]。在接下来的几轮中，在假阴性和假阳性区域内合成涂鸦。在第一轮和随后的轮之间存在间隙，因为第一轮仅提供正涂写，而随后的轮提供正涂写和负涂写两者。因此，我们使用背景标签作为第一轮的前一轮的掩码.At（p）=NNttto1否则，（七）推理。我们遵循DAVIS Challenge 2018的圆形互动设置。在第一轮中，用户提供积极的涂鸦，没有消极的涂鸦。为了elim-其中PN：=Pt，oN（p）是两个向量为了弥补训练和测试之间的差距，我们使用了一个粗略的感兴趣区域（ROI），其中包含所有积极的涂鸦scribble-annotated setPt，o和邻域集N（p）。图四是要坚持以和为贵，以和为贵。我们可以发现，增强后的地图包含了更多关于所选对象的信息。增强的地图Att将被记录并聚集在全球地图Mg.对于在时间t处的交互式帧，r，M，g的轮由下式更新：并将ROI放大足够的空间以确保其包含目标对象的所有部分。然后，我们将放大的ROI中的所有像素标注为背景（图1）。（六）。我们提取每帧的像素嵌入，并利用相互作用分支和传播分支来生成目标视频的分割掩模在接下来的一轮中，用户用最差的表现来注释视频的帧gt，rgt，r−1 ，At，r）的情况。（八）用潦草的字迹写的我们的模型提取像素em-在第一轮中，所有框架的垫料仅一次。的该操作有利于下一轮交互帧的分割结果4. 实验4.1. 训练和推理培训程序。我们采用两个阶段的训练过程来训练我们的MA-Net。在第一阶段，我们用像素嵌入编码器训练传播分支。为了模拟视频传播过程，我们从一个训练视频中随机其中一个帧用作参考帧，即，它扮演着用涂鸦来注释的框架的角色。两个相邻帧用作前一帧和当前处理帧。一些方法[21，12]利用合成的提取的像素嵌入被进一步用于在接下来的轮中计算具有交互和传播头的细化的分割掩模，从而导致我们的MA网络比以前的方法更有效。实施详情。我们使用基于 ResNet101 [11] 的DeepLabv3+架构[7]作为我们的骨干，它生成步幅为4的输出特征图。在主干的顶部，我们添加了一个嵌入层，由一个深度可分离卷积组成，内核大小为3×3。像素嵌入的维度是100，由[27]建议。对于交互和传播分割头，我们采用了四个深度方向可分离的卷积层，其维度为256，深度方向卷积的核大小为7×7，批量归一化操作和M∅= min（M10373图7.DAVIS-2017验证集的定性结果所有的用户交互都由[6]提供的机器人代理自动模拟所有结果掩模在8轮后取样。ReLU激活功能。最后，使用 1×1卷积来提取预测logits。当计算局部匹配图时，为了提高计算效率，我们在实践中，我们将本地窗口大小设置为k=12，考虑了精度和效率之间的权衡。我们使用SGD优化，学习率为0.0007，批量大小为2。我们采用自适应自举交叉熵损失[23]，它考虑了从步骤0到步骤50000的100%到15%最硬像素所有输入图像都是通过随机翻转、缩放和裁剪来增强的。在-大小为416×416像素。当处理第一阶段的训练时，我们用以下方式初始化骨干的权重：权重在ImageNet [9]和COCO [17]上预先训练，我们在DAVIS [24]的训练集上训练像素嵌入编码器和传播头100000步。当在第二阶段训练模型时，我们使用基于轮的训练，每个圈有三轮。第一轮仅使用正涂写，而随后的两轮使用正涂写和负涂写以及前一轮蒙版。我们在DAVIS [24]的训练集上训练第二阶段80000步。4.2. 结果定量评估iVOS是困难的，因为用户输入与分割结果直接相关，并且不同的用户可能提供不同的涂鸦。为了解决这个问题，Caelleset al.[6]提出了一种机器人代理服务来模拟人类交互，以进行公平的比较。定量结果。为了公平地将我们的MA-Net与最先进的方法进行比较，我们根据DAVIS Challenge 2018中的交互式跟踪基准在DAVIS验证集上评估了我们的模型[6]。在这个基准中，机器人代理与每个模型交互8轮，方法+OF+CRF+YVAUCJ@60Najalan等人[20个]C0.7020.548Heo等人[12个]C0.6980.691Heo等人[12个]CC0.7040.725Oh等人[21日]C0.6910.734MA-Net（我们的）0.7490.761表1.我们的MA-Net与DAVIS 2017中验证集上的先前方法的比较。根据J@60评分对条目进行排序+OF表示使用光流，+CRF表示使用CRF [14]作为后处理，+YV表示在训练时使用额外的YoutubeVOS训练集[33]。并且期望该模型在30秒内为每个对象计算每次交互的掩模有两个评估指标：曲线下面积（AUC）和60秒时的Jaccard（J@60s）。AUC旨在衡量评估的总体准确性。J@60在有限的时间预算（60秒）内测量准确度。表. 1显示了我们的方法和以前的最先进的iVOS方法的比较与最佳竞争方法Heo [12]相比，根据准确度，我们的方法优于它+4.7%AUC。与Oh等的最佳计算方法进行了比较。[21]，根据效率，我们的方法超过它+2.7%J@60s。此外，我们的模型不使用任何花里胡哨的东西，如光流，后处理（CRF），或额外的视频训练集，即，[33]第三十三话此外，我们的MA-Net可以在60秒内完成7轮交互，这比60秒内完成5轮交互的最先进水平更有效[21]1。总之，我们的MA-Net在准确性和效率方面都优于以前的方法。定性结果。图7显示了DAVIS 2017验证集的定性结果。可以看出，我们的MA-Net在多个图像中产生了准确的分割掩模。1为了公平地比较效率，我们在1080Ti GPU上测试了我们的模型，如下Oh [21]多个对象单个对象10374局部窗口大小k691215AUC0.7240.7370.7490.748J@600.7300.7530.7610.761表2.局部窗口大小k的影响。0.780.760.740.720.700.680.760.740.720.700.680.660.6412 3 4 5 6 7 8交互次数（舍入）0.660.640.62图8.1 2 3 4 5 6 7 8交互次数（舍入）DAVIS 2017确认集上的消融研究显示图9. R在局部映射内存中的影响。R表示使用存储器中过去R在过去的R轮中。R=1意味着我们只使用当前回合的局部地图，而R=8意味着我们使用所有先前回合中最近的地图图9表示，当我们提出的全球和本地记忆的有效性方差较大的情况，包括单目标条件和多目标条件。定性结果也表明，我们的方法可以处理遮挡问题（第三行）.在一些困难的情况下，例如，视频包含多个相同类别的对象，并且对象彼此被遮挡（第4行中的猪），我们的方法可能在不同对象的某些相似部分中出错。这很可能是因为相似部分的像素嵌入向量彼此接近。4.3. 消融研究记忆机制的有效性。我们使用DAVIS 2017验证数据集进行消融研究，以验证我们提出的消融机制的有效性。图8和图图9显示了消融模型的Jaccard评分在图8中，我们比较了有和没有全局和局部记忆的方法。NoGlobal表示我们使用没有全局内存的模型，这意味着我们只使用第一轮计算的全局映射，而不会在接下来的几轮中聚合它。No Local表示我们只使用当前回合中计算的本地地图，而不访问前几轮的本地地图。NoGlobal and Local是一种不同时使用全局映射存储器和局部映射存储器的模型。我们可以发现，在iVOS中，全局地图记忆和局部地图记忆都发挥了作用，并且由于利用了前几轮的所有涂鸦信息，大大提高了性能。如第3节所述，对于局部地图的存储器，在选择最近的帧和最近的轮之间存在权衡。在实际应用中，由于传播过程中的误差积累，距离标注帧较远的分割模板效果较差然而，随着交互轮的增长，分割的准确性越来越好。因此，我们使用最接近标注的R> 1时，分割精度会有所提高，说明局部地图记忆的有效性。当R = 2时，我们的方法实现了最佳性能，我们选择R=2作为最终模型。增强地图的有效性。八月-交互式帧的分段地图存储在全局这将有助于在随后的交互循环中正确地分割该帧。因此，在没有增强地图的情况下，该帧的有价值的交互信息将在随后的交互轮次中的传播期间丢失。此外，由于我们的MA-Net还考虑了局部匹配，所有交互帧的改进将进一步隐含地在传播过程中为其后续的非交互帧带来额外的好处。具体而言，AUC评分将从0下降。749比0 如果从全局存储器中移除扩增映射，则在744处执行本地窗口大小的影响。此外，我们还研究了局部窗口大小k的影响，如图所示在表中。二、当k较小时，局部映射计算更有效。然而，小的k将影响我们模型的准确性。在实践中，我们在本文中选择k=125. 结论视频对象分割是计算机视觉中的一项基本任务。在本文中，我们提出了一个用户友好的框架来生成准确的分割掩模的视频与一些用户注释。我们的MA-Net将交互和传播操作集成到一个统一的像素嵌入学习框架中，从而提高了基于轮的交互式VOS的效率。更重要的是，我们提出了一种新的记忆聚合机制来记录和聚合用户交互的信息和前几轮交互的预测，从而大大提高了分割的准确性。致谢本工作部分得到 ARC DP 200100938 和 ARCDECRA DE 190101315的支持。ocal奥巴尔obal和L无GI无GIeteCalCompl无损失Jaccard（mIOU）R=R=R3812Jaccard（mIOU）10375引用[1] 薛白，王爵，大卫·西蒙斯，吉列尔莫·萨皮罗。视频截图：使用局部化分类器的鲁棒视频对象剪切。ACMTransactions on Graphics（ToG），28（3）：70，2009.一、二[2] Linchao Bao，Baoyuan Wu，and Wei Liu.mrf中的Cnn：通过基于cnn的高阶时空mrf中的推断的视频对象分割。在CVPR中，第5977-5986页，2018年。2[3] Arnaud Benard和Michael Gygli交互式视频对象分割在野外。arXiv预印本arXiv：1801.00269，2017。二、三[4] 本杰明·布拉特。转描Routledge，2012年。1[5] Sergi Caelles ， Kevis-Kokitsi Maninis ， Jordi Pont-Tuset，LauraLeal-Taixe'，DanielCremers和LucVanGool。单镜头视频对象分割。在CVPR，第221-230页，2017年。2[6] Sergi Caelles，Alberto Montes，Kevis-Kokitsi Maninis，Yuhua Chen ， Luc Van Gool ， Federico Perazzi ， andJordi Pont-Tuset. 2018年戴维斯挑战视频对象分割。arXiv预印本arXiv：1803.00557，2018。一、二、六、七[7] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。参见ECCV，第801-818页，2018年。四、六[8] Yuhua Chen ， Jordi Pont-Tuset ， Alberto Montes ， andLuc Van Gool.快速视频对象分割与像素级度量学习。在CVPR中，第1189-1198页，2018年。2[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在CVPR，第248-255页中。Ieee，2009年。7[10] Alireza Fathi、 Zbigniew Wojna 、 Vivek Rathod 、 PengWang 、 Hyun Oh Song 、 Sergio Guadarrama 和 Kevin PMurphy。基于深度度量学习的语义实例分割。arXiv预印本arXiv：1703.10277，2017。4[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。四、六[12] Yuk Heo，Yeong Jun Koh，and Chang-Su Kim.使用稀疏到密集网络的交互式视频对象分割。CVPR研讨会，2019年。二三六七[13] Yuan-Ting Hu ， Jia-Bin Huang ， and Alexander GSchwing. Videomatch：基于匹配的视频对象分割。参见ECCV，第54-70页，2018年。2[14] Phil i ppK raühenbuühlandVladlenKoltun. 稠密随机场的参数学习国际机器学习会议，第513-521页，2013年。二、七[15] 李文斌，法比奥·维奥拉，乔纳森·斯塔克，加布里埃尔·J·布罗斯托，尼尔·坎贝尔。Roto++：使用形状流形加速专业的rotoscoping。ACM Transactions on Graphics（TOG），35（4）：62，2016. 1[16] 李晓晓和陈昌来。视频对象分割与联合重新识别和注意力感知掩模传播。在ECCV，第90-105页，2018年。2[17] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。参见ECCV，第740-755页。Springer，2014. 7[18] Jonathon Luiten、Paul Voigtlaender和Bastian Leibe。Pre-mvos：用于视频对象分割的建议生成、细化和合并。在ACCV，第565Springer，2018. 2[19] K-K Maninis，Sergi Caelles，Yuhua Chen，Jordi Pont-Tuset，LauraLeal-Taixe´，DanielCremers，andLucVanGool.没有时间信息的视频TPAMI，41（6）：1515-1530，2018。2[20] Mohammad Najalan，Viveka Kulharia，T Ajanthan，andPH Torr.密集标签传输的相似性学习。CVPR研讨会，2018年。二、三、七[21] Seoung Wug Oh，Joon-Young Lee，Ning Xu，and SeonJoo Kim.通过交互传播网络实现快速用户引导视频对象分割。在CVPR中，第5247-5256页，2019年。二三六七[22] Seoung Wug Oh，Joon-Young Lee，Ning Xu，and SeonJoo Kim.使用时空记忆网络的视频对象分割。在ICCV，2019年。二、三[23] Tobias Pohlen，Alexander Hermans，Markus Mathias，and Bastian Leibe.用于街道场景语义分割的全分辨率残差网络。在CVPR中，第4151- 4160页，2017年。7[24] Jordi Pont-Tuset ， Federico Perazzi ， Sergi Caelles ，PabloAr-bela'ez，AlexSorkine-Hornung，andLucVanGool. 2017年戴维斯视频对象分割挑战赛arXiv预印本arXiv：1704.00675，2017。7[25] 布赖恩L普莱斯，布赖恩S莫尔斯和斯科特科恩。Livecut：通过评估多个传播线索进行基于学习的交互式视频分割见ICCV，第779IEEE，2009年。一、二[26] Carles Ventura、Miriam Bellver、Andreu Girbau、AmaiaSal vador 、 Ferran Marques 和 Xavier Giro-i Nieto 。Rvos：用于视频对象分割的端到端循环网络。在CVPR中，第5277-5286页，2019年。2[27] Paul Voigtlaender ， Yunning Chai ， Florian Schroff ，Hartwig Adam ，Bastian Leibe ，and Liang-Chieh Chen.Feelvos：用于视频对象分割的快速端到端嵌入学习。在CVPR中，第9481-9490页，2019年。二、四、六[28] Paul Voigtlaender和Bastian Leibe卷积神经网络在线适应2017年戴维斯视频对象分割挑战赛。在CVPR研讨会上，第5卷，2017年。2[29] Jue Wang ， Pravin Bhat ， R Alex Colburn ， ManeeshAgrawala，and Michael F Cohen.互动视频剪辑。在ACMTransactions on Graphics（ToG），第24卷，第585ACM，2005年。一、二[30] Wenguan Wang ， Hongmei Song ， Shuyan

下载后可阅读完整内容，剩余1页未读，立即下载