基于注意图神经网络的视频对象分割方法

4 浏览量更新于2023-10-16 收藏 1.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9236基于注意图神经网络的Wengguan Wang1人，Xiankai Lu1人，Jianbing Shen1人，David Crandall2人，Ling Shao1人1阿联酋Inception人工智能研究所2美国印第安纳大学{wenguanwang.ai，carrierlxk，shenzianbingcg}@gmail.comhttps://github.com/carrierlxk/AGNN摘要提出了一种新的用于零拍视频对象分割的注意图神经网络。建议AGNN重铸这个任务作为一个过程中的迭代信息融合视频图。具体地说，AGNN建立了一个全连通图，有效地表示帧作为节点，和任意帧对之间的关系作为边缘。潜在的成对关系由可微注意机制描述，M.通过参数化消息传递，AGNN能够有效地捕获和挖掘视频帧之间更丰富和更高阶的关系，从而实现对视频内容的更完整理解和更准确的前景估计。在三个视频分割数据集上的实验结果表明，AGNN在每种情况下都是一种新的最为了进一步证明我们的框架的泛化能力，我们将AGNN扩展到一个额外的任务：图像对象共分割（IOCS）。我们在两个著名的IOCS数据集上进行了实验，并观察到了我们的AGNN模型的优越性。大量的实验证明，AGNN能够学习视频帧或相关图像之间的语义/外观关系，发现共同的对象。1. 介绍自动识别视频中的主要对象是一个重要的问题，通过减少或消除处理和理解视频所需的手动工作，可以使各种各样的应用然而，在没有关于那些前景对象是什么的先验知识的情况下发现跨视频帧的最突出和不同的对象传统方法倾向于通过以局部或顺序方式使用手工制作或可学习的特征来解决这个问题。例如，手工制作的基于特征的方法使用对象[74]，运动边界[43]和显着性[67]线索，*前两位作者对本书的贡献相当†通讯作者：沈建兵。图1：所提出的基于AGNN的ZVOS模型的图示。（a）输入视频序列，通常具有对象遮挡和尺度变化。(b)建议的AGNN将视频帧表示为节点（蓝色圆圈），并且将任意帧对之间的关系表示为边缘（黑色箭头），由注意力机制捕获经过几次消息传递迭代，可以挖掘高阶关系，并从全局视图中获得更优的前景估计。(c)最终视频对象分割结果。最好用彩色观看。放大查看详细信息。视频帧或探索轨迹[41]，即，链接多帧上的光流以捕获长期运动信息。这些通常是以纯粹无监督的方式工作的非学习方法。最近基于深度学习的方法从大规模训练数据中学习更强大的视频对象特征，产生零拍摄解决方案[63]（仍然没有用于任何测试帧的注释）。其中许多[7，57，21，58，31，55]采用双流网络来结合局部运动和外观信息，并应用递归神经网络以逐帧的方式对动态进行建模。虽然这些方法极大地促进了这一领域的发展，并取得了可喜的成果，但它们普遍存在两个局限性。首先，它们主要关注连续帧之间的局部成对或顺序关系，而忽略了帧之间普遍存在的高阶关系（因为来自相同视频的帧通常是相关的）。其次，由于他们没有充分利用丰富的关系，他们无法完全捕获视频内容，因此很容易变得低劣9237前景估计从另一个角度来看，由于视频对象通常遭受潜在的对象遮挡，巨大的尺度变化和外观变化（图10）。1（a）），当仅考虑视频中的连续或局部成对关系时，难以正确地推断前景为了缓解这些问题，我们需要探索一种有效的框架，可以全面地将视频帧之间的高阶关系建模到现代神经网络中。在这项工作中，提出了一种注意图神经网络（AGNN），以解决零拍视频对象。t分割（ZVOS），它将ZVOS改写为一个端到端的、基于消息传递的图信息融合过程（图2）。（b）款。具体地说，我们构造了一个全连通图，其中视频帧被表示为节点，两个帧之间的成对关系被描述为它们相应节点之间的边。两帧之间的相关性通过注意机制有效地捕获，这避免了耗时的光流估计[7，57，21，58，31]。通过使用递归消息传递来迭代地在图上传播信息，即，每个节点接收来自其他节点的信息，AGNN可以捕获视频帧之间的高阶此外，由于视频对象分割是一个逐像素的预测任务，AGNN具有理想的空间信息保留属性，这显着区别于以前的全连接图神经网络（GNN）。AGNN在多个帧上运行，带来了自然训练数据增强的额外优势，因为组合候选者很多。此外，由于AGNN提供了一个强大的工具，用于表示和挖掘视频帧之间更丰富和更高阶的关系，它带来了对视频内容的更完整的理解。更重要的是，由于其递归特性，AGNN足够灵活，可以在推理过程中处理可变数量的节点，使其能够考虑更多的输入信息，并获得更好的性能（图1）。（c）第1段。我们在三个广泛使用的视频对象分割数据集上广泛评估了AGNN，即DAVIS16 [45]，Youtube-Objects [47]和DAVIS17 [46]，显示出其优于当前最先进方法的性能。AGNN是一种完全差分的端到端可训练框架，允许捕获帧（图像）之间的丰富和高阶关系，并且高度适用于空间预测问题。为了进一步证明其优势和普遍性，我们将AGNN应用于一个额外的任务：图像对象共分割（IOCS），其目的是从一组语义相关的图像中提取共同的对象。与现有的IOCS方法相比，它还在两个流行的IOCS基准PASCAL VOC [11]和互联网[51]上获得了有希望的结果ZVOS和附加IOCS任务的实验清晰地表明，AGNN不仅能够捕获相关视频帧图像之间的关系，而且能够挖掘语义相关的静态图像之间的语义。值得注意的是，这项工作可以被视为将GNN应用和扩展用于像素预测任务的早期尝试，这提供了有效的视频对象分割解决方案和对该任务的新见解。2. 相关工作2.1. 图神经网络GNN在[15]中首次提出，并在[53]中进一步发展，以处理结构化数据之间的潜在关系。在[53]中，递归神经网络用于对每个节点的状态进行建模，并且节点之间的底层映射通过参数化消息传递到邻居来学习。Li等[33]进一步调整GNN到顺序输出。Gilmer等人[14]后来将GNN中的消息传递模块表述为可学习的神经网络。最近，GNN已成功应用于许多领域，包括分子生物学[14]，计算机视觉[48，71，76]，机器学习[62]和自然语言处理[2]。GNN的另一个流行趋势是在任意图结构数据上推广卷积架构[10，40，26]，这被称为图卷积神经网络（GCNN）。拟议的特设咨询小组网络属于前一类;它是基于消息传递的GNN，其中所有节点、边和消息传递函数都由神经网络参数化。它分享了在图上挖掘关系的一般思想，但有显着的差异。首先，我们的AGNN在其空间信息保留性质方面是独一无二的，这与传统的全连接GNN相反，并且对于每像素预测任务至关重要。其次，为了有效地捕捉两个图像帧之间的关系，我们引入了一个可区分的注意力机制，M解决了相关的信息，并产生进一步的判别边缘功能。第三，据我们所知，在ZVOS中没有尝试探索GNN2.2. 自动视频对象分割为了自动地将主要对象与背景分离，传统方法通常使用手工制作的特征（例如，颜色，光流）[43，12，59，20]以及与前景相关的某些启发式假设（即，局部运动差异[43]，背景先验[67]）。其他一些人探索更有效的对象表示，例如密集点轨迹[41，42，68]或对象建议[74，27，23，36]。这些方法中的大多数都是以纯粹无监督的方式工作，不使用任何训练数据。最近，随着深度学习的复兴，更多的研究工作致力于在深度学习框架中解决这个问题，从而产生了零射击解决方案[13，21，58，7，30，31，29，37]。例如，在[13]中设计了一种基于多层投影的检测器来检测移动9238i=1我我我m，我我我i=1i=1我我我客观性Li等[30]集成了基于深度学习的实例嵌入和运动显著性[30]，以提高性能。其他一些人转向全卷积网络（FCN）[3，34，77]。他们引入了双流网络来融合外观和运动信息[29，21，7]，或者探索更有效的特征提取模型和LST-M变体[55]，以更好地定位前景对象。与以前的方法的区别是多方面的：每个节点vi∈V从{1，. . . 、|V|}与初始节点表示（或节点状态或节点嵌入）V1相关联。每个边ei，j∈ E是一对ei，j=（vi，vj）∈ |V| ×| V|，具有边缘表示ei，j。对于每个节点vi，我们学习一个更新的节点表示a，通过聚合其邻居的表示来实现这里hi用于产生输出oi，即，节点标签。更具体地说，GNN将图G映射到节点输出我们的AGNN1）提供统一的、端到端的可训练的，{oi}|V|通过两个阶段。首先，参数消息基于图模型的ZVOS解决方案;（2）有效地开采二-诗歌和视频中的高阶关系，通过迭代，在所述图上有效地传播和融合消息;以及3）利用可区分注意机制来捕捉帧对之间的相关信息。传递阶段运行K步，递归地传播消息并更新节点表示。在第k次迭代时，对于每个节点vi，我们根据其接收到的消息mk更新其状态（即，概括信息从它的邻居Ni）和它的前一个状态hk−1：2.3. 图像对象联合分割IOCS [50，39，18]旨在联合分割给定语义类别中属于相同语义类别的消息聚合：mk==Σvj∈NiΣkj，iM（hk−1，ek−1），一组相关的图片。早期的方法通常将IOCS公式化为在整个或部分图像集上定义的能量函数，并且考虑图像内和图像间的能量函数。vj∈Nij节点表示更新：hk=U（hk−1，mk），其中h0=v，M（·）和U（·i、j（一）提示[64，25，52，65]。为了捕获图像之间的关系，一些方法应用场景匹配技术[51]、全局外观模型[66]、判别聚类方法[22]、流形排名[49]或显着性分析[16，56]。只有很少的深度IOCS模型[4，32]，主要是由于缺乏针对此问题的适当的端到端建模策略。[4，32]通过成对比较协议解决了IOCS，并采用了Siamese网络来捕获两个相关图像之间的相似性。我们基于AGNN的ICOS解决方案与[4，32]有很大不同。首先，[4，32]认为IOCS是一个成对的图像匹配问题，而我们将IOCS表示为多个图像之间的信息传播和融合过程。这意味着我们的模型可以从全局的角度来捕捉更丰富的关系。其次，基于Siamese网络的系统只处理成对关系，而我们基于消息传递的迭代推理可以学习多个图像之间的高阶关系。第三，我们的方法是基于图模型，产生一个更一般和优雅的框架建模IOCS。3. 我们的算法在详细阐述我们提出的AGNN（§3.2）之前，我们首先简要介绍GN-N模型的一般公式（§3.1）。最后，在§3.3中，我们提供了有关我们的网络架构的详细3.1. GNN的一般公式基于深度神经网络和图论，GNN能够从图域中表示的数据中集体聚合信息[53，14]。具体地，根据图G=（V，E）定义GNN模型。ii）是消息功能和状态更新功能。在聚合的k次迭代之后，hk捕获节点vi的k跳邻域内的关系。第二，读出阶段通过读出函数R（·）将最终K迭代的节点表示hK映射到节点输出：读数：oi=R （ hK ）。（二）消息函数M、更新函数U和读出函数R都是学习的可微函数。接下来，我们提出了我们基于AGNN的ZVOS解决方案，它本质上扩展了传统的全连接GNN，以（1）保留空间特征;以及（2）通过可微分注意力机制捕获成对关系（边缘）。3.2. 注意图神经网络问题定义和符号。给定一组训练样本和总共具有N个帧的不可见测试视频I={Ii∈Rw×h×3}N，ZVOS的目标是生成对应的二进制片段掩码序列：{Si∈ {0，1}w×h}N. 为了实现这一点，AGNN将I表示为有向图G =（V，E），其中节点vi∈V表示第i个帧Ii，并且边ei，j=（vi，vj）∈ E指示从Ii到Ij的关系。为了全面捕捉在视频帧之间的潜在关系中，我们假设G是完全连接的，并且在每个节点处包括自连接（参见图2）。第2（a）段）。为了清楚起见，我们将连接节点vi到自身的ei，i称为环边;将连接两个不同节点vi和vj的ei，j称为线边。我们的AGNN的核心思想是在G上执行K次消息传播迭代，以有效地挖掘I中丰富的高阶关系。这有助于更好地捕捉9239J我i、j我我i、j我-我我-我我-我j，iJi、j我j，ii、j我我图2：我们在训练阶段基于AGNN的ZVOS模型（见§3.2和§3.3）。放大查看详细信息。从全局视图中提取视频内容并获得更准确的前景估计。然后我们读出片段表示可学习的权重矩阵。hk∈R（WH）×C，hk∈R（WH）×C被展平为矩阵表示。从最终节点状态{hK}N得到的节点预测S。K我i =1接下来，我们详细描述模型的每个组件。ei，j中的每个元素反映了每个元素行和每列。因此，ek可以i j i，j基于FCN的节点嵌入。我们利用DeepLabV3[5]，一个经典的基于FCN的语义分割架构，真正的，提取有效的框架功能，作为节点的representations（见图。2（b）和图3（a））。对于节点vi，其初始嵌入h0可以计算为：h0=vi=FDeepLab（ Ii ） ∈RW×H×C ，（3）其中h0是具有W×H空间分辨率和C通道的3D张量特征，其保留空间信息为被视为节点Vi嵌入到Vi的重要性通过关注每个节点对，ek在节点嵌入空间中探索它们的联合表示。门控消息聚合。在我们的AGNN中，对于在自循环中传递的消息，我们将嵌入ek-1的循环边缘本身视为消息（见图11）。3（b）），因为它已经包含上下文和原始节点信息（参见等式3（b））。4）：以及高级语义信息。基于内部注意力的环边嵌入。一个环-ki，i=ek−1∈RW ×H×C。（六）边ei，i∈E是连接节点的特殊边-self. 循环边缘嵌入ek用于捕获对于消息mj，i从节点vj传递到vi（见图11）。3（c）），我们有：节点表示内的内部关系（即，中间kk−1k−1k−1k−1（WH）×C我NAL帧表示）。我们将ek公式化为一个内部-mj，i=M（hj ，ei，j）=softmax（ei，j）hj∈R、（7）注意力机制[61，70]，已被证明的COM-其中softmax（·）对输入的每个r_o_w进行归一化。因此，在本发明中，它是卷积的补充，有助于长时间的建模，mk的每行（位置）是以下各项的加权组合范围，跨图像区域的多级依赖性[75]。特别地，内部注意力通过关注同一节点嵌入内的所有位置来计算位置处的响应（参见图11）。2（c）和图。第3（b）段：hk-1的每行（位置），权重来自何处ek-1的相应列。以这种方式，消息函数M（·）将其边缘加权特征（i. 例如，me-ki，i=Fintra-att （hk）∈RW×H×C.kk（W hk）+hk，（四）[62]与邻居的关系。那么，mk重塑回到一个大小为W×H×C的3D张量。此外，由于某些节点由于摄像头而具有噪声，=αsoftmax（Wfhi）（Whhi）li iwhere‘∗’represents the convolution operation,参数当量4使各位置的输出元件他们的信息可能是无用的，甚至是有害的。我们应用可学习的gateG（·）来测量消息mj，i的置信度：在Hk中，编码上下文信息以及其原始信息kk.kC我信息化，从而增强了可代表性。gj，i=G（mj，i）=σFGAP（Wg<$mj，i+bg）[0，1]、（8）基于交互注意的线边缘嵌入。线边eij∈ E连接两个不同的节点vi和vj. 线-边嵌入ek用于在节点嵌入空间中挖掘从节点vi到vj的关系（见图11）。第2段（b）分段）。在这里，我们计算一个相互注意机制[35]来捕获两个节点vi和vj之间的双向关系（见图2（c）和图2（c））。第3（c）段）：其中FGA P（·）表示使用全局平均池化来生成通道响应， σ 是逻辑 S 形函数 σ （ x ） = 1/ （ 1 +exp（−x）），Wg和bg是可训练卷积核和偏差。下式1，我们通过门控总结收集来自邻居和自循环的消息（见图1）。第2（d）段）：ΣMeG *m9240j，i杨永=F inter-att（hk，hk）=hkWchk ∈R（WH）×（WH），mk=vj∈VKj，iKj，i∈RW×H×C，（9）i，j i j i jek=F（五）（hk，hk）=hkW<$hk<$∈R（WH）×（WH），其中j，i国际attjiJC我在这里，门机制是用来过滤掉无关的-其中ek=ek。杨永表示出边FEa，从嘈杂的帧形成参见第4.3节的定量i、jj，ii、jture和ek对于节点Vi，输入信号。 Wc∈RC×C研究这个设计。9241我我我我我我图3：我们的（a）节点嵌入，（b）基于内部注意力的循环边缘嵌入和相应的循环消息的详细说明生成，（c）基于相互注意的直边嵌入和相应的邻居消息生成。基于ConvGRU的节点状态更新。在步骤k中，在聚集来自邻居节点和其自身的所有信息之后（等式1），9），vi通过考虑其先前状态hk-1和其接收到的消息mk得到新状态hk。预-培训阶段。当我们对特定大小的批次进行操作时（允许根据GPU内存大小而变化），我们利用随机采样策略进行训练AGNN。具体来说，我们将每个训练视频I与我我服务于在hk−1和mk中传达的空间信息，我们将N个帧总共分成N′个片段（N′≤N），并且随机地我我利用ConvGRU [1]更新节点状态（图第2（e）段）：从每个段中选择一个帧然后我们喂N′hk=U（hk−1，mk）∈RW×H×C.（十）将采样的帧分批并训练AGNN。因此，re-iConvGRUiiConvGRU被提出作为先前全连接GRU的卷积对应物[9]，并将卷积操作引入到输入到状态和状态到状态的转换中。读出功能。在K次消息传递迭代之后，我们获得每个节点vi的最终状态hK。最后在在读出阶段，我们通过读出函数R（·）从hK得到分割预测图S<$∈[0，1]W×H（见图1）。2（f））。与Eq略有不同2，我们将最终节点状态hK和原始节点特征vi连接起来（即，h0）并将组合特征馈送到R（·）中：用N′节点图表示每批N′个采样帧之间的关系。这种采样策略提供了对变化的鲁棒性，并使网络能够充分利用所有帧。样本之间的多样性使我们的模型能够更好地捕捉潜在的关系，并提高其泛化能力。让我们将训练帧I i的真实分割掩码和预测前景图表示为S∈{0，1}60×60和S∈[0，1]60×60。我们的模型是通过加权二进制交叉熵损失（见图1）。2）：iW×HS_i=R_FC_N（[h_K，v_i]）∈[0，1]W×H.（十一）L（S，S）=−（1−η）Sxlog（Sx）+η（1−Sx）log（1−Sx），（12）X同样，为了保留空间信息，读出函数被实现为一个小的FCN网络，它有三个卷积层，带有一个sigmoid函数，将预测归一化为[0，1]。内注意力中的卷积运算（等式1）4）和更新函数（Eq.10）是用1×1卷积层实现的读出函数（Eq. 11）由两个3×3卷积层和一个1×1卷积层级联而成。作为一个基于消息传递的GNN模型，这些函数节点在所有节点之间共享权重。此外，所有上述函数都经过精心设计，以避免干扰空间信息，这对于ZVOS至关重要，因为它是一个逐像素的预测任务。3.3. 详细的网络架构我们的整个模型是端到端可训练的，因为AGNN中的所有我们使用DeepLabV3 [5]的前五个卷积块作为特征提取的骨干。对于输入视频I，每个帧Ii（分辨率为473×473）表示-作为视频图G中的一个节点vi，并与一个初始节点状态vi=h0∈R60×60×256相关联。然后，在总共K次消息传递迭代之后，对于每个节点vi，我们使用Eq. 11，得到相应的分割预测图S∈[0，1]60×60。有关培训和测试阶段的更多详情如下。其中η表示S中的前景-背景像素数比。值得一提的是，由于AGNN同时处理多个视频帧，它导致了非常有效的训练数据增强策略，因为组合候选者很多。在我们的实验中，在训练过程中，由于计算限制，我们从训练视频集中随机选择2个视频，每个视频采样3帧（N′= 3此外，我们将迭代的总次数设置为K= 3。定量实验设置见§4.3。测试阶段。训练后，我们可以应用学习的AGNN模型对未见过的视频进行逐像素对象预测。对于具有N帧（具有473×473分辨率）的输入测试视频I，我们将I分成T个子集- s：{I1，I2，. . .，IT}，其中T=N/N ′。每个子集包含具有T帧间隔的N′帧：{It，It+T，. . . ，IN-T+t}。然后我们将每个子集送入AGNN获得所有帧的分割图在子集中。实际上，我们在测试过程中设置N ′= 5。我们在第4.3节中定量地研究了这种设置。由于我们的AGNN不需要耗时的光流计算一次前馈处理N ′帧，达到0. 每帧28秒。遵循广泛使用的方案[58，57，55]，我们应用CRF作为后处理步骤，其花费约0。每帧50秒。更实施细节见§4.1.1。9242方法关键字[28] MSG [41] NLC [12] CUT [24] FST [43] SFL [7] MP [57] FSEG [21] LVO [58] ARP [27] PDB [55] MOA [54] AGS [69]AGNN平均值↑J回忆↑衰变↓49.8 53.3 55.1 55.2 55.8 67.4 70.0 70.7 75.9 76.2 77.2 77.259.1 61.6 55.8 57.5 64.9 81.4 85.0 83.089.1九十一点一90.1 87.814.1 2.4 12.62.20.06.2 1.3 1.50.07.0 0.9 5.079.791.180.794.01.90.03平均值↑ F回忆↑衰变↓42.7 50.8 52.3 55.2 51.1 66.7 65.9 65.3 72.1 70.6 74.537.5 60.0 61.0 51.9 51.6 77.1 79.2 73.8 83.4 83.5 84.410.6 5.1 11.4 3.4 2.9 5.1 2.5 1.8 1.37.9-0.277.4 77.479.190.584.43.385.81.60.03不平均值↓26.930.242.527.736.628.257.232.826.539.329.127.926.733.7表1：DAVIS16 [45]验证集的定量结果（§4.1.2）。分数是从公共排行榜1借用。（最好的分数用粗体表示。每行中最好的两个条目用灰色标记。这些注释与其他表格相同。）飞机（6）第1066章鸟（六）游艇（15）汽车（7）猫（16）牛（20）狗（27）马（14）摩托车（十）火车（5）Avg.FST [43]70.970.642.565.252.144.565.353.544.229.653.8COSEG [60]69.376.053.570.466.849.047.555.739.553.458.1[27]第二十七话73.656.157.833.930.541.836.844.348.939.246.2LVO [58]86.281.068.569.358.868.561.753.960.866.367.5PDB [55]78.080.058.976.563.064.170.167.658.335.265.4FSEG [21]81.763.872.374.968.468.069.460.462.762.268.4SFL [7]65.665.459.964.058.951.154.164.852.634.057.0AGS [69]87.776.772.278.669.264.673.364.462.148.269.7AGNN81.175.970.778.167.969.777.467.368.347.870.8表2：Youtube-Objects上每个类别的定量表现[47]（§4.1.2），平均J. 我们显示了10个类别中每个类别的平均性能，最后一行显示了所有视频的平均值4. 实验我们首先报告主要任务的性能：无监督视频对象分割（§4.1）。然后，在§ 4.2中，为了进一步证明我们的AGNN模型的优势，我们在一个额外的任务上测试它：图像对象联合分割最后，我们在§4.3中进行了消融研究。4.1. 主要任务：ZVOS4.1.1实验装置数据集和指标：我们使用两个众所周知的数据集：• DAVIS16[45]是一个具有挑战性的视频对象分割数据集，共包含50个视频（30个用于训练和20个用于Val），对于每一帧具有逐像素的注释在这个数据集中使用了三个评价标准，即，区域相似性（交集大于并集）J、边界精度F和时间稳定性T。• Youtube-Objects [47]包括126个视频序列它们属于10个对象类别，总共超过两万帧遵循其协议，我们使用J来衡量分割性能。• DAVIS17[46]在训练集中包含60个视频验证集中的视频和测试开发集与DAVIS 2016和Youtube-Objects仅专注于对象级视频对象分割不同，DAVIS17提供实例级注释。实施详情：在[44，55]之后，来自图像显著对象分割数据集M-SRA 10 K [8]、DUT [72]的静态数据和来自DAVIS 16的训练集的视频数据都被迭代地用于训练我们的模型。在“静态图像”迭代中，我们从静态训练数据中随机抽取 6 张图像来训练我们的骨干网络（DeepLabV3），以提取更具鉴别力的前期特征。为了训练骨干网络，具有sigmoid函数的卷积层被附加为中间输出层，其可以访问静态图像监控信号。接下来是“动态视频”迭代，其中我们使用§3.3中描述的采样策略对6个视频帧进行采样，以训练我们的整个AGNN模型。交替执行为了在DAVIS17上应用经过训练的AGNN模型，我们首先使用类别不可知掩码- RCNN [17]为每个帧生成实例级对象提案。然后，我们在整个视频上运行AGNN，并为每帧中的主要对象生成一个粗略的遮罩。然后使用对象级掩模从背景中过滤出建议并突出前期建议。通过结合实例绑定建议和粗糙掩码，我们获得了每个主要对象的实例级掩码最后，为了连接不同帧中的多个实例，我们使用重叠率和光流作为关联度量[38]来匹配不同的实例级掩码。4.1.2定量性能16.第16章. 我们将建议的AGN-N与DAVIS16基准1[45]中的顶级ZVOS方法进行了比较。表1显示了详细的结果。我们可以看到，我们的AGNN优于最好的报告结果- s（即，AGS [69]）对DAVIS16基准的显著影响平均J（80.7vs 79.7）和F（79.1vs77.4）。与PDB [55]相比，PDB使用相同的训练协议和训练数据集，我们的AGNN在平均J和平均F方面分别产生了3.5%和4.6%的显着性能增益。Youtube-Objects. 表2给出了Youtube-Objects上每个类别的详细性能和平均结果作为1https://davischallenge.org/davis2016/soa_compare。html，截稿日期：2009年3月20199243图4：两个示例视频的定性结果（顶部：soapbox，bottom：judo）分别从DAVIS16val set和DAVIS17test-dev set（参见第4.1.3节）。方法J平均值↑回忆↑衰减↓F平均值↑回忆↑衰减↓JF平均值↑Rvos [63]AGNN39.0 42.80.5048.3 49.6-0.0143.758.965.711.763.2 67.114.361.1表3：DAVIS17测试开发套件的定量结果[46]。可以看出，我们的AGNN表现良好，根据平均J准则。此外，与其他方法的性能在不同类别之间波动不同，AGNN具有稳定的性能，这进一步证明了它的鲁棒性和推广性。DAVIS 17的测试开发集。在表3中，我们报告了在DAVIS17测试开发集上与最近的实例级ZVOS方法RVOS [63]的我们可以发现，AGNN在大多数评估标准上都显着优于RVOS4.1.3定性绩效图图 4 描绘了所提出的 AGNN 分别在 DAVIS16 和DAVIS17的两个具有挑战性的视频序列soapbox和judo上的视觉结果对于肥皂盒，主要对象经历巨大的尺度变化，变形和视图变化，但我们的AGNN仍然生成准确的前景段。我们的AGNN也能很好地处理柔道，尽管不同的前景实例具有相似的外观和快速运动。4.2. 附加任务：IOCS我们的AGNN模型可以被看作是一个框架，用于捕获图像（或帧）之间的高阶关系。为了证明其通用性，我们扩展AGNN IOCS任务。 IOCS需要从一组语义相关的图像中推断出共同的对象，而不是在视频中的多个相对相似的视频帧中提取前景对象。4.2.1实验装置数据集和指标：我们在两个著名的IOCS数据集上进行实验：• PASCAL VOC [11]有1,464个训练图像和1,449个验证图像。在[32]之后，我们将验证集分为724个验证图像和725个测试图像，并使用平均J作为性能度量。• 互联网[51]包含1，306辆汽车，879匹马和561架飞机-平面图像 [49]我曾以《古兰经》为例，表4：PASCAL VOC [11]的定量性能，平均J。我们展示了20个类别的平均性能，平均在所有的图像。详细分析见§4.2.2mance在互联网的子集上（每类100幅图像被采样），平均J。实施详情：在[4，32]之后，我们使用PASCAL VOC来训练我们的模型。在每次迭代中，我们随机采样属于相同语义类的N′= 3个图像的组，并且将具有随机选择的类的两组所有其他实验设置与ZVOS相同。训练后，我们评估我们的方法的性能上的测试集的PASCAL VOC和互联网数据集。在处理图像时，IOCS必须利用来自整个图像组的信息（因为图像通常是不同的，有些是不相关的）[49，65]。为此，对于要分割的每个图像Ii，我们uni-将其他N−1个图像分成T 组，其中T=（N−1）/（N′−1）。然后，我们将第一个图像组和Ii馈送到大小为N′的一个批次，并存储Ii的节点状态。在此之后，我们馈送下一个组和I i的存储节点状态以获得I i的新状态。在T个步骤之后，Ii的最终状态包含其与所有其他图像的关系，并且用于产生其最终的共同分割结果。4.2.2定量性能PASCAL VOC. 由于对象在尺度、位置和外观上经历了巨大的变化，因此分割该数据集中的常见对象是非常具有挑战性的。另外，一些图像具有属于不同类别的多个对象。在这个数据集上，我们将AGNN与六种代表性方法进行了比较，包括基于Siamese的联合分割方法[4，32]，以及深度语义分割模型（例如，FCN[34]）。表4显示了平均J的详细结果。FCN- s [34]单独分割每个图像（不考虑-其他相关图像），因此性能较差。[4]和[32]都考虑了图像对，并获得了更好的结果。我们的AGNN实现了最佳性能，因为它考虑了来自多个图像的高阶信息方法GO-FMR [49]FCN [34]加拿大[4]AGNN平均J↑52.055.2159.2460.78方法FCA [4]CSA [4]DOCS [32]AGNN平均J↑59.41五十九点七十六分57.8260.789244方法华盛顿特区[22]互联网[51] TDK [6] GO-FMR [49个]DDCRF [73] 加拿大[4]FCA [4] CSA [4] DOCS [32] CoA [19] AGNN车37.164.464.966.872.080.076.979.9八十二点七82.084.0马30.151.633.458.165.067.369.171.464.661.0七十二点六飞机15.357.346.260.467.772.870.673.170.367.076.1Avg.27.557.346.260.467.770.372.870.6七十三点一67.777.6表5：互联网上的定量结果[51]，平均J（§4.2.2）。我们展示了每个班级的表现和总体平均水平。图5：PASCAL VOC [11]（顶部）和互联网[51]（底部）上的定性图像对象共分割结果。参见§4.2.3。门控消息聚合策略。由方程式9、在消息传递中采用了信道选通机制，以减少无关帧的负面影响。为了评估这种设计，我们提供了一个基线w/o。门控消息，直接聚合消息.在排除门之后观察到性能下降。消息传递迭代K. 为了研究消息传递迭代K，我们将性能报告为Ks的函数我们发现，随着迭代次数的增加（1→3），可以得到更好的结果消息传递的性能在K= 3处收敛。表6：DAVIS 16 [ 45 ]阀组的消融研究（§4.3）。在推理期间，使其能够捕获图像组内更丰富的语义关系。互联网我们在互联网上评估我们的模型（在PASCALVOC上预先训练）[4，49]。表5中的定量结果再次证明了AGNN的优越性（与第二最佳方法相比，性能增益为的AGNN 的结果高于三个类别的比较方法：汽车（84.0%）、马（72.6%）、飞机（76.1%）。4.2.3定性结果图5显示了一些示例结果。具体而言，顶行中的前四个图像属于猫类别（红色圆圈），而最后四个图像包含具有显著类内变化的人对于这两种情况下，我们的AGNN成功地检测到共同的对象实例之间的背景杂波。对于第二行，AGNN在类内外观变化显著的情况下也表现良好4.3. 消融研究我们对DAVIS16 [45]进行了消融研究，以研究AGNN的每个基本组件的作用。我们的AGNN的有效性。为了量化我们的AGNN的贡献，我们推导出一个基线w/o。AGNN，它指示来自我们的骨干模型DeepLabV3的结果。如表6所示，AGNN确实带来了显著的性能改善（平均J为72.2→80.6）。推理过程中的节点数N ′。为了评估推理过程中节点数N′的影响，我们报告了不同N′值的性能。我们观察到，随着更多的输入帧（3 →5），性能提高ac-相应地。当考虑更多帧时（5 →7），最终性能没有明显变化。这可能可能是由于视频序列中的冗余内容。5. 结论本文提出了一种新的基于AGNN的 ZVOS框架，用于捕获视频帧之间的关系并推断共同的前景对象。它利用注意力机制来捕捉节点之间的相似性，并执行递归消息传递来挖掘底层的高阶相关性。同时，通过将AGNN扩展到IOCS任务，证明了AGNN的通用性在三个ZVOS和两个IOCS数据集上的广泛实验表明，我们的AGNN对当前最先进的方法表现良好这进一步说明了AGNN的重要性，它可以捕获相似的视频帧或语义相关的图像之间的各种关系。鸣谢本工作得到了ARO基金W 911 NF-18-1-0296、北京自然科学基金4182056、CCF-腾讯开放基金、之江实验室国际青年人才基金和国家科学基金（CAREER IIS-1253549）的部分支持组件模块戴维斯16平均JJ参考完整模型（3次迭代，80.7-图结构w/o。 AGNNw/o。门控消息（等式九、72.280.1-8.50.6消息传递1迭代2迭代4次迭代78.779.180.7-2.0-1.60.0输入帧N’=N’=N’=79.680.780.7-1.10.00.0后处理w/o。 CRF78.9-1.89245引用[1] 尼古拉斯·巴拉斯、李耀、克里斯·帕尔、亚伦·考维尔。深入研究卷积网络以学习视频表示。ICLR，2016年。5[2] 丹尼尔·贝克，戈拉姆雷扎·哈法利，和特雷弗·科恩。图表-使用门控图神经网络进行序列学习。在ACL，2018年。2[3] 曹佳乐，庞彦伟，李雪龙。用于联合检测和分割的三重监督解码器网络。在CVPR，2019年。3[4] 陈红，黄一飞，中山秀树。语义基于感知注意的深度对象共分割。在AC-简历，2018年。三、七、八[5] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。CoRR，abs/1706.05587，2017。四、五[6] Xinlei Chen，Abhinav Shrivastava，and Abhinav Gupta.恩通过对象发现和分割来丰富视觉知识库CVPR，2014。8[7] 程景春，蔡怡萱，王胜金，明-宣阳。Segflow：视频对象分割和光流的联合学习。InICCV，2017. 一、二、三、六[8] Cheng Ming-Ming

下载后可阅读完整内容，剩余1页未读，立即下载