基于分割的场景图生成

30 浏览量更新于2023-10-13 收藏 1.02MB PDF 举报

计算机视觉

多任务训练

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15879基于分割的场景图生成Siddhesh Khandelw al，1，2Mohammed Suhail，1，2Leonid Sig al1，2，31不列颠哥伦比亚大学计算机科学系2人工智能矢量研究所3CIFAR人工智能主席skhandel@cs.ubc.casuhail33@cs.ubc.calsigal@cs.ubc.ca摘要场景图生成是计算机视觉中的一个重要问题。虽然场景图提供了对象、它们在图像中的位置和关系的基础表示，但是它们仅在提议边界框的粒度上这样做。在这项工作中，我们提出了第一个，据我们所知，框架像素级分割接地场景图生成。我们的框架对底层场景图生成方法是不可知的，并解决了目标场景图数据集中缺少分割注释的问题（例如， VisualGenome[24]）通过从辅助数据集（例如MS COCO [29]）。具体地，每个被检测的目标对象被赋予分割掩模，该分割掩模被表示为在具有存在于辅助数据集中的注释的类别上的语言相似性加权线性组合。这些推断出的掩模连同高斯掩模机制（其将关系建立在图像内的像素级处）允许改进的关系预测。整个框架是端到端可训练的，并且以多任务的方式学习。代码可在github.com/ubc-vision/segmentation-sg 上获得。1. 介绍场景图生成在过去几年中已经成为计算机视觉文献中的主要问题[36，44，50，51，53]。该任务涉及到产生一个基于图形的接地表示的图像，其特征在于对象和它们的关系。在[50]中首次引入的场景图表示将场景编码为图，其中节点对应于对象（用对应的类标签和空间位置编码对象实例场景图生成的最终目标是从原始图像[24]或视频[18]中产生这样的表示。场景图表示已被证明是重要的表示同等贡献夫人夹克穿着板建筑控股背后面前袋汽车有窗户图1. 基于分割的场景图生成。顶部的图像是现有场景图生成方法的输出[45]。底部的图像是对[45]的方法进行扩充的输出。对象到图像内的像素级区域的有效接地导致更好的关系预测。对于各种更高级的任务（例如，VQA[16，45]，图像字幕[10，52]和其他）。迄今为止，大多数方法都集中在上下文的适当建模[51，55]，标签中的数据不平衡[30，44]以及最近的输出变量之间的结构依赖性[42]。上面提到的所有现有场景图生成技术的主要限制之一是节点（对象）和边（关系）都被直接接地到由对象提议机制产生的（矩形）边界框（例如，作为R-CNN的一部分预先训练更细粒度和更准确的像素级接地自然更有价值。这已经在其他视觉和视觉语言任务（例如，引用表达式解析[15，31]，使用引用表达式的[22]和使用Mask-RCNN的实例分割[11]）。此外，基于分割可以通过聚焦来提高场景图生成的整体性能夫人夹克穿着建筑账面背后板面前袋车具有窗口15880我我DDDDD2个DD比尔斯⇠O我J我我我我1n1D{}n注释GiiG--GD--|--在对应于对象或对象之间的界面的不规则区域上形成节点和边缘特征我们的目标就是要做到这一点。然而，像素级接地带来了许多独特的挑战。其中最重要的是传统的场景图数据集，如 Visual Genome[24]，不带有实例级分割注释。这使得不可能采用传统的完全监督的方法。此外，即使我们要收集分割注释，这样做是为了大量的对象类型类型，通过零激发传输机制，有效地为场景图中的对象生成像素级的接地我们的方法，在图2中突出显示，建立在现有的场景图生成方法，但不可知的底层架构，可以很容易地集成与现有的状态的最先进的方法。2.1. 符号令g=（xg，Gg）表示包含每个图像x g的图级i i g的数据集。我们代表-将场景图注释Gg作为对象的元组发送，以及参与场景图预测将是亲-1关系，Gg=（Og，Rg），其中i我我我g2Rnd代表贵得令人望而却步。为了解决这个问题，我们提出了一个跨-对象标签和Rg2Rninid0g表示关系和多任务学习公式，使用一个外部NAL数据集（例如，MS COCO [29]）提供分段标签;n我i是图像中对象的数量xg;dg 和d0g某些类别的注释;同时利用标准场景图数据集（例如，Visual Genome [24]）为目标任务提供图形和边界框注释。在技术层面上，对于缺乏分段注释的目标对象，其掩码被表达为在外部数据集中存在注释的类别上的加权线性组合。这种转移是通过利用目标对象标签和这些监督类别之间的语言相似性来实现的，从而使得能够将对象接地到分割掩模而不引入任何注释成本。对于一对共享一个关系的对象，我们的方法还采用了高斯掩模机制，将此关系分配给图像内的像素级通过对场景图和分割生成任务的联合优化，我们的方法实现了对这两项任务的我们提出的方法是端到端可训练的，并且可以很容易地集成到任何现有的场景图生成方法（例如[45，55]）。贡献：我们最重要的贡献是，我们提出了第一个，我们的知识，框架像素级分割接地场景图生成/预测，它可以与任何现有的场景图生成方法集成。对于对象，这些接地是通过分割掩模实现的，这些掩模是通过基于语言相似性的零拍摄传输机制在辅助数据集中的类别上计算的。为了有效地在像素级的地面关系，我们还提出了一种新的高斯掩蔽机制的分割掩模。最后，我们证明了我们的方法的灵活性和有效性，通过将其扩展到现有的场景图架构，并在Visual Genome上评估性能分别是数据集中可能的对象和关系标签的总数。此外，我们假设数据集m=（xm，Mm）的可用性，其中每个图像xm具有对应的实例级分割注释Mm。最后，dm是m中可能的对象标签的总数。与现有场景图数据集（如可视化基因组[24]）的情况一样，g不包含任何实例级分割掩模。此外，m可以是任何数据集（如MS COCO [29]）。注意，一般来说，两个数据集中的图像g和m是不相交的并且两个数据集中的对象类可以具有最小的重叠（例如，MSCOCO为80个对象类别提供分割，而Visual Genome为150个对象类别提供对象边界框2）。为了简洁起见，我们在本文的其余部分去掉下标i2.2. 场景图形生成给定图像xg g，典型的场景图模型如下定义场景图Gg上的分布，Pr（Gg|xg）= Pr（Bg|Pr（0g|Bg，xg）·Pr（Rg|Og，Bg，xg）边界框网络Pr（Bgxg）提取框的集合Bg=b，. ..，bg对应于感兴趣的区域。这可以使用标准对象检测器来实现，例如Faster R-CNN [39]或Detectron [46]。具体地，这些检测器在g上进行预训练，目标是生成准确的边界框Bb和对象概率Lg=l，. ..，对于输入图像Xg，注意，这只需要访问Gg中的对象（节点）注释对象网络Pr（Og|对于每个边界框bg2Bg，利用特征表示zg，其中zg是j j j[24]基准数据集，我们始终优于gg在关系预测上，基线最多可提高12%2. 方法我们提出了一个新的多任务学习框架，利用实例级分割注释，获得1根据[1]，在VOC [7]中标记一个图像需要239.7秒。计算为RoIAlign（x，b，j），其从图像内对应于边界框b，g的区域提取特征。这些特征，以及对象标签概率-j被馈送到上下文聚合层，诸如2Visual Genome与MS-COCO有47%的图像重叠。然而，它们有不同的对象类别和注释.在我们的公式中，我们没有使用这种隐含的图像重叠。（一）G15881场景图预测人雪头盔场景图丢失对象特征关系特征、、、、、、分段细化场景图预测环境编码对象检测检测器零射分段J|DDDDDJeJJeJ2emjGG2个D然后，对每个类的分割掩码mg2Rdgmmm进行分割，分割损失图2. 模型架构。对于图像，对象检测器提供一组边界框，并且对于每个框，还经由零拍摄传输机制生成实例级分割。这些推断的分割掩码被合并到底层图的节点和边缘中，然后将其传递到现有的场景图预测架构中，如[55，45]。通过利用由场景图预测方法的上下文聚合步骤捕获的全局上下文来额外地细化推断的分割掩码。所提出的方法是端到端的可训练的，并且可以被增强到任何现有的场景图方法。双向 LSTM [55]、 Tree-LSTM [45]或 Graph At-tensionNetwork [51]，以获得细化的特征z〇，g。这些细化的特征用于获得图Gg内的节点的对象标签〇g。类似地，对于关系网络Pr（RgOg，Bg，xg），使用消息传递层细化对应于对象边界框的并集的特征，并且随后对其进行分类以产生关系的预测。我们在场景图数据集g上预训练标准对象检测器（如Faster R-CNN [39]）。然而，代替仅在g中的图像上训练检测器，我们另外在m中的图像上联合学习分割头fM。注意，当在g和m中的图像上联合训练对象检测器时，使用相同的骨干和建议生成器，从而减少了内存开销。对于图像xg2 Dg，令zg为特征表示a-现有模型将场景图中的对象边界框的约束bgJ2Bg. 让，mg=fM （zg），到图像中的矩形区域。虽然边界框提供了对象位置的近似估计其中mg班Rdmmm，dm代表m，并且m是掩模的空间分辨率。通过分割掩模的方法是更理想的。一个主要的挑战是在像Visual Genome [24]这样的场景图数据集中缺乏分割注释。此外，手动标记这种大数据集的分割掩模作为一种解决方案，我们通过零拍传输获得分割掩模J使用零发射传送机构3从G中取出。设S2Rdgdm是一个矩阵，它捕捉Dg和Dm中类之间的语言相似性。对于一对类cg2[1，dg]，cm2[1，dm]，元素Scg，cm被定义为，该机制来自在外部数据集Dm上训练的分割头（例如，MSCOCO [29]）。这段话的意思是Scg，cm=gc>gcm（三）然后，使用主题掩码作为对象和关系网络的附加输入，以生成更好的场景图。我们的ap-其中gcg和gcm分别是类cg和cm的300维GloVe [37]向量嵌入。mg则为方法将Gg上的分布分解为，Pr（Gg|xg）= Pr（Bg|Pr（Mg|Pr（0g|Bg，Mg，xg）g g g gg作为以下GJmejJ如下，·Pr（R）|O、B、M、x）mg=S>meJ（四）其中Mg={gG}（二）注意，这样的转移因为我们依赖于公开可用的数据集Dm。m1，. ..，Mn 是推断的分割对应于边界框Bg的掩模。这样的因子化使得能够将场景图接地到分割掩模，并且提供到现有架构的容易集成2.3. 分割掩模转移2.4. 分割掩码如等式2所述，我们将推断的分割掩码并入对象网络对于每个图像xg g，我们推导出分割掩模中的类上学习的注释3注意4dg>> dm 在我们的情况下。数据集Dm。为了便于实现这一点，如第2.2节所述，对于包含多个单词的类名，对各个GloVe单词嵌入进行平均。具有可实现的更细粒度的像素级接地15882J|DbggJJDJ 2JDDJ00j，j0j，j Gg⇥Ⓢ0jJ[z]JJJJJJB，M，X）。Pr（R |0，B，M，X）。具体地，对于一对对象，JJJJJMM邻得到可能的边缘及其对应的对象标记概率（lg，lg）、其各自的分割掩模mj=mj+fM0zjJXyx为ohNJgously使用lg. 参与联合分段掩码2JJJPr（OgBg，Mg，xg）将g中的对象接地到图像内的像素级区域具体地，对于特定图像xg，模型Pr（Bg|xg）输出一组边界框Bg。对于每个边界框bg2Bg，它额外计算一个特征表示zg和对象标签概率IgRdg+1。按照第2.3节中描述的程序，按类别2.6.细化分割掩码如前所述，我们提出的方法包括- porates分割掩模，以提高关系预测。然而，我们认为，分割和关系预测的任务是不可磨灭的连接，其中一个的改进导致另一个的改进。为此，对于每个对象bg2Bg，除了预为每个边界框推断分割掩码m. 我们将分割感知表示z定义为，指定对象标签OgJ，我们学习一个分割精炼-J Jzg=fN.[zg，mg]Σ（5）分段头fM0以细化推断的分段掩码m，g。然而，由于场景图数据集g不包含任何实例级分割注释，因此训练fM0在传统的监督方式是具有挑战性的。其中，fN是学习网络，并且[.，. ]代表concate-民族与现有的方法相反，如[45，55]使用分段不可知表示zg，我们馈送zg和为了缓解这个问题，我们再次利用辅助数据集Dm，其包含分割注释。为我们计算边界框Bm。lg作为对象网络Pr（Og）的输入|jggg j2.5.分割掩码为了便于更好的关系预测，我们利用关系网络中的推断分割掩码注意，这不需要任何额外的训练，因为对象检测器是使用g和m联合训练的，如第2.3节所述。对于边界框bmBm，对应的每类掩码被计算为，m= mg g g g gfM.zmΣ，其中zm是bm的特征表示，我们利用高斯掩蔽机制来识别相关性。识别图像内的像素级区域。fM是第2.3节中定义的分段头部。然后将细化的掩码mm计算为，给定一对边界框（bg，bg）2 Bg，其中.Σj j0G g其中z，o，m是的表示计算由（mj，mj0）经由j中描述的过程计算第2.3节。我们将zg定义为分段agnos-上下文聚集层内的对象网络Pr（Om|Bm，Mm，xm）。请注意，此网络是相同的表示长方体并集的tic要素制图表达（bg，bg），其被计算为RoIAlign（xg，bg[bg]）5。到等式2中定义的一个。细分细化-j j0j j0部件压头fM0 是一个零初始化的网络，与现有的依赖于这种粗糙的矩形的作品相反-在掩码上的残差更新作为地面真相隔离区角联箱，我们的方法还包括将分割掩码（mg，mg）的交集映射到pro-g。J分段注释可用于所有对象M0j j0使用像素级交叉熵损失进行训练。提供更详细的信息。为此，我们将并集分割掩码mg定义为，fM0与场景图生成模型一起训练，并且在推理期间使用改进的掩码以mg=（K~m）（K0~m）（6）改进关系预测性能。具体来说，对于Aj，j0jjjj0特定图像xg2 Dg，我们遵循所描述其中~是卷积运算，并计算逐元素乘积。Kj、Kj。是参数化的6 × 6大小的高斯平滑空间卷积滤波器用方差σ2，σ2和相关系数ξx，y 表示。se参数在等式2中生成预测。然而，我们并没有直接使用2.3节中使用零激发公式获得的推断掩模，而是对其进行了额外的改进。Gx y 使用fM0。对于对应于a的特定掩码m，j通过学习对象上的变换来获得边界框bg，我们计算mg为，标签概率具体而言，y、σ2、σ2、=f.lg，jj其中fN是学习网络。Kj0被类似地计算。mg=mg+fM0.zo，gΣ（9）Gj，j0提供分段感知表示的计算G其中zo，g是由上下文计算的表示表示zj，j0如下，聚合层细化的掩码用于对象和关系网络中，如第2.4节和第2.5节所述。Gj，j0Mz和（八）15883Jj0=fEGj，j0Gj，j0[中文（简体）2.7. 培训其中f是一个博学的网络工作者。然后将zg用作输入Ej，j关系网络Pr（Rg|0g，Bg，Mg，xg）。5bg[b g]计算两个盒子的并集的凸包。我们提出的方法分为两个阶段进行训练。第一阶段涉及预训练对象检测器以使得能够针对给定图像生成边界框提议给定，m15884DDL=L+L（10）LLJLLLDDDSG赛格数据集G和M，对象检测器被联合训练以最小化以下目标，对象rcnn段其中rcnn是更快的R-CNN [39]目标，并且seg是应用于分割掩码的像素级二进制交叉熵损失[11]请注意，由于缺乏分割注释，Dg中的图像对Lseg3.1. 场景图生成模型我们提出的框架是通用的，可以很容易地集成与各种场景图生成模型。在这项工作中，我们实验了两种场景图架构，即MOTIF [55]和VCTree [45]。在MOTIF [55]中，对象和关系网络（等式1）各自由双向LSTM [12]实例化。对于图像xg2Dg，提取的边界框训练的第二阶段包括训练场景图生成网络，以准确地识别对象对之间的关系。给定数据集g和m，场景图生成网络被联合训练以最小化以下目标：L=L+L（11）其中SG取决于底层场景图方法的体系结构，我们的方法被扩充到。例如，在MOTIF [55]的情况下，sg由两个交叉熵损失组成，一个用于细化从预训练检测器获得的对象分类，另一个用于辅助准确的关系预测。seg与等式10中描述的分割损失相同，并且用于学习细化网络fM0（第2.6节）。由于Dm中的图像不包含场景图注释，因此它们仅对L分段有贡献。类似地，Dm中的图像仅影响Lsg。3. 实验我们使用两个数据集进行实验：Visual GenomeDataset [24]和COCO数据集[29]。视觉基因组。为了训练和评估场景图生成性能，我们使用Visual Genome数据集[24]。我们使用[50]中广泛采用的Visual Genome的预先版本。这个子集包含108k图像，跨越150个对象类别和50个关系标签。由于内存限制，具有超过40个对象边界框的图像MS-COCO 为了训练和评估分割掩模，我们使用MSCOCO 2017数据集[29]，其中包含123k图像，分为80个类别的118k训练和5k由于测试集的地面实况注释不可用，因此通常在验证集上报告结果。注意，我们的方法对辅助数据集m的选择是不可知的。之所以选择使用MS-COCO，是因为它在社区中很受欢迎。由于MS- COCO与Visual Genome具有共同的图像，因此两个数据集之间存在信息泄漏的可能性然而，由于注释类型的差异，在实践中没有观察到这种泄漏。补充资料B节介绍了进一步的分析。为简单起见，当计算第4节中描述的结果时，不去除该图像重叠（在补充表A4、A5中报告了没有重叠的性能）。Bg基于它们的X坐标位置被布置，并且通过双向LSTM网络。VCTree不是假设对象之间的线性排序，而是[45]生成动态二叉树，目的是显式编码对象之间的并行和层次关系。对象和关系网络被设置为双向TreeLSTM [43]。当用MOTIF [55]和VCTree [45]增强我们的方法时，我们完全复制了各自作品中提出的对象和关系网络。补充资料的A节提供了更多详细信息。3.2. 评价关系回忆（RR）。为了测量模型的性能，我们使用[4，45]中引入的平均召回@K（mR@K）平均召回率度量在所有图像中独立计算我们报告了平均召回而不是传统的常规召回（R@K），因为视觉基因组中关系标签的长尾性质导致报告偏倚[44]。Mean Recall减少了on和has等主导关系的影响，并为数据集中的所有标签赋予相同的权重。零触发召回（zsR@K）。在[33]中介绍，zsR@K计算训练数据中不存在的主谓宾三元组的Recall@K。1）谓词分类（PredCls）：在给定真实对象边界框和标签的情况下预测关系标签 ; 2 ）场景图分类（SGCl）：在给定真实对象边界框的情况下预测对象和关系标签; 3）场景图检测（SGDet）：在给定图像的情况下，预测整个场景图。分割精度。作为Visual Genome数据集[24]不包含任何实例级分割注释，作为代理，我们使用MSCOCO数据集[29]来测量第2.6节中描述的分割细化过程的性能。为了使评估类似于场景图生成，我们类似地定义了三个子任务来测量分割掩模质量的改善。这些子任务，即（Pred-Cls）、（SGCls）和（SGDet），与前面定义的子任务相同。对于这些子任务中的每一个，报告了COCO上的标准评估指标[11]。15885模型检测器方法谓词分类场景图分类场景图生成mR@20mR@50mR@100mR@20mR@50mR@100mR@20mR@50mR@100IMP [50] VGG-16 [41]--9.8 10.5 - 5.8 6.0 - 3.8 4.8MOTIF [55] VGG-16 [41]-10.8 14.0 15.3 6.3 7.7 8.2 4.2 5.7 6.6VCTree [45] VGG-16 [41]-14.0 17.9 19.4 8.2 10.1 10.8 5.2 6.9 8.0VGG-16 [41]基线13.7 17.5 18.9 7.5 9.2 9.8 5.2 6.8 7.9主题†ResNeXt-101-FPN [34，49]分段接地14.6 18.7 20.3 7.9 9.8 10.5 5.6 7.3 8.1基线14.1 18.0 19.4 8.0 9.9 10.6 5.8 7.7 9.0分段接地14.5 18.5 20.2 8.9 11.2 12.1 6.4 8.3 9.2VGG-16 [41]基线14.4 18.4 19.8 8.1 9.9 10.7 4.4 5.7 6.4表1. 基于视觉基因组的场景图预测。报告了三个任务的平均召回率（mR），跨越两个检测器主干。我们的方法是增强和对比MOTIF [55]和VCTree [45]。†表示我们对方法的重新实现检测器方法谓词分类场景图分类场景图生成AP AP50 AP75 APS APM APLAP50 AP75 APS APM APLAP50 AP75 APS APM APL无优化31.5 63.828.1 21.8 36.4 43.932.5 58.931.8 17.0 35.3 42.323.2 44.721.68.126.0 35.1VGG-16 [41] MOTIF†+优化42.4 78.140.9 33.0 46.6 55.837.5 63.538.8 21.0 40.7 48.424.7 45.823.98.627.9 38.1VCTree†+优化41.9 77.640.3 32.8 46.1 55.237.4 63.438.6 20.9 40.5 48.424.9 46.124.18.628.1 38.4ResNeXt-101-无优化54.8 87.658.3 46.3 57.8 68.151.6 76.756.9 37.9 53.7 62.239.2 61.242.4 20.0 42.3 55.7FPN [34，49]MOTIF†+优化59.3 90.664.7 52.0 62.2 70.654.6 78.261.1 41.1 56.8 64.139.2 61.242.4 19.9 42.3 55.8VCTree†+优化59.0 90.464.2 51.7 62.0 70.454.3 77.960.4 41.0 56.4 63.839.2 61.242.4 19.9 42.3 55.7表2. MSCOCO上的分割细化。标准的COCO精度指标在三个任务和两个检测器主干上报告。任务制定与表1相同。‘No Refine’is the baseline where the segmentation masks are obtained from the pre-trained 由于在Visual Genome中不可用地面真实掩模，因此MSCOCO上的评估充当代理。3.3. 实现细节检测器对于我们的检测器架构，我们使用两阶段Faster-RCNN [39]框架。为了证明我们方法的灵活性，我们在Faster-RCNN框架内用两个不同的主干进行实验：1）在ImageNet [ 40 ]数据集上预训练的VGG-16[ 41 ]，以及2）在MSCOCO [ 29 ]数据集上预训练的ResNeXt-101-FPN [34，49]主干。我们首先在VisualGenome和MSCOCO数据集上联合微调检测器，改进分类器和回归器，并同时在MSCOCO中的图像上学习分割网络当训练场景图生成器时，检测器参数被冻结。注意，对于基线，仅在视觉基因组上微调检测器，因此不学习分段。场景图模型。为了训练场景图模型，我们使用初始学习率为10- 2的SGD优化器。根据先前的工作，我们将频率偏差[55]集成到训练和推理过程中。在推理过程中，在SGDet任务中，我们过滤了这样做的对象对不具有用于关系预测的任何边界框重叠4. 结果关系回忆。我们在表1中报告了比较基线和建议方法的平均召回值。到为了确保公平的比较，我们还报告了通过重新实现基线获得的数字。注意，在MOTIF [55]的情况下，与[55]中报告的数字相比，我们的重新实现提供了显著更高的性能。对于MOTIF [55]和VCTree [45]，无论骨干架构如何，当结合我们提出的方法时，我们观察到所有三个任务的召回率都有一致的提高。对于MOTIF [55]，我们观察到7的改善。在所有设置和骨架中，在mR@20、50和100下平均为0%具体而言，在VGG骨架[41]上，我们获得了6的相对改进。5%，5. 3%，7。在三项任务中，7%的人认为Mr@20。类似地，对于ResNeXt- 101-FPN [34，49]主链，我们观察到2的相对改善。8%，11. 2%，10。3%，20岁。类似地，对于VCTree [45]，平均改善12。6%是跨任务和主干观察到的。我们属性的性能改进的能力，我们的模型有效地地面对象和关系的像素级区域，从而提供更多的歧视性功能。我们在补充资料的C部分提供了其他结果和个体关系回忆比较。零击召回。我们在表3 中报告了Zero-Shot Recall 值zsR@20和zsR@100。我们观察到一个consis- tent改善零杆回忆时，使用亲VCTree†分段接地14.818.920.58.710.811.65.37.07.8ResNeXt-101-基线13.717.419.08.19.910.65.36.97.9FPN [34，49]分段接地15.019.221.19.311.612.36.38.19.015886图3. 定性结果。通过使用VCTree [45]（紫色）生成的场景图的可视化和我们的方法增强到VCTree（绿色）。左两幅图像对比关系检索的性能右边的两个图像对比了零激发关系检索的性能，其中零激发三元组以黄色示出我们的方法还产生像素级的对象接地。模型检测方法PredCls SGCls SGDetzsr@20/100 zsr@20/100VGG-16 [41]BL 1.7/6.7 0.2/1.1 0.0/0.4场景图分类消融mR@20 mR@50 mR@100 zsr@20/100主题†SG3.2/9.3 0.4/1.6 0.1/0.5avgResNeXt-101-BL 1.8/7.1 0.4/1.20.1/0.7最终型号9.4 11.6 12.3 0.8/2.5FPN [34，49]SG4.3/10.6 0.8/2.5表3. 视觉基因组的零击回忆。报告了两个检测器主干上三个任务的结果。我们的方法是增强和对比MOTIF [55]和VCTree[45]。†表示我们对方法的重新实现。姿态场景图生成框架。我们的方法比基线平均高出94.5%，97。9%。分割精度。由于分割注释不存在于Visual Genome [24]中，因此我们在MSCOCO数据集上评估了我们提出的分割细化 [29] 。这提供了一个合适的代理，其中MSCOCO数据集上的分割改进可以在一定程度上在Visual Genome上翻译。我们在表2中报告了三个不同场景图评估任务的标准COCO评估指标，即AP（IoU阈值的平均值）、AP50、AP75和APS、APM、APL（不同尺度的 AP ）。 ‘No Refine’ acts as a strong baseline,wherein很明显，我们提出的segmenta- tion细化提高了跨任务和检测器骨干的掩模质量。由于地面实况边界框和标签可用于谓词分类任务，因此这里观察到的改进是最大的（34. VGG上AP高6%）。类似地，在场景图生成（SGDet）任务上观察到的改进是最低的（7.VGG上的AP高3%），因为由预训练的检测器产生的任何错误被转发到场景图网络。为了进一步强调我们的联合培训方法的有效性，我们报告了第二节中AP的每个班级的改进情况。表4. 消融术报告了平均召回率（mr）和零激发召回率（zsr）。VCTree [45]是所有方法的基础架构。有关模型定义，请参见第4补充条款C。请注意，当使用ResNeXt-101-FPN [34，49]骨架时，未观察到SGDet任务的明显改善。我们认为这是使用特征金字塔网络（FPN）[28]来提取特征的主干的直接结果。由于FPN使用横向连接有效地捕获全局上下文，因此检测器提供更丰富的对象表示。这使得场景图网络中的上下文聚合冗余，使得细化分割掩模更加困难。消融术我们使用VCTree对模型中的各种组件进行消融研究。所有模型都使用ResNeXt-101-FPN [34，49]主干进行训练。SGCls任务的结果示于表4中。“Base”被定义为在仅在Visual Genome数据集上训练的检测器上学习的vanilla VCTree模型。为了理解我们的联合检测器预训练对整体性能的影响，我们将“联合”定义可以看出，仅检测器的联合预训练就提供了可观的改进（在mR@20上为5%我们逐步增加我们提出的approach组件的'联合'检测器，以更好地突出其重要性。‘Joint + OG’ is defined asthe model that uses the jointly trained detector and theobject grounding mech- anism described in Section 类似地，人对冲浪板人对对站在冲浪板下背后在猫上述签署猫猫下签署下在…前面下背后对在背后安装之间对背后背后波波邮政标杆极基地8.19.910.60.3/1.2联合8.510.511.10.4/1.5关节+OG9.011.111.80.6/2.1关节+ OG + EG9.111.412.20.8/2.4接头+OG + EG管接头9.111.312.20.7/2.4联合+ OG + EG高斯9.311.512.20.7/2.3ResNeXt-101-FPN [34，49]BLSG1.9/7.24.1/10.50.3/1.20.8/2.50.0/0.50.1/1.0VGG-16 [41]VCTree†BLSG1.8/7.33.5/10.20.6/1.80.7/2.40.1/0.50.3/0.915887第2.5节中定义的设定关系基础机制。EGx中的下标x是指用于组合一对对象的分割掩码的掩码机制的类型。我们实验平均（平均），采取逻辑或（联盟），并提出了高斯掩码（高斯）。最后，我们的完整模型与额外的分割掩模细化（第2.6节）被定义为“最终模型”。从表4可以看出，使用对象和关系基础有助于性能，并且使用高斯掩蔽机制优于其他替代方案。此外，微调分割掩模不仅有助于提高其质量，而且还提供更好的场景图生成性能。定性结果。我们定性地对比了VCTree模型[45]的性能，该模型用我们提出的方法与图3 .第三章。左边的两个图像显示了关系检索任务的结果我们的方法（绿色）预测了更多的颗粒和空间信息的关系，而不是基线（紫色），它严重偏向于更常见和更少的信息关系。右边的两幅图突出了我们的方法在零拍摄场景中推广的能力。由于训练数据集中不存在具有符号的猫的三元组，因此基线方法（纯粹）默认为预测above和in-front-of的不正确关系。相反，我们的方法准确地预测下的正确关系。5. 相关工作场景图形生成。场景图生成是视觉社区的热门话题[23，26，30，36，44，50、51、53、54、55]。在[50]中首次介绍，他们提出了一个迭代消息传递模块，以在分类之前细化节点和边的特征。后续工作提出使用不同的架构，如双向LSTM [55]，Tree-LSTM [45]，图神经网络[51]和新颖的消息传递算法[27，38]进行表示学习。虽然改进的上下文聚合可以导致更好的场景图性能，但最近的工作更多地集中在缓解由关系标签的长尾分布Tang等人[44]提出使用因果推理框架来对从有偏训练获得的模型的预测进行去偏。Knyazev等人[23]，提出了一种图形密度感知损失，以解决Visual Genome数据集中的不平衡问题。零炮分割。零拍摄学习是计算机视觉中的一个活跃的研究领域[9，48]。然而，零激发分割的子场是相对较新的[2，13，14，20，21，58]。这一领域的大部分工作都是在零拍摄语义分割[2，13，20，47，58]上，其目的是正确地对图像中的每个像素进行分类。Zhao等人[58]提出了开放式词汇场景分析任务，其中来自WordNet的[35]被用来建立标签关系，并随后对类进行分段。Bucher等人[2]将视觉语义嵌入与生成模型和分类器相结合，以获得未见过类的掩码Kato等人[20]利用类标签上的语义到视觉变分映射以及数据驱动的距离度量来生成零激发分割掩模。Hu等人[13]引入不确定性感知损失，以减轻噪声训练示例对鲁棒语义分割的影响对于零镜头实例级分割的任务，Khandelwal等人。[21]利用语言和视觉相似性来学习从具有丰富注释的类到具有零/很少注释的类的分段头上的变换多任务学习。多任务学习（MTL）涉及同时优化多个任务，并在任务之间传输信息以提高性能[3]。MTL [5，32，57]中的大多数方法学习层的共享表示以及多个独立分类器。另一项工作涉及明确建模任务之间的关系，无论是通过分组[17，19，25]还是以任务协方差的形式[6，8，56]。6. 结论我们提出了一种新的模型不可知的框架分割接地场景图生成。与传统场景图生成框架相反，该框架将场景图中的对象接地到边界框，我们提出的方法允许通过零拍摄传输机制获得的更细粒度的像素级我们提出的框架利用这些基础，提供跨各种场景图预测任务的显着改进，无论它是增强的架构。最后，我们强调的好处，同时优化场景图和分割生成的任务，从而提高性能。资金的确认和披露这项工作的部分资金来自Vector Institute for AI，Canada CIFAR AI Chair，NSERC CRC和NSERC DG和Accelerator Grants。本材料基于美国空军研究实验室（AFRL）在DARPA“少花钱学习”（LwLL）计划（合同号FA 8750 -19-C-0515）下支持的工作。本研究准备中使用的硬件资源部分由安大略省、加拿大政府（通过CIFAR）和赞助Vector Institute7 的公司提供。JELFCFI赠款和RAC奖下的Compute Canada提供了额外的支持。最后，我们衷心感谢徐必成对论文草稿的6本文中包含的观点和结论是作者的观点和结论，不应被解释为代表DARPA或美国政府的官方政策或认可，无论是明示还是暗示政府的7www.vectorinstitute.ai/#partners15888引用[1] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。重点是什么在欧洲计算机视觉会议（ECCV）的会议记录中，第549-565页[2] MaximeBucher ， Tuan-Hung Vu ， Matthieu Cord ， andPatrick Pe'rez. 零镜头语义分割。神经信息处理系统进展（NeurIPS），2019。[3] 瑞奇·卡鲁阿纳多任务学习。 Machine Learning，28（1）：41[4] 陈天水，于伟豪，陈日泉，林亮。用于场景图生成的知识嵌入路由网络在IEEE/CVF计算机视觉和模式识别会议（CVPR）论文集，第6163-6171页[5] Xiao Chu ， Wanli Ouyang ， Wei Yang ， and XiaogangWang.用于即时预测的多任务递归神经网络。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第3352-3360页[6] Carlo Ciliberto 、 Youssef Mroueh 、 Tomaso Poggio 和Lorenzo Rosasco。多任务的凸学习及其结构。国际机器学习会议（ICML），第1548-1557页，2015年[7] M. Everingham，S. M. A.埃斯拉米湖

下载后可阅读完整内容，剩余1页未读，立即下载