FLOAT：改进多对象多部分场景解析的文件框架

138 浏览量更新于2023-10-25 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1445图像地面实况浮动（我们的）BSANetFLOAT：用于改进多对象多部分场景解析Rishubh Singh1 Pranav Gupta2 Pradeep Shenoy1 Ravikiran Sarvadevabhatla21 Google Research2IIIT海得拉巴{rishubh，shenoypradeep} @ google.com，{ravi.kiran@，pranav.gu@research.}iiit.ac.in图1. 来自我们扩展的标签空间数据集Pascal-Part的样本图像的多对象多部分语义分割结果，201. 与最先进的BSANet [58]相比，FLOAT可以准确地分割微小部件（例如：上图中脸部的左眉、右眉此外，请注意FLOAT预测零件的方向属性（例如，“left”/“right”）准确-“left”/“right”]：见上图中的眉毛、眼睛、手臂和下图中的腿;[“前”/“后”]：见自行车的车轮部件（下图）。摘要多对象多部分场景分析是一项具有挑战性的任务，它需要检测场景中的多个对象类并分割每个对象中的语义部分。在本文中，我们提出了FLOAT，一个可扩展的多对象多部分解析的分解标签空间框架。我们的框架涉及独立的对象类别和部分属性，增加了可扩展性，降低了任务的复杂性相比，单片标签空间对应的密集预测。此外，我们提出了一个推理时间的与最新技术水平相比，FLOAT在Pascal-Part-58数据集上的平均IOU（mIOU）和分割质量IOU（sqIOU）分别获得了2.0%和4.8%对于更大的Pascal-Part-108数据集，mIOU的改进为2.1%，sqIOU为 3.9%我们将之前排除的零件属性以及Pascal-Part数据集的其他次要部分，以创建最全面和最具挑战性的版本，我们称之为 Pascal-Part-201。FLOAT在新数据集上获得了mIOU 8.6%和sqIOU7.5%的改进，证明了其在对象和部件的复杂多样性上的解析效率。代码和数据集可在floatseg.github.io上获得。1. 介绍语义场景解析是视觉社区中的基本图像理解问题[23，49，50，52，54，55，60]。通常，目标是分割对象和“填充”区域（例如，路，背景）。多对象多部分解析是一个更具挑战性的变量，它需要对每个场景对象进行部分级分割[32，40，58]。与传统的对象级分割相比，融合了细粒度部分级知识的语义表示可以提供更丰富的信息，1446下游推理任务，包括视觉问题回答[19]，感知概念学习[5]，形状建模[1，12]和许多其他[2，8，10，21，39，53]。对于基于部分的对象分割，一些现有的方法解决了单对象部分解析的更简单的问题[14尽管最近的一些方法已经解决了多对象多部分解析[32，40，58]，他们认为部分标签是独立的，并且不利用标签级别的对象和部分之间的本体内/本体间关系。他们也往往表现不佳的小和罕见的部分/类别。为了解决这些缺点，我们提出了FLOAT，一个新的可扩展的多对象多部分解析的分解标签空间框架。我们的方法基于以下观察结果：观察#1：数据集中的对象部件名称通常由根组件和辅助组件组成。许多对象类别包含具有相同根组件的部件。例如，马、牛等的“左前腿”和人的“右腿”的根因此，可以根据零件的根零部件对零件进行分组。该示例还表明，其实例包含共享类别级属性（例如，使用该标准，一些对象类别（例如，牛、人、鸟）可以被归类为“有生命的”。同样，一些类别（例如，“刚性体”）可以被归类为“无生命”。与“有生命”组一样，“无生命”组类别也共享许多根部分组件（例如，飞机、自行车、汽车中的“轮子”）。观察#2：与观察#1类似，部件也可以按侧部件分组-例如“前”是自行车中的“前轮”和人的“左前腿”的侧部组件。根据这些组（“animate”、“inanimate”、“side”）分解对象/部件标签空间大大减少了输出标签的有效数量。反过来，这增加了对象类别和部件基数方面设计选择1）。我们的框架的第二个关键功能是IZR，推理时间分割细化技术。IZR将初步的每个对象标签映射的“放大”版本转换除了不需要额外训练的优点外，IZR在经验上优于替代的推理时间方案，并显着提高分割质量，特别是对于较小的对象/部件。在现有的工作中，结果报告简化，原始数据集的标签合并版本（Pascal- Part [8]）。在我们的工作中，我们将之前排除的部分属性和其他次要部分合并到Pascal-Part- 201中，这是Pascal-Part最全面和最具挑战性的版本[8]。除了标准平均IOU（mIOU）和mAvg分数外，我们还报告了sqIOU [20]和sqAvg归一化分割质量指标，这些指标总之，我们的贡献如下：• FLOAT是一种新的可扩展多对象多部分解析的因子分解标签空间框架（Sec. （3）第三章。• IZR是一种推理时间细化技术，它显著提高了分割质量，特别是对于场景中较小的对象/部分（第二节）。第3.4段）。• Pascal-Part-201是Pascal-Part [8]数据集的最全面和最具挑战性的版本。4）.实验评估表明，FLOAT（五）。2. 相关工作语义分割是一个广泛而深入的研究领域。我们并不试图总结所有的方法，使重点放在更直接相关的工作。语义分割的常见设计模式是编码器-解码器设置[3，6，7，56]。特别是，基线、扩展方法和我们提出的方法都采用流行的DeepLab架构[6]用于分割任务管道的各种组件。单对象多部分解析已经得到了广泛的研究。现有的方法通常考虑对象类别子集，例如人[14，15，2446，57]、动物[16，41，42]和溶剂[25，28，36，38]。然而，在这种情况下，大多数作品都假设每个图像都有一个感兴趣的对象。多对象多部分解析是一个相对较新的研究问题[32，40，58]。Zhao et al.[58]和Zeroeli et al.[32]通过在优化期间向部件分割网络提供对象级特征指导来处理多对象Zhao等人。[58]还提供了对特征的边界级感知。Tan等人。[40]创建了一个语义共同排名损失模型内部和内部关系。Xiao等[47]介绍了一个复合数据集和一种用于预测场景中的感知视觉概念的方法。然而，与我们的框架相反，这些方法在标准数据集的简化（标签合并）版本上报告结果，并且在经验上表现出较小部分的较差性能。分解：在机器视觉应用中，早期的工作如Zheng etal.[59]使用阶乘条件随机场模型分别预测对象类别，粗略的对象标签和对象属性，如形状，质量，1447M自顶向下合并IZR图2. 我们的FLOAT框架的概览图（第（3）第三章。给定输入图像I，对象级语义分割网络（obj，蓝色）生成对象预测图（So）。两个解码器（橙色）为场景中的“有生命”（Sa）和“无生命”对象（Si）生成对象类别分组的部分级预测图。另一个解码器（红色）产生“左-右”（Slr）和“前-后”（Sfb）的部分属性分组预测图。在推断时间（由虚线示出），来自解码器的输出以自顶向下的方式合并。由此产生的预测进一步细化使用的IZR技术（见图。 3）得到最终的分割图（Sp）。材料和表面类型。其他工作涉及联合学习对象和属性相关信息作为可分离的潜在表示[35]或使用图形网络[34]。Misra et al.[33]提出了一种对全局对象属性和对象分类器的因式分解，以实现组合性。其他作品将这一思想扩展到对象间关系，例如。名词-介词-名词三联体[19，22，31]。在所有这些工作中，对象的简单全局属性（例如，材料、纹理、颜色、大小、形状）与对象类别信息一起被学习。在他们对全景部分分割的工作中，Geus等人。[9]对Pascal-Part-58中的两个类别进行实验，其中一些部分按语义相似性分组。Graphonomy，Lin et al.[27]可以使用平面标签结构跨越多个数据集，并且需要手动指定每个类别的图形。这种刚性连接关系不适合于对高度铰接的对象（例如，在我们的环境中发现的动物。据我们所知，我们是第一个证明对象部分可以在不同的对象类别中按比例分解的人，并且这种分解显著提高了分割性能，与视觉识别理论相一致[4，18]。已经发现使用由注意力地图[43]和强化学习策略[11，48其他作品在视频插值的对象实例[51]和对象解析的部分实例[44]上使用该技术。Porzi等人[37]使用基于对象类的放大裁剪来改进全景分割。高分辨率图像的分割。 Similar to the latter set ofapproaches, FLOAT also employs zooming in on ob- jectregions. 然而，我们基于缩放的细化不需要任何额外的训练，可以直接在推理过程中使用，以提高性能。3. 我们的框架（FLOAT）如前所述， FLOAT 二、 The sections that followdescribe how we operationalize the idea.虽然我们的方法本质上是通用的，但为了便于理解，我们使用Pascal-Part数据集[8]中的对象类别和部件名称。3.1. 使用因子化标签原始Pascal-Part数据集包含对象和部件级别的标签映射。我们重新标记或分区这些地图，以获得五个新的标签组，如下所述。object：该组的标签集包括唯一的对象类别标签。例如，在图1中的So2是此组中包含人和自行车对象的标签animate：对于该组，标签集包括来自对象类别bird、cat、cow、cat、dog、horse、person、sheep的部件标签的根组件。零件标签将在所有对象类别中合并。例如，单个标签腿覆盖来自“animate”组中的所有对象的这可以1448FMF联系我们M逐对象边界框填充的每对象边界框边界框图像裁剪自顶向下合并的每个对象贴图最终多目标多部分标注地图无IZR的图3. 推理时间缩放细化（IZR）概述。三点四分。在推断期间，来自对象级网络Mobj的预测用于获得场景对象（B）的填充边界框。对应的对象作物（C）由因子分解网络（，Sec. （3）第三章。合成所得到的标签图（D）以生成最终细化的部件分割图（E）S p。请注意，相对于不带IZR的零件标签图（包括用于比较），分割质量有所提高。在图2中的Sa中也可以看到，人的无生命：标签集包括来自飞机、自行车、瓶子、公共汽车、汽车、摩托车、盆栽植物、火车、电视的部件标签的根组件。请注意，（i）这些类别是不相交的2）（ii）针对“animate”提到的部分标签池化side：在这种情况下，存在两个不相交的标签组。一个组包括名称中有“左”或“右”字样的所有部件标签（例如，左手，右手）。其部分标签包含“左”/“右”的标签图区域同样的程序也用于标签组，这些标签组的名称中有“前”或“后”两个词2）。广义地说，来自移动的生物的物体部分在“有生命”组中如前所述，这样的分组使得能够对公共部分（例如，“an-imate”组中的躯干）。类似的推理也适用于（{3.2. 因子化语义分割架构我们将分割架构配置为输出上一节中描述的因子分解标签映射。如图2所示，我们采用了两个语义分割网络，一个用于对象级，另一个用于部分级标签映射。对象级网络（obj）输出对象级网络（obj）。对象预测图（SO）。部分级网络由一个共享编码器（E部分）和三个解码器组成：输出“有生命的”标签映射（Sa）的“有生命的”解码器（D有生命），输出“无生命的”标签映射（Si）的“无生命的”解码器（D无生命）。The ‘side’（D侧）输出对象级网络（SO）和部件级网络（Si，Sa，Slr ， Sfb ）的输出在推理时合并。 We describe thismerging process next.3.3. 自顶向下合并为了组合分段架构输出的因子分解标签图（参见图11），2）采用自上而下的合并策略。对于每个对象（例如，bicycle），我们检查部分级标签图中对应像素位置的标签。根据对象的类型（ “animate” 或“inanimate”），相应的标签区域将被复制到场景级预测画布。(e.g.对于自行车，S1中考虑的标签将是车轮、链轮、链轮、前灯、鞍座）。类似地，对象级图在冲突的情况下，预测默认为背景。对应的标签区域被复制到场景预测画布。在下一节中，我们将描述如何使用逐对象“缩放”技术来细化所得到的预测图3.4. 推理时间缩放细化推理时间缩放细化（IZR）技术通过“缩放”每个场景对象来提高分割质量作为第一步，输入图像I由对象级网络对象j处理以获得对象级映射（参见图1A）（3）第三章。然后填充与每个对象组件相对应的边界框，以便对象居中并保留宽高比（图中的B）（3）第三章。然后获得对应于填充的边界框范围的图像裁剪（C）。注意，填充使得场景上下文能够被包括用于每个裁剪的对象，并且还有助于解释对象映射预测中的不准确性然后通过以下步骤处理裁剪的对象图像：1449FM⌈⌉||i、j||−||L·i、j我J[i，：][i，：][i，：]CEGM||||FLOAT然后合成这些标签图以生成最终的细化分割图（E）。在接下来的两节中，我们将描述FLOAT中网络的优化器公式和实现细节。3.5. 优化我们训练对象模型obj（Sec.3.2）使用标准的每像素交叉熵损失。为了训练部件级模型，我们使用交叉熵损失（LCE）和图匹配损失（LGM）的组合[32]。交叉熵损失被应用于4个输出部分级别图中的每一个，即Sa、Si、Slr、Sfb（见图2）。图匹配损失[32]捕获地图内部分对之间的邻近关系，并对地面实况和预测地图之间这些对的匹配进行评分。部分对之间的接近程度由位于距离另一部分T个像素或更少的一个部分中的像素的数量表示，其中T是经验设置的阈值。为了提高效率，通过将每个部分掩模扩张T/2来并计算相交区域。地面实况邻近度图M GT（以及类似的预测图M pred）被正式定义为：|{s∈Φ（pGT）<$Φ（pGT）}|其中，m是第i个部分和第j个部分之间的接近度，pi、pj是相应的部分掩码，s是通用像素el，Φ是形态学2D膨胀算子，并且。是给定集合的基数。行式归一化是ap-应用于邻近矩阵：MGT=MGT/MGT2。图匹配损失L GM 被计算为两个邻接矩阵之间的FrobeNius范数：GM=MGTMpred F.此外，对于“有生命”和“无生命”分支，复合前景-背景二进制交叉熵损失用作额外的部件级网络的损耗是所有部件级网络的损耗的加权组合。部分分支：L部分=Lanim+Linanim+Lside，其中Lanim=Lanim+λGM Lanim。3.6. 实施和培训详情为了与以前的作品[32，40，58]进行公平比较，我们采用DeepLab-v3 [6]架构，使用ImageNet预训练的ResNet-101 [17]作为编码器（主干），并遵循相同的训练方案和增强。在训练期间，图像随机左右翻转并缩放0。使用双线性插值，原始分辨率可提高5到2倍。测试阶段的结果以原始图像分辨率报告。用于邻近矩阵的阈值T（Sec. 3.5）根据经验设置为4。该模型被训练了40K步，基本学习率设置为7 10−3，该学习率随着幂为0的多项式衰减规则而降低。9 .第九条。我们采用10 − 4的重量衰减正则化。我们使用16 个图像的批量大小，并使用图片Pascal-Part-58Pascal-第108部Pascal-Part-201（我们的）图4. Pascal-Part数据集的不同版本中的标签粒度说明Pascal-Part-108 [32]增加了更小的部分（例如：[ 58 ]第58话：眼睛，耳朵我们新推出的Pascal-Part-201进一步为部件添加了适当的方向信息（例如，{'left'，'right' }到眼睛，耳朵;{λ GM=0。1，用于相对于交叉熵损失对图匹配损失进行加权。我们使用2个NVIDIA A100 GPU ，每个40GB GPU内存来训练我们的模型，并进行实验。4. 数据集和评估指标Pascal部分：对于实验，我们使用Pascal-Part [8]，这是目前最大的多对象多部分解析数据集。它包含10，103个可变大小的图像，并在20个Pascal VOC2010 [13]语义对象类（加上背景类）上进行像素级部分注释我们使用Pascal-Part的原始分割，其中4998张图像用于训练，5105张图像在公开提供的valida中，测试设置Pascal-Part-58/108：为了与以前的工作进行比较，我们使用数据集Pascal-Part-58 [58]和Pascal-Part- 108[32]，它们分别包含58和108个部分类。Pascal-Part的两个变体都通过将一些部分分组在一起来简化原始的语义类，并分别包含58和108个Pascal-Part-58主要包含对象的大部分，例如动物的头部、躯干、腿等，以及非生命对象的身体、轮子Pascal-Part-108更具挑战性，另外还包含相对较小的部分（例如：动物的眼睛、脖子、脚等，非生物的屋顶、门等）。Pascal-Part-201：我们将部件属性（'left'，'right'，'front'，'back'，'upper'，'lower'）和其他次要部件（例如，眉毛）排除在上述两个变量（58/108），以创建最全面和挑战，1450. ΣΣΣ. ΣΣ***pp=j=1p pNJJ=<$$>Predp<$GTp·I[p∈I]<$/N（2）比基线和现有方法的表现要好，这个数据集包含201个部分，我们称之为Pascal-Part-201。我们观察到，Pascal-Part中的原始部分标记方案遗漏了自行车，摩托车和电视类别的大块对象为了解决这个问题，我们为 bike 、 motorbike 添加了bodypart注释，为tv添加了framepart注释。在图1中可以看到说明Pascal-Part变体的部分标记和粒度的差异的4.第一章4.1. 评估指标对于性能评估，我们使用两个版本的交集超过并集（IOU）度量。我们首先描述mIOU和mAvg，标准的分割质量指标报告的问题设置。然后，我们描述这些指标的平衡变体mIOU：令Predj和G T j分别是第j个图像I j中的第p个部分的预测和基础事实。假设数据集包含N个图像。部件的mIOU（mIOUp）计算如下：图5. 玩具示例比较mIOU和sqIOU与玩具人物类别中包含头部和躯干部分的两个图像。“红色”和“蓝色”表示地面实况，“粉红色”和“绿色”表示预测重叠区域。mIOU不能很好地反映I2图像中头部的分割情况，而sqIOU能较好地反映I2图像中头部的分割情况。大小相等-比较Eqn. 1和2，也看到图中五、因此，sqIOU和sqAvg可以被认为是分割质量的更ΣN （Predj<$G T j）·I[p∈Ij]Miou（一）j=1ppJpN（Predj<$GT j）·I[p∈I]5. 实验结果在那里，我[。]是指示函数（即，仅对存在部分P的图像执行求和）。然后，数据集的mIOU计算为：mIOU=p mIOU p/N p，其中N p是部件cat的数量。数据集中的类别（58/108/201）。mAvg：对象类别的mIOU分数是其每个部分分数的平均值，即mIOUc=pmIOUp/Nc，其中Nc是对象类别c中唯一部分标签的数量。最后，mAvg被计算为mAvg=（cmIOUc）/C，其中C是ob的数量。对象类别（Pascal-Part数据集为21个sqIOU：这是分段质量的修改版本(SQ)为语义分割量身定制的度量[20]。部分p的sqIOU计算为：sqIOUpJj=1pp[58][59][ 作为作为基线，我们训练了一个DeepLab-v3 [6]模型，该模型具有独立配对的对象类别和相关的部件名称（例如，牛左眼，牛右耳）作为标签。BSANet和CO-Rank报告Pascal-Part- 58上的结果，而GMNet还报告Pascal-Part-58上的结果108.我们报告了Pascal-Part数据集的所有变体的结果，包括我们新引入的Pascal-Part-201。为了进行比较，我们在我们的数据集 Pascal-Part-201 上训练 GMNet 和BSANet。为了进行评估，我们采用了mIOU、mAvg和sqIOU、sqAvg指标，这些指标详细描述（第4.1）。此外，我们还通过烧蚀研究分析了FLOAT中各组分的相对5.1. Pascal-Part-201表1显示了分类和总体执行情况。P redjGT jJPsqIOU和sqAvg的计算与mIOU的计算类似由于其公式，mIOU和mAvg [32，58]往往由较大的1实例的贡献主导。相比之下，sqIOU和sqAvg的权重部分1非正式地说，如果一个实例是按区域分类的对象部分的最大实例之一，则该实例被认为是巨大的边际。我们获得了10.8%的大幅收益，mIOU和8.1%的sqIOU相对于基线。我们在mIOU和sqIOU上分别以8.6%和7.5%的大幅度优于次优方法BSANet [58]。根据经验，我们在小部件上获得了10%- 30%的sqIOU显著增益-例如，例如鸟、猫、牛“动物伴侣”类别的左/右眼、左/右耳、左/右角等。对于巴士，汽车，飞机），我们获得sqIOU为了评估，我们比较了FLOATPascal-Part-201上的mance。总的来说，我们看到浮动1451表1.Pascal-Part-201的分类结果。FLOAT在mIOU（上图）和sqIOU（下图）方面的表现优于竞争方法[32]第三十二话10845.8 50.5 35.8 41.9浮动48.0 53.0 40.5 45.6表 2.Pascal-Part-58 和 Pascal-Part-108 的结果： FLOAT 在mIOU上优于基线和其他现有方法，在sqIOU上存在显著差距。缺少CO排名条目是由于不完整的官方代码库和论文中缺少细节前/后板、左/右翼等小部件的改进幅度在5%-11%之间。对于包含侧部部件（“左/右”或“前/后”）的大多数部件，性能改进也同样显著。5.2. Pascal-Part-58和Pascal-Part-108我们还展示了先前提出的数据集Pascal-Part-58 [58]和Pascal-Part-108 [32]的结果。如表2所示，FLOAT框架在这两个数据集上都实现了最佳性能。在mIOU方面，我们在Pascal-Part-58和GMNet [32]上的表现优于CO-Rank [40] 0.3%和2.0%。在sqIOU方面，我们的表现也大大优于其他方法-比GMNet高Pascal-Part-108也出现了类似的趋势，与次佳方法BSANet相比，mIOU和sqIOU分别大幅提高了2.1%和3.9%[58]。总体而言，现有和具有挑战性的新基线M个目标+M个部分F108108686868✓-✓ ✓-✓ ✓ -✓公司简介41.3 32.246.1 36.747.8 38.448.0 40.5浮子模型基线91.0 31.6 47.7 24.3 56.7 46.4 31.0 36.7 24.2 35.6 17.5 38.6 27.3 20.7 38.0 26.9 50.8 13.3 42.1 14.7 57.6[32]第三十二话90.826.633.121.255.043.524.627.521.735.515.140.325.017.531.921.944.211.943.314.0BSANet [58]91.2 34.6 41.7 27.9 61.2 51.7 34.1 38.1 26.1 35.4 24.0 43.6 28.4 23.0 37.4 27.754.7 14.3 40.417.8 59.4mIOU mAvg26.3 36.822.5 33.228.5 38.7浮动92.5 36.7 49.7 34.4 75.3 51.4 35.8 42.0 37.8 59.6 35.5 58.2 41.0 34.0 40.2 40.852.228.5 69.0 15.1 56.137.1 46.9sqIOU sqAvg基线89.6 28.9 39.3 17.1 57.4 32.3 27.1 26.0 20.5 39.8 14.8 34.7 22.7 17.2 31.5 19.2 34.9 10.8 52.6 14.4 53.8[32]第三十二话89.420.723.512.653.125.819.317.218.138.211.235.215.914.225.413.826.98.552.013.8BSANet [58]89.9 30.7 33.5 18.6 60.2 31.2 29.2 26.4 21.2 37.8 17.5 38.0 22.3 17.8 31.2 18.2 33.6 10.8 47.217.5 55.421.5 32.616.9 27.722.1 32.8浮动90.8 32.5 41.8 24.5 63.9 36.1 30.4 29.9 33.0 50.8 28.1 47.6 35.6 26.1 33.6 29.9 34.5 20.6 69.013.656.8 29.6 39.5方法mIOU sqIOUBGRBGRAeroAero自自鸟鸟船船瓶瓶总总车车猫猫椅子椅子牛牛表表狗狗马马姆比凯人姆比凯人数据集输出头无因式分解对象零件动画/Inanim侧推理增强植物羊植物沙羊火沙电火电基线M个目标+M个部分F浮子5858454545✓-✓ ✓-✓ ✓-✓公司简介54.3 46.060.7 51.560.9 51.761.0 54.2方法数据集MioumAvgsqIOUsqAvg基线54.355.446.048.4BSANet [58]58.258.949.351.5[32]第三十二话5859.061.849.454.3[40]第四十话60.760.6--浮子61.064.254.257.1基线41.343.632.236.1BSANet [58]45.948.436.641.01452FM基线M个目标+M个部分F −D侧FF*F+ RCZ浮子20120111911980808080✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓*✓RCZ✓IZR26.329.131.336.936.936.637.121.522.824.127.827.628.029.6表3. 消融研究：从基线开始，根本没有因子化，我们看到系统地添加FLOAT管道的组件显著提高了分割质量。部件是所有部件级标签的组合解码器，FLOAT=+IZR（见图2）是所提出的模型。 RCZ看台随机裁剪缩放（参见第5.3）。 * 表示单独用于“左/右”和“前/后”的解码器。“输出头”-模型的输出通道总数。 ‘No factorization’ – parts are ‘Object’ – predictingobject labelsPascal-Part数据集的变体展示了我们因子化标签空间设置的优势。特别是，随着数据集复杂性的增加而增加的收益证明了1453图像地面实况浮动（我们的）GMNetBSANet图6.Pascal-Part-201的定性比较。我们观察到FLOAT得到小对象部分FLOAT还可以正确识别狗和猫的左右和前后FLOAT框架的卓越扩展能力5.3. 消融研究我们进行了多次实验与烧蚀的变体模型的FLOAT，以验证我们的设计选择的有效性。从表3中的结果，我们看到从基线（每个数据集变体中的第一行）开始，系统地添加FLOAT流水线的组件显著地提高了分割质量。对于Pascal-Part-201数据集，特别是当包含因子分解组件时，收益最明显从最后两行中，我们还可以看到，与随机裁剪缩放（RCZ）相比，IZR是一个更好的选择原始Pascal-Part数据集[8]中的一些部件名称包含侧部组件我们尝试用这些组件作为D端解码器的输出来训练FLOAT变体。然而，该模型未能收敛。我们假设这是由于与其他副属性相比，训练数据的数量要小得多，即“左/右”和“前/后”5.4. 定性分析图6显示了我们的框架与Pascal-Part-201上现有方法的定性比较，反映了我们观察到的mIOU和sqIOU指标的改进收益（表1）。FLOAT在分割较小的对象部分时具有视觉优势-注意从例子中，我们可以看到FLOAT在学习方向性（“左/右”，“前/后”）方面也做得更好。类似的改进是显而易见的，示例见图1。FLOAT的一些限制包括丢失最小部分的预测（例如，眼睛远离摄像机）和对薄部件的部分预测导致断开。6. 结论FLOAT是一个简单而有效的框架，用于提高多对象多部分句法分析中的语义分割性能我们对因子分解标签空间的概念是一个关键的贡献，充分利用标签级的内部/间本体关系的对象和部分。因子分解不仅可以在对象类别和部分标签方面实现可扩展性，而且还可以大大提高分割性能。另一个关键贡献是我们的推理时间缩放。通过只关注以对象为中心的感兴趣区域，IZR有效地提高了分割质量，而无需明确的对象特征指导或对零件网络设置进行其他修改。除了我们的框架之外，我们还介绍了Pascal-Part的一个新变体Pascal-Part-201，它构成了该问题最具挑战性的基准数据集。我们的实验评估，使用现有措施的公平版本，表明FLOAT明显优于现有的国家的最先进的方法，现有的和新引入的Pascal-Part变体。从我们的框架中获得的收益随着部分和对象数据集复杂性的增加而增加，经验上支持我们对FLOAT可扩展性的断言。虽然在2D场景解析设置，我们希望从FLOAT的想法是有用的3D 场景解析对应，并在一般情况下，与适当的factorizable属性的情况下。1454引用[1] 潘诺斯Achlioptas，朱迪范，罗伯特霍金斯，诺亚好人，和列奥尼达J Guibas. Shapeglot：学习形状区分的语言。在IEEE/CVF计算机视觉国际会议论文集，第8938-8947页，2019年。2[2] Hossein Azizpour和Ivan Laptev。使用强监督的可变形零件模型进行对象检测。在Andrew Fitzgienic、SvetlanaLazebnik、Pietro Perona、Yoichi Sato和Cordelia Schmid的编辑中，计算机视觉施普林格柏林海德堡。2[3] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on Pattern Anal-ysis and MachineIntelligence，39（12）：2481-2495，2017。2[4] 欧文·比德曼按组件识别：人类图像理解的理论。Psychological Review，94（2）：115，1987. 3[5] Andreea Bobu 、 Chris Paxton 、 Wei Yang 、 BalakumarSun- daralingam、Yu-Wei Chao、Maya Cakmak和DieterFox。通过从人类查询中引导来学习感知概念。CoRR，abs/2111.05251，2021。2[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2017。二、五、六[7] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。2017年6月。2[8] Xianjie Chen，Roozbeh Mottaghi，Xiaobao Liu，SanjaFi-dler，Raquel Urtasun，and Alan Yuille.检测您可以：使用整体模型和身体部位检测和表示对象。在IEEE计算机视觉和模式识别会议论文集，第1971-1978页二、三、五、八[9] Daan de Geus ， Panagiotis Meletis ， Chenyang Lu ，Xiaoxiao Wen ，and Gijs Dubbelman.部分感知全景分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第5485- 5494页，2021年。3[10] Jian Dong ， Qiang Chen ， Xiaohui Shen ， JianchaoYang，and Shuicheng Yan.走向统一的人类解析和姿态估计。2014年IEEE计算机视觉和模式识别会议，第843-850页，2014年。2[11] Nanqing Dong，Michael Kampffmeyer，Xiaodan Liang，Zeya Wang，Wei Dai，and Eric Xing. 强化自动缩放网：在整个切片图像中实现准确快速的乳腺癌分割。医学图像分析的深度学习和临床决策支持的多模式学习，第317-325页。Springer，2018. 3[12] 阿纳斯塔西娅·杜布罗茨，夏飞，帕诺斯·阿赫利奥普塔斯，米拉·沙拉，拉斐尔·格罗斯科特，列奥尼达斯·吉巴斯. 基于潜在空间分解的复合形状建模进行中-IEEE/CVF International Conference on Computer Vision，第8140-8149页，2019年。2[13] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303-338，2010。5[14] 方浩树、卢冠松、方小林、谢建文、戴玉荣、卢策武。通过姿势引导知识转移的弱和半监督人体部位解析。arXiv预印本arXiv：1805.04310，2018。2[15] Ke Gong，Xiaodan Liang，Yicheng Li，Yimin Chen，Ming Yang，and Liang Lin.通过部件分组网络的实例级人工解析。在欧洲计算机视觉会议论文集（ECCV）中，第770-785页，2018年。2[16] Hussein Haggag，Ahmed Hubakr，Mohammed Hossny，and Saeid Nahavandi.四足动物的语义身体部位分割。在2016年IEEE系统、人和控制论国际会议（SMC）上，第000855-000860页。IEEE，2016. 2[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。5[18] D.D. 霍夫曼和W. A.理查兹承认的一部分认知，18（1）：65-96，1984年。3[19] 洪一宁，李逸，乔舒亚·B·特南鲍姆，安东尼奥·托拉尔巴，庄乾。Ptr：基于部件的概念、关系和物理推理的基准。在神经信息处理系统的进展，2021年。二、三[20] Alexander Kirillov 、 Kaiming He 、 Ross Girshick 、Carsten Rothe r和PiotrDol la'r。全视节段在IEEE/CVF计算机视觉和模式识别会议的论文集中，第9404-9413页，2019

下载后可阅读完整内容，剩余1页未读，立即下载