CMT-DeepLab：基于transformer的聚类掩码变换器用于全景图像分割

171 浏览量更新于2023-10-25 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2560CMT-DeepLab：用于全景图像分割的聚类掩模变换器于奇航1王慧宇1金大勋2乔思远3麦克斯韦柯林斯3朱宇坤3哈特维希亚当3阿兰尤耶1陈良杰31约翰霍普金斯大学2KAIST3谷歌研究摘要我们提出了聚类掩码 Transformer （ CMT-DeepLab），这是一个基于transformer的框架，用于围绕聚类设计的重新考虑了用于分割和检测的前向Transformer结构; CMT-DeepLab将对象查询视为聚类中心，当应用于分割时，聚类中心填充了对像素进行分组的角色。聚类计算与交替的过程，首先分配像素的集群，其特征的亲和力，然后更新的集群中心和像素特征。这些操作共同组成了聚类掩码Transformer（CMT）层，该层产生的交叉注意力更密集，与最终分割任务更一致。CMT-DeepLab将现有技术的性能显著提高了 4.4%PQ ，在 COCO 测试开发集上实现了55.7%PQ的最新技术水平。1. 介绍全景分割[47]是最近提出的chal-challening分割任务，旨在统一语义分割[34]和实例分割[31]。由于由于其复杂的性质，大多数全景分割框架[18，47，89]将问题分解为几个可管理的代理任务，例如框检测[73]、基于框的分割[32]和语义分割[65]。最近，范式已经从基于代理的方法转向端到端系统，因为开创性工作DETR [10]引入了第一个具有变压器的端到端对象检测方法[80]。在他们的框架中，由卷积网络[50]提取的图像特征由Transformer编码器增强之后，一组固定大小的位置嵌入，命名为对象查询，通过几个Transformer解码器与提取的图像特征交互，包括交叉注意和自注意模块[3]。由解码器转换成输出嵌入的对象查询是在Google实习期间完成的工作人树Max-DeepLabCMT-DeepLab图 1. 我们的 CMT-DeepLab 生成的交叉注意力图比 Max-DeepLab更密集[82]。可视化是基于最后一个Transformer层的平均多头关注。然后直接用于边界框预测。沿着相同的方向，已经提出了端到端全景分割框架[82]来简化全景分割程序，避免手动设计模块。其核心思想是利用一组对象查询条件的输入来预测一组对，每个包含一个类预测和掩码嵌入向量。掩模嵌入向量乘以图像特征，产生二进制掩模预测。值得注意的是，与预测基于对象查询本身的框检测任务不同，分割掩码预测需要对象查询和像素特征两者彼此交互以获得结果，这在更新对象查询时必然会引起不同的需求。为了更深入地理解对象查询所起的作用，我们特别研究了掩码Transformer解码器中的交叉注意模块，在该模块中对象查询与图像特征交互。我们的调查发现，对象查询的更新和使用在Transformer中以不同的方式执行2561全景光罩像素簇分配×��更新步骤分配步骤分配步骤基于分割任务的方法[82]。具体地，当更新对象查询时，softmax操作被应用于图像维度，允许每个查询识别其最相似的像素。另一方面，当计算分割输出时，在对象查询之间执行softmax该公式可能会导致两个问题：稀疏查询更新和不频繁的像素-图像像素特征聚类中心查询通信。首先，由于softmax被应用于大图像分辨率，对象查询仅被稀疏地更新，因此其倾向于仅集中在少数位置（图1中的顶行1）。其次，像素只有一次机会与最终输出中的对象查询通信。第一个问题是特别不希望的，因为分割任务需要密集的预测，并且理想地，查询应该密集地激活属于同一目标的所有像素这与框检测任务不同，其中对象末端是足够的（参见图1B）。6 DETR文件[10]）。为了缓解这些问题，我们从trans-marticalclustering算法[1，64]中获得灵感在当前的端到端全景分割系统[82]中，通过基于特征亲和度将每个像素分配给对象查询来获得最终分割输出，类似于[1，64]中的像素聚类分配步骤。这一发现促使我们从聚类的角度重新思考基于transformer的方法，将对象查询视为聚类中心。因此，我们建议另外执行聚类更新步骤，其中，当更新聚类中心时（即，对象查询）。因此，我们的模型生成了更密集的注意力地图（图中的底行）。1）。我们还利用像素聚类分配更新每个Transformer解码器内的像素特征，从而实现像素特征和聚类中心之间的频繁通信。此外，我们注意到，在交叉注意力模块中，像素特征被视为为了重新解决这个问题，我们建议采用一个动态的位置编码条件的输入位置敏感聚类。我们明确地预测一个参考掩模组成的几个点，每个集群中心。然后通过在每个Transformer解码器的开始处经由坐标卷积[59]将位置信息添加到像素特征和聚类中心来实现位置敏感结合所有提出的组件，我们的CMT-DeepLab从传统的聚类角度重新制定并进一步改进了以前的端到端全景分割系统[82]。帕诺普-通过基于特征亲和度将每个像素分配到其最相似的聚类中心，自然地获得了tic分割结果（图1）。2）。在聚类掩码转换器（CMT）模块中，像素特征、聚类中心、图2.从聚类角度的全景分割。在建议的聚类掩码变换器（CMT）层，像素被分配到聚类中心的基础上的功能的亲和力，和聚类结果被用来更新像素功能和聚类中心。在几个CMT层之后，获得精细的像素簇分配，从而得到最终的全景掩模。并且以类似于聚类算法[1，64]的方式更新像素簇分配。因此，在没有花里胡哨的情况下，我们提出的CMT-DeepLab 超过其基线 Max-DeepLab [82] 4.4% 的PQ，并在COCO panoptic测试开发集上达到55.7%的PQ[58]。2. 相关作品变压器.Transformer [80]变体[2，7，22，30，48，66，84，92]在许多方面都自然语言处理任务[25，26，75]通过捕获跨模态的关系[3]或在单个上下文中（自我注意）[21，80]。在计算机视觉中，变压器要么与CNN结合[9，85]，要么用作独立模型[27，38，62，72，83]。这两类方法都促进了各种视觉任务，例如图像分类[6，17，27，38，55，62，72，83]，物体检测[10，37，72，76，85，96]，语义分割[15，28，40，93，95，97]，video recognition [17, 45, 85], image generation [36, 69],and panoptic segmentation [83].基于代理的全景分割。大多数全景分割方法依赖于代理任务，例如对象边界框检测。例如，Panoptic FPN[47]遵循基于框的方法，该方法检测对象边界框并预测每个框的掩码，通常使用Mask R-CNN [32]和FPN[57]。然后，通过合并模块[ 52 - 54，63，70，89，91 ]融合实例片段其他基于代理的方法通常从语义片段[11，13，16]开始，并将“事物”像素分组[8，29，43，61，77]。DetectoRS [71]通过递归特征金字塔和可切换的atrous卷积实现了最近，DETR [10]通过其基于transformer的端到端检测器扩展了基于代理的方法。CMT骨干. . .2562∈i=1∈×××K××KK≤H W∈∈∈端到端全景分割。沿着相同的方向，Max-DeepLab [82]提出了一种端到端策略，其中类别标记的对象掩码被直接预测，并通过匈牙利语将预测的掩码与地面真实掩码进行匹配来训练在这项工作中，我们通过从聚类的角度接近像素分配任务来改进MaX-DeepLab。与我们的工作同时，MaskFormer [20]从掩模分类的角度制定了端到端策略，与MaX-DeepLab [82]相同，但从全景分割扩展到语义分割。3. 方法在这里，我们首先介绍最近的基于变换器的方法[82]用于端到端全景分割。我们的观察揭示了交叉注意和最终分割输出之间的差异，他们利用对象查询的方式。然后我们建议用��更新像素特征��×�� ×��像素特征��×�� ×��…更新聚类中心��×��聚类中心��×��像元簇亲和度��×�� ×��聚类方法，导致我们提出的聚类掩码 Transformer（CMT-DeepLab），如图所示图3和图4。在下面的部分中，对象查询和聚类中心引用相同的可学习嵌入向量，为了更清晰的表示，我们互换使用它们。3.1. 用于全景分割的变换器问题陈述。全景分割的目的是将输入图像IRH×W×3分割成一组不重叠的掩模以及对应掩模的语义标签：{y i}i=1={（m i，c i）}i=1。（一）K个地面真值掩码mi ∈ {0，1}H×W彼此不重叠，即，m i1×，c i表示掩码m i的基础真值类标签。受DETR [10]的启发，最近提出了几种基于变换器的端到端全景分割方法[82]，这些方法直接预测N个掩码及其语义类。N是一个固定数，N≥K。图3.聚类掩码Transformer层的可视化图示，其中三个变量基于聚类结果以动态方式更新：像素特征、簇中心和像素簇亲和性。分配和更新步骤的细节示于图1中。4.第一章其中CRN ×D表示具有D通道的对象查询，并且CRN表示更新的对象查询。我们使用下标表示softmax的轴，上标p和c分别表示从图像特征和对象查询投影的特征。 QcRN×D、KpRHW ×D、VpRHW×D代表查询、键和值的线性投影特征。为了简单起见，我们忽略了方程中的多头注意力和前馈网络（FFN）。由多个Transformer解码器更新的对象查询被用作动态卷积权重（内核大小为1×1）[41，78，86]以获得预测Z∈RHW×N，由N个二进制掩码组成也就是说，Z= softmax（F CT），（4）N其中F∈RHW×D是指提取的图像特征。{yi}i=1={（mi，pi（c））}i=1，（2）其中，p_i（c）表示对应掩码的预测语义类的置信度，包括“事物”类、“东西”类和空类。To predict these N masks, N object queries are utilizedto aggregate information from the image features througha transformer decoder, which consists of self-attention andcross-attention modules.对象查询和图像特征在交叉注意模块中彼此交互C=C+softmax（Qc（Kp）T）Vp，（3）HW3.2. 当前的问题和新的集群视角即使有效，基于transformer的架构最初是为对象检测而设计的[10]，因此它们不自然地处理分割掩模。具体地说，它们使用不同的公式用于对象查询更新和分割特定的输出头。准确地说，对象查询的更新（等式2）（3））和最终输出（等式（4））是基于它们相应的特征亲和性（即，QC（Kp）T和FCT）。但是，以下softmax操作将沿不同的维度应用。要更新对象查询，softmax像素簇分配��×�� ×�� 我像素群分配步骤像素簇更新步骤��መመ2563��×��×��መ��×��×��×��×��softmax��×��×�� ×��×��×��× ××N×××∈∈应用于图像空间维度（HW），目标是为每个查询识别最相似的像素。另一方面，为了获得最终输出，在对象查询（N）中执行softmax，使得每个像素找到其最相似的对象查询。不一致性可能导致两个问题。首先，由于softmax沿着大的空间维度操作，对象查询仅被稀疏地更新，倾向于仅关注少数位置（图2）。1）。其次，输出更新最终只执行一次，因此像素只有一次机会接收从对象查询传递的信息。为了缓解这些问题，我们仔细看看Eq。（4），其基于特征亲和度将每个像素分配给对象查询。事实上，这与典型的聚类方法[1，64]（特别是像素聚类分配步骤）非常相似。这一观察促使我们重新思考像素簇分配聚类更新像素更新从典型的聚类角度[1，94]，通过将对象查询C视为聚类中心，使用基于变换器的方法考虑到聚类的角度来看，我们重新解释方程。（4）作为像素簇分配。这种解释自然地激励我们执行聚类更新步骤，在该步骤中，通过基于聚类分配来汇集像素特征来更新聚类中心，即，ZTF=（softmaxN（F CT））TF。我们建议将该公式扩展到Transformer解码器模块，其查询、键和值通过线性投影图像特征和聚类中心获得：C=C+（softma x（Kp×（Qc）T））T×Vp。（5）比较Eq. （3）和方程（5），我们有一个查询Qc图4.像素聚类分配（左）、聚类中心更新（中）和像素特征更新（右）的详细可视图示。指定张量形状是为了进行说明。解码器（图的左侧面板）4）.我们强调，由于我们的聚类结果与分割输出具有相同的格式，因此我们能够在它们之间添加残差连接，这由地面实况进一步监督。稀疏查询更新解决方案。我们提出了一个简单有效的解决方案，以避免稀疏查询更新结合建议的聚类中心更新（即，当量（5））与原始的交叉注意（即，当量（3）），结果是C=C+softmax（Qc×（Kp）T）×Vp+ZT×Vp和keyKp来自另一个线性投影，softmax沿着聚类中心维度执行。在下面的小节中，我们详细介绍了集群-HW=C+（softmax（Qc（Kp）T）+ZT）Vp，HW（七）透视图阐明了当前基于Transformer的方法的问题。在讨论中，我们交替使用对象查询和聚类中心3.3. 聚类掩码变换器在本小节中，我们从聚类的角度重新设计了Transformer解码器中的交叉注意，旨在解决第二节中提出的问题。3.2.群集间的剩余路径与其他设计类似[10]，我们多次堆叠Transformer解码器。为了便于学习像素聚类分配，我们在聚类结果（包括最终分割结果）之间添加了残差连接[33]也就是说，Z=softmax（S+Kp（Qc）T），（6）N其中SRHW×N是线性投影像素特征与先前其中Z由Eq.（六）、更新显示为在图的中心面板中。4，而密度化注意的影响可以在图中找到。1.一、解决像素更新不频繁我们还建议利用聚类结果Z来使用聚类中心的特征对像素特征执行更新，即，F=F+Z×Vc，（8）其中VcRN×D是从聚类中心线性投影的值。该更新在每个堆叠的Transformer解码器内执行，从而实现像素特征和聚类中心之间的频繁通信（图1的右图）。4）.为此，我们通过同时更新聚类结果（即，像素簇分配）、像素特征和簇中心。然而，我们注意到，在像素特征和聚类中心之间的相互作用过程中，像素特征-��×��softmax��×��×��×��×�� +×……×+×+×+2564K∈∈×∈ext4K我我我我岑2K我我我我c，wwc，ww1Σc，hhc，wwTures被视为词袋[49]，而位置信息没有得到很好的利用。虽然可学习的位置编码（即，对象查询[10]）用于聚类中心嵌入，位置编码对于所有输入图像都是固定的，当对象查询预测不同输入图像中不同位置处的掩码时，这是次优的年龄为了解决这个问题，我们建议采取一种动态的01-02|min（rc，h）−min（yh）|+的|max（rc，h）−max（yh）|i=1+的|min（ri）− min（yi）|+的|max（ri）− max（yi）|）的情况下，KL=（|avg（r）−avg（y）|+的|avg（r）−avg（y）|）的情况下，i=1以位置敏感聚类的输入为条件的位置编码。位置敏感聚类。为了将动态位置信息注入到聚类中心，我们明确地预测了一个由每个聚类中心的M个点组成的引用掩码。特别地，MLP用于预测聚类中心特征之外的参考掩模，随后是S形激活函数。也就是说，我们有：e=e+MLP（C），（9）rc=sigmoid（e），（10）其中eRN×2M 表示从聚类中心投影的嵌入，并且rc=[rc，h，rc，w]RN×2M是用M对坐标（r c，h，r c，w）表示的参考掩码。我们利用残差更新方式[33，96]来Ll〇c=Lext+Lcen，（13）其中y=[yh，yw]是地面实况掩模上的像素，并且预测的参考掩模已经基于匈牙利匹配结果被过滤和最后，结合所有提出的设计，我们的聚类掩码Transformer，或CMT-DeepLab，从聚类的角度重新思考当前的掩码Transformer设计。3.4. 网络实例化我们在MaX-DeepLab- S [82]（缩写为MaX-S）之上实例化CMT-DeepLab我们首先完善其架构设计。然后，我们用提出的聚类掩码变换器来增强它。基础架构。我们使用MaX-S [82]作为我们的基础AR-建筑。为了更好地与其他最先进的设备保持一致预测参考掩模，其中跨阶段的投影嵌入e上具有跳跃连接。位置空间被归一化为[0，1] [0，1]。我们将位置信息添加到像素特征中，通过坐标卷积中心 [59]。具体来说，我们在每个Transformer层的开始处应用坐标卷积，以确保在聚类过程中考虑位置信息，如下所示。C=Conv（Concat（C，rc）），（11）F=Conv（Concat（F，rp）），（12）其中rpRHW×2是图像空间中像素归一化为[0，1]我们注意到，与可变形DETR [96]中使用的参考点相比，所提出的参考掩模为整个对象掩模提供了粗略的掩模形状。此外，我们采用了一种更简单的方法，通过坐标卷积的位置信息。为了学习有意义的参考掩模预测，我们通过提出掩模近似损失来优化参考掩模掩模近似损失。我们提出了一种损失，以最小化预测参考点的分布和地面实况对象掩模的点的分布之间的距离。详细地说，我们利用匈牙利的匹配结果来分配每个聚类中心的地面真实掩模。给定每个聚类中心的预测M点，我们推断它们的极值点[68]和掩码中心。然后，我们应用L1损失来推动他们更接近他们的地面实况极值点和中心。具体来说，我们有2565架构设计[62]，我们使用GeLU [35]激活来取代原始的ReLU激活函数。此外，我们删除了预训练的主干中的所有Transformer块，这将主干从MaX-S恢复到Axial-ResNet-50 [83]。在主干的顶部，我们应用了六个双路径轴向变换器块[82]（三个在阶段-5 w/通道2048，另外三个在阶段-4 w/通道1024），总共产生六个轴向自注意和六个交叉注意模块，这与其他作品中使用的注意操作的数量一致[10，20]。此外，我们通过扩大骨干网第4阶段的块数量来获得更大的网络骨干网[14]。因此，使用两种不同的模型变体：一个建立在Axial-ResNet-50骨干上，区块数为[3，4，6，3]（从阶段2开始），另一个建立在Axial-ResNet-104上，区块数为[3，4，24，3]。有关详细说明，请参见补充材料。损失函数。在[82]之后，我们使用PQ风格的损失和其他三个辅助损失进行模型训练，包括实例区分损失，掩码ID交叉熵和语义分割损失。然而，我们注意到[82]中提出的实例区分损失旨在将像素特征推到接近基于地面真实掩模计算的特征中心，而不是直接推到聚类中心。因此，我们采用了像素级的实例区分损失，它学习来自同一类的所有像素的紧密对齐的表示，从而获得更好的聚类结果。形式上，我们从图像中采样一组像素A，其中我们基于2566·ap||×| |Σ×它们所属的对象掩码的大小。因此，最终采样的像素与具有不同尺度的对象更加平衡之后，我们直接在这些像素上使用多个阳性目标执行对比度损失[44]：瓦尔·塞特我们比较我们的验证集的结果与框为基础的，中心为基础的，端到端的全景分割方法。值得注意的是，CMT-DeepLab，建立在一个较小的骨干轴-ResNet-50，已经超过了所有其他基于框和基于中心的方法，由一个大的马尔。Linsdis=−1exp（f f/τ）原木，金酒更重要的是，与其端到端相比，a∈A |P（a）|p∈P（a）b∈Aexp（fa·fb/τ）（十四）结束基线Max-DeepLab-S [82]，我们观察到PQ显著改善4.6%。我们的小模型甚至超越了之前最先进的方法Max-DeepLab-其中P（a）是属于同一簇的A的像素的子集（即，对象掩码）与a，P（a）是它的基数。我们使用f来表示像素特征向量，τ是温度。递归特征网络。受Detec- toRS [71]和CBNet [60]的启发，我们采用了一种名为递归特征网络（RFN）的简单策略，通过堆叠整个模型（包括骨干和添加的Transformer块）的两倍来增加网络容量。有两个主要区别。首先，由于我们没有使用FPN [57]（如[71]），我们只是在步幅4处连接特征（即，与分割输出相同的步幅）。其次，我们没有使用[71]中提出的复杂融合模块，而是简单地对两个堆叠网络之间的特征进行平均，我们根据经验发现，这比PQ好约0.2%。4. 实验结果我们报告了COCO的主要结果以及最先进的方法，然后是对架构变体，聚类掩码变换器，预训练权重，后处理和缩放策略的消融研究最后，我们用可视化的方式分析了CMT-DeepLab背后的工作机制实施详情。我们使用官方代码库[87]在MaX-DeepLab[82]之上构建CMT-DeepLab。训练策略主要遵循MaX-DeepLab。如果未指定，则模型使用64个TPU核心进行10万次迭代训练，前5k用于预热。我们使用批量大小= 64，Adam [46]优化器，多边形调度学习率为10−3。ImageNet预训练的[74]主干的学习率乘数为0.1。权重衰减设置为0，drop-path rate [39]设置为0.2。输入的图像被调整大小并填充为1281第1281章训练与思考我们使用对于逐像素对比度损失，A=4096，对于逐像素对比度损失，M=8。参考掩码，我们也尝试了其他值，但没有得到。服务显著差异。遮罩近似损失的损失权重为1.0其他损失采用与[82]相同的设置。在推理过程中，我们采用了掩模合并方案[20]来获得最终结果。4.1. 主要结果我们对COCO全景分割的主要结果valset和test-dev set在Tab. 1.一、L [82]，其具有超过5个参数，通过1.9% PQ。与最近提出的MaskFormer [20]相比，CMT-DeepLab仍然显示出1.2% PQ和1.4% PQ的显著优势，同时分别比小型和大型模型变体更轻。显著的改进说明了将聚类的概念引入到Transformer中的重要性我们的CMT- DeepLab具有更深的主干Axial-ResNet-104，将单尺度性能提高到54.1% PQ，超过多尺度Axial-DeepLab [83] 10.2% PQ。此外，我们用建议的RFN增强了模型，进一步将PQ提高到55.3%。测试开发集。我们在测试开发集上验证了 CMT-DeepLab的可移植性，与其他方法相比，它显示出更好的结果。特别是，带有Axial-R50主干的小型版本CMT-DeepLab的性能优于DETR [10] 7.4% PQ，Max-DeepLab-S [82] 4.4% PQ ， Max-DeepLab-L [82] 2.1%PQ。此外，采用更深的主干Axial-R104可以将PQ评分提高1.1% PQ。最重要的是，使用所提出的RFN将PQ进一步提高到55.7%，超过了具有Swin-L [62]骨干的MaskFormer [20] 2.4%PQ。4.2. 消融研究在这里，我们评估了所提出的CMT-DeepLab的不同组件的有效性对于所有以下实验，我们使用具有GeLU[35] 激活函数的 MaX-DeepLab-S [82] 与原始 MaX-DeepLab-S相比，该改进基线的PQ高出0.3%。如果未指定，我们执行所有消融研究使用Axial-R50骨干[33，83]，ImageNet-1 K [74]预训练，裁剪大小641×641和100k训练迭代。聚类掩码Transformer。我们首先添加分步骤设计聚类掩码Transformer的变体，如表1所示。2a.将对象查询视为聚类中心，并且添加聚类风格更新可以将PQ提高0.9%，说明聚类中心视角的有效性以及将更多像素包括到聚类中心更新中的重要性。接下来，我们利用像素级对比度损失代替原始实例级对比度损失，导致另外0.4%的PQ改进，因为它从聚类的角度提供了更好的监督信号总之，重新设计跨-2567‡方法骨干TTAparams瓦尔塞特test-devPQPQThPQStPQPQThPQSt基于框的全景分割方法[47]第四十七话R10140.347.529.5- --UPSNet [89]R5042.548.533.4- --UPSNet [89]R50C43.249.134.1- --UPSNet [89]DETR [10]DCN-101 [24]R101C61.8M-45.1-50.5-37.046.6 53.246.0-36.7-DetectoRS [71]RX-101 [88]C---49.6 57.837.1基于中心的全景分割方法Panoptic-DeepLab [19]X-71战斗机[23]46.7M39.743.933.2---[19]第十九话[83]第八十三话X-71战斗机[23]AX-L [83]C46.7M44.9M41.243.444.948.535.735.641.443.645.148.935.935.6[83]第八十三话AX-L [83]C44.9M43.948.636.844.249.236.8端到端全景分割方法[82]第八十二话[第82话]61.9M48.453.041.549.054.041.6[82]第八十二话[第82话]451M51.157.042.251.357.242.4面具成型器[20][62]第二十二话102M51.856.944.1---面具成型器[20][62]第六十二话212M52.758.544.053.359.144.5CMT-DeepLab[83]第八十三话94.9M53.057.745.953.458.346.0CMT-DeepLabAxial-R104系列135.2M54.158.847.154.559.646.9CMT-DeepLabAxial-R104-RFN270.3M55.160.646.855.461.047.0CMT-DeepLab（iter200k）Axial-R104-RFN270.3M55.361.046.655.761.646.8表1. COCO val和测试开发集的结果比较。TTA：测试时间增强。ImageNet-22 K预训练。我们在补充资料中提供了更多与并行工程的比较。PQPQThPQSt基线46.250.040.5+ 集束式Transformer47.151.041.1+ 逐像素对比度损失47.551.142.1PQPQThPQSt基线46.250.040.5+ 参考掩模预测46.650.340.9+坐标转换46.950.641.3(a) CMT-DeepLab：集群更新。聚类更新位置解码器paramsPQPQThPQSt61.9M46.250.040.5C61.9M47.551.142.1C65.5M46.950.641.3C91.0M47.151.340.9CC91.0M48.151.942.2CCC94.9M48.452.142.8(c)CMT-DeepLab：架构。(b) CMT-DeepLab：位置敏感聚类ImageNet-22KRFN掩模合并PQPQThPQSt48.452.142.8C49.353.343.4CC50.154.843.0CCC50.654.844.3(d)CMT-DeepLab：预训练、后处理、缩放。表2.CMT-DeepLab消融实验。基线标记为灰色。结果以累积方式报告Res.骨干itersPQPQThPQSt641轴向-R50100k50.153.544.9641轴向-R50200k50.654.544.81281轴向-R50100k53.057.745.91281轴向-R50200k53.558.545.9641轴向-R104100k51.755.446.4641轴向-R104200k52.256.446.01281轴向-R104100k54.158.847.11281轴向-R104-RFN100k55.160.646.8表3.消融输入分辨率/主干/训练迭代。ImageNet-22 K，mask-wise merge用于所有结果。前一层从聚类的角度来看，导致1.3%的PQ整体改善。在群集过程中起着重要的作用，如选项卡中所示。2b.每个聚类中心需要在不使用像素特征的情况下预测参考掩码（即，外观信息），这要求聚类中心在特征嵌入中包括更多的位置信息，从而有利于聚类。单独添加参考掩模预测带来0.4%PQ的增益使用坐标卷积（coord-conv）[59]来包含参考掩码信息，可以产生另外0.3%的PQ改进。总之，位置敏感聚类使PQ得分提高了0.7%.更强的解码器。我们研究了使用更强的解码器设计的效果 [10 ， 20] 。我们从预训练的主干中删除所有Transformer 层，这将 MaX- S 主干 [82] 恢复为 Axial-ResNet-50 [83]。然后我们堆叠位置敏感聚类。位置信息更多轴向块与Transformer模块在解码器2568阶段1阶段2阶段3阶段4阶段5阶段6参考掩模图5.不同阶段聚类结果的可视化（即，Transformer层），最后一列为参考遮罩。聚类结果提供了更密集的注意力地图，在开始时接近随机，并逐渐细化到关注相应的对象。部分更具体地说，我们为解码器总共使用了六个自注意模块和六个交叉注意模块，这与DETR的设计一致[10]。如Tab.所示。 2c，这个更强的解码器带来0.9%的PQ改善（47.1% vs. 46.2%）。如Tab.所示。2c，这些改进是相互补充的，而将它们组合在一起可以进一步提高性能。添加所有这些导致CMT-DeepLab，其在MaX-DeepLab-S-GeLU基线上提高了2.2% PQ。我们注意到，主要的成本来自于更强的解码器，这占了29.1M的参数增加，而聚类更新和位置敏感聚类提高PQ分别为1.3%和0.7%，与可忽略的额外参数。预训练、后处理和缩放。我们进一步验证了更好的预训练，后处理和放大的效果，结果总结在表1中。2D和 Tab 。 3 . 第三章。具体来说，我们发现使用ImageNet-22 K进行预训练可以将性能提高0.9% PQ。此外，我们根据经验发现，与简单的每像素策略[82]相比，使用逐掩模合并策略[20]获得全景结果可将PQ提高0.5%。接下来，我们从不同的维度扩展CMT-DeepLab。对于更长的训练策略（从100k到200k迭代），我们观察到在各种设置上一致的0.5% PQ改善，其中改善主要来自PQTh（即，事物类），这表明模型需要更长的训练时间表来更好地分割事物对象。我们还发现，使用更大的输入分辨率（从641到1281）显着提高性能超过2% PQ。此外，通过使用更深的背部来增加模型尺寸-骨或RFN叠加模型分别提高了1.6%和1.0%。可视化。在图5中，我们可视化了每个阶段的聚类结果以及学习的参考掩码。如图所示，聚类结果从接近随机的分配开始，逐渐学会关注目标实例。例如，在图的最后两行中。5、聚类结果首先集中在所有的“person”实例和背景“snow”上，然后开始集中在特定的人实例上，体现了从“语义分割”到“实例分割”的细化。此外，如图1的最后一列所示。5、学习的参考掩模为对象掩模提供合理的先验。5. 结论在这项工作中，我们引入了CMT-DeepLab，它从聚类的角度重新考虑了当前用于全景分割的掩码变换器中使用的对象查询考虑到对象查询作为聚类中心，我们的框架还将所提出的聚类中心更新纳入了交叉注意模块，这显著地丰富了学习的交叉注意图，并进一步促进了分割预测。因此，CMT-DeepLab在COCO数据集上实现了新的最先进的性能，并揭示了用于分割任务的掩模变换器背后的工作机制。致谢。我们感谢Jun Xie对草案的宝贵反馈。这项工作得到了ONR N 00014 -21-1-2812的部分支持。2569引用[1] Radhakrishna Achanta ， Appu Shaji ， Kevin Smith ，Aurelien Lucchi，PascalFua和SabineSüsstrunk。切片超像素与最先进的超像素方法的比较。IEEE TPAMI，2012年。二、四[2] Joshua Ainslie、Santiago Ontanon、Chris Alberti、PhilipPham、Anirudh Ravula和Sumit Sanghai。Etc：在转换器中对长的结构化数据进行编码。在EMNLP，2020。2[3] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2015年，国际会议。一、二[4] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在CVPR，2017年。2[5] 达纳·H·巴拉德。推广霍夫变换检测任意形状。模式识别，1981年。2[6] Irwan Bello ，Barret Zoph，Ashish Vaswani，JonathonShlens ， and Quoc V Le. 注意力增强卷积网络。在ICCV，2019年。2[7] Iz Beltagy，Matthew E Peters，and Arman Cohan.长型：长文档Transformer。arXiv预印本arXiv：2004.05150，2020。2[8] UjwalBonde ， Pablo FAlcantarilla ， andStefanLeutenegger. 走向无边界盒的全景分割。 arXiv ：2002.07705，2020。2[9] Antoni Buades，Bartomeu Coll，and J-M Morel.一种非局部图像去噪算法。在CVPR，2005年。2[10] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。一二三四五六七八[11] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割2015年，国际会议。2[12] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE TPAMI，2017年。2[13] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。arXiv：1706.05587，2017。2[14] Liang-Chieh Chen，Huiyu Wang，and Siyuan Qiao.缩放用于全景分割的宽残差网络。arXiv：2011.11675，2020。5[15] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：

下载后可阅读完整内容，剩余1页未读，立即下载