扩展超过1K类的语义分割

27 浏览量更新于2023-10-14 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7426×个×× ×在单个GPU上扩展超过1K类的语义分割Shipra Jain1，2，Danda Pani Paudel1，Martin Danelljan1，Luc VanGool1，3瑞士苏黎世联邦理工学院计算机视觉实验室1瑞典斯德哥尔摩皇家理工学院2比利时鲁汶大学3shipra@kth.se{paudel，martin.danelljan，vangool} @ vision.ee.ethz.ch摘要国家的最先进的目标检测和图像分类方法可以执行令人印象深刻的超过9000类。相比之下，语义分割数据集中的类的数量相对有限。当考虑到由于缺乏标记数据和分割的高计算需求而引起的限制时，这并不令人惊讶。在本文中，我们提出了一种新的训练methodology训练和规模现有的语义分割模型，大量的语义类，而不增加内存开销。在我们的基于嵌入的可扩展分割方法中，我们将分割模型的输出的空间所提出的方法是通用的，可以通过任何国家的最先进的分割模型，优雅地扩展它的任何数量的语义类，只有一个GPU。当采用具有不同主干的DeeplabV 3+模型时，我们的方法为Cityscapes，Pascal VOC，ADE 20 k，COCO-Stuff 10 k数据集实现了类似的，在某些情况下甚至更好的mIoU我们展示了我们的方法在具有1284个类的数据集上的明显优势，从LVIS和COCO注释引导，mIoU比DeeplabV3+好近三倍我们的源代码可在https://github.com/shipra25jain/ESSNet上获得。1 . 介绍随着深度学习的出现，各种图像理解任务取得了重大进展，包括图像分类、对象检测和图像分割。最先进的方法可以令人印象深刻地将图像分类为10k类[15]并检测9k个不同的对象[49]。相比之下，分割模型已经针对相当有限数量的常见类别进行了训练。分割更多种类的对象（包括小的和稀有的对象类）的能力对于许多现实生活中的应用图1.左边的y轴显示了DeepLabV3+模型的单个GPU可以容纳的最大批量大小与数据集中的类数量。带有黄色和绿色标记的右侧y轴显示了我们模型的像素精度和以下数据集的基线（类数）：Cityscapes（19）、ADE20k（150）、COCO-Stuff10k（182）和COCO+LVIS（1284）。如自动驾驶[2]和场景探索[7]。现有分割模型的缩放具有若干未解决的挑战。挑战之一是阶级分布不平衡。如[21]中所述，由于自然环境中类的Zipfian分布，存在一个罕见的小对象类的长尾，这些对象类没有足够数量的样本来训练模型。缺乏具有大量类别的分割数据集也限制了我们开发可扩展的分割模型。事实上，我们也可以从另一个角度来论证。现有分割数据集中有限类的原因是讨论计算需求以及劳动密集型注释。语义分割的任务本质上是图像的像素级分类。通常，通过预测Hff的输出张量来执行C表示图像大小H W和C表示语义类的数量[36]。这在通过对C维预测采用交叉熵损失的逐像素分类期间是期望的。不幸的是，这种预测的记忆需求7427×个恰好是大量类的主要瓶颈。图1还示出了示例情况：在一个标准GPU（Titan XP）中，在用ResNet50主干训练DeepLabV3+模型时，最大可调批量大小为512 512与类的数量。正如预期的，批量大小急剧下降，导致每批只有一个图像的1320类。大多数现有的作品[53，63，20，8]主要集中在使用多个GPU的具有几百个语义类的数据集的准确性。随着LVIS数据集[21]的发布，正在努力扩展具有大量类的实例分割模型。然而，为了丰富和完整地理解场景，语义分割之后是全景分割[29] 才是前进的方向因此，现实世界中的语义分割网络最终将不得不暴露于至少与分类一样高的类，即一万不幸的是，具有150个类的ADE 20 k数据集上的基准测试结果在训练期间需要4-8个GPU [65]。这种对计算资源的需求阻碍了新兴经济体和小规模行业的研究人员利用这些模型进行研究和开发进一步的应用。可以通过降低图像分辨率或批量大小来设计用于在大量类别和有限GPU存储器上训练分割模型的朴素方法。这种解决方案令人遗憾地损害了性能。如[55]所示，较低的分辨率（或较高的步幅）导致模糊的边界和粗略的预测，并错过小但重要的区域，如电线杆和交通标志。另一方面，[66]已经证明需要更大的批量来实现最先进的结果。虽然梯度累积[24]和组归一化[58]等技术有助于减少低批量大小的影响，但当单个批量大小不适合GPU内存时，它们无法完全解决问题。当有多个GPU可用时，[63]中的作者提供了一种有前途的同步多GPU批量归一化技术，以增加有效的批量大小。这样的解决方案允许以缩放GPU为代价来缩放类。然而，重要的是寻求使用单个GPU在大量类别上扩展训练的可能性，这仍然是未探索的。在这项工作中，我们提出了一种新的训练方法，其中的内存要求不增加的语义类的数量。据我们所知，这是第一次研究超过1K类的语义分割模型的有效训练方法通过减少现有网络的输出通道和学习语义类的低维嵌入来实现这种缩放。我们还提出了一个有效的策略来学习和利用这种嵌入的语义图像分割的任务。我们的主要动机是改善通过赋予现有分割网络在训练非常大量的语义类期间仅使用一个GPU的可能性，来提高现有分割网络的可扩展性，而不是本文的主要贡献如下：• 我们提出了一种新的可扩展的方法，用于训练语义分割网络的大量类，只使用一个GPU• 我们通过实验证明，当与其对应部分相比时，所提出的方法在具有1284个类的数据集上实现了2.7倍更好的mIoU分数，同时在较低数量的类的制度中保持了竞争性能。• 为了提高效率和推广性，我们引入了一种近似的交叉熵测度方法和一个语义嵌入空间正则项。• 我们的方法在理论上是基于概率解释和基本假设。2 .相关作品有效的分割训练。现有方法通常涉及通过使用神经网络的有限浮点[46]到二进制运算[67]来在受限设备中执行分割其他类型的设计要么是紧凑的[39，34]或训练后压缩[47，40，25]。还探索了修剪[37，11]和从大型训练模型中提取知识[50，44几乎所有这些方法都在准确性方面受到损害，或者不需要高培训资源[5]。许多工作集中在单GPU上的推理时间[56，64，61]。最近，[10，62]提出了存储器高效的方法来保存高分辨率图像的局部-全局然而，关于语义分割中的数字类的可扩展性问题我们的方法在这方面是互补的。用于分段相关任务的嵌入。我们的工作是相关的作品，使用嵌入分割相关的任务。自下而上的方法，例如分割，使用嵌入进行一阶段训练，并提高被遮挡和薄对象的性能。实例分割[43，14，3，32，19，41，42，30]中的一个分支工作训练网络以进行像素嵌入的密集预测，这些像素嵌入随后被聚类到各个实例中。这些方法基于度量学习，其学习嵌入，使得属于相同实例的像素彼此接近，反之亦然。为了预测实例的类别，[43，42，32，19，41]建议预测每个对象类别的对象性并使用交叉熵损失。[14，3]计算每个类的聚类质心7428×× ××× ×图2. 概述：在左侧，基于编码器-解码器的分割网络[E，D]具有d通道输出（像素嵌入）和嵌入网络ECd，随后是归一化层N。在右边，针对O中的每个像素嵌入搜索来自E Cd的k -最近类嵌入。针对交叉熵损失计算S中的目标类和C 〇中的最近类的对数。整个训练集。然后通过将嵌入与类质心进行比较来推断类为了有效地找到聚类种子，[19，42]预测每个类的热图为了使网络端到端可训练，[30]使用递归神经网络实现了均值漂移聚类的变体这些方法的扩展可以在各种应用中找到[1，31]。不同的是，我们利用嵌入捕捉类级别的语义信息，不像在实例级别的方法。在语义分割的背景下，[6]使用嵌入进行半监督分割，[22]使用像素嵌入之间的相似性来细化分割掩码，[60]使用像素嵌入进行零和少标签分割，[22]学习超像素的嵌入。[26]通过提取逐像素嵌入和聚类来执行分割，并且使用来自注释集的其最近邻居的多数投票来确定语义类。嵌入式学习的对比损失近年来，广泛的工作[16，12，54，59]使用度量学习和对比损失进行表示学习。我们的工作建立在相同的思想基础上，这可以与最近提出的对比交叉熵损失[28]平行地看到。本质上，[28]是流行的三重态[57]和N对[52]损失的概括。对比损失在自监督和半监督设置中也非常流行[18，48，35，9，23]。我们的损失从根本上不同于现有的作品，因为我们的损失只对单像素进行操作，并将它们与类嵌入进行对比。3 .基于嵌入的可扩展分割对于最先进的分割模型，输出大小与语义类C的数量成正比。这提出了显著的计算挑战，同时为具有更多类别的数据集缩放它们。在这项工作中，我们提出了一种基于嵌入的可扩展分割方法，它输出固定数量的通道，从而将输出的空间复杂度从O（C）降低到O（1）。随着分割网络的权重，该模型还学习C类的d维类我们还提出了损失函数学习和正则化类嵌入，使得来自相同类像素的分割网络的输出（像素嵌入）被聚类在一起并且更接近它们各自的类嵌入。所提出的方法的概述在图2中示出。在下面的章节中，我们首先描述了在现有网络中集成嵌入的方法，然后提供它们的概率公式，然后是损失函数和损失计算算法。3.1.低维嵌入我们的工作的关键思想是减少内存的使用，代表类的每个像素由其相应的- ING嵌入。对于每个输入图像，我们预测大小为H W d的输出（图2中的O），而不是通常使用的HWC，其中d<< C。为此，我们将最后一个卷积层中的滤波器数量从C减少到D.为了学习每个类别的密集目标表示，我们添加了一个小的嵌入矩阵ECd ，该矩阵由具有d维的C类嵌入组成。该矩阵的权重在训练期间被学习并且固定用于推理。与现有模型不同，其中每个像素处的C嵌入维数可以影响模型的性能，因为维数太少，模型可能拟合不足，而维数太多，模型可能过拟合。7429我2Σ×个ΣΣ我|N2×个N√|-（x−µ）|真值类后验p（cyie−xi−µm2/τ（六）|xi). 为了计算班级排名-我p（xi）Cn=1 N（xi|µ，τI）（二）KC--|≈/∈联系我们适当的嵌入维度是增加进一步的自由度不会带来性能增益的嵌入维度。维度的减少之后是沿着输出的深度嵌入层之后还跟随有归一化层，以确保嵌入位于单位半径超球面上。在没有归一化的情况下，可以观察到类嵌入的长度与类的频率之间的明显相关性。与[28]中的发现一致，类和像素嵌入的归一化有助于模型抑制由类不平衡引入的偏差。3.2.概率公式三点三损失函数3.3.1分类损失交叉熵损失函数几乎是实际分类任务的唯一选择。它被定义为目标类的负对数似然，其中使用softmax函数从网络输出计算类在减少输出中的通道数时，网络不直接提供类逻辑。如等式（5）中所示，我们使用网络输出与按温度τ缩放的类嵌入之间的L2距离来计算用于τ的类逻辑和概率在我们的方法中，像素嵌入Ocyi类。pyi=e−xi−µyi/τ.（五）使用高斯混合模型对来自分割网络的数据进行建模。它由C高斯和ICm=1 e−xi−µm2/τµ1、µ2、µ3、µC质心，相同协方差矩阵τ I以及相等的混合概率ρ，使得Cρ= 1。像素i的输出嵌入xi的概率可以由等式（1）给出。在上述方程的分母要求内存复杂度为O（C D），这与我们的目标不一致。为了解决这个问题，我们使用第3.2节中陈述的概率公式和假设。我们建议挖掘k硬负类搜索- INGk-最近的类嵌入的像素嵌入xi。Cp（xi）=p（cnn=1）p（xi|CnC）=ρN（xi|µnn=1，τ I）。（一）在等式（6）中，我们通过仅使用k个最近的类连同目标类来近似目标类概率pyi以用于归一化，并且计算针对目标类的交叉熵损失。类cn的先验概率是p（cn）。后概率p（cn xn）给出数据点xi的概率从类Cn的高斯采样。作为一种区分-分类.Σy y我我i=1e−xi−µyim∈η（xi，k）∪yi/τ原生模型，细分网络最大化地L=logp i，pi = Σ。Riors，使用贝叶斯规则来导出等式（2）。这是一个复杂的问题，需要O（k d）的时间复杂度。它的复杂度远远低于O（C），并且可以适应可用的内存。p（c|cy i）* p（c y i）= Σ N（x i）|µy i，τ I），|µyi,τI),n最近邻居的搜索是在离线模式下完成的在GPU上，即不包括在计算图中。存储器和速度高效的搜索算法，例如[27]，1（x µ，τI）=e2πτ22τ。（三）可以用于此目的。由于交叉熵损失使目标类别概率最大化，然而，等式（2）需要计算所有类别的类别条件概率这使得它在计算方面与C声道输出预测同样昂贵为了克服这个问题，我们提出使用等式（4）来近似p（cyixi）。F或xi，我们从µ1，µ2，µ3，µC中搜索k个η（xi，k）= n1，n2，n3……，n k，其中k C.我们的方法是基于假设p（ct xi）0，如果t η（xi，k）。最坏情况下的近似误差是11，当所有质心与xi等距。如果k=C或满足假设，则近似误差为零。最小化它将像素嵌入拉得更接近其目标类嵌入，因此来自同一类的像素嵌入最终聚集在一起。与[9，28]中的先前工作类似，温度τ的适当值对于最佳性能至关重要。它表示属于同一类的像素嵌入之间的允许方差，从而表示聚类的紧凑性。3.3.2正则化损失分类损失模型像素和类嵌入之间的相互作用来模拟N（xi|µyi，τI）（四）类嵌入并正则化它们，我们建议使用p（cyi|xi）=Σn∈η（xi，k）∪yiN（xi|µn.，τI）最大利润损失如果两个类的类嵌入是如果像素非常接近，则属于那些类别的像素是这种概率公式激发了我们在下一节中描述的损失函数。易于错误分类并且可能导致较差的概括。所提出的损失施加排斥力的近-yi7430查询x：1× dzigroundtruth类嵌入-|| E Cdi-x||2τlogitsz：4×13-最近类嵌入1Σimax（0，m-di）马联系我们R← ××C我我 j/=i，j∈CIJ6：Z← −O−Zo2/τΣ像素嵌入X||x||-logez0Σezi交叉熵损失类嵌入ECd：C× dx-边际损失di：到类i的最近类嵌入的距离图3. 损失计算：像素嵌入x和类嵌入ECd被归一化为投影在超球面流形上。对于归一化的X，搜索k=3个最近的类嵌入（由虚线圆示出）。使用归一化的X和类嵌入之间的L2距离来计算k个负最近类和正类的logit。此外，计算分类和正则化损失。如果每个类比边缘距离m更近，则对每个类进行est类嵌入。等式（7）给出了正则化损失，其中di，j是类别i和j的嵌入之间的L2距离。1CL=max（0，m-d）， d=minD.（七）i=1算法1L=LossCompute（I，S，Md，kNN（））1：OMd（I），O形：B H W d2：关闭梯度计算3：CkkNN（ECd，O），CoReshape（Ck）4：打开梯度计算第五章： Zo←Concat（ECd（S），ECd（Co））学习速率调度程序。在训练期间，分割网络和嵌入网络的权重被同时计算和更新。分割网络调整其权重以获得更接近对应类嵌入的逐像素我们使用更高的动量和更积极地衰减嵌入网络的学习率来稳定训练。3 .4.该算法我们在算法1中总结了所提出的方法的损失计算部分。分割网络Md的损失计算使用具有语义标签S的图像I。请注意，我们的算法需要一个高效的GPU兼容的最近邻搜索函数，由kNN（）表示，它需要一个数据库和查询向量作为输入。算法步骤的直观说明请参见图3然后使用计算出的损失来训练我们的网络，如图2所示。4 . 实验实施详情。 DeepLabV3+ 将我们的d通道方法集成到DeepLabV3+模型中。我们在最大余量正则化损失中使用0.2的余量m，并且τ=0。05.使用FAISS库的GPU模式搜索精确的最近邻。除非提及，否则所有实验均进行第七章： P←Softmax（Z），Pgt←P[0]8：L ←平均值（-log（Pgt））+Lr9：返回L使用等式（7）计算Lr。注意输出O并且类嵌入E_Cd被归一化。使用单个Titan X GPU，并使用最大可能的批量大小。有关更多实施细节，请参阅补充材料。基准数据集。我们在五个数据集上进行了实验，其细节在表1中给出。使用的四个数据集Cityscapes[13]，Pascal VOC[17]，ADE 20 k[65]和COCO-Stuff 10 k[4]是标准基准。由于缺乏可公开获得的大规模数据集，数据集#类裁剪大小B d k城市景观19 400× 800 14/10 7 6Pascal VOC 21 512× 512 14/10 7 8ADE20k 150 512× 512 8/10 12 7COCO-Stuff10k 182 512× 512 7/10 12 7COCO+LVIS 1284 450× 450 2/10 12 8表1. 数据集详细信息。不同的数据集及其各自的超参数用于使用ResNet50主干训练模型。列B示出了基线和我们的方法的批量大小，d是嵌入维度，k是最近邻的数量。ECdi||E Cdi||7431±我们合并了COCO和LVIS数据集，以证明我们的方法在1284个类上的能力。COCO+LVIS -合并数据集。我们从COCO [33]的填充注释和COCO 2017图像[33]的LVIS [21]的实例注释中构建了一个大型分割数据集LVIS是实例分割数据集通道数迭代其注释对于整个图像语义是稀疏的。为了克服稀疏性，我们合并COCO-Stuff数据集的东西类的注释。合并后，COCO+LVIS的标签稀疏度为19.5%（验证为18.8%）。请注意，这种稀疏性与Pascal-MT（30.4%）[38]和Cityscapes（28.3%）等基准数据集相当我们使用LVIS的官方分割，大约有100k火车和20k验证图像。仅使用语义标签，而忽略实例ID。LVIS有1203个分类。同样，COCO有91个产品类别。在这两个数据集之间，共有10个类总共有1284个班级。LVIS的标签在重叠时优先于COCO的请参阅我们的补充材料了解更多详情。如前所述，具有大量类的数据集具有长尾分布（导致严重类不平衡的问题）。COCO+LVIS也是如此已知平均IoU度量对这种类不平衡非常敏感。因此，为了更好地了解情况，我们还报告了频率加权IoU（FwIoU）以及标准指标：平均IoU（mIoU）和像素精度（PAcc）。4.1。消融实验所有消融实验是进行为图4. 输出通道数和相邻采样数。输出通道数d与平均IoU（左）。本文讨论了k=7的随机抽样与k =7的随机抽样的收敛性7-最近邻（右）。语义类图5.使用ResNet50主干的ADE20k数据集的类式mIoU。我们的模型在一些罕见的类上做得稍好，在占主导地位的类上表现相当。mIoU的边际改进和类嵌入的规范化显著有助于更好的mIoU。COCO+LVIS数据集上的消融见补充材料。[51]第51话：你是谁？报告见表2-3和图4。表2示出了与k无关，所有模型都收敛于mIoU 71.2 ± 0.2，而最近邻的数量越多，收敛越快。因此，可以基于训练时间和可用GPU存储器之间的权衡来选择k。这些实验不使用正则化损失。图4显示了随着嵌入维数从4增加到7而增加的性能，随后略有下降。它还表明，最近的邻居提供更好的mIoU和收敛，相比随机抽样。表3显示最大边际损失提供了#NN mIoU像素精度iters471.3595.0336.3k671.0595.0732.1k871.0895.1329.1k表2. 最近邻数与性能平均IoU、像素精度和不同数量的最近邻（#NN）的迭代。对于不同的#NN，在收敛迭代中具有差异，实现了类似的性能。NN采样正常化最大容限损失mIoU像素精度-64.49 93.71C-67.20 94.43C C-72.56 95.14C C C73.03 95.40表3.消融研究表明，我们的方法受益于最近邻（NN）采样，归一化，和最大利润损失。第一行实验采用随机抽样。4 .2.基准测试结果定量结果。对于具有较低数量的类的数据集，表4显示我们的模型与ResNet50和MobileNet主干的性能图5显示了两种型号的ADE20k类IoU之间的比较。图中的类基于基线的IoU排序。我们观察到，我们的模型在一些罕见的类（如淋浴、服装和凳子）上表现得更好，这些类出现在一些特定的上下文中，如浴室或卧室。我们假设我们学习的嵌入允许稀有类隐式地借用知识MioumIoU类Miou7432数据集城市景观Pascal VOCADE20kCOCO-Stuff10kCOCO+LVIS骨干MobileNetResNet50ResNet101MobileNetResNet50MobileNetResNet50ResNet50ResNet50度量MiouPACCMiouPACCMiouPACCMiouPACCMiouPACCMiouPACCMiouPACCMiouPACCMiouPACCfwIoU基线72.1195.2275.2595.8076.896.2271.0792.2573.193.3534.0275.0738.9377.0132.5665.221.6838.8822.66我们73.0395.4075.6495.6276.696.2871.1592.2872.892.9834.1175.1938.2977.1632.6065.184.5754.2739.67表4.我们的模型与Cityscapes，PASCAL VOC，ADE 20 k和COCO-Stuff 10 k数据集的基线模型相当。对于COCO+LVIS数据集，它比基线有很大的优势。平均IoU（mIoU）、像素准确度（PAcc）和频率加权IoU（fwIoU）的值越高越好。从相关联的语义上下文。随着类的频率增加，两种模型的表现相似。对于COCO+LVIS，我们的模型在mIoU和像素精度方面与其他数据集相比，两个模型的低mIoU可以通过LVIS注释中的事物类的长尾来解释。图6显示，随着我们增加稀有类的数量，mIoU下降。在1284个类中，220个类出现在训练数据集中的不到十个图像中。请记住，阶级不平衡的挑战不属于这项工作的范围。为了进一步分析，我们还报告了COCO+LVIS的频率加权IoU超级-模型MiouFwIoUPACC基线我们1.684.5722.6639.6738.8854.27基线+GA我们的+GA2.765.0129.5741.8746.3457.05基线+GN我们的+GN5.156.2637.8943.0353.4559.01基线+ 4个GPU我们的+ 4个GPU7.868.7842.243.858.159.3表5. COCO+LVIS数据集上的结果，具有梯度累积（GA）、GroupNorm（GN）和4个GPU。基线和我们的梯度分别在5步和2步内累积。在GN实验中，我们使用16通道的组用于这两种方法。我们的方法对于COCO+LVIS的更高性能可以通过我们可以在单个GPU中适应的五倍更高的批处理大小较低的批量大小会导致BatchNorm层中批量统计的噪声为了减少基线模型中低批量大小的影响，我们使用梯度累积（GA）[24]和组归一化（GN）[58]进行实验。表5表明，遗传算法和遗传神经网络有助于提高两种模型的性能.GA增加了网络中除BatchNorm之外的所有层的有效GN使得均值和方差的计算与批量大小无关。然而，这些技术并不能替代我们的方法，因为我们的主要贡献在于限制输出通道的数量，从而将内存复杂度从O（C）降低到O（1）。单独使用GN/GA（具有基线模型）对于非常高数量的类或更大的图像是不可能的，因为即使是单个图像也不适合存储器（由于O（C）复杂度）。为了了解COCO+LVIS有限的计算资源所导致的性能损失，我们在4个GPU（每个16 GB）上进行了实验，同步批处理规范（无GN）。我们使用批量大小为12和40的基线和我们的模型，分别。我们没有为这个实验执行超参数搜索，并使用16的嵌入大小我们相信，mIoU可以通过减少批量大小和增加嵌入维数来进一步改进。内存消耗分析。在表6中，我们研究了训练期间GPU中的峰值内存使用情况。我们观察到，对于类数量较少的数据集（如Cityscapes），基线使用较少的内存来容纳数据集模型训练BS内存（GB）基线1412.1我们的12 10.4ADE20k基线8 10.3我们的1010.0COCO+LVIS 基线2 9.94我们的1010.4表6.分析GPU内存使用峰值和1个GPU的最大批处理大小。对于Cityscapes数据集，基线具有更好的内存消耗，而我们的模型对于ADE20k和COCO+LVIS数据集具有内存效率更大的批量。然而，我们的方法更适合于具有更高数量的类的数据集，如ADE20k。在这种情况下，我们的方法为相同的内存提供了更大的批处理尽管数量有所增加图6.对于基线和我们的方法，在COCO+LVIS上的mIoU具有增加的类别数量，其中最频繁的是第一个。城市景观7433图7.我们的方法和基线的定性结果黑色表示未标记的像素。对于COCO+LVIS数据集，两个模型都遗漏了罕见的类，如桶和管道。我们的模型比基线表现更好的优势类，如墙。对于Cityscapes，两种模型提供了类似的结果。图8.我们的方法和基线的定性结果。对于ADE 20 k、COCO-Stuff 10 k和Pascal VOC数据集，两种模型都提供了类似的定性结果。类，我们的模型这允许我们扩展到1k+类，并且仍然使用10的批大小。另一方面，基线模型只能在单个GPU中适应两个批量大小。有关推理时间的详细信息，请参阅补充材料。定性结果。在图7和8中，我们显示了定性结果。在COCO+LVIS数据集中，两个模型大多数都遗漏了罕见和小区域类别，这反映了较低的mIoU评分。我们的模型分割的优势类，如墙和草比基线好得多。对于CityScapes、Pascal VOC、ADE 20 k和COCO-Stuff 10k，两种模型的分割掩模看起来都非常图9.城市风景的合成图像。从左至右：真实图像;使用以下方法生成：独热编码（FID = 60.47）;随机嵌入（FID = 64.14）;我们的类嵌入（FID = 58.34）。相似我们还注意到，在许多示例中，几乎相同的像素集被两个模型错误分类。用于图像合成的语义类嵌入。使用学习的类嵌入，我们的方法表现良好的语义分割的任务。这表明，我们的嵌入捕捉类的语义，并有效地表示它们在低维空间。为了证明我们学习的嵌入除了分割之外的实用性，我们使用SPADE网络[45]进行了实验，以合成照片级逼真的图像。SPADE采用与每个像素的类标签对应的独热向量形式的类语义作为输入。我们进行了三个实验：1）one-hot向量语义（19个类）作为输入，其中B=3，2）随机初始化的7维嵌入作为输入，其中B=4，以及3）来自我们训练的分割网络的7维类嵌入，其中B=4。图9显示了使用单个GPU为 Cityscapes测试数据集我们的嵌入比随机嵌入实现更低的FID分数，这表明我们学习的类嵌入也可以用于合成。基于嵌入的语义输入的内存效率的图像生成，具有更高的类的数量，仍然是一个有前途的方向，为未来的工作。为了使我们的课堂嵌入形象化，请参考补充材料。5 . 结论在这项工作中，我们解决了大量的语义类的现有分割方法的内存复杂性的问题。通过利用我们对度量学习和概率混合模型的理解，我们提出了一种新的方法来训练分割模型。所提出的方法可以用于任何数量的类，以在单个GPU的存储器中训练分割模型。实验表明，该方法在保持性能的同时，提高了可扩展性;这样我们就可以划分大量的类致谢：这项工作得到了ETH未来计算实验室（EFCL）的支持，该实验室由华为技术公司、Arbrea Labs AG通过提供的计算资源和Nvidia GPU赠款资助。7434引用[1] AliAtha r，S. 阿尔乔萨·奥塞普湖？Leal-Taix e’和B. LeibeStem-seg：用于视频中的实例分割的时空嵌入。在ECCV，2020年。三个[2] Sara Beery，Yang Liu，Dan Morris，Jim Piavis，AshishKapoor，Neel Joshi，Markus Meister，and Pietro Perona.合成的例子提高了稀有类的泛化能力。在IEEE计算机视觉应用冬季会议上，第863-873页，2020年。一个[3] Bert De Brabandere，Davy Neven，and Luc Van Gool.基于判别损失函数的语义实例分割。 CoRR ，abs/1708.02551，2017。二个[4] H. Caesar，J. Uijlings，and V.法拉利Coco-stuff：上下文中的事物和东西类。2018年IEEE/CVF计算机视觉和模式识别会议，第1209- 1218页，2018年。五个[5] Zachariah Carmichael ， Hamed F Langroudi ， CharKhazanov ， Jeffrey Lillie ， John L Gustafson ， andDhireesha Kudithipudi.深度神经网络中低精度数值格式的性能效率权衡在下一代算术2019会议论文集，第1-9页二个[6] Krishna Chaitanya ，Ertunc Erdil，Neerav Karani， andEnder Konukoglu.全局和局部特征的对比学习用于有限注释的医学图像分割。神经信息处理系统的进展，33，2020。三个[7] Devendra Singh Chaplot，Dhiraj Prakashchand Gandhi，Ab-hinav Gupta，and Russ R Salakhutdinov.使用面向目标的语义探索的对象目标神经信息处理系统的进展，33，2020。一个[8] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Flo- rian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。CoRR，abs/1802.02611，2018。二个[9] 陈婷、西蒙·科恩布里斯、穆罕默德·诺鲁齐和葛offrey E.辛顿视觉表征对比学习的一个简单框架。CoRR，abs/2002.05709，2020。三、四[10] Wuyang Chen ， Ziyu Jiang ， Zhangyang Wang ， KexinCui，and Xinning Qian.协作式全球-本地网络，用于超高分辨率图像的内存高效分割。在IEEE计算机视觉和模式识别会议上，CVPR 2019，长滩，加利福尼亚州，美国，2019年6月16日至20日，第8924-8933页。计算机视觉基金会/ IEEE，2019年。二个[11] 陈兴浩，王云鹤，张伊曼，杜鹏，徐春静，徐昌.语义分割网络的多任务剪枝。 CoRR， abs/2007.08386 ，2020。二个[12] Sumit Chopra Raia Hadsell和Yann LeCun。学习相似性度量有区别地，与应用到人脸验证。2005年IEEE计算机协会计算机视觉和模式识别会议（CVPR 2005），2005年6月20- 26日，美国加利福尼亚州圣地亚哥，第539-546页。IEEE计算机学会，2005。三个[13] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，UweFranke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在2016年IEEE计算机视觉和模式识别会议，CVPR 2016，Las Vegas，NV，USA，2016年日，第3213-3223页。IEEE计算机学会，2016年。五个[14] B. De Brabandere，D. Neven和L.范古尔自动驾驶的语义实例分割。2017年IEEE计算机视觉和模式识别研讨会（CVPRW），第478-480页，2017年。二个[15] J. Deng，W.东河，巴西-地索赫尔湖李凯李飞飞。Imagenet：一个大规模的分层图像数据库。 2009年IEEE计算机视觉和模式识别会议，第248-255页，2009年。一个[16] Carl Doersch、Abhinav Gupta和Alexei A.埃夫罗斯通过上下文预测的非监督视觉表示学习在2015年IEEE计算机视觉国际会议，ICCV 2015，智利圣地亚哥，2015年12月7日日，第1422-1430页IEEE计算机学会，2015年。三个[17] 放大图片作者： Mark Everingham， Luc Van Gool，Christopher K. I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。pas- cal visual object classes （ VOC ）挑战。 Int. J.Comput.目视，88（2）：303-338，2010. 五个[18] William Falcon和Kyunhyun Cho一个对比自监督学习的框架和设计一个新的方法。CoRR，abs/2009.00104，2020。三个[19] Alireza Fathi、 Zbigniew Wojna 、 Vivek Rathod 、 PengWang、Hyun Oh Song、Sergio Guadarrama和Kevin P.墨菲基于深度度量学习的语义实例分割CoRR，abs/1703.10277，2017。二、三[20] J. Fu，J. Liu，J. Jiang，Y. Li，Y. Bao和H.陆基于双重关系感知注意网络的场景分割。IEEE Transactions onNeural Networks and Learning Systems，第1-14页，2020年。二个[21] 阿格里姆·古普塔，皮奥特·多勒，罗斯·格希克。LVIS：用于大词汇实例分割的数据集。在IEEE计算机视觉和模式识别会议上，2019年。一、二、六[22] 亚当·W Konstantinos G. Derpanis和Iasonas Kokkinos。学习用于语义分割的密集卷积嵌入 CoRR ，abs/1511.04377，2015。三个[23] Kaiming He，Haoqi Fan，Yuxin Wu，Saying Xie，andRoss B.娘娘腔。无监督视觉表征学习的动量对比。在2020年IEEE/CVF计算机视觉和模式识别会议，CVPR2020，美国华盛顿州西雅图，2020年6月13日至19日，第9726- 9735页。IEEE，2020年。三个[24] 约里河Hermans、Gerasimos Spanakis和R.莫克尔累积梯度归一化。ArXiv，abs/1710.02368，2017。二、七[25] Andrew Holliday，Mohammadamin Barekatain，JohannesLaurmaa，Chetak Kandaswamy，and Helmut Prendinger.使用模型压缩技术加速用于语义分割的深度学习集成。Comput. 目视图像理解，164：16-26，2017. 二个[26] Jyh-Jing Hwang，S.作者：Yu，Jianbo Shi，Maxwell D.Collins，Tien-Ju Yang，X. Zhang，and Liang-Jieh Chen.7435Segsort：通过对片段进行判别排序进行分割。20197436IEEE/CVF计算机视觉国际会议（ICCV），第7333-7343页，2019年。三个[27] Je f fJohnson，MatthijsDouz

下载后可阅读完整内容，剩余1页未读，立即下载