ML解码器：可扩展的分类头

62 浏览量更新于2023-10-16 收藏 802KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

32ML解码器：可扩展的多功能分类头Tal Ridnik* Gilad Sharir* Avi Ben-Cohen Emanuel Ben-Baruch Asaf NoyDAMO Academy，阿里巴巴集团摘要在本文中，我们介绍了ML解码器，一个新的注意力为基础的分类头。ML-Decoder通过查询预测类标签的存在，与全局平均池化相比，能够更好地利用空间数据。通过重新设计解码器结构，并采用一种新颖的分组解码方案，ML-解码器具有很高的效率，并且可以扩展到数千个类。COM-使用更大的骨干，ML解码器始终提供了更好的速度准确性权衡。ML-Decoder也是通用的-它可以用作各种分类头的直接替代品，并在使用单词查询时推广到看不见的类。新的查询增强进一步提高了它的泛化能力。使用ML解码器，我们在几个分类任务上实现了最先进的结果：在MS-COCO多标签上，我们达到91。1%mAP;在NUS-WIDE零射击上，我们达到31。1%氯化钠计算成本MS- COCO mAP [%]9089888786TResNet-S TResNet-M TResNet-L间隙ML解码器mAP;在ImageNet单标签上，我们使用vanillaResNet50骨干的新的最高分80。7%，没有额外的数据或蒸馏。公共代码将可用。1. 介绍图像分类是一项重要的计算机视觉任务，需要根据图像中存在的对象为图像分配一个或多个标签。对于单标签分类[38，44]，我们假设图像只包含一个对象，因此我们可以对输出logit应用softmax操作。然而，自然图像通常包含多个对象和概念，突出了多标签分类的重要性[42，34]，其中我们以与多任务问题类似的方式单独和独立地预测每个类别[5，32]。通过利用图神经网络的标签相关性[8，7]以及改进损失函数、预训练方法和骨干[2，30，31，1]，报告了多标签分类领域的显著成功。在极端分类的制度中[45，25]，我们需要预测大量类的存在（通常*同等贡献图1. 我们提议的分类头。ML-解码器是通用的，并提供了一个统一的解决方案，几个分类任务，与国家的最先进的结果。与transformer-decoder不同，它也是可扩展的，可以有效地处理数千个类。成千上万或更多），迫使我们的模型和训练方案是高效和可扩展的。多标签零射击学习（Multi-label zero-shot learning，简称ZNL）[41，36]是多标签分类的扩展，在推理过程中，网络试图识别未看到的标签，即，培训期间未使用的其他类别的标签。这通常是通过文本模型在可见类（用于训练）和不可见类之间共享知识来完成的[15，28]。分类网络通常包含一个主干和一个分类头[31，33，16]。主干输出空间嵌入张量，分类头将空间嵌入转换为预测逻辑。在单标签分类中，这通常通过全局平均池化（GAP）完成基于GAP的头也用于多标签分类[8，40，11]。然而，需要标识具有不同位置和大小的多个对象，这可能使得平均池化的使用不是最佳的。最近，一些工作提出了基于注意力的多标签头多标签Zero-shot单标签。..ML解码器骨干变换器-解码器ML-解码器班数33火车查询推理多标签查询推理零射击查询推理单标签查询. . .ML解码器. . . .Logits乙状结肠. . .ML解码器. . . .Logits乙状结肠. . .ML解码器. . . .Logits乙状结肠. . .ML解码器. . . .LogitsSoftmaxUnseenSeen-图像嵌入图2.多功能-ML解码器模块适用于各种分类任务，如多标签，零拍摄和单标签。分类. [13]提出了一种双流注意力框架来识别从全局图像到局部区域的多类别对象。[47]建议简单的空间注意力分数，然后将它们与类不可知的平均池特征相结合。[23]提出了一个池化Transformer，它具有可学习的查询，用于多标签分类，取得了最好的结果。基于GAP的分类头简单而有效，并且随着类的数量而扩展，因为它们具有固定的空间池化成本。然而，它们提供了次优的结果，并且不直接适用于CNOL。基于注意力的分类头确实改善了结果，但通常成本很高，即使对于具有少量类的数据集也是如此，并且实际上对极端分类场景不可行。他们也没有自然延伸到OWL。在本文中，我们介绍了一种新的分类头，称为ML解码器，它为单标签，多标签和零拍摄分类提供了统一的解决方案，并获得了最先进的结果（见图1）。ML-解码器设计基于原始的变换器-解码器[35]，有两个主要的修改，显著提高了其可扩展性和效率。首先，它减少了二次依赖的解码器在输入查询的数量为线性的，通过删除冗余的自我注意块。第二，ML解码器使用一种新颖的组解码方案，其中不是为每个类分配查询，而是使用固定数量的查询，这些查询通过称为组全连接的新架构块被内插到最终的类数量。使用组解码，ML-解码器也享有固定的空间池化成本，并且可以很好地扩展到数千个类。ML解码器是灵活和高效的。它可以用可学习的或固定的查询进行同样好的训练，并且可以在训练和推理期间使用不同的查询（参见图2）的情况。这些关键特性使ML解码器适用于MRL任务。当我们为每个类分配一个查询并用单词查询训练ML解码器时，它可以很好地推广到看不见的查询，并显着改善了以前最先进的MML结果。我们还表明，组解码方案可以扩展到CNOL场景，并在训练过程中引入新的查询增强，以进一步鼓励泛化。该文件• 我们提出了一个新的分类头称为ML解码器，它提供了一个统一的解决方案，多标签，零杆，单标签分类，与国家的最先进的结果。• ML解码器可以用作全局平均池的替代品。它简单而高效，与较大的主干或其他基于注意力的头相比，提供了改进的速度-精度权衡• ML-解码器的新颖设计使其可扩展到具有数千个类别的分类。互补查询增强技术也提高了它对未知类的泛化能力.• 我们通过对常用分类数据集的综合实验验证了ML解码器的有效性：MS-COCO、Open Images、NUS-WIDE、PASCAL-VOC和ImageNet。2. 方法在本节中，我们将首先回顾基线分类标题。然后，我们将介绍我们的新ML解码器，讨论它的优点，并显示其适用于几个计算机视觉任务，如多标签，多标签和单标签分类。34∈n=1∈∈K我我我（Q，K，V）=（V）V2.1. 基线分类标题一个典型的分类网络由主干和分类头组成.网络分类头将空间嵌入张量分解为N个logits，{ln}N，其中N是班有两种基线方法用于处理空间嵌入：基于差距，基于注意力。基于GAP：使用基于GAP的分类头，我们首先通过对空间维度进行简单的全局平均操作将空间嵌入减少为一维向量，输出向量zRD×1。然后，全连接层将嵌入向量转换为N个输出logit：l=Wz，其中WRN×D是一个可学习的线性投影矩阵GAP通常用于单标签分类任务[31，33，16]，并且具有一些概括，例如[29，20]。GAP也被用作多标签分类的基线方法[2，37，24]基于注意力：与单标签分类不同，在多标签分类中，多个对象可以以不同的位置和大小出现在图像中。几项工作[23，13，47]已经注意到，通过简单平均消除空间维度的GAP操作对于识别具有不同大小的多个对象来说可能是次优的。相反，他们建议使用基于注意力的分类头，这可以更精细地使用空间数据，并改善结果。2.2. 摘要：注意力和转换器-解码器在提出的基于注意力的分类头中，基于变换器-解码器的简单方法（类似于DETR用于对象检测的方法[4]）在多标签分类上取得了最佳结果[23]。变换器-解码器单元依赖于[35]中介绍的多头注意模块。多头注意力有三个输入：Q，K，V。如果我们将注意力操作定义为：注意力SoftmaxQKT（1）D多头模块输出为：MultiHeadAttn（Q，K，V）= Concat（head 1，.，标题h）W O其中头i=注意力（QWQ，KWK，V WV）WQ、WK、WV、WO是可学习的投影矩阵。图3. 可扩展性-基线转换器-解码器与我们提出的ML解码器。N -类的数量，K -组查询的数量，D -令牌长度。删除冗余的自我注意力块放松的查询的数量的二次依赖的线性之一，同时重新训练相同的表达。当使用具有固定数量的查询K N的组查询时，ML解码器变得完全可扩展，空间池化成本与类的数量无关。变换器-解码器通过四个被称为自注意、交叉注意、前馈和令牌池的连续阶段来处理输入：self-attn：Q1<$−MultiHeadAttn（Q，Q，Q）cross-attn：Q2<$−MultiHeadAttn（Q1，E，E）feed-forward：Q3<$−FF（Q2）tok en-pool：Logits←−Pool（Q3）（2）FF是前馈全连接层，如[35]中所定义。令牌池化阶段是令牌嵌入维度D上的简单池化2.3. ML解码器2.3.1动机在具有少量类别的多标签数据集上，例如MS-COCO[22]和Pascal-VOC [12]（分别为80和 20个类别），transformer-decoder分类头工作良好，并实现了最先进的结果[23]，具有很小的额外计算开销。然而，它有一个关键的缺点-计算成本是我我我图3（左侧）中给出了变压器-解码器分类头的图示。Transformer-解码器有两个输入：空间嵌入张量E和一组N个可学习查询Q，每个类一个。与类的数量成二次关系。因此，对于具有大量类的数据集，例如 Open Images [19] （ 9600 个类），使用transformer-decoder在计算成本方面实际上是不可行的，正如我们将在变压器-译码器ML解码器全方位服务图像嵌入集团形象策划Nx D（wh）x DK x D（wh）x D交叉注意Self-AttentionN× D个Kx D交叉注意前馈N× D个Kx D前馈+合并全组连接池N x 1N x 1扩展性自我注意力消除：时间复杂度： O（N）=O（K）35KK∈∈×第3.2节。对于现实世界的应用程序，大量的类是必要的，以提供一个完整的和直观的描述输入图像。因此，需要一种更可扩展和更有效的基于注意力的分类头。此外，变换解码器作为分类头只适用于多标签分类。一个更通用的基于注意力的头，也可以解决其他任务，如单标签和双标签，将是有益的。K查询组D嵌入全连通群N分类Logits2.3.2ML解码器设计我们现在将描述我们提出的分类头ML-解码器。ML解码器流程的图示在图3中给出（右侧）。与变换器-解码器相比，ML-解码器包括以下修改：(1) 自我注意力消除：我们首先观察到，在推理过程中，Transformer- decoder的自我注意模块对输入查询提供了一个固定的转换。然而，当查询进入交叉关注模块时，它们在经历关注操作之前经受投影层（等式10）。①的人。在实践中，投影层可以将查询转换为任何期望的输出，从而使自我注意模块冗余。因此，我们可以移除自我注意层，同时仍然保持分类头的相同表达性，并且不会降低结果。我们将在3.1节中根据经验对此进行验证。通过去除自注意，我们避免了一个昂贵的模块，并放宽了ML-Decoder的输入查询的数量的二次依赖于一个线性的，使它更实用和有效的。(2) 分组解码：在极端的分类场景中，即使分类头与类的数量的线性相关性也可能是昂贵的。我们想打破这种耦合，使交叉注意模块和它后面的前馈层独立于类的数量，就像GAP操作一样。为此，我们使用固定数量的组查询K（参见图3）作为输入，而不是对每个类的查询签名。在前馈层之后，我们通过一个新的层称为组全连接将组查询转换为输出logit。该层同时执行两个任务：（1）将每个组查询扩展为N个输出;（2）池化嵌入如果我们将组因子定义为g=N，则组全连接生成输出logitLi，操作如下Li=（Wk·Qk）j其中： k=i除以g，j=imodg（三）QkRD是第k个查询，WkRg×D是第k个可学习投影矩阵。图4给出了群全连通层的一个示例，附录K给出了一个伪代码图4.群全连通层的方案（g=4）。具有组解码的ML-解码器的完整流程在等式中描述。其中Gq是输入组查询：cross-attn：Gq1←−MultiHeadAttn（Gq，E，E）馈入回路：Gq2<$−FF（Gq1）groupFC：Logits←−Group-FC（Gq2）（4）对组解码方案的一些额外观察和见解：• 使用完全解码（g=1），每个查询检查单个类的存在。使用分组解码，每个查询检查几个类的存在。我们选择以随机的方式将班级分成小组。通过语义接近度来聚类类是一种替代方法，但需要繁琐的聚类过程，并且可能需要对每个数据集进行调优的额外超参数。在3.2节中，我们将展示随机组聚类足以提供与全解码方案相当的结果。• 就触发器而言，组全连接层相当于基于GAP的头中的全连接层（N D乘法）。两者都是线性相关的数量类，但在实践中，他们有一个小的计算开销，即使是数千个类。在存储器消耗方面，在单个操作中执行组完全连接在一起的两个任务比连续地执行它们更有效，因为不需要存储大的中间映射。• ML解码器中唯一依赖于输入图像大小的组件是交叉注意模块。我们可以将交叉注意力层视为空间池，类似于GAP。采用组解码，ML解码器具有固定的空间池化成本，与N无关。(3) 不可学习的查询：[23]认为，用于多标签分类的Transformer- Decoder仅在可学习查询的情况下才能获得最佳结果。然而，我们观察到查询总是被馈送到多头注意层，该层对它们应用可学习的投影（等式10）。①的人。因此，将查询权重设置为可学习是多余的-可学习的投影可以将任何固定值查询转换为任何池化36一个可学习查询获得的值。我们将在第3.1节中根据经验验证这一点，表明当使用可学习或固定查询训练ML解码器时，可以获得除了简化训练过程外，使用固定查询将使我们能够进行查询。2.3.3ML解码器接下来，我们将介绍在多标签环境中使用ML-解码器所需的调整，并讨论ML-解码器的关键特性，使其适用于该任务。我们还将表明，组解码方案可以扩展到MLML，并提出新的查询增强，进一步提高ML解码器的推广。基于NLP的查询：首先，我们展示一个具有完整解码方案的ML-Decoder版本（每个标签都有一个对应的查询）。如前所述，输入查询可以是可学习的，也可以是固定的。对于BML，我们使用固定的基于NLP的查询-对于每个标签，使用语言模型提取单词嵌入向量，并将其设置为输入查询。我们还在组全连接层中使用共享投影矩阵（在等式中设置Wk=W（3）第三章。通过基于NLP的查询和共享投影矩阵，语义信息可以在推理期间从可见（训练）类传播到不可见（测试）类，从而实现泛化。ML解码器的特点：ML-解码器包含几个faf- vorable功能，使其非常适合于MPEG-4。首先，它的注意力机制是基于向量之间的点积相似性（等式2）。①的人。由于NLP单词嵌入保留了这种点积语义相似性[15]，因此看不见的标签更有可能与解码器中最相似的键和值相匹配。此外，ML- Decoder具有共享投影矩阵，允许输入查询的数量可变，并且对查询的顺序不敏感。这是有益的，因为在APDL中，我们对不同的类集执行训练和测试，因此也是不同的查询集对于GML，我们只在可见的标签上进行训练，并对不可见的类进行推理，而对于广义GML（GML），我们对不可见和可见的标签集的并集进行推理。分组解码：组解码（与K< N）要求修改，以便在一个可编程序的设置工作。在附录B中，我们详细介绍了我们的变形组解码的mrdl。查询增强通过基于NLP的查询，ML- Decoder自然扩展到了XML的任务然而，我们希望应用专门的训练技巧，进一步提高其泛化能力。这是计算机视觉中的常见做法在输入图像上应用增强，以防止过度拟合，并提高对新的不可见图像的概括性同样，我们引入查询增强，以鼓励年龄泛化到看不见的类查询。第一个增强是随机查询，其将额外的随机值查询添加到输入查询的集合，并且为这些添加的查询分配表示“随机”的正的基础事实标签第二个增强是query-noise，我们在每批输入查询中添加一个小的随机噪声。有关增强装置的说明，请参见附录中的图8在第3.3节中，我们将展示查询增强鼓励模型识别以前从未遇到过的新查询向量，并提高WML分数。我们还尝试了查询剪切增强，其中查询的随机部分在每个批次中被删除。然而，这种技术在我们的实验中并没有什么好处2.3.4用于单标记分类的以前提出的大多数基于注意力的分类头都是用于多标签分类的（例如[47，23，13]），这也是我们在工作中关注的主要任务然而，我们的ML解码器的设计使其能够在其他计算机视觉任务（例如单标签分类）上用作基于GAP的头的直接替代，如图2所示。多标签分类中基于注意力的头部的主要动机是需要识别具有不同位置和大小的多个对象[23]。我们将在第4.3节中展示ML解码器的好处更普遍，并且完全适用于单标签问题，其中图像通常包含单个对象。3. 实验研究在本节中，我们将为我们提出的ML解码器分类头带来消融测试和内部比较。首先，我们将使用不同类型的输入查询测试ML解码器。然后，我们将比较ML-Decoder与其他分类头，如transformer-decoder和GAP。最后，我们将提供一个消融研究与增强查询和组解码的CNOL。3.1. 比较查询类型如第2.3.2节所述，由于注意力模块中的线性在附录的表7中，我们比较了ML解码器在MS-COCO多标签数据集上使用不同类型查询的结果（有关MS-COCO的完整训练细节，请参见附录C）。事实上，我们看到，可学习的，固定的随机和固定的基于NLP的单词查询都导致相同的准确率，88。1%，如预期。为了减少学习参数的数量，我们将使用固定查询。37−KKK3.2. 比较不同的分类头在表1中，我们比较了使用不同分类头进行训练的MS-COCO结果。相比之下，与GAP相比，具有组解码的ML-解码器仅将触发器计数增加了10%-20%我们也看到，从塔-表2已经用N=48比率进行了表1. 不同分类股骨头的多标签MS-COCO mAP评分比较。[31]第三十一话.从表1中，我们可以看到以下观察结果：• ML-解码器（和变换器-解码器）提供了一个显着的改进（超过1%mAP），相比基于GAP的分类头。• 当使用相同数量的输入查询（80）时，transformer-decoder和ML-Decoder达到相同的准确度，这表明自注意模块确实提供了冗余变换（参见第2.3.2节），并且在ML-Decoder中移除它降低了计算成本而不影响结果。• 使用具有N=4的比率的组解码具有最小-给出了满分的好处，并且进一步将比率增加到N=96将分数仅减少0。百分之一。在图5中，我们比较了MS-COCO上的mAP评分，与基于GAP和ML解码器分类头的触发器相比，具有三种不同的架构- TResNet-S，TResNet-M，TResNet-L（在运行时相当于ResNet 34，ResNet 50和ResNet 101[31]）。91908988878620 25 30 35触发次数[G]对结果的影响-减少只有0. 1%mAP。然而，由于MS-COCO数据集的类数量很少，因此来自注意力的额外失败基于的分类头是最小的，因此在这种情况下减少查询的数量不是必需的。在表2中，我们在Open Images多标签数据集上重复了相同的比较，该数据集具有更多的类-9600而不是80。关于Open Images的完整训练细节见附录H。分类头Num of类Num of查询Flops[G]地图[%]间隙9600-5.886.0Transformer解码器96009600178.6NAML解码器（+自我关注）960040012.486.8ML解码器ML解码器ML解码器9600960096001002004006.36.77.686.786.886.8表2. 不同分类股骨头的开放图像mAP评分比较。架构-TResNet-M.在 OpenImages 上，使用 transformer-decoderclassifica- tion head是不可行的-由于类的数量很大，额外的计算成本非常高，即使批量大小为1，输入分辨率为224，我们的训练也是内存不足的（完整规格见表12）。图5. mAP评分与在MS-COCO数据库上，不同分类头的触发器比较。对于ML解码器，我们使用K=N= 80。我们从图5中看到，与使用具有较大主干的基于GAP的分类头相比，使用ML解码器提供了更除了触发器精度测量之外，在附录中的表12中，我们提供了不同分类头的完整速度精度该表可以帮助我们在未来的工作不同的速度精度指标的比较。3.3. Zero-shot学习本节介绍了NUS-WIDE数据集[9]上的ML解码器消融研究。NUS-WIDE是用于多标签数据库任务的最广泛使用的基准，因此我们专注于此数据集。它由925个可见标签和81个不可见标签组成。完整的训练和数据集细节在附录F中给出。在表3中，我们比较了第2.3.3节中提供的不同类型的查询增强。从表中可以明显看出，随机查询和附加噪声都有助于模型当应用这两种方法时，我们看到增加1。2%的mAP得分看不见的类。我们还测试了查询增强对seenML解码器间隙TResNet-LTResNet-MTResNet-SmAP评分[%]分类头Num of类Num of查询Flops[G]地图[%]间隙80-23.087.0Transformer-解码器808024.188.1ML解码器ML解码器8080208023.623.988.088.138增强类型mAP [%]（比利时法郎）没有一29.9加性噪声30.6随机查询30.7两31.1表3.具有不同查询增强的ML-解码器的NUS-WIDE MMLmAP评分的比较。班在MS-COCO和NUS-WIDE上，添加查询增强对所见类的mAP评分没有影响（88。1%的MS-COCO，22。7%，占NUS-WIDE）。这与我们在3.1节中的结果一致，其中可学习查询和固定查询在可见类上提供相同的结果使用查询增强的好处是可以更好地泛化到看不见的类。在表4中，我们比较了分组解码器和完整解码器的任务。附录B中描述了对用于MSL的组解码方案的修改。分类头Num of类Num of查询mAP [%]（比利时法郎）ML解码器1006100631.1ML解码器100610028.7表4.具有不同数量的输入查询的ML解码器的NUS-WIDEMML mAP分数的比较。我们从表4中看到，组解码方案也很好地适用于MSL场景，与完全解码相比，mAP分数略有3.4. 额外的测试我们验证我们的架构选择与附录中的其他消融实验。层堆叠：我们研究了向ML解码器添加层的效果（表10）。使用Transformer主干：我们用ViT-B-16骨架重复表1的测量。使用类令牌或GAP池与ViT-B-16得到85分。2mAP，而使用ML-解码器头将分数提高0。7%至85。9%。来自组解码的统计噪声：我们重复了用五种不同的种子进行表1的测量，并且看到不同种子之间的平均方差为0。05%因此，来自选择随机组用于组解码的附加统计噪声是可忽略的。其他速度精度比较：除了触发器精度测量之外，我们还进行了直接速度测量。在附录中的表11中，我们测量了解码器头。在附录中的表12中，我们提供了不同分类头的完整速度-准确性比较，测量推理速度，训练速度，最大批量大小和失败。表11和表12可以帮助我们对不同速度-精度指标的工作进行未来比较。4. 结果在本节中，我们将在流行的多标签、XML和单标签分类数据集上评估我们基于ML解码器的解决方案，并将结果与已知的最先进技术进行比较。4.1. 多标签分类4.1.1MS-CocoMS-COCO [22]是一种常用的数据集，用于评估多标签图像分类。它包含来自80个不同类别的122，218幅图像，分为82，081幅图像的训练集和40，137幅图像的验证集。在表5中，我们将ML-解码器结果与已知的最佳解码器结果进行解决方案从文学。完整的培训细节见附录C。方法骨干输入决议地图[%]ML-GCNResNet101448x44883.0KSSNET [24]ResNet101448x44883.7SSGRL [6]ResNet101576x57683.8MS-CMA [43]ResNet101448x44883.8美国手语[2]ResNet101448x44885.0美国手语[2]TResNet-L448x44888.4[23]第二十三话TResNet-L448x44889.2ML解码器ResNet101448x44887.1ML解码器TResNet-L448x44890.0表 5. MS-COCO 数据集的最新比较。 TResNet-L 具有与ResNet 101等效的运行时间，具有改进结果的设计技巧[31]。由于以前的作品并不总是报告他们的计算成本，并发布了一个可重复的代码，我们不能提供一个完整的速度精度比较。尽管如此，我们看到，与普通的基于GAP的解决方案相比，使用ML-解码器，我们改进了MS-COCO数据集上的结果，具有最小的额外计算成本（也参见表1）。我们希望未来的工作将使用我们的结果作为一个更完整的比较，包括计算成本和准确性的基线。就此而言，在附录的表13中，我们报告了不同输入分辨率的结果和触发器计数。请注意，输入分辨率为640，我们使用TResNet-L达到了91的最新结果。1%的MS-COCO。4.1.2其他多标签数据集Pascal-VOC：在附录的表14中，我们展示了另一个流行的多标签数据集- Pascal-VOC [12]的结果。39甘精胰岛素3.7 10.9 13.2使用ML解码器，我们在Pascal-VOC - 96上获得了最新的结果。6%的mAP。开放图像：在附录中的表15中，我们提供了极端分类多标签数据集的结果- Open Images [19]，其中包含9600个类。同样在这个数据集上，ML解码器优于以前的方法，达到86。8%mAP。请注意，由于类的数量很大，一些基于注意力的方法对于这个数据集是不可行的。因此，没有关于它们的结果。4.2. Zero-Shot学习在表6中，我们展示了NUS-WIDE多标签零激发数据集的SotA比较[9]。类似于以前的作品，我们使用F1得分在前K预测和mAP作为评估指标。mAP是在GML（仅看不见的类）和GML（看不见的+看不见的类）上测量的。完整的培训细节见附录F。4.3. 单标签分类为了测试ML-解码器对单标签分类的有效性，我们使用ImageNet数据集[10]，并使用[39]中建议的高质量训练代码（A2配置）。各种ResNet架构的比较，具有不同的分类头，如图6所示如可以807876747270方法任务mAPF1（K = 3）F1（K=5）黎巴嫩9.4 21.6加的夫2.1 7.0 8.1黎巴嫩15.1 27.8 26.44000 6000 8000推理速度[img/sec]图6. ImageNet数据集上不同分类头。对于ML解码器，我们使用[第46话]加索尔3.7 11.5 13.5组解码（100组）。培训配置- A2 [39]。注意标签[18]L 10.4 25.8 23.612.9 24.6 22.9可以看出，当用ML解码器替换基线基于GAP的头时，我们显着提高了模型的准确性[17]第十七话LESA [17]加索尔2.6 6.4 7.7黎巴嫩19.4 31.6 28.7格特鲁利5.6 14.4 16.8活泼ML解码器还提供了一个更好的速度-准确性权衡相比，使用更大的骨干网的GAP。请注意，我们使用ML解码器，而不引入ZSL 26.3 33.1 30.7GZSL 9.3 16.1黎巴嫩25.9 30.5 27.8格里尔12.1 18.5 21.0黎巴嫩31.1 34.1 30.8格里尔19.9 23.3 26.1表6. NUS-WIDE数据集。从表6中我们可以看出，我们的方法比之前的最佳解决方案显著提高了4倍。8%mAP（mML），在此任务中设置新的SotA。请注意，以前的方法主要是为了优化零射击任务，而牺牲了可见的类（RSL与甘精胰岛素权衡）。例如，SDL [3]提出使用几个主嵌入向量，并使用针对CPDL定制的损失函数对其进行训练。与以前的方法相比，ML解码器提供了一个简单的统一的解决方案，为平原和零拍分类，并实现了最佳结果为EML和GML。ML-Decoder还在GML任务上设置了新的SotA分数，以显著的改进（从12. 1%至19。9%）。这清楚地表明，ML-解码器generalizes以及看不见的类，同时保持高精度上看到的类。任何改变或调整训练配置中的任何超参数。事实上，ML解码器可以作为基于GAP的分类头的直接替代品，在高度优化的单标签训练设置中（基线ResNet50达到79. 7%），并提供额外提升，展示其有效性和多功能性。还有，请注意，在[39]之后，我们的ImageNet训练配置使用多标签损失（带BCE损失的sigmoid，而不是softmax和CE损失）。这在附录中的表16中，我们验证了与普通GAP相比，使用softmax，ML解码器也具有当将训练epoch的数量增加到600（[39]中的A1配置）时，使用ML-Decoder和vanilla ResNet 50骨干，我们达到80。7%的准确率。据我们所知，这是ResNet50迄今为止取得的最佳结果（没有额外的数据或蒸馏）。5. 结论和未来工作在本文中，我们介绍了ML解码器，一个新的注意力为基础的分类头。通过去除冗余的自注意层，并使用一种新的组解码方案，ML-Decoder可以很好地扩展到数千个类，并提供了更好的速度-准确性权衡。ResNet50ResNet34ResNet18ML-解码器间隙前1位访问[%]CONSE [27]SDL [3][26]第二ML解码器40引用[1] Emanuel Ben-Baruch ， Tal Ridnik ， Itamar Friedman ，Avi Ben-Cohen ， Nadav Zamir ， Asaf Noy ， and LihiZelnik- Manor. 使用类感知选择性丢失的部分注释的多标签分类，2021年。[2] Emanuel Ben-Baruch，Tal Ridnik，Nadav Zamir，AsafNoy，Itamar Friedman，Matan Protter，and Lihi Zelnik-Manor.多标签分类的非对称损失arXiv预印本arXiv：2009.14119，2020。[3] Avi Ben-Cohen，Nadav Zamir，Emanuel Ben Baruch，Itamar Friedman，and Lihi Zelnik-Manor.语义多样性学习的零射击多标签分类。 arXiv 预印本 arXiv ：2105.05926，2021。[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中，第213-229页Springer，2020年。[5] 瑞奇 · 卡鲁阿纳多任务学习。Machine learning ， 28（1）：41[6] 陈天水，徐慕新，惠晓璐，吴贺峰，林亮。多标签图像识别的学习语义特定图表示。在IEEE/CVF计算机视觉国际会议论文集，第522-531页[7] Zhao-Min Chen，Xin Jin，and Yanwen Guo.联合类别感知地图解缠和标签相关嵌入的多标签图像识别。在2019年IEEE多媒体和博览会国际会议（ICME），第622-627页。IEEE，2019。[8] Zhao-Min Chen ， Xi-Shen Wei ， Peng Wang ， andYanwen Guo.用图卷积网络进行多标记图像识别。在IEEE计算机视觉和模式识别会议论文集，第5177- 5186页[9] Tat-Seng Chua ， Jinhui Tang ， Richang Hong ， HaojieLi，Zhiping Luo，and Yantao Zheng.Nus-wide：新加坡国立大学的真实网络在2009年ACM图像和视频检索国际会议的Pro-ceedings中，第1-9页[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[11] Thibaut Durand，Nazanin Mehrasa，and Greg Mori.学习用于具有部分标签的多标签分类的深度卷积网络。在IEEE计算机视觉和模式识别会议论文集，第647-657页[12] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams ， John Winn ， and Andrew Zisserman.pascalvisual object classes challenge 2007（voc2007）结果。arxiv，2007年。[13] 高彬彬和周洪宇。学习发现用于多标签图像识别的多类别注意区域。IEEE Transactions on Image Processing，30：5920[14] Arna Ghosh，Biswarup Bhattacharya，and Somnath BasuRoy Chowdhury. Adgap：全球平均先进水平汇集第三十二届AAAI人工智能会议，2018。[15] 约阿夫·戈德堡和奥默·利维。word2vec解释说：米科洛夫等人“的负采样字嵌入方法。arXiv预印本arXiv：1402.3722，2014年。[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[17] Dat Huynh和Ehsan Elhamifar。多标签零激发学习的共享多注意力框架。在IEEE/CVF计算机视觉和模式识别会议论文集，第8776-8786页，2020年[18] Jin-Hwa Kim，Jaehyun Jun，and Byoung-Tak Zhang.双线性注意力网络。arXiv预印本arXiv：1805.07932，2018。[19] Alina Kuznetsova ， Hassan Rom， Neil Alldrin ， JasperUijlings ， Ivan Krasin ， Jordi Pont-Tuset ， ShahabKamali，Stefan Popov，Matteo Malloci，Tom Duerig，et al.开放图像数据集v4：统一的图像分类，对象检测，并在规模视觉关系检测。 arXiv 预印本 arXiv ：1811.00982，2018。[20] Chen-Yu Lee，Patrick Gallagher，and Zhuowen Tu.在cnn中生成池函数：混合门控树IEEE Transactions on patternanalysis and machine intelligence，40（4）：863[21] Peng Li ， Peng Chen ， Yonghong Xie ， and DezhengZhang. 多标签图像分类的双通道注意学习。 IEEEAccess，8：9965[22] 林宗义，迈克尔·梅尔，塞尔日·贝隆吉，卢博米尔·布尔德夫，罗斯·吉希克，詹姆斯·海斯，彼得·佩罗纳，德瓦·拉马南，C.

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

ML解码器：可扩展的分类头

卫星直播系统综合接收解码器技术规格及参数要求.docx

基于PowerPC的嵌入式MPEG4视频解码器的

linux 解码器安装

LInux离线安装mp4视频解码器

ubuntu pyqt播放视频缺少解码器

C# 中文编码器个解码器

格力空调红外遥控解码

pytorch 编码器 解码器 VGG

jcodec_（2）codec类型

windows系统怎么安装bpg编解码器

如何安装相应的编解码器

netty怎么解决粘包和拆包问题

视频mediacodec解码流程

Netty编码器和解码器的作用是

netty编码器和解码器的作用是

transformer编码器和解码器的区别

BER编解码器设计与实现

MT8195芯片支持多少个编码器和解码器

用C语言和opencv编程实现视频的编解码应用：使用现有编解码器（ffmpeg，编码标准不限），将原始视频进行编码、解码得到重建视频，分析压缩码率与视频质量的关系。

Linux如何查看硬件解码器

最新资源

pytorch 编码器解码器 VGG