Label2Label：多属性语言建模框架

111 浏览量更新于2023-12-01 收藏 1.32MB PDF 举报

语言建模

多标签分类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文Label2Label：一个支持多属性学习的语言建模Wanhua Li，Zhexuan Cao，Jianjiang Feng，Jie Zhou，and Jiwen LuJiang1清华大学自动化系2北京国家信息科学技术研究中心{wanhua016，caozx00} @ gmail.com;{jfeng，jzhou，lujiwen} @tsinghua.edu.cn抽象的。对象通常与多个属性相关联，并且这些属性通常表现出高度的相关性。属性间复杂关系的建模是多属性学习的一个重要挑战。本文提出了一个简单而通用的框架Label2Label利用复杂的属性相关性。标签2Label是首次尝试从多属性预测的角度语言建模。具体来说，它将每个属性标签视为描述样本的由于每个样本都被标注了多个属性标签，这些受NLP中预训练语言模型的显著成功的启发，Label 2Label引入了一种图像条件化的掩蔽语言模型，该模型随机地将一些“单词”从标签“句子”中掩蔽到- kens，并旨在基于掩蔽的“句子”和图像特征所传达的上下文来我们的直觉是，如果神经网络可以基于上下文和剩余的属性提示来推断缺失的属性。Label2Label概念简单，经验强大。在不结合特定任务的先验知识和高度专业化的网络设计的情况下，我们的方法在三种不同的多属性学习任务上实现了最代码可在https://github.com/Li-Wanhua/Label2Label上获得。关键词：多属性，语言建模，属性关系1介绍属性是跨类别共享的对象的中级语义属性[14 我们可以用各种各样的属性来描述对象。例如，人类很容易从面部图像中感知性别，发型，表情等[32，34]。多属性学习旨在准确预测对象的属性，本质上是一种多标签分类任务[52]。由于多属性学习涉及许多重要任务，包括⋆通讯作者arXiv：2207.08677v1 [cs.CV] 2022年7+v：mala2255获取更多论文图像特征骨干属性查询网络图像-条件传销初始设盲预测句话撤销判决2W. Li等人(a) 现有的多任务学习框架(b) 我们的语言建模框架Fig. 1. 比较现有的多任务学习框架和我们提出的语言建模框架。人脸属性识别[5，26，40]，行人属性识别[17，25，54]和衣服属性预测[39，63]，它在广泛的应用中发挥着核心作用，例如人脸识别[5]，场景理解[51]，人物检索[30]和时尚搜索[2]。对于一个给定的样本，它的许多属性是相关的。例如，如果我们观察到一个人有金色的头发和浓妆，那个人的吸引力是高的。另一个例子是，胡子和女人的特质几乎不可能同时出现在一个人身上。对复杂的属性间关联进行建模是多属性学习的一个重要挑战。为了应对这一挑战，大多数现有方法[5，25，48，54]采用多任务学习框架，将多属性识别制定为多标签分类任务，并同时学习多个二进制分类器。为了提高性能，许多方法进一步结合特定领域的先验知识。例如，PS-MCNN [5]将所有属性分为四组，并提供高度定制的网络架构来学习面部属性的共享和特定于组的表示此外，一些方法试图引入额外的特定领域指南[26]或注释[39]。然而，这些方法难以用简单的多任务学习框架来对样本属性关系进行建模近年来，大规模预训练语言模型取得了很大进展[4，11，46]。作为一个代表性的工作，BERT [11]利用掩蔽语言模型（MLM）[55]来捕获单词共现和语言结构。受这些方法的启发，我们提出了一个名为Label2Label的语言建模框架来建模复杂的实例属性关系。定制的网络分类器FC属性…+v：mala2255获取更多论文标签2标签3具体来说，我们把一个属性标签看作是一个“词”，它从某种角度描述了样本的当前状态。例如，我们将标签“有吸引力”和“不戴眼镜”视为两个“词”，它们从不同的角度为我们提供了样本的草图。由于每个样本的多个属性标签用于描述同一对象，因此这些“词”可以被组织为无序但有意义的“句子”。例如，我们可以用这样的句子来描述图1中的人脸：“有“. 虽然这个事实上，它可以传达一些上下文语义信息。通过将多个属性标签视为一个我们提出的Label2Label由一个属性查询网络（AQN）和图像条件掩蔽语言模型（IC-MLM）。属性查询网络首先生成初始属性预测。然后，这些预测被视为伪标签“句子”，并发送到IC-MLM。我们的IC-MLM不是简单地采用掩蔽语言建模框架，而是从伪标签“句子”中随机掩蔽一些“词”标记，并以掩蔽的“句子”和图像特征为条件预测掩蔽的“词”。所提出的图像条件掩蔽语言模型在从图像到属性类别的精确映射过程中提供部分属性提示，从而便于模型学习复杂的样本级属性相关性。我们以人脸属性识别为例，展示了我们的方法和现有方法之间的主要区别。1.一、我们总结本文的贡献如下：– 本文从语言建模的角度出发，提出了Label2Label模型来对复杂的属性关系进行建模。据我们所知，Label2Label是第一个用于多属性学习的语言建模框架。– 我们的Label2Label提出了一个图像条件的掩蔽语言模型来学习复杂的样本级属性相关性，它从以图像特征为条件的掩蔽语言中恢复出一个– 作为一个简单而通用的框架，Label2Label在三个多属性学习任务上取得了非常有竞争力的结果，与高度定制的任务特定方法相比。2相关工作多属性识别：多属性学习由于其广泛的应用而吸引了越来越多的兴趣[2，5，30]。根据感兴趣的对象，它涉及许多不同的视觉任务[19，25，39许多工作集中在特定领域的网络架构。Cao等人 [5]提出了一种用于人脸属性识别的部分共享多任务卷积神经网络（PS-MCNN）。PS-MCNN由四个特定于任务的网络和一个共享网络组成，用于学习共享和特定于任务的表示。Zhang等人 [63]提出了用于服装分类和属性识别的双流网络。由于一些属性位于图像的局部区域中，因此许多属性都可以在图像的局部区域中进行。+v：mala2255获取更多论文4瓦。Li等人方法[17，49，54]诉诸注意机制。 Guo等人 [17]提出了一个双分支网络，并限制了两个注意力热图之间的一致性。在[49]中介绍了一种多尺度视觉注意和聚合方法，该方法仅使用属性级监督提取视觉注意掩码。Tang等人。 [54]提出了一个灵活的属性本地化模块来学习特定于属性的区域特征。其他一些方法[26，39]进一步尝试使用其他特定领域的指导。[26]中采用了语义分割来引导属性预测的注意力 Liu等人[39]学习服装属性与额外的地标标签。也有一些方法[53，64]在数据不足的情况下研究多属性识别，但这超出了本文的范围。语言建模：预训练语言模型是NLP的基础问题。ELMo [46]被提出来学习深度上下文化的单词表示。它是用双向语言模型目标训练的，该目标结合了前向和后向语言模型。ELMo表示显著提高了六个NLP任务的性能GPT [47]采用标准语言模型目标在大型未标记文本语料库上预训练语言模型。使用Transformer作为模型架构。预训练的模型在下游任务上进行了微调，并在12个任务中的9个任务中取得了优异的结果。BERT [11]使用掩码语言模型预训练目标，这使得BERT能够学习以左右上下文为条件的双向表示。BERT采用了多层双向Transformer编码器，提高了编码性能。我们的工作受到这些方法最近成功的启发，是第一次尝试从语言建模的角度来建模多属性学习。用于计算机视觉的Transformer：Transformer [56]首先被提出用于NLP中的序列建模。最近，基于transformer的方法已被部署在许多计算机视觉任务中 [3 ， 21 ， 38 ， 45 ， 57 ， 59 ， 60] 。 ViT [13] 证明，纯Transformer架构在图像分类任务上取得了非常有竞争力的结果。DETR [6]将对象检测公式化为集合预测问题，并采用了Transformer编码器-解码器架构。Pix2Seq [8]将对象检测视为语言建模任务，并获得了有竞争力的结果。 Zheng等人 [65]将FCN的编码器替换为用于语义分割的纯Transformer。 Liu等人 [36]利用Transformer解码器架构进行多标签分类。时间查询网络在[60]中引入，用于使用查询-响应机制进行细粒度视频理解。也有一些努力[9，27，44]将Transformer应用于多标签图像分类的任务。需要注意的是，本文的主要贡献并不是Transformer的使用，而是从语言建模的角度对多属性识别进行建模。3方法在本节中，我们首先概述我们的框架。然后，我们提出了详细的建议属性查询网络和图像条件掩码+v：mala2255获取更多论文撤销判决键值Transformer解码器特征提取器代币嵌入可学习的单词嵌入图像特征键值伪装的句子Transformer伪标签解码器属性设置属性查询网络图像条件掩蔽语言模型…[[…1010110≤≤联系我们标签2标签50[M]10[M]1…1011011…1…图二、我们框架工作的管线。我们使用Transformer解码器模块接收标签“序列”，该模块以标记嵌入和图像特征为条件。虽然在伪标签中有一些错误的“单词”，它们以橙色显示，但我们可以将它们视为另一种形式的掩码。这里E1或E0表示属性的存在或不存在。语言模型最后介绍了该方法的训练目标函数和推理过程。3.1概述给定来自具有M个属性类型的数据集D的样本x，我们的目标是预测图像x的多个属性y。设A={a1，a2，.，aM}表示属性集合，其中aj（1JM）表示第j个属性类型。为了简单起见，我们假设所有属性类型的值都是二进制的。换句话说，a j的值是0或1，其中1表示样本具有此属性，0表示不具有此属性。然而，我们的方法可以很容易地扩展到每个属性类型是多值的情况下。在这个假设下，我们有y 0，1M。现有的方法[5，25]通常采用多任务学习框架，其使用M个二进制分类器分别预测M个属性二进制交叉熵损失被用作目标。本文提出了一种语言建模框架。我们在图中展示了我们框架二、本文的核心思想是将属性标签视为无序的虽然我们可以在训练期间直接使用真实属性标签作为IC-MLM的输入，但我们不能访问这些标签进行推理。为了解决这个问题，我们的Label2Label引入了一个属性查询网络来生成初始属性预测。然后，这些预测被视为伪标签，并在训练和测试阶段用作IC-MLM的输入。…+v：mala2255获取更多论文˜˜∈J6瓦。Li等人3.2属性查询网络给出了一个输入图像x∈RH0×W0×3及其对应的dinglabely={yj|1≤j≤M}，我们将图像发送到特征提取器以获得图像特征，其中H0和W0分别表示输入图像的高度和宽度，yj表示样本x的第j个属性aj的值。由于我们的框架工作与特征提取器无关，因此我们可以使用任何流行的主干，[22]如ResNet-50[22]和ViT[13]。生成初始属性预测的一种简单方法是将提取的图像特征直接馈送到线性层并学习M个二进制分类器。由于最近的进展[12，27，36，60]显示了Transformer的优越性，我们考虑使用Transformer解码器来实现我们的属性查询网络，以生成更高质量的初始预测。我们的属性查询网络学习一组置换不变的查询向量Q={q1 ，q2，.， qM}，其中每个查询qj对应于属性ty peaj。然后，每个查询向量qj用Transformer解码器层从图像特征中提取属性相关特征，并生成相应的响应向量rj。最后，我们为每个响应向量学习一个二元分类器，以生成初始属性预测。由于许多属性仅位于图像的某些局部区域，因此使用全局图像特征并不是一个很好的选择。因此，我们保留了图像特征的空间维度[36]。对于ResNet-50，我们简单地放弃全局池化层，并使用最后一个卷积块的输出作为提取的特征。我们将提取的特征表示为XRH×W×d，其中H、W和d分别表示图像特征的高度、宽度和通道。为了适应Transformer解码器，我们将特征整形为X′∈ RHW ×d。遵循常见做法[6，13]，我们添加2D感知位置嵌入Xpos∈RHW×d 到特征向量X′以保持位置信息.通过这种方法，我们得到了视觉特征向量X= X′+Xpos。利用局部视觉文本X，查询特征Q={qj∈Rd|1≤j≤M}使用多层Transformer解码器来更新。形式上，我们更新查询在第i个Transformer解码器层中的特征Qi-1如下：Qsai−1 =MultiHead（Qi−1，Qi−1，Qi−1），Q卡i−1 =多头（Qsai−1i−1，X，X′），（一）Qi= FFN（Qca），其中，MultiHead（）和FFN（）表示多头关注层，前馈层。这里我们把Q设为Q0.其设计思想是，对于每个属性查询向量，它可以给感兴趣的局部视觉特征，以产生属性相关的功能高的关注度。这种设计与某些属性的局部性兼容。假设属性查询网络由L层Transformer解码器组成，则我们将QL表示为R={r1，r2，.，rM}，其中每个响应向量rj∈Rd对应于查询向量qj。在此基础上，利用M个二值分类器对属性值lj=σ（WTrj+bj）进行预测，其中Wj∈Rd，bj∈R1是第j个属性分类器的可学习参数，σ（·）是第j个属性分类器的可学习参数，+v：mala2255获取更多论文M|--标签2标签7sigmoid函数，lj是图像x的属性aj的预测概率。最后，我们读出了伪标签预测{lj}，其中sj=I（lj>0. 其中I（·）是指示函数。值得注意的是，来自属性查询网络的预测不是100%正确，导致生成的标签“句子”中出现一些错误的“单词”。但是，我们可以把错误的“话”当作另一种形式的面具，因为错误的预测只占很小的比例。事实上，错误单词的掩蔽策略在一些语言模型中被人为地执行，例如BERT [11]。3.3图像条件掩蔽语言模型在现有的多属性数据库中，图像被标注有各种属性标签。本文致力于对样本复杂属性相关性进行建模。我们不把属性标签当作数字，而是把它们当作“单词”。由于不同的属性标签从不同的角度描述图像中的对象，我们可以将它们分组为一系列“词”。虽然序列本质上是一个没有语法结构的无序“句子”，但它仍然传达了有意义的以这种方式，我们将y视为无序的yetmeaningful“序列”，其中y j是“字”。通过将标签作为句子处理，我们采用语言建模的方法来有效地挖掘实例级属性关系。近年来，预训练的大规模任务不可知语言模型大大推动了NLP的发展，其中代表性的作品包括ELMo [46]，GPT-3 [4]，BERT [11]等。受这些方法成功的启发，我们考虑了一个掩码语言模型来学习“词”之间的关系。我们随机屏蔽属性标签“sentence”y的一部分，然后重建整个标签“sentence”。具体来说，对于一个二进制标签序列，我们用一个特殊的工作标记[mask]替换那些被屏蔽的“单词”，以获得被屏蔽的句子。然后，我们将掩码语句输入到掩码语言模型中虽然MLM已被证明是NLP中的有效工具，但直接将其用于多属性学习是不可行的。因此，我们提出了几个重要的改进。实例属性关系：MLM基本上构建了任务P（y1，y2，，yM|M（y1），M（y2），，M（yM））来捕获“word”共现并学习“word”序列P（y1，y2，...，yM），其中（）表示随机掩码操作。这种幼稚的方法会导致两个问题。第一个问题是，传销只捕获统计属性的缩写 - tions 。一个不同的数据集意味着映射 {M（ y1 ）， M（y2），M（yM）}→y1，y2，. yM是一对多映射。因此，传销只学习如何不同的属性是统计上相互相关。同时，我们的实验发现，这种先验可以很容易地由属性查询网络P（y1，y2，...， yMx）。第二个问题是MLM和属性查询网络不能联合训练。由于MLM仅使用属性查询网络的硬预测，因此MLM的梯度不会影响训练+v：mala2255获取更多论文M|MMM|MMM{M M M}›→{}8瓦。Li等人属性查询网络。通过这种方式，该方法变成了两阶段的标签细化过程，这显著降低了优化效率。为了解决这些问题，我们提出了一种图像条件掩码语言学习实例属性关系的模型。我们的IC-MLM通过构建任务P（y1 ，y2，.，yMx，（y1），（y2），.，（yM））。引入一个额外的图像条件是不平凡的，因为这从根本上改变了传销的行为。在图像x的条件下，变换x，（y1），（y2），.，（yM）y1，y2，.yM是精确的一对一映射我们的IC-MLM推断其他属性值相结合的一些属性标签提示和图像上下文中的精确的图像到标签的映射，这有利于模型学习样本级的属性关系。此外，IC-MLM和属性查询网络可以使用共享的图像特征，这使得它们能够用一个阶段的框架进行联合优化。单词嵌入：众所周知，单词id在NLP中不是一个好的单词表示因此，我们需要将单词id映射到标记嵌入。我们没有利用现有的单词嵌入和BERT [11]这样的大型词汇表，而是直接从头开始学习属性相关的单词嵌入E我们使用单词嵌入模块将掩码语句中的“单词”映射由于所有属性都是二进制的，因此我们需要构建一个大小为2M的令牌词汇表来对所有可能的属性词进行建模。此外，我们需要包含特殊单词[mask]的标记嵌入。本文考虑了三种不同的[mask]令牌嵌入策略第一种策略认为不同属性的[mask]单词具有不同的含义，因此学习了M个特定于属性的可学习标记嵌入，其中一个[mask]标记嵌入对应于一个属性。第二种策略将不同属性的[掩码]词视为同一个词。只有一个与属性无关的可学习标记嵌入被所有属性学习和共享。第三个策略基于第二个策略，它简单地用固定的0向量替换可学习的标记嵌入。我们的实验发现，所有三种策略都工作得很好，而第一种策略表现最好。如前所述，我们使用伪标签s={s1，s2，.，sM}作为IC-MLM的输入，因此我们实际上将结构P（y1，y2，.，yMx，（第1条），（第2条），......，（SM）作为任务。我们以概率α随机屏蔽伪标签序列中的一些“单词”，以生成屏蔽标签“句子”。掩码标签“sentences”中的“word”（s j）可以有三个值：0、1和[mask]。我们使用单词嵌入模块将掩码标签“句子”映射到一个标记嵌入序列E={E1，E2，...， EM}，其中Ej∈Rd表示“word”M（s j）的嵌入。位置嵌入：在BERT中，每个单词的位置嵌入被添加到其对应的标记嵌入中以获得位置信息。由于我们的“句子”是无序的，因此没有必要将位置嵌入引入“词”表征。我们通过随机定义一些词序进行了位置嵌入的实验，没有发现任何改进。因此，我们不使用位置嵌入用于+v：mala2255获取更多论文i−1j=1Jj=1JJJ标签2标签9架构：在NLP中，Transformer编码器层通常用于实现MLM，而由于额外的图像输入条件，我们使用多层Transformer解码器来实现IC-MLM。遵循类似于属性查询网络的设计思想，令牌嵌入E池特征从本地视觉特征X'与交叉注意机制。我们更新第i个Transformer解码器层中的令牌特征Ei-1，如下所示：Esai−1ECAi−1= MultiHead（Ei−1，Ei−1，Ei−1），=多头（Esa，X，X′），i−1（二更）Ei= FFN（Eca）。我们将E设置为E0，并将IC-MLM至D. 则wee表示ED为R′={r1′，r2′，.，rM′ }，其中rj′对应于令牌Ej的更新特征。最后，我们执行最终的多属性分类与线性投影层。形式上，我们有：p=σ（W′Tr′+b′），1≤j≤M，（3）其中Wj′∈Rd和b′j∈R1是第j个属性分类器的可学习参数，pj是图像 x的属性aj的最终预测概率y。请注意，我们致力于恢复整个标签“句子”，而不仅仅是被屏蔽的部分。在这个重建过程中，我们希望我们的模型能够掌握实例级的属性关系。3.4客观与推理正如大多数现有方法中常用的那样[25，40，49]，我们采用二进制交叉熵损失来训练IC-MLM。另一方面，由于大多数用于多属性识别的数据集是高度不平衡的，不同的任务通常使用不同的加权策略。IC-MLM的损失函数公式为Lmlm（x）=M wj（yjlo g（pj）+（1−yj）lo g（1−pj）），其中wj是加权系数。根据不同的任务，我们选择不同的加权策略，并始终遵循最常用的策略进行公平比较。同时，为了保证生成的伪标签的质量，序列，我们也监督属性查询网络具有相同的损失函数Laqn（x）=<$M wj（yjlo g（lj）+（1−yj）lo g（1−lj））。所述最终损失函数Ltotal是上述两个损失函数的组合：Ltotal（x）=Laqn（x）+λLmlm（x），（4）其中λ用于平衡这两个损失。在推理时，我们忽略掩蔽步骤，直接将伪标签“句子”输入到IC-MLM。然后，IC-MLM的输出被用作最终的属性预测。4实验在本节中，我们对三个多属性学习任务进行了广泛的实验，以验证所提出的框架的有效性。+v：mala2255获取更多论文×10瓦。Li等人表1. IC-MLM的不同变换器解码器层D我们把L设为1。表2. 结果与不同的转换器解码器层L的属性查询网络。我们把D设为2。D1 2 3 4误差（%）12.5812.4912.54 12.52L12 3 4误差（%）12.4912.52 12.50 12.58表3. LFWA数据集上具有不同掩码比α的结果。表4. LFWA数据集上具有不同系数λ的结果。最大值0 0.1 0.15 0.2 0.3误差（%）12.5512.49 12.55 12.5412.57电话：+86-0511 - 8888888传真：+86-0511- 8888888误差（%）12.64 12.5612.49 12.60 12.634.1人脸属性识别数据集：LFWA [40]是一个流行的无约束面部属性数据集，由5，749个身份的13，143张面部图像组成。每个面部图像具有40个属性注释。遵循[5，19，40]中相同的评估协议，我们将LFWA数据集分为两组，其中6，263张图像用于训练，6，880张用于测试。所有图像都预先裁剪为250的大小250.我们采用分类错误的评价如下[5，53]。实验设置：我们训练了我们的模型57个epoch，批量大小为16。为了优化，我们使用了SGD优化器，其基本学习率为0.01，余弦学习率衰减。权重衰减设置为0.001。为了增强数据集，进行了随机增强[10]和随机水平翻转。我们还采用Mixup [61]进行正则化。参数分析：我们首先分析属性查询网络和IC-MLM中Transformer解码器层数的影响结果示于表1和表2中。我们可以看到，当L= 1和D= 2时，可以实现最佳性能我们进一步用不同的掩模比α进行实验，结果列于表3。正如我们上面提到的，伪标签序列中的错误因此，我们的方法在α= 0时表现良好我们观察到，当α = 0时，我们的方法获得最佳性能。1.表4显示了不同λ的结果，我们看到λ= 1给出了（4）中的最佳折衷。我们考虑了三种不同的[MASK]令牌嵌入策略，并在表6中列出了结果。我们看到，特定于属性的策略实现了其中最好的性能，因为它更好地建模属性之间的差异。除非明确提及，否则我们在所有后续实验中采用这些最佳参数。消融研究：为了验证我们的Label2Label的有效性，我们还使用两种基线方法在LFWA数据集上进行实验。我们首先考虑属性查询网络（AQN）方法，它忽略了IC-MLM，并将图2中的AQN输出视为最终预测。FC Head方法进一步将AQN中的Transformer解码器层替换为线性分类层。为了进一步验证我们的方法的推广，我们使用dif-+v：mala2255获取更多论文✓标签2标签11表5. 不同骨架的烧蚀实验。ResNet-50 ResNet-101 ViT-B度量误差（%）MAC（G）误差（%）MAC（G）误差（%）MAC（G）FC头13.63± 0.02 5.30 13.05± 0.03 10.15 13.73± 0.02 16.85AQN 13.36± 0.04 5.63 12.70± 0.02 10.48 13.32± 0.04 16.97标签2标签12.49±0.02 6.3012.44± 0.04 11.1612.79± 0.01 17.23表6.差异结果-表7。MLM和IC-MLM[Mask] embed的输入策略叮。策略误差（%）方法架构与AQN的联合训练误差（%）0矢量12.60属性不可知论者12.57传销MLPTransEncoder属性特定12.49TransDecoderIC传销TransDecoder12.49用于烧蚀实验的特征提取骨干网络。为了更好地证明结果的意义，我们还报告了标准偏差。结果见表5。此外，我们在表5中报告了每种方法的计算成本（MAC）。我们观察到，我们的方法显着优于FC头和AQN在各种骨干与边际计算开销，这说明了我们的方法的有效性。然后我们进行了实验来展示图像调节的MLM如何提高性能。结果列于表7中。正如我们上面所分析的，MLM导致了一个两阶段的标签细化过程。我们考虑两表8.性能相比LFWA数据集上最先进的方法。我们报告的平均分类误差结果。* 指示附加标签用于训练，例如身份标签或段注释。智能属性关系。要查看附加图像控件的好处，请执行以下操作：标签2标签12.49±0.02-在不同的情况下，我们仍然采用两阶段的标签细化过程，并使用固定的图像特征来训练 trans-former 解码器层。我们看到性能提升到13.01%，这证明了建模实例的有效性-网络架构来实现MLM：Transformer编码器和多路复用器方法误差（%）年第三层感知器（MLP）。结果[26]第二十六话12.872017表明它们都没有改善He等人 [23日]14.722018AQN的表现（13.36%）。的[31]第三十一话13.872018原因是传销只学习统计-GNAS [24]13.632018的属性关系，而这个先验[5]*12.642018很容易被AQN捕获意思是-DMM-CNN [42]13.442020同时，我们的IC-MLM学习实例-SSPL [53]13.472021+v：mala2255获取更多论文12瓦。Li等人图三. 自我注意力层中属性之间的注意力分数的可视化。我们用两个样本展示了第一个头部在第一层的注意力。每个样本的积极属性在相应的左下角列出智能属性关系。我们进一步联合训练IC-MLM和属性查询网络，实现了显著的性能提升。这些结果说明了IC-MLM的优越性。与最先进方法的比较：在[53]之后，我们使用ResNet50作为主干。我们在表8中展示了LFWA数据集的性能比较。我们观察到，我们的方法达到了最好的性能与一个简单的框架相比，高度定制的特定领域的方法。Label2Label甚至超过了使用附加符号的方法[5，26]，这进一步说明了我们框架的有效性可视化：由于Transformer解码器架构用于对实例级关系进行建模，因此我们的方法可以给出更好的可解释预测。我们使用DODRIO可视化IC-MLM中的注意力分数[58]。如图3，我们看到，相关属性往往具有较高的注意力分数。4.2行人属性预测数据集：PA-100 K [37]数据集是迄今为止最大的行人属性数据集[54]。它包含来自598个场景的100，000张行人图像，这些图像是从真实的户外监控视频中收集的。每张图像中的所有行人都被标注了26个属性，包括性别、手袋和上衣。数据集被随机分为三个子集：80%用于训练，10%用于验证，10%用于测试。在SSC [25]之后，我们将训练集和验证集合并用于模型训练。我们使用五个度量：一个基于标签，四个基于实例。对于基于标签的度量，我们采用平均精度（mA）度量。对于基于实例的指标，我们采用准确度，精确度，召回率，5SAE在被BABGBLBNBK博通过BR步CHDCEG去GHHM HC马 MS亩NENB的PSPNRHRCSBSMSHWA 我们 WH WLNLNTYONLNTRCWA我们WLPNRHRCSBMSNBPSPNNENB的PSBRCHDCHMEG去GH马积极属性AE在被BG积极属性5S在BN步5阴影Arch. 眉毛吸引力Bags Un. 眼睛光头刘海大嘴唇大鼻子黑发金发模糊棕色头发浓密的眉毛胖乎乎双下巴眼镜山羊胡子白发浓妆H. 颧骨男性茅斯O.胡子狭眸没有胡子瓜子脸苍白的皮肤尖鼻子收到发际桃面鬓角微笑直发卷发穿. 耳环穿. 帽子穿. 口红穿. 项链穿. 领带年轻+v：mala2255获取更多论文×标签2标签13表9. 在PA100K数据集上进行比较。* 表示使用相同设置的重新实现性能。我们还报告了标准偏差。AQN 80.89± 0.08 78.51± 0.0886.15± 0.4087.85± 0.43 86.58± 0.03标签2标签82.24±0.1379.23±0.1386.39± 0.3288.57± 0.2087.08± 0.08F1得分如[54]中所述，mA和F1评分对于类别不平衡的行人属性数据集来说是更合适和更有说服力的标准。实验设置：遵循最先进的方法[17，25]，我们采用ResNet50作为主干网络来提取图像特征。我们首先将所有图像调整为256 192像素。然后随机翻转和随机裁剪用于数据增强。使用SGD优化器，权重衰减为0.0005。我们将主干的初始学习速率设置为0.01.为了快速收敛，我们将属性查询网络和IC-MLM的初始学习率设置为0.1。批量等于64。我们使用平台学习率调度器对模型进行了25个epoch的训练。一旦学习停滞，我们将学习速度降低了10倍，耐心是4。结果和分析：我们在表9中报告了结果。我们观察到Label2Label在mA、准确度和F1评分方面实现了最佳性能。与之前设计复杂SPAC和SEMC模块以提取区分性语义特征的最先进方法SSC [25]相比，我们的方法在mA方面实现了0.37%的性能改进此外，我们报告了MsVAA、VAC和ALM方法在与[25]相同的设置中重新实施的结果我们的方法始终优于这些方法。我们进一步展示了FC头和属性查询网络的结果。我们看到，通过将FC头替换为Transformer解码器层，性能得到了改善，这显示了我们的属性查询网络的优越性我们的Label2Label优于属性查询网络方法1.35%的mA，这表明语言建模框架的有效性。4.3服装属性识别数据集：服装属性数据集[7]由1，856张包含穿着衣服的人的图像组成每张图像都标注了26个服装属性，例如方法马精度精度召回F1[28]第二十八话72.7070.3982.2480.4281.32[第37话]74.2172.1982.9782.0982.53VeSPA [50]76.3273.0084.9981.4983.20LGNet [35]76.9675.5586.9983.1785.04PGDM [29]74.9573.0884.3682.2483.29[49]第四十九话80.1076.9886.2685.6285.50VAC [17]*79.0478.9588.4186.0786.83[54]*79.2678.6487.3386.7386.64[25]第二十五话81.8778.8985.9889.1086.87+v：mala2255获取更多论文14瓦。Li等人表10. 我们的方法和其他国家的最先进的方法之间的比较服装属性数据集。我们报告准确度和标准偏差。方法颜色模式部分外观总S-CNN [1]90.5092.9087.0089.5790.43M-CNN [1]91.7294.2687.9691.5191.70美国有线电视新闻网[1]93.1295.3788.6591.9392.82Meng等人 [四十三]91.6496.8189.2589.5392.39FC头91.39± 0.23 96.07± 0.05 87.00± 0.27 88.21± 0.36 91.57± 0.12AQN 91.98± 0.25 96.37± 0.23 88.19± 0.47 89.89± 0.33 92.29± 0.05标签2标签92.73± 0.07 96.82± 0.02 88.20± 0.09 90.88± 0.1892.87±0.03颜色和图案。我们使用1,500张图像进行训练，其余的用于测试。为了进行公平的比较，我们只使用23个二进制属性，并忽略其余三个多类值属性，如[1，43]所示。我们采用准确性作为度量标准，并报告了以下四个服装属性组的准确性[1，43]。实验设置：为了进行公平的比较，我们使用AlexNet来提取图像特征[1，43]。我们使用余弦衰减学习率调度器对模型进行了22个epoch的训练。我们使用初始学习率为0.05的SGD优化器。批量设置为32。对于属性查询网络，我们采用了2层Transformer解码器（L=2）。结果和分析：表10显示了结果。我们观察到，我们的La-bel 2Label达到了92.87%的总准确率，这优于其他方法与一个简单的框架。MG-CNN为每个属性学习一个CNN，导致更多的训练参数和更长的训练时间。与属性查询网络方法相比，我们的方法在所有属性组上都取得了更好的性能，这说明了我们的框架的优越性。5结论在本文中，我们介绍了Label2Label，这是一个简单而通用的多属性学习框架。与现有的多任务学习框架不同，本文提出了一种语言建模框架，将每个属性标签看作一个“词”。我们的模型学习实例级属性关系所提出的图像条件掩蔽语言模型，随机屏蔽一些与优化的特定领域的方法相比，La-bel 2Label在三个多属性学习任务上取得了有竞争力的结果致谢。这项工作部分得到了中国国家重点研究发展计划2017YFA0700802的支持，部分得到了中国国家自然科学基金62125603和U1813218的支持，部分得到了北京人工智能研究院（BAAI）的资助。作者对饶永明和李志恒的慷慨帮助表示衷心的感谢+v：mala2255获取更多论文MNΣΣ2MPJNJii，Prec=Ni=1|YiYi′|我我，|Yi′|ii，F1=|Yi|j=1标签2标签15补充材料A评估指标对于行人属性预测，我们采用了五个评价指标。我们提出了这些指标的细节。唯一基于标签的指标是平均准确度（mA）指标，它是每个属性的正准确度和负准确度的平均值。在数学上，mA的计算公式为：mA=1mA（TPj+TNj），（5）其中M是属性的数量，Pj和Tpj分别表示第j个属性的正样本和正确预测的正样本的数量，Nj和Tnj分别是第j个我们还考虑了四个基于示例的指标：准确度，精确度，召回率和F1分数：1Σ |Y∩Y′|1Σ|YY′|Ni=1（六）1Σ |Y∩Y′|2、Prec和RecPrec+Rec其中N表示样本的数量，Yi是第i个样本的正标签，Yi′是第i个样本的预测正值。B加权策略对于人脸属性识别和服装属性识别，我们遵循通常的做法，即不使用加权策略的损失函数。因此，我们有：MLmlm（x）= yjlog（pj）+（1−yj）log（1−pj），j=1MLa qn（x）= yjlo g（lj）+（1−yj）log（1−lj）。j=1（七）NNACC=Rec= Ni=1、+v：mala2255获取更多论文ΣΣ积极属性AE在被BN积极属性5S在被BABLBN步EGBRCHSM我们马亩的RHNB的PNNLSBWANT哟积极属性在BRHMHC积极属性AE被BLBNBKCHDCEGMSNENB的HM马MSNEPSPNSMSHNBPSSMSHWA我们WLNLWL16瓦。Li等人见图4。自我注意力层中注意力分数的更多可视化结果。我们用四个样本展示了第一个头部在第一层的注意力。每个样本的正地面实况属性标签列在相应的左下角。对于行人属性识别，我们遵循[25，54]中广泛使用的加权二进制熵策略。这样，我们就有：MLmlm（x）=wj（yjlog（pj）+（1−yj）log（1−pj）），j=1MLaqn（x）=wj（yjlog（lj）+

下载后可阅读完整内容，剩余1页未读，立即下载