分层多标签对比学习框架

44 浏览量更新于2023-10-25 收藏 950KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16660使用所有标签：一种分层多标签对比学习框架舒张然徐彩明熊哲坦Ramaiah Salesforce研究{shu.zhang，ran.xu，cxiong，cramaiah} @ salesforce.com摘要当前的对比学习框架集中于利用单一的监督信号来学习表示，这限制了对看不见的数据和下游任务的有效性。在本文中，我们提出了一个分层的多标签表示学习框架，可以利用所有可用的标签，并保持类之间的层次关系。我们引入了新的层次结构的对比损失，联合应用层次惩罚的对比损失，并强制执行层次结构的约束。损失函数是数据驱动的，并自动适应任意的多标签结构。在多个数据集上的实验表明，我们的关系保持嵌入在各种任务上表现良好，优于基线监督和自监督方法。代码可在https://github.com/salesforce/hierarchicalContrastiveLearning上获得。1. 介绍在现实世界中，层次多标签自然且频繁地出现。生物体的生物学分类以分类学层级结构化在电子商务网站、零售空间和杂货店中，产品由几个级别的类别组织。层次表示是类的自然分类，并且用于有效地表示不同类之间的关系。然而，这种关系很少在学习任务中使用，传统的监督方法更倾向于将它们的类组织在一个平面列表中。在单任务学习问题中，模型只针对一个对象学习，类的平面列表是一种合理的方法。然而，在表示学习框架中，其中单个嵌入函数可以用于各种下游任务，利用所有可用的监督信号是至关重要的。为了推广到未知的下游任务和看不见的数据，嵌入函数必须简洁准确地表示数据，这包括保留嵌入空间的层次分类。然而，利用标签之间的这种层次关系的表示学习方法近年来，已经提出了一些无监督[5，13，16]和监督[17，18，30，42]度量学习框架。这些方法通常依赖于最小化正对的表示之间的距离和最大化负对之间的距离。在无监督（自监督）设置[5，13，33，46]中，正对是同一图像的不同视图，最典型的是通过锚图像的随机增强获得[5，13，33]。在监督设置中，标签用于从同一类的不同图像及其增强构造更广泛的正对[17，18]。从锚图像的增强构造的正对，以及从锚图像和相同类别的其他图像构造的对被认为是等效的，并且学习过程试图将所有这些正对中的图像之间的距离最小化到相同的程度。虽然在该范例中学习的表示对于基于监督标签的下游任务（例如分类预测）可能是令人满意的，但是其他任务（例如实例预测、检索、属性预测和聚类）可能由于缺乏对这些任务的直接监督而受到影响。此外，这些方法不支持多标签学习，并且无法利用关于标签之间的关系的信息。形式上，在分层多标签设置中，每个数据点具有多个相关标签，并且标签之间的关系在层次结构中最好地表示。参见图1（b）中的树结构示例表示。例如，在DeepFashion数据集[21]中，每个数据点都有3个分层结构的标签：类别（牛仔布、羊毛衫、衬衫等）、产品（通过产品ID识别）和变化（通常为颜色/图案变化）。对于图1（a）中的锚图像，其属于牛仔类别中的特定产品，子类别图像是来自同一产品的不同样本，并且类别图像来自同一类别中的不同产品16661图1.分层多标签对比学习概述。A positive pair is constructed by pairing the anchor image with images drawn from all levels in thehierarchy.这项工作的学习目标是迫使正对更靠近，但力的大小取决于对的标签的共同祖先。(a)锚点图像和相应的阳性配对（蓝色）和阴性配对（红色），在单位球体上可视化。不同深浅的蓝色节点表示它们与锚图像的关系，蓝色深浅的暗度对应于与锚图像的距离增加（在标签空间和表示空间中）。红色数据点来自数据集中的不同类别，因此与锚图像形成负对（b）来自（a）的样本图像在标签层级中的表示使用树数据结构来可视化多标签。血淋淋的所有的负面形象都来自不同的类别。我们提出的方法利用所有可用的标签来学习嵌入函数，该函数可以在嵌入空间中保留标签层次结构。我们开发了一个通用的表示学习框架，可以利用现有的地面真相和学习嵌入，推广到各种下游任务。我们提出了两种新的损失（及其组合），利用层次多标签之间的关系，并学习表示，可以保留在表示空间中的标签关系。分层多标签对比损失（HiMulCon）强制执行取决于标签空间中锚图像和匹配图像之间的接近度的惩罚在此设置中，我们将标签空间中的邻近度定义为树结构中祖先的重叠。分层约束强制丢失（HiConE）防止分层违规，也就是说，它确保标签空间中距离较远的对的丢失永远不会小于距离较近的对的丢失。在这个框架下学习的模型可以像传统的表示学习框架一样使用，模型使用我们的新损失函数进行训练，以学习有效的编码器网络，并且从这种方法生成的嵌入可以用于各种下游任务。我们的框架并不局限于层次化的多标签场景.当只有单级标签可用时，它简化为监督对比方法[18]，当没有标签可用时，使用Simplified [5]方法。我们证明了我们的框架相比Khosla等人的有效性。[18]，Chenetal. [5]和基于下游任务的标准交叉熵方法，例如类别预测，子类别检索和聚类NMI [38]。这些任务还表明，我们的方法保留了表示空间中标签之间的层次关系，并推广到看不见的数据。2. 相关工作对比学习首先在自我监督环境中进行研究[5，13，16，33，34，46]，通常依赖于借口任务来学习嵌入。对借口任务的监督通常从数据本身生成示例包括去噪[37]、着色[48]、图像识别[15]、对象检测和图像分割[40]、动作识别[26]和补丁排序[8]。van den Oordet al.[25]使用概率对比损失来捕获不同数据视图之间的互信息。他们展示了他们的方法在四个领域的有效性：语音、图像、文本和再强化学习。Li等[20]执行聚类以找到原型嵌入，其类似于图像嵌入。以对比的方式学习表征的功效导致了监督式表征方法的发展。Khosla等人[18] Chenet al. ”[5]《礼记》云：“礼之以礼，礼之以礼。监督的骗局-16662图2.损失的概念可视化(a)HiMulCon损失：在每个正对上实施与标签空间中的接近度成比例的惩罚标签空间中距离锚图像较近的图像具有较高的惩罚（由箭头表示），迫使它们更靠近。(b)HiConE损失：通过确保在标签空间中距离较远的图像对将永远不会比距离较近的图像对具有更低的损失来强制实施层次约束。(c)合并（HiMulConE）损失：当将（a）和（b）组合时，结合层级保持约束来应用惩罚。负样本的损失项不变，并且在该示例中省略了负图像。传统学习方法通过从同一类的不同实例中采样来制定正对，而不是在无监督设置中增强同一图像的不同视图。他们表明，监督对比学习是三重损失[42]和n对损失目标[31]的推广。Ho等人[17]介绍了一种可互换地利用对象的多个实例来学习自监督和半监督设置中的视点不变表示的方法。Maubrik in'ski等[22]提出了一种用于多标签设置中的视觉推理的对比度学习框架，但假设任何一对图像即使共享一个标签也可以被认为是积极的Zhao等人[49]提出了一种用于分层设置中的分类的归一化类相似加权和，这是逻辑回归的替代。Wu等[44]通过计算每个层次的概率来学习分层分类器。Cho等人[6]设计了一种时尚层次分类模型对时尚图像进行分类。Bilal等人[3] Yanet al. [47]在一般网络的一侧设计了一个深度网络分支，并在每个层次上策略性地学习超类。而不是解决标签不平衡问题，[2]设计了两个交叉熵变化来处理前k个错误。Wehrmann等人[41]介绍了学习网络的多步流水线，该网络输出对层次结构中的每一层的预测。Giunchiglia等人[12]介绍了相干的多标签分类网络，它强制执行层次约束（在第3.3节中描述）。他们介绍了二进制交叉熵损失的修改版本，其中一个单独的模块将修改模型置信度，使得与层次结构中所有类相关的置信度Wang等人[39]提出了一种基于查询和图库特征之间[19]中的方法是建立在三重损失的基础上的，其中特征的级别是定义为成对点之间的相似度。这些方法从根本上不同于所提出的方法，后者直接根据数据的自然特征建立层次结构。Ge等人[11]构建了一种分层三元组损失，其中分层树表示是通过利用类内距离来制定分组机制，使用单级标签结构构建的，然后用于硬否定挖掘和损失函数。这种方法在两个重要方面与我们的方法不同，首先，它依赖于三重态损失而不是对比损失。三重损失是对比损失的一种特殊情况[18]。第二个区别在于层次树的构造。我们的方法依赖于多层次的标签信息来构建树，而Ge等。[11]从数据本身动态地构建它。从数据中制定树可能会导致将底层模型和数据中的偏差传播到表示学习框架，并且可能容易产生噪声。Garnot等人最近提出的一种方法。[10]通过将类距离集成到原型网络中来建模分层类结构，其中在我们的方法中使用层次树是不同的。虽然我们的实验包括图像分类和图像检索，但我们的目标与多任务方法不同[1，12，41]。该算法是一个通用的分层多标签表示学习框架，可以应用于任何下游任务。我们的方法对下游任务是不可知的，并且没有直接针对它们进行优化。3. 方法为了更好地解释我们的方法，我们定义了一些将在整个工作中使用的术语。分层多标签数据集是指每个数据点都有多个相关标签与16663Σ ΣΣ∈∈∈\ΣΣL--∈{}ΣΣΣ−它和依赖性最好用有向无环图或树来描述叶节点表示唯一的图像标识符，多个样本。损失定义为并且树中的所有非叶节点表示各个级别的标签信息。层次类似于树结构中的深度。较低的级别对应于较宽的Lsup=−1logi∈I|P（i）|p∈Pexp（fi·fp/τ）a∈A\iexp（fi·fa/τ）（二）类别（更靠近树的根），最低级别对应于类别标签。例如，在图1中，叶节点将对应于图像标识符。通过识别一对图像来形成在级别1 L处的正对，所述一对图像具有直到级别1的共同祖先并且此后发散。再次参考图1，锚图像和类别图像在类别级别形成一对，因为它们之间只有共同的类别标签。在图形术语中，级别l处的一对图像意味着它们将在级别l处具有它们的最低共同祖先。我们的方法构造类似于监督对比学习[18]方法。首先，使用所有可用的分层标签来学习编码器网络和投影头。然后，编码器网络权重被冻结，并且在编码器网络上不进行微调P表示多视图批次中除i之外的所有阳性的索引。A表示批次中的所有图像，并且a A i是批次中除第i个图像之外的所有图像。因此，监督对比损失在分子中整合了所有正样本的信息，并且可以本质上利用正样本和负样本之间的对比能力。3.2.分层多标签对比损失虽然在Eq. 2可以区分多个阳性对，它只针对单个标签设计。将L定义为所有标签级别的集合，l L是多标签中的一个级别。则由i索引的锚图像和级别l的正图像的配对的损失被定义为：exp（fi·fl/τ）我下游任务。如果需要额外学习对于下游任务（例如分类任务），vl对（i，pl）=loga∈A\ipexp（fi·fa/τ）（三）用编码器生成的嵌入作为分类器的输入来训练单独的分类器3.1.对比学习分层多标记对比度损失（HiMul-Con）然后可以被定义为：对比学习损失介绍了陈等。[5]，最初是一种自监督学习方法。这种方法可以拉动锚及其增强版本，以-LHMC=1l∈L |L| i∈I−λl|P l（i）|L对（i，pi）pl∈Pl（四）在嵌入空间中聚集，而锚和负样本被推开。一组N个随机采样的标记对被定义为x k，y k，其中x和y分别表示样本和标记，k = 1，.， N.对每个样本应用两个增强让我成为一个扩增样本的索引，j是另一个扩增样本的索引，其中i A=1，.，2N且j=i。i是锚点，j是正样本。对比损失定义为其中λ1=F（1）是对层次中的每个级别应用固定惩罚的控制参数，P1是由i索引的锚图像的正图像的集合。F是随机选择的，并随l缩放。有关F的不同选择的研究，请参阅补充材料。图2（a）从概念上说明了这种损失。HiMulCon将更高的惩罚应用于从层次结构中的较高级别构建的图像对，迫使它们比从层次结构中的较低级别构建的图像对更接近。Lself=−i∈Aexp（fi·fj/τ）k∈A\iexp（fi·fk/τ）（一）等级制度注意损失的构造与不同水平的对之间的相互作用有关对这里，f表示嵌入空间中的特征向量，τ是温度参数。直观地，numerator计算锚点i与其正样本j之间的内部点积。分母计算i和所有负样本之间的所有内部点积，其中总共计算2N1个样本监督对比学习[18]扩展了Eq. 1到一个有监督的场景特别是，考虑到标签的存在，锚的正配对从Simplified [5]中的一对多正-负样本，到Simplified [ 5 ]中的多对正-负样本。在最高级别上形成的所有其他配对图像将在较高级别上形成负对，并且由具有某个较低共同祖先级别的对形成的负对自然地形成硬负样本，因此成为硬负挖掘的一种此外，λl项有助于显式地保持如果只有一个级别的标签，HiMulCon损失减少监督对比损失。因此，监督对比损失是HiMulCon的特殊情况16664MaxL−3.3.层次约束强制损失层次约束强制损失，HiConE，强制表示学习设置中的层次约束。在分类设置中，如Wehrmannet al. [41]和Giunchigliaet al. [12]，层次约束确保如果一个数据点属于一个类，它也应该属于它的祖先。这可以根据置信度分数来定义，其中层次结构中较高的类不能具有比祖先序列中较低的类更低的置信度分数。适应于对比学习场景，我们将分层约束定义为要求来自分层结构中的较高级别的图像对之间的损失永远不会高于来自较低级别的图像对之间的损失。这种观察导致我们开发了一个分层约束强制损失（HiConE）。如果我们将Lpair定义为水平l上所有正对的最大损失：Lpair（l）=maxLpair（i，pi）（5）3.5.分层分批抽样策略Wu等[43]强调了抽样在表征学习中的重要性。Khosla等人[18]还表明，在一批中具有大量的硬阳性/阴性导致性能提高。在分层多标签设置中，有必要确保每个批次具有来自每个锚图像的所有层次的充分表示。因此，我们设计了一个自定义的批量采样策略，确保每个图像可以形成一个积极的一对图像，共享一个共同的ances-尝试在结构中的所有级别方法很简单：随机采样锚图像并获得标签层次结构。对于多标签中的每个标签，在子树中随机采样图像，使得锚图像和采样图像具有直到该标签的共同祖先。采取步骤以确保每个图像在一个时期中仅被采样一次。例如，在图1（b）中，锚图像将被采样。接下来需要对每个水平的阳性配对进行采样。首先，来自子类别1的随机图像将Max（i，pi）l采样。接下来，将对来自类别1但不是子类别1的随机图像进行采样。此过程重复进行，然后，HiConE损失LHCE被定义为：所有层级的人。最后，增强版本的也生成这些图像。一旦完成，另一个锚图像被随机采样，并且该过程重复Σ1Σ−1max（Lpair（i，pi），Lpair（l−1））直到批量大小的图像数量已被采样。l∈L|L|i∈I|P（i）|pl∈PlLmax（六）4. 实验HiConE以从L到0的l的降序顺序计算，这有助于确保在级别11处的对损耗永远不会小于在l处的最大对损耗。图2（b）对这种损失进行了概念性的可视化，其中在层次结构中较低级别形成的对永远不会比在层次结构中较低级别形成的对具有更高的损失。3.4.增强对比损失的层次多标号约束Intuelance Eq. 4作为一个独立的惩罚定义的水平，而方程。6是一种依赖性惩罚，是相对于较低层计算的损失来定义的。我们可以将这两种损失结合起来，形成组合损失，即分层多标签约束执行对比损失（HiMulConE），LHMCE我们评估三个下游任务的损失：图像分类、子类别上的图像检索精度和聚类质量的NMI。我们研究的我们还提供了t-SNE可视化的定性结果[35]。4.1. 数据集我们使用几个流行的数据集进行实验：ImageNet[29] ， DeepFashion In-Shop [21] ， iNaturalist [36] 和Mod-elNet 40 [45]。为了展示我们的结果对流行的基准，我们目前的结果在这些数据集的标准配置。我们还将其中一些数据集分为可见集和不可见集，其中我们使用可见集来训练编码器网络，并评估我们的方法的性能和不可见数据集的相关基线我们使用分裂表明，建议的损失能够学习广义表示，工作良好，Σ1 Σ−λl max（Lpair（i，pi），Lpair（l−1））看不见的数据l∈L|L|i∈I|P（i）|pl∈PlLmax（七）DeepFashion数据集是一个大规模的服装数据集，拥有超过80万张图像。我们使用In-Shop子集，注意，组合损失本质上是将λ1项添加到等式中。6，给我们一个损失项，它有一个等级惩罚和层次约束执行项。我们的实验，因为它有三个层次的标签：类别、产品ID和变异。变化可以是同一产品的不同颜色或子样式ModelNet 40是一个同步-16665←≥←−←×××ImageNet [29][21]第二十一话[36]第三十六话[45]第四十五话SimCLR [5]69.5370.3854.0279.26交叉熵77.6072.4456.8681.31SupCon [18]78.7072.8257.2881.60引导[10]76.6072.6157.3383.49HiMulConE（我们的）79.1473.2159.4088.46表1.完整数据集上的顶级分类精度。这里使用了原始论文中描述的标准数据集和分割。对于ImageNet和iNaturalist数据集，任务是在最精细的子类别级别进行分类，而对于DeepFashion和ModelNet40则执行超类别级别复制所有基线结果图3.完整数据集上的检索结果。来自40个对象类的3，183个CAD模型的综合数据集Ithas two-level hierarchical labels: category and CAD im-age ID. iNaturalist is a species classification dataset, withtwo levels in the hierarchy, a super-category for the genus,and species categories. ImageNet类是使用WordNet [23]层次结构分层结构的，我们使用Robustness库[9]中发布的4.2. 实现细节我们采用预先训练的 ResNet-50 [14] ，它是在ImageNet [7]上训练的，作为编码器网络。 For theImageNet experiments, we train the model from scratch.我们对100个时期的数据集进行微调具体来说，我们微调了ResNet- 50第四层的参数以及具有建议损失的数据集上的多层感知器头[18优化器是带有动量的SGD[28]。在以这种方式训练网络之后，编码器模型权重我们训练了一个额外的线性分类器40个时期，以获得分类精度。我们使用相同的设置为所有的模型。虽然提出的损失可以与线性分类器一起训练，但我们发现性能差距相当小。我们实验中的批量大小为512，并且我们在所有实验中使用温度τ为0.1。我们从学习率0.1开始，每40个epoch减少10这一点与[13，18]相同。算法一：分层丢失实现数据：批量标签B尺寸N L，掩模M尺寸NL，特征F尺寸N dl N 1;M1;batchLoss0;而我做了int[i，i]=0;levelMask=MB;i←0;levelPairings=torch.stack（[torch.all（torch.eq（levelMask[i]，levelMask），dim=1)对于i在range（N）中]）;return（i，i，i）;/*建议的损失函数*/batchLoss=batchLoss+levelLoss;端第3.5节中描述的分层关系和批量抽样策略需要仔细实施损失计算。由于配对可以是较低级别的正对和较高级别的负对，损失计算按层聚合16666×DeepFashionModelNet40DeepFashion ModelNet40看到看不见看到看不见SimCLR70.2668.1277.0972.26交叉熵77.8171.9485.1779.77SupCon81.4673.9388.3379.28指导79.3474.0489.0182.22HiMulCon80.5474.8889.2884.44HiConE80.6775.2889.0984.40HiMulConE80.5275.2989.4585.37表3. NMI在DeepFashion In-Shop和ModelNet 40上。CE代表表2.在DeepFashion In-Shop和ModelNet 40的可见/不可见分割中，分类准确率名列前茅。厌恶交叉熵。产品NMI表示其平均NMI。表4.使用MAP评估指标的检索结果首先计算最高层。重组-在每个级别计算损失并将其聚合以形成批量损失，这允许直接张量操作并大大加快计算速度。参见算法1表示基于PyTorch [27]的伪代码。从最高级别开始，在每个级别处构造 N N 配对掩码，其中levelPairing[i，j]= 1，如果labels[i]=labels[j]at level l else0. 在单级方案中，levelPairings仅计算一次，并且将设置相同的类，简化为Khoslaet al。[18 ]第10段。levelLoss在Eq.分别是4、6和7。在未标记的场景中，levelPairings将是一个对角矩阵，并且该实现简化为Simplified [5]。4.3. 分类精度我们将提出的损失函数与Simplified 进行比较，Simplified是一种无监督的对比损失[5]，两种监督学习损失函数：交叉熵和监督对比损失（SupCon）[18]，以及结合分层标签思想的最先进方法（Guided）[10]。我们不与Khosla等人的其他度量学习方法进行比较。[18]表明，流行的metric学习方法，如三联体丢失[30，42]是SupCon的特殊情况。交叉熵使用标签的平面列表和softmax [4]函数来训练分类器，Sup-Con使用标签来构建正对以训练对比损失。结果见表1，此处报告的分类结果基于数据集的标准配置。监督的方法是非常有竞争力的这项任务，因为编码器也是训练与分类任务相同的监督信号虽然我们的方法在表示学习阶段可以访问额外的标签，但这些标签不用于训练分类器。这里评估的所有方法都具有完全相同的分类器训练机制。4.4. 图像检索精度这里的下游任务是从图库中检索与查询图像属于同一类的图像top-k准确度通常用于衡量查询图像类是否可以在图库的top-k检索结果中找到。在此任务中，class 用于引用数据集中最精细的子类别 ID 对于DeepFashion 数据集，测试集形成查询图像，在ModelNet中，我们将数据分为训练集，验证集和测试集，并使用测试集作为查询图像。为了评估iNaturalist数据集上的检索结果，我们创建了一个自定义查询和图库集：我们遵循原始的训练/验证分割，使用所有579 K训练图像来训练编码器模型，并使用20%的验证数据集（17 K图像）作为查询集，其余（78 K图像）作为图库集。除了分类实验的基线外，我们还包括三重丢失[30，42]和FashionNet [21]结果，因为它们更适合检索任务。我们无法找到等效的结果，或一个通用的实现Ge等。[11]（论文中使用了不同的编码器网络），因此这里不包括他们的结果。在图 3 中，我们显示了DeepFashion In-Shop数据集、iNaturalist和Modelnet 40上的三个损失与基线的结果。我们的损失明显优于基线结果，HiMulConE在较小的k下显示出更大的改善。此外，最近的一项研究[24]表明，top-k检索结果存在缺陷，并提出了一个度量，R（MAP）处的平均平均精度我们在表4中报告了结果。类别NMI产品NMI类别NMI产品NMISimCLR0.150.730.310.52CE0.10.660.120.4SupCon0.570.680.570.69HiMulCon0.570.80.620.88HiConE0.580.780.610.88HiMulConE0.590.810.620.88DeepFashioniNaturalistModelNet40SupCon31.561.521.6HiMulConE35.666.926.016667图4.对DeepFashion和ModelNet的不可见分裂的检索结果HiMulConE的性能优于其他方法，特别是在较低的k。4.5. 不可见数据4.5.1设置为了评估我们的模型在不可见数据上的性能，我们将DeepFashion和Modelnet40数据集分为可见和不可见数据集。每个数据集进一步分为训练集、验证集和测试集。seen集合用于训练编码器网络，并冻结模型。对于未见过数据的分类任务，分类器在由编码器网络生成的嵌入上训练，该编码器网络在已见过数据上训练，编码器网络不在未见过数据上微调。4.5.2分类我们在看到的数据集上微调了预训练模型。为了在看不见的数据集中获得结果，我们只在从编码器网络生成的嵌入上训练分类器，该编码器网络是在看不见的数据集上训练的。表2显示了DeepFash-ion In-Shop和ModelNet 40上分类准确度的前1名准确度。可以看出，所提出的方法在两个数据集的不可见部分上获得比基线更好的结果，同时在可见部分上获得与SupCon相当的理论上，HiConE通过尊重相邻级别的语义关系来利用数据集的属性另一方面，基于级别差异的固定惩罚，根据标签空间中它们之间的距离惩罚对。作为这两种方法的混合，HiMulConE可以利用标签和嵌入空间的差异。在表2中，我们看到HiConE在树的不同级别中具有显著语义重叠的数据集上做得更好（Deep-Fashion），并且在语义上良好分离的数据集（ModelNet）中差距要小得多。4.5.3图像检索实验设置类似于第4.4节，不同之处在于所使用的数据仅来自不可见的数据集。结果示于图4中。再一我们的损失比基线表现得更好，特别是在k值较低时。这表明我们的工作与基线相比具有普遍性。由于我们的方法可以将标签层次结构纳入网络损失中，因此嵌入空间保留了标签空间层次结构。4.5.4聚类聚类是另一个下游任务，可用于评估嵌入的质量如Hoet al.[17]，我们使用K-means和NMI [38]评分来评估聚类质量。我们首先为看不见的测试集中的所有图像生成嵌入，并在表示空间中执行K-means。聚类在两个级别进行：树中的最低（类别）和最高（产品ID）级别。在类别级别，K被设置为数据集中的类别数量，NMI测量类别标签和clusterId之间的一致性。在ID级别，对于每个类别，我们执行K均值，K设置为该类别中的产品数量。所有类别的ID水平NMI的平均值报告在表3的产品NMI列中。在产品NMI的基线上的显着改善表明，我们的方法保持了类别内的子类别的可分性，也表明我们的方法保留了表示空间中标签之间的层次5. 限制和社会影响我们的方法的一个局限性是需要层次标签来学习编码器网络，这可能是昂贵的。此外，我们的方法已经在标签具有树状结构的数据集上进行了测试，其中每个节点只有一个父节点。然而，将其扩展到一般的图结构是相对简单的。另一个常见的局限性来自于用于实验的未开发数据。数据中的偏差[32]可以通过模型学习，这可能会产生重大的社会影响。通过重新注释或重新构建数据集以充分表示数据的明确措施是必要的。6. 结论分层分类的数据在现实世界中是常见的，我们的新方法提供了一个通用的框架，利用所有可用的标签数据，减少到标准的监督或自我监督的方法在缺乏足够的数据。我们的方法在各种下游任务和看不见的数据上都能很好地推广，并且显著优于评估的基线。在未来的工作中，我们希望将这项工作扩展到不在分层框架中的多标签场景，以及其他模态和多模态设置，包括语音和语言等模态。16668引用[1] Maxim Berman，Herve Jegou，Andrea Vedaldi，IasonasKokkinos，and Matthijs Douze. Multigrain：类和实例的统一图像嵌入。 arXiv 预印本 arXiv ： 1902.05509 ，2019。3[2] LucaBertinetto ， RomainMueller ， KonstantinosTertikas，Sina Samangooei，and Nicholas Lord.更好地弥补失误：利用具有深层网络的类层次结构。在IEEE/CVF计算机视觉和模式识别会议论文集，第12506-12515页，2020年。3[3] Alsallakh Bilal，Amin Jourabloo，Mao Ye ，XiaomingLiu，and Liu Ren.卷积神经网络可以学习类层次结构吗？ IEEE Transactions on Visualization and ComputerGraphics，24：152-162，2018。3[4] 克里斯托弗·毕夏普。模式识别与机器学习，2006年。斯普林格。7[5] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架在国际机器学习会议上，第1597-1607页一二四六七[6] Hyunsoo Cho，Chaemin Ahn，Kang Min Yoo，JinseokSeol，and Sang-goo Lee.在时装分类中利用类层次结构。IEEE/CVF计算机视觉研讨会论文集，2019年。3[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-fei Li. Imagenet：一个大规模的分层图像数据库。在 IEEE Conference on Computer Vision andPattern Recognition，第248-255页，2009年。6[8] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在IEEE计算机视觉国际会议论文集，第1422-1430页，2015年。2[9] 洛根·恩斯特罗姆，安德鲁·伊利亚斯，哈迪·萨勒曼，希巴尼 · 圣图尔卡和迪米特里斯· 齐普拉斯。鲁棒性（Python库），2019。6[10] Vivien Sainte Fare Garnot和Loic Landrieu。利用类层次结构和度量引导的原型学习。在2021年英国机器视觉会议上。三六七[11] 葛伟峰。深度度量学习与分层三元组丢失。在欧洲计算机视觉会议（ECCV）的会议记录中，第269-285页，2018年。三、七[12] Eleonora Giunchiglia和Thomas Lukasiewicz。相干分层多标签分类网络。arXiv预印本arXiv：2010.10151，2020。三、五[13] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页一、二、六[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。IEEE/CVF计算机视觉和模式识别会议论文集，第770-778页，2016年。6[15] Olivier Henaff，Aravind Srinivas，Jeffrey De Fauw，AliRazavi，Carl Doersch，S.M. Ali Eslami和Aaron van denOord具有对比预处理的字典编码2020年国际机器学习会议。2[16] DevonHjelm ， AlexFedorov ， SamuelLavoie-Marchildon ， Karan Grewal ， Adam Trischler ， andYoonne Bengio.通过互信息估计和最大化来学习深度表示。在2019年国际学习代表。一、二[17] Chih-Hui Ho ， Bo Liu ， Tz-Ying Wu ， and NunoVasconcelos.利用视图中的线索：多视角目标识别的自监督和正则化学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第9090-9100页，2020年。一、三、八[18] Prannay Khosla ， Piotr Teterwak ， Chen Wang ， AaronSarna ， YonglongTian ， PhillipIsola ， AaronMaschinot，Ce Liu，and Dilip Krishnan.监督对比学习。神经信息处理系统的进展，33，2020。一、二、三、四、五、六、七[19] 金勇贤和朴元杓深度度量学习的多级距离在AAAI，2021年。3[20] Junnan Li ， Pan Zhou ， Caiming Xiong ， RichardSocher，and Steven C. H. Hoi非监督表征的原型对比学习。arXiv预印本arXiv：2005.04966，2020。2[21] 刘紫薇，罗平，邱石，王晓刚，唐晓鸥. Deepfashion：支持强大的服装识别和检索与丰富的注释。在IEEE/CVF计算机视觉和模式识别会议论文集，第1096-1104页，2016年。一、五、六、七[22] 我是马吉·马吉斯基和杰切克·马吉乌克。抽象视觉推理的多语言对比学习arXiv预印本arXiv：2012.01944，2020。3[23] 乔治·A·米勒 WordNet：一个电子词汇数据库。麻省理工学院出版社，1998年。6[24] Kevin Musgrave，Serge Belongie，and Ser-Nam Lim.一个计量学习的现实检查。在欧洲计算机视觉上，第681-699页。Springer，2020年。7[25] Aaron van den Oord、Yazhe Li和Oriol Vinyals。使用对比预测编码的表示学习。 arXiv 预印本 arXiv ：1807.03748，2018. 2[26] 潘田，宋一兵，杨天宇，姜文豪，刘伟。Videomoco：使用时间对抗示例的对比视频表示arXiv预印本arXiv：2103.05905，2021。2[27] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zeming Lin 、 Natalia Gimelshein 、 LucaAntiga 、 Alban Desmaison 、 Andreas Kopf 、 EdwardYang 、 Zachary DeVito 、 Martin Rai son 、 AlykhanTejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chintala。Pytorch：一个操作风格的高性能深度学习库。

下载后可阅读完整内容，剩余1页未读，立即下载