没有合适的资源?快使用搜索试试~ 我知道了~
Two parrots perching on a tree branch A black cat is sleeping, head on a computerA white dog sitting on a couch1122345A dog looking bashfully to the side6191630图像-文本-标签空间中的统一对比学习0Jianwei Yang 1 * Chunyuan Li 1 � Pengchuan Zhang 1 � Bin Xiao 2 �0Ce Liu 2 Lu Yuan 2 Jianfeng Gao 101 Microsoft Research at Redmond, 2 Microsoft Cloud + AI{jianwyan,chunyl,penzhan,bixi,liuce,luyuan,jfgao}@microsoft.com0摘要0最近的视觉识别是通过人工标注的图像标签数据上的监督学习或通过网络爬取的图像-文本对上的语言-图像对比学习来学习的。虽然监督学习可能会产生更具区分性的表示,但语言-图像预训练显示了前所未有的零样本识别能力,这主要是由于数据来源和学习目标的不同属性。在这项工作中,我们将这两种数据源结合到一个共同的图像-文本-标签空间中,提出了一种新的公式,称为统一对比学习(UniCL),它具有单一的学习目标,以无缝地促进两种数据类型的协同作用。广泛的实验证明,我们的UniCL是一种有效的学习方法,可以普遍地学习语义丰富而具有区分性的表示,用于零样本识别、线性探测、完全微调和迁移学习场景。特别地,在零样本识别基准上,与语言-图像对比学习和监督学习方法相比,它分别提高了9.2%和14.5%的平均性能。在线性探测设置中,它还分别提高了两种方法的性能,分别为7.3%和3.4%。我们的研究还表明,UniCL单独是一个很好的学习器,可以与三个图像分类数据集和两种类型的视觉骨干网络(ResNet和SwinTransformer)的监督学习方法相媲美。代码可在以下链接找到:https://github.com/microsoft/UniCL。01. 引言0学习识别图像中的视觉概念一直是一个基本且长期存在的研究问题。通常,可以通过对人工标注的图像-标签对进行监督学习[10]或对网络爬取的图像-文本对进行对比学习[29,47]来解决这个问题。当0* 平等贡献0文本0图像0标签0图像-文本0图像-标签0图像-文本-标签0• CE0• SupCon0• CLIP0• ALIGN0• UniCL(我们的方法)0• 独特的标签0• 丰富的语义 • 密集的标签0• 有限的概念0方法0方法0文本0图像0标签0吉娃娃0西伯利亚哈士奇0西伯利亚哈士奇0图1.图像-文本-标签空间中的统一对比学习范式,它恢复了在图像-标签数据上的监督学习(例如交叉熵(CE)[46]或监督对比学习(SupCon)[30])和在图像-文本数据上的语言-图像对比学习(例如CLIP[47]或ALIGN [29])。0通过清洁和大规模的人工标注图像标签数据,例如ImageNet[10],监督学习可以在给定的类别上获得良好的视觉识别能力[23, 34, 53],并具有强大的迁移学习能力[14,32]。然而,收集精确的图像标签数据可能是一项费时费力且昂贵的过程,更不用说将其扩展到众多视觉概念[1]。另一方面,语言-图像对比学习最近已经成为一种有前途的方法,通过利用大量网络爬取的图像-文本对。这些对通常是嘈杂的、自由形式的,但涵盖了许多视觉概念。正如CLIP[47]和ALIGN[29]所示,从数亿个图像-文本对中学习的模型可以在广泛的视觉理解场景中实现令人印象深刻的低样本识别性能。尽管这些图像-文本模型展示了广泛的视觉概念覆盖范围,但我们在实验中发现它们通常缺乏强大的01 最大规模但私有的JFT-300M涵盖了18,291个概念。191640迁移学习所需的判别能力。一个自然的问题是:我们是否可以拥有一个模型既具有判别性表示,又具有广泛的视觉概念覆盖范围?在这项工作中,我们迈出了回答这个问题的第一步。我们从一个新的视角开始,如图1所示。我们不再将图像-标签和图像-文本数据隔离开来,而是定义了一个图像-文本-标签空间,并展示了如何消除两种数据类型之间的边界。如图1左侧所示,图像-标签数据上的监督学习[30]通常旨在将图像映射到离散的标签,并在训练过程中完全忽略与每个标签相关联的文本概念。相反,语言-图像对比学习[47]旨在学习一对视觉和文本编码器,以对齐图像和文本,如图1右侧所示。这种学习方法隐含地假设每个图像-文本对都有一个唯一的标签。将这两种学习范式并排比较,我们可以看到它们实际上都存在于共同的图像-文本-标签空间中,该空间通过将每个标签映射到文本概念来构建,用于监督学习,并为语言-图像预训练为每个文本描述分配一个唯一的标签,如图1底部所示。基于这个新的视角,我们可以简单地使用一个视觉编码器和一个语言编码器来编码图像和文本,并在标签的指导下对视觉和文本特征进行对齐(图像-文本对使用唯一标签,图像-标签数据使用手动标签)。然而,现有的监督学习和语言-图像对比学习范式无法支持从这些组合标签中学习。为此,我们提出了一种统一的对比学习方法,称为UniCL,以无缝地适应视觉-语义表示学习的两种数据类型。它以图像和文本作为输入,并根据标签导出的软化目标计算损失。通过UniCL,我们将图像-标签和图像-文本数据结合在一起,学习具有判别性和语义丰富的表示,这对于各种下游任务都是有益的。总之,我们的主要贡献是:•我们引入了一个新的图像-文本-标签空间的视角,可以无缝地统一常用的图像-标签和图像-文本数据。0•我们在图像-文本-标签空间中提出了一种统一的对比学习方法UniCL,可以从图像-标签数据、图像-文本数据或两者中学习。0•大量实验证明我们的UniCL可以有效地利用这两种类型的数据,并在标准的零样本、线性探测、完全微调和迁移学习设置中普遍实现卓越性能。02. 相关工作0监督学习。图像分类的监督学习有着悠久的历史。如前所述,监督学习的一个经典方法是将图像映射到手动标签。为了实现这个目标,许多研究工作都在推动。0从不同的角度提高图像识别性能,例如从MNIST[36]到ImageNet-1K[10]的数据规模,从卷积神经网络(CNNs)[23,26,34,35,40,52,53]到Transformers[15,43,57,61,64,67,72]的模型架构,以及从原始的交叉熵[46]到边际损失[11,42,50]和最近的监督对比损失[30]的学习目标。在本文中,我们开发了一种统一的对比学习方法,将图像-标签视为图像-文本-标签数据,以学习通用的视觉-语义空间。它回顾了标签背后的文本概念,并将它们作为一种特殊格式的语言。从这个意义上说,我们的工作也与传统的零样本分类[9,28,45,62,65,66]有关。这些工作大多关注在小规模下识别细粒度类别。我们的工作超越了这种受限制的设置,旨在从组合的图像-标签和图像-文本对中学习出一个良好且丰富的视觉-语义表示。0语言-图像对比学习。视觉与语言是一个快速发展的领域。现有的工作可以大致分为两类。(i)受到BERT[13]成功的启发,第一类研究主要集中在基于掩码标记预测和/或图像-文本匹配的通用多模态融合层的学习,给定来自视觉和文本编码器的预提取特征[17,31,38,39,44,51,63,73]。它们旨在改进诸如视觉问答[2,27],图像字幕[1,41],视觉常识推理[70]等下游任务。(ii)另一类工作侧重于从自然语言监督中学习可转移的视觉表示,包括生成式[12,48]和对比方法[16,29,47,59,60,74]。最近,对比学习在CLIP [47]和ALIGN[29]等代表性工作中得到了扩展,通过在数亿个网络爬取的图像-文本对上进行预训练。我们的工作与这些工作非常接近,因为我们也将图像-文本数据作为主要数据源之一。然而,这些工作中忽略了图像-标签数据。我们的工作提出了第一个能够无缝利用两者的统一对比学习方法。0自监督学习。视觉自监督学习(SSL)旨在从原始像素中学习通用的视觉表示,而无需标签或文本的监督[19]。对比学习为性能最佳的自监督学习模型奠定了基础[3,6,8,21,24,55,56]。它最大化了同一图像的不同增强视图之间学习表示的一致性,并最小化了来自不同图像的视图之间的一致性。这种增强视图的范式也已扩展到非对比方法[4,7,20,37],其中只考虑正面图像视图对的学习。虽然图像自监督学习在利用近乎无限的未标记图像数据进行训练方面具有巨大的潜力[18],但缺乏语言关联使其几乎不适用于零样本识别。然而,对比学习的成功在于1 1 2 23 4 5 61 1 2 2 3 4 5 6 An image ofChihuahuaA photo of ChihuahuaA picture of Siberian Huskyn1 1 2 2 ChihuahuaChihuahuaSiberianHuskySiberianHuskyTwo parrots perching on a tree branch A black cat is sleeping, head on a computerA white dog sitting on a couchA dog looking bashfully to the sideTwo parrots perching on a tree branch A black cat is sleeping, head on a computerA white dog sitting on a couchA dog looking bashfully to the side11We discuss the unique properties of our proposedUniCL and build the connections with previous commonlyused learning paradigms.An illustrative comparison isshown in Fig. 3, with more detailed analysis below.Connections to Cross-Entropy [46] We note the proposedLBiC in (1) is closely related to the standard cross-entropyloss used in supervised image classification. Specifically, thetext-to-image contrastive term in (3) recovers cross-entropyas a special case, when the following conditions are satisfied:(i) the text encoder fφ is represented as a simple linearembedding layer W with a bias b. (ii) The batch size |B| issufficiently larger than the number of classes K, so that all191650SSL启发了这种方法的推广,适用范围更广,例如图像-文本设置中的CLIP[47]和我们的图像-文本-标签设置中的UniCL,其中图像和语言描述可以被视为相同潜在概念的多模态视图。03. 方法03.1. 准备工作0问题设置。我们首先定义了一个三元组数据格式S = {(xn, tn,yn)}Nn = 1,其中x ∈ X是图像,t ∈T是其对应的语言描述(从简单的标记如类别名称到自由形式的文本序列),y ∈Y是指示数据集中分组或唯一语言描述的索引的标签。正如我们之前讨论的,这种三元组数据表示是广泛存在的图像数据的一般格式,包括常用的图像-文本和图像-标签数据。一方面,来自网络的图像-文本对{(xn, tn)}Nn =1通常具有一对一的映射,因此每个图像-文本对具有唯一的标签,S简化为{(xn, tn, yn ≡ n)}Nn =1。另一方面,尽管图像分类问题通常使用简单的类别标签或索引,但每个标签是根据任务定义中概念的相似性引导的[10]。因此,对于图像-标签数据,S简化为{(xn, tn ≡ C[yn],yn)}Nn =1,其中C是由yn索引的概念名称集合。基于这个定义,我们可以将图像-标签对表示为带有标签的图像-文本对,而将图像-文本对表示为具有唯一标签的对。它们如何统一的示例见图2。本文的目标是从图像-文本-标签数据S中学习,认为语言描述t中的丰富语义和标签y的结构化组织共同有助于学习语义丰富和具有区分性的图像表示x。03.2.统一的图像-文本-标签对比0对于每个图像x,图像编码器模型fθ参数化为θ首先将x表示为视觉特征向量˜v∈Rd×1:˜v=fθ(x)。对于每个语言描述t∈T,我们使用参数化为φ的文本编码器fφ(t)对其进行编码,得到其特征向量˜u∈Rd×1:˜u=fφ(t)。对于批次B中的第i个图像xi和第j个语言描述tj,我们将它们的特征向量归一化为一个超球面,使用ui=fθ(xi)0∥fθ(xi)∥和vj=fφ(tj)0∥fφ(tj)∥,它们的相似性被计算为0计算为sij=uiTvj。我们考虑图像和语言之间的双向学习目标:0min{θ,φ}L BiC=L i 2 t+L t 2 i,(1)0包括两个对比项(温度超参数τ控制对困难负样本的惩罚强度):0哈士奇图像-标签对0图像-文本对0标签0标签 1 1 2 20图像-文本-标签三元组0图2.在图像-文本-标签空间中覆盖图像-标签和图像-文本数据的示例。对于图像-标签数据,我们将每个标签与一个文本概念相关联,并根据注释的标签将图像和文本概念进行匹配(蓝色瓷砖)。对于图像-文本数据,每对都有唯一的标签索引,因此仅在对角线条目上进行匹配(绿色瓷砖)。在右侧,我们可以将它们简单地组合为图像-文本-标签三元组,红色瓷砖表示正对,而空白瓷砖表示负对。0• 图像到文本的对比损失,用于将批次中的匹配图像与给定的文本对齐0L i 2 t = − �0i∈B0|P(i)|0k∈P(i)logex0j∈Bexp(τuTi vj)(2)0其中k∈P(i)={k|k∈B,yk=yi}。0•文本到图像的对比损失,用于将匹配的文本对齐到给定的图像0L t 2 i = − �0j∈B0|P(j)|0k∈P(j)logex0i∈Bexp(τuTi vj)(3)0其中k∈P(j)={k|k∈B,yk=yj}。以右侧的图2为例,对每一行计算L i 2 t,对每一列计算L t 2i。红色瓷砖表示正对,而空白瓷砖表示负对,所有这些都是基于标签分配的。03.3.讨论与性质AB/nicbVDLSsNAFJ3UV62vqLhyM1gEVyWRoi6LblxWMG2hiWUynbRDJzNhZiKUEPBX3LhQxK3f4c6/cZpmoa0HLpw517m3hMmjCrtON9WZWV1bX2julnb2t7Z3bP3DzpKpBITDwsmZC9EijDKiaepZqSXSILikJFuOLmZ+d1HIhUV/F5PExLEaMRpRDHSRhrYR5kfRtDLHzJfiyQvXp18YNedhlMALhO3JHVQoj2wv/yhwGlMuMYMKdV3nUQHGZKaYkbymp8qkiA8QSPSN5SjmKgK9bP4alRhjAS0hTXsFB/T2QoVmoah6YzRnqsFr2Z+J/XT3V0FWSUJ6kmHM8/ilIGtYCzLOCQSoI1mxqCsKRmV4jHSCKsTWI1E4K7ePIy6Zw3ItG865Zb12XcVTBMTgBZ8AFl6AFbkEbeACDyDV/BmPVkv1rv1MW+tWOXMIfgD6/MHPlOVrg= ACFnicbVBNS8NAEN34WetX1KOXxSJ4sSRS1GOpF49VTFtoYtlsN+3SzSbsboS5ld48a948aCIV/Hmv3GT9qCtDwYe780wM8+PGZXKsr6NpeWV1bX10kZ5c2t7Z9fc2/JKBGYODhikej4SBJGOXEUVYx0YkFQ6DPS9kdXud9+IELSiN+pcUy8EA04DShGSks98zR1/QA6GXQph26I1ND309vsPm26ioZETgoNI5Y2sknWMytW1SoAF4k9IxUwQ7Nnfrn9Cch4QozJGXtmLlpUgoihnJym4iSYzwCA1IV1O9EovLd7K4LFW+jCIhC6uYKH+nkhRKOU49HVnfqSc93LxP6+bqODSymPE0U4ni4KEgZVBPOMYJ8KghUba4KwoPpWiIdIKx0kmUdgj3/8iJpnVXt82rtplapN2ZxlMAhOAInwAYXoA6uQRM4AINH8AxewZvxZLwY78bHtHXJmM0cgD8wPn8APtOgGg= ACFnicbVDLSsNAFJ34rPUVdelmsAhuLIkUdVnqxmUV+4Amlsl0g6dTMLMRChpvsKNv+LGhSJuxZ1/4yTNQlsPXDicy/3uNFjEplWd/G0vLK6tp6aO8ubW9s2vu7bdlGAtMWjhkoeh6SBJGOWkpqhjpRoKgwGOk42vMr/zQISkIb9Tk4i4ARpy6lOMlJb65mnieD5sp9ChHDoBUiPS27T+6TpKBoQOc01jFjSKdp36xYVSsHXCR2QSqgQLNvfjmDEMcB4QozJGXPtiLlJkgoihlJy04sSYTwGA1JT1O9Eo3yd9K4bFWBtAPhS6uYK7+nkhQIOUk8HRndqSc9zLxP68XK/STSiPYkU4ni3yYwZVCLOM4IAKghWbaIKwoPpWiEdIKx0kmUdgj3/8iJpn1Xt82rtplapN4o4SuAQHIETYIMLUAfXoAlaAINH8AxewZvxZLwY78bHrHXJKGYOwB8Ynz9AfqAb ACGnicbVC7TsMwFHXKq5RXgJHFokJiqhKEgLEqC2NB9CE1oXJcp7XqOJHtIFVpvoOFX2FhACE2xMLf4KQZaMuRLB2fc6/uvceLGJXKsn6M0srq2vpGebOytb2zu2fuH7RlGAtMWjhkoeh6SBJGOWkpqhjpRoKgwGOk42vM7/zSISkIb9Xk4i4ARpy6lOMlJb6pu1QDp0AqZHnJXfpQzLNPxixpJFOHUDIuektG9WrZqVAy4TuyBVUKDZN7+cQYjgHCFGZKyZ1uRchMkFMWMpBUnliRCeIyGpKcpR3qkm+SnpfBEKwPoh0I/rmCu/u1IUCDlJPB0ZbakXPQy8T+vFyv/yk0oj2JFOJ4N8mMGVQiznOCACoIVm2iCsKB6V4hHSCsdJoVHYK9ePIyaZ/V7Iva+e15td4o4iDI3AMToENLkEd3IAmaAEMnsALeAPvxrPxanwYn7PSklH0HI5GN+/26CiqQ= ACG3icbVC7TsMwFHXKq5RXgJHFokJiqpKqAsaqLIwF0YfUhMpxndaq40S2g1Sl+Q8WfoWFAYSYkBj4G9w0A205kqXjc+7Vvfd4EaNSWdaPUVhb39jcKm6Xdnb39g/Mw6O2DGOBSQuHLBRdD0nCKCctRUj3UgQFHiMdLzx9czvPBIhacjv1SQiboCGnPoUI6Wlvl1KIdOgNTI85K79CGZh+MWNJIp46iAZHVBS3tm2WrYmWAq8TOSRnkaPbNL2cQ4jgXGpOzZVqTcBAlFMSNpyYkliRAeoyHpacqRnukm2W0pPNPKAPqh0I8rmKl/OxIUSDkJPF05W1IuezPxP68XK/KTSiPYkU4ng/yYwZVCGdBwQEVBCs20QRhQfWuEI+QFjpOEs6BHv5FXSrlbsi0rtlauN/I4iuAEnIJzYINLUAc3oAlaAIMn8ALewLvxbLwaH8bnvLRg5D3HYAHG9y9dvKLl ACDXicbVDLSsNAFJ34rPUVdelmsAquSiJFXRbdCG6q2Ac0scxMJ+3QySTMTIQS8gNu/BU3LhRx696df+OkzUJbD1w4nHMv96DY86Udpxva2FxaXltbRWXt/Y3Nq2d3ZbKkokoU0S8Uh2MFKUM0GbmlO7GkKMSctvHoMvfbD1QqFok7PY6pH6KBYAEjSBupZx+mHg5gO/OYgF6I9BDj9Da7T2EDepqFVMFrmPXsilN1JoDzxC1IBRo9Owvrx+RJKRCE46U6rpOrP0USc0Ip1nZSxSNERmhAe0aKpBZ5KeTbzJ4ZJQ+DCJpSmg4UX9PpChUahxi05kfrGa9XPzP6yY6OPdTJuJEU0Gmi4KEQx3BPBrYZ5ISzceGICKZuRWSIZKIaBNg2YTgzr48T1onVfe0WrupVeoXRwlsA8OwDFwRmogyvQAE1AwCN4Bq/gzXqyXqx362PaumAVM3vgD6zPHzf8mwU= W 2 RP ⇥KImagesText encoderLanguageLabelsAB/nicbVDLSsNAFJ3UV62vqLhyM1gEVyWRoi6LblxWMG2hiWUynbRDJzNhZiKUEPBX3LhQxK3f4c6/cZpmoa0HLpw517m3hMmjCrtON9WZWV1bX2julnb2t7Z3bP3DzpKpBITDwsmZC9EijDKiaepZqSXSILikJFuOLmZ+d1HIhUV/F5PExLEaMRpRDHSRhrYR5kfRtDLHzJfiyQvXp18YNedhlMALhO3JHVQoj2wv/yhwGlMuMYMKdV3nUQHGZKaYkbymp8qkiA8QSPSN5SjmKgK9bP4alRhjAS0hTXsFB/T2QoVmoah6YzRnqsFr2Z+J/XT3V0FWSUJ6kmHM8/ilIGtYCzLOCQSoI1mxqCsKRmV4jHSCKsTWI1E4K7ePIy6Zw3ItG865Zb12XcVTBMTgBZ8AFl6AFbkEbeACDyDV/BmPVkv1rv1MW+tWOXMIfgD6/MHPlOVrg= U>VACFnicbVBNS8NAEN34WetX1KOXxSJ4sSRS1GOpF49VTFtoYtlsN+3SzSbsboS5ld48a948aCIV/Hmv3GT9qCtDwYe780wM8+PGZXKsr6NpeWV1bX10kZ5c2t7Z9fc2/JKBGYODhikej4SBJGOXEUVYx0YkFQ6DPS9kdXud9+IELSiN+pcUy8EA04DShGSks98zR1/QA6GXQph26I1ND309vsPm26ioZETgoNI5Y2sknWMytW1SoAF4k9IxUwQ7Nnfrn9Cch4QozJGXtmLlpUgoihnJym4iSYzwCA1IV1O9EovLd7K4LFW+jCIhC6uYKH+nkhRKOU49HVnfqSc93LxP6+bqODSymPE0U4ni4KEgZVBPOMYJ8KghUba4KwoPpWiIdIKx0kmUdgj3/8iJpnVXt82rtplapN2ZxlMAhOAInwAYXoA6uQRM4AINH8AxewZvxZLwY78bHtHXJmM0cgD8wPn8APtOgGg= U 2 RP ⇥|B|ACFnicbVDLSsNAFJ34rPUVdelmsAhuLIkUdVnqxmUV+4Amlsl0g6dTMLMRChpvsKNv+LGhSJuxZ1/4yTNQlsPXDicy/3uNFjEplWd/G0vLK6tp6aO8ubW9s2vu7bdlGAtMWjhkoeh6SBJGOWkpqhjpRoKgwGOk42vMr/zQISkIb9Tk4i4ARpy6lOMlJb65mnieD5sp9ChHDoBUiPS27T+6TpKBoQOc01jFjSKdp36xYVSsHXCR2QSqgQLNvfjmDEMcB4QozJGXPtiLlJkgoihlJy04sSYTwGA1JT1O9Eo3yd9K4bFWBtAPhS6uYK7+nkhQIOUk8HRndqSc9zLxP68XK/STSiPYkU4ni3yYwZVCLOM4IAKghWbaIKwoPpWiEdIKx0kmUdgj3/8iJpn1Xt82rtplapN4o4SuAQHIETYIMLUAfXoAlaAINH8AxewZvxZLwY78bHrHXJKGYOwB8Ynz9AfqAb V 2 RP ⇥|B|Visual encoderAACGnicbVC7TsMwFHXKq5RXgJHFokJiqhKEgLEqC2NB9CE1oXJcp7XqOJHtIFVpvoOFX2FhACE2xMLf4KQZaMuRLB2fc6/uvceLGJXKsn6M0srq2vpGebOytb2zu2fuH7RlGAtMWjhkoeh6SBJGOWkpqhjpRoKgwGOk42vM7/zSISkIb9Xk4i4ARpy6lOMlJb6pu1QDp0AqZHnJXfpQzLNPxixpJFOHUDIuektG9WrZqVAy4TuyBVUKDZN7+cQYjgHCFGZKyZ1uRchMkFMWMpBUnliRCeIyGpKcpR3qkm+SnpfBEKwPoh0I/rmCu/u1IUCDlJPB0ZbakXPQy8T+vFyv/yk0oj2JFOJ4N8mMGVQiznOCACoIVm2iCsKB6V4hHSCsdJoVHYK9ePIyaZ/V7Iva+e15td4o4iDI3AMToENLkEd3IAmaAEMnsALeAPvxrPxanwYn7PSklH0HI5GN+/26CiqQ= 2 R|B|⇥|B|ImagesEmbeddingLabelsACFnicbVBNS8NAEN34WetX1KOXxSJ4sSRS1GOpF49VTFtoYtlsN+3SzSbsboS5ld48a948aCIV/Hmv3GT9qCtDwYe780wM8+PGZXKsr6NpeWV1bX10kZ5c2t7Z9fc2/JKBGYODhikej4SBJGOXEUVYx0YkFQ6DPS9kdXud9+IELSiN+pcUy8EA04DShGSks98zR1/QA6GXQph26I1ND309vsPm26ioZETgoNI5Y2sknWMytW1SoAF4k9IxUwQ7Nnfrn9Cch4QozJGXtmLlpUgoihnJym4iSYzwCA1IV1O9EovLd7K4LFW+jCIhC6uYKH+nkhRKOU49HVnfqSc93LxP6+bqODSymPE0U4ni4KEgZVBPOMYJ8KghUba4KwoPpWiIdIKx0kmUdgj3/8iJpnVXt82rtplapN2ZxlMAhOAInwAYXoA6uQRM4AINH8AxewZvxZLwY78bHtHXJmM0cgD8wPn8APtOgGg= U 2 RP ⇥|B|Visual encoderAB/3icbVC7TsMwFHV4lvIKILGwWFRITFWCKmCsYGEsEmkrNaFyXKe16tiR7SBVIQO/wsIAQqz8Bht/g5tmgJYjXen4nHvle0+YMKq043xbS8srq2vrlY3q5tb2zq69t9WIpWYeFgwIbshUoRTjxNSPdRBIUh4x0wvH1O8EKmo4Hd6kpAgRkNOI4qRNlLfPsz8MIJefp/5WiQ5LJ6dvG/XnLpTAC4StyQ1UKLVt7/8gcBpTLjGDCnVc51EBxmSmJG8qfKpIgPEZD0jOUo5ioICv2z+GJUQYwEtIU17BQf09kKFZqEoemM0Z6pOa9qfif10t1dBlklCepJhzPopSBrWA0zDgEqCNZsYgrCkZleIR0girE1kVROCO3/yImf1d3zeuO2UWtelXFUwBE4BqfABRegCW5AC3gAg0fwDF7Bm/VkvVjv1sesdckqZw7AH1ifP5v5ldk= U>WImagesVisual encoderACFnicbVBNS8NAEN34WetX1KOXxSJ4sSRS1GOpF49VTFtoYtlsN+3SzSbsboS5ld48a948aCIV/Hmv3GT9qCtDwYe780wM8+PGZXKsr6NpeWV1bX10kZ5c2t7Z9fc2/JKBGYODhikej4SBJGOXEUVYx0YkFQ6DPS9kdXud9+IELSiN+pcUy8EA04DShGSks98zR1/QA6GXQph26I1ND309vsPm26ioZETgoNI5Y2sknWMytW1SoAF4k9IxUwQ7Nnfrn9Cch4QozJGXtmLlpUgoihnJym4iSYzwCA1IV1O9EovLd7K4LFW+jCIhC6uYKH+nkhRKOU49HVnfqSc93LxP6+bqODSymPE0U4ni4KEgZVBPOMYJ8KghUba4KwoPpWiIdIKx0kmUdgj3/8iJpnVXt82rtplapN2ZxlMAhOAInwAYXoA6uQRM4AINH8AxewZvxZLwY78bHtHXJmM0cgD8wPn8APtOgGg= U 2 RP ⇥|B|ACH3icbZBNS8NAEIY39avWr6hHL4tF8FQSkeqx1IvHKqYtNLVstpt26WYTdjdCSfNPvPhXvHhQRLz137hJc9DWgYGXZ2aYmdeLGJXKsuZGaW19Y3OrvF3Z2d3bPzAPj9oyjAUmDg5ZKLoekoRThxFSPdSBAUeIx0vMlNVu8ESFpyB/UNCL9AI049SlGSqOBWU9cz4dO+pi4kaABSaFLOXQDpMael9xr3nKV5nKWM4xY0kxn6cCsWjUrD7gq7EJUQRGtgfntDkMcB4QrzJCUPduKVD9BQlHMSFpxY0kihCdoRHpacqRX9pP8vxSeaTKEfih0cgVz+nsiQYGU08DTndmRcrmWwf9qvVj51/2E8ihWhOPFIj9mUIUwMwsOqSBYsakWCAuqb4V4jATCSlta0SbYy+vivZFza7XLu8uq41mYUcZnIBTcA5scAUa4Ba0gAMweAav4B18GC/Gm/FpfC1aS0Yxcwz+hDH/AQw8pEM= U0 2 RP ⇥|B|ACEnicbVDLSgMxFM3UV62vUZdugkVQkDIjRV0W3bis4NTCdCyZNOGJpMhyQhlmG9w46+4caGIW1fu/BvTdkBtPXDh5Jx7yb0nTBhV2nG+rNLC4tLySnm1sra+sblb+0lEglJh4WTMh2iBRhNCaepqRdiIJ4iEjt+Hwcuzf3hOpqIhv9CghAUf9mEYUI2krn2UdcIevld1tEiyf3iefwjJ5JyksOga1edmjMBnCduQaqgQLNrf3Z6AqecxBozpJTvOokOMiQ1xYzklU6qSILwEPWJb2iMOFBNjkphwdG6cFISFOxhP190SGuFIjHpOjvRAzXpj8T/PT3V0HmQ0TlJNYjz9KEoZ1AKO84E9KgnWbGQIwpKaXSEeImwNilWTAju7MnzpHVSc09r9et6tXFRxFEGe2AfHAIXnIEGuAJN4AEMHsATeAGv1qP1bL1Z79PWklXM7I/sD6+AUHFndk= U>[U, U0](b) Cross entropy(a) UniCL (Ours)(d) CLIP/ALIGN(c) Supervised contrastACEnicbVC7TsMwFHXKq5RXgJHFokKCpUpQBYxVWZBYCqIPqQmV47qtVceJbAepSvMNLPwKCwMIsTKx8Tc4aQZoOZKl43Pu1b3eCGjUlnWt1FYWl5ZXSulzY2t7Z3zN29lgwigUkTBywQHQ9JwignTUVI51QEOR7jLS98WXqtx+IkDTgd2oSEtdHQ04HFCOlpZ54lAOHR+pkefFt8l9PM0+GLG4nsApdBT1iYTXMOmZatiZYCLxM5JGeRo9Mwvpx/gyCdcYak7NpWqNwYCUxI0nJiSQJER6jIelqypEe5MbZSQk80kofDgKhH1cwU393xMiXcuJ7ujLdV857qfif143U4MKNKQ8jRTieDRpE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功