没有合适的资源?快使用搜索试试~ 我知道了~
Images32-class128-classIndividual105930使用粗粒度标签进行弱监督表示学习0Yuanhong Xu 1 Qi Qian 2 * Hao Li 1 Rong Jin 2 Juhua Hu 301 阿里巴巴集团,中国杭州 2阿里巴巴集团,美国贝尔维尤,98004 3华盛顿大学工程与技术学院,美国塔科马,984020{yuanhong.xuyh, qi.qian, lihao.lh, jinrong.jr}@alibaba-inc.com, juhuah@uw.edu0摘要0随着计算能力和数据收集技术的发展,深度学习在视觉基准数据集上表现出优越的性能。许多工作致力于研究深度学习的机制。一个重要的观察结果是深度学习可以以任务相关的方式直接从原始材料中学习到具有区分性的模式,因此,与手工特征相比,深度学习得到的表示显著优于手工特征。然而,在一些现实世界的应用中,收集特定任务的标签(例如在线购物的视觉搜索)过于昂贵。与这些特定任务标签的有限可用性相比,它们的粗粒度标签更容易获得,但从中学到的表示对于目标任务可能不够优化。为了缓解这个挑战,我们提出了一种算法,在只有粗粒度标签可用的情况下学习目标任务的细粒度模式。更重要的是,我们为此提供了理论保证。对真实数据集的大量实验证明了该方法在只有粗粒度信息用于训练时可以显著提高学到的表示在目标任务上的性能。01. 引言0深度学习由于在计算机视觉[11, 14,19]和自然语言处理应用[7,21]中的巨大成功而越来越受到关注。借助现代神经网络,深度学习甚至可以在某些基本任务上取得比人类更好的性能[14,26]。深度学习的改进使得许多应用,如自动驾驶[5]、视觉搜索[23]、问答系统[30]等成为可能。0*通讯作者0图1.在相同的由512个图像组成的合成数据集上学习不同任务的不同模式的示例。根据不同的补丁组合,包括32个粗粒度分类(即32个大补丁的类别)、128个类别的分类(即128个小补丁的类别)和实例级别的分类(即大补丁和小补丁的个体)。实验的详细设置可以在补充材料中找到。0与许多现有的为手工特征设计的模型相比,深度学习以端到端的学习方式工作。它可以直接从原始材料中探索最具区分性的模式(即特征)来完成特定任务。在没有显式生成特征的情况下,深度学习相对于现有方法表现出显著的改进[14,19]。使用深度学习生成的特征,传统方法也可以比使用手工特征的对应方法表现更好[2, 8, 11,12]。这一观察表明神经网络可以充分学习与任务相关的模式。0在深度学习中,表示通常是针对特定任务学习的。因此,如图1所示,在相同的数据集上,不同的应用场景可以提取出不同的模式。105940这种现象表明神经网络只会关注对训练任务有帮助的模式,并忽略无关的模式。因此,深度学习需要访问大量标记的示例才能达到理想的性能,而标签信息必须与目标任务密切相关。随着深度学习的发展,大规模的训练数据量得到了强调,许多大规模标记数据集[6,20]变得可用。然而,从提供的标签学习到的表示与目标任务之间的相关性较少得到研究。在一些现实世界的应用中,收集特定任务的标签通常过于昂贵,而它们的粗粒度标签则更容易获得。以视觉搜索[23]为例,给定一个“哈士奇”的查询图像,通常期望得到一个“哈士奇”的结果而不是一个“狗”。显然,“哈士奇”这样的标签比“狗”这样的标签更昂贵。在在线购物场景中,这个问题变得更具挑战性,因为许多物品(例如衣服)之间的差异非常微妙。可用标签与目标任务之间的差距使得学到的表示不够优化。为了改善学到的表示在目标任务上的性能,一个直接的方法是为该任务专门标记足够数量的示例,这样可以很好地对齐监督信息和目标任务。然而,这种策略是不可承受的。与粗粒度标签不同,一些特定任务的标签(例如狗的物种)只能由经验丰富的专家识别,这是昂贵且低效的。对于在线购物场景中的视觉搜索任务,即使专家也无法准确地标记大量的示例。最近,无监督方法在表示学习中变得流行[3, 9, 13, 24,29]。这些方法首先在源域上无监督地学习一个深度模型。之后,通过来自目标域的标记数据对学到的模型进行微调。虽然预训练模型是以无监督的方式学习的,但在微调阶段需要任务特定的标签,在一些现实世界的应用中,这些标签通常非常有限或无法获得。考虑到粗粒度标签更容易获得,本文研究了当数据来自目标域但只有粗粒度标签可用时的问题。具体而言,我们旨在通过利用粗粒度类别的信息来学习适合目标任务的表示,以缓解这个问题。我们验证了当深度模型仅使用粗粒度标签进行训练时,对于目标任务而言,细粒度模式往往被忽视。同时,无监督表示学习中的流行预训练任务,即实例分类,可能引入太多与目标任务无关的噪声模式。幸运的是,我们可以从理论上证明,将粗粒度分类任务纳入考虑可以改善目标任务的性能。0根据这一点,我们提出了一种新的算法,当目标任务的特定标签不可用但其粗粒度类别标签可用时,该算法可以学习适用于目标任务的适当表示。此外,根据我们的分析,我们提出了一种新的实例代理损失来进一步提高性能。在基准数据集上进行的大量实验表明,当只有粗粒度类别标签可用时,所提出的算法可以显著提高实际应用的性能。02. 相关工作0与许多现有方法不同,深度学习可以直接从原始材料中学习模式,避免了特征提取阶段的信息损失。通过研究深度神经网络学习到的模式,研究人员发现,由于端到端的学习方式,它可以自适应地找出图像中的判别部分进行分类,这解释了卷积神经网络(CNN)的有效性。除了监督学习,无监督表示学习近来引起了很多关注,因为它不需要任何监督信息,并且可以利用大规模无标签数据集中的信息。一个流行的预训练任务是实例分类,它将每个示例标识为一个独立的类别,但在大规模数据集上可能会带来挑战。在其成功之后,许多算法被开发出来通过对比学习来提高效率。尽管在目标领域上具有期望的性能,但该过程仍然依赖于目标任务的标签进行微调。这是因为实例分类旨在识别每个单独的示例,并且可能为目标任务引入太多不相关的模式。因此,微调阶段是必要的,以过滤噪声模式。此外,源域和目标域之间的差距可能会降低学习表示的性能。在这项工作中,我们关注的是当任务特定标签难以访问时的应用场景,而它们的粗粒度类别标签(例如,动物的主要类别)更便宜且更易获得。我们将利用来自粗粒度类别的弱监督信息来提高在目标任务上学习到的表示的性能,当目标特定标签不可用于微调时。值得注意的是,将学习到的模型推广到不同的目标任务中也在迁移学习和领域自适应中进行了研究。然而,本文所讨论的问题与它们显著不同。迁移学习和领域自适应都试图通过来自不同源域的知识来提高目标域上的性能。而本文关注的是仅使用来自目标域的数据进行学习。minθℓ(xi, yi; θ)ℓ(xi, yi) = − logexp(f(xi)⊤wyi)Kj exp(f(xi)⊤wj)minθ�iℓ(xi, yIi ; θ)(1)Pr{yIi |f I(xi), W I} =exp(f I(xi)⊤wIyIi )nj exp(f I(xi)⊤wIj)Pr{yFi |f I(xi), W I} =exp(f I(xi)⊤ ¯wIyFi )Fs exp(f I(xi)⊤ ¯wIs)1059503. 提出的方法0给定一组 n 张图像 { ( x i , y i ) } n i =1,可以通过解决优化问题来学习模型。0n0其中 ℓ ( ∙ ) 是损失函数,θ表示神经网络的参数。交叉熵损失与softmax运算符是深度学习中常用的损失函数。许多现代神经网络具有多个卷积层和一个全连接(FC)层,例如ResNet [ 15 ],MobileNet [25 ],EfficientNet [ 28]等。我们将在本文中研究这种流行的架构,但分析可以扩展到更通用的结构。对于一个 K类分类问题,交叉熵损失可以写成0其中 f ( ∙ ) 从图像中的卷积层提取特征,W = { w 1 , . . . ,w K } ∈ R d × K表示神经网络中最后一个全连接层的参数。d是忽略偏置项时 FC 层的输入维度。显然,函数 f的行为严重依赖于 { y i } 中的训练标签。当 { y i }所隐含的任务与目标任务一致时,f发现的模式可以表现良好。然而,当训练任务与目标任务不同时(例如,图1中的128类目标任务的32类标签),学到的模式可能是次优的。在本文中,我们的目标是学习一个适当的函数f,即使只有粗粒度类别标签可用,也能提取足够和适当的细粒度模式。03.1. 实例分类0我们从常见的实例分类问题开始分析。实例分类的优化问题可以表示为0其中 y I i ∈ { 1 , . . . , n } 且 y I i = i 。方程1中的问题0认为每个示例来自不同的类别,这导致了一个 n类分类问题。它可能比具有目标标签的分类问题更具挑战性,并且将提取各种模式以识别每个个体示例。然而,目标任务的期望模式可能会被从实例分类中获得的太多模式所淹没。因此,获得的表示可能远离最优,这在以下理论分析中得到证明。0令 W I ∈ R d × n 表示实例分类的全连接层的参数。f I 和W I都将作为神经网络的参数进行优化。我们定义预测概率为0需要注意的是,在对比学习中,我们可以有 w I y I i = f I(˜ x i ) ,其中 ˜ x i 是 x i的不同视图。假设任务特定的标签为 y F i ∈ { 1 , . . . , F },且 F < n,在不进行微调的情况下,可以通过测量概率来评估学到表示在目标任务上的性能0y F j = s w I j 。我们假设每个目标类别包含 z个示例以简化分析,并且 zF = n。在这个公式中,我们采用来自同一目标类别的参数的均值向量作为目标分类问题的代理。该概率可以衡量学习表示中的类内差异和类间距离。通过研究性能,我们可以保证从实例分类中学到的表示。此工作的所有详细证明可以在补充材料中找到。0引理1. 如果解决方程1中的问题,使得 � i,Pr { y I i | f I ( x i) , W I } ≥ α ,则有0� i,Pr { y F i | f I ( x i ) , W I } ≥ zα exp( f I ( x i ) � ( ¯ w I y Fi − w I y I i ))0备注引理1表明,表示在目标任务上的性能取决于实例分类的准确性以及因子 f I ( x i ) � ¯ w I y F i − f I ( x i ) � w I y I i。当我们有 w I y I i =0对于 f I ( x i ) ,就像对比学习一样,因子变为 1 z �0y F j = y F i f I ( x i ) � f I ( x j )。明确地说,后一个因子对应于类内差异。由于实例分类是为了识别每个个体示例,它可以很好地处理类间差异,但来自同一目标类别的示例之间的相似性可能是任意的,这是由于冗余模式可能导致次优性能。因此,我们考虑利用粗类别信息适当地聚合示例并过滤掉不相关的模式以减少类内差异。03.2. 类内优化0在许多实际应用中,粗类别标签(例如“狗”、“猫”和“鸟”)很容易获得。minθ�iℓ(xi, yCi ; θ)(2)minθ�iℓ(xi, yCi ) + λ�iℓ(xi, yIi )(3)minθ�iℓ(xi, yCi ) + λC�k=1�i:yCi =kℓk(xi, yIi )(4)ℓk(xi, yIi ) = − log(Pr{yIi |f H(xi), yCi , W I})= − log(exp(f H(xi)⊤wIyIi )j:yCj =k exp(f H(xi)⊤wIj))105960具有粗类别标签的学习问题可以定义为0其中 y C i ∈ { 1 , . . . , C } 表示 x i的粗分类标签。在这项工作中,我们假设来自同一目标类别的示例将共享相同的粗标签。明确地说,通过解决这个任务学到的表示可能在涉及“斗牛犬”、“哈士奇”和“贵宾犬”等细粒度类别的目标任务上不适用于粗类别“狗”。这是因为学到的特征具有较小的类内差异,但无法处理目标类别上的类间差异。因此,它们可以很好地分离粗类别上的示例,但对于目标类别无法提供有意义的分离。基于方程1和2中的这些互补观察,我们考虑将方程2中的问题纳入方程1中以指导细粒度模式的学习。直观地说,通过粗类别标签信息,模型可以更有效地探索与目标任务相关的细粒度模式。因此,分类问题可以写成0其中 λ是粗类别分类和实例分类性能之间的权衡,分别对应于减少类内方差和增加类间差异。混合损失函数共享相同的特征提取骨干,表示为 f H ( x i )。分类头是不同的,我们分别将相应的全连接层表示为 W C和 W I。通过优化方程3中的问题,我们证明了学习到的表示的性能可以保证在目标类别上,如下所述。0定理1. 如果学习到的表示具有有界的范数,即对于所有的i,j,有 ∥ f H ( x i ) ∥ 2 , ∥ w I j ∥ 2 , ∥ w C j ∥ 2 ≤ c,并且解决方程3中的问题,使得0对于所有的i,Pr { y I i | f H ( x i ) , W I } ≥ α ;Pr { y0其中 α , β 是由 λ 平衡的常数,我们有0对于所有的i,Pr { y F i | f H ( x i ) , W I }0其中 h ( c, α, β ) ≤ 1 是一个依赖于 c , α , β 的常数。0备注 具体而言,借助方程2,我们可以限制 h ( c, α, β )中来自相同目标类别的示例之间的差异,而方程1有助于获得足够的细粒度模式来识别目标问题中的不同类别。0需要注意的是,在方程3中,实例分类的子问题是一个n类分类问题。当n很大时,它必须为每个示例从W I ∈ R d ×n计算得分和相应的梯度,这可能会显著减慢优化过程。这个挑战在无监督表示学习的文献中得到了广泛研究,并通过对比学习得到了缓解[3,13]。不同的是,我们可以根据我们的工作中的粗类别来分解实例分类问题,这将在下面的子部分中讨论。03.3. 大规模挑战0根据定理1的分析,我们可以将原始问题分解为0其中 ℓ k ( x i , y I i )是定义在第k个粗类别中的实例分类的交叉熵损失0与标准的实例分类相比,新的损失函数是为了区分示例 x i与具有相同粗类别标签(即 y C j = k)的其他示例,而不是所有的 n个示例。因此,每个示例的FC层的计算成本可以从O ( dn )减少到 O ( dn k ) ,其中 n k表示第k个粗类别中的示例数。我们证明了使用上述加速策略的性能仍然可以在目标问题上得到保证,如下定理所述。0定理2.在定理1的相同假设下,如果解决方程4中的问题,使得0对于所有的i,Pr { y I i | f H ( x i ) , y C i , W I } ≥ α ;Pr { y Cx i ) , W C } ≥ β0我们有0对于所有的i,Pr { y F i | f H ( x i ) , W I } ≥01 /α +(1 − β ) c ′′ /β ,其中 c ′′ 是一个常数。h ( c, α ′ , β) 是一个依赖于 c , α ′ , β 的常数。0备注:与定理 1 中的保证相比,放松的代价由 α ′给出。它包含一个因子 (1 − β )/β,用于衡量粗分类问题的性能。当一个示例可以很好地与其他粗分类分开时,即 β → 1,通过求解方程 4获得的模式几乎可以恢复方程 3 中更昂贵问题的性能。̸wPp =�i µi,pwIii µi,p(5)(1 − µi,p)P − 1∥xi −wPp ∥22 −�jµi,j∥xi −wPj ∥22 ≥ δ�i� �jµi,j∥xi − wPj ∥22 −�p(1 − µi,p)P − 1∥xi − wPp ∥22�(6)�i∥xi − wPyPi ∥22 −�p:µi,p=0∥xi − wPp ∥22P − 1ℓp(xi, yPi ) = − log(exp(f H(xi)⊤wPyPi )p exp(f H(xi)⊤wPp ))(7)�iP�jµi,j∥xi − wPj ∥22 −(8)1059703.4. 实例代理损失0到目前为止,我们在理论上分析了实例分类和粗分类的行为。受到我们分析的启发,我们提出了一种新的损失函数,以增强目标任务的信息模式。表示学习的标准基于代理的三元组约束[23]可以写成0对于所有的 x i ,c j : j � = y i ,∥ x i − c j ∥0其中 c j 表示第 j 类的代理,δ是一个边界。为了简洁起见,我们省略了特征提取函数 f H (∙ )。在定理 1中,我们证明了来自相同目标类的各个类的均值向量可以成为目标任务的适当代理。然而,在训练表示时,目标任务的标签是不可用的。因此,假设有 P个目标类,我们将使用一个成员变量 µ ∈ { 0 , 1 } n × P ( �0p µ i,p = 1 ) 同时。具体而言,我们让 W P 表示 P类分类问题的参数,并且0通过对实例参数进行平均,我们得到三元组约束如下0对于所有的 x i,�0为了最大化边界 δ,优化问题可以写成0最小化x ,µ0该问题可以通过交替方式解决。在每个迭代中,当固定 µ时,可以优化 P 类的表示,如下所示0最小化 x0其中 µ i,y P i =1。根据[23]的建议,我们提出了一个实例代理损失来有效地优化子问题,如下所示0当固定 x 时,子问题变为0最小化 µ0p ∥ x i − w P p ∥ 220算法 1 使用粗标签进行表示学习0输入:训练集 { x i , y C i } n i =1,总迭代次数T,M,P,λ I,λ P 对于每个迭代:t = 1 到 M0优化方程中的问题 40结束 得到具有 W I 的 P 个聚类0将 W P 初始化为方程 5 中的值对于每个迭代:t = M + 1 到 T0优化方程中的问题 9,通过求解方程 8 来更新W P 与固定的 W I0结束0注意,W P 还包含使优化挑战的 µ。当 P很大时,后一项可以被视为常数(例如,对于极端情况下的P = n),问题可以简化为0min µ0�0i0j µ i,j ∥xi - wPj∥220由于W P由W I张成,我们可以优化上界0min µ0�0i0j µ i,j ∥wIi - wPj∥22 + ∥xi - wIi∥220去掉常数项后,问题可以重写为0min µ,WP �0j µ i,j ∥wIi - wPj∥220s.t. wPp = �0i µ i,pw 0i µ i,p0因此,它成为一个标准的k-means聚类问题,可以有效地解决。为了使近似紧密,即∥xi - wIi∥22很小,我们必须在WI足够训练之后优化方程6中的问题。通过提出的实例代理损失,表示学习的目标变为0min θ0�0i ℓ(xi,yCi)+ λ I0C �0k = 10i:yCi = kℓk(xi,yIi)0+ λ P0P �0p = 10�0i ℓ p(xi,yPi)(9)0Alg.1总结了提出的算法。请注意,可以根据第3.3节的建议在每个粗分类中实现聚类。04. 实验0为了评估所提出的方法,我们采用ResNet-18[15]作为比较的神经网络,因为它是最流行的深度架构,并已广泛应用于实际任务。Ins--22.432.946.862.6105980最流行的深度架构,并已广泛应用于实际任务。我们在主要比较中包括以下五种方法。Ins:仅使用实例分类优化表示,如方程1中所示。Cos:仅使用粗分类优化表示,如方程2中所示。CoIns:同时学习粗分类和实例分类的表示,如方程3中所示。CoInsimp:通过在每个粗分类中优化实例分类来提高效率,如方程4中所示。Opt:优化在我们的问题设置中不可用的目标标签的表示。因此,该方法提供了性能上限作为参考。ResNet-18使用随机梯度下降(SGD)进行训练。比较中的所有方法都具有相同的骨干网络和训练流程,但具有不同的目标和分类头。数据增强对于训练CNNs非常重要,我们采用了随机水平镜像和随机裁剪,如[15]中建议的那样。每个数据集上的其他配置遵循常见的做法,并在相应的小节中详细说明。比较中包括三个基准图像数据集,即CIFAR-100[18],SOP [27]和ImageNet[6]。我们注意到,所有这些数据集都包含粗分类标签和目标分类标签,以进行全面评估,其中目标分类标签仅由“Opt”使用,以提供性能的上限。我们使用多个指标评估不同表示的性能。首先,我们测量粗分类的准确性作为副产品。随着更细粒度的模式,粗分类的泛化能力可以进一步提高。更重要的是,我们通过进行检索任务(即视觉搜索)来评估目标类别的性能,采用[23, 27]中的Recall@k指标进行比较。检索的相似性是通过使用FC层之前的输出计算的,即f(x)。[23]表明,通过分类学习的深度特征可以很好地捕捉示例之间的相似性。04.1. CIFAR-1000在本小节中,我们在CIFAR-100[18]上评估了这些方法,其中包含20个粗类别。每个粗类别包含5个目标类别,共100个目标类别。我们采用标准的划分方式,每个目标类别有500个彩色图像用于训练,100个用于测试。采用小批量大小为256的SGD来学习模型。按照常规做法,我们将动量设置为0.9,权重衰减为5e-4。每个模型训练200个epochs。初始学习率为0.1,在第{60,120,160}个epoch时按照因子5进行衰减。32×32的图像是从零填充的40×40图像中随机裁剪得到的。在所有实验中,“CoIns”中唯一的参数是λ,用于平衡不同的损失函数,我们在{1,5}×{10^-i}4 i=0中搜索它。0Ins - - 22.4 32.9 46.8 62.60Top1 Top5 R@1 R@2 R@4 R@80Cos 85.6 97.5 81.1 87.0 90.7 93.20CoIns 86.3 98.2 82.4 88.0 91.4 94.10CoIns imp 86.1 97.9 82.3 87.5 91.4 94.20表1.CIFAR-100上20个粗类别的准确率和召回率(%)比较。(“-”表示NA)0作为副产品,表1总结了20个粗类别(即非目标任务)上的分类和检索性能。首先,令人惊讶的是观察到“CoIns”学习到的细粒度模式可以提高粗类别分类问题的性能。这说明CNN学习到的任务相关模式侧重于训练任务,并且对于相同问题的未知示例可能不是最优的。按照“CoIns”的建议在训练中探索更多细粒度模式可以更好地将学习到的模式推广到未知数据。其次,“CoInsimp”与“CoIns”的性能相似。这与定理2的分析一致。具有粗类别标签的示例在这个数据集上可以很好地分离,准确率超过85%,这意味着定理2中的β很大。因此,“CoInsimp”的性能可以接近“CoIns”,但计算成本显著降低。请注意,这个数据集中有20个粗类别,分布均匀,因此在“CoInsimp”中计算全连接层的实例分类成本仅为“CoIns”的5%。对于这20个粗类别的检索任务也可以得出类似的观察结果。我们观察到“CoIns”和“CoInsimp”在R@1上可以显著优于基准“Cos”。这个比较中还包括了“Ins”,但它的性能最差。这是因为实例分类任务无法利用粗类别的监督信息。0R@1 R@2 R@4 R@80Ins 13.6 19.2 27.1 37.30Cos 37.1 51.6 67.0 79.90CoIns 57.0 68.0 77.5 85.50CoIns imp 56.6 68.0 77.5 85.10CoIns� 60.8 71.2 79.2 85.50CoIns�� 60.5 71.1 79.8 86.50CoInsP�� 62.0 71.7 80.2 86.60Opt 71.8 78.8 84.1 88.30表2.CIFAR-100上100个类别的召回率(%)比较。CoIns�采用余弦softmax,而CoIns��既有余弦softmax又有MLP头部,如[1]所示。105990更重要的是,在表2中展示了100个类别的目标检索任务的比较结果。显然,“Cos”和“Ins”都无法很好地处理检索任务。正如我们的分析所示,“Cos”缺乏细粒度模式,即小的类间差异,“Ins”缺乏过滤大量噪声模式的指导,即大的类内差异。通过在“CoIns”中相互补充,性能可以显著提高。“CoIns”的R@1比“Cos”提高了约20%,比“Ins”提高了40%以上。这证实了定理1中的观察结果,即当只有粗类别标签可用时,所提出的方法可以充分有效地探索目标任务的细粒度模式。毫无疑问,当目标类别标签可用于训练时,“Opt”的性能最好。与“Opt”相比,我们可以观察到“CoIns”的R@4优于“Opt”的R@1,并且与“Opt”的R@2相当。这意味着当只有粗类别标签可用时,通过优化公式3中的目标,学习到的模型可以通过检索两个额外的示例很好地处理目标检索任务。最后,“CoIns”和“CoInsimp”的性能之间的微小差异表明,“CoInsimp”在实际应用中具有高效性。0包括SimCLR [2],MoCo-v2 [4]和PIC[1]在内的许多最近的工作表明,一些额外的组件对于在ImageNet上的无监督学习的成功至关重要。因此,我们将这些组件引入到“CoIns”中,以评估它们在我们的问题中的影响。具体来说,我们比较了三个组件,包括余弦softmax、MLP和强数据增强。我们观察到强数据增强总是会损害性能。这可能是因为强数据增强为CIFAR引入了太多的噪声,因此我们在表2中忽略了它的结果。“CoIns”分别采用余弦softmax和余弦softmax与MLP的组合,分别称为CoIns�和CoIns��。0从表2可以明显看出,“CoIns�”可以进一步提高“CoIns”的性能,与[1]中的观察结果一致,提高了3%的显著差距。由于在FC层中对示例和参数的表示都应用了单位范数,因此它可以提供更好的保证,如定理1所示。然而,当检索的示例有限时,“CoIns��”不能超过“CoIns�”。这可能是由于CIFAR中图像的低分辨率造成的。最后,我们将这两个组件合并到“CoInsP”中,该方法在训练中添加了所提出的实例代理(IP)损失,如公式7所示。在实验中,我们在训练过程的一半,即100个epoch后,将IP损失添加到“CoIns”中。为了使近似结果紧密,如第3.4节所分析的那样,我们设置较大的P值为P =10,000。通过模仿目标类别并增强实例分类,“CoInsP��”实现了最接近“Opt”的最佳性能。此外,“CoInsP��”的R@2已经具有与R@1相似的性能。0“Opt”的结果证明了所提出方法的有效性。04.2. Stanford Online Products0然后,我们在具有挑战性的在线购物场景中评估不同的算法。Stanford OnlineProducts(SOP)[27]从eBay.com收集了120,053张产品图片。总共有22,634个类别,分为12个粗类别。因此,每个目标类别包含的示例数量非常有限。由于该数据集没有公共的分类拆分,我们随机抽取了80,000张图片用于训练,其余的用于测试。然后,我们过滤掉测试集中只包含一个示例的所有类别。这导致评估中有13,160个目标类别。对于训练,我们采用了[15]中建议的配置。具体来说,模型从头开始学习,共进行90个epoch。初始学习率为0.1,在{30,60}个epoch时衰减10倍。粗类别分类和检索的类似结果可以在补充材料中找到。0R@1 R@10 R@1000Ins 25.5 38.3 54.90Cos 21.8 34.4 52.70CoIns 35.8 51.8 69.30CoIns imp 35.3 50.5 67.40CoIns� 38.1 54.2 70.60CoIns�� 42.7 58.2 73.70CoInsP�� 43.5 59.0 74.30Opt 46.5 61.6 75.20表3.在SOP上对13,160个类别的召回率(%)进行比较。CoIns�采用余弦softmax,而CoIns��既采用余弦softmax又采用MLP头部,与[1]中相同。0表3显示了目标类别的检索性能。考虑到这个任务的难度,我们按照[23,27]的建议报告了Recall@{1,10,100}。首先,我们可以观察到“CoIns”在R@1上的表现优于“Cos”14%。这表明我们的方法可以在有限的监督下应用于在线购物场景。此外,即使在目标类别上有监督信息,R@1的“Opt”也小于50%,这表明在线购物的检索是一个重要但具有挑战性的应用。随着更多的检索示例,R@10的“CoIns”的召回率可以超过50%。需要注意的是,在线购物的顾客倾向于只查看排名靠前的商品,这被称为位置偏差[16]。因此,提高R@10对于提供更好的顾客体验非常重要。通过额外的组件,“CoIns�”超过了“CoIns”,而“CoIns��”表现出更好的性能,接近于“Opt”。这表明余弦softmax可以同时受益于低分辨率图像和高分辨率图像。106000对于低分辨率图像,MLP对于高分辨率图像(如SOP)尤其有效。最后,“CoInsP��”在45个epochs之后,展示了“CoIns”变体中最佳的性能。这表明使用所提出的实例代理损失可以进一步捕捉到信息模式。我们在图2中展示了在SOP上检索到的图像。显然,在在线购物中存在许多来自不同目标类别的相似产品,这使得应用非常具有挑战性。给定一个查询图像,“Cos”(即基准)很难检索到合适的相似物品。通过充分学习细粒度模式,如“CoIns”,可以从排名靠前的物品中消除来自不同目标类别的示例。0查询 基准 我们的方法0图2.在SOP上从Cos(即基准)和CoIns(即我们的方法)检索到的图像示例。来自不同目标类别的示例用红色边框标记。04.3. ImageNet0最后,我们在ImageNet[6]上比较了不同的方法。ImageNet是一个用于视觉分类的流行基准数据集。它包含1,000个类别,每个类别大约有1,200张图片。这些类别根据WordNet[10]进行组织,ImageNet中可以有11个粗略类别,如[22]所分析的那样。每个粗略类别可以有多个目标类别。例如,粗略类别“狗”有118种不同的狗的物种,“鸟”包含59种不同的鸟类物种。在ImageNet上已经广泛研究了实例分类,并且已经开发出了许多复杂的算法。为了公平比较,我们采用了一种最先进的方法MoCo-v2[4],作为等式3中实例分类的替代方法。我们通过将粗略类别分类添加到MoCo的官方代码中来实现我们的方法。训练遵循MoCo-v2的配置,共进行200个epochs。我们还采用了ResNet-50而不是ResNet-18进行比较,以与只使用ResNet-50实现的MoCo的结果保持一致。表4比较了ImageNet上的不同方法。MoCo-v2的性能直接来自官方预训练模型,而“Opt”的性能来自预训练模型提供的PyTorch 1。0Top1 Top5 R@1 R@2 R@4 R@80MoCo-v2 67.5 88.0 42.8 52.9 62.4 71.10Cos 60.4 83.0 21.1 28.9 37.9 48.20CoIns 70.4 89.9 51.4 61.5 70.7 78.40Opt 76.2 92.9 66.4 75.3 82.1 87.30表4. ImageNet上1,000个类别的准确率和召回率(%)的比较。0通过PyTorch1提供的预训练模型观察到,MoCo-v2在R@1上比“Opt”差了20%以上。这表明,没有标签,实例分类无法很好地学习与目标类别相关的模式。然而,“Cos”的性能甚至更差,因为我们只引入了11个粗略类别,无法处理目标任务的类间差异。通过像我们的方法一样将这些粗略类别纳入考虑,使用学习到的表示,R@1可以从42.8%提高到51.4%。这证实了我们在定理1中的分析,即粗略类别有助于消除噪声模式,并可以提高目标任务的性能。此外,我们还在表4中包括了对1,000个目标类别的分类比较。性能通过使用MoCo-v2提供的标准流程进行线性分类器评估,并且分类器是通过训练线性分类器的标准流程来学习的。请注意,目标标签将用于训练线性分类器。首先,MoCo在使用目标类别标签进行微调后的准确率达到67.5%。这表明,无监督的实例分类依赖于目标标签信息来过滤表示中的噪声模式。通过“CoIns”中更多相关模式的学习,Top1准确率可以达到70.4%,比MoCo-v2提高了约3%。这进一步证明了我们提出的方法。它还暗示了即使通过目标任务的完全监督信息进行微调,从实例分类中学到的表示也比我们的方法差。05. 结论0在这项工作中, 我们提出了一种算法,通过仅使用粗分类标签进行训练来充分探索细粒度模式.对基准数据集的实证研究证实了我们提出的方法及其理论保证的有效性. 此外,我们根据我们的理论分析提出了一种新的实例代理损失来进一步提高性能.考虑到未标记数据的数量明显大于标记数据的数量,将未标记数据纳入以提高性能可以成为我们未来的工作.此外, 除了标签之外,还可以有各种弱监督信息(例如三元组约束, 多视图),探索和整合更多的粗糙信息以达到性能上限也是一个有趣的未来方向.01 https://pytorch.org/vision/stable/models.html106010参考文献0[1] Yue Cao, Zhenda Xie, Bin Liu, Yutong Lin, Zheng Zhang,and Han Hu. 用于无监督视觉特征学习的参数化实例分类. CoRR,abs/2006.14618, 2020年. 6, 70[2] Ting Chen, Simon Kornblith, Mohammad Norouzi, andGeoffrey E. Hinton. 对视觉表示进行对比学习的简单框架. CoRR,abs/2002.05709, 2020年. 1, 70[3] Ting Chen, Simon Kornblith, Mohammad Norouzi, andGeoffrey E. Hinton. 对视觉表示进行对比学习的简单框架. CoRR,abs/2002.05709, 2020年. 2, 40[4] Xinlei Chen, Haoqi Fan, Ross B. Girshick, and Kaiming He.动量对比学习改进的基线. CoRR, abs/2003.04297, 2020年. 7, 80[5] Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, and Tian Xia.用于自动驾驶的多视角3D物体检测网络. 在CVPR中, 2017年,第6526-6534页. 10[6] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, andFei-Fei Li. ImageNet: 一个大规模的分层图像数据库. 在CVPR中,2009年, 第248-255页. 2, 6, 80[7] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. BERT: 用于语言理解的深度双向转换器的预训练.在NAACL-HLT中, 2019年, 第4171-4186页. 10[8] Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman,Ning Zhang, Eric Tzeng, and Trevor Darrell. Decaf:用于通用视觉识别的深度卷积激活特征. 在ICML中, 2014年,第647-655页. 1, 20[9] Alexey Dosovitskiy, Philipp Fischer,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功