半监督学习中的配对损失和MixMatch技术相结合的SimPLE算法及其在CIFAR-100和Mini-ImageNet上的显著性能增益

109 浏览量更新于2024-01-22 收藏 1.05MB PDF 举报

半监督分类

SimPLE算法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15099SimPLE：半监督分类胡子健胡正宇杨学锋胡拉姆南加州{zijianhu，yang765，xuefengh，nevatia}@ usc.edu摘要一个常见的分类任务情况是，有大量的数据可用于训练，但只有一小部分用类标签注释。在这种情况下，半监督训练的目标是通过利用不仅来自标记数据而且来自大量未标记数据的信息来提高最近的工作[2，1，26]通过探索不同增强的标记和未标记数据之间的一致性约束，已经取得了显着的沿着这条道路，我们提出了一种新的无监督目标，专注于研究彼此相似的高置信度未标记数据之间的关系。新提出的配对损失最大限度地减少统计距离之间的高置信度的伪标签与相似性高于一定的阈值。将配对损失与MixMatch家族 [2 ，1， 26]开发的技术相结合，我们提出的SimPLE算法在CIFAR-100和Mini-ImageNet [31]上显示出比先前算法显著的性能增益，并且与CIFAR-10和SVHN上的最先进方法相当。此外，SimPLE在迁移学习设置中也优于最先进的方法，其中模型由ImageNet[15]或DomainNet-Real[23]上预先训练的权重初始化该代码可在 github.com/zijian-hu/SimPLE 上获得。1. 介绍深度学习最近在许多计算机视觉任务上取得了最先进的性能深度学习成功的一个主要因素是大型标记数据集。然而，标记大型数据集是非常昂贵的，并且不可行，特别是在需要专门提供标签的领域中。另一方面，半监督学习（SSL）可以利用部分标记的数据，这更容易获得，如图1所示。半监督学习中的一个关键问题是如何从有限的标签数据中概括出所学习到的信息贡献相等;名字按顺序排列图1：在大量未标记图像中具有有限数量标记图像的图像集的图示。与仅从未标记数据中挖掘结构的无监督学习方法和仅查看有限数量的标记数据的监督学习方法不同，半监督学习利用来自标记和未标记数据的信息。未标记的数据。根据连续性假设，即接近的数据共享相同标签的概率更高[4]，已经开发了许多方法[27，37，8]，包括最近提出的标签传播[14]。半监督学习的另一个关键问题是如何直接从大量未标记数据中学习。最近研究了在不同增强的未标记数据之间保持一致性，并证明这是在自监督学习[5，11]和半监督学习[16，25，2，1，26，22，28，36，32]中从未标记数据学习的有效方法。除了一致性正则化之外，还开发了一些其他技术用于半监督学习以利用未标记的数据，例如熵最小化[21，17，10]和通用正则化[13，19，35，34，30]。最近提出的MixMatch[2]结合了上述技术，并设计了一个统一的损失函数，让模型从不同增强的标记和未标记数据中学习，以及混合[35]技术，该技术鼓励样本之间的凸行为，以提高模型ReMixMatch [1]通过引入分布对齐和增强匹配技术进一步改进了MixMatch，标记数据未标记数据15100L2标签列车图像弱增强鱼狗预测预测弱增强分类网络预测预测未标记的列车图像标签猜测强增强无监督损失？？？？？？预测预测LU伪标签伪标签线对损失LP监督损失LX标签标签图2：所提出的SimPLE算法的概述。SimPLE通过三个训练目标优化分类网络：1）增强标记数据的监督损失LX;2）非监督损失LU，将强增强未标记数据与弱增强数据生成的伪标签对齐; 3）配对损失P，基于伪标签的相似性和置信度，最小化强增强数据预测之间降低模型以适应和利用大量增强的样本。FixMatch [26]通过将置信度阈值引入其无监督目标函数来简化其先前的工作，并在标准基准测试中实现了最先进的性能。然而，虽然标签传播[14]主要关注标记数据与未标记数据之间的关系，而MixMatch家族[2，1，26]主要关注不同增强的未标记样本之间的关系，但不同未标记样本之间的关系研究较少。在本文中，我们建议利用不同的未标记样本之间我们引入了一种新的配对损失，它最大限度地减少了相似的未标记的高置信度样本之间的距离。结合MixMatch家族[2，1，26]开发的技术，我们提出了SimPLE算法。如图2所示，SimPLE算法通过对同一样本的多个弱增强变量的预测进行然后，我们使用标签和伪标签来计算有监督的交叉熵损失和无监督的L2距离损失。这两个术语推动了决策边界穿过低密度区域，并增强了相同样本的不同变化之间的一致性最后，与新提出的对损失，我们利用不同的样本的伪标签之间的关系，鼓励不同的未标记的样本之间的一致性，共享很大的相似性。我们的贡献可以从四个方面来描述：我们提出了一种新的无监督损失项，杠杆年龄的信息，从高置信度类似的联合国，标记的数据对。将MixMatch家族[2，1，26]的技术与新的配对损失相结合，我们开发了用于半监督学习的新型SimPLE算法。我们进行了广泛的实验标准的基准测试，并证明了建议的对损失的有效性。SimPLE在CIFAR 100和Mini-ImageNet上的性能优于最先进的方法，并与CIFAR 10，SVHN上的最先进方法相当。我们还评估了我们的算法在一个现实的设置，SSL方法应用于预先训练的模型，其中新提出的SimPLE算法也优于目前最先进的方法。2. 相关工作2.1. 一致性正则化一致性正则化在SSL领域有着广泛的应用。它指的是当对输入或模型使用扰动时，模型对输入的响应应该保持一致的想法这个想法是第一次提出[16，25]。在其最简单的形式中，正则化可以通过损失项来实现：模式l（y）|A（x）;θ）−p模l′（y|A（x）;θ）<$2（1）随机变换A（x）可以是特定于域的数据增强[2，16，25，1]、丢弃[25]、随机最大池化[25]或对抗变换[22]。这个想法的进一步扩展是····15101∼|p模式l′，而不是输入。扰动可以是模型在不同时间步长的时间集合[16，28]，也可以是模型参数θ的对抗性扰动此外，许多作品选择最小化交叉熵而不是L2范数[22，32，1，26]。2.1.1增强验证增强匹配首先由ReMixMatch[1]并在FixMatch中进一步开发[26]。它是一致性正则化的一种形式，涉及对输入应用不同级别的扰动模型例如，我们可以通过应用诸如水平翻转的“容易”增强来轻微地扰动输入由于模型2.2. 伪标记伪标签是由模型本身生成的人工标签，用于进一步训练模型。Lee [17]选择模型预测概率最高的类然而，伪标签仅在模型的微调阶段使用，该阶段已经进行了预训练。当我们最小化伪标签上的熵时，我们鼓励未标记样本聚类之间的决策边界位于低密度区域，这是低密度分离假设[4]所要求的。在本文中，为了简单起见，我们使用一个小写字母p<$N（N-概率单纯形）来表示硬标签（独热向量）或软标签（概率向量）。伪标签的一个简单而强大的扩展是基于置信阈值过滤伪标签[9，26]。我们将伪标签的置信度定义为它是任何类的最高概率（即，maxi（pi））。为了简单起见，从现在开始，我们将使用max（p）作为任何标签p的置信度的速记符号。利用预定义的置信度阈值τc，我们拒绝置信度低于阈值的所有伪标签（即，max（p）τc）。<置信度阈值允许我们关注远离决策边界的高置信度（低熵）标签。2.3. 标签传播标签传播是一种基于图的思想，它试图构建一个图，其节点是标记和未标记的样本，边缘由这些样本之间的相似性加权[4]。虽然它传统上被认为是一种转导方法[27，37]，但最近，它已被用于一个归纳设置作为一种方式来给伪标签。在[14]中，作者测量了CNN嵌入的标记和未标记样本的特征表示之间的相似性然后，将每个样本与具有最高相似性的K个邻居连接以构建亲和图。在以监督的方式预训练模型之后，它们交替地训练模型和传播图在[8]中提出了使用K个最近邻居来有效地构建图的想法，因为图中的大多数边应该具有接近于0的权重。我们的相似性阈值τc也起着类似的作用。3. 方法为了充分利用SSL问题中大量的未标记样本，我们提出了SimPLE算法，重点是未标记样本之间的关系。在接下来的部分中，我们首先描述半监督图像分类问题。然后，我们开发了我们的方法的主要组成部分，并将所有内容纳入我们提出的SimPLE算法。3.1. 问题描述我们将半监督图像分类问题定义如下。在L-类分类设置中，设X=（（xb，yb）;b∈（1，. . .，B））是一批标记数据，且U =（ub; b ∈（1，. . . ，B））是一批未标记的数据。令pmodel（y<$x;θ）表示模型由权重θ参数化的输入x的类概率。3.2. 扩充策略我们的算法使用Augmentation Correlation [1，26]，其中来自弱增强样本的伪标签充当我们的弱增强遵循MixMatch[2]，ReMixMatch [1]和FixMatch [26]，包含随机裁剪，然后是随机水平翻转。我们使用RandAugment [6]或包含困难变换（如随机仿射和颜色抖动）的固定增强策略作为强增强。对于每个批次，RandAugment从预定义的池中随机选择固定数量的增强;每个变换的强度由幅度参数确定。在我们的实验中，我们发现该方法可以适应高强度增强非常快。因此，我们简单地将幅度固定为可能的最高值。3.3. 伪标记我们的伪标记是基于[2]中使用的标记猜测技术我们首先将模型对同一未标记样本的几个弱增强版本的预测的平均值由于预测是从K个相同的微小扰动15102K不.L（v，q）=U′.算法1SimPLE算法1：输入：一批标记的示例及其独热标签X =（（xb，yb）; b ∈（1，. . . ，B）），一批未标记样本U =（ub; b∈（1，. . . ，B））、锐化温度T、弱增强数K、强增强数Kstrong、置信度阈值τc、相似度阈值τs。2：对于b= 1到B，3：xb=Aweak（xb）对xb应用弱数据扩充4：对于k= 1至K，5：ub，k=Aweak（ub）对ub应用kth轮弱数据扩充6：结束锻造7：对于k= 1到K强，8：ub，k=Astrong（ub）对ub应用kth轮强增广9：结束为K10：q<$b=1k=1p模型′（y=0|使用EMA计算所有弱增广ub上的平均预测11：qb=Sharpen（q<$b，T）<$将温度锐化应用于平均预测12：结束13：X∈=（（x∈b，yb）;b∈（1，. . . ，B））弱增广标号e例及其标号14：U∈=（（u∈b，k，<$qb）;b∈（1，. . . ，B），k∈（1，. . . ，Kstrongg））强增广的未标记的e示例，猜测的标记15：LX=1′x，y模型（y，p）|x;θ））计算监督损失∈X|X|Σ16：LU=1ˆ✶(max(q)>τ)ǁq−pmodel(y˜|u;θ）2计算阈值无监督损失L|U|u，q∈Uc2.Σ17：LP=配对损失U，τc，τs计算线对损耗18：返回rnLX+λULU+λPLP根据X和U计算损失L输入而不是K个严重扰动[2]或单个扰动[1，26]，猜测的伪标签应该更稳定。然后，我们使用[2]中定义的锐化操作来增加标签分布的温度1同一样本的不同扰动之间的一致性，但不同样本之间的一致性。3.4.1线对损失pT锐化（p，T）：=1<$p1（二）我们的目标是利用未标记的山姆之间的关系因此，我们在此引入一个新的损失术语，配对损失，它允许信息在不同的节点之间隐式传播。由于伪标签的分布的峰值是“尖锐的如果“ened此外，遵循MixMatch [2]的实践，我们在每个时间步使用模型的指数移动平均来猜测标签。3.4. 损失我们的损失由三项组成：监督损失LX，无监督损失LU和配对损失LP。L=LX+λULU+λPLP（3）输入未标记的样本。在配对损失中，我们使用未标记点p的高置信度伪标记作为“anchor”。所有伪标签与p足够相似的未标记样本需要在严重扰动下将其预测图3概述了这一选择过程。在此过程中，相似度阈值形式上，我们定义对损失如下：1LX=| X ′|ΣΣx，y∈XH（y，p）模型（y|x;θ））（4）21LP=. K′B2Σi，j∈[|U′|]，i/=jΔτc（max（ ql））u，q∈U<$$>（max（q）>τc）<$q-p模型（y<$|u;θ）2（v，q）=U′LU=. .（五）lliL.U.RRJLX计算弱增广标记样本的交叉熵，U表示强增广样本与其伪标记之间的L2距离，并通过置信度阈值进行滤波。请注意，LU只强制执行· n（fsim（ql，qr））· fdist（ql，p模型（y|vr;θ））这里，τc和τs分别表示置信度阈值和相似度阈值。t（x）=（六）15103信心C相似性Sp θ（y|（v r）狗猫鱼蛙狗猫鱼蛙QLmax（ql）<τcfsim（ ql，qr）τsmin fdist（q，p θ（y|（v r））θLQL狗猫鱼蛙qrr狗猫鱼蛙图3：配对损失概述。给定伪标签ql（red），其是表示猜测类分布的概率向量，如果ql中的最高条目超过置信度阈值τc，则ql将成为然后，对于任何伪标签和图像元组qr（浅蓝色）和vr（深蓝色），如果ql和qr之间的重叠比例（即相似性）大于置信度阈值τs，则该元组（qr，vr）将通过将vr的强增强版本的模型预测推到“锚点”ql（绿色箭头）来促成配对损失在此过程中，如果不能满足任一阈值，则ql、qr、vr将被拒绝。由阈值 t 控制的阈值函数。 fsim （ p ， q ）通过Bhattacharyya系数度量两个概率向量p，q之间的相似性[3]。系数界于[0，1]之间，表示两个离散分布的重叠部分的大小：3.4.2不同损失公式的动机我们遵循MixMatch [2]选择监督损失LX和非监督损失U项。我们在配对损失中使用巴塔查里亚系数[3]，因为它衡量了过度-两个分布之间的重叠，并允许更直观地选择相似性阈值τs。虽然我们认为巴塔查里亚系数[3]比L2距离（或2−L2）来衡量两个分布之间的相似性，我们将 L2 距离保留在无监督损失项中，以便与MixMatch进行更好的比较[2]的文件。此外，由于交叉熵测量熵并且是不对称的，因此它不是分布之间的良好距离测量在我们的实验中，我们观察到具有L2配对损失的SimPLE具有0. 测试精度比原来低53%。3.5. SimPLE算法通过将本节中介绍的所有组件放在一起在训练过程中，对于一小批样本，SimPLE首先用弱增强和强增强来增强标记和未标记的样本。未标记样本的伪标签是通过对弱增强的未标记样本进行平均然后锐化模型的预测来获得的最后，我们基于增广样本和伪标签优化损失项。在测试过程中，SimPLE使用模型权重的指数移动平均来进行预测，就像MixMatch在[2]中所做的那样。图2给出了SimPLE的概述，完整的算法在算法1中。CIFAR-100fsim （p，q）=q（7）fdist（p，q）测量两个概率向量p，q之间的距离。当fsim（p，q）∈ [0，1]时，我们选择距离函数为fdist（p，q）= 1 − fsim（p，q）。虽然根据分析，我们发现，cos（cos−1（τc）+ cos−1（τs））2是的最后确认，标签需要有证据才能被两者选择阈值，这样的低置信度标签在实践中很少被选择。基于经验证据，我们认为这是由可以通过高置信度阈值的标签p通常具有接近one-hot分布的事实引起的。因此，对于落入q的相似性阈值的另一标签q，它也必须具有相对高的置信度。由于这个性质，对损失对超参数τ s，τ c的选择并不十分敏感，我们将在4.3.2节中以经验的方式展示这一点。表1：CIFAR-100 Top-1测试准确度。#21453;用我们的实现。†：在FixMatch中报告[26]。4. 实验除非另有说明，我们使用Wide ResNet 28-2[33]作为我们的骨干和AdamW [20]，在所有实验中进行权重衰减优化。我们还使用每个训练步骤的网络参数的指数移动平均（EMA）进行评估和标签猜测。方法10000个标签骨干MixMatch64.01%WRN 28-2MixMatch增强67.12%WRN 28-2简单70.82%WRN 28-2[26]第二十六话71.69%WRN 28-8[26]第二十六话76.97%WRN 28-8[26]第二十六话77.40%WRN 28-8简单78.11%WRN 28-815104×××CIFAR-10SVHN方法1000个标签4000个标签1000个标签4000个标签增值税[1]81.36%百分之八十八点九五百分之九十四点零二百分之九十五点八[1]第一次见面82.68%89.64%百分之九十六点二五百分之九十六点六一MixMatch [2]百分之九十二点二五百分之九十三点七六百分之九十六点七三百分之九十七点一一ReMixMatch [1]百分之九十四点二七百分之九十四点八六百分之九十七点一七百分之九十七点五八[26]第二十六话简单−百分之九十四点八四百分之九十五点六九百分之九十四点九五百分之九十七点六四百分之九十七点五四−百分之九十七点三一完全监督†百分之九十五点七五百分之九十七点三表2：CIFAR-10和SVHN Top-1测试准确度。所有实验均使用WRN 28-2。†：准确性在ReMixMatch [1]中报告，并使用自己的实现。3.完全监督基线，使用所有标签和简单的增强（翻转和裁剪）。Mini-ImageNet方法4000个标签骨干KMixMatch55.47%WRN 28-22MixMatch增强60.50%WRN 28-27简单66.55%WRN 28-27[14]第十四话27.49%ResNet-18–标签传播[14]29.71%ResNet-18–简单49.39%ResNet-187表3：Mini-ImageNet Top-1测试准确度。#21453;用我们的实现。†：分数在[14]中报告，并使用自己的实现。为了与MixMatch进行公平的比较，我们通过将其与增强匹配结合来实现MixMatch的增强版本[1]。为了报告测试准确度，我们采用验证准确度最高的检查点并报告其测试准确度。默认情况下，我们的实验具有固定的超参数τc= 0。95，τs= 0。9和EMA衰减到0。九九九4.1. 数据集和评价CIFAR-10：一个数据集，包含均匀分布在10个类中的形状为32 32的60 K图像。训练集包含50K图像，测试集包含10K图像。对于CIFAR-10，我们的验证集大小为5000。结果见表2。SVHN：SVHN由10个类组成。其训练集包含73257幅图像，测试集包含26032幅图像。SVHN中的每个图像为32 32。SVHN的验证集大小为5000。结果见表2。CIFAR-100：与CIFAR-10类似，CIFAR-100也有50K训练图像和10 K测试图像，但有100个类。图像大小为32 32，与CIFAR相同10.对于CIFAR-100，我们的验证集大小为5000。结果见表1。Mini-ImageNet： Mini-ImageNet首次引入于[31]第31话学习该数据集包含100个类，每个类包含600个大小为84×84的图像。为SSL15105×评估，我们的协议遵循[14]，其中从每个类中选择500个图像以形成训练集，剩余的100个图像用于测试。由于[14]没有指定其验证集分割，我们总共使用7200个训练图像（每个类72个）作为验证集;这与[31]的验证集大小相同。DomainNet-Real[23] ： DomainNet-Real 有 345 个类别，每个类别的图像数量不平衡，遵循长尾分布。我们使用此数据集进行传输第4.3.1节中的学习实验。对于我们的评估，我们将图像大小调整为84 84，并为标记的训练集使用每个类11个镜头（总共3795个）。4.2. 基线方法我们比较了以下基线方法： Fix-Match [26] ，MixMatch [2]，ReMixMatch [1]，VAT [21]，[29]和标签传播[14]。4.3. 结果对于所有数据集，我们的标记和未标记集分割是通过从所有类别中随机抽取相同数量的图像而无需替换来完成的一般来说，我们的超级参数选择遵循MixMatch [2]和FixMatch [26]。CIFAR-100：我们将损失权重设置为λU= 150，λP=一百五十如表1所示，我们发现SimPLE具有sig-15106×转移：DomainNet-Real到Mini-ImageNet方法4000个标签收敛步骤监管，带EMA§48.83%4KMixMatch从零开始MixMatch50.31%53.39%150K69KMixMatch从零开始的增强型网络MixMatch增强型52.83%55.75%734K7K从零开始简单59.92%58.73%三十三万八千53K表4：DomainNet-Real预训练模型转移到Mini-ImageNet。所有实验均使用WRN 28-2。当模型的验证精度达到其最高验证精度的95%时，模型收敛。§：仅使用标记的训练集。#21453;用我们的实现。对CIFAR-100的重大改进。为了更好地与[26]进行比较，我们使用相同的优化器（SGD），超参数和骨干网络（具有23 M参数的WRN28-8有了更大的骨架，我们的方法仍然提供了比基线方法更好的改进18 [12]与以前的作品进行公平的比较。结果见表3。总的来说，我们的方法在Mini-ImageNet上的表现优于所有其他方法，无论主干如何。我们的方法可以扩展到更具挑战性的数据集。耗氧物质SimPLE比FixMatch好0.7%，只有4.7小时的训练收敛，而FixMatch需要大约8小时的收敛。我们认为当验证精度达到其最高值的95%时，就达到转移：ImageNet-1 K到DomainNet-RealCIFAR-10，SVHN：对于CIFAR-10，我们设置λU= 75，λP= 75;对于SVHN，我们设置λU=λP= 250。为数据集，我们使用SGD与余弦学习率衰减[18]衰减率设置为7π，遵循FixMatch [26]的表5：ImageNet-1 K 预训练模型转移到16在表2中，我们发现SimPLE与ReMix不相上下[26 ]第26话，与你相遇。ReMixMatch、FixMatch和SimPLE非常接近完全监督的基线，测试准确度的差异小于1%。SimPLE在这些领域的效果较差，因为剩余样本是困难的，其伪标签与任何高置信度伪标签都不相似。在这种情况下，没有伪标签可以通过Pair Loss中的两个阈值并导致损失。我们观察到，一批中通过两个阈值的对的百分比在训练过程的早期稳定下来（ SVHN 的百分比为 12% ， CIFAR-10 的百分比为10%）。因此，配对损失不会像在更复杂的数据集中那样带来太多的性能增益。Mini-ImageNet：为了检查我们方法的可扩展性，我们在Mini-ImageNet上进行了实验。Mini- ImageNet是一个更复杂的数据集，因为它的类别和图像直接从ImageNet中采样。虽然图像大小缩小到84 84，但它仍然比CIFAR-10，CIFAR-100和SVHN复杂因此，Mini-ImageNet是说明SimPLE可扩展性的绝佳候选者除了在Mini-ImageNet上进行WRN 28-2实验外，我们还在ResNet上应用了SimPLE算法DomainNet-Real.所有实验均使用ResNet-50。当模型的验证精度达到其最高验证精度的95%时，模型收敛。§：仅使用标记的训练集。#21453;用我们的实现。4.3.1SSL用于迁移学习任务在现实世界的应用程序中，一个常见的场景是目标任务与现有数据集相似。如果目标域有足够的标记数据，迁移学习在这种情况下是有帮助的然而，这并不能保证。因此，SSL方法在从不同数据集上的预训练模型开始时需要表现良好。使用预训练模型的另一个好处是具有快速收敛性，这对于时间敏感的应用程序很重要。由于以前的SSL方法经常忽略这种情况，因此在本节中，我们将评估我们的算法MixMatch [2]和传输设置中的监督基线。监督基线仅使用标记的训练数据和参数EMA进行评估。所有的转移实验都使用固定的增强。我们的第一个实验是从 DomainNet-Real 到 Mini-ImageNet的适配;结果见表4。我们观察到，预训练的模型与训练的模型相当。方法3795标签收敛步骤监管，带EMA§42.91%4KMixMatch35.34%5KMixMatch增强型35.16%5K简单50.90%65K15107∼∼消融：CIFAR-100消融增强类型λPτcτsK10000个标签简单简单无线对损耗无线对损耗不含随机增强垫块无随机扩增，无配对丢失RandAugmentRandAugmentRandAugmentRandAugment已修复固定1501500015000.950.950.950.950.950.950.90.90.90.90.90.927272270.82%73.04%69.07%69.94%67.91%67.41%τc= 0.75τs= 0.7τc= 0.75，τs= 0.7RandAugmentRandAugment1501501500.750.950.750.90.70.722271.96%百分之七十点八五71.48%λP= 50λP= 250RandAugmentRandAugment502500.950.950.90.92271.34%71.42%表6：CIFAR-100上的消融。所有实验均使用WRN 28-2但收敛速度要快5100倍。在迁移设置下，SimPLE比MixMatch好7.57%，比监督基线好9.9%。表 5 中的实验是从 ImageNet-1 K [7] 转移到DomainNet-Real。由于ImageNet-1 K预训练的ResNet-50 [12]在许多机器学习库中很容易获得（例如，PyTorch），我们使用ImageNet-1 K预训练的ResNet-50来模拟真实世界的应用程序，以评估性能和收敛速度。在DomainNet-Real上，MixMatch比监督基线低约7%，而SimPLE比基线高8%MixMatch Enhanced尽管具有增强功能，但性能并不优于MixMatch。很明显，SimPLE在预训练的设置中表现良好，并且大大超过了MixMatch和监督基线。这种行为在数据集和网络架构中是一致的。另一方面，在预先训练的环境中不会提高性能。与从头开始训练相比，预训练的模型并不总是提供性能改进，因为预训练的模型可能具有不容易克服的领域偏差。例如，在我们的DomainNet-Real到Mini-ImageNet实验中，预训练的测试准确率略低于从头开始训练然而，当从预训练的模型开始时，收敛速度明显更快（4.3.2CIFAR-100消融研究在本节中，我们使用WRN 28-2对CIFAR- 100进行了消融研究，以评价我们系统不同部分的有效性。结果见表6。我们选择CIFAR-100是因为它有合理数量的类（相当复杂）和较小的图像大小（足够快的训练）。我们观察到，配对损失显着提高了per-prone。更多样化的扩张政策或-增加增强的数目，增强了对损耗的优势此外，SimPLE对阈值变化具有鲁棒性。对鲁棒性的一个可能的解释是，由于一对必须通过两个阈值才能导致损失，因此改变其中一个阈值可能不会显著影响通过两个阈值的对的总数。5. 结论提出了一种半监督学习算法SimPLE。SimPLE通过考虑新的无监督目标Pair Loss来改进以前的作品[2，1，26]，该目标最小化具有高于特定阈值的相似性的高置信度伪标签我们已经进行了广泛的实验，在标准数据集上，并证明了SimPLE算法的有效性。我们的方法在CIFAR-100和Mini-ImageNet [31]上显示出比以前最先进的算法显著的性能增益，并且与CIFAR-10和SVHN上的最先进的方法相当此外，SimPLE在迁移学习设置中也优于最先进的方法，其中模型由ImageNet[15]或DomainNet-Real [23]上预先训练的权重初始化。6. 确认本材料基于空军研究实验室（AFRL）根据协议编号FA 8750 -19-1-1000赞助的研究。美国政府获授权为政府的目的复制及分发重印本，即使其中有任何版权注明。本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表空军实验室、DARPA或美国政府的官方政策或认可（无论是明示还是暗示）。15108引用[1] 放大图片作者：David Berthelot，Nicholas Carlini，EkinD.Cubuk，Alex Ku- rakin，Kihyuk Sohn，Han Zhang，and Colin Raffel.ReMix-Match：具有分布匹配和增强训练的半监督学习。在国际会议上学习代表，2020年4月。一、二、三、四、六、七、八[2] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A. 拉斐MixMatch：半监督学习的整体方法。在神经信息处理系统中，第5049一、二、三、四、五、六、七、八、十一[3] A.巴塔查里亚关于两个多项总体之间分歧的一个度量。Sankhya'：TheIndianJournalofStatistics（1933-1960），7（4）：4015[4] Olivier Chapelle ， Bernhard Schlkopf ， and AlexanderZien.半监督学习IEEE Transactions on Neural Networks，20（3），2010年3月。第1、3条[5] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁兹，和葛·奥弗里·辛顿.视觉表征对比学习的一个简单框架。arXiv预印本arXiv：2002.05709，2020。1[6] Ekin D. Cubuk，Barret Zoph，Jonathy Shlens，and QuocV. Le. Randaugment：实用的自动数据扩充，减少搜索空间。在 IEEE/CVF 计算机视觉和模式识别会议（CVPR）研讨会上，2020年6月。三、十一[7] J.邓，W.东河，巴西-地索赫尔湖，澳-地李，李凯，李飞飞。Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页，2009年。8[8] Matthijs Douze，Arthur Szlam，Bharath Hariharan，andHerve 'Je' gou. 低拍摄学习与大规模的差异。在IEEE计算机视觉和模式识别会议论文集，第3349-3358页第1、3条[9] 杰弗里·弗伦奇，米哈尔·麦凯维奇和马克·H。费希尔视觉域自适应的自组装。2018年2月，在国际学习代表会议上。3[10] Yves Grandvalet和Yooney Bengio基于熵最小化的半监督学习。神经信息处理系统的进展，第529-536页，2005年。1[11] 何开明、范浩琪、吴雨欣、谢赛宁、罗斯·格西克。用于无监督视觉表示学习的动量对比。在计算机视觉和模式识别，第9729-9738页，2020年6月。1[12] 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习。在 IEEE 计算机视觉和模式识别会议（CVPR）上，2016年6月。七、八[13] 杰弗里·E·辛顿和德鲁·范·坎普。通过最小化权值的描述长度来保持神经网络的简单性第六届计算学习理论年会论文集，第5-13页，1993年。1[14] Ahmet Iscen 、Giorgos Tolias 、Yannis Avritis 和OndrejChum。深度半监督学习的标签传播在IEEE/CVF计算机会议录中视觉和模式识别（CVPR），2019年6月。一，二，三，6[15] Alex Krizhevsky，Ilya Sutskever，and Geoffrey E Hinton.使用深度卷积神经网络的ImageNet分类。In F.佩雷拉角，巴西-地J. C.伯吉斯湖Bottou和K. Q. Weinberger，编者，《神经信息处理系统进展》25，第1097柯伦联合公司，股份有限公司、2012. 1、8[16] Samuli Laine和Timo Aila用于半监督学习的时间集成。arXiv：神经和进化计算，2016年10月。一、二、三[17] 李东贤伪标签：用于深度神经网络的简单有效的半监督学习方法。在表征学习挑战研讨会上，ICML，第3卷，2013年。第1、3条[18] 伊利亚·洛希洛夫和弗兰克·赫特。Sgdr：Stochas-带热重启的 tic 梯度下降。 arXiv 预印本 arXiv ：1608.03983，2016年。七、十一[19] 伊利亚·洛希洛夫和弗兰克·赫特。解耦权重衰减正则化。arXiv预印本arXiv：1711.05101，2017。1[20] 伊利亚·洛希洛夫和弗兰克·赫特。解耦权去cay正则化。在2019年国际学习代表。五、十一[21] T.宫城，S.前田，M。Koyama和S.石井虚拟对抗训练：监督和半监督学习的正则化方法。IEEE Transactions onPattern Analysis and Machine Intelligence，41（8 ）：1979第1、6条[22] 宫人卓，前田新一，小山正则，石井真。虚拟对抗训练：监督和半监督学习的正则化方法。 IEEETransactionsonPatternAnalysisandMachineIntelligence，41（8）：1979-1993，2019年8月。一、二、三[23] Xingchao Peng，Qinxun Bai，Xide Xia，Zijun Huang，Kate Saenko，and Bo Wang.用于多源域自适应的矩匹配。在IEEE计算机视觉国际会议论文集，第1406一、六、八[24] Edgar Riba ， Dmytro Mishkin ， Daniel Ponsa ， EthanRublee，and Gary R.布拉斯基Kornia：pytorch的开源可区分计算机视觉库。2020年计算机视觉应用冬季会议。十一、十二[25] Mehdi Sajjadi，Meidou Javanmarti，和Tolga Tasdizen.用于深度半监督学习的随机变换和扰动正则化在神经信息处理系统中，第1171-1179页，2016年12月。一、二[26] 孙奇赫，David Berthelot，李春良，张子昭，NicholasCarlini，Ekin D. Cubuk，Alex Kurakin，Han Zhang，and Colin Raffel. FixMatch：用一致性和置信度简化半监督学习。 arXiv：学习，2020年1月。一、二、三、四、五、六、七、八、十一[27] 马丁·舒默和托米·贾科拉马尔可夫随机游动的部分标号分类神经信息处理系统的进展，第945-952页，2002年第1、3条[28] 安蒂·塔尔瓦宁和哈里·瓦尔波拉。平均教师是更好的榜样：加权平均一致性目标提高15109半监督的深度学习结果。在学习表征国际上，2017年1月。第1、3条[29] 安蒂·塔尔瓦宁和哈里·瓦尔波拉。平均教师是更好的榜样：加权平均一致性目标改善了半监督深度学习结果。在重症古永，联合V. Luxburg，S.本焦，H。瓦拉赫河Fergus，S.Vish-wanathan和R.Garnett，编辑，《神经信息处理系统进展》，第30卷，第1195柯兰联营公司2017. 6[30] Vikas Verma ， Alex Lamb ， Juho Kannala ， Yo

下载后可阅读完整内容，剩余1页未读，立即下载