深度半监督学习的基于流形假设的转换标签传播方法

115 浏览量更新于2023-10-18 收藏 897KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于深度半监督学习的Ahmet Iscen1Giorgos Tolias1Yannis Avritis2OndBagrejChum11VRG，FEE，CTU in Prague2 Univ Rennes，Inria，CNRS，IRISA摘要半监督学习正变得越来越重要，因为它可以将人类仔细标记的数据与大量未标记的数据相结合，以训练深度神经网络。专注于转导学习的经典半监督学习方法尚未在现代深度学习所遵循的归纳框架中得到充分利用。同样的道理也适用于流形推理--相似的例子应该得到相同的在这项工作中，我们采用了一种基于流形假设的转换标签传播方法来对整个数据集进行预测，并使用这些预测来为未标记的数据生成伪标签并训练深度神经网络。转换方法的核心因此，我们的学习过程在这两个步骤之间迭代。我们在几个数据集上提高了性能，特别是在少数标签制度中，并表明我们的工作是对当前最先进技术的补充。1. 介绍许多计算机视觉问题的现代方法都利用了深度神经网络。这些都是流行的，因为它们非常有效，并在测试时提供了很好的性能。缺点是需要大量的训练示例，这些示例由人工标记或在代理任务上自动标记。视觉数据大量可用，然而，由人类可靠地注释的数据仍然非常稀缺。为每一个任务提供大量带注释的训练数据不仅不切实际，可能成本高昂，而且容易出错。众包注释的低质量是最小化注释需求的常见动机在度量学习领域，最近已经通过无监督方法实现了有希望的结果这些任务利用原始空间中的数据分布，例如训练前向空间的成对关系图1.流形上的标签传播玩具的例子。三角形表示标记的训练数据，圆圈表示未标记的训练数据。顶部：标记点的颜色编码的地面实况，未标记点的灰色。底部：通过扩散推断的颜色编码的伪标签，用于训练CNN。大小反映了伪标记预测的确定性。示例[42]、示例与簇质心之间的关系[1]或考虑数据的流形结构[19]。或者，在自监督学习中，可以利用额外的信息，如图像中的空间布局[5，12]或视频中的时间关系[40，28];或者使用传统方法通过算法监督在非结构化数据中挖掘此类信息[13，30]。然而，大多数这样的代理任务是低劣的，当直接相比，费力地注释的数据由人类。在分类中，半监督方法试图减少标记样本的数量，从而在所有数据上的完全在转导学习[43，45]中，限制于给定的一组未标记示例的标签推理是有趣的。在归纳学习中，目标是推广到新的未知数据，而原始训练数据被丢弃。这是通过以下方式实现的：通过将分类损失与标记50705071在所有数据上具有无监督目标的数据，其中后者作为正则化[41，38]。或者，可以使用现有的分类器来分配伪标签[24，35]，这是另一种形式的算法监督。使用在仔细注释的数据上训练的强大分类器可以提供高质量的伪标签，为从真实的未标记的大规模数据中学习打开大门。在这种全监督学习[31]中，标记部分的全监督性能实际上是下限。这只是刷新归纳半监督方法的兴趣在本文中，我们使用有效的转换标签传播[43]来推断用于训练分类器的未标记数据的伪标签标签传播是一种基于图的方法，在这项工作中，图是利用分类网络本身获得的嵌入来构建的因此，所提出的方法在两个步骤之间交替。首先，从标记和伪标记数据训练网络。第二步使用在前一步中训练的网络的嵌入来构造最近邻图。然后使用标签传播来推断未标记图像的伪标签，以及每个图像和每个类的确定性得分。执行训练所有数据，使用基于确定性的权重。我们在标准数据集上的实验表明，该方法优于其他半监督方法。可用的标记数据越少，所提出的方法的优势就越明显。2. 相关工作文献是丰富的半监督学习（SSL）的问题。建议读者参阅[3]以获得广泛的概述。SSL在图像分类中也是如此[10，16，4，37]。在本节中，我们主要将讨论限制在使用深度学习进行SSL的方法上，并使用小批量优化在大型图像集合上执行训练。用于图像分类的半监督深度学习的先前工作分为两大类。第一种是方法，例如[15，23，34，38]，将无监督损失项（通常称为正则化项）添加到损失函数中。该术语应用于所有图像或仅未标记的图像。第二类中的方法e.G. [24，36]，将伪标签分配给未标记的示例。然后，伪标记数据用于具有监督损失（诸如交叉熵）的训练这两个类别都使用了一个标准的损失项，该损失项是在标记图像的监督下训练的。SSL深度图像分类的全面评估可以在Miyato等人的文章中找到。[27]第10段。我们的贡献属于第二类，并且在概念和实现方面与第一类正交。因此，将所提出的方法与来自第一类的任何方法组合是直接的我们将它与[38]结合起来，如第5节所示。深度SSL中的无监督丢失。假设每个训练图像，标记或不标记，属于一个单一的类别，对分类器的一个自然的要求是对训练集进行自信的预测。这个想法是由Sajjadiet al。[35]，其中正则化器被设计为最小化网络输出的熵这种损失术语很容易与其他术语合并对于以无监督方式应用于所有图像的去噪自动编码器执行类似的组合[32]。一个引起广泛关注的方向是一致性损失，其中两个相关的情况，例如：来自两个相似图像或由具有相关参数的两个网络产生的图像被鼓励具有相似的网络输出。Sajjadi等人[34]是第一个，据我们所知，使用一致性损失之间的网络输出的随机扰动的同一图像。Laine和Aila [23]更倾向于在当前网络的输出和训练期间输出的时间平均值之间应用一致性。最先进的平均教师（MT）方法[38]通过对网络参数进行平均来代替输出平均。一致性损失通常用平方欧几里德距离来衡量。Jensen-Shannon分歧被Qiao等人使用。[29]，而两个网络的互补性是通过对抗性的例子来实现的Miyato等人提出了一个类似的想法。[26]第10段。深度SSL中的伪标记。Lee [24]使用当前网络通过选择最有信心的类来推断未标记示例的伪标签。在交叉熵损失中，这些伪标签被视为人类提供的标签它的影响类似于熵最小化[35];在这两种情况下，网络都被迫拥有更自信的预测。Shiet al采用了相同的原理。[36]，其中作者进一步增加对比损失的considerable损失。我们的方法与所有这些先前的工作不同，因为伪标签是通过标签传播而不是网络预测来推断的标签传播已广泛用于 transductive 设置（见第 11 章[3]）。最近，Douzeet al. [7]使用CNN描述符在大型图像数据集上执行标签传播，以进行少量学习。不可见图像通过在线标签传播进行分类，这需要存储整个数据集，而网络是预先训练的，描述符是固定的。我们的工作是不同的，因为我们执行标签传播的训练集离线，而训练网络，这样的推理是可能的，而无需访问原始的训练集。关联学习[17]可以被看作是在标记和未标记示例之间的约束二分图上的两个传播步骤。图转换游戏（GTG）[9]，一种标签传播的形式，已被用于伪标签[8]，如我们的工作，但在这种情况下，网络是预先训练的，图保持固定，没有权重机制。我们在第5节中比较了这种方法。5072XX →X →|| −||∈×W∈∧3. 预赛在本节中，我们将阐述半监督学习问题，然后讨论分类器，在先前的工作中常用的不同损失函数，最后是我们的方法所基于的转导学习方法。在我们的实验中，我们使用卷积神经网络（CNN）来执行图像分类，但该公式适用于任何领域的任何网络架构。问题表述。我们假设n个示例的集合X：=（x1，. . . ，xl，xl+1，. . . ，xn），其中xi∈ X.其中再次重申，S是任何监督损失函数，如交叉熵。一个例子是Lee [24]提出的方法，他首先用（2）训练网络fθ，然后根据（1）为i∈U分配伪标签。无监督损失是另一种常见的替代方法，其中损失函数适用于标记和未标记的示例，并鼓励数据或网络的不同变换下的所谓的一致性损失[36，38，36]定义为：Σn前l个例子xi，i∈L：={1，. . .，l}，由Xl表示，根据Yl：=（yl，. . .，y l）与Lu（X;θ）：=<$u（fθ（xi），fθ<$（x<$i）），（4）i=1yi ∈C，其中C：={1，. . .，c}是c个类的离散标签集。剩余的u：=n−l个例子x i，对于i ∈ U：={l+1，. . . ，n}，由Xu表示，是未标记的。SSL的目标是使用所有示例X和标签YL训练一个分类器，将以前看不见的样本映射到类别标签。分类器该网络从中获取输入示例，并生成类置信度得分的向量。我们用fθ：Rc表示，其中θ是网络参数。它在概念上分为两个部分。第一个是特征提取网络φθ：Rd，将输入映射到特征向量或描述符。我们用vi：=φθ（xi）表示第i个例子的描述符.第二层通常由应用于φθ之上的全连接（FC）层组成，然后是softmax，产生置信度分数的向量。函数fθ是从输入空间其中，X1是指e示例X1的不同变换。请注意，根据数据扩充的标准实践，训练期间xi的每次向前传递都是在某种随机变换下执行的。参数集θn要么等于θ，要么等于它的任何其他变换，例如网络更新序列上的移动平均值[38]。一个简单的选择是平方欧几里德距离，即。u（s，s）2fors，sRc，迫使两个输出尽可能接近。Transductive学习解决了一个更具体的问题。而不是训练一个通用的分类器能够分类新的，但看不见的，例子，目标是使用X和YL，以转移标签的例子在XU。在这项工作中，我们采用了基于图的方法周等人。[43]第一个是扩散学习。[43]第四十三章：我的世界令V=直接影响到置信度得分。网络的输出为第i个例子是fθ（xi），预测是（v1，. . .，vl，vl+1，的。. .，vn）是描述符集，其中v是最大置信度y∈i：=argmaxfθ（xi）j，（1）J其中下标j表示向量的第j维监督损失。在监督学习中，通过最小化以下形式的监督对应于前面定义的xi对称邻接构造了一个对角为零的矩阵W ∈ Rn×n，其元素wij在vi和vj之间的两两相似度为非negative.其对称归一化对应物由下式给出：=D−1/2WD−1/2，其中D：= diag（W1n）是度矩阵，1n是全一n-向量。一个n-c标号矩阵Y被定义为元素.Ls（XL，YL;θ）：=Σli=1n（fθ（xi），yi），（2）Yij：=1，如果i L yi=j0，否则。（五）它只适用于在XL中标记的例子。当在半监督设置中训练网络时，该术语是总损失的一部分[36，38，29]。分类中损失函数的标准选择是交叉熵，由下式给出：s（s，y）：=−logsy对于s∈Rc和y∈C。伪标记是指给每个e示例xi（i∈U）分配一个伪标记y ∈i的过程。用YU表示：=（yl+1，. . . ，yn）XU的伪标签的集合，以下附加伪标签丢失术语适用Σn也就是说，对应于标记示例的Y行是独热编码标签，其余为零。扩散相当于计算n×c矩阵Z：=（I−αW）−1Y，（6）其中α∈[0，1）是一个参数。最后，未标记示例xi的类预测为：yi：=argmaxzij，（75073）J其中zij是矩阵Z的（i，j）元素。Lp（XU，Y<$U;θ）：=ψs（fθ（xi），y<$i），（3）i=l+11我们首先介绍原始方法，并在下面的部分讨论我们的设计选择。5074- Wǁ·ǁ−- Wzz有趣的是，观察到由（6）定义的矩阵Z是以下二次成本函数这是因为矩阵（I α）是正定的。已知此解比迭代解快¨ ¨nüé伊日Zhouet al.[43]，并已用于半监督2学习[44]，交互式图像分割[14]，图像J（Z）：=wij−j+（1−α）<$Y−Z<$F，检索[20]和语义图像分割[2]。最后，2i，j=1第二部分djj¨我们推断伪标签Y=（y），的。 . . ，y），其中y（八）其中zi是矩阵Z的第i行，dii是第i个对角线。由（7）给出。U l+1n iD和F的最终对角元是Frobenius范数。第一项鼓励平滑，使得附近的示例得到相同的预测，而第二项试图保持对标记示例的预测[43]。4. 方法在下文中，我们首先概述我们的方法。然后，我们开发了我们解决方案的主要元素，将所有内容放在一个具体的算法中，并讨论了我们的方法如何与使用SSL无监督损失的方法互补[38，36，36]。最后，我们讨论了与先前鼓励深度网络平滑的工作的关系。伪标签确定性和类平衡。推断通过硬赋值从矩阵Z得到的伪标签具有两个不良反应：首先，我们在所有未标记的示例上定义伪标签，而显然我们对每个示例不具有相同的确定性。其次，伪标签可能不会在类上平衡，这将阻碍学习。为了处理前一个问题，我们将每个伪标签与反映预测确定性的权重相关联。我们使用熵作为不确定性的度量，将权重ωi分配给示例xi，定义为：ω：=1H（z=1），（11）ilog（c）其中Z是Z的反向归一化对应物，即，概况. 我们引入了一个新的半监督学习的迭代过程，可以总结如下。兹吉Σ=zij/k 兹伊克，函数H：Rc→R是熵首先，我们构造一个最近邻图，并通过对训练集的直推学习来执行标签传播。然后，我们估计一个权重反映标签传播的不确定性为每个未标记的例子。最后，我们将获得的标签注入到网络训练过程中。这些想法将在下文中阐述，而图2则显示了拟议方法的图形概述。最近邻图给定一个参数为θ的网络，我们构造了描述符集V=（v1，. . . ，vl，vl+1，. . . ，vn），其中vi：= φ θ（x i）。稀疏有元素的仿射矩阵A∈Rn×n功能权重ωi在[0，1]中归一化，因为log（c）是Rc中的最大可能熵。为了处理后一个类不平衡的问题，我们将权重j分配给与类数量成反比的类j，定义为j：=（|LJ|+的|UJ|）-1，其中Lj（resp. Uj）是标记为（分别为伪标记的）为类J。给定上述每个示例和每个类权重的定义，我们将以下加权损失与标记和伪标记示例相Σl.[v<$vj]γ，如果i/=j<$vi∈NNk（vj）Lw（X，YL，Y<$U;θ）：=<$yi<$s（fθ（xi），yi）i=1aij：=i+（9）乌布0，否则构造，其中NNk表示k最近+i=l+1ωi<$y<$i<$s（fθ（xi），y<$i），（12）X中的邻居，并且γ是最近基于流形搜索的工作之后的参数[20]。请注意，即使对于大的n [20]，构建最近邻图的亲和矩阵也是有效的，而在Zhou等人中构建全亲和矩阵。是不容易处理的。然后，令W ：=A+A，这确实是一个零对角对称非负邻接矩阵。标签传播。对于大的n，通过（6）估计矩阵Z是不实际的，因为逆矩阵（Iα）−1不是稀疏的。我们宁愿用共轭梯度法来求解线性方程组（I−αW）Z=Y，（10）2αΣ5075它是Ls（2）和Lp（3）的加权形式之和。与（3）相反，伪标签起源于扩散而不是网络预测。图3中显示了一个玩具示例，显示了标签传播的结果和估计的权重。迭代训练。给定上述最近邻图定义、标签传播、示例/类加权和伪标签丢失的定义，我们将这些组件插入到迭代学习过程中。我们从随机初始化网络参数θ开始，并使用监督损失项（2）在l个标记的示例XL上以完全监督的方式训练T个时期的网络。然后，经过训练的网络为5076网络fθ特征提取器φθ训练1个epoch，Lw（X，YL，Y<$U;θ）阶段2：迭代T′次：伪标签（大小与确定性ωi成比例）第一阶段：训练Tepochs，Ls（ XL，YL;θ）（仅标记示例）提取描述符V计算亲和度A（9）W←A+AW ←D−1/2WD −1/2：标签：缺少标签图2.拟议方法概述。从一个随机初始化的网络开始，我们首先在标记的示例上以监督的方式训练它。然后我们开始一个迭代过程，在每次迭代中，我们计算当前网络特征空间中整个训练集的最近邻图，我们通过转换学习传播标签，然后我们在整个训练集上训练网络，分别在标记或未标记的示例上使用真实标签或伪标签伪标签分别根据预测确定性和逆类群体按示例和类加权1个标记示例3个标记示例10个标记示例图3.玩具示例，300个示例演示了不同数量的标签示例的标签传播。三角形标记对应于标记的示例，圆圈对应于最终通过标签传播伪标记的未标记的示例。类是用颜色编码的，圆圈的大小对应于权重ωi。真正的标签与图1（顶部）的示例相同。经过迭代过程。首先，我们在整个训练集X上提取描述符V，并计算最近邻居以构建邻接矩阵W。其次，我们通过求解线性系统（10）来执行标签传播，并通过（7）将伪标签分配给未标记的示例XU最后，我们使用加权损失Lw（12）在整个训练集X我们对T′epoch重复这个迭代过程以上在算法1中总结。过程OPTIMIZE（）是指一个时期的相应损失项的小批量优化，即，所有的例子被一次性地馈送到网络有关批处理构造的更多细节在实现细节中给出。与其他方法相结合。我们的贡献落在伪标签丢失的情况下，形式为（3）。它与使用无监督损失的方法是正交的，因为立场（4），适用于标记和未标记的例子。通过将项（4）添加到在算法1的第4行和第16行中优化的总损耗，以直接的方式来组合两者。这正是我们在实验中将所提出的方法与最先进的Mean-Teacher方法[38]相结合的方式。讨论在一个归纳框架中，如果zi/dii是re-将网络输出fθ（xi）放在（8）的平滑项中，则这成为无监督损失项，e.G.像（4），只是现在它鼓励附近的例子预测之间的一致性。实际上，这种解决方案被采用，例如，由Westonet al. [41]。这不是非常有效的，因为邻接矩阵通常是稀疏的，仅在最近的邻居上具有非零元素，然后平滑项的梯度将仅在每次迭代时从每个示例传播到其邻居。FC + softmax使用φθ5077×××算法1用于深度SSL的标签传播1：过程LPDSSL（训练示例X，标签YL）2：θ←随机初始化3：对于epoch ∈ [1，. . . ，T] do4：θ←OPTIMIZE（Ls（XL，YL;θ））小批量优化6：对于epoch ∈[1，. . . ，T ′] do7： f或i∈{1，. . . ，n}dovi←φθ（xi）是提取描述符8：对于（i，j）∈ {1，. . . ，n}2do aij← affinity values（9）9： W ←A+A对称亲和度10：W ←D−1/2W D−1/2对称归一化亲和度教师[38]可用时（1k，2k和4k标签）。选择过程重复10次，导致CIFAR 10上SSL的 10个不同数据集分割我们遵循通常的做法，即使用它们中的每一个并报告平均误差和标准差。CIFAR-100。类似于CIFAR-10，CIFAR-100有50k训练和10k测试图像的分辨率为32 - 32，来自100类。我们遵循与CIFAR-10协议我们用40和100的标签进行评估11：Z←使用CG求解（1012： for（i，j）∈U×Cdoz<$ij<$zij/微扰扩散kzik归一化Z每个类别的图像，对应于总共4k和10k标记的图像。有3个这样的数据集分裂，平均误差和十三：fori∈Udoy<$i<$argmaxjz<$ij <$p伪标号十四：f或i∈Udoωi<$y<$i的确定性（11）伪标签权重15：C=C+ ， C =C|LJ|+ 的 |UJ| ） −116 级配重 / 平衡：θ←OPTIMIZE（Lw（X，YL，Y<$U;θ））小批量优化17：结束18：结束程序因此，我们的主要思想是，不是仅仅鼓励附近的例子得到相同的预测，而是鼓励所有的例子得到与我们根据二次成本（8）及其解Z（6）通过转导学习得到的预测相同的预测。计算Z是有效的，因为它是在我们的主要优化过程之外执行的，即。它不需要在小批量数据上迭代并通过网络反向传播。然后，给定Z，主优化过程将所有示例直接驱动到该解决方案，就好像它们都被标记了一样。5. 实验我们提出了在我们的实验中使用的数据集和SSL设置如下。然后，我们讨论了我们的方法的训练细节和为了公平比较而复制的方法。最后，我们进行实验，以显示所提出的方法中涉及的不同组件的影响，并与最先进的比较。除非另有说明，所有报告的错误率都是由我们自己的实现产生的。5.1. 数据集我们使用三个图像分类数据集，即CIFAR-10 [22]，CIFAR-100 [22]和Mini-ImageNet [39]。每个数据集都用于SSL设置，其中部分训练图像被标记，其余的未标记。我们评估了一个独立的测试集上的性能。除非另有说明，否则在我们的实验中报告错误率。CIFAR-10。训练集由来自10个类的50k图像组成，而测试集由来自相同10个类的10k图像组成。所有图像都有分辨率32 32.每类50、100、200和400个标记图像进行评估，总共对应于l=500、1k、2k和4k个标记图像。我们使用与Mean中相同的标记图像随机选择报告标准偏差Mini-ImageNet. 我们为Mini-ImageNet [ 39 ]引入了SSL评估设置，Mini-ImageNet [39]是众所周知的ImageNet[6]数据集的子集，并且以前曾用于少数学习[11]。我们使用Ravi和Larochelle的工作中创建的训练/测试分割[33]。它由100个类，每个类600个图像，分辨率为8484。我们随机地从每个类中分配500张图像到训练集，并将100张图像分配到测试集。结果分别是50k和10k图像的训练集和测试集。我们创建了三个数据集分裂的情况下，40和100个标记的图像，每个类对应于4k和10k标记的图像在tal。报告了三个数据集分割的平均误差和标准差5.2. 培训我们列出了复制的基线，并提供了每个算法和数据集的训练细节。实施. 我们在公开可用的Pytorch代码上构建我们的实现，用于Mean Teacher（MT）方法[38]2。全面监督的基线和MT与原始实现相同地复制。在我们所有的实验中，使用SGD优化。网络. 在CIFAR-10和CIFAR-100上进行了实验，使用了“13层”网络在以前的工作中[23，38]，在Mini-ImageNet上，Resnet-18 [18]我是认真的。这两个网络都由一个特征提取器φθ和一个FC层和softmax组成。我们在φθ之后（FC层之前）添加了一个φ2-归一化层，为图的构造提供了单位范数描述符。在完全监督的基线中也采用了同样的选择。一个例外是MT的所有变体，因为我们观察到，102-归一化层轻微损害每平方米。我们对图像进行归一化，使其在整个训练集上具有通道零均值和单位方差。与之前的工作[38]不同，我们没有使用ZCA对输入图像进行归一化，也没有向输入层添加高斯噪声，根据我们的实验，这会超参数和训练选择是从MT 方法和实现中改编的。这些是固定的2https://github.com/CuriousAI/mean-teacher/tree/master/pytorch5078×自动（0. 82）汽车（0. 82）汽车（0. 82）汽车（0. 82）汽车（0.81）船（0. （第八十一条）表1.权重ωi、类权重ωj和伪通过扩散预测（7）或网络预测（1）标记。在CIFAR-10上报告了500个标签的错误率。0的情况。70的情况。650的情况。60的情况。550的情况。50 50 100 150历元图4.根据CIFAR-10上500个标记图像的地面实况预测伪标签的准确性。将扩散预测（7）与网络预测（1）进行比较。船（0。81）青蛙（0. 80）汽车（0. 80）汽车（0. 80）青蛙（0.80）青蛙（0. 80）图7. CIFAR-10中ω i最高的错误伪标记图像示例。预测类和ωi显示在每个图像下面。CIFAR-10的大小为100，CIFAR-100和Mini- ImageNet的大小为128所有其他学习参数与MT实现保持完全监督的方法对应于使用（2）和标记的图像进行训练。MT使用系数为0的额外双输出技巧。01.这两种方法都是重复的。我们的方法是用小批量大小B=BU+BL来执行的，其中BL图像被标记，BU图像最初是未标记的。我们为 CIFAR-10 设置 BL=50 ，为 CIFAR 100 和 Mini-ImageNet设置BL=31。MT也是如此。一个时期被定义为一次通过训练集中的所有原始未标记的示例，这意味着IL中的图像在每个时期出现多次。我们遵循相同的扩散参数，00。20的情况。406081时期0，权重ωi00。20的情况。406081时期90，权重ωial. [20 ]第20段。对于图的构造，我们设置k=50，在（9）中γ = 3，α=0。99in（10）.我们用至多20次CG迭代来求解（10图的成对相似性为图5.未标记图像在epoch的权重ωi分布0（左）和时期90（右）在训练CIFAR-10期间，500个标签。根据地面实况的正确伪标签以蓝色显示，不正确的以红色显示。使用公开可用的FAISS库计算[21]。置信度权重ωi在所有示例上被归一化S.T. maxiωi=1。类权重j在c上进行归一化5040302010500 1k 2k 4k标记图像图6.错误率与CIFAR- 10上使用不同方法标记的图像数量。对于所有的方法（重新）由这项工作产生的。训练总共进行180个epoch。初始学习率l0通过余弦退火衰减[25]，因此在210个epoch之后它将达到零，而l0=0。CIFAR- 10 上为 05 ，且 l0=0 。 2 在 CIFAR-100 和 Mini-ImageNet上。在CIFAR-10和CIFAR-100中，随机数据增强是通过4个随机平移[38]，然后是水平翻转来执行的。在Mini-ImageNet上，每个图像在随机水平翻转之前随机旋转10度。批类，使得平均类权重为1。伪标签预测ωi和ωj在每个时期之后更新为了评估扩散的好处，我们最终评估了我们方法的一个变体，其中伪标签不是由扩散提供的，而是从网络中导出的，（1）或从GTG传播[8]代替。训练是用（12）来进行的，就像我们的方法一样。这是在伪标签的精神在以前的工作[36，24]。5.3. 消融研究我们研究了我们方法的不同组成部分的影响。首先，我们研究损失函数（12）中引入的权重的有效性表1显示了CIFAR-10测试集上的分类性能，当仅使用500个标记的示例进行训练，其余的训练集被认为是未标记的。通过将所有ωi设置为1、将所有ωi设置为1或将两者都设置为1来评估不同的加权方案结果表明，这两个权重都有积极的贡献。我们还展示了通过训练网络或GTG传播预测扩散预测的好处。用网络伪标记预测的例子扩散（7）网络（1）预测精度数量的图像错误率伪标记ωiζjCIFAR-10✓✓✓✓三十六53±1。42扩散（7）三十六17 ±1。98三十三岁。32±1。53三十二40±1。80完全监督我们MT [38]]MT +我们的5079数据集CIFAR-10NB.标记的图像500100020004000完全监督四十九08 ±0.83四十03 ±1。1129岁58 ±0。9321岁63 ±0。38TDCNN [36]†-三十二67 ±1。93二十二岁99±0。79十六岁17±0。37网络预测（1）+权重三十五17 ±2。4623岁79 ±1。31十六岁64 ±0。48十三岁21±0。61我们的：扩散预测（7）+权重三十二40 ±1。80二十二岁02 ±0.88十五岁66 ±0。3512个。69±0。29增值税[26]†---11个国家。36[23]第二十三话---12个。36±0。31[23]第二十三话---12个。16±0。24[38]第三十八话-二十七岁36±1。30十五岁73 ±0。3112个。31±0。28[第38话]二十七岁45±2。6419号。04 ±0.51十四岁35 ±0。3111个国家。41 ±0。25MT +我们的二十四岁02±2。44十六岁93±0。70十三岁22±0。2910个。61±0。28表2.与CIFAR-10的最新技术水平进行比较。报告错误率。采用“13层”网络。表格的顶部对应于使用伪标签的训练，而表格的底部包括与我们的方法互补的方法，如我们的方法与MT的组合所示。†表示先前工作中报告的分数。Dataset CIFAR-100Mini-ImageNet-top1Mini-ImageNet-top5NB. 标签图像4000 100004000 100004000 1000055.第五十五章. 43± 0。十一点四十。67 ±0。4974岁78± 0。3360. 25 ±0。29五十三07± 0. 68 38. 28 ±0。38我们四十六岁。20±0。76三十八岁。43±1。88七十29± 0。81五十七58 ±1。47四十七58±0。94三十六14±2。19[第38话]四十五36 ±0。49三十六08 ±0.51七十二51 ±0。22五十七55 ±1。11四十九35 ±0。22三十二51±1。31MT +我们的四十三73±0。20三十五92±0。47七十二78 ±0。15五十七35±1。6650块52 ±0。3931岁99±0。55表3. CIFAR-100和Mini-ImageNet上4k和10 k标记图像的性能比较。报告错误率。CIFAR-100使用“13层”网络，Mini-ImageNet使用Resnet-18。所有的方法都由我们复制。网络已经可以进行分类，而扩散允许在这些示例之外进行准确的预测。在图4中，我们报告了整个训练过程中未标记图像上的伪标记准确度XU的进展。扩散预测始终优于网络预测。图5展示了ωi如何准确估计预测的确定性。从图中我们观察到，随着训练的发展，预测变得更加准确，而在开始时，大多数示例都被错误分类。所提出的加权机制对不正确的伪标签具有鲁棒性，并防止模型崩溃。图7显示了一些具有高确定性ωi的错误伪标记图像。大多数不正确的标签来自卡车比如汽车或者青蛙之类的鸟5.4. 与最新技术我们在表2和表3中对所有3个数据集进行了与最新技术水平的比较。比较包括性能-曼斯报告在以前的工作和我们的再现结果。在由Shiet al. [36]，我们只与他们的TDCNN变体进行比较，TDCNN变体指的是用于网络训练的伪标记。他们工作中的其他损失术语是对我们的补充，类似于MT。此外，我们还比较了我们的伪标签与网络预测结合提出的权重的实现。所提出的方法在CIFAR-10上执行最好的基于伪标签的方法。图6中的结果表明，当数量增加时，我们的收益更大5080±±减少了标签的误码率。在CIFAR-10上的结果表明，我们的方法是对无监督损失的补充，例如MT所使用的方法。这种组合在此数据集上实现了最佳性能。CIFAR-100和Mini-ImageNet的10 k可用标签也是如此。我们的方法也实现了较低的错误率比节奏合奏（38。65 0。51）和B-Model（39. 190 36）在CIFAR-100 [23]上使用10k标签。在具有4k个可用标签的Mini-ImageNet 上，当使用我们的方法而不结合 MeanTeacher时，可以实现最佳性能。6. 结论最近的深度SSL方法依赖于在标记和未标记图像上进行无监督损失的训练。我们提出了一种方法，依赖于基于图的标签传播来推断伪标签的未标记的图像。一个额外的训练集形成这些伪标签，这是更有价值的比由网络本身推断的伪标签。我们的方法原则上是对无监督损失项的补充，这在这项工作中得到了实验证明。确认本工作得到GA C/RR赠款19- 23165 S和OP VVV资助项目CZ.02.1.01/0.0/0.0/16 019/0000765“信息学研究中心”的支持。5081引用[1] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。ECCV，2018年。1[2] Siddhartha Chandra和Iasonas Kokkinos快速，准确和多尺度推理的语义图像分割与深高斯CRF。在ECCV，2016年。4[3] Olivier Chapelle、Bernhard Scholkopf和Alexander Zien。半监督学习麻省理工学院出版社，2006年。2[4] Dengxin Dai和Luc Van Gool。包围投影半监督图像分类。InICCV，2013. 2[5] Carl Doersch、Abhinav Gupta和Alexei A.埃夫罗斯通过上下文预测的非监督视觉表示学习在ICCV，2015年。1[6] 魏东，理查德 · 索彻，李丽嘉，李凯，李菲菲。Imagenet ：一个大规模的分层图像数据库。载于CVPR，2009年6月。6[7] Matthijs Douze，Arthur Szlam，Bharath Hariharan，andHerve 'Je' gou. 低拍摄学习与大规模的差异。在CVPR，2018年。2[8] Ismail Elezi，Alessandro Torcinovich，Latiano Vascon，and Marcello Pelillo.用于改进深度网络学习的Transductive label augmentation arXiv 预印本 arXiv ：1805.10546，2018。二、七[9] Aykut Erdem和Marcello Pelillo。作为非合作博弈的图转换。Neural Computation，2012. 2[10] Rob Fergus Yair Weiss和Antonio Torralba半监督学习在巨大的图像集合。NIPS，2009年。2[11] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在CVPR，2018年。6[12] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在ICLR，2018年。1[13] 阿尔伯特·戈多，乔恩·阿尔玛赞，杰罗姆·雷沃，和黛安·拉鲁斯.深度视觉表示的端到端学习，用于图像检索。IJCV，124（2），2017年。1[14] 利奥·格雷迪图像分割的随机游走。IEEE Trans. PAMI，28（11）：1768-1783，2006年。4[15] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学习。NIPS，2005年。2[16] Matthieu Guillaumin ， Jakob Verbeek ， and CordeliaSchmid.用于图像分类的多模态半监督学习。CVPR，2010。2[17] 菲利普·豪塞尔、亚历山大·莫德文采夫和丹尼尔·克雷默。联想学习-神经网络的通用半监督训练方法。在CVPR，2017年。2[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。6[19] Ahmet Iscen 、Giorgos Tolias 、Yannis Avritis 和OndrejChum 。 Mining on manifold ： Metric learning withoutlabels.在CVPR，2018年。1[20] Ahmet Iscen 、 Giorgos Tolias 、 Yannis Avritis 、 TeddyFuron和Ondrej Chum。区域流形上的有效扩散：用压缩cnn表示法恢复小目标。在CVPR，2017年。四、七5082[21] Je f fJohnson，MatthijsDouze，andHer ve'Je'gou. 用gpu进行十亿级相似性搜索。 arXiv 预印本 arXiv ：1702.08734，2017。7[22] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，多伦多大学，2009年。6[23] Samuli Laine和Timo Aila用于半监督学习的时间集成在ICLR，2017。二、六、八[24] 李东贤伪标签：简单高效的深度神经网络半监督学习方法。InICMLW，2013. 二、三、七[25] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr：带热重启的随机梯度下降。IC

下载后可阅读完整内容，剩余1页未读，立即下载