半监督学习中基于可靠边缘挖掘的数据效率提升

124 浏览量更新于2023-10-24 收藏 13.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Peibin Chen1, Tao Ma1, Xu Qin1, Weidi Xu2, Shuchang Zhou3,1Peking University, 2Ant Financial Services Group, 3Megvii{pbchen, taoma, qinxu}@pku.edu.cn, weidi.xwd@alibaba-inc.com, zsc@megvii.com91920通过可靠边缘挖掘实现数据效率的半监督学习0摘要0在半监督学习中，学习强大的判别特征是一项具有挑战性的任务，因为在标记数据更少的情况下，特征空间的估计更容易出错。以前的方法利用关系图，其中边表示节点之间的“相似性”或“不相似性”。相似的节点被强制输出一致的特征，而不相似的节点被强制不一致。然而，由于未标记数据可能被错误标记，边的判断可能不可靠。此外，由边连接的节点可能已经很好地拟合，因此对模型训练的贡献很小。我们提出了可靠边缘挖掘（REM），通过仅选择可靠和有用的边缘形成可靠的图。在图的指导下，特征提取器能够以数据有效的方式学习判别特征，从而提高学习分类器的准确性。视觉分析表明，所学习的特征更具有区分性，并更好地揭示了数据的潜在结构。REM可以与基于扰动的方法（如Π模型、TempEns和MeanTeacher）结合使用，以进一步提高准确性。实验证明，我们的方法在SVHN和CIFAR-10等简单任务上具有数据效率，并在具有挑战性的CIFAR-100上取得了最先进的结果。01. 引言0深度神经网络在机器学习的许多应用中显示出了很大的优势，如计算机视觉、语音识别和自然语言处理[15]。深度神经网络之所以能够取得如此快速的发展，其中一个关键原因是存在大量的标记数据集。然而，由于确定不同样本的确切标签的复杂工作，构建完全标记的数据集通常需要很多时间和人力。相比之下，由于收集未标记数据更容易，因此已经做出了许多努力来利用未标记数据的信息，其中半监督学习（SSL）是其中的一个重要分支。0半监督学习旨在从有限的标记数据和大量的未标记数据中受益。为了更好地利用未标记数据进行泛化，半监督学习的方法假设在高密度区域中具有紧密邻近关系的点应该具有相似的输出[2,36]。基于这个假设，已经提出了许多基于扰动的方法[25,26, 33, 24]。Π方法[14]和MeanTeacher[14]强制学生网络和教师网络之间的输出一致。VAT[21]为每个输入生成一个虚拟对抗样本，并期望模型给出相似的输出。尽管这些方法取得了有希望的结果，但它们只考虑了未标记的示例，而忽略了这些示例之间的关联关系。一些方法，如Luo等人[19]，通过在嵌入空间中构建一个教师图来利用数据的潜在结构。节点表示数据，边表示节点之间的标签一致性[1]。然后，期望特征提取器为来自同一类的节点输出相似的特征（边为1），而为来自不同类的节点输出不相似的特征（边为0）。然而，一方面，它们忽略了边的可靠性（这些边的值可能是错误的），这可能导致模型训练的错误指导。另一方面，它们忽略了边的有用性，这可能导致数据的低效利用。我们关注的是在给定前面提到的原始图的情况下构建一个可靠子图的任务。为了指导整个数据集的模型训练，我们希望子图保持原始图中的节点。但为了实现高效的数据利用和可靠的指导，只有有用和可靠的边缘才被添加到子图中。我们将构建的子图称为“可靠图”。在这项工作中，我们提出了可靠边缘挖掘（REM）来构建这样一个可靠图（见图1）。具体而言，我们为原始图中的每条边添加了两个属性：有用性和确定性。根据有用性属性，我们选择有用的边缘形成一些候选集，然后根据确定性属性挖掘可靠的边缘。01未标记数据使用模型预测作为它们的标签。2有用性意味着该边对模型训练有贡献。91930图1：在一个合成示例上对REM的说明。我们从A类的角度解释整个过程。首先，我们利用标签信息形成一个原始图。然后，计算每条边的有用性（U）和确定性（C）属性（在图中写为（usefulness，certainty））。根据有用性属性（在本例中，k +i和k - i被设置为2），我们保留图中的k + i个邻居和k -i个非邻居。这些保留的边根据确定性属性进一步筛选。具有更高确定性和有用性值的边更有可能被添加到可靠图中。0确定性属性。在给定这些可靠边和原始图中的所有节点的情况下，我们能够构建一个可靠的图，预期使用较少的迭代次数使特征提取器学习得更好。REM与当前先进的扰动方法相辅相成。在简单任务（如SVHN和CIFAR-10）上的实验表明，REM在较少的迭代次数下取得了与其他最先进方法相当的结果。在更具挑战性的任务（如CIFAR-100）上，REM超过了当前最先进的结果，将最佳已知错误率从33.62%降低到31.95%，在有和没有数据增强的情况下，从35.09%降低到33.73%。此外，在TinyImageNet上，REM将基线的错误率从64.21%降低到61.72%。可视化实验证明了REM在模型训练中提供有用和可靠的边的效果。我们还发现，可靠图鼓励模型给出自信的输出，在SSL中已经证明是有益的[7,16]。本文的贡献可以总结如下：（1）我们提出了REM来在嵌入空间中构建可靠图。可靠图是原始图的子图，只包含可靠和有用的边。（2）可靠图能够以数据高效的方式指导模型学习判别特征。（3）我们证明了在使用可靠图训练后，模型的输出变得自信。（4）REM超过了以前基于教师图的方法，并在几个基准测试中达到了最先进的结果。02. 相关工作0半监督学习（SSL）[36]有着悠久的发展历史。最近，由于深度学习的发展[15, 10, 13, 28]，许多SSL的思想0已经进行了改进，并与全监督学习相比取得了令人印象深刻的改进[3, 23, 30, 12,17]。在本节中，我们重点关注与此相关的工作。关于SSL的详细综述，请参阅[36]。0SSL假设决策边界应该位于低密度区域。基于这个假设，已经提出了许多方法[25, 26, 21,24]。熵正则化[7]通过最小化未标记数据的softmax输出的熵来鼓励类别之间的低密度分离。伪标签（PL）[16]如果最大输出概率大于预定义的阈值，则伪标记未标记数据。这些方法鼓励模型给出自信的输出，并且认为概率和正确性之间存在正相关关系。我们的工作也基于这个假设。给定一个原始图，我们根据概率确定哪些边是可靠的，并选择这些边来形成一个可靠的子图。实验证明，这样的图隐含地鼓励模型给出自信的输出（见图6）。0基于图的方法构建了一个包含有标记和未标记数据的图。每个节点表示一个示例，每条边表示示例之间的相似性。在构建图方面已经有很多传统的工作[35, 9,34]。然而，这些工作固定了图，并且只在训练过程中更新边的权重。Luo等人[19]基于预测的标签构建了一个“联合训练”稀疏图。然后，该图作为度量学习的指导。然而，由于预测的标签可能是错误的，边可能是不可靠的（见图2）。此外，由于考虑到数据集中的所有数据，图可能会很大，因此使用随机采样从原始图中生成子图。我们认为这种子图是数据效率低下的，因此对嵌入学习的学习贡献很小。∑{i,j}eij =0[m− − Dij]2+ .(2)91940图2：不同方法下的可靠性-迭代次数曲线。可靠边的精度定义为可靠边与子图中所有边的比例。没有确定性的REM方法表示仅考虑有用性属性生成子图。0嵌入空间（见图3）。我们的工作为边添加了两个属性：可靠性和有用性。利用这些属性，我们构建了一个可靠且有用的子图，使得模型训练更加高效（见图7）。深度度量学习是一个旨在使相似数据比不相似数据更接近的嵌入空间的领域[22，27，29]。由于生成所有可能的配对会导致模型训练低效，因此硬例挖掘被广泛用于生成有价值的配对。然而，硬例挖掘需要数据的标签信息，而在SSL中缺乏这些信息。如果我们直接使用预测结果作为伪标签，当分类器给出错误预测时，一个真正的正样本可能被误认为是一个困难的负样本。在我们的工作中，我们根据预定义的确定性属性过滤掉不可靠的边，然后根据有用性属性采样有用的边，从而降低选择错误数据的风险。图3和图4展示了我们方法的效率。03. 准备工作0我们的方法是在半监督图像分类的设置下描述的，其中训练集D由L个标记示例{xi，yi}Li=1∈L和U个无标记示例{xi}Ui=1∈U组成，其中xi∈X，yi∈Y={1...K}。这里K是不同类别的数量。对于每个示例xi∈D，令˜yi=argmaxjfθ(xi)j，其中fθ(xi)是网络对于第i个示例的输出。SSL的目标是使用L和U训练一个分类器，可以写成0Lθ = L∑i=1Ls(fθ(xi), yi) + λLu(θ, L, U), (1)0图3：不同方法下的有用性-迭代次数曲线。有用边的比例定义为有用边与图中所有边的比例。没有有用性的REM表示仅考虑确定性属性生成子图。从图中可以看出，没有有用性的REM相比于SNTG带来了更少有用边的图。考虑有用性属性后，REM保留了更多有用边。0∑{i,j}eij = 0 [m- - Dij]^2+. (2)0L u (θ, L, U) = ∑ {i,j} eij = 1 [Dij -m+]^2 +0这里，[.] + 是ReLU函数。eij ∈E，其中E是边的集合。边的值为0或1，其中0和1分别表示“不相似”和“相似”。Dij表示节点xi和xj之间的距离，来自节点集合V。m+和m-是超参数。为了学习有区分性的特征，如果xi和xj来自同一类，则将eij设置为1。否则，将eij设置为0。对于无标签数据，在此过程中使用模型的预测结果，如果预测不正确，可能会引入不可靠的边。为了减少这个不可靠图的负面影响，之前的方法如Luo等人[19]尝试从G中随机采样边来构建子图，但他们仍然没有考虑E的可靠性和有用性，因此可能会学习到不正确的对比嵌入或学习效率低下。qi = 1 − H(si)log(K),(3)Cij =ij2.(4)Uij = eI( ˜yi= ˜yj)⋅Dij,(5)k−i =∑j,eij=0[Dij < m−],919504. 我们的方法0在SSL的设置下，未标记节点的预测准确性在训练的不同步骤中有所不同。由于边的值取决于标记节点的标签和未标记节点的预测，可靠的边在训练过程中也在变化。因此，我们的目标是在不同的训练步骤中构建不同的“动态”可靠图。在本节中，我们详细描述了所提出的可靠边挖掘（REM）方法，通过回答以下问题来形式化地描述该方法：（1）如何衡量边的可靠性？（2）所有可靠的边都对训练有贡献吗？（3）如何借助图来训练模型？整体算法如图1所示。04.1. 测量边的可靠性0我们将可靠的边定义为对其值有高度确定性的边。由于边的值表示节点之间的“不相似”和“相似”，边的确定性取决于节点的确定性。关于计算节点的确定性已经有很多方法。Liu等人[18]构建了一个可靠的分类器，该分类器输出标签以及相应的确定性。然而，该算法需要一个生成模型和一个判别模型，从而引入了更多的参数和训练时间。温度缩放可以有效地校准预测结果[8]，但它是一种后处理方法，不符合我们在训练过程中构建动态可靠图的需求。在提出的方法中，节点的确定性预计与网络预测相关。以前的方法，如伪标签[16]，使用阈值来过滤具有高概率的数据。虽然高网络概率不能保证正确性，但概率和正确性之间存在正相关性[5]。我们将模型输出的熵视为确定性的度量。给定节点 x i的softmax输出 s i ，其确定性 q i的计算可以形式化地定义为：0其中，H(�)是熵函数，K是类别数。给定节点的确定性，我们能够衡量边的可靠性。我们将边 e ij 的确定性定义为 C ij，它取决于节点 x i 和 x j 的确定性值：0如果仅考虑可靠的边，我们可以从原始图中获得一个纯可靠的子图。然而，我们认为这种子图对训练的贡献很小。根据公式（2），一个有用的边 e ij 是一个边0当 e ij = 1 时，D ij 大于 m + ，或者当 e ij = 0 时，D ij 小于 m −0如果 e ij = 0，则不满足要求的边对训练是无用的。当我们构建一个仅考虑可靠性属性的子图时，由于节点已经经过良好的训练（详见图3），边很可能是无用的。04.2. 从图中挖掘边缘0为了从原始图中挖掘可靠且有用的边，我们更喜欢连接未经过良好训练的节点的边。特别地，计算边 e ij的有用性属性 U ij 的方法如下：0其中，I(�)是一个指示函数，如果其参数为真则取值为1，否则取值为-1。在实践中，我们使用欧氏距离来计算 D ij。现在每个边都附带了确定性和有用性的属性。对于每个节点 x i ，根据有用性属性，我们首先从列表 { e ij ∣ e ij =1 ,j = 1 , 2 ,...,L + U } 中选择前 k + i个最有用的边，形成邻居候选集 P i ，然后从列表 { e ij ∣e ij = 0 ,j = 1 , 2 ,...,L + U } 中选择前 k − i个最有用的边，形成非邻居候选集 N i。然后，我们根据确定性属性从 P i 中随机选择一条边，从 N i中随机选择另一条边。这两条边及其对应的节点将被添加到子图中。通过对原始图上的每个节点重复此过程，构建了可靠图，该图保留了原始图的节点并包含较少的边。在实践中，设置 k + i 和 k − i 如下： k + i = ∑ j,e ij = 1 [ D ij > m + ] ，0其中 [�] 是 Iverson 括号，如果其参数为真则取值为 1，否则为 0。为了避免过度采样具有高确定性的边和节点，我们在每次将相应的边添加到可靠子图时衰减节点的确定性。由于确定性的值在 0 和 1之间，我们简单地使用平方函数来衰减确定性。04.3. 用图指导模型0可靠图与模型一起进行“联合训练”。在每次迭代开始时，根据算法 1 构建可靠图。然后，对于由值为 1的边连接的节点，我们强制特征提取器输出“相似”的特征。对于由值为 0的边连接的节点，我们强制提取器输出“不相似”的特征。这可以通过损失函数 Eq. ( 2 )来实现。给定类别可分性的特征，期望分类器能够进行准确分类。91960算法 1 生成带有 REM 的图0要求： G = 原始图要求： h i = 节点 x i 在 X中的特征要求： s i = 节点 x i 在 X 中的softmax 输出要求： K = 不同类别的数量 1:对于每个节点 x i02: 根据公式 ( 3 ) 计算 q i ，给定 s i 和 K 3: 结束循环 G s= ( V s ,E s ) 4: 对于每个节点 x i ，计算与其在 G中连接的所有边的确定性06: 根据公式 ( 5 ) 计算与 x i 在 G 中连接的所有边的有用性7: 根据有用性属性形成邻居候选集 P i 和非邻居候选集 N i08: 从 P i 中随机选择一条边 e ij ，从 N i 中随机选择一条边e ik ，根据确定性属性将其添加到 E s 中 10: 将 x i 、x j 和x k 添加到 V s 中 11: 衰减 q i 、q j 和 q k 12: 结束循环013: 返回 G s0为了更容易训练，从而为图提供更可靠的边缘。在更可靠的边缘的指导下，特征提取器学习得更好，并为分类器提供更具类别可分性的特征。0考虑图 1 中的合成示例。REM首先计算每条边的确定性和有用性属性。然后对于原始图中的每个节点 x i ，根据它们的有用性属性选择 k + i 条边和 k− i 条边来形成 P i 和 N i ，从中随机选择 e ij 和 e ik。将这些边和相应的节点添加到子图中。由于我们每个小批量构建子图，所以子图节省内存。05. 实验0为验证 REM的效率，本节进行了一系列实验。具体而言，我们首先将REM与最近竞争算法进行比较，特别是与先前的基于教师图的方法 SNTG [ 19 ]在广泛采用的半监督学习基准数据集上进行比较。然后，我们可视化训练后的配对和有区分性的特征，以证明图的可靠性和有用性。我们通过将 REM 与 SNTG在几个基准数据集上进行比较，突出了我们方法的数据效率。最后，我们展示了由可靠图指导的模型在输出方面的自信。05.1. 设置0REM 在广泛使用的 SVHN、CIFAR-10 和 CIFAR-100数据集上进行评估。在我们的大多数实验中，我们使用标准的网络架构（13层卷积神经网络），该架构已被采用为先前方法的基准架构 [ 14 , 31 , 19]。我们使用具有确定性作为输入的 softmax函数从候选集中为每个节点采样两条边。公式 ( 2 ) 中的 m+ 和 m − 分别设置为 0 和 1。其他超参数保持与先前方法相同。05.2. 与其他方法的比较0以前的基于扰动的先进方法，包括Π-model[14]，时间集成（Tempens）模型[14]和Mean Teacher[31]，被用作比较的基准方法。Π-model和Tempens基于扰动模型生成教师预测。MeanTeacher通过平均模型权重得到教师模型，从中获取教师预测来指导学生模型。由于这些方法只对每个单独的样本进行平滑处理，我们自然会想知道是否可以将它们与REM结合起来。我们还将REM与一种名为SNTG[19]的先前方法进行比较，可以将其视为REM的“随机”版本。具体而言，SNTG从原始图中随机选择边缘，而REM根据边缘的属性选择有用和可靠的边缘。我们分别随机采样250、500、1000个SVHN标签，1000、2000、4000个CIFAR-10标签和10000个CIFAR-100标签。表1和3显示了对10次运行结果的平均值报告的结果。还报告了使用与REM相同的种子的SNTG的结果（用*标记）。在可靠图的指导下，基于扰动的方法的测试错误率大幅降低，例如使用Π模型在CIFAR-100上从56.57%降至38.30%。此外，REM在大多数基准测试中超过了SNTG。例如，使用Π模型在具有1000个标签的CIFAR-10和具有10000个标签的CIFAR-100上，测试错误率分别从21.23%降至18.64%和从39.07%降至35.44%。CIFAR-100是一个更难的任务，包含100个类别，我们的方法仍然可以取得显著的改进。这表明我们的方法构建的可靠图确实有助于提高模型的泛化性能。需要注意的是，当数据全部标记时（CIFAR-100所有标签具有/不具有数据增强），REM仍然超过SNTG。我们解释这种改进是因为我们方法中的有用边缘挖掘机制。05.3. 更强的基准模型0FastSWA [1]是一个更强的基准模型。与第5.2节中的MeanTeacher不同，FastSWA沿着SGD的轨迹平均权重，并使用周期性学习率调度。作者揭示了这种集成方法可以获得一个在损失的更平坦区域中心的解决方案，从而产生更好的泛化性能。91970表1：CIFAR-100上使用标准数据增强和CIFAR-10上使用标准数据增强的测试错误率（%）。0数据集 CIFAR-100 CIFAR-100具有数据增强的模型不具有数据增强的模型 10000个标签所有标签 10000个标签所有标签 1000个标签 2000个标签 4000个标签0Π模型[14] 39.19 ± 0.36 26.32 ± 0.04 56.57 ± 0.54 29.06 ± 0.21 31.65 ± 1.20 17.57 ± 0.44 12.36 ± 0.31 Π+SNTG* 39.07 ±0.38 25.49 ± 0.17 43.48 ± 0.39 28.24 ± 0.22 21.23 ± 1.27 14.65 ± 0.31 11.00 ± 0.13 Π+REM（我们的方法）35.44 ± 0.2324.68 ± 0.18 38.30 ± 0.38 26.89 ± 0.24 18.64 ± 1.23 13.65 ± 0.33 11.09 ± 0.160TempEns [14] 38.65 ± 0.51 26.30 ± 0.15 – – 23.31 ± 1.01 15.64 ± 0.39 12.16 ± 0.24 TempEns+SNTG* 38.68 ± 0.33 25.48 ±0.23 43.61 ± 0.34 28.23 ± 0.13 18.86 ± 1.07 13.88 ± 0.30 11.01 ± 0.20 TempEns+REM（我们的方法）35.62 ± 0.33 24.59 ±0.13 38.77 ± 0.30 26.96 ± 0.19 17.66 ± 1.13 13.33 ± 0.35 10.61 ± 0.160MT [31] 35.96 ± 0.77 – 36.90 ± 0.62 – 19.58 ± 1.03 14.76 ± 0.66 11.57 ± 0.31 MT+SNTG* 35.81 ± 0.27 – 36.71 ± 0.41 –18.69 ± 1.38 13.79 ± 0.60 10.74 ± 0.56 MT+REM（我们的方法）33.22 ± 0.28 – 35.09 ± 0.33 – 18.23 ± 1.26 13.37 ± 0.5310.56 ± 0.200表2：CIFAR-100和TinyImageNet上的测试错误率（%）。CIFAR10k-aug和CIFAR10k-woaug分别表示使用10000个标签进行CIFAR-100的训练，其中包括和不包括数据增强。TIN10k-aug表示使用10000个标签进行Tiny ImageNet的训练。0模型 CIFAR10k-aug CIFAR10k-woaug TIN10k-aug0仅监督[14] 44.56 ± 0.30 51.21 ± 0.33 68.91 ± NA0LP [11] 35.92 ± 0.47 – – CCN [32] 35.28 ± 0.23 – –0Π +FastSWA [1] 34.25 ± 0.16 36.19 ± 0.19 63.57 ± 0.44 Π+FastSWA+REM（我们的方法）32.81 ± 0.69 34.25 ± 0.28 61.88 ± 0.150MT+FastSWA [1]* 33.62 ± 0.54 35.09 ± 0.47 64.21 ± NAMT+FastSWA+SNTG [19]* 33.60 ± 0.36 34.70 ± 0.54 64.26 ± 0.53MT+FastSWA+REM（我们的方法）31.95 ± 0.27 33.73 ± 0.56 61.72 ± 0.370表3：使用标准增强方法在SVHN上的测试错误率（%），平均值取自10次运行。0模型 250个标签 500个标签 1000个标签0仅监督[31] 42.65 ± 2.68 22.08 ± 0.73 14.46 ± 0.710TempEns [14] 12.62 ± 2.91 5.12 ± 0.13 4.42 ± 0.16TempEns+SNTG [19] 5.36 ± 0.57 4.46 ± 0.26 3.98 ± 0.21TempEns+REM（我们的方法）5.07 ± 0.38 4.40 ± 0.29 3.87 ± 0.150在更好的泛化性能方面，FastSWA仍然没有利用嵌入空间中的信息，这促使我们思考是否可以通过REM进一步改进这个强基线。为了验证这一点，我们将FastSWA与REM结合起来，在CIFAR-100和Tiny ImageNet上进行测试。TinyImageNet是ImageNet的一个子集[4]。它包含200个类别，每个类别有500个训练图像、50个验证图像和50个测试图像，更具挑战性。在CIFAR-100上，我们使用与之前相同的标准架构和超参数。但是在0Tiny ImageNet，我们使用12块（26层）的ResidualNetwork[10]和Shake-Shake正则化[6]，遵循[1]的方法。结果是在CIFAR-100上进行3次运行和TinyImageNet上进行2次运行后取平均值报告的。如表2所示，与LP [11]和CCN[32]等先进方法相比，REM将错误率从33.62%降低到31.95%，从35.09%降低到33.73%，无论是否使用增强方法，都取得了显著的改进。此外，尽管TinyImageNet中有大量类别，REM仍然相对于SNTG取得了显著的改进（从64.26%到61.27%）。这再次表明，REM构建的图有助于提高模型的泛化能力。05.4.可视化0为了检查REM是否构建可靠的图，我们分别从REM和SNTG生成的子图中随机选择边，并可视化由这些边连接的数据。实验在CIFAR-100上的10000个标记数据上进行。如图4所示，在一个91980（a）REM0（b）SNTG0图4：我们在CIFAR-100上可视化REM和SNTG子图中由边连接的数据。第一列代表每个xi。第二列和第三列是该样本的邻居（xj）和非邻居（xk）。我们的方法能够选择更具挑战性和可靠性的配对，而SNTG可能会选择错误的数据进行训练。详见第5.4节。0（a）SNTG0（b）REM0图5：比较SNTG和REM在CIFAR-10测试数据上生成的2D特征。在第100个epoch时，我们的方法能够生成一些紧凑的簇，而SNTG只生成分散的簇。0手，REM发现更具挑战性和可靠性的边缘（以第一行为例，恐龙可以找到另一个恐龙作为其邻居，狮子作为其非邻居）。另一方面，SNTG可能会找到错误的邻居或简单的非邻居（以第一行为例，一个扁鱼将一个女孩作为其邻居，向日葵作为其非邻居）。这一观察结果支持我们在第3节和第4节中的分析。此外，为了探索REM是否引导特征提取器有效地学习有区分力的特征，我们进一步使用PCA[20]在CIFAR-10的测试数据上可视化最后一个隐藏层。REM和SNTG的模型都是使用相同的超参数和训练策略在CIFAR-10上训练的，使用500个标签。图5显示，REM在较少的训练轮数后鼓励聚集的簇，并保持簇之间的距离。相反，簇更加分散且更接近。0即使经过300个时期的SNTG训练，REM仍然可以学习到更具有区分性的特征，因此REM在学习更具有区分性的特征方面更加高效。05.5. 鼓励模型的自信输出0为了澄清确定性和正确性之间的关系，我们将确定性区间均匀分成四个区间，并根据它们的确定性将数据添加到相应的区间中。如图6所示，对于高确定性的区间，预测更有可能是正确的，这支持了我们的假设，即确定性和正确性之间存在正相关关系。此外，当我们在图6中比较SNTG和REM时，可以看出REM比SNTG鼓励更自信的输出，这意味着可靠图鼓励模型进行自信的输出。根据这两个观察结果，我们可以描述REM的联合学习方式：模型首先根据一些标签进行预测，基于此REM构建一个具有可靠边的可靠子图。反过来，可靠图鼓励模型给出更自信的输出。由于可靠图中的可靠边比原始图中的边更多，REM构建了具有更多可靠边的图，这指导模型学习得更好。05.6. 属性的有效性0为了调查确定性和有用性属性是否真正对可靠图的构建有贡献，我们比较了以下方法：（1）SNTG：随机生成一个子图，可以看作是我们的基准；（2）REM：考虑确定性和有用性生成一个子图；（3）没有确定性/有用性的REM：生成一个不考虑确定性或有用性的子图。如图2所示，没有确定性的REM的可靠边的精度远低于SNTG，而REM的精度高于SNTG。类似地，图3证明了采用了属性的REM比SNTG更好。SNTG [19]38.68 ± 0.33REM without Certainty36.69 ± 0.44REM without Usefulness35.98 ± 0.36REM without Decaying35.69 ± 0.30REM35.62 ± 0.3391990（a）第100个时期0（b）第200个时期0（c）第300个时期0图6：将确定性区间均匀分成四个区间，并根据它们的确定性将数据添加到相应的区间中。带有�或�的条形表示该区间中的数据数量。带有�或�的条形表示该区间中被正确预测的数据数量。0有用性的贡献可以帮助REM在有用边挖掘的比例上超过SNTG。因此，我们可以得出结论，这两个边的属性确实对可靠图的构建有贡献。05.7. 数据利用比较0由于可靠的图有效地利用数据并正确地指导模型，我们很好奇它是否可以帮助模型在更少的时间内进行训练。我们研究了REM和SNTG在SVHN、CIFAR-10和CIFAR-100上的效率（CIFAR-10有500、1000和4000个标签，SVHN有500个标签，CIFAR-100有10000个标签，都进行了数据增强）。图7显示，REM在更少的训练迭代次数（在CIFAR-100上的10000个标签约为1/3个时期）和更少的时间消耗下实现了比SNTG更好的结果，这意味着仅仅将随机构建的子图改为可靠的子图就可以帮助模型更高效地进行训练。05.8. 割舍研究0为了澄清REM中洞察力的有效性，我们分别比较了从REM中删除这些组件后的性能。特别地，我们衡量了以下效果：（1）没有确定性的REM：从硬邻居候选集和非邻居候选集中随机选择边，这可以被视为忽略确定性；（2）没有有用性的REM：只考虑确定性属性进行边的采样，这可以被视为忽略有用性；（3）没有衰减的REM：当添加到子图中时，边的确定性不会衰减。我们以SNTG作为基准，因为它生成一个没有确定性/有用性/衰减的子图。我们在CIFAR-100上进行实验，使用10000个标签和标准增强。每个结果是通过对10次运行进行平均得到的。如表4所示，每个组件对我们的最终性能都很重要。特别地，确定性组件和有用性组件可以将SNTG在CIFAR-100上的测试错误率至少降低2个百分点。0图7：（a）比较SNTG和REM在达到相同准确率时所需的迭代次数。实验中使用SNTG的最佳测试准确率。（b）比较SNTG和REM在相同时间消耗下获得的错误率。0表4：使用10000个标签在CIFAR-100上进行标准增强的测试错误率（%），平均值在10次运行中计算。0CIFAR-100模型使用10000个标签0使用10000个标签。它们的组合最终将结果降低了3个百分点。06. 结论0本文探讨了如何在嵌入空间中构建可靠的图，以更好地指导模型的训练。我们发现，以前基于TeacherGraph的方法生成的随机图可能导致数据训练效率低下，因为存在错误标记或无用的边缘。为了解决这个问题，我们提出了可靠边缘挖掘来构建可靠的图，该图仅包含根据可靠性和有用性两个属性精心选择的边缘。在图的指导下，特征提取器能够以更少的迭代次数学习到有区分性的特征。我们的实验表明，REM在简单任务（如SVHN和CIFAR-10）上更有效地利用数据，并在更困难的任务（如CIFAR-100）上取得了最先进的结果。我们还表明，由可靠图引导的模型对输出结果有信心，这意味着该方法隐含地鼓励决策边界位于低密度区域。0致谢0本文得到了国家科技部的国家重点研发计划的支持（“社区风险防范的网格功能扩展技术和设备”，项目编号2018YFC0809704），以及北京人工智能学院（BAAI）的支持。[1] Ben Athiwaratkun, Marc Finzi, Pavel Izmailov, and An-drew Gordon Wilson.There are many consistent expla-nations of unlabeled data: Why you should average.In7th International Conference on Learning Representations,ICLR 2019, New Orleans, LA, USA, May 6-9, 2019. Open-Review.net, 2019. 5, 6[2] Olivier Chapelle, Bernhard Sch¨olkopf, and Alexander Zien.Introduction to semi-supervised learning.In OlivierChapelle, Bernhard Sch¨olkopf, and Alexander Zien, edi-tors, Semi-Supervised Learning, pages 1–12. The MIT Press,2006. 1[3] Zihang Dai, Zhilin Yang, Fan Yang, William W. Cohen, andRuslan Salakhutdinov. Good semi-supervised learning thatrequires a bad GAN. In Isabelle Guyon, Ulrike von Luxburg,Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vish-wanathan, and Roman Garnett, editors, Advances in NeuralInformation Processing Systems 30: Annual Conference onNeural Information Processing Systems 2017, 4-9 December2017, Long Beach, CA, USA, pages 6510–6520, 2017. 2[4] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li,and Fei-Fei Li. Imagenet: A large-scale hierarchical imagedatabase. In 2009 IEEE Computer Society Conference onComputer Vision and Pattern Recognition (CVPR 2009), 20-25 June 2009, Miami, Florida, USA, pages 248–255. IEEEComputer Society, 2009. 6[5] Geoffrey French, Michal Mackiewicz, and Mark H. Fisher.Self-ensembling for visual domain adaptation.In 6th In-ternational Conference on Learning Representations, ICLR2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Con-ference Track Proceedings. OpenReview.net, 2018. 4[6] Xavier Gastaldi.Shake-shake regularization.CoRR,abs/1705.07485, 2017. 6[7] Yves Grandvalet and Yoshua Bengio.Semi-supervisedlearning by entropy minimization.In Franc¸ois Denis,editor, Actes de CAP 05, Conf´erence francophone surl’apprentissage automatique - 2005, Nice, France, du 31 maiau 3 juin 2005, pages 281–296. PUG, 2005. 292000参考文献0[8] Chuan Guo, Geoff Pleiss, Yu Sun, and Kilian Q.Weinberger. 现代神经网络的校准问题. In Doina Precup andYee Whye Teh, editors, Proceedings of the 34thInterna

下载后可阅读完整内容，剩余1页未读，立即下载