双学生：解决半监督学习中教师的性能瓶颈及提高分类性能

31 浏览量更新于2023-10-12 收藏 737KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1双学生：打破半监督学习中教师的局限性张涵柯1，2* 王道业2严琼2任志强2Rynson W.H.刘11香港城市大学2商汤科技研究摘要最近，基于一致性的方法在半监督学习（SSL）中取得了最先进的成果。这些方法通常包含两个角色，一个是显性或隐性的教师模型，另一个是学生模型，并通过一致性约束对不同扰动下的预测进行惩罚然而，这两个角色的权重是紧密耦合的，因为教师本质上是学生的指数在这项工作中，我们表明，耦合EMA教师造成的性能瓶颈。为了解决这个问题，我们引入了双学生，用另一个学生代替老师。我们还定义了一个新的概念，稳定的样本，以下的稳定约束设计为我们的结构是可训练的。此外，我们还讨论了我们的方法的两个变体，它们可以产生更高的性能。大量的实验表明，我们的方法提高了分类性能显着几个主要的SSL 基准。具体来说，它将 13 层 CNN 的错误率从16.84% 降低到 12.39%（ CIFAR-10 ， 1 k标签），从34.10%降低到31.56%（CIFAR-100，10 k标签）。此外，我们的方法也取得了明显的改善领域适应。1. 介绍深度监督学习在计算机视觉任务中取得了重大成功，这导致社区挑战更大，更复杂的数据集，如ImageNet [28]和WebVision [17]。然而，获得一个巨大的数据集的完整因此，现在更多的注意力集中在深度半监督学习（SSL）上。为了利用未标记的数据，人们提出了许多传统机器学习的方法[35]，其中一些方法成功地适用于深度学习。此外，一些最新的技术，如自训练[5]和生成对抗网络（GANs）[30，22，19]已用于深度SSL，并取得了可喜的成果。最近的深度半监督方法[27，16，7，32]的主要轨迹可以总结为基于一致性的ezhanghan@outlook.com不EMA权重独立初始化一致性约束S稳定化约束S'师生双学生图1：教师-学生与双重学生。老师(T)在Teacher-Student中，是学生（S）的EMA，对学生施加了一致性约束。它们的重量是紧密结合的。相比之下，双向稳定约束被应用于双学生中的两个学生（S和S’）之间它们的权重是松散耦合的。方法.在这种类型的方法中，通常显式或隐式地创建两个角色：教师模型和学生模型（即，a师生结构）。教师引导学生在扰动下近似其性能。扰动可能来自输入或dropout层的噪声[31]等。然后对两个角色之间的预测施加一致性约束，并迫使未标记的数据满足半监督学习的平滑假设教师-学生结构中的教师可以概括为由学生模型的指数移动平均（EMA）生成在VAT模型[20]和Π模型[16]中，教师与学生共享相同的权重，这相当于将平均系数设置为零。时间模型[16]类似于EMA模型，除了它也应用EMA来累积历史预测。Mean Teacher [32]将EMA应用于学生以获得合奏教师。在这项工作中，我们表明，这两个角色的师生结构是紧密耦合的，耦合的程度增加的培训进行。这种现象导致了性能瓶颈，因为耦合EMA教师是不够的学生。为了克服这个问题，来自另一个独立模型的知识应该有所帮助。受此观察的启发，我们用另一个学生模型代替EMA教师。这两个学生起首字母不同67286729状态，并在训练期间通过各个路径进行优化。因此，它们的权重不会紧密耦合，并且每个都学习自己的知识。目前尚不清楚在教师模型和学生模型之间进行约束，以便从未标记的数据中学习知识。形式上，我们假设数据集D由未标记子集和标记子集组成′是如何在学生之间提取和交换知识子集设θ教师的责任，教师的责任，教师的责任。凹痕。简单地说，添加一致性约束可能会导致两个模型相互折叠。因此，我们定义了稳定样本，并提出了有效的知识交换的稳定化我们的方法在几个主要的SSL基准上显着提高了性能。图1展示了师生结构和我们的双元学生结构。总之，这项工作的主要贡献包括：• 我们证明了耦合EMA教师导致现有的教师-学生方法的性能瓶颈。• 我们定义了模型的稳定样本，并提出了一种新的模型之间的稳定化约束。• 我们提出了一个新的SSL结构，双学生，并讨论了两个变种的双学生具有更高的性能。• 进行了大量的实验，以评估我们的方法在几个基准和不同的任务的性能。2. 相关工作2.1. 概述基于一致性的SSL方法来自网络噪声正则化[29]。Goodfellow等人 [7]首先展示了对抗性噪声优于随机噪声的优势Miyato等人。 [20]进一步探索了未标记数据的这一想法，并为隐式教师生成了虚拟对抗样本，而Park等人。[24]提出了基于[31]的虚拟对抗辍学。除了噪声，目标的一致性约束的质量也是至关重要的，在这个过程中。Bachman等人。 [2]和Rasmus等人。 [27]显示了正则化目标的有效性。Laine等人随后在[16]中提出了内部一致的Π模型和时间模型。Tarvainen利用平均模型权重[25]来获得用于生成目标的显式集成教师[32]。在传统方法的基础上衍生出的一些工作也对基于一致性的SSL进行了改进. Smooth Neighbor by Luoet al. [18]利用数据点之间的连接，并建立邻居图来更紧密地聚类数据。Athiwaratkun等人 [1]修改了随机权重平均（SWA）[13]，以更快地获得乔等人[26]提出了深度协同训练[26]，通过在独立模型之间添加一致性约束。2.2. 师生结构最近SSL方法最常见的结构是教师-学生结构。它适用于一致性控制-注意学生的体重。一致性约束被定义为：Lcon=Ex∈DR（f（θ，x+θ），Tx），（1）其中f（θ，x + ζ）是模型f（θ）对具有噪声ζ的输入x的预测。Tx是来自老师r的一致性目标。R（·，·）测量两个向量之间的距离分歧。以前的工作已经提出了几种方法来产生Tx。学习模式：在学习模式中，隐性教师分享知识，与学生交流它将样本x转发两次，在每次迭代中使用不同的随机噪声τ和τ′，并将x+τ′的预测视为Tx。时间模型：虽然ESTMel需要转发一个在每次迭代中采样两次，时间模型减少了这一点计算开销通过使用EMA将历元上的预测累积为Tx。该方法可以减小预测方差，稳定训练过程。老师：时间模型需要存储每个样本的记录，并且目标Tx每个时期仅更新一次，而学生被更新多次。因此，Mean Teacher通过学生的EMA定义了一个显式的教师，并在生成Tx之前在每次迭代中更新其权重。VAT模型：虽然随机噪声在预处理在已有的方法中，VAT模型采用对抗性噪声来产生更好的Tx，以满足一致性约束。2.3. 深度合作培训众所周知，融合来自多个模型的知识可以提高SSL的性能[34]。然而，直接在模型之间添加一致性约束会导致模型彼此塌陷。深度协同训练通过利用传统协同训练算法的协同训练假设解决了这个问题[3]。它将来自卷积层的特征视为输入的视图，并使用来自其他协作者的对抗样本来确保模型之间存在视图差异然后可以使用一致的预测进行训练。然而，这种策略需要在整个过程中生成每个模型的对抗样本，这是复杂和耗时的。我们的方法也有模型之间的相互作用，以打破EMA老师的限制，但我们的方法和深度协同训练之间有两个主要区别。首先，我们不强制一致性约束和不同视图约束，而是只提取模型的可靠知识，并通过一个更有效的6730稳定约束其次，我们的方法更有效，因为我们不需要对抗样本。3. EMA教师的局限性SSL中的一个基本假设是平滑假设-所有现有的教师-学生方法都使用未标记的数据3503002502001501005000100 200 300时代1008060402000100 200 300时代根据这个假设。在实践中，如果x和x′是从一个样本中产生的，而样本中有不同的小扰动，那么相应的教师和学生应该对它们有一致的预测。先前的方法通过以下方式实现这一点：一致性约束主要集中在通过集合或精心设计的噪声生成更有意义的目标。然而，以往的研究忽略了教师是一个基本上是学生的EMA 因此，它们的权重为′图2：左：Sema包含两个权值相近的模型，而Ssplit中两个模型的权值保持一定距离。右：S分裂中两个模型的预测比Sema保持更大的距离。紧密结合。形式上，教师权重θ是一个en-在连续训练步骤中学生权重θ的t，其中平滑系数α∈[0，1]：0 12 24 3648 54′ ′时代θt=αθt−1+（1−α）θt。（二）′在ESTA模型和VAT模型中，当α设置为零时，θ等于θ。时态模型通过历史预测的EMA改进了时态模型，但其教师仍然与学生共享权重。对于Mean Teacher，学生权重的更新随着模型的收敛而减小，即，|θt−θt−1|随着训练步数的t增加。从理论上可以证明收敛序列的EMA收敛到与序列相同的极限，如附录A（补充）所示因此，当训练过程收敛时，教师将非常接近学生。在上述所有的案例中，教师与学生之间的耦合事实是显而易见的。为了进一步可视化，我们在CIFAR-10 SSL基准测试中训练了两个结构。一个包含一个学生和一个EMA教师（名为Sema），而另一个包含两个独立的模型（名为Ssplit）。然后，我们计算每个结构中两个模型之间的权重和预测的欧氏距离图2显示结果。正如预期的那样，在Sema中的EMA老师与学生非常接近，并且随着时代的增加，他们的距离接近于零相比之下，S分裂中的两个模型总是彼此保持较大的距离这些结果证实了我们的猜想，EMA教师是紧耦合的学生。此外，它们还证明了这两个独立的模型是松散耦合的。在现有的师生教学方法中，由于两种角色之间的耦合效应，教师并没有比学生拥有更多有意义的知识。此外，如果学生对特定样本的预测有偏差，EMA老师最有可能积累图3：我们的方法可以减轻确认偏差。f1和f2是双元制学生中的独立学生，fs是中庸之道指导下的学生。对于一个误分类的样本（属于class1），f1可以纠正它迅速与f2的知识。然而，由于EMA老师的错误指导，fs无法纠正其预测。错误，并迫使学生遵循，使错误分类不可逆转。这是一个确认偏差的案例[32]。大多数方法对一致性约束应用斜坡上升操作来减轻偏差，但这不足以解决问题。从这个角度来看，训练独立的模型也是有益的。图3可视化EMA教师的这种无能三个模型，f1，f2和fs ，同时在两类任务上训练。fs是来自MeanTeacher的学生f1和f2是两个相对独立但相互作用的模型，代表我们的双学生结构中的两个学生（第4节）。它们具有相同的初始化，而f2与它们不同该图显示了来自class1的样本的预测如何随这三个模型的时期而变化，这表明我们的方法可以减轻确认偏差。4. 双学位学生如上所述，当训练步骤的数量t很大时，来自EMA教师的目标不足以指导学生。因此，我们的方法通过同时训练两个独立的模型来获得松散耦合的目标然而，这两个模型色玛的分SSemmaSSsppllitttf1F2fs重量距离预测距离6731Xi =1..nX未标记+ζ2+ζ1+ζ2标记+ζ1标记地面实况0未标记Ei稳定性比较EiEjEJ稳定约束一致性约束分类约束图4：双学生结构概述。我们分别训练两个学生模型每个批次包括标记和未标记的数据，并转发两次。基于稳定样本的稳定化约束在学生之间强制执行。每个学生还学习标记的数据的分类约束，并满足光滑的假设的一致性约束。可能会有很大的不同，直接应用一致性约束将导致它们通过交换错误的知识而相互崩溃。由于耦合效应，EMA教师我们提出了一个有效的方法来克服这个问题，这是交换只可靠的知识的模型- els。要把这个想法付诸实践，我们需要解决两个问题。一个是如何定义和获取可靠的模型知识另一个是如何相互交流为了解决这些问题，我们在第4.1节中定义了稳定样本，然后在第4.2节中详细说明了用于训练的衍生稳定化约束。4.1. 稳定样品一个模型可以被看作是一个决策函数，它可以对一些样本做出可靠的预测，但对其他样本却不能。我们定义了稳定样本，并将其视为模型的可靠知识。稳定样品满足两个条件。首先，根据平滑假设，小扰动不应影响该样本的预测，即，该模型在该样本的邻域中应该是平滑的。第二，该样本的预测远离决策边界。这意味着该样本具有预测标签的高概率。定义4.1（稳定样品）。给定一个常数ε∈[0，1），满足平滑性假设的数据集DRm样品是特定于模型的。数据点x相对于任何一个模型可以是稳定的，但对于其他模型可能不是。这一事实是我们的稳定约束的关键，将在4.2节详细阐述。除了样本点x是否稳定的标准外，我们还想知道稳定样本x的稳定程度。这可以通过其邻域中的预测一致性来反映。预测越一致，x越稳定。4.2. 稳定约束训练在介绍培训的具体内容它包含两个独立的学生模型，它们共享相同的网络架构，具有不同的初始状态，并单独更新（图10）。4）. 为了使我们的结构是可训练的，我们从稳定样本中推导出一个新的稳定约束。在实际应用中，我们只利用两个相近的样本来近似稳定样本的条件，以减少计算开销。在一般情况下，我们用θi和θj来表示两个学生的权重我们首先定义一个布尔函数tion {condition}1，当条件为真时输出1，否则输出0。假设x<$是样本x的噪声增强。然后我们检查x是否是学生i的稳定样本：Ri= {Pi=Pi}（{Mi> ξ} {Mi> ξ}），&x xx¯1x1x¯第一章（三）和模型f：D → [0，1]n，满足||f（x）||1= 1对于所有x ∈ D，x是关于f的稳定样本，如果：其中Mi=||f（θi，x）||∞。Pi和Pi是x和x'的预测标签，关于ively，1. 在x附近，它们的预测标签相同。2. x满足不等式：||f（x）||∞> 0。1定义4.1定义了稳定样品，图5详细说明了其条件注意到稳定的概念Σnxx¯学生i超参数k是[0，1）中的置信度阈值。如果样本X的最大预测概率超过ξ，则X被认为离分类边界足够远。然后，我们使用欧氏距离，测量预测一致性，以指示x的稳定性，如下：1||一||1：=i=1 |、|一||∞：=最大值||a我|，a =（a1，a2，...，|, a=(a1, a2,..., an）I=||f（θi，x）−f（θi，x<$）||二、（四）E6732XL= LconXstaf（x）=0|f（x）|=ξf（x3_f（x3）f（x1f（x_）2f（x2f（x1_图5：稳定样品的条件说明。考虑三对相邻的数据点：（1）x1和x<$1不满足第一个条件，（2）x2和x<$2不满足第二个条件，（3）x3和x<$3满足两个条件。较小的E i意味着x对学生i来说更稳定。学生i和j的预测之间的距离可以使用均方误差（MSE）测量为：算法1SSL的双学生训练要求：批次B包含标记和未标记样品′需要：两个独立的模型f（θ）和f（θ）1：对于每个批次B，2：通过数据扩充从B获得B1、B2 ′3：对于{f（θ），f（θ）}中的每个模型，4：计算标记样品的Lcls5：通过等式计算Lcon1在B1和B2之间6：结束7：对于每个未标记的样品Xdo′8：对于{f（θ），f（θ）}中的每个模型，9：通过等式确定x是否稳定。310：结束′11：如果f（θ）和f（θ）对于x都是稳定的，则12：通过等式计算x的稳定性。513：如果结束′14：通过等式14 计算f（θ）和f（θ）的Lsta。615：结束′16：通过等式16中的损失更新f（θ）和f（θ）。717：结束LMSE（x）=||f（θi，x）−f（θj，x）||二、（五）最后，学生i对样本x的稳定化约束被写为：.{Ei>Ej}Lmse（x）， Ri=Rj=1，它们具有比标准双Student更高的性能它们不会增加推理时间，即使在训练期间需要更多的计算。多名学生：我们的双胞胎学生可以很容易地被...Li（x）=x x1x x xstaRjL MSE（x），否则。（六）倾向于多个学生。我们遵循着同样的策略-深度协同训练（Deep Co-Training）我们假设我们的多重我们以同样的方式计算学生j的稳定约束。正如我们所看到的，稳定约束根据两个学生的输出动态地变化。有三种情况：（1）如果x对于两个学生都是不稳定的，则不应用约束。 (2)如果x只对学生i是稳定的，那么它可以指导学生j(3)如果x对于两个学生都是稳定的，则计算稳定性，并将约束从更稳定的一个应用到另一个。根据以前的工作，我们的双学生结构还对每个学生施加一致性约束，以满足平滑假设。我们还应用了Mean Teacher中的去耦合顶层技巧，该技巧将分类和平滑度的约束分开。为了训练Dual Student，Studenti的最终约束是三个部分的组合：分类约束，每个模型中的一致性约束，以及模型之间的稳定性约束，如下所示：学生包含2n个学生模型。在每次迭代中，我们把这些学生随机分成n对。每对然后像双学生一样更新。由于我们的方法不需要模型具有视图差异，数据流可以在学生之间共享。这与深度协同训练不同，深度协同训练需要针对每对数据在实践中，四名学生（n=2）比两名学生取得了显着的进步。然而，如第5.2节所示，超过四名学生并不能进一步提高绩效。不平衡学生：由于具有更多参数的精心设计的架构通常具有更好的性能，因此可以使用预先培训的高性能教师来提高知识蒸馏任务中的轻量级学生[9，10]。基于同样的思想，我们通过提高一个学生的能力，将双元学生扩展为不平衡学生然而，我们不认为复杂的模型是一个老师，因为知识将相互交换，我我CLS+λ1Li+λ2Li、（7）盟友我们发现，差生的进步与差生的能力成正比。其中λ1和λ2是平衡约束的超参数。算法1总结了优化过程。4.3. Dual Student的变体在这里，我们简要地讨论了双学生的两个变体，称为多学生和不平衡学生。两5. 实验我们首先在几个常见的SSL基准测试中评估DualStudent，包括CIFAR，SVHN和ImageNet。然后，我们评估的双重学生的两个变种的性能。我们进一步分析我们的方法6733表1：CIFAR-10上5次运行的平均测试错误率括号显示训练时期的数量（默认值为300）。模型1k标签2k标签4k标签所有标签[16]31岁65 ±1。20†十七岁57 ±0。44†12个。36 ±0。31五、56 ±0。10Π+ SN [18]21岁23 ±1。27十四岁65 ±0。3111个国家。00±0。13五、19 ±0。14温度[16]23岁31 ±1。01†十五岁64 ±0。39†12个。16 ±0。24五、60 ±0。10温度+SN [18]十八岁41 ±0。52十三岁64 ±0。3210个。93 ±0。34五、20 ±0。14[32]第三十二话十八岁78 ±0。31†十四岁43 ±0。20†11个国家。41±0。27†五、98 ±0。21†MT + FSWA [1]十六岁84 ±0。6212个。24 ±0。319 .第九条。86±0。27五、14±0。07CS十七岁38 ±0。52十三岁76 ±0。2710个。24 ±0。20五、18 ±0。11DS十五岁74±0。4511个国家。47± 0。149 .第九条。65± 0。12五、20 ±0。03MT + FSWA（1200）[1]十五岁58 ±0。1211个国家。02±0. 239 .第九条。05±0. 214.第一章73±0。18深度CT（600）[26]--9 .第九条。03±0. 18-DS（600）十四岁17±0。3810个。72±0。198. 89± 0。09 4.第一章66± 0。07通过消融实验。最后，我们演示表2：CIFAR-100上5次运行的平均测试错误率Dual Student在领域适应任务中的应用。除非另有说明，否则我们的实验中使用的架构是相同的13层卷积神经网络（CNN），遵循先前的工作[16，20，32]。其详细信息见附录B（补充）。如[23]中所报告的，最近的SSL方法的实现并不完全相同，并且训练细节（例如，训练时期、优化器和增强的数量）也可以不同。为了进行公平的比较，我们按照先前的最新技术[1]实现我们的方法，该方法使用标准的Batch Norm [12]而不是仅平均值的Batch Norm [11]。该算法采用随机梯度下降优化算法，并带有学习率调整函数γ= γ0π（0. 5+ cos（（t−1）<$π/N）），其中t是当前训练步数，N是总步数，γ0是初始学习率这些设置为Π模型和均值教师提供了更好的基线。对于其他方法，我们使用原始论文的结果。更多培训详情见附录C（补充）。5.1. SSL基准测试我们首先在CIFAR基准上评估Dual Student，包括CIFAR-10 [14]和CIFAR-100 [15]。CIFAR-10有50k个训练样本和10k个测试样本，来自10个类别。每个样本都是32×32RGB图像。我们随机抽取1k、2k和4k平衡标签。CIFAR-100 [15]是一个更复杂的数据集，包括100个类别。每个类别只包含500个训练样本和100个测试样本。我们从中随机抽取10k个平衡标签。此外，我们还在两个数据集上进行了全标签实验。我们将我们的 Dual Student（DS）与最近的一些基于一致性的模型进行了比较，这些模型包括MeanTeacher（MT），Temporal Model（Temp），Mean Teacher我们也673410k型标签所有标签温度[16][16]FSWA [1]三十八岁。65±0。5139岁19 ±0。36三十五14 ±0。71二十六岁30±0。15二十六岁32±0。04二十二岁00±0。21[32]第三十二话三十五96±0。77†23岁37 ±0。16†MT + FSWA [1]三十四10 ±0。3121岁84± 0。12DS三十三岁。08± 0. 2721岁90 ±0。14MT + FSWA（1200）[1]三十三岁。62±0。5421岁52± 0。12深度CT（600）[26]三十四63 ±0。14-中文（简体）三十二77±0。2421岁79 ±0。11用一致性约束（CS）代替我们结构中的稳定化约束作为基线。表1显示了CIFAR-10的结果。所有模型都训练了300个epoch，除了那些用括号指定的。标有a†的结果是从发表了比原始作品更好的性能的其他作品中获得的。我们可以看到，我们的双学生提高了在所有半监督设置上的性能。实验结果表明，随着标记样本数量的减少，该方法可以获得更显著的改进。具体来说，Dual Student将1k标签的结果提高到14。17%，与FastSWA相比，只有一半的训练时间。在使用2k和4k标签的实验中也可以观察到类似的结果。图6显示仅稳定样本上的准确性高于所有样本上的准确性，这证明稳定样本代表了模型的相对更可靠的知识。这就解释了为什么我们的DS与稳定化约束实现了更好的结果比CS。我们在全标签上的结果显示出较少的优势，因为标签在完全监督的情况下发挥了更重要的作用。表2列出了CIFAR-100的结果。特别是，在10k标签实验中，DualStudent记录了新的最先进的32。77%，6735所有样本稳定样本MtDSDS + MT85准确度（%）表5：Dual Student的两个变体的测试错误率（所有使用13层CNN）在CIFAR基准上平均超过3次运行。多名学生（MS）的括号表示学生人数圆括号80高级学生（IS）表示参数的数量，75坚强的学生。7060空气-自动刨机鸟猫鹿狗青蛙马船卡车类别型号CIFAR-101 k标签CIFAR-1001万个标签图6：CIFAR-10的稳定样本和所有样本上每个类别的检测准确度性能差距表明，稳定的样本代表了相对更可靠的模型知识。测试集上稳定样本的平均比率约为85% w.r.t.该模型表3：SVHN上5次运行的平均测试错误率DS15。74± 0。4533. 08 ±0. 27MS（4个型号）14. 97± 0。三十六三十二89±0。32MS（8款）14. 77± 0。三十三三十二83±0。28IS（3.53M参数）13. 43± 0。二十四三十二59±0。2712.第12章：我的天39± 0。263156± 0。22表4：ImageNet上2次运行的平均测试错误率85858080757570706565606055550 100 200 300 0时代100 200 300时代图7：使用1 k标签在CIFAR-10上测试准确度。左：将我们的方法与Mean Teacher相结合可以提高其性能。右：稳定约束的有效性。比FastSWA和深度协同训练更少的训练时间。为了评价Dual Student的泛化能力我们还在SVHN [21]和ImageNet [28]上进行实验。街景门牌号（SVHN）是一个包含73，257个训练样本和26，032个测试样本的数据集。每个样本是一个32×32RGB图像，中心特写一个门牌号。我们只做实验SVHN上有250和500个标签ImageNet包含超过1000万个RGB图像，属于1k个类别。我们提取10%的平衡标签并训练50层ResNeXt模型[33]。表3和表4显示，DualStudent可以改善这些不同尺度数据集的结果。5.2. 变体的性能我们在CIFAR基准上评估多个学生和不平衡学生。表5将它们与标准的Dual Student进行了比较，所有这些都使用相同的13层CNN训练了300个epoch。对于多名学生（MS），我们培训四名学生和八名学生。当超过四个学生同时接受培训时，绩效的提高是有限的。不平衡的学生(IS)，我们用具有Shake-Shake正则化的ResNet [8]替换一个学生。然后，我们在两种不同的模型尺寸上进行实验。特别是一个小的，3.53一个是1000万个参数，一个是1165万个参数。小型ResNet几乎没有增加计算成本，因为其参数数量与13层CNN的参数数量（313万个参数）相似。不平衡的学生通过从更有能力的学生那里提取知识来实现显著的成绩值得注意的是，大型ResNet将CIFAR-10的结果从15.74%提高到12.39%，标签数为1 k。我们的结构也可以很容易地与现有的方法相结合，以进一步提高性能。我们用Mean Teacher代替了模型中的一致性约束.图7（左）显示了精度曲线。这一明显的成绩提高显示了双元制学生突破EMA教师限制的能力。组合的准确性类似于仅使用Dual Student的准确性，这意味着我们的方法对每个模型内部的一致性约束的类型不敏感LcsL staL阶段 +Lcon准确度（%）准确度（%）模型250个标签500个标签监督[32]二十七岁77±3。18十六岁88±1。30[32]第三十二话 4.第一章35±0。504.第一章18±0。27模型10%标签-top110%标签-前5名监督四十二15 ±0。0919号。76 ±0。11[32]第三十二话三十七83 ±0。12十六岁65 ±0。086736表6：CIFAR基准的平均测试错误率平均超过5次运行，具有不同的置信阈值，括号显示标记样品的编号。数据集（标签）ξ = 0。0 = 0。4= 0。6= 0。8CIFAR-10（1k） 16. 4916121592157433 . CIFAR-100（10k）6733. 0833. 二十三三十三545.3. 消融实验我们在CIFAR-10上进行了1 k标签的消融实验，以分析我们结构中的置信阈值和各种约束的影响。置信阈值：置信度阈值为-ndUSPS MNIST图8：USPS和MNIST之间的域差异。在美国邮政的数字是在粗体字体面对和跨越所有的图像没有边界。100908070605040在Def中 trols 2条件4.1稳定样品通过30过滤出边界附近的样本。它的实际值可以近似设置，因为我们的方法对它是鲁棒的0 2040 80时代60 100通常，ξ与任务的复杂度有关，例如，要预测的类别数量或给定数据集的大小。更多的类别或更小的尺寸将需要更小的尺寸。表6比较了CI- FAR基准上的不同的SNR值。结果表明，为了获得更好的性能，必须进行优化，而细致的调优可能只会略微提高性能。约束的影响：Dual Student通过模型之间的Lsta和每个模型内部的Lcon学习未标记的数据。我们还研究了它们各自的影响。此外，我们比较的结果与实验中，只有一致性约束之间的模型（命名为Lcs）。图7（右）显示Lcs降低了ac-后期的准确性，而Lsta有助于提高性能。连续演出。这表明我们的Lsta优于Lcs。此外，模型内部的Lcon也起到了进一步提升性能的作用5.4. 域适应领域自适应旨在将从标记数据集学习到的知识转移到未标记数据集。French等人[6]对平均教师和时间模型进行了修正，使其能够进行领域适应，并显示了师生结构的有效性在本节中，我们应用Dual Student来适应从USPS到MNIST的数字识别模型USPS和MNIST都是灰度手写数字数据集。USPS包含7,000张16×16的图像，MNIST包含60,000张28×28的图像。为了匹配图像分辨率，我们通过三次样条插值将USPS中的所有图像调整为28×28。图8显示了两个数据集之间的主要差异在我们的实验中-我们将USPS设置为源域，将MNIST设置为目标域。我们将我们的方法与Mean Teacher进行比较，图9：从USPS到MNIST的域自适应与历元数的测试曲线。Dual Student算法避免了过拟合，显著提高了拟合结果。源域（USPS）监督模型和目标域（MNIST）监督模型（在7k平衡标签上训练）。所有实验都使用从上述13层CNN 简化的小型架构。更多详情见附录 D （补充）。图9显示了测试精度与历元数的关系。我们可以看到，天真地使用USPS的监督将导致过度拟合。教师回避它在一定程度上提高了训练精度，使top1的准确率从69.09%提高到80.41%，但在训练次数较多时，它过拟合我们的Dual Student避免了过拟合，并将准确率提高到91.50%，这更接近于通过目标域的监督获得的结果。6. 结论在本文中，我们已经研究了现有的师生方法的耦合效应，并表明它设置了性能瓶颈的结构。我们提出了一个新的结构，双学生，打破限制的EMA老师，和一个新的稳定约束，它提供了一种有效的方法来训练独立的模型（无论是相同的架构或不）。稳定化约束总体上是双向的，但对于每个稳定样品是单向的。在数据集和任务中，性能的提高是显著的。此外，我们还讨论了对偶Student的两个变体，得到了更好的结果。然而，我们的方法仍然具有与现有方法类似的限制，例如，在训练期间增加的存储器使用和在增加数量的标签上的性能降级。在未来，我们计划解决这些问题，并将我们的结构扩展到其他应用程序。USPS监督MTDSMNIST监督准确度（%）6737引用[1] 本·阿西沃拉特昆，马克·芬齐，帕维尔·伊兹梅洛夫，还有安德鲁·戈登·威尔逊.对未标记数据有许多一致的解释：为什么要平均。InProc ICLR，2019. 二、六[2] Philip Bachman，Ouais Alsharif，and Doina Precup.学习伪合奏。在Proc. NIPS. 2014. 2[3] Avrim Blum和Tom Mitchell将标记和未标记的数据与联合训练相结合。计算学习理论年会，1998年。2[4] Olivier Chapelle、Bernhard Schlkopf和Alexander Zien。半监督学习麻省理工学院出版社，2006年。3[5] 陈东东，王伟，高伟，周志华用于半监督深度学习的Tri-net。InProc. IJCAI，2018. 1[6] Geoffrey French，Michal Mackiewicz和Mark Fisher。用于域适应的自组装。InProc. ICLR. 2018. 8[7] Ian Goodfellow、Jonathon Shlens和Christian Szegedy。解释和利用对抗性的例子。在procICLR，2015年。一、二[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。Proc. CVPR，2016.7[9] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。2014年，NIPS深度学习和无监督特征学习研讨会。5[10] Geoffrey Hinton Oriol Vinyals和Jeff Dean。从全体教师中有效地提炼知识。在2017年国际语音通信协会年会上。5[11] 谢尔盖·约菲批量重整化：减少批处理标准化模型中的小批处理依赖性。在procNIPS。2017. 6[12] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在Proc.ICML，2015中。6[13] 放大图片创作者：David P.作者声明：John W.平均权重导致更广泛的最优和更好的泛化。在UAI程序中。2018.2[14] Alex Krizhevsky Vinod Nair和Geoffrey Hinton。加拿大高级研究所。6[15] Alex Krizhevsky Vinod Nair和Geoffrey Hinton。加拿大高级研究所。6[16] Samuli Laine和Timo Aila用于半监督学习的时间集成InProc. ICLR. 2017. 一、二、六[17] Wen Li，Limin Wang，Wei Li，Eirikur Agustsson，andLuc Van Gool.Webvision数据库：从Web数据中进行可视化学习和2017. 1[18] Yucen Luo，Jun Zhu，Mengxi Li，Yong Ren，and BoZhang.教师图上的光滑邻居用于半监督学习。在Proc.CVPR. 2018. 二、六[19] Lars Maale，Casper Kaae Snderby，Sren Kaae Snderby，and Ole Winther.辅助深度生成模型。在Proc.ICML. 2016.1[20] Takeru Miyato，Shin-ichi Maeda，Shin Ishii和MasanoriKoyama。虚拟对抗训练：用于监督和半监督学习的正则化方法。IEEE TPAMI，2018。一、二、六[21] Yuval Netzer ， Tao Wang ， Adam Coates ， AlessandroBis-sacco，Bo Wu，and Andrew Ng.使用无监督特征学习读取自然图像中的数字。在NIPS Work-shop on DeepLearning and Unsupervised Feature Learning，2011年。7[22] 奥古斯都·奥德纳使用生成对抗网络的半监督学习。在ICML的数据高效机器学习研讨会上。2016. 1[23] 阿维塔尔·奥利弗，奥古斯都·奥德纳，科林·拉菲尔，埃金·库布克和伊恩·古德费洛。半监督学习算法的现实评估在Proc. NeurIPS中。2018. 6[24] Sungrae Park，Jun-Keon Park，Su-Jin Shin，and Il-ChulMoon.监督和半监督学习的对抗性退出。在Proc.AAAI.2018. 2[25] 鲍里斯·T波利亚克和阿纳托利·朱迪茨基随机近似的平均加速。SIAM Journal on Control and Optimization，1992. 2[26] Siyuan Qiao，Wei Shen，Zhishuai Zhang，Bo Wang，and Alan L.尤尔。用于半监督图像识别的深度协同训练。在Proc. ECCV中。2018. 二、六[27] Antti Rasmus 、 Mathias Berglund 、 Mikko Honkala 、Harri Valpola和Tapani Raiko。使用梯形网络的半监督学习。在Proc. NIPS. 2015. 一、二[28] Olga Russa

下载后可阅读完整内容，剩余1页未读，立即下载