基于残差修正的互补网络互学习改进半监督分类

170 浏览量更新于2023-10-19 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16500基于残差修正的互补网络互学习改进半监督分类吴思12李继昌1刘成2余志文1黄孝新21华南理工2香港城市大学计算机科学系cswusi@scut.edu.cn，cslijichang@mail.scut.edu.cn，cliu272-c@my.cityu.edu.hkzhwyu@scut.edu.cn，cshswong@cityu.edu.hk摘要深度相互学习联合训练具有相似属性的多个本质网络，以改进半监督分类。然而，网络输出之间常用的一致性正则化可能无法充分利用它们之间的差异。在本文中，我们探讨如何捕捉互补信息，以加强相互学习。为此，我们提出了一个互补校正网络（C-CN），建立在基本网络之上，学习从一个基本网络的输出到地面真实标签的映射，条件是另一个学习的特征。为了使第二个基本网络与第一个网络越来越互补，这个网络由校正的预测来监督。因此，最小化两个互补网络之间的预测偏差可以导致半监督学习中的显着性能增益。我们的实验结果表明，所提出的方法明显改善了基本网络之间的相互学习，并在多个半监督分类基准上取得了最先进的结果特别是，测试错误率从以前的21.23%和14.65%降低到12.05%和10.37%，分别为1000和2000标签的CIFAR-10。1. 介绍应用深度卷积网络的主要限制之一[16] [36] [12]是需要大量收集标记图像。为了绕过昂贵的手动注释，许多研究已经在半监督学习上进行[21] [5] [40] [2]，这样模型可以在部分标记的数据上训练，因为期望只有一小部分样本可以接收人类注释更实际。为了利用未标记数据提高分类器的泛化能力，图1.一个例子来说明所提出的CCN如何改进具有1000个标签的CIFAR-10上的半监督分类（类别0-9分别表示CCN学习从一个网络（Net 1）的原始输出（softmax层的输入）到地面真实标签的映射，以另一个网络（Net 2）学习的特征为条件。根据原始输出，CCN能够产生补偿残差来纠正错误分类。半监督方法依赖于一个重要的假设，即相邻数据点更可能属于同一类，这意味着决策边界应该位于低密度区域。有许多基于这一假设开发的深层模型，如[35][25][34]。分类器的预测在未标记数据上应该是一致的，而不管是否添加了扰动。先前的方法包括时间集成[18]、虚拟对抗训练（VAT）[26]和对抗退出（VAdD）[29]遵循类似的原则。另一方面，独立网络之间的相互学习对于确定更可靠的决策边界也是有效的。最近的方法，如双重学习[11]，Mean-Teacher [38]和深度相互学习（DML）[42]，已经带来了半监督分类的改进。它们中的大多数惩罚不同网络对未标记数据的不一致预测。然而，这些方法只考虑了它们之间的差异性，而忽略了它们之间的互补性。我们关心的是改善相互关系的任务。16501图2.概述了我们的半监督分类增强型相互学习模型。我们的模型由两个具有相似性质的基本网络和一个互补校正网络（CCN）组成。CCN学习更准确地分类未标记的第二个基本网络由CCN的输出监督，并且随着它的学习，它越来越多地与第一个网络互补由此产生的基本网络导致显着的业绩收益，由于互补的知识转移，通过相互学习。学习半监督分类。为了充分利用不同网络中包含的互补信息，我们的目标是学习从一个网络的输出到地面真值标签的映射，条件是另一个网络学习的特征，如图1所示。这种映射不仅可以学习预测偏差，还可以帮助改进对未标记数据的分类。由此产生的更好的预测为互补网络的训练提供了进一步的指导，使得这些网络之间的相互学习能够带来显着的性能增益。在本文中，我们提出了一种增强的相互学习的方法来训练互补网络，以提高半监督分类。具体来说，我们扩展了 DML 模型，包括一个互补校正网络（CCN），以捕获两个基本网络之间的互补信息。这个新网络建立在基本网络之上，并且有条件地依赖于一个网络的原始输出（softmax层的输入）和另一个网络提供的功能。我们采用了残差架构，这样CCN就能够学习原始输出和输入特征上的地面真实标签条件之间的因此，对未标记数据进行更准确的分类，并用于训练第二个基本网络，而第二个基本网络在学习过程中变得更具鉴别力和互补性。通过最小化这两个基本网络之间的分歧，CCN学习的知识可以最终转移到第一个，并导致额外的性能增益。所提出的方法的概述如图2所示在实验中，我们提出了在多个标准的半监督分类基准上取得的最先进的结果，以及关于所提出的方法为什么有效的见解。这项工作作出了以下贡献。(1)与直接最小化不同网络之间的预测差异不同，我们提出了CCN来表示通过在网络之间捕获和传输互补知识，巧妙地改进半监督式相互学习(2)CCN能够使用一个网络的学习特征来帮助校正另一个网络的输出。由此产生的对未标记数据的更准确分类被进一步用于指导模型训练，使得网络在学习过程中变得越来越互补。(3)我们证明了所提出的增强型互学习模型比DML模型更有效，并改进了多个标准半监督学习基准测试的最新结果。2. 相关工作我们将我们的评论限制在密切相关的工作上，特别是使用深度模型的半监督学习的最新进展为了帮助分类器探索未标记数据的类别，生成对抗网络（GAN）[8][30] [24]已应用于半监督学习，如[14] [28] [17]。在[37]中，Springenberg提出了一种分类GAN来正则化区分训练的分类器，从而可以实现鲁棒的分类模型。在[33]中，Salimans et al.探索了各种实用技术，以改善生成模型和半监督分类的训练。此外，Wei et al.[39]通过将一致性正则化纳入判别器来改进Wasserstein GANs[1]的训练，从而可以增强Lipschitz连续性并实现有希望的结果。为了刻画类条件分布，Li et al.[20]提出了一种三重生成对抗网络，在三人公式中包含一个分类器。另一项类似的工作报告，[7]提出了一种三角形GAN框架，其中使用两个生成器和两个鉴别器来描述实例和标签的联合分布。与上述旨在生成尽可能好的图像的基于GAN的方法相比，[4]中的GAN生成16502i=1j=1因此可以接近潜在空间中的决策边界，基于此可以提高分类器的区分能力。基于扰动的模型通过将噪声引入模型训练以减少过拟合而显示出有希望的结果，例如[31] [32]。在[18]中，通过惩罚具有和不具有随机增强的网络的预测之间的差异来执行与对抗训练类似 [9] ， Miyato etal.[26][25]提出了一种虚拟对抗训练方法，以选择对分类器预测敏感的方向上的扰动从另一个角度来看，提出了对抗性dropout [29]，通过最大化预测的类分布和地面真实标签之间的偏差来生成模型更新的扰动互学习是改进半监督学习的另一种有效策略为了从另一个网络获得训练经验，提出了基于蒸馏的方法[13]来训练一个独立的相对较小的网络。与蒸馏不同，相互学习始于一组基本网络，这些网络共同学习以解决任务。在[3]中，Batra和Parikh提出了一种合作学习范式，用于联合训练针对不同领域的多个模型，并学习领域不变的视觉属性。在[42]中，Zhang et al.提出了一种深度互学习模型，该模型使具有不同参数初始化和丢弃的两个网络的输出之间的分歧最小化。构建更好的教师模式实例和对应的类标签，并且x j表示未标记的实例。在半监督设置中，我们有NLNU。深度相互学习模型通常由两个或两个以上的模型组成。更重要的网络。由于用于图像分类的深度卷积网络具有高容量，因此在大多数情况下，联合训练两个网络可以实现性能增益和计算成本之间的权衡。本文介绍了一种基于双网的交互学习模型。具体而言，我们设计了一个由θC参数化的 CCN ，以利用分别由θ1和θ2CCN可以对未标记数据产生更准确的分类，并指导我们模型中复杂本质网络的训练。3.1. 增强的相互学习模式我们扩展了DML模型，包括一个CCN杠杆年龄补充信息的基本网络。CCN有两个独立的输入，一个基本网络的原始输出，以及另一个基本网络的学习特征，用于对原始输出和地面真实标签之间的分歧进行建模。与第一个网络相比，CCN能够对未标记的数据产生更准确的分类，这可以用于指导第二个网络的训练。通过最小化两个基本网络之间的分歧，它们都可以进一步改善。具体而言，第一基本网络的总损失函数L1由以下四项组成：为了加强相互学习，Tarvainen和Valpola [38]采用学生网络的指数移动平均作为教师，为学生提供训练目标L1（θ1;X）=Σ（xi，yi）∈L.Σyi，hθ1（xi）+Σxj∈U.ΣHhθ1（xj）我们提出的预算之间有很大的差异。Σ（1）框架和现有的工作。主要区别在于学习模型的方式。我们提出CCN，+ηxj∈UA（θ1;xj）+λxj∈UDKLhθ2（xj）<$h θ1（xj），是建立在两个基本网络之上的。它的主要作用是学习修正一个网络的输出，并指导另一个网络的训练。因此，可以显著增强基本网络之间的互补性。据我们所知，以前没有尝试以我们的CCN设计的方式捕获单独网络之间的互补信息以增强相互学习。3. 该方法对于可以容易地收集大量图像的情况，其中hθ1（·）（hθ2（·））表示网络θ1（θ2）对输入的预测类概率分布，θ 1（·，·）表示交叉项函数，H（·）表示置信度，θ 1（·，·）表示交叉项函数。关于后验类概率分布的Kullback-Leibler（KL）熵函数，A表示基于扰动的虚拟自适应训练项，并且DKL（·K·）表示两个样本之间的Kullback-Leibler（KL）散度t分布。系数η和λ是用于在L1中的项之间实现平衡的加权因子。由方程式(1)，H（·）用于量化根据网络预测描述未标记实例的类标签所需的信息量，如下所示：但是只有一小部分是人工标记的。在我们的问题中，我们认为火车-.ΣHhθ1（xj）=−hθ1（xj）lnh θ1（x j）.（二）ing集合X=L <$U包含N个实例，其中子集L={（xi，yi）}NL被标记，其余的条件熵项的最小化增强了分类器对未标记实例的置信度，U={xj}NU是未标记的，其中（xi，yi）表示标记的从而使决策边界远离数据密集型不16503JJ.¨j jC区域以促进半监督学习，如[10] [26]所指出的。为了稳定对未标记实例的条件熵的估计，A用于相对于输入扰动平滑分类器，如下所示：A（θ1;xj）= maxDKLǁν ǁ≤ǫ.Σhθ1（xj）<$hθ1（xj+v），（3）图3.拟议CCN的图示。其中，λ表示控制对抗扰动ν的强度的超参数。此外，最小化L1中的最后一项可以鼓励两个网络产生一致的预测。事实上，这个相互学习项对于以未标记实例上的预测类分布的形式提供训练经验非常重要。此外，第二个整体损失函数L2基本网络定义如下：表1.提出了增强型互学习模型中使用的CCN的体系结构。L2（θ 2;X）=Σ（xi，yi）∈L.Σθ2（xi）+Σxj∈U.ΣHhθ2（xj）ΣθΣΣ+yjC，hθ2（xj）+ηxj∈Uxj∈UA（θ2;xj）（四）制定CCN的总体损失函数，我们采用Σ。Σ+λDKLhθ1（xj）<$h θ2（xj），xj∈U交叉熵函数作为分类项来捕获预测标签和地面真实标签之间的差异其中yθC表示实例xj的伪标签一致此外，我们选择均方距离来衡量当前和时间集合之间的差异对于云凝结核的预测（将在下一节）。请注意，这两个基本网络是在不同的监督下训练的。与第一个不同的是，第二个网络学习预测类别标签预测如下：LC（θ1，θ2，θC;X）=Σ（xi，yi）∈L.θi，hθCΣ（xi）通过模仿CCN的输出，Σθ¨2（五）Ground truth targets.因此，第二个网络越来越多地补充第一个网络，因为它+µxj∈U�hθC（xj）−τjC-，应该具有与CCN相似的分类性能3.2. 互补校正网络我们建议CCN利用来自基本网络的补充信息来产生更准确的预测。该网络学习从一个基本网络的输出到地面实况标签的映射受He et al.的工作启发。[12]，我们的CCN的一个重要特征是身份跳过连接，它将第一个基本网络的原始输出添加到这个校正模块的末尾。这种跳跃连接与剩余网络不同，因为我们考虑了第二基本网络的学习特征作为侧输入，因此我们的校正网络能够捕获补充信息。如图3所示，第一个网络的原始输出第二个网络的绝对特征同样被投影到一个较低维的嵌入中。为了组合这两种模态，我们将两个嵌入向量连接起来，其中τ θC表示在先前训练时期上C-CN到实例Xj的标签的时间集合预测。由于只有少量的标记样本，因此大多数训练样本是未标记的，并且可能导致CCN的整体损失。与[18]类似，我们在开始时为第二项使用斜升系数μ以避免这种优势。在我们的模型中，时间集合预测是标签预测的以下指数移动τ θC←ατ θC+（1 −α）h θ（x j）。（六）在每一个训练阶段，网络的输出被累加到时间集成输出中，并使用动量系数α将先前的预测汇总预计会更准确。由于CCN学习了从第一个基本网络的原始输出到地面真值标签的映射，因此校正后的类概率分布可以计算如下：图层描述Net 1的输入原始输出Net 2的特征L−4完全连接10→64，LReLUL−3完全连接128→64，LReLU完全连接64→64，LReLUL−2级联，全连接128→32，LReLUL−1完全连接32→10L−0添加到原始输出，Softmax16504将结果向量馈送到两个完全连接的层，例如向量被投影回有效的标签空间。到hθC（xj）=N.gθ1（xj）+δθC.gθ1（ xj），fθ2（ xj）ΣΣ、（7）16505JJJJ其中N（·）表示归一化指数函数，gθ1（·）表示第一本质网络的输出，fθ2（·）表示第二本质网络的全局池层上的学习表示，并且δθC（·，·）表示由CCN学习的残差。为了使第二基本网络与第一基本网络互补，可以使用CCN的预测来产生第二基本网络的训练目标。具体地，y，hθC（xj）=[hj;1，hj;2，. . . ，hj;M]被变换为独热向量yθC =[yj;1，yj;2，. . . ，yj;M]作为实例xj的伪标签，如下所示：算法1我们的增强型相互学习模型的伪代码，用于训练两个基本网络和CCN。1：输入：标记数据（xi，yi）∈L和未标记数据xj∈U，权重-sη，λ和μ，以及训练时期T的数量。2：初始化：基本网络θ1和θ2，CCNθC，时间系综未标记样本的预测τθC和伪标记yθC，以及学习率γ。3：对于t=1至T，4：从L和U随机抽取小批次样品。5：对于每个小批次B，图6：计算原始输出gθ1（xi）和gθ1（xj），并计算第一本质网络hθ1（xi）和hθ1（xj）。7：计算特征fθ2（xi）和fθ2（xi），并评估第二本质网络hθ2（xi）和hθ2（xj）。. 1、如果hj;m= argmaxlΣ ΣhθC（ xj）l，8：计算CCN hθC（xi）和hθC（xj）。9：根据等式计算yθC（八）、yj; m=0，否则，（八）十：JApply. 随机梯度下降算法第二次更新θC←Adam<$θCLC（θ1，θ2，θC;B），θC，γ.其中，M表示类别的数量，并且[·]1表示预测类别概率向量的第1个分量，指示属于类别的实例的概率l等。我们的CCN架构如表1所示。在训练过程中，输入图像由基本网络处理以计算高级图像特征并产生类别概率预测。然后，第一个网络的原始输出和第二个网络学习的特征通过CCN。CCN的预测被变换为关于第二网络的未标记实例的伪标记，但不能引起传播回其自身的梯度。我们提出的模型的实现细节总结在算法1中。4. 实验与讨论在本节中，我们进行了大量的实验，以验证所提出的增强型相互学习模型，以提高半监督分类的有效性。具体来说，我们首先评估我们提出的方法，然后比较与国家的最先进的方法多tiple半监督学习基准。为了更好地理解我们的工作，我们还通过消融研究和可视化研究了我们提出的CCN和增强的相互学习机制的有效性。4.1. 实验设置我们用一个玩具例子强调了我们的CCN的有效性，然后在MNIST [19]，SVHN [27]，CIFAR-10和CIFAR-100 [15]基准，现有的国家的最先进的方法，半监督分类主要集中。我们报告的平均分类误差和相应的标准偏差超过10运行的测试数据。模型变体。我们构建了我们提出的模型的以下变体，以评估改进策略对最终分类性能的有效性。11：适用。斯托克河弹性梯度下降和上升方向θ1θ←Adam<$θ1LC（θ1，θ2，θC;B）+L1（θ1;B），θ1，γ.12：适用。斯托克河弹性梯度下降和上升方向θ2θ←Adam<$θ2LC（θ1，θ2，θC;B）+L2（θ2;B），θ2，γ.13：根据等式更新τθC（六）、14：结束15：结束16：返回θ1、θ2和θC。基线我们通过采用DML模型[42]训练了两个与所提出的模型具有相同架构的基本网络。The ‘Baseline’results serve as the lower bound for our“我们的模型w/o ML”。我们通过从相应的损失函数中去除其预测的发散项来禁用本质网络之间的相互学习，以分析CCN在校正第一本质网络的预测方面的能力。“我们的模型w/o CCN”。我们从我们的模型中删除了CCN，以研究其在利用互补信息增强基本网络之间的相互学习方面的有效性“我们的模型w/o VAT”。我们从基本网络的损失函数中删除了虚拟对抗训练的发散项，以训练我们模型的另一种变体，这样我们就可以研究我们模型与现有技术的互补性[26]。4.2. 玩具示例为了突出我们的CCN的有效性，我们在众所周知的“双螺旋”合成数据集上测试了变体我们每个类生成1000个数据点我们采用了两个基本网络，包括3个大小为300个节点的ReLU隐藏层，以及我们模型中相应的CCN。在图4中，我们将训练过程中学习到的决策边界可视化，以说明CCN如何校正第一个基本网络的预测。16506表2. 在MNIST、SVHN和CIFAR-10数据集上测试我们的模型和以前最先进的方法的错误率（%）。所提出的方法实现了更准确的分类比竞争的方法在所有的情况下。MNIST SVHN CIFAR-10方法50个标签100个标签500个标签1000个标签1000个标签2000个标签4000个标签LadderNetwork[31]-1.06±0.37----20.40±0.47CatGAN[37]-1.39±0.28----19.58±0.58改进GAN[33]2.21±1.360.93±0.07-8.11±1.30-19.61±2.0918.63±2.32[6]---7.42±0.65--17.99±1.62TripleGAN[20]1.56±0.720.91±0.58-5.77±0.17--16.99±0.36美国[4]-0.80±0.10-4.25±0.03--14.41±0.03SPCTN[41]1.72±0.131.00±0.119.79±1.247.37±0.30-17.99±0.5014.17±0.27[18]第十八话1.02±0.370.89±0.156.65±0.534.82±0.1731.65±1.2017.57±0.4412.36±0.31[18]第十八话--5.12±0.134.42±0.1623.31±1.0115.64±0.3912.16±0.24[38]第三十八话--4.18±0.273.95±0.19-15.73±0.3112.31±0.28增值税[26]---3.74±0.09--11.96±0.10VAdD[29]---4.16±0.08--11.68±0.19[29]第二十九话---3.55±0.05--10.07±0.11[22]第二十二话0.94±0.420.66±0.074.52±0.303.82±0.2521.23±1.2714.65±0.3111.00±0.13[22]第二十二话---3.83±0.22--9.89±0.34CT-GAN[39]-0.89±0.13----9.98±0.21基线8.48±1.033.47±0.6715.03±0.1110.74±0.1029.57±0.8920.97±0.3715.33±0.31我们的模型0.67±0.130.42±0.113.63±0.213.36±0.1812.05±0.4210.37±0.318.80±0.24表3.在C IFAR-10数据集上测试我们的模型和变量的错误率（%）。方法1000个标签2000个标签4000个标签基线29.57±0.8920.97±0.3715.33±0.31我们的模型w/o ML19.71±0.8614.59±0.7511.50±0.42我们的模型不含CCN20.41±0.4213.34±0.2711.45±0.22我们的模型（不含增值税）16.74±0.1913.06±0.2010.54±0.18我们的模型12.05±0.4210.37±0.318.80±0.24图4.在对合成数据集进行训练期间，“Our Model w/o ML”中第一个基本网络（上排）和CCN（底排）标记的数据点标记为黑色。不同的颜色表示不同的类别。CCN有效地收敛到比第一网络更好的解决方案。4.3. 基准比较与以前的工作比较。我们首先报告了所提出的方法的结果，并在MNIST，SVHN和CIFAR-10基准上与现有的最先进的半监督学习方法进行了比较。S. 表2显示了我们的模型和竞争方法在这些基准测试中给出不同数量标签的情况下的结果为了公平比较，我们在测试阶段评估了模型的第一个基本网络，而不是基本网络的集合，尽管在训练过程结束时有三个与竞争方法相比，按面值-图5.在MNIST，SVHN和CIFAR-10数据集上比较我们模型中的两个基本网络和CCN。这三个网络在所有情况下都实现了非常相似的性能，这是由于相互学习过程中的互补知识转移。在CIFAR-10上，对1000和2000个样本的测试误差率分别为12.05%和10.37%，比第二好的4.3个百分点。据指出，模型的与模型变量的比较。为了证实所提出的方法的有效性，我们还报告了重新-16507图6.一个例子来说明CCN在CIFAR-10上的有效性，有1000个标签。在左边的子图中，CCN超过了第一个基本网络。在右边的子图中，真实校正的数量远远大于错误校正的数量，这表明CCN能够对未标记的数据进行更准确的分类。基准上的“基线”结果。表2显示，在所有情况下，“我们的模型”都明显优于“基线”。在50个标签的MNIST、500个标签的SVHN和1000个标签的CIFAR-10上，测试错误率分别从8.48%、15.03%和29.57%降低到0.67%、3.63%和12.05%，相应的性能提高分别为7.8、11.4和17.5个百分点。由于“Baseline”中的基本网络为了研究改进策略的相对贡献，我们在CIFAR-10上对我们的模型和变体进行了比较，表3显示，删除相应的项会导致性能显著下降我们认为CCN在促进相互学习方面很重要，并且可以通过结合基于扰动的对抗训练来实现额外的性能增益。4.4. 模型分析为了深入了解所提出的方法为什么有效，我们研究了所提出的CCN和增强的互学习机制如何在以下四个方面提高最终模型的分类性能。网络成员比较。我们的增强型互学模型由三个网络组成：两个基本网络（“Net 1”和“Net 2”）和CCN。我们在所有三个基准上比较这些网络图5显示了三个网络在不同情况下的平均测试错误率可以观察到，这三个网络具有非常相似的性能。这一现象符合相互学习的特点。第二个基本网络学习模仿CCN，并通过最小化它们的预测偏差将学习到的知识转移到第一个基本网络。CCN的有效性。为了验证我们的CCN在校正第一基本网络的原始输出方面的能力，我们比较了变体图7. CCN的代表性结果校正了CIFAR-10上第一个基本网络的原始输出，具有1000个标签（类别0-9分别表示“飞机”、“汽车”、“鸟”、“猫”、“鹿”、“狗”、“青蛙”、“马”、“船”和“卡车”）。尽管这些图像根据原始输出被错误分类，但是可以通过CCN学习补偿残差，使得可以校正这些错误分类。图6中的无ML“模型。左侧子图显示了这三个网络在CIFAR-10上的性能，其中包含1000个标签。由于CCN通过利用来自第二基本网络的复杂信息来学习原始输出和地面真实标签之间的残差，因此它的性能优于第一基本网络。此外，第二个基本网络由CCN的输出监督，因此这两个网络具有非常相似的性能。在右边的子图中，我们分别绘制了第一基本网络的输出被真正校正和错误校正的测试实例的数量实验结果表明，真实修正量远大于虚假修正量，这表明CCN确实利用了本质网络之间的互补信息，提高了对未标记数据的分类能力。一些代表性的修正如图7所示加强相互学习的有效性。在我们的模型中，CCN通过指导第二本质网络的训练来形成教师，并通过与第二本质网络的相互学习将知识转移到第一本质网络为了证明所提出的模型的优越性，图8显示了在具有500个标签的SVHN和CIFAR的训练期间，“我们的模型”相对于“基线”的性能改进16508颜色.可以观察到，所提出的模型的学习表示更加集中，并且可以很容易地分为不同的组。4.5. 关于CIFAR 100图8.基线模型和我们的模型在SVHN上的比较，500个标签（左）和CIFAR10上的比较，1000个标签（右）。与“基线”的两个网络相比图9. CIFAR-10测试数据上最后一个隐藏层的t-SNE图，有1000个标签：基线模型（左）和我们的模型（右）。我们的模型可以学习更多的判别表示，在其上分离包括“猫”，“鹿”和“狗”在内的困难类的数据点表4.在CIFAR-100数据集上测试我们的模型和先前最先进方法的错误率（%）。方法5000个标签10000个标签[18]第十八话-39.19±0.36[18]第十八话-38.65±0.51[22]第二十二话-37.97±0.29基线53.58±0.4540.83±0.29我们的模型43.42±0.3135.28±0.231000个标签与仅惩罚基本网络之间的预测偏差的“基线”相比此外，第二基本网络能够通过使用校正的预测来学习更好的抽象表示。反过来，第二个网络通过惩罚它们之间的预测偏差来促进第一个网络的性能增益。可视化。我们进一步可视化了基线模型和我们的模型在CIFAR- 10上的1000个标签的学习表示。我们使用“基线”和“我们的模型”中的第一个基本网络进行比较。图9显示了使用t-SNE [23]投影到2维的最后一个隐藏层的特征实例都来自测试数据，不同的类由不同的CIFAR-100是一个更具挑战性的半监督分类基准，因为它有100个类别。有几种方法在这个基准上进行了测试。表4显示了我们的模型和计算方法的结果。与其他基准测试的结果类似，“我们的模型”在两种情况下都显著改善了当给定10000个标签时，测试错误率降低到 35.28% ，这低于先前的最新结果（ 37.97% ）。CIFAR-100的结果验证了我们在处理更困难的基准时增强的相互学习的有效性。5. 结论这项工作探讨了如何增强深度卷积网络之间的相互学习，以改进半监督分类。我们发现，简单地最小化两个独立的本质网络之间的预测差异可能无法充分利用它们之间的差异为了捕捉这些信息，我们提出了一个复杂的校正网络，建立在基本网络之上，以校正一个网络的预测，条件是另一个网络学习的特征。对未标记实例的更准确的类预测被用作训练目标，以使第二个基本网络变得与第一个更互补。因此，我们的增强的相互学习模型导致显著的性能增益，这是由于所学习的知识可以最终转移到第一基本网络的原因我们的实验表明，所提出的方法提高了国家的最先进的多个半监督分类基准的结果。致谢这项工作得到了中国国家自然科学基金（项目号：200000000 ）的部分资助。 61502173 、 U1611461 、61722205、61751205、61572199），部分由香港特别行政区研究资助局（项目编号：城大11300715 ），部分由香港城市大学（项目编号：7005055），部分由广东省自然科学基金（项目编号：2016A030310422），部分由广东省重点&研发计划（项目编号：2018B010107002），部分由中央大学基础研究基金（项目编号：2018ZD33）。16509引用[1] M. Arjovsky，S.Chintala和L.博图Wasserstein生成对抗网络。在proc 2017年机器学习国际会议。[2] P. Bachman，O. Aisharif和D.准备学习伪合奏。在proc神经信息处理系统进展，第3365 - 3373页，2014年。[3] T. Batra和D.帕里克具有视觉属性的合作学习。在arXiv预印本arXiv：1705.05512，2017。[4] Z.戴，加-地Yang，F.杨，W. Cohen和R.萨拉赫季诺夫良好的半监督学习需要糟糕的GAN。神经信息处理系统进展，第6513 - 6523页，2017年[5] Z. Ding，N.Nasrabadi和Y.Fu. 通过耦合神经网络的半监督深度 IEEE Trans-actions on Image Processing ， 27（11）：5214[6] 迪穆兰岛贝尔加齐湾普尔岛Mastropietro、A. Lamb，M.Arjovsky和A.考维尔逆向学习推理。在Proc.国际学习表示会议，2017年。[7] Z.甘湖，加-地陈威Wang，Y.普，Y。Zhang，H. Liu，C. Li和L.卡琳三角生成对抗网络。神经信息处理系统进展，2017年。[8] I. Goodfellow，J.普热-阿巴迪米尔扎湾，澳-地Xu，L.沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在proc 神经信息处理系统进展，第2672 - 2680页，2014年。[9] I. Goodfellow，J. Shlens和C.赛格迪解释和利用对抗性的例子。在 proc 2015 年国际学习表征会议（International Conference on Learning Representation）[10] Y. Grandvalet和Y.本吉奥。基于熵最小化的半监督学习。在proc 神经信息处理系统进展，2004年。[11] D.他，Y.夏氏T.钦湖，加-地Wang，N. Yu，T. Liu和W.MA.机器翻译的双重学习。神经信息处理系统进展，第820- 828页，2016年[12] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在Proc. IEEE计算机视觉和模式识别上，第770[13] G. Hinton，O. Vinyals和J. Dean.从神经网络中提取知识。在 Proc. NIPS Deep Learning and RepresentationLearning Workshop，2014。[14] D. Kingma，S. Mohamed，D. Rezende和M.威林使用深度生成模型的半监督学习。在Proc. Neural InformationProcessing Systmes，第3581 - 3589页[15] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。在多伦多大学，多伦多，ON，加拿大，技术。众议员，2009年。[16] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在 Proc. Neural InformationProcessing Systmes，第1106 - 1114页[17] A. Kumar，P. Sattigeri，and T.弗莱彻使用GAN的半监督学习：流形不变性与改进推理在proc 神经信息处理系统的进展，第5534 - 5544页，2017年。[18] S. Laine和T.艾拉用于半监督学习的时间集成。在Proc.国际学习代表会议，2017年。[19] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278[20] C. Li，K. Xu，J. Zhu，and B.张某三重生成对抗网。在proc 神经信息处理系统的进展，第1195 - 1204页，2017年。[21] C. Li，J. zhu，and B.张某用于（半）监督学习的最大边际深度生成模型。IEEE Transactions on Pattern Analysisand Machine Intelligence，2018。[22] Y. 罗，J.Zhu，M.Li，Y.Ren和B.张某半监督学习中教师图上的光滑近邻在Proc. IEEE计算机视觉和模式识别会议，2018年。[23] L. Maaten 和 G. 辛顿使用 t-sne 可视化数据 Journal ofMachine Learning Research，9（11）：2579[24] T. 宫城，T.卡塔奥卡，M。Koyama和Y.吉田生成对抗网络的谱归一化。在Proc.国际学习表示会议，2018年。[25] T. Miyato，S.前田S。Ishii和M.小山虚拟对抗训练：用于监督和半监督学习的正则化方法。IEEE Transactionson Pattern Analysis and Machine Intelligence，2018。[26] T. Miyato，S.前田，M。Koyama，K. Nakae和S.石井虚拟对抗训练的分布平滑在proc 2016年学习表征国际会议。[27] Y. Netzer，T. Wang，中国山核桃A. Coates，A.比萨科湾Wu，和A. Ng.使用无监督特征学习读取自然图像中的数字。在Proc. NIPS深度学习和无监督特征学习研讨会上，2011年。[28] A. Odena半监督学习与生成对抗网络。在proc 2016年学习表征国际会议。[29] S. Park，J. Park，S.申，和我。月球监督和半监督学习的对抗性退出。在Proc. AAAI人工智能会议，2018。[30] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习在proc 2016年学习表征国际会议。[31] A.拉斯穆斯贝格伦湾洪卡拉河Valpola和T.莱子使用梯形网络的半监督学习。在 Proc. Neural InformationProcessing Systmes，第3546 - 3554页[32] M. Sajjadi，M. Javanmardi和T.塔斯迪森用于深度半监督学习的随机变换和扰动正则化。在Proc. Advances inNeural InformationProcessing Systems，第1163 - 1171页[33] T. 萨利曼斯岛Goodfellow，W.Zaremba和V.张用于训练GANs的改进技术在proc 神经信息处理系统，第2234 -2242页，2016年。16510[34] 联合Shaham，K. Stanton，H.李湾，澳-地纳德勒河Basri和Y.克鲁格SpectralNet：使用深度神经网络进行谱聚类。在Proc.国际学习表示会议，2018年。[35] R. Shu，H.Bui，H.Narui和S.厄蒙DIRT-T方法用于无监督域自适应。在Proc.国际学习代表会议，2018年。[36] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。在Proc.国际学习代表会议，2015年。[37] J. 斯普林根伯格无监督和半监督学习与分类生成对抗网络。在proc 2016年国际学习表征会议。[38] A. Tarvainen和H.瓦尔波拉教师是更好的榜样：加权平均一致性目标改进了半监督深度学习结

下载后可阅读完整内容，剩余1页未读，立即下载