SaaS算法：基于学习速度的半监督学习

32 浏览量更新于2023-10-13 收藏 704KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

SaaS：作为半监督学习Safa Cicek、Alhussein Fawzi和Stefano Soatto加州大学洛杉矶{safacicek，fawzi，soatto}@ ucla.edu抽象。我们介绍了用于半监督学习的SaaS算法，该算法使用深度神经网络中随机梯度下降期间的学习速度来衡量未知标签的后验概率监督学习中的训练速度尽管简单，SaaS在半监督学习基准测试中取得了有竞争力的结果。2.52.01.51.00.52.52.01.51.00.50 5 1015 2025时代0.00.0 0.2 0.4 0.6 0.8 1.0标签损坏Fig. 1.督导质量影响学习速度。在训练期间，当提供的大多数标签是正确的时，损失迅速减少，并且随着正确标签的百分比降低而显著减慢。左图显示了训练时的损失a CIFAR10上的Resnet18，用于不同百分比的损坏标签。误差条显示了3次运行的平均值和标准偏差，其中初始重量是随机的。右图示出了作为对应于十个时期的时间单位的不正确标签的百分比的函数的损失。所有结果都使用固定的学习率0。1，没有数据增强或权重衰减。1介绍我们的方法的关键思想是使用收敛速度作为半监督学习（SSL）的未知标签的值的推理标准。图1明确显示了标签损坏和训练速度之间的关系标签损坏=0.00标签损坏=0.25标签损坏=0.50标签损坏 =0.75 标签损坏=1.00训练损失10个epoch后的训练损失2Safa Cicek、Alhussein Fawzi和Stefano Soatto我我在SSL中，人们会得到一些标记和一些未标记的数据来训练分类器（推断其参数），希望它比单独训练标记数据时表现更好[1]。这是视觉中的一个重要问题，其中注释是昂贵的，但未标记的数据是大量的。为了测量学习速度，我们使用少量的时期作为时间单位，并且当遵循标准优化过程（随机梯度下降或朗之万动力学）时计算该间隔中的损失的减少。我们的SSL算法的主要思想是优化未标记数据的标签（或更准确地说，未标记数据的后验分布），以最大限度地减少损失。由此产生的SaaS算法由外部循环和内部循环组成，外部循环更新未知标签的分布，内部循环在少量时期内模拟所提出的算法是不寻常的，因为未知标记的后验分布最初独立于模型参数（权重）而被推断而不是如SSL中的惯例那样与它们一起被推断。尽管它的简单性，SaaS取得了竞争力的结果，报告在节。3.第三章。在下一节中，我们正式我们的方法，并在节。我们讨论了与现有技术相关的我们的贡献，并强调了其特征和限制。1.1方法描述L.l NlL.lN l我们给出一些标记数据x ={xi}i=1，其中标记y ={yi}i=1，并且一些u .uN uu。uN u未标记数据，x={xi}i=1。未知标签Y={Yi}i=1已隐藏变量，其中“真实值”不是独立的，而是与（讨厌的变量）相对应。大多数SSL方法试图推断或边缘化未知标签以及模型参数，对于我们来说是神经网络的权重w，只是为了丢弃前者并保留权重。与大多数SSL方法不同，在我们的方法中，我们估计后验偏差。未知标签P u的分布。uu = x u）。类的外部循环我 = P（Y i）|Xi i算法更新后验Pu的估计，而内部循环优化权重（对于后验的固定估计）以估计在时间间隔上的损失减少。重要的是要注意，我们并不试图推断权重（而只是未知标签的后验分布1通过设计，权重不会收敛，但根据经验，我们观察到未知标签的后验分布会收敛。然后，我们使用最大后验估计的labe lsyu=argmaxiP uto inferap o int-estewhtstinastadat a我我监督培训课程。这个过程在SaaS算法中有描述2节中，其中f是节中描述的损失函数。2，N = Nu+ Nl是样本的总数，并且η是针对批量大小的合适的学习率|B|新加坡元。1我们已经测试了从高斯分布中提取权重，或者将它们重置为初始值，这会产生类似的结果。SaaS：作为半监督学习3我k=1ij我ti i不我我在第3节中，我们在SSL基准测试上测试SaaS算法，并在第3节中测试SaaS算法。4我们把我们的贡献在相关文献的背景下。接下来，我们更详细地描述该算法。2模型的推导我们将一个具有参数（权重）w的深度神经网络表示为函数f w（x）∈RK，其中x是输入（测试）数据，输出的第k个分量近似于后验概率fwt（x i）[k]<$P（y i= k|x i）。随机梯度下降（SGD）执行未知参数的增量更新，其中每次迭代t通过对训练集的称为“m i n i- b at c h“B t的随机子集求和来计算损失。所需的用于填充所有数据的数据集的数量称为一个时期。我们将SGD表示为算子G（·）：wt→wt+1，其将权重的当前估计映射到下一个估计。请注意，G取决于给定的（真实的）标签，以及未标记数据的假设标签。为了量化学习速度，我们使用固定时间（epoch）间隔内的累积损失：对于给定的训练集{x，y}，它是T opti期间的聚合损失。化步骤，即，学习曲1ΣTLT=Tt=11|Bt|Σ|Bt|i=1（xi，yi;wt）（1）哪里|B t|表示由样本组成的小批次的基数（xi，yi）P（x，y）;表示与权重wt相对应的分类损失。在所有数据点上计算上述损失需要已知标签。可替代地，它可以被解释为针对权重Wt和标签yi的联合假设的损失。我们使用交叉熵损失，其是HP ，Q（y）的采样版本|x）= EP（x）EP（y|x）− log Q（y|其中Q（y = k|x）= f w（x）[k]是网络输出的第k个坐标。真联合分布P（x）P（y|x）= P（x，y）是未知的，但数据集是从中采样的。特别地，如果yi= k是xi的真标签，则我们有P（yi|xi）=δ（yi−k）其中δ是Dirac的D e l t a。另外，我们将其表示为具有第k个分量的未知K维概率向量PuPu [k] = P（yi= k|x i），k = 1，. . .，K，与未知一起被推断我重量w.我们可以写出ΣKP[k]P[k]作为之间概率向量=PT Pj，因此累积损失可以是写为LT（Pu）=1ΣT不1|Bu|u|ΣBt| -∠ logfw（xu），Pu∠联系我们（二）t =1ti =1uu其中Bu（xi，Pi;wt）是迭代t时未标记样本的小批量。注意交叉-熵取决于未知标签的后验分布Pu，而不是它们的样本值yu。损失取决于整个后部4Safa Cicek、Alhussein Fawzi和Stefano SoattoN我我我不不不我不未标记集合，我们表示为 Nu×K 矩阵 Pu ，以及整个权重集合 w={w1，. . . ，w T}。我们还添加了未标记样本的网络输出的熵作为显式正则化器：−EQlog Q（y u|x u），在SSL中常见[2]，我们用未标记的样本近似为uΣHQ（w）=i=1-∠fw（xu），logfw（xu）∠联系我们q（xu;w）（三）我们进一步通过对群变换g（x）∈G进行平均来合并数据增强，例如平移和水平翻转，均匀采样giU（G）。让我们定义以下简写符号：（B u，P u; w t−1）=ΣuΣut1|Bt|（g（x u），Pu; w）和q（Bu;w）=1|q（g（xu）;w|q(g (x u);w）. 模拟|B u|i=1我我我t−1tt−1 Σ|Bu|Li=1iit−1B|对于标号集，则（B l，P l; w t−1）= 1|不（gi（xl），Pl;wt−1）其中Pl=不|Bl |i=1δ i，k是克罗内克增量，其中k是与xl相关联的真实标签。整体学习可以被构建为以下优化1ΣTPu= arg minPuT t=1（Bu，Pu;wt−1）（4）服从wt−1=wt−1−ηww（（Bu，Pu;wt−1）+βq（Bu;wt−1））2t−1t tw t= wt−1 −ηww1μ m（Bl，Pl;w1）t = 1。. . 不2Pu∈ St−2tt−2其中最后一个约束施加Pu的行在RK的概率单形中。上述优化的目的是找到未标记数据的后验，当使用随机梯度下降来训练标记和未标记数据两者上的权重w时，该后验导致最快的学习曲线权重的更新具体分解为两个步骤：第一步是用未标记的样本和后验Pu更新权重的方程，而第二步使用标记的样本和地面真值标记更新权重。我们强调，后者的更新是至关重要的，以适应现有的训练数据的权重，因此防止学习平凡的解决方案，导致快速的收敛速度，但不适合的数据。我们还注意到，熵项仅对于未标记的样本最小化我们在所有实验中设置β通常使用熵或代理[2-6]来正则化SSL中的标签，包括互斥性[7，8]。[9]自适应地使用互斥性，不强迫它在早期时代的类似类别。所有这些损失迫使决策边界处于低密度区域，这是集群假设下的理想属性。[5，6]还最大化边缘标签分布的熵以平衡类别。与熵最小化一起，平衡类等价于最大化估计和数据之间的互信息，如果标签先验是均匀的。但是，我们并没有把这种损失应用到不SaaS：作为半监督学习5我我22不u2不22Ti=12不u1将我们自己限制在平衡数据集或我们对标签分布有先验知识的设置中。2.1实施为了解决方程中的优化问题（4），我们在未知数Pu上执行梯度下降，其中Pu是随机初始化的未知标签后从从高斯分布采样的w 〇开始，内部循环执行SGD的几个时期以测量学习速度（累积损失）LT，同时保持标签后验固定。然后，外循环应用梯度步骤来更新未知标签后验Pu。在每次更新之后，权重被重置为w0，或者从高斯重新采样。在每个外历元的开始，标签估计P u∈RN× K通过运算Π（P u）投影到维度为N u × K的概率单形上的最近点。在标签后验收敛之后（通过设计，权重在firtphase），我们选择最大最小最小并在第二阶段中继续进行训练，就像完全被监督一样我们将算法1中描述的结果算法称为SaaS。算法1 SaaS算法1：PuN（0，I）2：为权重ηw和标签后验值ηPu选择学习率η3：阶段I：估计Pu4：趁Pu还没有稳定下来做5：Pu=Π（Pu）（将后验投影到概率单形上）6：w1N（0，I）7：∆Pu=08：//运行SGDT步（在权重上）以估计损失减少10：w1=wt−1−ηww（（Bu，Pu;wt−1）+βq（Bu;wt−1））t−2t−1t t11：wt=wt−1−ηwwt−12 （Bl，Pl;wt−1）12：∆Pu=∆Pu +Pu（Bt，Pu;wt）13：//更新后验分布14：Pu=Pu -ηPu∆Pu15：阶段II：估计权重。16：yu=argmaxiPui=1，. . . ，Nu我我17：w1N（0，I）18：当w尚未稳定时，doΣ|Bu|uu19：wt−1=wt−1 -ηwt−1|Bu|不i=1 （xi，yt−1）1Σ|Bl |LL20：wt=wt−1−ηwwt −1|Bl|t（xi，yi;wt−1）应该注意的是，梯度Pu（B u，P u; w t）的计算并不简单，因为w t通常是P u的（复）函数。在6Safa Cicek、Alhussein Fawzi和Stefano Soatto带标签阈值化不带标签阈值化准确率我为了计算梯度，我们在这里省略了wt对Pu的依赖性，并使用近似值Pu（wt，xu，Pu）≈−logfwt（xu）。这种近似是我我我精确地每当每个数据点被访问一次（即，T= 1个时期）;当选择T时为了在这里相对较小，我们假设该近似成立。这是一个重要的方面，因为SaaΣS算法不适合求解最优化问题：minw，PuNi=1 （x i，P u; w）. 这个问题许多琐碎的解决方案，如[10]所观察到的，因为深度神经网络可以很容易地适应随机标签，当训练足够长的时间。因此，对于许多后验Pu，存在在该目标上实现零损失的权重w。许多这样的平凡解决方案之一是将标签后验Pu设置为仅使用标记样本训练的网络的输出。这将导致与监督基线相同的测试性能，并且根本不利用未标记的样本另一方面，SaaS使用直到固定的小迭代T的累积损失作为标签后验Pu的推断标准。0.94960.93950.92940.91930.9092910.890.880.875 10 15 20 2530时代908901000020000300004000050000600007000080000未标记样本图二. （左）标签阈值化的效果。我们项目Pu最接近的概率单纯形的最小概率为0的类。05.图中给出了SaaS第一阶段中使用的标签阈值的未标记准确度。该图从时期5到时期30给出。（右）测试精度与未标记样本的数量。使用ResNet18的SVHN数据集的测试数据的准确度与未标记样本的数量。随着未标记样本数量的增加，性能显著提高，正如半监督学习方案中所预期的那样。结果在三个随机标记的组上平均，但误差条不可见，因为偏差小于线宽。最后，如果要将P预连接到简单的S，则Σe具有发现到稍微修改的集合Sα={x∈RK：ixi=1，xi≥α}（α≥0选择为较小）导致更好的优化结果对于P。这与监督分类中的最新工作一致，其中该技术用于提高深度神经网络的准确性[11，12]。图2（左）说明了这种方法对SaaS的影响，并显示了SVHN数据集的明显改进。未知标签SaaS：作为半监督学习73实证评价我们在最常见的基准测试中对SaaS算法进行了测试，如下所述。数据集。SVHN [13]由门牌号的图像组成。我们使用73， 257个样本进行训练，而不是整个600， 000张图像; 26， 032张图像被分离出来进行评估。CIFAR-10 [14]有60， 000张图像，其中50， 000张用于训练，10， 000张用于测试。我们随机选择标记的样本。我们还选择它们在类上是统一的，就像在以前的作品中所做的那样[3]。对于两个数据集，10%的训练集用于超参数调整。训练正如[10]所指出的，深度网络可以很容易地（过）拟合随机标签。我们将T设置得足够小（CIFAR10为40个历元，SVHN为5个历元），使得模拟权重不能在早期历元中拟合随机初始化的后验估计我们使用ResNet18 [15]作为我们的架构和vanilla SGD，动量为0。9作为一个优化器。我们在SVHN和CIFAR10中执行随机仿射变换作为数据增强我们还在CIFAR10中使用水平翻转w和Pu的学习速率被选择为η w= 0。01和η Pu = 1。我们在学习Pu时保持这些速率固定。我们还固定了算法第一阶段的外部历元数，SVHN设置为75，CIFAR10设置为135对于SaaS的第二阶段（监督部分），训练不限于小时期T。相反，学习率初始化为0。1并且在50个时期之后减半，除非验证中的准确度增加。当学习率达到0时，我们停止。001.用于比较的基线是仅使用标记集（即，CIFAR10的4K样本和SVHN的1K样本）（表1）。在训练（监督）基线时，我们使用与SaaS第二阶段相同的学习参数，架构和增强。正如预期的那样，SaaS大大改善了基线结果，这表明算法有效地利用了未标记的数据。（附表一）在表2中，我们在标准SSL基准测试中比较了SaaS和最先进的SSL方法。在CIFAR-10中，算法使用4，000个标记样本和46，000个未标记样本进行训练。在SVHN中，它们使用1，000个标记样本和72，257个未标记样本进行训练。通过对三个随机标记集取平均值来报告测试误差的均值和偏差我们比较的最先进的方法包括输入平滑算法[3]，集成模型[16，17]，生成模型[18]和采用特定问题先验的模型[19]。SaaS可以与最先进的方法相媲美。具体而言，SaaS在SVHN中实现了最佳性能，在CIFAR10中实现了第二好的结果。考虑到VAT通过对抗性训练进行输入平滑，将其结合可以提高我们的性能。8Safa Cicek、Alhussein Fawzi和Stefano Soatto当未标记数据的数量增加时，SSL算法预计会更准确。如图2（右）所示，使用更多未标记的样本，我们始终获得更好的结果。数据集CIFAR10-4kSVHN-1k按测试数据的监督基线列出的错误率17.64 ±0.58 11.04 ±0.50SaaS对未标记数据的错误率12.81 ±0.086.22 ±0.02SaaS对测试数据10.94 ±0.073.82±0.09表1.基线错误率。基准测试集的错误率系统在CIFAR10上用4K标记的样本训练，在SVHN上用1K标记的样本训练未知标签的错误率。未标记集上的SaaS性能。测试数据的错误率。测试集上的SaaS性能。将结果在三个随机标记的组上平均。可以看出，SaaS在测试数据上的结果显著优于基线监督算法。方法-数据集CIFAR10-4kSVHN-1k增值税+EntMin [3]10.553.86随机变换[19]11.29NR[17]第十七话12.164.42GAN+FM [18]15.595.88[16]第十六话12.313.95SaaS10.94 ±0.07 3.82±0.09表2.与最先进技术的比较测试集上的错误率为CIFAR10和SVHN。NR代表“未报告”。 CIFAR10使用4K标签进行训练，SVHN使用1K。将结果在三个随机标记的组上平均。尽管它很简单，但SaaS的性能达到了最先进的水平。它可以与对抗性示例（VAT）相结合，但在这里，我们报告了裸结果，以强调速度作为半监督环境中学习的代理的作用，同时保持简单的学习方案。我们激励SaaS作为一种方法，找到训练在固定少量时期（例如，10）是最大值。为了验证我们的算法实际上做了预期的事情，我们在SaaS生成的伪标签上训练网络在图3（左）中可以看到，随着SaaS迭代更多（即随着Pu的更新次数增加），所得到的伪标签导致早期时期中更大的训练损失减少（更快的训练）。这个实验验证了SaaS给出了伪标签，在伪标签上训练会更快。表1中报告的结果是使用ResNet18和仿射增强的。我们的方法使用增强，但是为了与一些SaaS：作为半监督学习9M = 5M = 10M = 200.55 0.940.500.930.450.920.400.910.350.900.300.890.250.200.880.152 3 4 5 6 7 8 910训练时期0.875 10 15 20 25 30时代图三. （左）SaaS找到训练速度更快的伪标签。使用给定的P u训练的网络的训练损失，如我们算法的第一阶段所估计的，具有不同数量的外部时期M。 M是外部迭代在SaaS中停止的时期的数量。我们的算法生成的标签假设导致更快的训练，因为迭代次数增加。从epoch开始绘制损失2. 这个图验证了我们的算法找到了训练速度更快的标签（右）朗之万效应。较小的批处理大小可以提高性能，尽管计算成本很高：对于|B|= 25（图显示为SVHN）。因此我们选择|B|= 100并将零均值高斯噪声添加到可比较结果的权重更新（Langevin）。结果收敛于|B| = 25当我们训练更长的时间。由于Langevin仅在SaaS的第一阶段使用，因此该图从时期5到时期30给出在先前的论文中，我们还报告了卷积网络“conv-1 ar ge”的结果，并且在表3中使用了如在[ 3，16]中使用的卷积网络。此外，在CIFAR10中使用水平翻转。此外，我们通过相对于Mahalanobis度量（称为ZCA）居中来应用预处理，如[3，16]中所述数据集CIFAR10-4kSVHN-1k按测试数据的监督基线列出的错误率17.88 ±0.19 12.72± 1.13SaaS对未标记数据的错误率14.26 ±0.307.26 ±0.19SaaS对测试数据13.22 ±0.314.77 ±0.27表3.为了直接比较，我们用“conv-large”架构实现SaaS[3]和相同的增强方案。还显示了基线性能（监督）。SaaS在未标记集和测试集上都有改进。将结果在三个随机标记的组上平均。小批量和朗之万动力学。最后，我们讨论了一种用于减少SaaS培训时间的方法。我们以较小的批量实现更好的性能|B| = 25（对于标记和未标记数据）。当批量= 25批次大小= 100，Langevin批次大小= 100训练损失未知标签10Safa Cicek、Alhussein Fawzi和Stefano Soatto|= 100 ，泛化性能如预期的那样下降 [20] 。 |= 100, generalizationperformance degrades as expected [20].不幸的是，小批量会减慢训练速度，所以我们使用|B|= 100（两个标签）和未标记的数据，并将零均值高斯噪声添加到权重更新中，这一过程称为随机梯度朗之万动力学（SGLD）[21无噪声的小批量和大批量以及有噪声的大批量的比较可以在图中看到。3（右）。与当我们使用ResNet18时，算法的第一阶段（获取未知标签的估计值）对于SVHN大约需要1天，对于使用GeForceGTX 1080的CIFAR10大约需要4天。失败案例。正如我们已经表明的，我们的算法即使在很少的增强（例如：翻译）。然而，当我们根本不使用任何增强时，我们的方法表现不佳。在没有增强和ResNet18的情况下，我们的算法的性能下降非常大，错误率达到40。19± 3。SVHN为89和64。05± 1。未标记数据上CIFAR10为79接下来，我们解释性能的这种实质性变化。图1表明标签准确度和训练速度之间存在很强的相关性。然而，请注意，该图是标签和初始权重的不同实现的平均值这并不意味着对于随机标签的每一一个简单的例子是在所有样本上具有恒定的标签，对于这些样本，训练将是立即的。在这种情况下，大多数标签对于平衡数据集来说都是不正确的，这意味着训练速度和标签准确性之间的相关性并不适用于每一个实现。因此，我们需要有一种方法来消除退化的解决方案。虽然我们消除这些解决方案的第一个约束是对标记的示例施加较小的训练损失，但在许多半监督设置中这可能还不够。数据增强进一步对期望的未知标签后验施加约束：图像的标签必须相对于图像变换保持恒定。因此，该约束将算法引导到期望的标签后验，并导致SaaS上的显著性能增益。4讨论和相关工作我们的SSL方法的关键思想是利用训练速度作为代理来衡量假定标签的质量，因为它们以可区分的方式迭代地细化。与泛化相关的收敛速度隐含在[24]的工作中，他们推导出泛化误差的上限，作为常数乘以步长之和的函数，这表明更快的训练与更好的泛化相关。理解我们的方法的另一种方式是通过用于解决边界值问题（BVP）的射击算法。在二阶动力学边值问题中，通过对初始状态的猜测来模拟边值问题，从而得到一条轨迹;然后迭代地细化初始状态，使得目标误差最小。SaaS：作为半监督学习11在我们的问题中，动力学由SGD给出。假设我们使用无动量的SGD，我们有一个一阶微分方程。第一边界条件是权重的初始化，第二边界条件是小的累积损失。后者是用来细化的动力学参数，而不是初始状态的Pu在接下来的段落中，我们将讨论我们对有关SSL的大量和不断增长的文献的贡献。包围方法包括师生模型，使用组合在随机变换下训练的分类器的估计（或权重）。虽然我们只训练了一个网络，但我们的方法类似于教师-学生模型：我们的P u更新类似于师生模型中的教师分类器。然而，我们在每个外部纪元随机启动一个学生模型在[17] 对训练时期上的网络预测进行平均，由此在每个时期中应用不同的增强[16]最小化一致性成本，即两个网络输出之间的距离。因此，学生网络最小化了标记数据的分类和一致性成本，并且仅与未标记数据保持一致性。教师模型的权重是学生网络权重的移动平均值。群集假设。聚类假设假定具有相同类别的输入在适当度量下在相同聚类中它有很多种形式（max-margin，∫low-density separation，smoothness，manifold）.一般来说，它可以被诬陷为||xf w（x）||2dµ x很小，其中 µ x是概率分布。在一些流形上的分布。VAT [25，3]是这一思想在深度网络中的最新应用，它通过添加正则化项来实现，以最小化干净和对抗性噪声添加输入的网络输出之间的差异。这种最先进的方法类似于[26]的对抗训练，主要区别在于它不需要标签信息，因此可以应用于SSL。我们的方法是正交的增值税，并可以改善它的结合。自训练是一个迭代过程，其中来自先前迭代的置信标签被用作基础事实。在[27]中，标记样本的特征的不相交子集用于对未标记数据的随机选择的子集产生不同的假设。标记的数据扩展与最有信心的估计在这个子集上。这种方法不能扩大由标记样本生成的sigma代数我们保持对每个标签的后验概率的估计，并且仅在算法的细化（第二）阶段中强制点估计。编码先验。在图像分类中，可以强制标签对某些变换的不变性。这是通过最小化不同变换下网络输出之间的差异来实现的在[19]中，变换是仿射的12Safa Cicek、Alhussein Fawzi和Stefano Soatto（平移、旋转、翻转、拉伸和剪切）。虽然它们取得了良好的效果，但它们对基线监督性能（仅使用标记数据）的改进例如在CIFAR-10中，监督误差为13。6%，而半监督误差为11。百分之二十九类似地，[28]建议最小化网络关于小变换的方向导数的范数我们还采用了像大多数SSL论文一样的图像分类增强。生成模型曾经是SSL的标准，但视觉中的高维问题提出了挑战。最近已经应用了像GAN这样的对抗方法，其中使用了额外的C+ 1（假）类。损失函数被设计为针对未标记样本的伪类强制鉴别器输出为低，而针对生成的样本使其为高。[18]提出了一个正则化的生成器，称为特征匹配（FM），从而生成器试图匹配的一阶统计的生成的样本特征的真实数据。根据[4]，如果判别器在数据流形内具有样本，但是在样本密度低的子空间周围，则与特征匹配不同，它们匹配非零密度区域中的逆分布，而不是它们的平均值。而不是一个生成器网络，[29]使用编码器-解码器网络生成图像和标签，鉴别器试图从中区分。基于图形的方法。 [30]假设大小为N × N的亲和矩阵给出了一种新的具有独立于数据特征的信息的方法。在损失函数中，它们有一个项，用于惩罚基于该相似性矩阵分配给相似样本的不同标签。[31，32]使用1-范数找到稀疏聚类。[33]以有效的方式成对地传播必须和不能约束。[34]在学习中使用当前假设的未知标签，就像我们的算法一样。它们迭代地更新亲和矩阵和未知标签的估计。[35]提出了一种可用于SSL的字典学习方法最近的基于图的方法[36在这个丰富和多方面的背景下，我们的方法提供了另一个需要考虑的因素：事实上，相对于未知标签的概率进行优化时的收敛速度高度依赖于它们的正确性，即使从随机初始条件开始。这使我们不必联合优化参数和标签上的后验，这将扩大维度，并允许我们顺序地专注于首先估计未知的标签分布-无论模型参数/权重如何-然后使用标签的最大后验估计来我们的方法可以与最近在SSL中引入的其他想法相结合，包括使用对抗性示例。我们在实验中没有这样做，以隔离我们算法的贡献。然而，仅仅是该方法，与一些数据增强，但没有复杂的技巧，实现promis- ing性能。SaaS：作为半监督学习13致谢研究由ONR N 00014 -13-1-0563和ARO W 911 NF-17-1-0304支持。引用1. 夏佩尔岛Scholkopf，B.，Zien，A.：半监督学习（chapelle，o例如，eds.; 2006）[书评]。IEEE Transactions on Neural Networks20（3）（2009）542-5422. Grandvalet，Y. Bengio，Y.：基于熵最小化的半监督学习。在：神经信息处理系统的（2005）5293. Miyato，T.，Maeda，S. i.，Koyama，M.，Ishii，S.：虚拟对抗训练：用于监督和半监督学习的正则化方法。arXiv预印本arXiv：1704.03976（2017）4. Dai，Z.杨志，杨，F.，Cohen，W.W. Salakhutdinov，R.R.：好的半监督学习需要一个坏的团队。在：神经信息处理系统的进展。2017 - 065. Krause，A.，Perona，P.，Gomes，R.G.：正则化信息最大化判别聚类。在：神经信息处理系统的进展。（2010年）7756. Springenberg，J.T.：无监督和半监督学习与分类生成对抗网络。arXiv预印本arXiv：1511.06390（2015）7. Sajjadi，M.，Javanmardi，M. Tasdizen，T.：半监督深度学习的互斥性损失。在：图像处理（ICIP），2016年IEEE国际会议，IEEE（2016）19088. 徐，J，张志，Friedman，T.，梁玉，Broeck，G.V.d.：一个用于符号知识深度学习的语义损失函数。arXiv预印本arXiv：1711.11157（2017）9. Shrivastava，A.，辛格，S.，Gupta，A.：使用属性和比较属性的约束半监督学习。参见：欧洲计算机视觉会议，Springer（2012）36910. 张，C.，Bengio，S.，Hardt，M.，Recht，B.，Vinyals，O.：理解深度学习需要重新思考泛化。arXiv预印本arXiv：1611.03530（2016）11. Pereyra，G.， Tucker，G.， C〇r 〇 w s k i，J.， Kaiser，L-.，嗨，G。：通过惩罚可靠的输出分布来重新定义神经网络。 arXiv预印本arXiv：1701.06548（2017）12. 塞格迪角Vanhoucke，V.，Io ffe，S.，Shlens，J.，Wojna，Z.：重新思考计算机视觉的接收架构。IEEE计算机视觉和模式识别会议论文集。（2016）281813. Netzer，Y.，王，T.，Coates，A. Bissacco，A.，吴，B.，Ng，A.Y.：读取数字在自然图像中使用无监督特征学习。在：关于深度学习和无监督特征学习的NIPS研讨会。2011年卷（2011年）514. Krizhevsky，A.，Hinton，G.：从微小的图像中学习多层特征。（二零零九年）15. 他，K.，张，X.，Ren，S.，孙杰：深度剩余网络中的身份映射。参见：欧洲计算机视觉会议，Springer（2016）63016. Tarvainen，A.，Valpola，H.：教师是更好的榜样：加权平均一致性目标改善了半监督深度学习结果。在：神经信息处理系统的进展。（2017）119517. Laine ， S. ，艾拉， T. ：用于半监督学习的时间集成。 arXiv 预印本 arXiv ：1610.02242（2016）14Safa Cicek、Alhussein Fawzi和Stefano Soatto18. Salimans，T.古德费洛岛Zaremba，W.，Cheung，V. Radford，A. Chen，X.：改进的gans训练技术。在：神经信息处理系统的进展。（2016）223419. Sajjadi，M.，Javanmardi，M.Tasdizen，T.：正则化与随机trans-形成和扰动的深度半监督学习。在：神经信息处理系统的进展。（2016）116320. Keskar，N.S.，Mudigere，D.，Nocedal，J.，Smelyanskiy，M.，Tang，P.T.P.：在大-深度学习的批量训练：泛化差距和尖锐的最小值。arXiv预印本arXiv：1609.04836（2016）21. Welling，M.， Teh，Y.W.：贝叶斯学习通过随机梯度langevindy-力学第28届国际机器学习会议（ICML-11）论文集。（2011）68122. Raginsky，M.，Rakhlin，A.，Telgarsky，M.：非凸学习通过随机gra梯度朗之万动力学：非渐近分析在：第30届学习理论会议论文集，COLT 2017，阿姆斯特丹，荷兰，7-10七月2017。（2017）167423. Chaudhari，P.，Choromanska，A.Soatto，S.，LeCun，Y.： E n t r o p y - s g d ：偏置梯度下降到宽谷。arXiv预印本arXiv：1611.01838（2016）24. Hardt，M.，Recht，B.，辛格，Y.：训练更快，泛化更好：随机梯度下降的稳定性。 In ： Proceedings of the 33nd International Conference on MachineLearning，ICML 2016，New York City，NY，USA，June 19-24，2016.（2016）122525. Miyato，T.，Maeda，S. i.，Koyama，M.，Nakae，K.，Ishii，S.：分布平滑虚拟对抗训练arXiv预印本arXiv：1507.00677（2015）26. Goodfellow，I.J. Shlens，J.，Szegedy，C.：解释和利用对抗性的例子。arXiv预印本arXiv：1412.6572（2014）27. Blum，A.，Mitchell，T.：结合标记和未标记数据与协同训练。于：计算学习理论第十一届年会论文集，ACM（1998）9228. Simard，P.， Victorri，B.， LeCun，Y.， Denker，J.：切向prop-一种形式主义在自适应网络中指定选定的不变性。在：神经信息处理系统的进展。（1992）89529. Dumoulin，V.，贝尔加齐岛Poole，B.Lamb，A.，Arjovsky，M.，马斯特罗彼得罗岛Courville，A.：逆向学习推理。arXiv预印本arXiv：1606.00704（2016）30. 杨志， Cohen，W.W. Salakhutdinov，R.：再谈半监督学习图嵌入。In：Proceedings of the 33nd International Conference on MachineLearning，ICML 2016，New York City，NY，USA，June 19-24，2016. （2016年）40–4831. Nie，F.，王，H.，黄，H.，Ding，C.：通过1-范数图的无监督和半监督学习。在：计算机视觉（ICCV），2011 IEEE国际会议，IEEE（2011）226832. Su，H.，Zhu，J.，Yin ZDong，Y.，Zhang，B.：高效鲁棒的半监督在稀疏正则图上学习。在：欧洲计算机视觉会议，Springer（2016）58333. 吕志，Ip，H.H.：基于穷举和高效的约束谱聚类应变传播在：欧洲计算机视觉会议，Springer（2010）134. Li，C.G.，林芝，张洪，Guo，J.：学习半监督表示-为半监督学习提供统一的优化框架。在：Proceedings的IEEE国际会议计算机视觉。（2015）2767SaaS：作为半监督学习1535. 王，X.，郭，X.，李S.Z.：自适应统一的半监督字典学习与活动点。在：IEEE计算机视觉国际会议论文集。（2015）178736. Haeusser，P.，Mordvintsev，A.，Cremers，D.：联想学习神经网络的多功能半监督训练方法。In：Proc. IEEE Conf.计算机视觉和模式识别（CVPR）。（2017年）37. 冈特，A.，Tarlow，D. Brockschmidt，M.，Urtasun河廖河，巴西-地Zemel，R.：用于半监督分类的图划分神经网络。（2018年）38. 基普夫T.N. Welling，M.：使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907（2016）39. Weston，J.，Ratle，F.，Mobahi，H.，Collobert，R.：通过半监督嵌入进行深度学习。在：神经网络：贸易的技巧。Springe

下载后可阅读完整内容，剩余1页未读，立即下载