半监督学习中虚拟对抗训练的切线法向对抗正则化（TNAR）方法及其在实验中的表现

187 浏览量更新于2023-10-18 收藏 578KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10676半监督学习Bing Yu1人，Jingfeng Wu1人，Jingwen Ma1人，Zhanxing Zhu123人1北京大学2北京大学3北京大数据研究{byu，pkuwjf}@ pku.edu.cnjwma@math.pku.edu.cnzhanxing. pku.edu.cn摘要与标准监督学习相比，半监督学习的关键难点在于如何充分利用未标记数据。最近提出的一种方法，虚拟对抗训练（VAT），巧妙地执行对抗训练没有标签信息，以施加局部光滑的分类器，这是特别有利于半监督学习。在这项工作中，我们提出了切线法向对抗正则化（TNAR）作为VAT的扩展，通过考虑数据流形。TNAR由两个复杂的部分组成：正切对抗正则化（TAR）和法向对抗正则化（NAR）。在TAR中，VAT沿着数据流形的切空间应用，旨在加强分类器在流形上的局部不变性，而在NAR中，VAT在与切空间正交的正常空间上执行，旨在对分类器施加鲁棒性，以对抗导致观察数据偏离底层数据流形的噪声。在人工和实际数据集上的实验表明，我们提出的TAR和NAR相互补充，共同优于其他最先进的半监督学习方法。1. 介绍半监督学习（SSL）的主要挑战是如何利用大量的未标记数据来获取有用的信息，从而在标记数据相对不足的情况为此，研究的一条重要路线集中在对数据分布的流形假设上，即，观察到的数据分布在低维流形上，该流形可以使用大量未标记的数据来表征，并且旨在基于数据流形[1，24，19，11，13]。接下来，我们整理出三个合理的假设来激发我们半监督学习的想法：流形假设在高维空间RD中呈现的观测数据x以高概率集中在具有低得多的维度的一些基本流形附近[3，18，4，24]，记作M=Rd。噪声观测假设观测数据x可以分解为两部分x=x0+n，其中x0在基础流形M上精确支撑，n是与x0无关的噪声[2，23]。半监督学习假设若两点x1，x2∈M在流形距离上接近，则条件概率p（y|x1）和p（y|x2）是相似的[1，24，19]。换句话说，真实分类器或真实条件分布p（y|X）沿基本流形M平滑地变化。根据这三个假设，我们要获得的最佳分类器应该是1）沿着数据流形平滑;2)对歧管外噪声鲁棒。因此，很自然地将SSL的损失函数[1，11]公式化为：Lssl ： =L监督 +R流形 +R噪声，（ 1）其中Eq.（1）是监督学习损失，第二项惩罚分类器的流形平滑度，第三项平滑分类器，使其对噪声具有鲁棒性。虽然关于标记数据的监督学习损失L是标准的，关键在于如何巧妙地设计R流形和R噪声，以1）有效地诱导期望的平滑-分类器上的ness， 2）优化效率高，3）充分利用未标记的数据。现有的工作基于雅可比矩阵构造R流形，例如，切传播[26，11]Σ¨ ¨*同等缴款。†通讯作者。R流形=Exp（x）<$（Jx f）·v<$，（2）v∈ TxM10677rMrkx0x=x0+n图1.切线法向对抗正则化的插图x=x0+n是观测数据，其中x0在底层流形M上精确支持，n是与x0。r是沿切空间的对抗扰动，以导致分类器在流形上的不变性;r是沿着正常空间的对抗性扰动，以将鲁棒性强加于噪声分类器和流形拉普拉斯范数[1，13，22]∫¨ ¨1 ）如何估计底层流形， 2 ）如何有效地执行TNAR。对于第一个问题，我们利用配备了extra编码器的生成模型来表征流形的坐标图[11，13，22]。更具体地说，在这项工作中，我们选择变分自适应（VAE）[10]和局部GAN [22]来估计数据中的底层流形。对于第二个问题，我们进一步扩展了文[17]中介绍的技术，引入了一些精心设计的辅助函数，有效地实现了切空间（TAR）和法空间（NAR）中的VAT限制详细信息见第3节。本文的其余部分组织如下。第二节介绍了增值税和两个生成模型作为TNAR的背景在此基础上，我们在第三节详细介绍了TNAR的技术细节。第4节中R流形=f（x）dp（x）x∈M我们将TNAR与其他相关方法进行了比较，并分析了解TNAR相对于VAT和其他多方面的优势Ez（三）基于正则化进行了各种实验用于证明第5节中TNAR的有效性。Ez其中J是雅可比矩阵，f是分类器，T xM是数据流形的正切空间，x = g（z）是数据的流形表示。它们正则化流形分类器在沿着数据流形的雅可比矩阵的范数意义下的平滑性。R噪声的典型选择是以与R流形相对应的形式，除了要惩罚的Jacobian是关于切空间以外的观测空间[1，11]。另一方面，受对抗训练[8]的启发，虚拟对抗训练（VAT）[17，16]被提出用于SSL，而不依赖于标签信息。与雅可比矩阵的Lp范数所导致的光滑性不同，VAT通过引入虚拟的对抗样本，导致分类器的鲁棒性实证结果[17，21]表明，VAT实现了SSL任务的最新性能，证明了虚拟对抗训练所施加的平滑性的优越性受VAT有效性的鼓舞，我们提出基于VAT而不是Jacobian的Lp-范数来构造流形正则化子具体来说，我们提出了通过沿着数据流形的切空间执行VAT的切线对抗正则化（TAR），以及通过应用与数据流形的切空间正交的VAT的法向对抗正则化（NAR），这些在图1中直观地展示。TAR沿着底层流形强制分类器的局部平滑性，而NAR针对观测数据中携带的噪声对分类器施加鲁棒性。这两个术语，相互补充，建立我们提出的方法切线正常对抗正则化（TNAR）。为了实现TNAR，我们需要克服两个挑战第六节和第七节讨论了TNAR存在的一2. 背景2.1. 符号标记的和未标记的数据集表示为Dl={（x l，y l）}和Dul={x ul}，因此D：=DlDul是完整的数据集。分类模型的输出写为p（y|x，θ），其中θ是要训练的模型参数。（·，·）表示监督损失函数。对于数据实例，观测空间RD和底层流形M. 解码器（生成器）和编码器分别表示为g和h，它们形成了流形的坐标图如果没有其他说明，我们总是假设x和z对应于观测空间RD和流形M上相同数据点的坐标，即， g（z）=x和h（x）=z。切线M在点x处的空间为TxM=Jzg（Rd）n=Rd，其中是g在z点的雅可比矩阵。TxM也是Jz g的柱的跨度。我们用J来表示雅可比矩阵当没有歧义时。在观测空间RD上的扰动记为r∈RD，而在流形表示上的扰动记为η∈RD. 因此流形上的扰动是g（z+η）−g（z）。当微扰η足够小时，在Taylor 所以我们说A扰动r∈RD实际上是在流形上，如果有一个扰动η∈Rd，使得r=J·η。10678R.¨¨2.2. 虚拟对抗训练VAT [17]是SSL的有效正则化方法。VAT中引入的虚拟对抗损失由分类器对输入空间RD中的局部扰动的鲁棒性定义。因此，VAT对分类器施加了一种平滑条件。从数学上讲，在这项工作中，我们采用VAE [10]和本地化GAN[22]来学习目标底层数据流形M，如下所述。VAEVAE [10]是一个众所周知的生成模型，由编码器和解码器组成。VAE的训练是通过优化对数似然的变分下界SSL的增值税对抗性损失是logp（x，θ）≥Ez q（z |x，θ）Σ Σlogp（x|z，θ）（八）L（Dl，Dul，θ）：=E（xl，yl）∈Dl<$（yl，p（y |x l，θ））-KL（q（z|x，θ）<$p（z））。+αEx∈DR缸（四）（x，θ）。这里p（z）是隐藏变量z的先验，并且q（z|x，θ），增值税正规化Rvat定义为Rvat（x;θ）：= maxdist（p（y|x，θ），p（y|x+ r，θ）），（5）100%≤100%其中，dist（·，·）是某个分布距离度量，而dj控制对抗性示例的大小。为简单起见，定义F（x，r，θ）：=dist（p（y|x，θ），p（y|x+r，θ））。（六）则Rvat=max<$r<$2≤<$F（x，r，θ）。而所谓的虚拟对抗的例子是r：=argmax<$ r≤ <$F（x，r，θ）。一旦我们有了r，增值税损失可以被优化，目标为L（Dl，Dul，θ）= E （ xl， yl）∈Dl <$（yl，p（y|x l，θ））+αEx∈DF（x，r∈，θ）.为了获得虚拟对抗示例r，[17]建议将二阶泰勒展开应用F（x，r，θ）在r=0附近，F（x，r，θ）<$1rT Hr，（7）2其中H：=<$2F（x，r，θ）|r=0表示F的Hessianp（x|z，θ）分别对VAE中的编码器和解码器进行建模。由于重新参数化技巧，关于θ的下限的推导得到了很好的定义，因此它可以通过基于梯度的方法来优化。下界也可以解释为重建项加上正则化项[10]。利用训练的VAE，编码器和解码器被给出为h（x）= argmax zq（z|x）且g（z）= argmax xq（x|Z）相应地。Localized GANLocalized GAN [22]建议使用局部生成器G（x，z）来代替vanilla GAN [7]中的全局生成器g（z）。局部GAN与以往流形生成模型局部化GAN对每个点x∈ M学习一个可区分的局部坐标图，它由G（x，z）给出，而不是一个全局坐标图。局部化GAN要求局部化生成器满足两个以上的正则性条件，以生成数据流形上的局部坐标图版本：局部性G（x，0）=x，使得G（x，z）局部化在x;关于R。前两项的消失，泰勒展开的正交性.ΣTG（ x，z）伊茨G（ x，z）伊茨我，确保具有最小零和r=0的度量是相关的。在r=0时，F（x，r，θ）的值和梯度均为零。因此对于如果足够小，则rargmaxr≤1rT Hr，G（x，z）是非退化的。这两个条件在本地化GAN的训练期间通过以下惩罚来实现：22特征值问题和r的方向问题通过幂迭代。¨ ¨2R定域GAN：=µ1？G（x，0）−x？+2.3. 数据流形的生成模型G（x，z）T¨G（x，z） <$（九）我的我们利用具有编码器h和解码器g的生成模型来估计底层数据man。2英寸¨∂z¨210679ifold M及其切空间T ×M. 正如先前的作品[11，13]所假设的那样，解码器和编码器可以描述数据流形，其中解码器g（z）和编码器h（x）一起用作流形M的坐标图。注意，编码器是必不可少的，因为它有助于识别点x∈M的流形坐标z=h（x）。有了训练有素的生殖器模型，切空间由TxM=Jz g（Rd）给出，或柱的跨度J=Jzg。由于G（x，z）分别为每个x定义了一个局部坐标图，其中x的潜在编码是z=0，因此不需要额外的编码器来提供x的流形表示。3. 方法在本节中，我们详细阐述了我们提出的切线法向对抗正则化（TNAR）策略。TNAR10680ηRηηSSL的损失最小化是L（Dl，Dul，θ）：=E（xl，yl）∈Dl.Σy l，p（y |xl，θ）框架如v← JT HJη;µ←（ JT J）−1 v;+α1Ex∈DRtangent（x，θ）+α2Ex∈DR正规（x，θ）.（十）µη←.ǁµǁ2（十五）第一项在Eq。（10）是常用的监督损失，例如，负交叉熵Rtangent和Rnormal是所谓的正切对抗正则化（TAR）和相应的normal对抗正则化（NAR），共同形成所提出的TNAR。在下一节中，我们假设我们已经具有用于底层数据流形M的良好训练的生成模型，具有编码器h和de。现在，我们详细阐述Eq.（15）、计算J T HJη。注意z=h（x），x=g（z）。定义r（η）：=g（z+η）− g（z）。（十六）为编码器g，其可以如第2.3节中所描述的那样获得。3.1. 切线对抗正则化.ΣFx，r（ η），θ=dist（p（y|x，θ）p（y|x + r（η），θ）），（17）Vanilla VAT惩罚了分类器对输入空间RD中局部扰动的多样性[17]，这可能我们有F（x，r（η），θ）=（Jz+ηg）TF（x，r（η），θ）（Jz+ηg）过度正则化分类器，因为半监督学习假设只表明真正的条件f（x，r（η），θ）.（十八）分布沿着底层流形M平滑地变化，但不是整个输入空间RD[1，24，19]。为了避免vanilla VAT的这个缺点，我们提出了切线对抗正则化（TAR），它将虚拟对抗训练限制在底层manifoldTxM的切线空间中，以增强分类器的流形不变性。而另一方面，由于dist（·，·）是具有最小零的距离测度，并且r（0）=0是相应的最优值，因此我们有F（x，r（0），θ）= 0，F（x，r（0），θ）= 0. （十九）因此，我们认为，<$2F（x，r（0），θ）=（J z g）T<$2F（x，r（0），θ）J z g = J THJ.R正切（x;θ）：= maxηF（x，r，θ），（11）DR（二十）当r ∈ Tx M =Jzg（R）的方式其中，F（x，r，θ）如等式中所定义。（六）、优化因此，目标矩阵向量乘积可以有效地计算为：当量首先，我们将泰勒展开应用于F（x，r，θ），JTHJη=<$2F（x，r（0），θ）·η=<$η.ΣηF（x，r（0），θ）·η.R（x;θ）最大值1rT Hr，（12）（二十一）注意，f（x，r（0），θ）·η是标量，因此梯度切线<$r<$<$≤<$，r∈TM=J g（Rd）2其中，可以通过反向传播网络来获得2X z其中符号和推导如等式中所示（七）、我们进一步将R正切重新表示为：工作一次。并且只需两次反向传播就可以计算出JTHJη。求解J T Jµ=v。同样，定义最大r∈RD1rTHr，2K（ η）：=.g（z+ η）− g（ z）ΣT10681ηΣg（ z+η）− g（ z）.（二十二）S.T.ǁrǁ2≤τ， r = Jη， η∈ Rd.（十三）我们有（J：=Jz g∈RD×d，H∈RD×D）K（η）=（J z+ηg）TJ z+ηg +K（η）. （二十三）或者等价地，η η由于K（0）=0，我们有最大η∈Rd1η TJ THJη， s.t. η TJ TJη ≤ π2。（十四）2K（0）=（J z g）TJ z g= J TJ。（二十四）因此，矩阵向量积JT Jμ可以被计算为这是一个经典的广义特征值问题，最优解是：通过幂迭代和共轭梯度（及标度）法可得到其负解η_（？）迭代类似于JT Jμ=πι.ΣηK（0）·µ .（二十五）106821计算JT Jµ的额外成本仍然是反向传播网络两次。由于JT J是正定的（g是非退化的），我们可以应用几个步骤来控制它。Hr的评价是.ΣHr=<$r<$r F（ x，0，θ）· r、（30）共轭梯度，以有效地解决JT Jμ=v通过迭代Eq. （15），我们得到了方程的最优解η。（14）。所需的最优解是r=Jη/Jη，因此Rtangen t（x;θ）=F（x，r，θ），可以通过流行的梯度优化器进行优化。3.2. 正规对抗正则化基于噪声观测假设，这可以被有效地计算。在找到Eq.的最佳解之后，（28）当r≠ 0时，NAR变为Rnormal（x，θ）= F（x，r≠ 0，θ）。最后，如[17]中所建议的，我们添加熵正则化-我们的损失函数。它确保神经网络输出更确定的预测，并对执行虚拟对抗训练有隐含的好处。Σ观察到的数据包含噪声，底层流形，我们进一步提出了正常对抗正则化（NAR），以加强对这种噪声的分类器的鲁棒性，通过执行vir，R熵（x，θ）：=−ySSL的最终损失是p（y|x，θ）log p（y|x，θ）。（三十一）在正常空间进行对抗训练数学-L（Dl，Dul，θ）：=E（xl，yl）∈Dl<$.Σy l，p（y |x l，θ）数学描述是+α1Ex∈DRtangent（x，θ）Rnormal（x;θ）：= maxrF（x，r，θ）+α2E+ αEx∈DR正常R（x，θ）（x，θ）。（三十二）最大1小时（二十六）3x∈D熵r注意TxM被J=Jz g的列所跨越，因此r<$TxM惠JT·r=0。因此，我们可以重新定义Eq。（26）作为4. 与其他方法的虚拟对抗训练我们提出的TNAR作为增值税的扩展，通过考虑数据流形的信息。VAT对整个观测的每个维度上的平滑度进行最大r∈RD1rTHr，2（二十七）空间，不区分不同的方向。相比之下，TNAR强制分类器沿着S.T.ǁrǁ2≤ 0.001，JT·r= 0.流形和正交于流形分别。这种沿两个方向的单独治疗允许TNAR然而，Eq。式（27）不容易优化，因为JT·r不能有效地计算。为了克服这一点，而不是要求r与整个切空间T×M正交，我们后退一步要求r仅与一个特定的切方向正交，即，切空间对抗扰动r。因此，约束JT·r=0被放宽到（r）T·r=0。我们进一步用正则化项代替约束，最大化rT Hr−λrT（r rT）r，沿着数据流形的切空间和法向空间施加不同的平滑度，对于诱导期望的正则化效果是特别关键的。为了说明这一点，考虑图像样本，其在输入空间中的欧几里得邻域可以包含许多类间样本，除了类内样本，如图2所示。因此，理想分类器的输出必须在这种欧几里得邻域内显著变化，以正确地对所包含的样本进行分类，使增值税基本上不适合强制执行，r∈RD2ǁǁ（二十八）分类器在这个欧几里德球内变化不大。S.T.0.02≤0.02，其中λ是被引入以控制r的正交性的超参数。由于Eq. （28）又是一个特征值问题，我们可以应用幂迭代来解决它。注意，需要添加一个小单位矩阵λrI，以保持1H−λrI半正定，其中一种更合理的处理方法是采用流形假设，并像TNAR那样沿流形及其正交方向施加不同尺度的分类器光滑度基于雅可比的流形正则化（2）和Eq。（3）切向传播[26，11]和106832-流形Laplacian范数[1，13，22]也是一种流行的方法。不改变特征值问题的最优解。幂迭代为为实现SSL的流形正则化提供了一种新的方法然而，我们的TNAR是第一个使用增值税构建歧管注册表的，1Tr←2Hr−λ（r）rr + λrr。（二十九）动词化TNAR和基于雅可比范数的流形正则化之间的差异是两倍。10684350030001.00.80.6前向传播到增值税。这一优点使得TNAR成为现代半监督学习任务的潜在更好的流形正则化方法。2500200015001000100015002000250030003500类内欧氏距离0.40.20.020 40 60 80 100KSSL的其他方法还有一个基于GAN的SSL框架[25，20，6，5]。他们中的大多数人修改的分类器，包括一个分类器，通过分裂原始分类器的真正的类到K个子类，其中K是标记数据的类的数量。关于FEA-图2.左：最小类内距离与CIFAR-10数据集的最小类间距离。X轴：到同一类的其他例子的最小欧几里得距离。Y轴：到其他不同类的例子的最小欧氏距离.我们只绘制了500个例子的坐标。右：CIFAR-10数据集的类内样本在其K-最近邻中的比例。该比率平均超过500个实例。从图中我们可以清楚地看到，对于大多数例子，1)最小类间距离比最小类内距离更短或至少大约与最小类内距离相同的尺度，以及2）其K最近邻域包含比类内示例更多的类间示例。首先，它们导致分类器上不同的流形平滑条件。切线传播和流形拉普拉斯范数通过正则化其流形雅可比矩阵的范数来平滑分类器另一方面，TNAR通过惩罚由示例与其切线方向虚拟对抗示例的距离定义的虚拟对抗损失来这涉及到沿流形的虚拟对抗损失的二阶信息。从理论上讲，不容易说一种光滑度优于另一种。尽管如此，在多个数据集上的实验（第5节）表明，我们提出的TNAR在SSL上实现了更好的性能。我们把理论分析作为未来的工作。其次，如等式所示。（2）和Eq。（3）所有现有的基于Jacobian的流形正则化都需要将分类器或生成器的Jacobian评估为流形坐标图，这对于给定大型神经网络的现代高维数据集或者，一些作品建议随机评估这些基于雅可比的正则化项。Kumar at.el. [11]提出随机保持Jz g的几列作为切空间的近似TxM，and Lecouat at.el. [13]应用了几个方向梯度的范数来近似Ja的范数。cobian。然而，不幸的是，这种随机策略具有高方差，可能会对分类器的流形平滑性造成隐含的与它们相比，我们提出的TNAR的计算成本不依赖于数据集的维数，因为执行VAT只需要几次幂迭代（通常是一次），并且TNAR增加了恒定的向后或向后的额外次数。为区分样本的真假而提取的特征可以看作是一种粗糙的标签，对监督分类任务有潜在的好处。在TNAR中，虽然可以采用带编码器的GAN作为识别底层流形的方法，但这两种方法是从不同的角度出发的。TNAR专注于流形正则化，而不是像SSL的GAN框架那样的除此之外，还有其他SSL策略，例如，Tripple GAN[14]，Mean Teacher [27]，RiskModel [12]，CCLP [9]等。我们将性能与TNAR的比较留在第5节中。5. 实验为了证明我们提出的SSL TNAR的优势，我们进行了一系列的实验，人工和真实的数据集。用于SSL的测试的基于TNAR的方法包括：（1）TNAR-VAE：用VAE估计下层流形的TNAR;（2）TNAR-LGAN：由局部GAN估计的TNAR;（3）TNAR-Manifold：具有观测数据的oracle底层流形的TNAR，仅用于人工数据集;（4）TNAR-AE：用autoendoer粗略估计的TNAR及其基础因子，仅用于人工数据集;（5）TAR：用于消融研究的切线对抗正则化;（6）NAR：消融研究的正常对抗性调节。如果没有特别说明，上述方法都包含熵正则化项。5.1. 双环人工数据集我们首先介绍了一个双环人工数据集上的实验，直观地显示TNAR的有效性。在这个实验中，有3000个未标记的数据（灰点）和6个标记的数据（蓝点），每个类3个详细结构详见补充资料。每种比较方法的性能如表1所示，相应的分类边界如图 3 所示。 TNAR-Manifold （ TNAR-Under TrueUnderlying Manifold）方法仅用6个标记数据就能很好地对双环数据集进行分类增值税的失败支持了我们在第4节中关于其捷径的主张。即使基本流形大致接近，类间欧氏距离类内样本在K-最近样本106851.00.50.0-0.5-1.0SL增值税TNAR-AETNAR-歧管-1.0-0.5 0. 0 0.5 1.0根据我们的观察。5.3. CIFAR 10和SVHN有两类实验用于证明TNAR在SSL中的有效性，SVHN具有1，000个标记数据，CIFAR-10具有4，000个标记数据。实验设置与[17]相同。我们测试了两种卷积神经网络作为分类器（表示为我们测试VAE和本地化GAN作为底层数据流形。更详细的实验设置见补充材料。我们测试TNAR的性能，图3.比较了两种方法的决策边界环形人工数据集。灰色的圆点分布在两个圆环上：未标记的数据。蓝点（每圈3个）：标记的数据。彩色曲线：通过比较方法找到的决策边界。表1.比较两种方法在双环人工数据集上的分类误差（%我们在每种方法中使用和不使用熵正则化进行测试，在VAT和TNAR-AE中，没有熵正则化更好;对于TNAR-Manifold，添加熵正则化更好。模型误差（%）标签数据仅32.95增值税23.80TNAR-AE 12.45TNAR-歧管9.90TNAR-歧管（ENT） 0在人工数据集上，我们的方法（TNAR-AE）与自动插值器相结合，其性能然而，TNAR-AE的性能不如TNAR-Manifold，表明TNAR的有效性依赖于对底层流形的估计质量。5.2. FashionMNIST我们还在FashionMNIST数据集1上进行了实验。有三组实验，标记数据的数量分别为100，200和1000有关网络的详细信息，请参见补充材料。相应的结果如表2所示，从中我们观察到至少两种现象。首先，我们提出的TNAR方法（TNAR-VAE，TNAR-LGAN）实现了较低的分类错误比增值税在所有情况下，与不同数量的标记数据。第二，我们的方法的性能取决于估计的观测数据的基础流形。在这种情况下， TNAR-VAE比TNAR-LGAN 带来更大的改进，因为VAE产生更好的多样化示例1https://github.com/zalandoresearch/fashion-MNIST没有数据增强，使用与[17]中相同的请注意，当使用数据增强执行TNAR时，相应的数据流形也应该使用数据增强进行训练。值得注意的是，VAT [17]和VAT+ SNTG [15]采用ZCA作为CIFAR-10实验的预处理，而我们没有使用这种技巧来实现TNAR实验。在表3中，我们报告了SVHN和CIFAR-10的实验结果，没有数据增强。在表4中给出了SVHN和CIFAR-10的数据增强结果比较表明，我们提出的TNAR优于所有其他国家的最先进的SSL方法，就我们所知的SVHN和CIFAR-10，有或没有数据增强。特别是，与VAT或流形正则化（如改进的GAN + JacobRegu + tagent [11]或改进的GAN）+ ManiReg [13]，TNAR给它们带来了明显的改进，正如我们在第 4 节中的分析所表明的那样。与FashionMNIST数据集上的实验类似，我们观察到，对于TNAR，由VAE识别的底层流形比由Localized GAN识别的流形更有益。我们将这种现象归因于LocalizedGAN生成的图像相对缺乏多样性。5.4.消融研究我们对FashionMNIST，SVHN和CIFAR-10数据集进行了消融研究，以证明TNAR中的两个正则化项对SSL至关重要。结果见表2，最后两行见表3。移除切线对抗正则化或正常对抗正则化将损害最终性能，因为它们无法强制流形不变性或对流形外噪声的鲁棒性。总之，建议的TNAR实现了最佳性能。此外，FashionMNIST和CIFAR-10的对抗性扰动和对抗性示例如图4所示。我们可以很容易地观察到，切向对抗扰动集中在前景对象的边缘，而法向空间扰动主要表现为整个图像上的某些噪声。这与我们对扰动作用的理解一致，10686表2.FashionMNIST数据集上比较方法的分类错误（%）方法100个标签200个标签1000个标签增值税27.6920.8514.51TNAR/TAR/NAR-LGAN23.65/24.87/28.7318.32/19.16/24.4913.52/14.09/15.94TNAR/TAR/NAR-VAE23.35/26.45/27.8317.23/20.53/24.8112.86/14.02/15.44表3.在没有数据增强的情况下，SVHN和CIFAR-10数据集上比较方法的分类错误（%）方法SVHNCIFAR-10图4.切空间和法空间中的扰动和对抗例子。注意，扰动实际上太小而不容易区分，因此我们显示了标度扰动。第一行：FashionMNIST数据集;第二排：CIFAR-10数据集。从左至右：原始示例，切线对抗扰动，正常对抗扰动，切线对抗示例，正常对抗示例。[13]第十一届中国国际汽车工业展览会[144.第一章39± 1。201620 ±1。604.第一章51± 0。221445 ±0。21at.el [5]建议，一个坏的生成器更适合基于GAN的半监督学习框架。我们的实验在某种程度上与这一论点相一致。低-TNAR-LGAN（小）4. 25± 0。九点十二分。97±0。31TNAR-LGAN（大型）4. 03± 0. 十三十二76 ±0。04TNAR-VAE（小）3. 99± 0。八点十二分。39±0。11TNAR-VAE（大型）3. 80± 0。十二十二06± 0. 35TAR-VAE（大）5. 62± 0。十九十三87 ±0 . 01，P <0.05。32NAR-VAE（大）4. 05± 0. 0415. 91 ±0。09表4. 比较方法在SVHN和CIFAR-10数据集上的分类错误（%）。calized GAN可以产生比VAE更详细的图像，但在我们所有的实验中，后者与TNAR更好地合作。在目前阶段，我们推测，更多样化的生成器有助于TNAR，因为生成器上的多样性使TNAR能够沿着数据流形探索更多不同的方向。最后对全文进行了分析，留待以后进一步研究.7. 结论方法SVHNCIFAR-10我们提出了半监督学习的切线法线对抗正则化，这是一种基于虚拟对抗训练和流形正则化的新正则化TNAR分别由正切空间和法向空间上的正则化组成。正切对抗正则化强制分类器的流形不变性，而正常对抗正则化强制分类器对观测数据中包含的噪声在合成数据集和真实数据集上的实验表明，我们的方法优于其他国家的，两个方向，捕捉不同方面的顺利-奈斯6. 讨论实验结果表明，数据流形对于改进TNAR算法是至关重要的。虽然TNAR似乎适用于各种各样的流形坐标图，例如，VAE和本地化GAN，仍然不清楚哪种歧管最有利于TNAR。戴最先进的半监督学习方法。确认本工作得到了国家自然科学基金（批准号：61806009 ）、北京市自然科学基金（批准号：2000000000 ）、北京市自然科学基金（批准号：200000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 4184090）、工业固基计划智能制造行动1，000个标签4，000个标签[17]第十七话六、83 ±0。24十四岁87 ±0 .01，P <0.05。13[17]第十七话4.第一章28±0。10十三岁15±0。21增值税+SNTG [15]4.第一章02±0. 2012个。49±0。36[12]第十二话五、43 ±0。25十六岁55±0。29[27]第二十七话五、21 ±0。21十七岁74±0。30CCLP [9]五、69 ±0。28十八岁57±0。411，000个标签4，000个标签[17]第十七话3 .第三章。86 ±0。1110个。55±0。05增值税+SNTG [15]3 .第三章。83 ±0。229 .第九条。89 ±0。34[12]第十二话4.第一章82±0。1712个。36±0。31[12]第十二话4.第一章42±0。1612个。16±0。2410687计划（批准号：JCKY2018204C004）。10688引用[1] M. Belkin，P. Niyogi，and V.辛德瓦尼流形正则化：一个几何框架，用于从标记和未标记的示例中学习。机器学习研究杂志，7（11月）：2399[2] Y.本焦湖Yao，G. Alain和P.文森特作为生成模型的广义去噪自动编码器。神经信息处理系统进展，第899-907页，2013年。[3] L.凯顿流形学习算法。加州大学圣地亚哥分校. Rep，12（1-17）：1，2005.[4] O.沙佩勒湾Scholkopf和A.齐恩半监督学习（chapelle，o例如，eds.; 2006）[书评]。IEEE Transactions on NeuralNetworks，20（3）：542[5] Z. 戴，加-地Yang，F.杨，W.W. Cohen和R.R. 萨拉赫特-迪诺夫。好的半监督学习需要一个坏的团队。神经信息处理系统的进展，第6510-6520页，2017年[6] V. Dumoulin， I. 贝尔加齐， B. 普尔 O. 马斯特罗彼得罗A. Lamb，M. Arjovsky和A.考维尔逆向学习推理。arXiv预印本arXiv：1606.00704，2016。[7] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展，第2672-2680页[8] I.古德费洛，J。Shlens和C. 赛格迪解释和利用对抗性的例子。arXiv预印本arXiv：1412.6572，2014。[9]K. 卡姆尼察斯， D. C. 卡斯特罗 L. L. 福尔戈克，I. 沃克R. 坦诺 D. 吕克特 B. 格洛克 A. Criminisi，以及A.诺丽基于紧凑潜在空间聚类的半监督学习。arXiv预印本arXiv：1806.02679，2018。[10] D. P.Kingma和M.威林自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。[11] A. Kumar，P. Sattigeri，and T.弗莱彻使用GAN的半监督学习：流形不变性与改进的推理。神经信息处理系统，第5540-5550页[12] S. Laine和T.艾拉用于半监督学习的时间集成。arXiv预印本arXiv：1610.02242，2016。[13] B. Lecouat，C. S. Foo，H. Zenati和V. R.钱德拉塞卡使用GAN的半监督学习：重新审视流形正则化。arXiv预印本arXiv：1805.08957，2018。[14] C. Li，K. Xu，J. Zhu，and B.张某三重生成对抗网。arXiv预印本arXiv：1703.02291，2017。[15] Y. 罗，J.Zhu，M.Li，Y.Ren和B.张某半监督学习中教师图上的光滑arXiv预印本arXiv：1711.00258，2017。[16] T. Miyato，A. M.戴和我古德费罗半监督文本分类的对抗训练方法。arXiv预印本arXiv：1605.07725，2016年。[17] T. Miyato，S.-I. 前田，M。Koyama和S.石井虚拟对抗训练：监督和半监督学习的正则化方法arXiv预印本arXiv：1704.03976，2017。[18] H. Narayanan和S.米特测试流形假设的样本复杂性。神经信息处理系统，第1786-1794页，2010年[19] 新木。流形正则化和半监督学习：一些理论分析。TheJournal of Machine Learning Research，14（1）：1229[20] A. Odena半监督学习与生成对抗网络。arXiv预印本arXiv：1606.01583，2016年。[21] A. Oliver，A.奥德纳角，澳-地Raffel，E.D. Cubuk和我。J. 好家伙。深度半监督学习算法的现实评估arXiv预印本arXiv：1804.09170，2018。[22] G.- J. Qi，L. Zhang，H. Hu，M. Edraki，J. Wang和X.- S.华全局与局部生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。[23] A. 拉斯穆斯贝格伦湾洪卡拉河瓦尔波拉，T. 莱子使用梯形网络的半监督学习神经信息处理系统进展，第3546-3554页，2015年[24] S. Rifai，Y.N. Dauphin山口Vincent，Y.Bengio和X.监听器手机监听器流形切线分类器。神经信息处理系统的进展，第2294-2302页，2011年[25] T. 萨利曼斯岛Goodfellow，W.扎伦巴河谷Cheung，A.Rad- ford和X.尘改进的gans训练技术神经信息处理系统进展，第2234-2242页，2016年[26] P.Y.公司Simard，Y. A. LeCun，J. S. Denker和B.维克多图的切线距离和切线传播中的变换不变性在神经网络中：贸易的技巧，第239-274页。Springer，1998年。[27] A. Tarvainen和H.瓦尔波拉平均教师是更好的榜样：加权平均一致性目标改善了半监督深度学习的结果。神经信息处理系统的进展，第1195-1204页，2017年

下载后可阅读完整内容，剩余1页未读，立即下载