增强TripleGAN用于半监督实例合成和分类

79 浏览量更新于2023-10-19 收藏 12.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1100910增强TripleGAN用于半监督条件实例合成和分类0Si Wu 12 Guangchang Deng 1 Jichang Li 1 Rui Li 2 Zhiwen Yu 1 Hau-San Wong 201 华南理工大学计算机科学与工程学院 2 香港城市大学计算机科学系0cswusi@scut.edu.cn, csgc@mail.scut.edu.cn, cslijichang@mail.scut.edu.cn0ruili52-c@my.cityu.edu.hk, zhwyu@scut.edu.cn, cshswong@cityu.edu.hk0摘要0学习类条件数据分布对于生成对抗网络（GAN）在半监督学习中至关重要。为了在这种情况下改善实例合成和分类，我们在这项工作中提出了一种增强的TripleGAN（EnhancedTGAN）模型。我们遵循原始TripleGAN的对抗训练方案，但完全重新设计了生成器和分类器的训练目标。具体而言，我们采用特征语义匹配来增强生成器，从潜在空间的统计特性和与生成器和分类器相关的语义一致性两个方面学习类条件分布。由于有限的标记数据不足以确定令人满意的决策边界，我们包括两个分类器，并将协作学习纳入我们的模型，以为生成器训练提供更好的指导。反过来，合成的高保真数据可以用于改进分类器训练。实验结果表明，我们的方法在多个基准数据集上表现出优越的性能，证明了生成器和分类器之间的相互增强在促进半监督实例合成和分类方面的有效性。01. 引言0深度学习技术的显著进展导致其在广泛的应用领域得到了广泛采用，尤其是在计算机视觉[14] [31][34]和自然语言处理[42]方面。然而，鉴于大多数全监督深度学习模型需要收集大量标记数据，半监督学习代表了一种避免大量手动注释的有效方法。这是因为半监督学习能够通过少量标记实例来捕捉数据集的特征...0（a）TripleGAN �0（b）EnhancedTGAN0图1.在具有4000个标签的CIFAR-10上未标记训练数据和合成数据的嵌入。使用PCA将分类器网络最后一个隐藏层的特征投影到3D空间。未标记样本标记为灰色，不同颜色表示合成样本的不同类别。我们在配置环境中实现了TripleGAN [17]作为基线，称为TripleGAN�。可以观察到，所提出的EnhancedTGAN在学习类条件分布方面优于TripleGAN�，因为合成数据可以与子图（b）中的未标记数据匹配。0使用大量未标记实例的半监督学习方法已经被开发出来，用于学习有区分性的表示、探索潜在流形结构以及推断未标记数据的标签，例如[41] [12] [18] [1][39]。然而，未标记数据的质量将对半监督学习的性能产生显著影响，将低质量数据纳入训练过程可能导致模棱两可甚至错误的决策。生成对抗网络（GAN）[8] [29] [43] [21][22]在半监督学习中的应用显示出了希望，这是因为GAN能够通过学习数据集的概率分布来合成高质量的样本。为了进行半监督数据合成，Odena[27]修改了鉴别器网络，将合成数据分类为第K+1类，而在[35]中，合成数据的预测类概率分布为...2. Related Work2100920图2. 提出的EnhancedTGAN模型用于半监督条件实例合成和分类的结构示意图。0合成数据被强制为均匀分布。为了避免鉴别器也需要对真实数据预测类别标签的情况，Li等人提出了TripleGAN模型，其中将分类器纳入对抗训练过程中。然而，有限数量的标记实例不足以学习类别的条件概率分布。在这种情况下，真实数据和合成数据分布之间可能存在显著的域差异。特别是在训练过程的早期阶段，域差异可能非常显著，生成器和分类器可能会互相产生负面影响。因此，为了促进半监督合成和分类，有效地匹配真实数据和合成数据的统计特性非常重要，本文提出了一种特征-语义匹配方法来实现这一目标，如图1所示。在本文中，我们提出了一种增强型TripleGAN（EnhancedTGAN）模型，用于改进半监督条件实例合成和分类。我们一般遵循TripleGAN模型的对抗训练方案，但重新设计了生成器和分类器的整体损失函数。我们的特征-语义匹配方法能够减少模式崩溃的风险，并改善每个类别实例的合成。具体而言，我们采用类别均值特征匹配来规范化生成器，使得合成数据的类条件分布能够与分类器在潜在空间中学习到的真实数据的类条件分布相匹配，而不是与鉴别器相匹配。此外，我们还包括一个语义匹配项，以确保生成器和分类器之间的合成数据的语义一致性，这是改善分类器训练的先决条件。另一方面，更好的分类模型可以在大量无标签实例上提供更准确的类别信息，从而为生成器提供更好的指导。为此，我们在模型中包括了两个分类器，它们以协同学习的方式运作。分类器可以通过惩罚预测类别概率分布之间的差异来相互学习，并且在大多数情况下，对无标签数据的共识预测比个体预测更准确。因此，生成器和分类器可以相互加强。我们的模型结构如图2所示。我们的实验证实了所提出模型的有效性和优越性。本文的主要贡献总结如下：0•除了用于训练数据增强的合成高保真度实例外，分类器之间的协同学习还可以在无标签数据上实现更准确的分类，从而为生成器提供更好的指导。0•通过特征-语义匹配方法，生成器可以更有效地学习类条件数据分布。02. 相关工作0•提出的增强型TripleGAN模型在多个广泛使用的基准测试中改进了半监督实例合成和分类的最新结果。0最近，各种策略已被应用于改进半监督深度学习。无监督学习可以作为一种辅助任务，用于探索数据集的结构，从而提高分类模型的泛化能力。为了为无标签样本制定无监督学习损失函数，Rasmus等人提出了Γ模型，其中采用一致性正则化项来惩罚Ladder网络在输入中不一致的预测。3100930并且没有噪声。与Γ模型类似，Laine和Aila[15]提出了Π模型，该模型在不同的dropout和数据增强条件下对训练样本的模型输出进行了正则化。为了为无监督损失提供更稳定的训练目标，Laine和Aila进一步提出了Temporal-Ensembling模型。在该模型中，网络的自我集成被应用于补充监督。不同时期的预测集成预计更准确，因此可以用作无标签样本的训练目标。与每个样本的网络预测的指数移动平均相反，Tarvainen和Valpola[36]提出了Mean-Teacher模型来平均网络权重，得到的模型可以被视为教师，为无标签样本提供训练目标。基于相似样本应该位于潜空间中的同一簇的假设，Luo等人[19]提出了基于教师网络预测的无标签数据点之间相似度的SmoothNeighbors on TeacherGraphs（SNTG）方法。为了确保数据流形上的平滑性，对比损失被用于确保邻居具有一致的预测，而非邻居则被推开。此外，通过惩罚具有不同扰动的无标签样本的不一致预测，将局部Lipschitz条件纳入其中是常见的。Miyato等人[24][23]提出了基于虚拟对抗训练（VAT）的正则化方法，通过在与分类模型相关的对抗方向上施加扰动，改善了预测类别概率分布的局部平滑性。VAT可以并入现有的半监督学习网络，并产生令人印象深刻的结果。另一方面，Park等人[28]开发了虚拟对抗丢弃（VAdD）方法，以重新配置神经网络并最小化获得的网络与原始网络之间的差异，以增加整体网络的稀疏性。0深度生成模型最近被应用于半监督学习。在[10]中，Kingma等人采用变分自编码器（VAE）模型[11]将类别标签作为学习生成模型过程中的附加潜变量。在[27]中，Odena修改了鉴别器网络，同时区分真实样本和合成样本，并预测相应的类别标签。Springenberg[35]提出了分类生成对抗网络（CatGAN），使鉴别器为真实样本分配高置信度的类别标签，同时强制合成样本上的预测类别概率分布是均匀的。Salimans等人[32]提出了多种训练技术来改进GAN训练过程，从而改善了半监督学习和样本合成。此外，Wei等人[38]改进了0Wasserstein GAN[2]通过包含与鉴别器响应一致性项来强制Lipschitz连续性。为了防止鉴别器在极小极大博弈中扮演识别合成样本和预测真实样本类别标签的两个角色，Li等人[17]将一个分类器作为额外的参与者纳入博弈，并提出了三重生成对抗网络（TripleGAN）。Dumoulin等人[5]提出了对抗学习推理（ALI）模型，其中一个生成网络学习从潜空间到数据空间的映射，而一个推理网络学习逆映射。这两个网络与一个鉴别网络一起进行联合优化的对抗过程。为了学习样本和标签之间的联合分布，Gan等人[7]提出了三角生成对抗网络（TriangleGAN），其中采用了两个生成器来学习样本和标签之间的条件分布，采用了两个鉴别器来识别真实（假）样本和假（真）标签之间的伪对。Dai等人[4]提出了一种互补生成器，该生成器通过最小化分布之间的KL散度来训练，使得生成的样本位于潜空间中的低密度区域，并增加了训练数据的多样性。TripleGAN是我们提出的方法最相关的工作。然而，它们之间存在显著的差异。虽然我们总体上遵循TripleGAN的对抗训练方案，但我们完全重新设计了生成器的整体损失函数，包括特征语义匹配，以实现有效和高效的类别条件数据分布学习。此外，我们包括两个分类器，它们相互学习以为生成器提供更准确的分类信息。结果，生成器和分类器相互加强，促进了半监督实例合成和分类。03.方法0受[6]中的方法启发，使用最大均值差异度量来训练GAN。特征匹配在解决GAN中的不稳定性问题方面显示出有效性。下面定义的目标函数可以用于强制生成器G合成与真实数据统计匹配的数据[32][3]：��Ex�pdatafD(x)−Ez�pzfD(G(z))��，(1)0其中p data表示真实数据x的分布，pz表示随机向量z的分布，例如U[0,1]，G(z)表示从z中合成的样本，fD(∙)表示鉴别器D的隐藏层相关特征。合成数据点的中心被强制为(6)ℓsmoReg(θC1) = Ex∼pu4100940匹配与鉴别器学习的潜在空间中的真实数据点的匹配。然而，将上述公式应用于我们的任务时存在两个主要问题。一方面，在匹配边际分布的过程中没有考虑实例的类别。另一方面，除了类条件实例合成之外，另一个目标是对未标记数据进行准确的分类，而在鉴别器学习的空间中进行特征匹配不能直接改善分类。在本节中，我们介绍了EnhancedT-GAN模型来改进半监督条件实例合成和分类。03.1.特征-语义匹配0在我们的设置中，只有训练样本的一小部分被标记。设x�pu表示未标记样本，(x,y)�pl表示标记数据对，其中y表示样本x的标签。我们的EnhancedTGAN包括以下四个模块：生成器G，鉴别器D和分类器C 1和C2。我们稍微修改了TripleGAN模型的对抗训练方案。具体而言，生成器G通过从预先指定的分布pg中采样随机向量和类标签( z, ˜ y)来合成新实例。两个分类器C 1和C2相互学习，并产生输入数据的共识预测¯y。为了改进类条件实例合成，我们通过包括以下类别均值特征匹配项来优化生成器：0ℓ feaMat(θ G)=�0E(x,y)�pl�1(y,k)fC1(x)�0−E(z,˜y)�pg�1(˜y,k)fC1(G(z,˜y))��，(2)0其中k表示类索引，f C 1 (∙)表示分类器C 1的隐藏层特征，函数1(∙,∙)如果输入相等则返回1，否则返回0。由于标记实例的数量较少，我们可以使用移动历史平均值来获得更稳定的均值。ℓfeaMat的主要优点是避免生成器总是输出相同点的模式崩溃问题。另一个优点是增加合成数据不同类别的可分离性。为了利用合成样本来训练分类器，它们在分类器和生成器的语义上应该是一致的。为了强制这种一致性，我们采用语义匹配项来规范化生成器，如下所示：0ℓ semMat(θ G)=E(z,˜y)�pg�−˜ylog¯pC(G(z,˜y))�，(3)0其中0¯pC(x)=avg-pool�pC1(x),pC2(x)�，(4)0and p C 1 (∙) (p C 2 (∙))表示分类器C 1 (C2)的预测类概率分布。大多数情况下，分类器预测的平均池化可以更准确。在包含鉴别器的对抗训练项后，生成器的优化可以如下形式化：0最小化G12E(z,˜y)�pglog(1−D(G(z,˜y),˜y))0+ηℓfeaMat+νℓsemMat，(5)0其中权重因子η和ν用于控制相应项的相对重要性。03.2.分类器的协作学习0与TripleGAN模型不同，我们的模型中包含两个分类器，因为它们可以通过协作学习为彼此提供未标记实例的训练目标。现有研究表明，协作学习能够促进半监督分类。与给定的标记实例类似，合成实例也可以利用已知标签。通过包含生成器生成的实例，可以增强分类器。监督学习的损失度量是给定标签和预测分布之间的交叉熵。此外，该模型还可以通过最小化相对于后验概率分布的条件熵来从未标记样本中学习。因此，我们定义了以下用于分类评估的术语：0ℓclassify(θC1)=E(x,y)�pl−ylogpC1(x)0+E(z,˜y)�pg−˜ylogpC1(G(z,˜y))0使用Adam更新分类器C1和C2。0分类器对未标记样本趋于自信。为了稳定条件熵的估计，定义了平滑正则化项ℓsmoReg如下：0(x,¯y)¯pC(x)log(1−D(x,¯y))+ℓclassify+λℓsmoReg+µℓconReg0其中常数ξ用于控制对抗扰动γ的强度，KL(∙∥∙)表示Kullback-Leibler（KL）散度。与[24]类似，扰动是在对分类器预测最敏感的方向上生成的，并且KL散度用于衡量有无扰动的情况下与分类器的预测差异。因此，分类器的输出在未标记样本的邻域内变得平滑。θD ← Adam�∇θDθC1 ← Adam�∇θC1θC2 ← Adam�∇θC2θG ← Adam�∇θG�12�(z,˜y)log(1 − D(G(z, ˜y), ˜y)) + ηℓfeaMat + νℓsemMat�, θG, ζG�.ℓconReg(θC1, θC2) = Ex∼pu�DJS�pC1(x), pC2(x)��+ E(z,˜y)∼pg�DJS�pC1(G(z, ˜y)), pC2(G(z, ˜y))��.(8)DJS�pC1(x), pC2(x)�=12KL�pC1(x)∥¯pC(x)�+ 12KL�pC2(x)∥¯pC(x)�,(9)minC1,C212Ex∼pu�¯pC(x) log(1 − D(x, ¯y))�+ ℓclassify(θC1) + λℓsmoReg(θC1)+ ℓclassify(θC2) + λℓsmoReg(θC2)+ µℓconReg(θC1, θC2),(10)maxDE(x,y)∼pl�log D(x, y)�+ 12E(z,˜y)∼pg�log(1 − D(G(z, ˜y), ˜y))�+ 12Ex∼pu�log(1 − D(x, ¯y))�.(11)5100950(z,˜y)log(1−pC1(G(z,˜y)))+101：输入：标记数据Xl和未标记数据Xu。2：初始化：生成器G，判别器D，分类器C1和C2，学习率ζG，ζD和ζC，以及标记样本、未标记样本和合成样本的批量大小bl，bu和bg。3：对于n =1到N，进行如下操作：4：从Xl中随机选择大小为bl的标记实例{(x,y)}，从Xu中随机选择大小为bu的未标记实例{x}，从均匀分布中随机选择大小为bg的随机向量{(z,˜y)}。5：对于每个小批量B，进行如下操作：6：评估分类器对x，x和G(z,˜y)的预测pθC1和pθC2。7：计算一致性结果¯pC和相应的独热标签¯y用于x。8：使用Adam更新判别器D。0(x,pC+10(x,y)logD(x,y)+10(z,˜y)log(1−D(G(z,˜y),˜y))+10(x,¯y)log(1−D(x,¯y))，θD，ζD0使用Adam更新分类器C1和C2。0使用Adam更新判别器D。0(x,y)logpC1(x)+10(x,¯y)¯pC(x)log(1−D(x,¯y))+ℓclassify+λℓsmoReg+µℓconReg010: 使用Adam更新生成器G011: 结束循环 12: 结束循环 13:返回θ G，θ D，θ C 1和θ C 2。0为了鼓励分类器相互学习，我们进一步通过采用Jensen-Shannon(JS)散度[33]来定义一致性正则化项ℓconReg，以衡量两个分类器的后验概率分布的相似性，如下所示：0作为KL散度的对称化和平滑版本，DJS定义为0此外，DJS(pC1(G(z, ˜y)), pC2(G(z,˜y)))具有类似的定义。基于公式(4)和公式(8-9)中的定义，最小化ℓconReg会导致分类器产生与一致结果¯pC一致的预测。0分类器试图为欺骗判别器产生预测数据对(x,¯y)，其中¯y表示由¯pC(x)确定的独热标签。我们需要一个对抗训练项来优化分类器，最终的公式如下所示：0公式可以表示如下：0其中λ和µ是实现平衡的权重因子。03.3. 对抗训练0由于我们一般遵循TripleGAN模型的对抗训练方案，判别器D学习区分标记数据对(x, y)与合成数据对(G(z),˜y)和预测数据对(x, ¯y)。相应的优化公式如下所示：0判别器与生成器和分类器在极小极大博弈中竞争。生成器试图合成(a) TripleGAN∗6100960(b) EnhancedTGAN0图3.基线模型和提出的模型在玩具示例上的结果。不同颜色表示不同类型的数据点：深色（标记的），青色（未标记的），红色/绿色（合成的）。实线表示得到的决策边界。0生成器尝试合成高保真度的实例，分类器试图在未标记的实例上产生更准确的预测。当同时训练这四个模块时，分类器之间的协作学习能够提供更准确的未标记数据的分类信息，这对于生成器学习真实数据的类条件分布至关重要。更多高保真度的合成实例反过来可以用来改进分类器的训练，从而得到更好的决策边界和更准确的生成器指导。因此，所提出的EnhancedTGAN模型能够在半监督设置中改进实例合成和分类。相应优化过程的详细信息总结在算法1中。04. 实验0在本节中，我们验证了EnhancedTGAN模型在半监督实例合成和分类方面在合成和真实目标识别数据集上的有效性。为了与我们的基线模型TripleGAN[17]进行公平比较，我们在我们的配置环境中使用与EnhancedTGAN相同的设置实现了该模型，生成的模型被称为TripleGAN�。我们还将EnhancedTGAN与多个广泛使用的基准测试中的最先进的半监督学习方法进行比较，包括MNIST[16]、SVHN[25]和CIFAR-10[13]。此外，我们还在FaceScrub[26]上测试了所提出的模型，以研究合成的人脸图像的质量。在所有实验中，我们进行了10次标记实例采样，并报告了分类任务的测试错误率的均值和标准差。在类条件实例合成任务中，我们以每个类别一个图像的方式呈现合成图像，并且它们共享相同的随机向量。04.1. 合成数据集0为了展示我们提出的特征-语义匹配方法的有效性，我们将TripleGAN�与之进行比较0并通过它们学习玩具示例的类条件数据分布能力来比较TripleGAN�和EnhancedTGAN。我们采用如图3所示的“两个月亮”合成数据集，其中有两个类别，每个类别包含10个标记数据点和1000个未标记数据点。生成器、判别器和分类器都是具有2-3个隐藏层的多层感知器。两个竞争模型共享相同的设置，但是提出的模型比TripleGAN�多一个分类器。我们训练每个模型直到收敛。TripleGAN�和EnhancedTGAN的合成数据点分别如图3(a)和(b)所示。我们使用不同的颜色（红色和绿色）来表示合成数据点的两个类别。我们可以观察到，TripleGAN�合成的数据点仅位于真实数据分布的一部分，而我们的EnhancedTGAN正确地学习了真实数据分布。此外，所提出模型的决策边界比基线模型更好地对齐。04.2. 基准数据集0我们进一步将EnhancedTGAN与MNIST、SVHN和CIFAR-10等广泛用于分类和合成评估的最先进的半监督深度学习模型进行比较。根据常见设置，我们对MNIST、SVHN和CIFAR-10分别进行了100、1000和4000个随机选择的标记实例的实验。EnhancedTGAN中分类器的网络架构与主要竞争方法（如TripleGAN和CT-GAN）中的网络架构相同。分类结果如表1所示。竞争方法的错误率取自现有文献，除了TripleGAN�。TripleGAN�是一个强基线模型，优于原始的TripleGAN。在所有情况下，所提出的EnhancedTGAN的分类结果比TripleGAN�更准确。对于具有4000个标签的CIFAR-10，EnhancedTGAN大幅超过TripleGAN�，将测试错误率从14.65%降低到9.42%。与其他竞争方法相比，所提出的EnhancedTGAN在所有情况下产生更准确或可比较的分类结果。图4显示了EnhancedTGAN模型对三个数据集的合成样本。我们还在具有4000个标签的CIFAR-10上可视化了TripleGAN�和EnhancedTGAN模型的分类器网络最后一个隐藏层相关特征的t-SNE嵌入[20]。如图5所示，EnhancedTGAN在学习类条件数据分布方面优于TripleGAN�，因为我们可以观察到样本强烈聚类，并且合成数据的分布与未标记数据的分布非常匹配。7100970表1. 我们的模型与竞争方法在基准数据集上的半监督分类进行比较。0带有标签数量的测试错误率（%）0MNIST SVHN CIFAR-100方法 100个标签所有标签 1000个标签所有标签 4000个标签所有标签0LadderNetwork[30] 1.06 ± 0.37 0.57 ± 0.02 - - 20.40 ± 0.47 - SPCTN[40] 1.00 ± 0.11 - 7.37 ± 0.30 - 14.17 ± 0.27 - Π -model[15] 0.89 ± 0.15 - 4.82 ± 0.17 2.50 ±0.07 12.36 ± 0.31 6.06 ± 0.11 Temporal-Ensembling[15] - - 4.42 ± 0.16 2.74 ± 0.06 12.16 ± 0.24 5.60 ± 0.10 Mean-Teacher[36] - - 3.95 ± 0.19 2.50 ± 0.05 12.31 ±0.28 5.94 ± 0.15 VAT[24] - - 3.74 ± 0.09 2.69 ± 0.04 11.96 ± 0.10 5.65 ± 0.17 VAdD[28] - - 4.16 ± 0.08 2.31 ± 0.01 11.68 ± 0.19 5.27 ± 0.10 VAdD+VAT[28] - - 3.55± 0.05 2.23 ± 0.03 10.07 ± 0.11 4.40 ± 0.12 SNTG+ Π -model[19] 0.66 ± 0.07 - 3.82 ± 0.25 2.42 ± 0.05 11.00 ± 0.13 5.19 ± 0.14 SNTG+VAT[19] - - 3.83 ± 0.22 -9.89 ± 0.34 -0CatGAN[35] 1.39 ± 0.28 - - - 19.58 ± 0.58 - Improved GAN[32] 0.93 ± 0.07 - 8.11 ± 1.30 - 18.63 ± 2.32 - ALI[5] - - 7.42 ± 0.65 - 17.99 ± 1.62 - TripleGAN[17]0.91 ± 0.58 - 5.77 ± 0.17 - 16.99 ± 0.36 - GoodBadGAN[4] 0.80 ± 0.10 - 4.25 ± 0.03 - 14.41 ± 0.03 - CT-GAN[38] 0.89 ± 0.13 - - - 9.98 ± 0.21 -0TripleGAN � 0.81 ± 0.08 0.31 ± 0.04 4.53 ± 0.22 2.94 ± 0.15 14.65 ± 0.38 6.64 ± 0.13 EnhancedTGAN 0.42 ± 0.03 0.27 ± 0.03 2.97 ± 0.09 2.23 ± 0.01 9.42 ± 0.22 4.80± 0.070(a) MNIST0(b) SVHN0(c) CIFAR-100图4.EnhancedTGAN模型在MNIST（100个标签）、SVHN（1000个标签）和CIFAR-10（4000个标签）上进行半监督条件对象图像合成生成的合成实例。每行具有相同的类别标签，每列是从相同的随机向量合成的。0表2.在CIFAR-10上进行的模型割舍研究，研究合成数据、一致性和平滑正则化对半监督分类的影响。0带有标签数量的测试错误率（%）0方法 4000个标签0无GAN 11.92 ± 0.19 无 ℓ conReg 11.47 ±0.13 无 ℓ smoReg 12.03 ± 0.290EnhancedTGAN 9.42 ± 0.2204.3. 割舍研究0我们从CIFAR-10上的4000个标签中的生成器的整体损失函数中去除了特征-语义匹配项，并在训练过程中显示了合成数据上的分类准确率，如图6所示。我们可以观察到，类别均值特征匹配项能够提高分类准确率，这表明了0合成数据可以更好地匹配真实数据的统计特性。语义匹配项可以进一步改善生成器的训练。0为了研究我们提出的改进策略在半监督分类中的有效性，我们在CIFAR-10上进行了割舍研究，移除了相应模块后比较得到的模型，如表2所示。我们首先移除生成器和判别器，评估具有协同学习的分类器，测试错误率上升到11.92％，这表明合成实例对于改善分类器训练是有用的。此外，我们从分类器的整体损失函数中去除了一致性和平滑正则化项，以研究协同学习和局部Lipschitz条件的影响，在两种情况下都观察到了显著的性能下降。我们认为合成数据和正则化对于改善半监督分类都很重要。8100980(a) TripleGAN �0(b) EnhancedTGAN0图5.CIFAR-10上未标记的训练数据和合成数据的t-SNE嵌入，使用4000个标签。未标记的样本标记为灰色，不同类别的合成样本标记为不同颜色。0图6.在CIFAR-10上，当从生成器的整体损失函数中删除特征-语义匹配项时，合成数据的分类准确率（使用4000个标签）0半监督分类04.4. 人脸合成0为了进一步研究所提出的EnhancedTGAN模型在执行困难的半监督实例合成方面的能力，我们在FaceScrub数据集上进行了实验。由于该数据集中的类别包含不同数量的人脸图像，我们在实验中选择了最大的100个类别，并且每个类别中只有20个图像被随机选择标记。所有图像都被调整为64×64的大小，因此我们稍微修改了先前用于此实验的网络架构，而不会显著增加模型参数的数量。合成的人脸图像如图7所示。对于TripleGAN�，我们观察到类内变化相对较小，并且某些图像中的人脸结构丢失。另一方面，我们的EnhancedTGAN合成图像看起来逼真，并保留了人的身份。TripleGAN�和EnhancedTGAN的相应分类结果如表3所示。0(a) TripleGAN�0(b) EnhancedTGAN0图7.TripleGAN�和EnhancedTGAN模型在FaceScrub上进行半监督条件人脸图像合成产生的合成实例，使用2000个标签。每行具有相同的类别标签，每列从相同的随机向量合成。0表3. 基线模型与提出模型在FaceScrub-100半监督分类上的比较0测试错误率（％）与标签数0方法2000标签所有标签0TripleGAN� 18.23 ± 0.56 5.43 ± 0.41EnhancedTGAN 16.08 ± 0.24 4.29 ± 0.2005. 结论0在本文中，我们提出了一种增强的TripleGAN模型，用于改进半监督条件实例合成和分类。为此，我们采用特征-语义匹配来强制生成器有效地学习类别条件数据分布，以便合成具有高保真度的实例可用于训练更好的分类器。另一方面，我们协同训练两个分类器，它们可以为生成器提供更准确的指导。实验结果表明，所提出的模型优于原始的TripleGAN，并在多个基准数据集上取得了新的最先进的结果。0致谢0本工作得到了中国国家自然科学基金（项目编号61502173、U1611461、61722205、61751205、61572199）的部分支持，香港特别行政区研究资助局（项目编号CityU11300715）的部分支持，香港城市大学（项目编号7005055）的部分支持，广东省自然科学基金（项目编号2016A030310422）的部分支持，广东省重点研发计划（项目编号2018B010107002）的部分支持，以及中央高校基本科研业务费（项目编号2018ZD33）的部分支持。[1] M. Abbasnejad, A. Dick, and A. Hengel. Inﬁnite variation-al autoencoder for semi-supervised learning. In Proc. IEEEConference on Computer Vision and Pattern Recognition,pages 781 – 790, 2017.[2] M. Arjovsky, S. Chintala, and L. Bottou. Wasserstein genera-tive adversarial networks. In Proc. International Conferenceon Machine Learning, pages 214 – 223, 2017.[3] J. Bao, D. Chen, F. Wen, H. Li, and G. Hua.CVAE-GAN: ﬁne-grained image generation through asymmetrictraining. In Proc. International Conference on Computer Vi-sion, pages 2745 – 2754, 2017.[4] Z. Dai, Z. Yang, F. Yang, W. Cohen, and R. Salakhutdinov.Good semi-supervised learning that requires a bad GAN. InProc. Advances in Neural Information Processing Systems,pages 6513 – 6523, 2017.[5] V. Dumoulin, I. Belghazi, B. Poole, O. Mastropietro, A.Lamb, M. Arjovsky, and A. Courville. Adversarially learnedinference. In Proc. International Conference on LearningRepresentation, 2017.[6] G. Dziugaite, D. Roy, and Z. Ghahramani. Training gener-ative neural networks via maximum mean discrepancy opti-mization. In Proc. Conference on Uncertainty in ArtiﬁcialIntelligence, pages 258–267, 2015.[7] Z. Gan, L. Chen, W. Wang, Y. Pu, Y. Zhang, H. Liu, C. Li,and L. Carin. Triangle generative adversarial networks. InProc. Advances in Neural Information Processing Systems,2017.[8] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D.Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Gener-ative adversarial nets. In Proc. Advances in Neural Informa-tion Processing Systems, pages 2672 – 2680, 2014.[9] D. Kingma and J. Ba. Adam: a method for stochastic op-timization. In Proc. International Conference on LearningRepresentations, 2015.[10] D. Kingma, S. Mohamed, D. Rezende, and M. Welling.Semi-supervised learning with deep generative models. InProc. Neural Information Processing Systmes, pages 3581 –3589, 2017.[11] D. Kingma and M. Welling.Auto-encoding variationalBayes. In Proc. International Conference on Learning Rep-resentation, 2014.[12] T. Kipf and M. Welling. Semi-supervised classiﬁcation withgraph convolutional networks. In Proc. International Con-ference on Learning Representation, 2017.[13] A. Krizhevsky and G. Hinton. Learning multiple layers offeatures from tiny images. In Technical Report, 2009.[14] A. Krizhevsky, I. Sutskever, and G. E. Hinton.Imagenetclassiﬁcation with deep convolutional neural networks. InProc. Neural Information Processing Systmes, pages 1106 –1114, 2014.[15] S. Laine and T. Aila.Temporal ensembling for semi-supervised learning. In Proc. International Conference onLearning Representations, 2017.[16] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceed-ings of the IEEE, 86(11):2278 – 2324, 1998.9100990参考文献0[17] C. Li, K. Xu, J. Zhu, and B. Zhang. 三元生成对抗网络.在《神经信息处理系统进展》中的论文集中，页码：1195-1204，2017年。[18] C. Li, J. Zhu, and B. Zhang.最大边际深度生成模型用于（半）监督

下载后可阅读完整内容，剩余1页未读，立即下载