STIC：通过循环自分析学习生成图像的分类器

187 浏览量更新于2024-01-22 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5161合成它分类器：通过循环自分析学习Ar gh yaP al，Raphae- l C.-W. 潘国谢王莫纳什大学信息技术学院马来西亚校区arghya. monash.eduImageNetCifar10LSUN（教会班）图1：STIC方法的定性结果：（放大时最佳）：我们显示了ImageNet [5]，CIFAR 10 [18]和LSUN [34]数据集的定性结果。（1）ImageNet：我们展示了芝士汉堡、鸡肉和蘑菇类的结果（2）CIFAR 10：STIC合成猫、汽车、青蛙、卡车、狗和鹿类的照片级逼真图像（上下行）。可以看到每个类的样式（照明，背景）和内容（姿势，形状）的变化（3）LSUN：我们在房屋形状，圆顶状结构和其他户外实体（天空，照明）中显示可见的几何图形。所有图像都是使用n=10遍生成的。STIC方法描述见第2节。3 .第三章。摘要我们展示了图像分类器网络的生成能力整体方法，称为合成它分类器（STIC），不需要一个显式的生成器网络来估计数据分布的密度和样本图像，而是使用分类器的边界知识来执行梯度上升w.r.t.类logits，然后通过在空白画布上绘制，使用革兰氏矩阵Metropolis调整的Langevin算法（GRMALA）合成图像。在训练过程中，分类器迭代地使用这些合成图像作为假样本，并以循环的方式重新估计类边界，以提高分类精度和合成图像的质量。STIC表明，硬假样本（即通过独热类条件化合成的样本）和软假样本（合成为类的凸组合，即类的混合[36]）的混合改进了类插值。我们展示了一个Attentive-STIC网络，显示了在具有数千个类的ImageNet数据集上迭代绘制合成图像。此外，我们介绍了使用类条件得分分类器（Score-STIC）代替正常图像分类器的合成，并在几个真实世界的数据集上显示了改进的结果，例如ImageNet、LSUN和CIFAR 10。1. 介绍判别分类器p（y|x）和生成模型p（x）通常被认为是彼此互补的域，然而它们之间的区别是模糊的。生成模型p（x）[26]作为一个数据生成过程出现，它捕获了底层的数据。而判别分类器学习图像的复杂特征表示，以便学习用于后续分类的类边界。最近，人们对机器学习（ML）和计算机视觉（CV）[15，20，7]的兴趣有所增长，以使用判别分类器，然后合成新的sam。从它对类边界信息的理解出发。为了详细说明，在[ 7 ]的模型中，分类器p（y|x）log-5162假样本从GRMALA取样器假山姆普尔. . .. . .不图2：STIC方法：我们的主要目标是通过强调p（x）|y）/p（y|x），等式1，并且从区别性分类器合成照片真实感图像。我们提出的STIC服务于双重目标：（1）学习光滑的类边界与邻近风险最小化;（2）学习更紧密的类边界使用经常性的自分析类边界重新估计。在时间（n+1），分类器p（y|x）使用真实图像、混合图像来调整参数（πτ+1）;并且除此之外，将来自真实类的合成图像和来自来自先前迭代的混合类的合成图像（标记为假样本）提供给分类器。请注意，混淆类不是真正的类，而是两个或多个类的逻辑的混淆。在时间（t），使用我们提出的Gram矩阵，通过梯度上升的类logits z τ，从分类器的类边界知识合成样本正则化Metropolis调整Langevin算法采样器（GRMALA），见红色虚线箭头。 STIC判别式分类器被训练了102{1，2，···，T}次迭代。它用于估计图像标签p（x，y）的联合密度和图像分布的边缘p（x）;注意随机变量，x：图像，y：类标签。同时，在[15，20]中，分类器logits用于使用MCMC样采样机制产生合成样本。另一方面，分类器试图区分这些合成样本和真实图像以重新估计类边界。我们注意到，从判别分类器合成新的样本取决于一个重要因素：判别分类器如何学习类边界？我们注意到，[7，15，20，22]中用于合成新样本的所有判别分类器都是用经验风险最小化（ERM）训练的[31]。然而，从文献[4，36]中可以明显看出，用ERM训练的判别分类器不能提供类边界区域附近不确定性的更平滑估计[4]。因此，我们问自己这样一个问题：用ERM训练对这些判别分类器的综合能力有任何影响吗？我们注意到，在类插值和样本质量向这些判别分类器的类在这项工作中，我们主要寻求解决这个问题，即。，以构建将服务于双重目标的判别分类器：（1）从一个类到另一个类的内插样本必须是照片真实的;以及（2）分类器必须学习更紧密的类边界以便生成照片般逼真的样本。为了解决第一个目标，我们使用邻域风险最小化（VRM）训练判别分类器[36]。除了真实的图像标签样本之外，我们还利用更多的虚拟混合图像标签样本[36]并训练分类器。然后我们合成新的样品。我们的新型通过设计，样本合成方法类似于风格转移工作[6]，即从初始图像x 0开始，使用我们提出的新颖的革兰氏矩阵正则化大都会调整的Lan gavin算法（GRMALA）采样器，利用梯度上升来更新初始图像x0据我们所知识，这是第一个判别分类器训练与VRM和随后合成使用一种新的GR-MALA采样器。我们将在第3节详细讨论这一点。然而，单独用VRM训练判别分类器是学习类之间的不确定性的更平滑估计的必要条件，但不是提供更紧密的类边界的充分条件。认知研究[1，3]显示，受试者（即人类）从一个环境或世界的弱认知决策模型开始，并通过从环境中获得的错误和自我分析进行反复完善，以发展出更强的认知决策模型。本着类似的精神，我们提出了用VRM训练的循环判别网络，我们称之为合成它，5163i、j122σ2i=1i=1分类器（STIC）。STIC循环地消除类边界之外的区域，并迫使采样器在类边界内搜索。STIC方法用不同类别的真实图像训练分类器类logits。在下一次通过时，STIC将这些合成样本作为假样本输入到前一次通过的已训练的判别分类器，从而允许分类器使用真实图像、合成的混合图像和合成样本重新估计类边界（我们称之为自分析）。类似于[15，20]，在某种程度上，我们要求分类器量化其自身生成的关于类边界的样本STIC会重复自分析，针对102{1，2，···，T}遍数从我们的经验观察，我们注意到，如果图像空间很大（通常>227×227），GR-MALA采样器更新缓慢。因此，我们展示了一个最近，工作[7]显示了从判别分类器的类逻辑的知识学习联合分布和边缘分布风格转移：有很多作品执行风格转移以满足各种替代目标，例如：生成对抗学习方法来解开图像的风格和内容[16];而[17]提出捕捉风格的特殊性，以及捕捉图像的风格和内容在[37]中显示了单个图像超分辨率的风格解缠然而，在这项工作中，我们将使用[6]中提出的基于Gram矩阵的风格转换。 [6]的开创性工作计算了一个格拉姆矩阵，GL2 RNL×NL使用以下公式：卷积神经网络（CNN）的第L层具有不同的NL特征映射，每个特征映射的大小为ML<$ML。矩阵F L2 RNL×ML存储第i个滤波器在位置j处的激活FL，层湖Pn，该方法计算特征相关使用-ing：GL=FLFL，其中任何Fm都表示活动，注意-STIC，其中判别分类器操作i、jKi ，kj，kn和o在特征空间上而不是原始像素空间上，从而表现出快速更新。此外，我们还提出了一种新的基于类别条件得分匹配的判别分类器，该分类器将模型密度的导数与数据密度的导数相匹配我们将在第3节中详细讨论这些组件。我们的贡献可概括如下：• 新的循环自分析STIC使用VRM进行训练，并使用Gram矩阵正则化MALA（GRMALA）采样器显示合成图像w.r.t类logit• 我们展示了 Attentive-STIC 模型来解决 MALA-approx的慢混合问题。我们还提出了一种新的基于类条件得分函数的判别分类器（我们称之为Score-STIC方法）• 我们展示了几个真实世界数据集的结果，如ImageNet，LSUN和CIFAR 102. 相关工作生成式判别学习：生成式分类器方法在开创性论文“自我监督提升”中首次出现[ 32 ]，该方法使用真实数据和自生成的在以无监督的方式学习时使用负样本也可以在[12]中看到类似地，[15，20]中的方法使用基于卷积神经网络（CNN）的判别分类器在层m中的位置o处的第n个滤波器的布置。大都市调整Langevin算法（ MALA ）：Metropolis-Hastings（MH ）[23]使用转换操作符，即。 xt+1=xt+N （ 0 ， n =2 ）， n=p （ xt+1 ） /p（xt），如果n =<1，则以概率（1-n）拒绝样本x t+1，并设置xt+1=xt，否则保持xt+1。在实践中，MH产生样品的速度非常慢，任何可计算分布p 数据（x）。作为补救措施，[27，28]提出了一种近似方法，称为Metropolis调整的Langevin算法，或MALA。从通常从高斯分布N（0，I）采样的初始x 0开始，MALA使用过渡算子，即。xt+1=xt+1rlogp（xt）+N（0，σ2），n=f（xt+1，xt，p（xt+1），p（xt）），如果n=1，则拒绝xt+1<否则保持xt+1，并从分布p（x）中采样。方法[25]使用随机梯度Langevin动力学（SGDL），以摆脱拒绝的MALA步骤，并提出了MALA-approx方法。除此之外，该方法[25]使用不同的步长在：xt+1=xt+1rlogp（xt）+N（0，2）中的1和2和展品更控制超过可变性在这工作中，我们将提出一种新的革兰氏矩阵正则化MALA和Ps采样器takes的形式：xt+1rlogp（xt） +（GL（xt）-AL（xt））2+N（0，N2），其中，R1和R2是缩放因子。使用Mixup的邻近风险最小化（VRM）：经验风险最小化（ERM）[31]学习函数f2 F，该函数确定im的非线性关系。机制分类器试图区分这些syn-年龄样本xi|N和相应的类yi|N大小的样本和真实的图像来学习类绑定-白羊座。与这些工作线类似，该方法[21]显示通过优化从数据分布pdata（x，y）中采样经验风险，R（f）=1PN l（f（x），y）. 损失Ni=1i i从真实的和合成的即时通讯中学习阶级界限年龄等效于优化真实图像和合成图像密度之间的Wasserstein距离。再-函数L（·）可以是任意标准损失函数。学习函数f通过最小化ERM导致函数f记住训练样本而不是一个好的基因5164N+Mk=1i=1i=1k=1KKK3在强正则化器的范围内也是如此[4]。为了缓解这一问题，[4]提出了一种替代风险最小值-最小化技术被称为Vi cPinalRiskMinimization（VRM），即 Rvicinity（f）=1N+Ml（f（x∈k），y∈k）. 在VRM，我们增加额外的图像标签对（xi，yi）|M使用简单的几何变换（例如裁剪、反变换、xt，我们从真实图像x中得到Gram MarixAL（有关Gram矩阵的更多细节，请参见 [6]或第2 节风格转换部分）。为了生成照片般逼真的大尺寸图像，我们的判别分类器，因此，必须服务于两个目标：（1）使用VRM学习平滑类边界，使得插值站，镜像）的真实图像标签对（xi，yi）|N. 我们从一个类到另一个类的样本必须是照片般逼真的;获取图像标签集（xk，yk）|N+M，包括增强的图像-标签和真实的图像-标签对。的Mixup [36]通过增强虚拟图像扩展了这一想法-目标样本，xmixup=λxi+（1-λ）xj，ymixup=（2）利用递归算法学习紧类边界。自分析类边界重新估计，使得分类器必须学习更紧密的类边界，以便生成照片般逼真的样本。K Kλyi+（1-λ）yj，其中λ<$Beta（λ，λ）是从Beta分布，对于x2（0，1），xi，xj和yi，yj也是真实图像标签。Mixup通过组合真实的使用VRM学习平滑类边界：类似于[36]，我们增加了混合图像标签对以及真实图像标签对。我们有K个混淆不同类别的图像标签样本，而不是手工制作，增强图像-标签对（xmixup，ymixup）|K，那些k k k=1精心制作的图像数据增强。混合的TPheVRM我们得到后，x混淆=λxi+（1-λ）xj和y混合=可以定义为，Rmixup（f）=1N+Kl（f（xl），yl）。K KN+Kl=1我们得到图像标签的集合（xl，yl）|N+K来自真实λyi+（1-λ）yj，其中λ<$Beta（λ，λ），对于λ2（0，1），还有x，x和y，y是真实的图像标签对。为l =1ijiJ图像标签对和mixup图像标签对，并将使用这些在这项工作中。简单地说，让我们假设mixup图像-标签对来自mixup分布（xmixup，ymixup）K K3. STIC方法在这项工作中，我们希望学习图像x的类条件分布的参数和相应的类标签y（我们将y固定为来自特定的类yc），即：p（x）|y = yc）（1）pmixup（xmixup，ymixup），我们得到了真实的图像标签分布（xi，yi）和pdata（x，y）。我们优化等式2的目标函数如下：i=1X，···，NL（θ）=-logpθ（yi=yc|（i）（xi，yi）双极坐标数据以期产生照片般逼真的新颖样品。我们使用贝叶斯规则扩展等式1中的类条件模型p（x）|y）=p（x）p（y|x）/p（y）/p（x）p（y）|x）。但是，我们不能直接使用k=X1，···，K-（xmixup，ymixup）logpθ（yk =ymixup|xmixup）（四）“product of experts” [由于随机变量y是分类的，我们可以写一个修改后的版本，即：p（x）|y）= p（x）p（y|x）/p（y）/p（y|（2）使得密度的估计直接与合成样本如何被区分性分类器网络分类在风格转换工作[6]和[25，27]中的Langevin算法采样工作之后，我们提出了一种Gram矩阵正则化MALA近似（GRMALA）采样器，并提出了以下xt+1的更新规则：Xxt+101rlogp（y|xt） +N2 （GL-AL）2+N（0，N2）（三）并且，类似于[ 25 ]中提出的MALA-approx，我们使用不同的步长，即，对于等式3中x t之后的三项，在这里，R11和R12控制样本质量，R13通过在搜索空间中移动来控制分辨率注意，我们可以从以下公式得到革兰氏矩阵GL：5165这里我们注意到，yk= ymixup不是一个真类，而是表示真类对数的混合。使用递归自分析类边界重新估计学习更紧密的类边界：使用VRM学习平滑的类边界是平滑图像合成的必要条件，但不是为了合成照片般逼真的图像而学习更紧密的类边界的充分条件。因此，我们引入了一种重新流自分析类边界重新估计方法，该方法消除了类边界之外的区域，并迫使采样器集中在类边界内。为了实现这一目标，我们现在-编写一个周期性的训练程序，{1，2， ··· ，T}遍数在通过时，我们通过基于GRMALA的关于类logits的更新从训练的分类器pτ（·）合成n个样本在下一次通过时，STIC从数据集中获取图像，并将图像混合为真实图像。另一方面，合成的IM-将来自在通过时的分类器的真实类的年龄和混合类的合成图像作为假样本（注意，5166mixupθθθθθθKK分类器在前一个通道（参见图2假图像）。从而允许分类器使用真实图像、合成的混合图像和合成的样本来重新估计类边界我们称之为反复的自我分析。在某种程度上，递归类边界重新估计要求分类器通过重新估计来量化其自身生成的样本注意阶级界限。我们对分类器进行采样和重新训练，进行了102 {1，2，···，T}次，从而使分类器能够在每个时间步重新估计其类边界。对于第（n+1）个时间步长，分类器的目标函数i=1X，···，N方法，以及他们论文中描述的其他方法对于分类器，我们认为ResNet [10]，MobileNet [14]和GoogleLenet（GLENT）[30]作为SOTA方法来比较我们的方法我们认为INN [20]是我们合成方法的基线，因为我们注意到这种早期的努力使用了判别分类器，根据对类边界信息的理解来合成新这些合成的样本和真实图像，然后利用INN方法的类边界重新估计。对于判别分类器，我们使用GoogleLeNet作为我们的基线方法。在此，除非另有说明，否则所有SOTA方法均考虑批量为50L（πτ+1）=-logpτ+1（y=y|x）的STIC的网络设置和超参数选择θ（xi，yi）双极坐标数据k=X1，···，KIc我类似于以前的工作[7]，我们使用宽残差网络[35]，WideResNet-28-10，没有批处理，-mixupmixuplogpθτ+1（yk=ymixu p|xk）归一化，使STIC输出确定性函数of the input输入.Adam优化器，每次迭代5k（xk，yk）混合i=1X，···，N-logpθτ+1（yi=-1|（i）（xi，yi）pθτk=X1，···，Kmixup在总共50k次迭代的情况下，Langevin动力学链在15个epoch之后（在一次通过之后）被进化并且以概率0.5，我们用均匀随机噪声重新初始化链我们对时间有两个概念，一个是通行证，迭代和迭代：我们开始训练，在pass=1时。在过程-logpθτ+1（yk=-1|xk）（xmixup，ymixup）（五）理论上，分类器pτ+1（y）的softmax|X）是训练分类器时，使用真实图像和虚拟混合图像。此时，我们将空白图像（像素强度设置为255）视为假图像（即，yi=-1）。一遍持续5k次迭代，然后exp（pτ+1（x）[y]）Pτ+10. 因此，我们可以将p（x，y）近似为：我们从分类器pθ1（y）合成假图像|x）。我们y 0 exp（pθ（x）[y]）pτ+1（x，y）=exp（pτ（x）[y]）/Z（x），其中pτ（·）来自上一个时间步长为0。从pτ+1（x，y）边缘化y，然后移动到下一个持续另一个5k的迭代我们总共有10次通行证，即50k迭代，用于STIC训练。τ+1Pτ+1Pτθ即pθ（x）= ypθ（x，y）=yexp（pθ（x）[y]）/Z（x）提供p（x）的估计。然而，p（x）被丢弃因为没有显式网络，并且通过GRMALA和pτ（·）并入学习。4. 实验和结果我们在标准基准数据集上进行了一系列详细的实验和消融研究;特别是：Ima-geNet [5]，Cifar 10 [18]和LSUN [34]。基线和SOTA方法：通过设计，我们的方法是一个混合网络，可以同时进行分类和合成。从类条件生成网络端，我们观察到BigGAN [2]，Pestrian [25]，SNGAN[24]方法是类条件图像生成的最新技术（SOTA）在生成式判别学习方面，JEM [7]，INN [15]，WINN [22]，EBM [33]的工作更接近于我们的工作。然而，我们提出的STIC在很大程度上与这些方法不同，如下所示：（1）关键的区别在于我们的判别分类器是用VRM训练的，（2）我们使用了一种新的Gram矩阵MALA采样器。我们考虑BigGAN-deep（res 256，channel 96，parms 158.3，shared，orthogonal reg，skip-z）[2]，来自[15，22]5167定性结果：图1总结了所提出的STIC方法的样本标记图像生成，更多图像见补充材料。请注意，STIC在数据集的多个情况下生成质量更高的图像。在LSUN中，STIC合成图像的房屋和天空观察到适当的几何形状。在Ima-geNet和Cifar 10合成图像中，我们观察到STIC捕获了样式和内容信息。多样性分析：在第二遍，我们合成类条件样本pθτ（x|y =yc1）（见图3（a）中的黑色箭头）。类似于边际密度估计-在[7]中提出的方法中，我们使用pθτ（x）周围的一个小邻域|y =yc1）作为其他起始样本，以了解模型生成不同样本的能力。很明显，附近的样品显示出类似的目标外观（观察图3（a）中黑色箭头样本的相同面部结构），相似背景（观察图3（a）中红色箭头样本的相似面部结构和背景相比之下，相距较远的样本，例如，见3（a）中的红色箭头和紫色箭头样本，显示出相同犬类的不同外观。潜在空间插值：两点p（x|y = yc1），5168图3：（a）多样性分析：我们合成来自一个类的样本和来自这些样本周围的样本，以获得ImageNet类dog上的其他起始样本我们注意到，附近的样本显示出相似的物体外观（观察到黑色箭头样本的相同面部结构）。相比之下，相距较远的样本（见红色箭头和紫色箭头样本）显示出相同狗类的不同外观（b）随着时间的推移演变我们显示类狗ImageNet在不同迭代下的合成样本，即{10k，20k，·· ·，50k}（横轴：迭代次数，纵轴：训练损失）。图像最初是模糊的，但随着时间的推移变得更清晰，表明所提出的方法正在学习在时间步长上更严格的类边界。图4：（a）图像插值（我们的）前四列显示我们的方法的图像插值结果。我们注意到从一个类c1到另一个类c2的平滑过渡。（b）INN结果的内插（基线）：我们注意到从一个类别到另一个类别的类别内插并不平滑，即中间的图像不是人类可以理解的。图5：STIC方法的可推广性：（A）我们显示了STIC，SNGAN，BigGAN，PSTAN和WINN在不同初始化下的精确度-召回率比较。STIC的高精度召回证明了我们的说法。（B）使用ResNet 50分类器的特征在不同k-NNp（x）|y=yc2）是在通道k = 10处从两个不同的类c1和c2中采样的，并且在p（x|y=yc1）和p（x|y=yc2）以获得新的样品。ImageNet的合成图像如图4（a）所示从一个类别到另一个类别的合成图像是平滑的并且是人类可解释的，与图4（b）中的基线INN [15]提供的插值相反，即中间图像不是人类可解释的。这支持了我们的说法，STIC提供了平滑的合成样品。随时间步长的演化在图 3 （ b ）中，我们显示了ImageNet的类狗在不同迭代中的定性结果，即{10k，20k，···，50k}。请注意，在STIC设置中，5k迭代代表一次通过102{1，2，···，10}。生成的图像最初是模糊的，但随着时间的推移变得更加清晰，表明所提出的方法正在学习在时间步长上更严格的类边界。定量评估：我们使用多种定量指标来研究所提出的方法对生成的图像质量，多样性和图像标签对应性：（i）MIS（“，越高越好）[9];（二）FID（#，越低越好）[11];(iii)ClsR（“，越高越好），即在真实标记图像上训练并在生成图像上测试的ResNet-50分类器的前5分类准确度（以%计）;以及（iv）ClsG（“，越高越好），即在生成/合成图像上训练的ResNet-50分类器的前5分类准确度（以%计标记图像并在真实图像上进行测试。其结果示于表1。我们观察到一个明显的性能增益STIC超过国家的最先进的模型。低FID分数和高ClsG-基分类准确度分数意味着不同的图像标签生成。特别地，如通过ClsT和ClsG所示的改进的分类性能证明了合成的标记图像对于下游分类任务的效用。利用STIC提高分类精度在表2中，我们表明STIC不仅提高了生成质量（如图1所示），而且提高了分类精度。我们试图通过 ClsG 展示，训练四个分类器ResNet，WideResNet，MobileNet，GoogleLeNet（如图所示）5169方法LSUNCIFAR10ImageNetMISFID克莱斯河ClsGMISFID克莱斯河ClsGMISFID克莱斯河ClsG（“）（#）（“）（“）（“）（#）（“）（“）（“）（#）（“）（“）Inn14.9145.6226100.93118.9229201.92189.055230Winn17.4338.03412821.9451.81483621.1358.724838PNP32.0315.07625831.3717.93545333.1814.716154正义运动28.9240.42603938.447.60573932.3240.415332EBM31.8319.73625031.6317.02585032.8130.906352BigGAN113.138.678887100.317.92898199.318.518580SNGAN52.3717.43615953.0120.3837865.7212.626761STIC93.6113.32969297.9112.81919098.6215.019593STIC-ERM3035.9272622048.17616027.1938.276563关注STIC99.619.019795100.5611.719390100.1910.389693评分-STIC112.618.829896108.629.999792104.918.839795表1：各种真实世界图像数据集的定量结果：我们报告：（i）MIS（“，越高越好）;（ii）FID（#，越低越好）;（iii）ClsR（“，越高越好）;和（iv）ClsG（“，越高越好）。我们用粗体标出获奖作品STIC及其变体加下划线。N/A表示不适用。ClsG（“）INN WINN PJEMEBMBigGANSNGAN STICSTIC方法学中的分类器学习更严格的解，LSUN20/2923/3162/7060/7022/2241/4055/5058/50精确边界（见改进的ClsR关于ClsG）和光滑R表2：STIC的分类准确性改进：我们报告：(i)ClsR（“，越高越好）;（二）Cls G（"，越高越好）。每个细胞的表示出分类器精度的 ResNet/WideRes-Net/MobileNet/GoogleLeNet/STICResNet/WideResNet/MobileNet/GoogleLeNet（图2中）纯粹使用 INN 、 WINN 、 Pingdom 、 JEM 、 EBM 、BigGAN 和 SNGAN 的生成图像降低了 CIFAR 10 、ImageNet和LSUN数据集上的分类准确性。但是，STIC显示了一个改进的结果。对于ClsR，我们在真实图像上训练了 ResNet 、 WideResNet 、 MobileNet 、GoogleLeNet，并在INN、WINN、Pingdom、JEM、EBM、BigGAN和SNGAN生成的图像上进行了测试这表明再流自我分析获得了更紧密的类边界。举例来说：使用真实 ImageNet 图像训练的 ResNet/WideResNet/MobileNet/GoogleLeNet，并在BigGAN生成的 ImageNet 图像上进行测试，分类准确率为43/40/39/31，但STIC的准确率为63/63/83/80。5. 讨论及分析定量结果的讨论：从表1中，我们注意到INN，WINN由于使用ERM训练和从较弱的分类器学习而表现不佳。由于在训练先前网络时的明显复杂性，PADER性能下降。STIC方法支持有利于下游任务（如分类）的深度生成模型的主要主张。因此，我们看到类插值来实现这一目标。但FID计算真实图像和生成图像的特征向量之间的距离。我们注意到，STIC方法中的分类器学习更严格的决策边界可能无法学习真实图像和假图像的良好特征相似性，因此FID得分相对于BigGAN略有下降。对于分类器网络，我们注意到SOTA分类器网络的性能提升，从而显示了我们的方法作为分类器的功效STIC模型的可推广性：为了理解STIC方法的可推广性，我们采用了[19]中提出的查准率-查全率和k-最近邻（KNN）分析。图5（a）显示了在不同初始化下的高精确度和召回率，从而支持了我们在第4节中关于多样性和可推广性的主张。同样，我们使用ResNet-50的功能在不同的KNN上显示了精确度和召回率。Gram矩阵的消融：在这项工作中，我们使用STIC模型的更深层的风格表示'conv 21'-'conv 28'，并在ImageNet上获得FID：15.01。为了显示从更深层的风格转移的有效性，我们从浅层'conv 1'-'conv 20'进行风格转移然而，考虑到所有层运行时间复杂度：训练我们的模型的时间复杂度是1.3。比训练BigGAN和SNGAN快2倍这主要是因为GAN在训练中。类似地，[25]优化了两个独立的网络，使它们的训练时间显着增加。此外，INN [15]和WINN[21]在序列中训练多个分类器（序列中的分类器数量>25）用于单个图像合成，使得其整体合成成本高昂。STIC对其他SOTA分类器的影响：我们问自己，一个经常性的自我分析方法是否提高了任何分类器的分类精度我们回答这个/10/18/38/19/80/73/80/72/19/17/38/35/51/38/50/4110/0819/1050/4655/5016/1952/5058/6060/62CIFAR102007年12月14日/05/09/49/50/49/49/10/09/53/51/59/59/58/59ImageNet 05/0207/0338/3041/3020/1853/5051/5660/76/03/04/02/03/36/30/37/30/10/19/69/71/57/55/75/70Cls（“）INNWinnPNP正义运动EBMBigGANSNGANSTIC10/1318/1861/6253/5922/2241/4055/5062/59LSUN/11/12/17/19/68/63/58/52/19/17/33/30/50/38/56/72CIFAR1006/0609/0745/4345/4010/1142/4046/5657/63/04/06/04/09/43/40/43/43/10/07/43/49/58/57/74/73ImageNet 05/0207/0338/3041/3020/1843/4043/3963/63/03/04/02/03/36/30/37/30/10/19/39/31/31/30/83/8051702不t−1LSTMLSTMLSTM解码器(a) 专注-STIC网络(b) 慢更新(c) 快速更新(d) class cond.分数分类器图6：（a-c）attentive-STIC：STIC方法可以在特征空间中工作。我们展示了定性结果的STIC和专心STIC在LSUN教堂在10k迭代，并注意到改进的结果。（d）score-STIC：我们仅在10k次迭代后显示score-STIC的定性结果。我们展示了这些LSUN教堂样本的几何细节。图7：判别分类器方法的损失（纵轴）与迭代次数（横轴），STIC优于所有方法。在图7中。我们显示了每次迭代的损失，STIC方法提高了任何分类器的训练精度。最佳通过次数：在第4节中，我们展示了结果对于n=10次通过。在本节中，我们研究了通过次数及其与FID和其他分数的关系我们发现，超过10次，图像x的真实性并合成特征向量。syn-thesize矢量被传递到解码器网络（见图6），以上采样特征矢量，得到合成图像。解码器是DCGAN网络。我们展示了在一次通过后LSUN教堂类的定性结果，即5k次迭代，结果见图6（b）中的网络。除此之外，定量结果示于表1中。Score-STICaClassConditionalScoreDiscriminativeClassifier：基于我们对公式2的理解，STIC方法依赖于判别分类器。为此，我们提出了对Wide ResNet架构的一个小修改（或对一般分类器网络的修改 [29]方法试图使用概率的得分将模型的边际密度的导数与真实数据的边际密度的导数相匹配密度p（x），即rxlogp（x）。我们扩展了这一思想，提出了一种新的基于类条件得分的Wide ResNet我们称之为score-STIC。WideResNet-28-10最后一层维度与输入层维度（这是评分网络的标准[29]）匹配，然后是softmax分类. 下面的方程式可作为一个正则化器FID和MIS评分的合成图像质量最低-等式2，即：Ep（十）1||pθτ（x）||2+t r（rxpθτ（x））+imally改善。改善FID和MIS评分可能为1d西班牙语22未来可能的方向。Attentive-STIC缓解GRMALA更新缓慢：我们试图通过在特征空间而不是像素空间中尝试GRMALA来解决MALA-approx混合缓慢的问题。我们采用了一个基于注意力的特征编码器[8]，包括：（1）一个阅读网络，R（·），它接收一个图像x并决定使用注意力机制（稍后描述）聚焦在x的一部分上;（2）R（·）然后输出向量vt（其从所指向的补丁光栅化）;（3）LSTM网络接收vt并提供特征向量f。类似于DRAW [8]的读取机制：xt=x-（xt−1），vt=R（x，xt，vt−1）;[ft，henc]=L STM（vt，henc），这里，（·）是一个S形函数。分类器r，p（y =y，c|f），now w在外部环境中运行-||（x））|二、||2. 结果见图6和表1。6. 结论在这项工作中，我们强调关系p（x|y）/p（y|x）并提出了 STIC 方法来合成图像，使用 Gram-matrixRegularized MALA（GRMALA）sam.pler w.r.t class logit.我们的分类器满足：（1）平滑插值;（2）更紧密的类边界，以便生成照片般逼真的样本。为此，我们提出了一种新的循环自分析STIC训练VRM。我们进一步展示了一个Attentive-STIC模型来解决GRMALA的慢混合问题。除此之外，我们还展示了一种新的基于Wide ResNet分类器的类条件得分函数，并在ImageNet，LSUN和Cifar10上展示了改进的生成25171引用[1] J. R.安德森人类认知是适应性的吗？ na，1991年。2[2] A.布洛克，J.多纳休，和K.西蒙尼扬大规模GAN训练用于高保真自然图像合成。在国际学习代表会议（ICLR'19），2019的进行中5[3] R. L. Campbell和M. H.比克哈德如果人类的认知是自适应的，那么人类的知识可以由编码组成吗？脑神经与脑科学，14（3）：488-489，1991. 2[4] O. Chapelle，J. Weston，L. Bottou，and V. Vapnik.邻近风险最小化。神经信息处理系统的进展第二、四节[5] J.邓，W.东河，巴西-地索赫尔湖，美-地J. Li，K. Li和L.飞飞。ImageNet：一个大规模的分层图像数据库。IEEE计算机视觉与模式识别会议论文集第1、5页[6] L. A. Gatys，A.S. Ecker和M.贝丝使用卷积神经网络进行图像风格在IEEE计算机视觉和模式识别会议二、三、四[7] W. Grathwohl，K. C.王建- H.雅各布森，D。迪弗诺，M. Norouzi和K.斯沃斯基你的分类器实际上是一个基于能量的模型，你应该把它当作一个模型来对待。在国际学习代表会议（ICLR一二三五[8] K.格雷戈尔岛Danihelka ， A.格雷夫斯， D.J.Rezeland，以及D.维尔斯特拉Draw：一个用于图像生成的递归神经网络。在国际机器学习会议（ICML '15）的会议记录8[9] S. 古鲁穆尔蒂河K. Sarvadevabhatla和R.诉巴布。Deli-gan：用于多样化和有限数据的生成对抗网络在IEEE计算机视觉和模式识别会议论文集（CVPR6[10] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集（CVPR5[11] M. Heusel，H. Ramsauer，T.翁特希纳湾Nessler，以及S. Hochreiter。通过两个时间尺度更新规则训练的GAN

下载后可阅读完整内容，剩余1页未读，立即下载