没有合适的资源?快使用搜索试试~ 我知道了~
1即插&即用生成网络:潜空间中图像的条件迭代生成阮英怀俄明大学†gmail.comJeff CluneUber AI Labs†,怀俄明大学jeffclune@uwyo.edu阿列克谢·多索维茨基弗莱堡大学Yoshua Bengio蒙特利尔学习算法电子邮件:youyou.umontreal@gmail.com杰森·尤辛斯基Uber AI Labs†dosovits@cs.uni-freiburg.deyosinski@uber.com摘要生成高分辨率、照片逼真的图像一直是机器学习的一个长期目标。最近,Nguyen等人。[37]显示了一种有趣的方法来合成新的图像,通过在生成器网络的潜在空间中执行梯度上升,以最大化单独分类器网络中一个或多个神经元的激活。在本文中,我们通过在潜在代码上引入额外的先验来扩展这种方法,从而提高样本质量和样本多样性,从而产生最先进的生成器。这是一个生成模型,它以比以前的生成模型更高的分辨率(227×227)生成高质量的图像,并且适用于所有1000个ImageNet类别。此外,我们提供了相关激活最大化方法的统一概率解释,并调用通用类“即插即用生成网络”的模型PPGN由1)能够绘制各种图像类型的生成器网络G和2)告诉生成器绘制什么的可替换“条件”网络C组成。我们演示了基于类(当C是ImageNet或MIT Places分类网络时)和标题(当C是图像标题网络时)的图像生成。我们的方法还改进了多面特征可视化的技术水平[40],该技术生成激活神经元的合成输入集最后,我们表明,我们的模型在图像修复的任务上表现得相当好。虽然本文中使用的图像模型,该方法是模态不可知的,可以应用于许多类型的数据。[2] 这 项 工 作 主 要 由 Geometric Intelligence 完 成 , Uber 收 购 了Geometric Intelligence,创建了Uber AI Labs。图1:即插即用生成网络以高分辨率(227x227)为四个ImageNet类合成生成的图像。不仅许多图像几乎是照片般逼真的,而且一个类内的样本是多种多样的。1. 介绍近年来,生成模型越来越能够合成各种逼真的图像,这些图像捕获自然图像的细粒度细节和全局相干性[54,27,9,15,43,24]。然而,许多重要的开放性挑战仍然存在,包括(1)以高分辨率产生照片般逼真的图像[30],(2)训练可以产生各种各样的图像的生成器446724468(a) Real:top 9(b)DGN-AM [37](c)Real:random 9(d)PPGN(this)图2:对于预训练的ImageNet分类器中的“cardoon”类神经元,我们显示:a)最高度激活该神经元的9个真实训练集图像; b)由DGN-AM [ 37 ]合成的图像,其与真实的前9个图像具有相似的类型和多样性; c)cardoon类中的随机真实训练集图像;以及d)由PPGN合成的图像,其更好地表示来自该类的随机图像的多样性。图S10示出了其他类别的相同的四个组。年龄(例如,所有1000个ImageNet类)而不是只有一种或几种类型(例如面部或卧室[43]),以及(3)产生与数据集中多样性匹配的样本多样性,而不是仅对数据分布的子集进行建模[14,53]。当前的图像生成模型通常工作良好在低分辨率(例如,32×32),但难以生成高分辨率(例如128×128或更高),全局相干图像(特别是ImageNet [7]等数据集,具有较大的可变性[41,47,14]),这是由于许多挑战,包括训练困难[47,41]和计算昂贵的采样程序[54,55]。Nguyen等人[37]最近引入了一种以高分辨率产生高质量图像的技术。他们的基于深度生成器网络的激活最大化1(DGN-AM)涉及训练生成器G以从预训练的分类器网络E提取的压缩特征创建真实图像(图3f)。为了生成以类为条件的图像,启动优化过程以找到隐藏代码h,该隐藏代码h被G映射到高度激活另一分类器C(不一定与E相同)中的神经元的图像DGN-AM不仅以高分辨率产生逼真的图像(图1A和1B)。2bS10b),但是,无需重新训练G,它也可以产生G在训练期间从未见过的有趣的例如,在ImageNet上训练的G可以生成舞厅,监狱牢房和野餐区,如果C是在MITPlaces数据集上训练的(图10)。S17,顶部)。然而,DGN-AM的主要限制是所生成的样本缺乏多样性。虽然样本可能略有不同(例如从稍有不同的角度看,有两三朵花的“洋蓟”;见图2 b),整个图像往往具有相同的组成(例如,一个特写镜头的一个单一的卡登植物与绿色背景)。值得注意的是,DGN-AM制作的图像1激活最大化是一种通过优化搜索最大激活目标神经元的合成图像的技术,以了解神经元已经学会检测哪些特征[11]。密切匹配的图像,从该类最高度激活类神经元(图。2a)。即使使用不同的随机初始化,优化通常也会收敛到相同的模式,这是激活最大化常见的现象[11,40,59]。相比之下,类内的真实图像倾向于显示出更多的多样性(图1)。2 c)。在本文中,我们通过在潜在代码上添加先验来提高通过DGN-AM产生的样本的多样性和质量,该潜在代码沿着逼真图像的流形保持优化(图11)。2d)。我们通过提供一个概率框架来实现这一点,在该框架中,将激活最大化方法[48,64,40,37]统一并解释为一种基于能量的模型[4,29],其中能量函数是多个约束项的总和:(a)先前(例如偏置图像以使其看起来真实)和(b)条件,通常作为单独训练的分类模型的类别给出(例如,使图像看起来像“钢琴”或既像“钢琴”又像“蜡烛”)。然后,我们展示了如何从这样的模型使用近似大都会调整Langevin采样算法迭代采样。我们称这类模型为即插即用生成网络(PPGN)。该名称反映了该方法的一个重要而有吸引力的特性:人们可以自由地设计能量函数,并且利用不同的先验和条件“即插即用”以形成新的生成模型。最近已证明此属性在使用DGN-AM生成器网络先验和在不同条件网络中交换的多个图像生成项目中是有用的[66,13]。除了生成以类为条件的图像,PPGN还可以生成以文本为条件的图像,从而形成文本到图像生成模型,该模型允许人们用单词描述图像并对其进行合成。我们通过附加一个循环,图像字幕网络(而不是图像分类网络)的生成器的输出,并执行类似的迭代采样来实现这一点。请注意,虽然本文只讨论图像生成领域,但该方法应该推广到2446933333许多其他数据类型。 我们在www.example.com上发布了我们的代码和经过训练的网络http://EvolvingAI.org/ppgn。2. 迭代图像生成方法从 Metropolis 调 整 的 Langevin 算 法 [46 , 45]( MALA ) 开 始 , 可以 定 义 马 尔 可 夫 链蒙 特 卡 罗(MCMC)采样器,其平稳分布近似于给定的分布p(x)。我们将MALA的变体称为MALA-approx,它使用以下转换运算符:xt+1=xt+<$12<$logp(xt)+N(0,<$2)(1)p(x|y = y c)= p(x)p(y = y c|x)/p(y = y c)p(x)p(y = y c|(3)我们可以为这个模型构造一个MALA-approx采样器,它产生以下更新步骤:x t+1= x t+12log p(x t|y = y c)+N(0,n2)=x t+<$12<$log p(x t)+<$12<$log p(y = yc|x t)+N(0,x2)(四)将λ展开为显式偏导数,并将λ12解耦为显式λ1和λ2乘数,我们得到以下形式的更新规则:一个完整的推导和讨论中给出了第二节。S6.使用这个采样器,我们首先推导出一个概率可解释的公式,用于激活最大化方法(第二节)。2.1)然后解释其他激活最大化算法xt+1= xt+1对数p( xt)xt+2对数p(y = yc| x t)xt+N(0,2)(五)在这一框架内(第二节)。第2.2节S7)中。2.1. 激活最大化的概率框架假设我们希望从联合模型p(x,y)中采样,该联合模型可以分解为图像模型和分类模型:p ( x , y ) = p ( x ) p ( y|x )(2)这个等式可以被解释为首先,p(y|X)专家确定图像生成的条件(例如图像必须分类,被称为“cardoon”)。此外,在高维图像空间中,需要一个好的p(x)专家来确保搜索停留在我们试图建模的图像分布的流形中(例如,面部图像[6,63]、鞋子[67]或自然图像[37]),否则我们可能会遇到无法识别但具有高p(y)的“愚弄”示例|x)[38、51]。因 此 ,p(x)和p(y|(x)共同实施一项共同的cated图像生成的高维约束。我们可以为完整的联合p(x,y)编写一个采样器,但是因为y变量是分类的,现在假设我们将y固定为一个特定的选择类yc,yc在内部采样循环之外被采样或选择。3这就给我们留下了条件p(x|y):2为了节省空间,我们稍微滥用符号,表示为N(0,n =2)是该分布的样本第一个步长被给定为1012,以预期稍后分裂成单独的1011和1012项。[3]我们也可以在循环中对y进行重新采样,但是通过所考虑的Langevin族进行重新采样并不是一个自然的选择:因为来自数据集的y值是独热的(one-hot),并且来自模型的y值希望几乎是独热的(one-hot),所以在来自不同类别的(x,y)对之间将存在宽的小的或零似然区域。因此,对于y分量来说,进行局部跳跃不是一个好的24470我们的经验发现,解耦的101和102多-翻斗车更好用。这三个术语的作用的直观解释如下:• 第1项:从当前图像xt向看起来更像通用图像(来自任何类的图像)的图像迈出一步• 第2项:从当前图像xt向使分类器在所选类别中输出更高置信度的图像 P(y=y c)|x t)项通常由softmax输出单元建模现代convnet,例如AlexNet [26]或VGG [49]。• 第 三个术语:添加少量的噪音来跳跃搜索空间,以鼓励图像的多样性。2.2. 对先前模型的解释除了不包括拒绝步骤所引入的误差之外,方程中的采样器的平稳分布。5将收敛到适当的分布,如果项被适当地选择[61]。因此,我们可以使用这个框架来解释先前提出的用于生成样本的迭代方法,评估每个方法是否忠实地计算和使用每个术语。有许多先前的方法从训练模型迭代采样以生成图像[48,64,40,37,60,2,11,63,67,6,39,38,34],其中方法设计用于不同的目的,例如激活最大化[48,64,40,37,60,11,38,34]或通过在生成器网络的潜在空间中进行采样来生成逼真的图像[63,37,67,6,2,17]。然而,它们中的大多数是基于梯度的,并且可以被解释为来自图形模型的MCMC采样的变体[25]。虽然对各种办法的分析超出了本文的范围,我们确实在第二节中研究了这个框架下的一些代表性方法。第七节。特别地,我们解释了缺乏p(x)图像的模型24471G一红色汽车特征ℎGCQC开始一辆红色的E2-1E1联系我们E2系列映像池5fc6PPGN与不同的学习先验网络(即,不同DAE)用于图像分类的预训练convnetF一图像分类器B DGN‐AM图像分类器CPPGN-图像分类器1000标签简体中文公司简介+G编码器网络EDAE类DAE类类图像字幕网络(没有学习的p(h)D关节PPGN‐图像分类器e无噪音接头图像分类器+G+CℎGC类E2+E1类E2-1E1对类别的采样条件作用对字幕的采样条件作用图3:我们测试的PPGN模型的不同变体。无噪声联合PPGN-h(e),我们发现经验产生最好的图像,产生的结果显示在图2和3。4.第3.5在所有变体中,我们都按照两个项的梯度执行迭代采样:条件(红色箭头)和先验(黑色箭头)。(a)PPGN-x(第3.1):为了避免在高维图像空间中采样时欺骗示例[38],我们通过图像的去噪自动编码器(DAE)引入了p(x)先验模型,并以条件网络C的输出类为条件对图像进行采样(或者,为了可视化隐藏神经元,以C中隐藏神经元的激活为条件)。(b)DGN-AM(Sec. 3.2):代替在图像空间中采样(即,在单个像素的空间中),Nguyen et al.[37]在生成器G的抽象、高级特征空间h中采样,生成器G被训练为根据从预训练的编码器E(f)提取的压缩特征h来重构图像x因为生成器网络被训练成生成真实图像,所以它作为p(x)的先验,因为它理想地只能生成真实图像。然而,该模型在p(h)上没有学习的先验(除了简单的高斯假设)。(c)PPGN-h(Sec. 3.3):我们试图通过结合学习的p(h)先验,通过多层感知器DAE为h建模,来提高混合速度和图像质量。(d)联合PPGN-h(第3.4):为了改善PPGN-h中DAE的数据建模效果不佳的问题,我们尝试将G+E1+E2视为通过x对h进行建模的DAE。此外,为了可能提高G的鲁棒性,我们还在训练和采样期间向h1和x添加少量噪声,将整个系统视为由4个共享参数的交织模型组成:一个GAN和3个交织DAE,分别用于x,h1和h该模型混合速度快得多,比DGN-AM和PPGN-h产生更好的图像质量(图1)。S14)。(e)无噪声接头PPGN-h(第3.5):我们对关节PPGN-h进行了消融研究,扫描了噪声水平或损失组合,并发现了一种经过训练的无噪声关节PPGN-h变体,损失少一个(第3.5节)。S9.4)以产生最佳图像质量。(f)一个预先训练好的图像分类网络(这里是在ImageNet上训练的AlexNet)通过将图像x映射到一个有用的、抽象的、高级的特征空间h(这里是AlexNet的fc 6层)来作为我们模型的编码器网络E组件(g)我们可以通过将一个递归的图像字幕网络附加到G的输出层,并执行类似的迭代采样,来生成以字幕为条件的图像,而不是以类为条件先验,产生对抗性或欺骗性的例子[51,38],如设置(101,102,103)=(0,1,0);以及在采样期间使用L2decay的方法,如使用高斯p(x)先验,训练时间,近似是完美的极限,σ→0:(λ1,λ2,λ3)=(λ,1,0)。 两者都缺少噪声项,因此logp(x)Rx(x)−x≈(六)牺牲样本多样性。3. 即插即用生成网络以前的模型往往是有限的,因为他们使用手工设计的先验时,无论是在图像空间或潜在空间的发电机网络(见节。S7)中。在本文中,我们使用4种不同的显式学习先验进行实验,这些先验由去噪自动编码器(DAE)[57]建模。我们选择DAE是因为,尽管它不允许X σ2其中,R x是表示DAE的x空间中的重建函数,即R x(x)是当编码器被馈送输入x时自动编码器R x(编码器后接解码器)的“去噪”输出。这个项近似于我们的采样器所需的101项,因此我们可以使用它来定义c类图像x的采样器步骤。将σ2项拉入σ1,更新为:直接计算p(x),它确实允许近似X.logp(y = y c|x t)2当用高斯训练时对数概率的梯度-有方差σ2的正弦噪声[1];有足够的容量,t+1=xt+1Rx(xt)−xt+2N+N(0,N +1)(七)244723.1. PPGNx:p(x)的DAE模型首先,我们测试使用DAE直接对p(x)在λ中,我们得到以下Nguyen等人的无噪声更新规则。[37]要从类别y c中采样h:(图3a)并通过等式从整个模型中采样7 .第一次会议。然而,我们发现PPGN-x表现出两个预期的问题:(1)它对数据分布的建模很差;ht+1=(1−λ)ht+λ2对数p(y = y c|h t)htlogCc(G(ht))(2)链混合缓慢。更多细节在第二。第十一章。=(1−λ)ht+λ2T(t)(十)ht3.2. DGN AM:在没有学习先验知识的情况下进行采样PPGN-x的高维像素空间中的不良混合与先前的观察一致,即在更高层上混合可以导致更快的空间探索[5,33]。因此,为了改善缓慢的问题,其中Cc(·)表示与类yc相关联的输出单元d。和以前一样,所有的项都可以在一次向前-向后的过程中计算。更具体地说,为了计算第二项,我们将代码h通过生成器G和条件网络C推送到我们想要条件化的输出类c∫混合,我们可以将p(x)重新参数化为h p(h)p(x|h)dh(图3b,红色箭头),并反向传播梯度通过相同的路径到达H。最后一个h被推过G,对于一些潜在的h,并在这个较低的-维h-空间虽然最近的几项工作在这种方法上取得了成功[37,6,63],但他们经常手工设计p(h)先验。其中,DGN-AM方法[37]在生成器网络G的潜在空间中搜索以找到代码h,使得图像G(h)高度激活目标DNN中的给定神经元我们首先复制他们的结果以供比较。G按照Dosovitskiy Brox [9]中的方法进行训练,其中L2图像重建损失,生成对抗网络(GAN)损失[14]以及编码器E的特征空间h1中的L2损失(图3f)。最后一个损失鼓励生成的图像在高级特征空间中匹配真实图像,在本文中称为“特征匹配”[ 47 ],但也称为“感知相似性”[ 28,9 ]或“矩匹配”[ 31 ]的一种请注意,在G的GAN训练中,我们同时训练了一个ARMD来区分真实图像x和生成图像G(h)。更多培训详情请参见Sec。S9.4。产生图像样本。在这个新提出的框架下,我们成功地再现了原始的DGN-AM结果,以及它们在从不同的随机初始化开始时收敛到相同模式的过程(图1)。(见第2段b)。我们还发现DGN-AM混合有些差,在许多采样步骤之后产生相同的S14b)。3.3. PPGNh:p(h)的生成器和DAE模型我们试图通过将通过DAE学习的适当p(h)先验知识纳入第2节中描述的采样过程,来解决DGN- AM混合速度差的问题3.2.具体来说,我们在h上训练Rh,一个7层、全连接DAE(和前面一样,h是fc6特征向量)。隐藏层的大小分别为:4096−2048−1024−500−1024 −2048−4096。完整培训详情见S9.3。从该模型中采样h的更新规则类似于当量10除了包含所有三个术语:DGN-AM的有向图模型解释ht+1=ht+(Rh(ht)−ht)+logCc(G(ht))是h→x→y(见图3b),联合p(h,x,y)可以是1 2T(t)ht分解为:p(h ,x,y)= p(h )p(x|h)p(y|x)(8)其中h在这种情况下表示从预训练的AlexNet [26]1000类ImageNet [7]分类网络的第一个全连接层(称为fc6)(见图2)。3f)。p(x|h)由G建模,G是一个上卷积(也称为“去卷积”)网络[ 10 ],具有9个上卷积层和3个全连接层。p(y|x)由C建模,在这种情况下,C也是AlexNet分类器。p(h)的模型是通过h空间中的L2衰减实现的隐式单峰高斯模型[37]。由于x是一个确定性变量,该模型简化了收件人:p(h,y)= p(h)p(y|(9)从Eq. 5,如果我们定义一个中心在0和设置(λ1,λ2,λ3)=(λ,1,0),拉高斯锥,2447333+N(0,2)(11)具体地说,为了计算R h(h t),我们将h t推过学习的DAE,对其进行编码和解码(图2)。3c,黑色箭头)。如前所述,通过G和C网络的前向和后向传递来计算R2项(图12)。3 c,红色箭头)。最后,我们将DAE训练期间使用的相同数量的噪声N(0,N =2)添加到h。等效地,也可以在编码-解码步骤之前添加噪声我们使用(101,102,103)=(10−5,1,10−5)对4个样本进行采样,结果如图2所示。S13 cS14 c.正如预期的那样,该链混合速度比PPGN-x快,随后的样本与其前身相比在质量上有更大的不同然而,PPGN-h的样品与DGN-AM的样品在定性上相似(图1A和1B)。S14b)。样本仍然缺乏质量和多样性,我们假设这是由于DAE学习的p(h)4如果需要更快的混合或更稳定的样品,可以按比例放大或一起下载。在这里,我们将两者都缩放到10−5。244743.4. 联合PPGNh:联合Generator和DAE前面的结果表明,简单的多层感知器DAE对fc6特征分布的建模很差这可能是因为DAE面临着一般困难的无约束密度估计问题。为了解决这个问题,我们尝试通过x对h进行使用DAE:h→x→h。直观地说,为了帮助DAE更好地建模h,我们强制它生成逼真的图像x,然后将它们解码回h。可以从G中单独从头开始训练这个DAE(如PPGN-h所做的那样)。然而,在DGN-AM公式中,G对h→x进行建模(图1)。3b)和E模型的x→h(图。3f)。因此,组合物G(E(. ))可视为AEh→x→h(图3d)。注意,G(E(. ))理论上不是正式的h-DAE,因为它的两个组件都没有使用噪声进行训练增加到h,也不是h的L2重建损失[37](更多细节见第37节)。S9.4),如常规DAE培训所需[57]。为了使G(E(. ))一个理论上更合理的h-DAE,我们将噪声添加到h和列车G中,并为h增加额外的重建损失(图2)。S9c)。我们对x和h1(pool5特征)做同样的事情,假设在x和h1上添加一点噪声可能会促使G变得更鲁棒[57]。换句话说,使用与DGN-AM [37]相同的现有网络结构,我们通过将整个模型视为由共享参数的3个交错DAE组成来不同地训练G:h、h1和x各一个(见图S9 c)。注意,E保持冻结,G在总共4次损失的情况下训练,即x、h和h1的三个L2重建损失以及x的GAN损失。参见第S9.5完整培训详情。我们称之为联合PPGN-h模型。我们从这个模型中采样,遵循等式中的更新规则11,其中(101,102)=(10−5,1),并将噪声添加到所有三个变量:h,h1和x,而不仅仅是h(图11)。3dvs e)。在每一层添加的噪声量与训练期间使用的噪声量相同。如所假设的,我们观察到来自该模型的采样链比所有先前的PPGN处理混合得更快,并且产生具有更好质量的样品(图1A和1B)。S13 dS14 d)包括PPGN-h,其具有多层感知器h-DAE。3.5. 无噪声关节PPGNh消融研究虽然联合PPGN-h在样本质量和多样性方面优于所有以前的处理(因为链混合更快),但该模型是通过四个损失和添加到所有变量的噪声的组合进行训练的。这种复杂的训练过程可能难以理解,使得进一步的改进不直观。为了更清楚地了解联合PPGN-h是如何工作的,我们进行了消融实验,后来发现了一个性能更好的变体。噪音扫描。为了理解向每个变量添加噪声的影响,我们训练了联合PPGN-h的变体(1)具有不同的噪声水平,(2)仅在单个变量,以及(3)同时使用多个变量上的噪声。我们没有发现这些变体产生比联合PPGN-h更好的质量重建结果。有趣的是,在完全没有噪声训练的PPGN变体中,由G(E(. ))仍然看起来是有争议的,即,鲁棒的大量噪音(图。S16)。这在采样期间是有益的;如果出现“不切实际的”代码,G可以将它们映射回看起来真实的图像。我们认为,这一属性的出现可能有多种原因:(1)G和E不联合训练;(2)h特征编码的是全局的、高层次的信息,而不是局部的、低层次的信息;(3)在训练时对抗性成本的存在--通过将x推向图像分布的模式,ingG可以使h→x映射更加损失的组合。为了理解每个损失分量的影响,我们重复联合PPGN-h训练(第二节)。3.4),但没有噪声添加到变量。具体地,我们测试了不同的损失组合,并比较了通过将真实图像的代码h推过G(没有MCMC采样)而产生的图像G(h)首先,我们发现从4-损失组合中去除对抗性损失会产生更模糊的图像(图1)。S8c)。其次,我们比较了3种不同的特征匹配损失:fc6,pool5,以及fc6和pool5的组合,发现pool5特征匹配损失导致最佳图像质量(Sec. S8)中定义。我们的结果与Dosovitskiy Brox[9]一致。因此,我们根据经验发现的产生最佳图像质量的模型是在没有噪声的情况下训练的,并且有三个损失:池特征匹配损失、对抗损失和图像重建损失。我们称这种变体为12和第3.54节。无 噪 声 接 头 PPGN-h. 我 们 从 这 个 模 型 中 采 样 ,(101,102,103)=(10−5,1,10−17),遵循等式中相同的最新规则。11(我们需要噪声使其成为一个适当的采样过程,但发现无限小的噪声产生更好和更多样化的图像,这是可以预期的,因为该变体中的DAE是在没有噪声的情况下训练的)。有趣的是,该链比DGN-AM混合得快得多(图1A和1B)。S13eS13b),尽管两种处理之间的唯一区别是学习的p(h)先验的存在。总的来说,无噪声联合PPGN-h产生大量的样本多样性(图1)。2)的情况。与联合PPGN-h相比,无噪联合PPGN-h产生更好的图像质量,但混合稍慢(图1A和1B)。S13S14)。扫描采样过程中的噪声水平,我们注意到较大的噪声量通常会导致图像质量变差,但不一定会导致混合速度加快(图1)。S15)。此外,正如预期的那样,一个小的100- 1乘数使链混合更快,而一个大的乘数将样本拉向通用而不是特定于类的方向(图1)S23)。评价。评估图像生成模型是24475这是一个挑战,目前还没有一个普遍接受的量化绩效衡量标准[53]。我们通过运行10个采样链,每个采样链200步,产生2000个样本,并过滤出类概率小于0的样本,来定性评估无噪声联合PPGN-h变体的样本多样性。九十七 从剩下的样本中,我们随机挑选400个样本,并将它们绘制在网格t-SNE中[56](图1和图2)。S12S11)。读者评价样品质量和多样性的更多示例S21S22S25. 为了更好地观察混合速度,我们展示了采样链的视频(每帧一个样本;没有过滤掉的样本)从www.example.com 36 S 0 Dy的类内和10个不同类之间https://goo.gl/。此外,表S3提供了PPGN、辅助分类器GAN [41]和真实ImageNet图像在图像质量方面的定量比较(通过Inception评分[47]初始准确度[41])和多样性(通过MS- SSIM度量[41])。虽然未来的工作需要完全理解为什么Noiseless JointPPGN-h比其他现有的潜变量模型更成功地为1000级ImageNet生成高分辨率的高质量图像[41,47,43],但我们在第二节中讨论了可能的解释。第十二章4. 附加结果在本节中,我们采用无噪联合PPGN-h模型,并展示其在几个不同任务上的能力。4.1. 生成具有不同条件网络的图像一个令人信服的属性,使PPGN不同于其他现有的生成模型是,一个人可以“即插即用”与不同的先验和条件组件(如方程所示)。2)并要求模型执行新的任务,包括挑战生成器生成它以前从未见过的图像。 在这里,我们演示了这个功能通过替换p(y|x)具有不同网络的组件。生成以类为上面我们展示了PPGN可以为ImageNet类生成多种高质量的样本(图2 - 3)。12秒3.5)。在这里,我们测试PPGN中的生成器G是否可以推广到它以前从未见过的新类型的图像。 具体来说,我们用不同的样本-输入p(y|x)模型:一个AlexNet DNN [26],经过训练,可以对来自MIT Places的205类场景图像进行分类数据集[65]。 类似于DGN-AM [37],PPGN为生成器从未训练过的类生成逼真的图像,例如“小巷”或“酒店房间”(图10)。4). DGN-AM和PPGN之间的并排比较见图。S17.生成以字幕为条件的图像图4:在MIT Places条件下合成的图像[65]用类代替ImageNet类。我们也可以根据标题来生成图像,而不是根据类来生成图像(图1)。3g)。在这里,我们交换了一个来自[8]的图像字幕递归网络(称为LRCN),该网络在MS COCO数据集[32]上训练,以预测给定图像x的字幕y。具体来说,LRCN是一个双层LSTM网络,它根据从AlexNet的输出softmax层提取的特征生成字幕。图5:合成图像以匹配文本描述。包含来自[ 8 ]的图像字幕模型的PPGN可以基于用户提供的字幕(例如,红车对蓝车,橙车对一堆橘子)。对于每个标题,我们展示了从随机代码开始合成的3个图像(更多信息见图1)。S18)。我们发现,PPGN可以在许多情况下生成合理的图像(图1和图2)。5S18),尽管图像质量低于按类别调节时。在其他情况下,它也无法为某些类型的图像生成高质量的图像,例如“人”或“长颈鹿”,这些图像不是生成器训练集中的类别(图2)S18)。我们还观察到了更多结果见Fig.S18. 这项任务的挑战可能是:(1)采样是以许多(10-15)字同时为条件的,并且梯度从dif反向传播,24476不同的词可能会相互冲突;(2)LRCN字幕模型本身容易被欺骗,因此在从图像特征到自然语言的转换上增加额外的先验可以进一步改善结果;(3)整个模型(AlexNet和LRCN)的深度在采样期间损害梯度传播。在未来,这将是有趣的实验与其他国家的最先进的图像字幕模型[12,58]。总的来说,我们已经证明,通过将先验知识与图像字幕网络相结合,PPGN可以灵活地转换为文本到图像模型,并且这个过程甚至不需要额外的训练。生成以隐藏神经元为条件的图像PPGN可以执行更具挑战性的活动形式vation最大化称为多面特征可视化(MFV)[40],它涉及生成激活给定神经元的输入集这里,我们不是以类输出神经元为条件,而是以隐藏的神经元为条件,揭示 了 神 经 元 已 经 学 会 检 测 的 许 多 方 面 ( 图 2 ) 。(六)。图6:合成图像以激活隐藏神经元(编号196),该神经元先前被识别为在ImageNet上训练的AlexNet DNN的第五卷积层中的PPGN揭示了激活该神经元的各种类型的输入,从而执行多面特征可视化[40],这揭示了神经元已经学会检测的内容。不同的方面包括不同类型的人脸(顶行),狗脸(底行),和对象,只有勉强相似的脸(例如,房子的窗户,或者在肉色的补丁上类似绿色头发的东西)。更多的例子和细节在图1和图2中示出。S19S20.4.2. 修复由于PPGN可以概率地解释,因此我们也可以在图像的一部分(除了类条件之外)上对其进行采样,以执行修复-填充给定观察到的上下文区域的缺失像素[42,3,63,54]。模型必须理解整个图像,以便能够合理地填充随机定位的大型遮罩区域。总的来说,我们发现PPGN能够执行修复,这表明模型确实“理解”了junco或bell pepper等概念的语义(图11)。7)而不仅仅是记忆图像。更多的细节和结果在SEC。S10。图7:我们执行类条件图像采样来填充缺失的像素(参见第二节)。4.2)。除了对特定类(PPGN)进行条件化之外,PPGN-上下文还约束代码h以产生与上下文区域匹配的图像。PPGN-上下文(c)比PPGN(b)更好地匹配遮罩区域周围的像素,并且在许多情况下比Photoshop(d)中的上下文感知填充功能更好地进行语义填充实验结果表明,类条件PPGN能够理解图像的语义。更多的PPGN上下文结果见图2。S24.5. 结论PPGN最有用的属性是“即插即用”的能力除了我们在这里展示的应用之外,人们还可以使用PPGN来合成视频图像,或者同时使用一个甚至多个条件网络创建艺术[13]。请注意,DGN-AM [37]-PPGN的前身-以前已经使科学家和业余爱好者能够在没有大量资源的情况下使用预先训练的条件网络并生成艺术[13]和科学可视化[66]。为什么这是可能的解释是,生成器被训练来反转的fc6特征是相对一般的,并且覆盖了自然图像集。因此,有很大的价值,在生产灵活的,强大的发电机,可以结合预先训练的条件网络在一个即插即用的方式。致谢我们感谢Theo Karaletsos和Noah Goodman的讨论,以及Jeff Donahue为我们的实验提供了一个经过训练的图像 字 幕 模 型 [8] 。 我 们 还 要 感 谢 Joost Huizinga 、Christopher Stanton、Rosanne Liu、Tyler Jaszkowiak、Richard Yang和Jon Berliner对初稿提出的宝贵建议。24477引用[1] G. Alain和Y.本吉奥。正则化的自动编码器从数据生成分布中学习到什么。The Journal of Machine LearningResearch,15(1):3563-3593,2014。四、十七、十九[2] K. Arulkumaran,A.Creswell,和A.A. 巴拉斯用马尔可夫链改进生成式自动编码器的arXiv预印本arXiv:1610.09296,2016. 三、十三[3] C. Barnes , E. Shechtman , A. Finkelstein 和 D. 戈 德 曼Patchmatch:一种用于结构图像编辑的随机对应算法。ACM图形汇刊-TOG,28(3):24,2009. 八、十七[4] I. G. Y. Bengio和A.考维尔深度学习本书准备由MIT出版社出版,2016年。2、12[5] Y.本吉奥湾Mesnil,Y. Dauphin和S.瑞菲通过深度表示更好地第30届国际机器学习会议(ICML)论文集,第552-560页,2013年5[6] A. Brock,T. Lim,J. Ritchie,and N. 韦斯顿 使用内省对抗网络进行神经照片编辑。arXiv预印本arXiv:1609.07093,2016。三五十三[7] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。Imagenet:一个大规模的分层图像数据库。 在计算机视觉和模式识别,2009年。CVPR 2009。IEEE会议,第248-255页。IEEE,2009年。二、五、十四、十六、二十九[8] 多纳休湖A. Hendricks,S. Guadarrama,M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期回流卷积网络。在计算机视觉和模式识别,2015年。七、八、二十九[9] A. Dosovitskiy和T.布洛克斯基于深度网络的感知相似度映射生成图像。在神经信息处理系统的优势,2016年。一、五、六、十四、十五、十六、十八、二十七[10] A. 多索维茨基Tobias Springenberg和T.布洛克斯学习用卷积神经网络生成椅子。IEEE计算机视觉和模式识别会议论文集,第1538-1546页,2015年五、十六[11] D. Erhan,Y.Bengio,A.Courville和P。文森特可视化深层网络的高层特征技术报告技术报告,蒙特利尔大学,2009年。二、三、十三、十四[12] A. 弗 罗 姆 , G 。 S. Corrado , J.Shlens , S.Bengio ,J.Dean,M.A. Ranzato和T.米科洛夫Devise:一个深度视觉语义嵌入模型。In C.伯吉斯湖Bottou,M. 威林Z. Ghahramani和K. Weinberger,编辑,神经信息处理系统进展26,第2121- 2129页。Curran Associates,Inc.2013. 8[13] G.天啊 图像合成从雅虎开放nsfw。 https://opennsfw.gitlab.io,2016年。二、八[14] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展,第2672-2680页,2014年。二、五、十六、十八、十九、二十七[15] K.格雷戈尔岛Danihelka,A. Graves和D.维尔斯特拉Draw:用于图像生成的递归神经网络。ICML,2015。1[16] A. Gretton,K.M. Borgwardt,M.拉施湾Scho¨lk opf,以及A.杰·斯莫拉。两样本问题的核方法。神经信息处理系统的进展,第513-520页,2006年15[17] T.汉,Y。吕,S.- C. Zhu和Y. N.吴发电机网络的交替反向传播算法。InAAA
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功