没有合适的资源?快使用搜索试试~ 我知道了~
10753用于交互式图像生成的约束生成对抗网络埃里克·海姆空军研究实验室情报处美国纽约州罗马eheim602@gmail.com摘要生成对抗网络(GAN)受到了极大的关注,部分原因是最近成功地从视觉领域生成了原始的高质量样本。然而,大多数当前方法仅允许用户通过有限的交互来引导该图像生成过程。在这项工作中,我们开发了一个新的GAN框架,允许人类我们的技术迭代地接受形式的相对约束在给出每个约束之后,用户将看到来自GAN的新输出,通知下一轮反馈。该反馈用于相对于底层语义空间来约束GAN的输出,该底层语义空间可以被设计为对各种不同的相似性概念(例如,类、属性、对象关系、颜色等)。在我们的实验中,我们证明了我们的GAN框架能够生成与同等无监督GAN质量相当的图像,同时满足用户提供的大量约束,有效地将GAN变为允许用户交互控制图像生成而不牺牲图像质量的GAN。1. 介绍从数据中学习生成模型是一项最近受到关注的任务,这是由于复杂数据领域的一些突破[15,30,13]。一些最引人注目的成功是使用生成对抗网络(GANs)创建新颖的图像[6]。虽然GAN在让机器有效地“绘制”逼真的图片方面表现出了希望 或特定于域的属性[35](例如,“绘制带有条纹的外套”)。这样的反馈虽然强大,但限制了用户通过预定义的标签集来表达反馈。如果用户无法准确表达特征,图1:与CONGAN发生器的交互:用户以两个图像的形式提供相对约束,意味着“生成比图像B更像图像A的图像”。该约束被组合到先前给定的约束以形成一个集合,该集合被输入到生成器以产生图像。向用户显示此图像以驱动反馈的进一步生成器的目标是“满足”关于到底层语义空间的映射的约束。生成器通过产生映射到比映射到B的坐标更靠近映射到A的坐标的图像来满足约束(A,B)他们希望使用这个标签集,那么他们就不能指导模型产生可接受的图像。在这项工作中,我们寻求一种更自然、更强大的方式,让人类与生成模型进行交互为此,我们提出了一种 新 的 GAN 技 术 , 我 们 称 之 为 约 束 GAN(CONGAN)。我们的模型被设计为迭代地接受人类反馈,有效地将用户图1说明了用户如何与CONGAN生成器交互。生成器接受形式为“比图像B更像图像A”的相对+用户图像发生器约束集约束映射到语义空间与用户互动10754这些约束用于在给定的语义空间内定义可行区域,该语义空间对图像之间的相似性的基本概念生成器的目标是接受相对约束作为输入,并输出在相应可行区域内的图像以这种方式对交互进行建模有两个主要好处。首先,这种相对成对评估已被证明是人类表达相似性的简单媒介[14,26]。因此,CONGAN允许用户以自然的方式改进其输出。除了提供成对比较之外,还可以使用相对约束来允许不同的交互。如果来自生成器的输出然后在下一次迭代中作为B(通过这种方式,用户可以提供单个示例,意味着其次,在CONGAN框架内,语义空间定义了用户引导图像生成过程的特征。这允许选择各种相似性概念,例如类别和属性信息,但也允许选择更连续或复杂的概念,例如颜色空间或图像内对象的大小。为了实现这种形式的交互,我们的模型必须有多个相互关联的组件。生成器必须能够接受可变数量的约束作为一个集合,即,输出应该对于输入约束的顺序是不变的。为此,我们在CONGAN生成器中利用最近在内存网络[7,34,27,31]中的工作来学习整个约束集上的固定长度向量表示此外,生成器必须不仅能够生成逼真的图像,而且能够生成在给定语义空间的可行区域内的图像。在训练期间,CONGAN生成器针对强制输出以满足给定约束的约束评论器进行训练。其结果是一个发电机,能够产生图像引导迭代相对反馈。本文件的其余部分将按以下方式进行首先,我们讨论一下以前的相关工作。然后,我们描述了我们的方法开始与正式定义的约束生成-GAN的大部分基础工作都集中在无监督学习环境上[6,39,1]。这些模型的输出可以通过操纵用作输入的潜在空间来控制[23,22]。然而,这种操纵是有限的,因为潜在空间通常没有明显的人类可理解的解释。因此,找到操纵它的方法需要在潜在空间中的两点之间进行试错或插值其他作品学习条件GAN模型[21],其中生成由侧面信息指导,例如类标签[21],视觉属性[35],文本[24]和图像[28]。在这项工作中,我们的目标是开发一种方法,允许更直观地操纵GANs输出,并将其推广到许多不同形式的相似性。与我们最相似的GAN方法是[40]中该方法首先使用GAN将图像映射到自然图像的然后,它们提供了一系列图像编辑操作,用户可以使用这些操作来沿着该流形移动图像。我们认为我们的工作是相关的,但正交于这项工作,作为两个操纵的手段以及方法的目标不同。另一个推动这项工作的研究方向是图像互动学习。这个领域的大部分工作都集中在分类问题上[3,32,17,33],但也有其他问题,如学习本地化属性[4]。最值得注意的是,在[16]中,作者提出了一种交互式图像搜索方法,允许用户基于视觉属性对其查询进行迭代细化。这在原理上与我们的方法相似,因为他们的方法通过与感兴趣区域中的其他图像进行交互式比较来搜索然而,我们的方法不一定需要预定义的属性,并生成新的图像,而不是从数据库中检索相关的图像。3. 一种约束图像生成模型这项工作的目标是学习一个图像生成模型的形式,从一组成对的相对约束映射到一个现实的外观图像。设X是一个图像域。我们希望学习映射:曝气问题,继续到CONGAN训练算法,并以CONGAN生成器的描述结束。接下来,我们执行评估,gΘ:、(X×X)i、| i≥ 1×Z›→X我们将我们的方法与无监督GAN进行比较,显示定性和定量结果。最后,我们得出结论。2. 相关工作我们提出的CONGAN方法来自神经网络图像生成中的一系列具体来说,自编码器[15],自回归模型[30]和生成对抗网络[6](GAN)最近都取得我们选择使用GAN框架来学习模型,因为GAN可以说是在定性图像质量方面表现最好的该生成器映射约束集合C ={C1,C2,... }和随机噪声向量z∈Z到图像,其中约束C=(X+,X-)∈ X × X是一对图像,意味着“生成更像X +而不是X-的图像”。直观地说,z表示在约束条件内允许的图像变化,不同的z将产生不同的图像。实际上,z提供了在GAN框架内训练生成器所需的噪声分量为了训练我们的生成器,我们需要一种确定gΘ的输出是否满足输入约束的机制。为此,我们假设存在一个映射φ:X <$→ S,它将图像映射到一个语义空间。唯一的10755αM1算法1CONGAN训练程序输入:梯度惩罚系数λ、约束惩罚系数γ、每个生成器迭代的n次迭代n盘、批量大小m、Adam优化器参数α、β1、β2我们引入约束评论器的思想,其以与dW类似的方式通知训练过程。我们将约束批评损失定义为将图像映射到语义空间后每个约束的平均损失重复ˆ ˆ对于t = 1,. n圆盘直径对于i = 1,…,m do样本XPD,CPC,zZ,U(0,1)l φ,S(X,C)=− |C|pS(φ(X),φ(X+),φ(X−))(X+,X −)∈CX<$←gΘ(C,z)˜ ˆ每个约束pS上的损失受到以下中t分布随机三重嵌入(STE)[29]:X← X+(1−)XLi← dW端(X)−dW.(1)A+B(||XΣdW(X)||2Σ-1)2p(a,b,c)=.1+dS(a,b)−α+12W←亚当第1Mi=1 Li,α,β1,β2S.1+dS(a,b)- α+1。2dS(a,c)−α+12端样品批次.Σmzi奥兹,.ΣmCiCUPCα+1+α米.. ii=1毫米i=1这种损失根据一个t学生模型比较对象对{X}i=1 ←gΘ1ΣmC,zi ˆii=1ˆi核心,并受到降维成功的激励,L<$mi=1− dW(X)+ γlφ,S(X)Θ<$Adam(<$Θ L,α,β1,β2)直到Θ收敛条件是φ是可微的,并且在S的元素上存在距离度量dS。例如,如果想要让用户通过其属性(即,S的维度对应于属性),使用重尾相似性内核的分离技术[19]。通过最小化每个约束的p S的n g,X在S中被“拉”得更靠近图像X+,而被“推”得更远离图像X −。因此,在训练过程中使用这种损失将产生更有可能满足约束的图像我们利用约束批评家损失与训练CONGAN生成器。更具体地说,我们的训练算法是Wasserstein GAN的扩展 [1,8]。我们的目标是优化以下方面:φ可以是学习的属性分类器(对于二进制属性)或回归量(对于连续属性)。我们说一个生成的min maxE[dW(X)]−EΣ ΣdW(X<$)−γlφ,S(X<$,C)图像X满足giv en约束C=(X+,X-),其中对于S,如果以下成立:ΘWX θPDXXXPg.Σ。Σˆ ˆ这里,PD是数据分布(即,X是来自Pg是生成器分布(即,X=dS φ(X),φ(X+) dS φ(X),φ(X−)(一)gΘ(C,z),对于给定的z∈Z和从约束集合的训练集合中得出的给定的C最后,dW被约束为给定一组约束C,gΘ的目标是产生一个满足集合中所有约束条件的X。这样做生成器生成的图像在语义空间中更接近换句话说,C在S中定义了一个可行区域,X必须躺在里面。我们如何使用关系约束的概念在下面的部分中讨论训练gΘ3.1. 具有相对约束的对抗训练为了训练生成器gΘ,我们利用GAN框架,该框架将生成器gΘ与神经网络W进行比较,其中g和d以及神经网络分别由Θ和W训练该生成器以将生成器的输出与真实图像样本区分开。生成器经过训练,生成的图像无法与真实样本区分开来。两个人互相训练,在收敛时,生成器通常能够产生类似于真实样本的实例。虽然dW确保输出图像看起来逼真,但我们使用另一种模型来强制约束满足。为此,是1-Lipschitz。该目标通过使用随机梯度下降、在必要时从训练集和生成器采样来在更新训练集参数W和生成器参数Θ直观地说,可将该算法的输出解释为输入来自数据分布的可能性的分数。当更新时,它会尝试增加真实样本的分数,并减少生成样本的分数。相反,当生成器更新时,它会尝试增加此外,生成器更新通过超参数γ的因子减少约束损失。因此,生成器更新鼓励gΘ产生与图像训练集中的图像类似的图像,同时还满足来自约束训练集的样本。为了对dW执行1-Lipschitz约束,我们使用[8]中提出的梯度惩罚项。CONGAN 培 训 程 序 概 述 见 Alg. 1. 一 、 该 算 法 与WGAN训练算法([8]中的算法1)非常相似,但增加了一些关键字。首先,在更新编译器和生成器时,10756C1Cq*2(年qq+P-+QPz ~ZLSTMLSTM关注关注p(,)阅读CNN(,)阅读CNN$图2:CONGAN生成器。紫色是读取网络,橙色是处理网络,绿色是写入网络的约束集从训练集中选择在实践中,我们使用φ从图像训练集中的图像中构造可变长度的地面真值约束集,确保我们的生成器在S中可行的约束集上进行训练。其次,生成器更新有一个附加项:约束批评术语,鼓励约束满足。3.2. 一种约束生成网络而Alg。1概述了如何训练gΘ,我们还没有正式定义gΘ。为了使gΘ接受C作为集合,它必须1)接受可变数量的约束,以及2)输出相同的图像,而不管给出约束的顺序如何为此,我们利用了[31]的工作,该工作引入了一个能够考虑顺序不变输入(如集合)的神经网络框架CONGAN发生器的图示如图所示。二、我们的发电机有三个组成部分:1)用于学习每个约束的表示的读网络; 2)将集合中的所有约束组合成单个集合表示的处理网络;以及3)将集合表示映射到图像的写网络。下面我们将介绍其中的每一个组件。读取网络通过卷积神经网络(CNN)将图像置于约束集内以提取视觉特征。来自公共约束对的图像的特征向量结果是每个约束的单个向量ci,其共同输入到过程网络。过程网络由重复p次的“处理单元”组成令{c1,...,是对于大小为n的约束集合的读取网络对于处理单元的t次重复中的每一次,执行通过具有“基于内容”注意力的LSTM单元的迭代首先,z(作为然后,LSTMqt的结果隐藏状态输出通过点积与每个ci组合,以创建每个约束的标量值e i,t。这些在softmax函数中用于获得标量ai,t,这些标量又用于加权和。 这个和是组合约束的关键操作。 因为加法是可交换的,所以(5)的结果以及处理网络的输出对于给定约束的顺序是不变的。 结果rt与qt,并且被用作下一个处理迭代中的输入。在p步之后,q通过一个全连接层产生s,s被输入到写网络。解释该网络的一种方式是,每个处理单元迭代细化由前一次迭代产生的约束集的表示。处理单元的输出有两部分。首先,rt是约束的学习加权平均,理想情况下强调具有较强信号的约束。其次,qt是LSTM的输出,它将噪声向量和前一次迭代的输出组合在一起,使用各种门来保留某些特征,同时去除其他特征。这两个分量通过处理单元被送回以进行进一步的细化。类似于无条件GAN框架中的生成器受此启发,我们使用在深度卷积GAN(DC-GAN)[23]中使用的转置卷积[5,25]。转置卷积有效地学习上采样变换。通过从转置卷积层构建网络,我们的写网络能够学习如何从约束集的低维表示映射到高维图像。.qt =LSTM∗Σt−1(二)4. 实证评价ei,t= ci·qt(3)exp(ei,t)为了评估CONGAN,我们旨在展示其能力写网络......z,q10757J不ai,t=nexp(eΣnj,t(四))以满足约束条件,同时实现类似的WGAN模型。此外,我们希望强调用户如何与CONGAN生成器交互的一些示例,rt =ai,t ci(5)我qt=[qt,rt](6)发电机为此,我们使用三个数据集进行实验:MNIST[18],CelebA [36]和Zappos50k [37,38]。在所有实验中,我们使用建议的超参数10758+-+-+-图3:说明CONGAN的顺序不变性左侧是相对约束(顶部是正图像,底部是负图像),它们按输入CONGAN生成器的顺序排列。右边是针对两个不同z向量生成的即使以不同的顺序给出约束,输出也保持不变在[8]中:(λ= 10,n圆盘= 5,α= 0. 0001,β= 0,β= 0。9),遵循相同工作中的算法1来训练WGAN,并设置批量大小m=32。我们用从标准法线(Z=N(0,I))提取的噪声向量z来播种WGAN,并且具有均匀分布的CONGAN(Z=U(−1,1))。我们选择使用均匀分布,因为它允许两种输入进入处理网络以在相同范围内。对于MNIST实验,噪声向量的大小为64,对于CelebA和Zappos50k实验,噪声向量的大小为128我们在两个实验中都将p(“处理”步骤的在[1]中,作者观察到Wasserstein距离可以用于确定收敛性。 在我们的实验中, 对于所有模型,Wasserstein距离停止改进100,000次生成器更新迭代,并将其用作迭代限制。我们选择的γ值能够显著降低t-STE训练误差,同时保持Wasserstein距离接近WGAN所实现的距离。为了取得良好的平衡,我们在MNIST上设置γ=10,在CelebA上设置γ=250,在Zappos50k上设置γ=100在MNIST和CelebA的指定训练集上训练WGAN模型。对于Zappos50k,我们随机选择了90%的图像作为训练集,剩下的作为测试集。类似地,约束集合的训练集合中的CONGAN模型约束集合C通过首先随机地选择所述训练集的图像作为参考图像。然后,随机选择1到10对图像之间的任何地方作为约束。接下来,将φ应用于参考图像和每一对。结果表示图 4 : 在 MNIST 数 据 集 上 训 练 的 WGAN ( 左 ) 和CONGAN(右)生成器的示例。根据(1)。测试集的构造类似。这些实验中使用的CONGAN网络架构具体内容如下1.对于MNIST:读和读网络是五层CNN。写网络是一个五层转置卷积网络。 对于CelebA和Zappos50k:读取和读取网络是具有四个剩余CNN块的剩余网络[10]。写网络具有四个转置卷积残差块。为了保持模型之间的一些规律性,以便进行公平比较,我们对WGAN和CONGAN使用相同的编译器架构,并将WGAN生成器架构用作CONGAN写入网络架构。除了一些特殊情况外,我们使用整流线性单元作为激活函数并执行层归一化[2]。4.1. MNISTMNIST是一个众所周知的数据集,包含28x28图像的手写数字。对于预处理,我们将图像归零为32 x32,并将其缩放为[-1,1]。对于φ,我们使用平方欧几里德损失在MNIST训练集上训练编码器部分由四个卷积层和一个完全连接的层组成,没有激活二维编码。我们使用编码器作为φ。解码器具有类似的结构,但使用转置卷积来反转映射。简单的自动编码MNIST数字揭示了一个松散的类结构,嵌入空间(本实验中的S)。因此,这个实验展示了如何检索即使φ没有精确地映射到类。我们试图评估CONGAN的能力,以满足给定的约束。为此,我们构建了十个不同的测试集,每个测试集包含一个固定大小的约束集。例如,“2”测试集中的每个约束集都有两个约束。我们把对不同测试集的评估称为“实验”。在每个实验中,我们进行了十次不同的试验,其中每个约束集为生成器提供不同的通过这些实验,在S中,用于确定对中的哪些元素是考虑X+(正例)和X−(负例),1更严格的说明见补编。10759z1z2z$+-图5:在CelebA数据集上训练时CONGAN发生器输出的示例底部两行图像是约束,其中正图像和负图像仅在单个属性上有所不同前三个约束的区别仅在于“Male”属性,后三个约束的区别仅在于“Beard”属性,而第三个约束的顶部三行是当约束从左到右提供给CONGAN生成器时从三个不同种子产生的图像。例如,当给定z1和前三个约束时,生成第一行中的第三个图像z1z2z$+-图6:在CelebA数据集上训练时CONGAN生成器输出的另一个示例 这是与图1中相同的实验。5,但从左到右具有属性“苍白皮肤”,“棕色头发”和“女性”。观察约束集大小对生成器的影响结果:表1显示了每个MNIST实验的CONGAN生成器的平均约束满足误差(即1减去(1)的普遍性总体而言,它能够满足超过90%的给定约束。请注意,当给出更多约束时,生成器的性能稍好一些。这有点违反直觉。我们认为在这种情况下,生成器使用约束来确定要生成什么类的数字。如果给定很少的约束,生成器更难以确定输出的类别图3和图4显示了在MNIST上训练时CONGAN的示例输出:一个显示了CONGAN的顺序不变性属性,另一个显示了CONGAN生成的图像,旁边是由类似的WGAN生成的图像。107601234#输入约束5 6789100.09310.08950.08600.08310.08080.07840.07750.07560.07430.0733表1:CONGAN对每个输入集大小的MNIST约束的平均约束满足误差(10次试验)。WGAN123CONGAN(#输入约束)4 5 6 78910-WGAN20.3118.3218.9019.3419.6419.8219.9320.0019.9919.9619.90- -CONGAN481.12479.27480.08480.74481.29481.74482.07482.36482.57482.71482.80MCSE0.08850.10470.11540.12020.12570.12790.12960.13070.13180.1325WGAN123CONGAN(#输入约束)4 5 6 78910WGAN60.3144.8546.0346.9947.4547.3046.7645.8444.8643.8142.78从甘5.43-27.04-18.64-11.39-5.53-1.371.092.061.690.10-2.41MCSE0.09500.09670.09740.10010.10090.10190.10520.10650.10650.1066表2:CelebA(上表)和Zappos50K(下表)数据集(10次试验)的评价结果每个表的表1-2:WGAN和CONGAN鉴别器在WGAN和CONGAN生成器上收敛时的平均SNR得分( CelebA的负得分每个表的第3行:每个输入集大小的CONGAN模型的平均约束满足误差4.2. CelebACelebA数据集包含202,599张名人面孔的彩色图像。对于我们的实验,我们将每个图像调整为64 x64并缩放为[-1,1]。与每个图像相关的是40个二元属性,从我们从这些属性中选择了12个作为S。更具体地说,图像在前面的实验中,S是低维连续的。因此,本实验将评估CONGAN适应不同语义空间的能力。对 于 φ , 我 们 构 建 了 一 个 简 单 的 多 任 务 CNN(MCNN)[9]2,它由一个基础网络和多个经过端到端训练的专用网络组成。基础网络接受图像作为输入,并提取用于检测所有属性的特征。专用网络从基础网络分离,并学习检测到它们的预定子集。我们的φbase网络由两个卷积层组成。专用网络(12个属性中的每一个)由三个卷积层组成,后面是一个映射到标量属性标识符的全连接层。对于该实验,我们试图更客观地将WGAN生成的图像与CONGAN生成的图像进行比较。为此,我们首先在CelebA火车组上训练WGAN然后,在训练CONGAN生成器之前,我们分别通过这样做,我们可以观察图像质量如何2MCNN的详细信息和评估可以在补充中找到受向WGAN添加CONGAN组件的影响。结果:表2的第一和第二个表(上表)显示了在10次试 验 的 收 敛 时 , WGAN 和 CONGAN 生 成 器 相 对 于WGAN和CONGAN鉴别器的平均负RISK分数我们可以看 到 , 对于 这 两 个 判 别 器, WGAN 生 成 的 图像 与CONGAN生成的图像评分非常相似当考虑到WGAN生成器相对于WGAN和CONGAN鉴别器的标准偏差分别为8.75和16.22时,尤其如此,并且CONGAN生成器的标 准 偏 差 略 高 。 我 们 认 为 , 这 一 结 果 表 明 , 将CONGAN框架添加到WGAN训练中并没有显著改变图像质量。表2的最后一行显示了每个实验的测试集上的平均约束满足误差。这里,CONGAN生成器能够满足大约87%或更多的约束。图5和图6显示了CONGAN生成的图像当提供约束时,从不同种子产生的图像在图5中,前三个约束指示在图6中,这些示例表明,用户可以迭代地细化图像以具有期望的特性,并且仍然被给予各种逼真的新颖图像。4.3. Zappos50KZappos50K数据集包含50,025张鞋子的彩色图像。我们将每个图像调整为64 x64并缩放到[-10761初始约束+-+-+-目标生成的图像z1z2z1z2z1z2对于两个判别器,都比WGAN降低了分数,但在一个标准差内。我们认为这是由于训练生成器产生更广泛的颜色。如果训练数据包含许多棕色、黑色和白色的鞋子,那么训练生成器生成蓝色、红色和黄色的鞋子将迫使它生成与提供给机器人的图像不同的图像。尽管如此,我们认为图像质量仅因此略有下降。图7显示了CONGAN生成器生成的图像示例。在这里,我们想测试提供单个图像而不是成对约束的用例,以指导生成器生成结果。提供初始约束以产生起始图像。之后,重复使用单个目标图像作为正例,以生成与目标颜色更相似的鞋子。5. 结论和未来工作图7:来自CONGAN的在美捷步数据集上训练的生成器首先向生成器提供左侧的初始约束,生成生成图像列中的第一个(最左侧)图像。为了生成接下来的三个图像中的每一个,生成器被馈送约束,其中正图像是目标图像,负图像是先前生成的图像。1,1]。在这个实验中,我们选择S作为颜色空间。为了实现这一点,我们计算了每个图像的64箱颜色直方图,并训练了一个九层CNN来嵌入使用三重网络[11]3的二维图像,并将其用作φ。我们选择在物镜中使用T-STE损失,因为它产生了清晰的颜色分离。Zappos50K的数据集在颜色方面存在固有的偏见,因为大多数鞋子往往是黑色,棕色或白色。这带来了一个挑战,因为如果用于训练的约束集是通过对训练集进行均匀采样来形成的为了解决这个问题,我们构建了约束,以包括更均匀的颜色采样。当构造约束集的训练集时,我们以概率0.5对训练图像进行均匀采样,如在其他实验中一样。当不均匀采样时,我们通过首先选择一个箱并将约束集中的所有正图像选择为其中最高直方图值对应于该箱的图像(例如,所有肯定的例子将是负面的例子将从其他箱子中均匀地选择。我们发现这使得CONGAN生成器可以更容易地学习生成各种颜色。结果:表2(下表)显示了每个Zappos50K实验的判别器得分和平均约束满足误差。在这里,CONGAN发电机亲-在这项工作中,我们引入了一个生成对抗网络框架,该框架能够生成由迭代人类反馈指导的图像。我们的模型依赖于两个新的组件。首先,我们开发了一个生成器,基于最近的工作在内存网络,映射到图像空间使用顺序不变的操作的约束的可变大小的集合。其次,这个生成器在训练期间由一个评论家通知,该评论家确定生成的图像是否满足给定的约束。其结果是一个发电机,可以通过相对的约束,由人类交互式地从经验上讲,我们的模型能够生成与类似GAN模型生成的图像质量相当的图像,同时满足高达90%的给定约束。今后的工作有多种途径,我们认为值得进一步研究。首先,CONGAN的用户可能无法通过搜索大型图像数据库来找到他们想要的确切约束我们将应用成对主动排名技术[12]来建议约束查询,以便快速约束语义空间,而无需用户自己搜索图像其次,我们将更仔细地研究过程网络的输出,看看约束表示是否具有与关于约束集如何经典推理的直觉相匹配的属性,类似于词嵌入[20]。致谢:这项工作得到了AFOSR信息科学,计算,学习,和融合计划由博士领导。道格·里肯Eric要感谢DavisGilton(UW-M)和Timothy Van Slyke(NEU)早期的探索性实验,使这项工作成为可能。Eric还要感谢Ritwik Gupta(SEI/CMU)审阅了论文草稿。最后,Eric要感谢他在AFRL/RI的同事:李·塞弗斯基博士沃尔特·贝内特博士Matthew Klawonn和Dylan Elliot在这项工作进行时提供了有见地的反馈。[3]这种嵌入的可视化可以在补充中找到。10762引用[1] M. Arjovsky,S.Chintala和L.博图Wasserstein生成对抗网络。ICML,2017。[2] J. L. Ba,J.R. Kiros和G. E.辛顿 层归一化。NIPS深度学习研讨会,2016年。[3] S.布兰森角Wah,F. Schroff,B.巴边科山口韦林德,P. Perona和S.贝隆吉人类参与的视觉识别。ECCV,2010年。[4] K. Duan,中国粘蝇D.Parikh,D.Crandall,and K.格劳曼发现用于细粒度识别的本地化属性CVPR,2012。[5] 诉Dumoulin和F.视觉深度学习卷积算法指南arXiv预印本arXiv:1603.07285,2016。[6] I. Goodfellow,J.普热-阿巴迪米尔扎湾,澳-地Xu,L.Warde-Farley,S.奥扎尔A. Courville和Y.本吉奥。生成性对抗网。在NIPS,2014。[7] A. Graves,G.韦恩和我丹妮赫卡神经图灵机。arXiv预印本arXiv:1410.5401,2014。[8] I. Gulrajani , F. 艾 哈 迈 德 , M 。 阿 尔 约 夫 斯 基 河 谷Dumoulin,以及A. 考维 尔改 进的 瓦瑟 斯坦甘 斯训 练。arXiv预印 本arXiv:1704.00028,2017。[9] E. M. Hand和R.切拉帕强化属性:一种利用隐式和显式关系进行面部属性分类的多任务网络。InAAAI,2017.[10] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。[11] E. Hoffer和N.艾伦使用三重网络的深度度量学习。基于相似性的模式识别国际研讨会,2015年。[12] K. G. Jamieson和R.诺瓦克使用成对比较的主动排名NIPS,2011年。[13] T. Karras,T.Aila,S.Laine和J.莱赫蒂宁GAN的逐步增长,以提高质量,稳定性和变化。在ICLR,2018年。[14] M. G. Kendall和J. D.吉本斯秩相关方法。1990.[15] D. P.Kingma和M.威林自动编码变分贝叶斯。2014年[16] A. Kovashka,D. Parikh和K.格劳曼Whittlesearch:具有相对属性反馈的图像搜索。CVPR,2012。[17] N. Kumar,P. N. Belhumeur,A. Biswas,D. W. Jacobs,W. 克雷斯岛C. Lopez和J.苏亚雷斯。Leafsnap:一个用于自动植物物种识别的计算机视觉系统。在ECCV。2012年。[18] Y.勒昆湖Bottou,Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。IEEE会议录,1998。[19] L. v. d. Maaten和G.辛顿 使用t-sne可视化数据。JMLR,2008年。[20] T. 米科洛夫岛Sutskever,K.Chen,G.S. Corrado,J。Dean.单词和短语的分布式表示及其组合性。在NIPS,2013年。[21] M. Mirza和S.奥辛德罗条件生成对抗网。arXiv预印本arXiv:1411.1784,2014。[22] G. Perarn a u,J. vandeWeije r,B. Raducanu和J. M. A'l varez. 用 于 图 像 编 辑 的 可 逆 条 件 gans 。 arXiv 预 印 本arXiv:1611.06355,2016。[23] A. 拉德福德湖,澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习ICLR,2016.[24]S. Reed,Z.Akata,X.延湖,澳-地洛格斯瓦兰湾schiele和H. 李你生成对抗文本到图像合成。在ICML,2016。[25] W. Shi,J.卡瓦列罗湖Theis,F.Huszar,A.艾特肯角Ledig和Z.王. 反卷积层是否与卷积层相同arXiv预印本arXiv:1609.07009,2016.[26] N. Stewart,G.D. Brown和N.查特相对判断的绝对认同Psychological Review,112(4):881,2005.[27] S. Sukhbaatar,J.韦斯顿河Fergus等人端到端内存网络。2015年,在NIPS[28] A. van den Oord,N.卡尔希布伦纳湖埃斯佩霍尔特岛维尼亚人A. Graves等人用pixelcnn解码器生成条件图像在NIPS,2016年。[29] L. Van Der Maaten和K.温伯格随机三重嵌入。载于劳动和社会政策部,2012年。[30] A. Van Oord,N. Kalchbrenner和K. Kavukcuoglu像素递归神经网络。InICML,2016.[31] O. Vinyals,S. Bengio和M.库德鲁订单事项:集合的序列。ICLR,2016年。[32] C. Wah,S. Branson,P. Perona,and S.贝隆吉人工参与的多类识别和零件定位见ICCV,2011年。[33] C. Wah,G.Van Horn,S.Branson,S.马吉山口Perona,以及S.贝隆吉交互式细粒度分类的相似性比较。CVPR,2014。[34] J. Weston,S. Chopra和A.博德斯 记忆网络。在ICLR,2015年。[35] X. Yan,J. Yang,K. Sohn和H.李你属性2image:从视觉属性生成条件图像。在ECCV,2016年。[36] S. Yang,P. Luo,C.- C. Loy和X.唐从面部部分响应到面部检测:深度学习方法。在ICCV,2015年。[37] A. Yu和K.格劳曼与本地学习的细粒度视觉比较CVPR,2014。[38] A. Yu和K.格劳曼语义抖动:通过合成图像进行视觉比较的密集监督。在ICCV。IEEE,2017年。[39] J. Zhao,M.Mathieu和Y.乐存。基于能量的生成对抗网络。ICLR,2017年。[40] J. - Y. Zhu,P. K r¨henb ¨hl,E. Shechtman和A. A. 埃夫罗斯自然图像流形上的生成视觉操作在ECCV。施普林格,2016年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功