没有合适的资源?快使用搜索试试~ 我知道了~
1BachGAN:基于显著对象布局的李延东1余成2甘哲2余立成2王立强1刘晶晶2中佛罗里达大学2微软Dynamics 365人工智能研究{liyandong,lwang}@ ucf.edu,{yu.cheng,zhe.gan,licheng.yu,jingjl}@ microsoft.com图1:顶行:从语义分割图合成的图像。最下面一行:从突出对象布局合成的高分辨率图像,它允许用户通过绘制几个边界框来创建图像。摘要我们提出了一个新的任务,对更实际的应用,为图像生成-高质量的图像合成,从显着的对象布局。这种新的设置允许用户仅提供显著对象的布局(即,前景边界框和类别),并让模型使用虚构的背景和匹配的前景完成绘图。这一新任务带来了两个主要挑战:(i)在不输入分割图的情况下,如何生成纹理细节细致、逼真的纹理;以及(ii)如何创建背景并将其无缝地编织成独立对象。为了解决这个问题,我们提出了背景幻觉生成对抗网络(BachGAN),它首先通过背景检索模块从一个大的候选池中选择一组分割图,然后通过背景融合模块对这些候选布局进行编码,为给定的对象产生一个合适的该模型通过动态生成幻觉化的背景表示,可以合成具有真实感前景和完整背景的高分辨率图像。Cityscapes和ADE20K数据集上的实验证明了BachGAN相对于现有方法的优势,在生成图像的视觉保真度和输出图像与输入布局之间的视觉对齐方面进行了测量。11项目页面:https://github.com/Cold-Winter/BachGAN。这项工作是在第一作者在微软实习时完成的1. 介绍毕加索曾说:“每个孩子都是艺术家。问题是如何在长大后仍然是一名艺术家。” Now with the help ofsmart image editing assistant, our cre- ative 近年来,已经见证了以不同输入为条件的各种图像生成工作,例如文本[38,36],场景图[13],语义分割图[11,33]和整体布局[39]。其中,文本到图像生成为用户提供了一个灵活的界面,通过自然语言描述来描述视觉概念[38,36]。局限性在于,单个句子可能不足以描述预期图像中的每个对象的细节场景图[13]具有丰富的结构表示,可以潜在地揭示图像中对象的更多视觉关系。然而,成对对象关系标签在现实生活中的应用是很难获得的。物体大小、位置和背景信息的缺乏也限制了质量合成的图像。另一个研究方向是基于语义分割图的图像合成。虽然先前的工作[11,33,25]已经显示出有希望的结果,但是收集语义分割图的注释是耗时且劳动密集的。为了节省注释工作,Zhao et al.[39]建议将包括前景对象(例如,、“猫”、“人”)和背景(例如,、在本文中,我们把这个方向更进一步,并探讨图像合成给定的显着ob-bits。83658366对象布局,只有粗糙的前景3对象绑定框和类别。图1提供了基于分割图的图像合成(顶行)和我们的设置(底行)之间的比较。我们的任务需要前地面对象作为唯一的输入,没有任何背景布局或像素级分割图。所提出的新任务对图像合成提出了新的挑战:(i)如何仅用几个前景对象边界框和类别来生成细粒度的细节和逼真的纹理;以及(ii)如何创造一个真实的背景并将其无缝地编织到独立的前景对象中。请注意,没有关于背部的知识提供地面;而在[39]中,提供了整体布局,并且仅生成低分辨率(64×64)图像。在我们的任务中,目标是在信息非常有限的情况下合成高分辨率(512×256)图像(仅限显著布局)。为了应对这些挑战,我们提出了背景幻觉生成对抗网络(Bach-GAN)。给定一个显著的对象布局,BachGAN通过两个步骤生成图像:(i)背景检索模块从大的候选池中选择与给定对象布局最相关的一组分割图;(ii)然后经由背景融合模块对这些候选布局进行编码以产生最佳匹配背景。通过这种检索和幻觉方法,BachGAN可以动态地提供与任何给定的前景布局保持一致的详细和逼真的背景。此外,通过将前景对象和背景表示馈送到条件GAN中(通过SPADE归一化层[25]),BachGAN可以生成具有视觉一致的前景和背景的高分辨率我们的贡献总结如下:• 我们提出了一个新的任务-图像合成从显着的对象布局,它允许用户绘制一幅图像,只需提供几个对象的边界框。• 我们提出了BachGAN,其关键组件是检索模块和融合模块,可以为任何前景对象布局在运行中产生视觉上一致的背景• 在Cityscapes [4]和ADE20K [40]数据集上的实验证明了我们的模型确保视觉质量和一致性指标。2. 相关工作条件图像生成条件图像合成任务可以促进各种输入,例如源图像[11,20,26,41,42]、草图[27,42,34]、场景图[13,1],文本[21,38,36,18,19],视频剪辑[17,6,29],以及3显著性和前景在本文中可以互换使用。对话[28,3]。这些方法分为三大类:生成对抗网络(GAN)[7,22],变分自编码器(VAE)[15]和自回归模型[31,23]。我们提出的模型是一个GAN框架,旨在从显着布局生成图像,这是一个新的任务。在以前的研究中,布局通常被视为输入源(例如,文本[9,18]或场景图[13])和输出图像。该模型不是学习从文本/场景图到图像的直接映射良好标记的实例分割图需要训练对象形状生成器。也有先前的工作,旨在直接从语义分割图合成照片般逼真的图像[33,11]。然而,获得大规模数据集的详细分割图是耗时且劳动密集型的。在[16]中,为了避免依赖于实例分割掩码作为关键输入,使用额外的背景布局和对象布局作为输入。[39]提出了从物体布局进行图像合成的任务;然而,需要前景和背景对象布局两者,并且仅生成低分辨率图像。与这些研究不同的是,我们提出只从显著对象布局合成图像,这在现实生活中的应用中更实用,用户可以简单地绘制预期对象的轮廓。对抗学习已被应用于图像到图像的转换[11,32],使用图像对作为训练数据将输入图像从一个域转换到另一个域。L1损失[12]和对抗性损失[7]是许多图像到图像翻译任务的流行选择最近,Chen和Koltun [2]提出,由于训练不稳定和优化问题,条件GAN可能难以生成高分辨率图像。为了避免这一点,他们使用了基于感知损失的直接回归目标[5],并产生了第一个可以合成高质量图像的模型。受此启发,pix 2 pix-HD [33]使用了一个强大的对抗学习对象以及一个新的多尺度生成器架构来提高高分辨率生成性能。在[32]中,探索了高分辨率视频到视频合成以建模时间动态。Park等人[25]表明,空间自适应归一化(SPADE),一个使用输入语义布局调节激活的条件归一化层,可以比最先进的方法更好地合成图像。然而,所有上述方法的输入在我们的工作中,我们采用SPADE层在我们的生成器,但只使用一个显着的对象布局作为条件输入。这种前景布局8367…图2:用于从显著对象布局进行图像合成的BachGAN概述。与幻觉背景相结合,以获得融合的表示,然后将其送入SPADE层用于图像生成。3. BachGAN我们首先定义的问题制定,并在第二节中介绍的问题 。 3.1 , 在 介 绍 拟 议 的 背 景 幻 觉 生 成 对 抗 网 络(BachGAN)之前。如图2所示,BachGAN由三个组件组成:(i)背景检索模块(第二节),3.2),其从给定前景布局的大的候选池中选择一组分割图;(ii)背景聚变模块(第3.3),其将显著对象布局和所选择的候选者融合到用于背景幻觉的特征图中;以及(iii)图像生成器,其采用SPADE层[25]来基于融合表示生成图像。为简单起见,图2中省略了鉴别器3.1. 问题表述和准备问题定义假设我们有一组图像I及其相应的显著对象布局L。我们的目标是训练一个模型,学习从布局到图像的映射,即。,L → I。具体地,给定地面实况图像I∈I及其对应的布局L∈ L,其中Li=(xi,yi,hi,wi)表示左上方的共坐标加上第i个边界框的高度和宽度。在[25,33]之后,我们首先将L转化为标号映射M∈ {0,1}H×W×Co,其中Co表示类别数,H,W分别是标号映射的高度和宽度.与[33]中使用的语义分割图不同,一些像素M(i,j)可以被归类为n个对象实例,i. e. ,M(i,j)∈{0,1}Co S.T.pM(i,j,p)=n.一个简单的解决方案为了吸引我们的框架的动机,我们首先考虑一个简单的条件GAN模型,并讨论其局限性。通过将标签映射M视为输入图像,可以直接应用图像到图像转换模型,其目标如下:最小最大EM,I[log(D(M,I))]G D+EM[log(1−D(M,G(M)],(1)其中G和D表示生成元和相对于v的k。生成器G(·)将标签映射M作为输入以生成伪图像。最先进的条件GAN,如pix 2 pix- HD [33],可以直接应用于这里。然而,可以容易地注意到一些警告,因为在我们的设置中仅提供粗略的前景布局,使得生成任务比提供语义分割图时更具挑战性因此,我们在下面的小节中介绍背景幻觉来解决这个问题。背景幻觉背景检索模块显著对象布局ConvConvConv+++背景融合模块图像生成器黑桃ResBlk黑桃ResBlk黑桃ResBlk池ConvConvConv8368K3.2. 背景检索模块这个新任务的主要挑战是如何生成合适的背景来适应前景对象。给定图像,并采用图像到图像的翻译模型。以下条件GAN损失可用于训练:min maxEM,I[log(D(M,Ir))]+EM,I[log(D(M,Iq))]包含k个实例的对象布局L:LC0,. - 是的- 是的、LCk、 GDrq0+E[10g(1−D(M,G(M)],⑷其中Ci是实例Li的类别,假设我们有一个存储库B,包含图像I及其具有l个实例的细粒度语义分割图S的对其中qM是地面实况图像,4SC0,...,SCl. 我们首先检索一对I和S,查询Lq,并且Ir是检索到的图像。我们把这个基地命名为-0l线方法虽然地面的真相回来-与 L 最 相似 的 布 局, 通 过 使用 布 局相 似 性 得分 ,Intersect over Union(IoU)度量的变体,来测量显著对象布局和细粒度语义分割图之间的距离:背景不能被获得,使用检索到的背景注入有用的信息,其帮助生成器合成与等式n中的目标相比更好的图像(一).ΣCIoUr=j=1SjTLjS、(二)3.3. 背景融合模块CSjLjj=1其中C是对象类别的S总数nS总和T,Sj=Sj,且Lj=Lj。并表示并集和交集,虽然基于检索的基线方法可以在给定前景对象布局的情况下对背景进行hallu,但是一个检索到的语义分割图与iii ii不保证输入前景布局一个可能-分别 所提出的度量可以保持总体每个对象的位置和类别信息,因为标准IoU分数是为衡量对象检测的质量而设计的。然而,我们不是计算所有类的平均IoU分数,而是使用Eqn。(2)防止小物体的重量增长过高。给定显著对象布局Lq作为查询,我们通过上述布局相似性得分对分类库中的图像和语义分割图对进行排名结果,我们可以获得具有语义分割图Sr的检索图像Ir,其具有与查询Lq最相似的显著对象布局。假设具有类似前景组成的图像也可以共享类似背景。因此,我们将检索到的语义分割图Sr作为Lq的潜在背景。形式上,我们首先转换将Sr背景映射为标号映射Mb:Mb(i,j)∈一个简单的解决方案是使用多个检索到的分割图在等式中(四)、然而,这使得训练不稳定,因为当损失函数中包含多个检索到的图像时,训练变得不平衡。更重要的是,输入标签映射的维度太高。为了利用多个检索到的分割图进行背景的模糊hallucination,我们进一步引入了背景融合模块来编码Top-m检索到的分割图以产生更平滑的背景。假设我们获得m个检索到的分割图Sr,0,...,Sr,m与其对应的背景标签图Mb,0,.,Mb,m. 查询显著对象布局Lq 有一个对应的标号映射Mq,其中Mb,i∈{0,1}高×宽× Cb 且Mq∈ {0,1}H×W×Co. 如图所示在图2中,我们首先获得Mr, 0 ,..., Mr, m与Eqn。(3)其中M∈r,i∈{0,1}H×W×(Co+Cb). Mq填充有0以获得查询标签映射M形状与{0,1}Cb S.T.ΣMb(i,j,p)=1,其中Cb表示所述马尔岛QMr,0,.,Mr,m然后连接成Mr ∈背景中的类别数。然后,我们生产- 新的标签图,通过将Mb和Lq的前景标签图Mq连接起来,对前景对象布局和细粒度背景分割图进行编码:M=[Mb;Mq],(3)其中,[;]表示连接,并且得到的标签映射{0,1}m× H × W×(Co+Cb).然后使用卷积网络F将标签映射编码为特征映射:m0=F(Mq)Pool(F(Mr)),(5)其中Pool表示平均池化,表示元素加法,m0∈RH× W× h(h是特征图的数量)。然后我们使用另一个卷积网络表示为M∈{0,1}H× W×(Co+Cb). 注意M以获得更新的特征图:存储体B可以比训练数据的规模小得多。因此,这种方法并不需要前-mt=m t−1 M(m t−1)的情况。(六)pensive成对分割图注释,以生成经过T步,我们得到最终的特征图m=mT,高质量的图像。简单基线基于获得的新标签图M,现在我们描述一个简p8369单的基线,它不支持我们提出的模型。我们将新的标签映射视为输入其包含来自显著对象布局和幻觉背景两者的信息。4从经验上讲,我们观察到将检索到的图像添加到GAN损失中可以提高性能。8370图3:Cityscapes数据集上不同模型的图像合成结果示例。由于生成图像的分辨率较低,因此未纳入Layout2im的结果(见附录)。基于特征图m,Bach-GAN使用以下条件GAN损失进行训练:min maxEm,Iq[log(D(m,Iq))]G D+Em[log(1−D(m,G(m)))],(7)其中Iq是对应于查询Lq的地面实况图像。与Eqn相比,(4)使用多个检索到的分割图来对背景进行幻觉化,这在实践中导致更好的性能。图像生成器 现在,我们描述发电机验证集分别为3,000和500我们排除了23个背景类,并在显著对象布局中使用剩余的10个前景对象。利用提供的实例级注释,我们可以通过获取实例中每个像素的坐标的最大值和最小值来ADE20K包含20,210张训练图像和2,000张验证图像。该数据集包含具有150个语义类的具有挑战性的场景。我们排除了35个背景类,并利用剩余的115个前景对象。ADE 20k没有实例级注释,因此,我们使用G(·)takesm作为输入以生成高质量图像。一个简单的方法来找到轮廓[30]从语义段-为了生成照片级逼真的图像,我们在生成器中利用了空间自适应归一化(SPADE)层[25]设hi表示生成元G的第i层的激活特征图.类似于批归一化[10],SPADE[25]首先归一化hi,然后产生调制参数γ和β来反归一化它,两者都是m的函数:分割图,然后获得每个轮廓每个数据集都使用一个单独的内存库。我们在相同的训练集上训练所有的图像合成方法,并在相同的验证集上报告其结果。Baselines我们包括几个强大的基线,可以生成以对象布局为输入的图像:h =norm(hi)γ(m)β(m),(8)• 我们以SPADE [25]作为我们的第一个基线,将显著对象布局而不是SE作为输入其中hi表示SP ADE层r的输出,norm(·)是归一化运算,并且numb和numb分别是逐元素的产生和加法的图示发电机设置在图2的底部。关于SPADE的更多细节可以在[25]中找到。4. 实验在本节中,我们描述了将BachGAN与新任务的最先进方法进行比较的实验,以及验证我们提出的模型有效性的详细分析。4.1. 实验装置数据集我们在两个公共数据集上进行实验:城市景观[4]和ADE20K [40]。城市景观是指城市中的街景意象。培训的规模和8371原论文中使用的Mantic分割图。• SPADE与分割(SPADE-SEG):我们获得了第二个基线,通过利用对分割掩码和图像从内存库。除了GAN损失之外,模型还使用ad-bandwidth损失进行训练。该算法基于存储体的思想,最大限度地减少了真实图像与生成器输出• Layout2im:我们使用Layout2im [39]中的代码,该代码从整体布局生成图像,并仅支持生成64×64性能指标在[2,33]之后,我们在合成图像上运行一个SEMANIC分割模型并测量分割精度。 我们使用最先进的细分网络:DRN-D-105城市景观,8372车车车车车车车辆转向架车车车车辆转向架车车自行车汽车摩托车显著对象布局黑桃SPADE-SEGBachGAN-rBachGAN地面实况图4:ADE 20K数据集上不同模型的图像合成结果示例。图5:通过将边界框顺序添加到先前的布局(Cityscapes)来生成图像。大小的结果和真实图像的分布。实施细节所有的实验都是在NVIDIA DGX1与8 V100GPU。 我们使用Adam [14]作为优化器,生成器和学习器的学习率都设置为0。0002.对于Cityscapes,我们训练60个epoch来获得一个好的生成器,而ADE 20k需要150个epoch来收敛。对于两个数据集,m表 1 : Cityscapes 和 ADE20K w.r.t. FID 和 像 素 精 度(Acc)。[ 25 ]中报告了(†)的结果,作为我们模型性能的上限。[35]第35话,像素精度(Acc)在不同的模型之间进行比较。这是使用从每个数据集的训练集中的地面实况图像中裁剪和调整大小的真实对象来完成的。除了分类精度,我们还使用弗雷歇初始距离(FID)[8]来测量合成物分布之间的距离。4.2. 定量评价表1总结了所有模型的结果。FID评分和分类准确性。我们还报告了使用分割图作为输入(上限)从香草SPADE(SPADE-v)生成的图像的分数。通过FID测量,BachGAN在两个数据集中以相对较大的裕度优于所有基线。对于Cityscapes,BackGAN的FID得分为73.3,接近 到上界。在ADE20K中,模型城市景观ADE20KACCFIDACCFID[39]第三十九话-99.1--黑桃57.686.755.359.4SPADE-SEG60.281.260.957.2BachGAN-r67.374.464.553.2BachGAN70.473.366.849.8[25]第二十五话81.9†71.8†79.9†33.9†8373窗玻璃床窗玻璃植物架床窗玻璃植物架灯垫框床窗玻璃植物架灯书丹垫框床不巴斯克嗷图6:通过将边界框按顺序添加到先前布局(ADE 20k)生成的图像。图7:顶行:基于来自测试集的显著对象布局的合成图像。底行:基于具有翻转对象的突出布局的合成图像,从顶行布局修改。基线并不重要。这是因为ADE 20K中的大多数图像都由显著的前景主导,背景空间相对较少,这限制了我们的幻觉模块的效果。我们的方法的像素精度也高于其他基线。BachGAN-r在这两个数据集上都实现了合理的性能。4.3. 定性分析在图3和图4中,我们提供了所有方法的定性比较。与基线相比,我们的模型生成的图像具有更高的视觉质量。特别是在Cityscapes中,我们的方法可以生成具有详细/清晰背景的图像,而其他方法则无法生成。在ADE20K中,尽管背景区域比Cityscapes相对较小,但BachGAN仍然可以生成视觉质量更好的合成大小的图像。图5和图6表明,BachGAN能够通过从简单的布局开始并顺序添加新的边界框,渐进地处理一系列复杂的图像所生成的样本在视觉上是吸引人的,新对象被描绘在图像中的期望位置处,并且现有对象与前几轮中的布局保持一致These examples demonstrate our model’s基于布局执行可控图像合成的能力。图7进一步说明了BachGAN在以非常规方式定位对象时也能很好地在最下面的一行中,我们翻转了对象布局中的一些对象(例如,左上图中的窗格),并生成具有所操纵的布局的图像。BachGAN仍然能够生成具有合理背景的高质量图像,证明了BachGAN的鲁棒性。在图8中,我们从Cityscapes中提取了一些图像。前3个结果与原始背景一致且相似更多合成和检索结果(适用于ADE20K)见附录。4.4. 人工评价我们使用Amazon Mechanical Turk(AMT)来评估所有方法的生成质量。AMT Turker提供了一个输入布局和两个来自不同方法的合成输出,并被要求选择看起来更真实和更符合输入布局的图像。评估工具的用户界面还提供了一个中立的选项,如果Turker认为两个输出同样好,可以选择该选项。我们随机8374查询地面实况检索结果图8:从Cityscapes的内存库中检索到的前3个图像的示例。数据集BachGAN与黑桃BachGAN与SPADE-SegBachGAN与BachGAN-rBachGAN与Layout2im赢得损失铁赢得损失铁赢得损失铁赢得损失铁城市景观85.53.411.171.712.415.961.624.114.396.00.23.8ADE20K75.912.811.366.817.415.857.218.724.1---表2: 用户偏好研究。赢/输/平局表示BachGAN生成的图像的百分比比比较模型更好/更差/相等。方法BachGAN-3BachGAN-4BachGAN-5FID73.3173.0372.95表3:BachGAN的FID评分,具有不同数量的检索分割图(Cityscapes)。银行规模BachGANBachGAN-r|B|73.3174.442 ×|B|72.5073.95表4:使用不同大小的记忆库(Cityscapes)训练的BachGAN和BachGAN-r的FID分数。我们抽取了300对图像,每对图像由三个人组成的不同小组进行评判。只有任务批准率大于98%的员工才能参与研究。表2报告了我们的方法和其他四个基线之间的成对比较。根据人工判断,BachGAN生成的图像质量明显高 于 SPADE 。 与 两 个 强 基 线 ( SPADE-SEG 和BachGAN-r)相比,Bach-GAN实现了最佳性能。正如预期的那样,由于分辨率较低,Lay-out 2 im得到了人类法官的最低认可。4.5. 消融研究首先,我们用不同数量的检索到的分割图训练三个BachGAN,将m设置为3、4和5,并在Cityscapes上对其进行评估。不同模型的FID评分汇总于表3中。与使用Top-3和Top-4的模型相比,使用Top-5检索该分析表明增加所选分段图的数量可以略微提高分数。由于小的性能增益,我们在实验中保持m=3。我们还比较了使用不同大小的记忆库训练的模型。具体来说,我们比较了BachGAN和BachGAN-r的性能与内存库大小|B|(在我们的实验中使用)和2×|B|.结果总结在表4中。具有较大记忆库,两种模式都能够提高评估,分数。有趣的是,BachGAN的增益大于BachGAN-r,这表明BachGAN从内存库中获得了更多的好处。关于内存条大小的更多分析在附录中提供。5. 结论在 本 文 中 , 我 们 介 绍 了 一 种 新 的 框 架 , 巴 赫 -GAN,生成高质量的图像的条件下显着的对象布局。该模型根据给定的目标布局对背景进行超分辨率处理,生成的图像具有真实感的前景和完整的背景。在Cityscapes和ADE 20K数据集上的综合实验证明了我们提出的模型的有效性,它还可以通过在布局中逐步添加显著对象来执行可控的图像合成对于未来的工作,我们将研究更复杂的物体,如人,汽车和动物的生成[24]。解开前景和背景的学习表示是另一个方向。致谢这项工作也得到了NSF-1704309的部分支持。8375引用[1] 奥伦·阿舒尔和里奥·沃尔夫。在交互式场景生成中指定对象属性在ICCV,2019年。2[2] Qifeng Chen和Vladlen Koltun。用级联细化网络进行摄影图像合成InICCV,2017.二、五[3] Yu Cheng , Zhe Gan , Yitong Li , Jingjing Liu , andJianfeng Gao. 通过对话进行交互式图像编辑的顺序注意GANarXiv预印本arXiv:1812.08352,2018。2[4] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。二、五[5] Alexey Dosovitskiy和Thomas Brox基于深度网络生成具有感知相似性度量的InNeurIPS,2016. 2[6] 范立杰,黄文兵,甘闯,黄俊州,龚伯庆。可控的图像到视频转换:脸部表情产生之案例研究。在AAAI,2019年。2[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS,2014。2[8] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。NeurIPS,2017。6[9] Seunhoon Hong,Dingdong Yang,Jongwook Choi,andHonglak Lee.推理语义布局的分层文本到图像合成。在CVPR,2018年。2[10] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv:1502.03167,2015。5[11] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR,2017年。一、二[12] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。在ECCV,2016年。2[13] 贾斯汀·约翰逊,阿格里姆·古普塔,李飞飞。从场景图生成图像。在CVPR,2018年。一、二[14] Diederick P Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议。6[15] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。见ICLR,2014年。2[16] Donghoon Lee,Sifei Liu,Jinwei Gu,Ming-Yu Liu,Ming-Hsuan Yang,and Jan Kautz.对象实例的上下文感知合成和放置。NeurIPS,2018。2[17] 李东勋,托马斯·菲斯特,杨明轩。把视频插入视频。在CVPR,2019年。2[18] Wenbo Li , Pengchuan Zhang , Lei Zhang , QiuyuanHuang,Xiaodong He,Siwei Lyu,and Jianfeng Gao.通过 对 抗 训 练 实 现 对 象 驱 动 的 文 本 到 图 像 合 成 。 在CVPR,2019年。28376[19] Yitong Li,Zhe Gan,Yelong Shen,Jingjing Liu,YuCheng,Yuexin Wu,Lawrence Carin,David Carlson,and Jianfeng Gao. Storygan:一个用于故事可视化的顺序条件gan。在CVPR,2019年。2[20] Ming-Yu Liu,Thomas Breuel,and Jan Kautz.无监督图像到图像翻译网络。NeurIPS,2017。2[21] Elman Mansimov , Emilio Parisotto , Jimmy Ba , andRuslan Salakhutdinov.从字幕生成图像与atten- tion。ICLR,2016年。2[22] Youssef Mroueh、Chun-Liang Li、Tom Sercu、AnantRaj和Yu Cheng。Sobolev GAN.在ICLR,2018年。2[23] AaéronvandenOord ,NalKalchbrenner,OriolVin yals,LasseEspeholt,Alex Graves,and Koray Kavukcuoglu.条件图像生成与pixelcnn解码器。InNeurIPS,2016.2[24] 欧阳曦、余成、江一凡、李春良和潘周。行人-合成-gan : 生 成 真 实 场 景 中 的 行 人 数 据 。 arXiv预 印 本arXiv:1804.02047,2018。8[25] Taesung Park,Ming-Yu Liu,Ting-Chun Wang,Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在CVPR,2019年。一二三五六[26] DeepakPathak、Phil ippKr aühenbuühl 、Jef fDonahue、Trev orDarrell和Alexei Efros。上下文编码器:通过修复进行特征学习。在CVPR,2016年。2[27] Patsorn Sangkloy , Jingwan Lu , Chen Fang , FisherYu,and James Hays. Scribbler:使用草图和颜色控制深度图像合成。在CVPR,2017年。2[28] Shikhar Sharma,Dendi Suhubdy,Vincent Michalski,Samira Ebrahimi Kahou,and Yoshua Bengio.聊天刷:使用对话改进文本到图像的生成。在ICLR研讨会,2018年。2[29] Guangyao Shen , Wenbing Huang , Chuang Gan ,Mingkui Tan , Junzhou Huang , Wenwu Zhu , andBoqing Gong.基于隐仿射变换的人脸图像到视频的转换2019年第27届ACM国际多媒体会议论文集。2[30] Satoshi Suzuki等人基于边界跟踪的数字化二值图像拓扑结构分析。计算机视觉,图形和图像处理,1985年。5[31] AaéronVanDenOord,NalKalchbrenner,andKorayKavukcuoglu.像素递归神经网络。InICML,2016. 2[32] Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,GuilinLiu,Andrew Tao,Jan Kautz,and Bryan Catanzaro.视频到视频合成。NeurIPS,2018。2[33] Ting-Chun Wang , Ming-Yu Liu , Jun-Yan Zhu ,Andrew Tao,Jan Kautz,and Bryan Catanzaro.用条件gans实现高分辨率图像在CVPR,2018年。一、二、三、五[34] Wenqi Xian,Patsorn Sangkloy,Varun Agrawal,AmitRaj,Jingwan Lu,Chen Fang,Fisher Yu,and JamesHays. Tex- turegan:使用纹理块控制深度图像合成。arXiv预印本arXiv:1706.02823,2017。2[35] 萧泰特、刘英成、周博磊、姜宇宁、孙剑。面向场景理解的统一感知句法分析。在ECCV,2018。68377[36] Tao Xu , Pengchuan Zhang , Quyuan Huang , HanZhang , Zhean , Xiaeli Huang , and Xiaodong He.Attngan:使用注意力生成对抗网络生成细粒度文本到图像。在CVPR,2018年。一、二[37] Fisher Yu,Vladlen Koltun,and Thomas Funkhouser.扩张的剩余网络。在CVPR,2017年。5[38] 张涵,徐涛,李洪生,张少庭,王晓刚,黄晓磊,季米特里斯.Stackgan:使用堆叠的生成对抗网络进行文本到照片般逼真的图像合成。InICCV,2017. 一、二[39] Bo Zhao,Lili Meng,Weidong Yin,and Leonid Sigal.从布局生成图像。在CVPR,2019年。一、二、五、六[40] Bolei Zhou,Hang Zhao,Xavier Puig,Sanja Fidler,Adela Barriuso,and Antonio Torralba.通过ade20k数据集进行场景解析。在CVPR,2017年。二、五[41] Jun-Yan Zhu , Taesung Park , Phillip Isola , Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。InICCV,2017. 2[42] Jun-Yan Zhu、Richard Zhang、Deepak Pathak、TrevorDarrell、Alexei A Efros、Oliver Wang和Eli Shechtman。向多模态图像到图像翻译。NeurIPS,2017。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功