基于对抗学习的自动生成真实合成图像

22 浏览量更新于2023-10-17 收藏 1.68MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于对抗学习的马里兰大学帕克分校University ofMaryland College Parksirius@umd.edu威瑞森传媒集团andrewkae@verizonmedia.com摘要合成一个逼真的图像是一项具有挑战性的任务，通常需要相当多的人的监督，使用专业的图像编辑软件。在这项工作中，我们提出了一个生成对抗网络（GAN）架构的自动图像合成。该模型由四个子网络组成：改进合成图像的几何和颜色一致性的变换网络、抛光合成图像的边界的细化网络、以及用于对抗学习的一对搜索网络和分割网络。在合成图像和真实图像上的实验结果表明，与几种最先进的方法相比，我们的模型几何和颜色一致性GAN（GCC-GAN）可以自动生成真实的合成图像，并且不需要任何手动操作。1. 介绍图像合成的目的是创建一个逼真的图像，通过采取一个图像的前景对象，并结合它与背景从另一个图像（见图1）。为了使合成图像看起来真实，需要考虑许多因素，例如场景几何形状、对象外观和语义布局。这是一项具有挑战性的任务，通常需要人类专家使用专业的图像编辑软件（如PhotoShop [1]）仔细调整包括几何和颜色在内的细节，以创建单个构图。许多以前的作品[4，27，18，14，32，19，35，30]试图通过创建可以自动调整前景图像的外观并使其自然地融入背景的算法来减轻这种手动负担。虽然这在某些情况下可以工作，但是这些方法中的许多仍然需要人类监督以帮助完成诸如确定前景对象的适当位置和大小或捕获场景的照明条件的任务。* 在Verizon Media Group实习期间完成的工作图1.图像合成的目标是通过将前景对象与背景图像相结合来创建逼真的图像。X轴对应于合成图像中增加的颜色一致性，而y轴对应于增加的几何一致性。然而，合成图像只有在同时考虑几何形状和颜色一致性时才看起来逼真（即，（图为红框）。(Best颜色显示）最近，生成对抗网络（GAN）已经被证明能够通过学习欺骗对抗训练的神经网络来生成逼真的图像[7，11，3，33，31，36，5，28]然而，图像合成是与图像生成不同的任务，因为合成图像必须保持来自输入图像的细节，并且仅应用轻微的改变来提高合成的真实性。最近的工作[21]修改了GAN框架，通过使用空间Transformer网络将生成器的范围限制在几何流形上，84158416工作[12]，以生成几何一致的逼真合成图像。然而，这样的模型仅在前景外观已经与背景图像一致时才起作用。如果前地和背景图像的域不同，则单独的几何变换不具有生成看起来自然的合成图像的能力。如图1所示，为了使合成图像真实，模型需要考虑几何和颜色的一致性。然而，将先前的工作组合以自动地调整颜色和几何形状两者并不是微不足道的，因为这两个属性是相互依赖的：几何校正依赖于颜色一致性，而颜色校正也依赖于几何一致性。为了解决上述问题，我们提出了一种新的GAN架构，称为几何和颜色一致的GAN（GCC-GAN），用于图像合成，同时学习几何和颜色校正与对抗学习。GCC-GAN包含四个子网络：变换网络、细化网络、细分网络和分段网络。变换网络和细化网络一起作为生成式合成模型，其目的是在考虑几何、颜色和边界一致性的同时生成逼真的合成图像同时，分割和分割网络有助于通过对抗学习增加合成图像的真实感特别地，分割网络学习将合成图像与真实图像分离，而分割网络学习将合成图像中的前景对象与背景分离。GCC-GAN是端到端训练的，具有几何损失、外观损失、对抗性损失和对抗性分割损失。与以前的作品，限制生成器的几何变换，我们的模型可以应用几何和颜色校正以及边界细化生成一个复合图像。实验结果表明，我们的模型可以生成几何和颜色一致的图像在合成和真实世界的数据集。本文的贡献包括：（1）证明图像合成任务需要几何和颜色一致性，（2）提出一种基于生成对抗网络框架创建逼真合成图像的新型端到端模型，以及（3）广泛的评估，包括人类感知实验，该实验显示了与不同的最新技术相比，所提出的模型生成逼真的合成图像的能力方法.2. 相关工作图像合成模型将前景图像与背景图像无缝地结合在一起。许多先前的工作集中在如何修改前景的外观图像，以更好地适应背景的基础上的颜色gra-18 [4，27]或颜色统计[18，14，32]。Agarwala等人[2]提供一种系统，以在用户输入的帮助下组合在同一场景中拍摄的多个源图像。Lalonde等人[19]开发一个交互式系统，通过从大型数据库中选择前景物体来创建合成图像。随着计算机视觉中深度学习研究的进步，各种深度学习模型[35，30，21，29]也被引入图像合成。与我们的方法类似，Zhuet al. [35]使用判别模型来估计合成图像的真实性。然而，它们的判别模型在图像合成过程中是固定的，并且不能为了更好的合成而Tsai等人[30]介绍了用于图像协调的端到端编码器-解码器网络尽管这些方法可以生成逼真的构图，但它们仍然依赖于人类来完成诸如确定前景对象的位置和大小之类的任务。最近，Tanet al. [29]建议使用深度神经网络来学习前景对象的位置和大小，以将人类与背景图像进行比较; Lin等[21]使用具有空间变换器网络的生成对抗网络（GAN）[12]来学习前景对象的正确几何变换这些工作考虑了图像合成中的几何一致性，但它们只能在前景和背景图像的域相似时起作用。我们的工作通过提供一个统一的端到端框架来扩展以前的工作，该框架可以学习一致地调整几何形状和外观，这使得我们的模型可以自动合成来自不同来源的图像。3D合成已经有许多作品将合成的3D对象与图像结合起来[6，15，16，9，8]。然而，这些方法需要显式地重建场景几何形状和环境照明，以便渲染3D对象。另一方面，我们的模型可以直接将渲染对象作为合成的输入。生成对抗网络[7]已用于许多不同的图像生成任务[23，3，26，11，36、10、33、20]。条件GAN [23]提供了一种在给定不同输入的情况下从不同类生成图像的方法。Isola等人[11]提供了一个框架，在给定训练图像对的情况下，将图像从一个域转换到另一个域。Zhu等[36]进一步扩展该框架，以使用循环一致性来处理未配对的训练图像。然而，这些框架不能直接应用于图像合成任务，因为合成的图像需要以一致的方式保留前景和背景图像两者的精细细节。我们的模型不是直接生成图像，而是利用对抗学习过程来学习几何和颜色校正，以实现逼真的构图。8417外观损失（Lc）对抗性损失（La）输入生成式合成模型（3.2）对抗训练（3.3）鉴别器网络（D）假对抗训练鉴别器网络（D）房转换网络（CoH）细化网络（R）分段网络（S）合成图像（Ic）真实图像分段网络（S）前景面具A（一）对抗分割损失（Ls）几何损失（Lg）（（图2. 建议的网络架构概述。（a）给定由前景对象组成的输入三元组，遮罩和背景图像，生成合成模型（由变换和细化网络组成）学习创建逼真的合成图像，以欺骗分割网络和分割网络。(b)给定一幅图像，神经网络学习预测真假，而分割网络学习从背景中分割前景3. 该方法3.1. 系统概述图2显示了建议的网络架构的概述。该模型由四个子网络组成：变换网络、细化网络、判别器网络和分段网络。变换网络和细化网络一起作为生成合成模型，并在第3.2节中进行了描述。神经网络和分割网络通过对抗学习改进了生成模型，并在第3.3节中进行了描述。给定由背景图像、前景图像和对象掩码组成的输入三元组，合成模型学习合成真实图像，而合成网络学习区分合成图像和真实图像。此外，分割网络试图将合成图像中的前景对象与背景分离。训练模型以优化第3.4节中描述的最小-最大目标函数。3.2. 生成式合成模型给定具有N个像素的前景图像If∈[0，1]N×3模型参数。F（I）∈[0，1]N×3是变换后的前景，A（I）∈[0，1]N是alpha掩码。在这个公式下，简单的α组成模型可以被描述为恒等函数：A（I）=α;F（I）=If.如果只考虑几何校正，如[21]中所述，则模型变为：A（I）=H（α，Th（I;θG））（2）F（I）=H（If，Th（I;θG）），（3）其中H（·）是几何变换函数，例如homography，f精细或相似变换，Th（·）是变换矩阵。我们使用空间Transformer网络-[12]预测变换参数。另一方面，如果我们假设前景/背景几何形状是一致的，并且只考虑颜色校正，则F（I）变为调整前景图像外观的颜色变换函数F（I）=C（If，Tc（I; θG））。我们使用线性亮度和对比度模型[35]：λ10 0Σ Σ0λ20NC（If，Tc（I;θG））=If1（4）其中前景掩码α∈ {0，1}和背景0 0 λ3图像Ib∈[0，1]N×3作为输入I={If，Ib，α}，图像合成过程可以如下公式化Ic=G（I;θG）=A（I）<$F（I）+（1−A（I））<$Ib，（1）其中，f是Hadamard乘积，G是合成8418β1β2β3其中Tc（I;θG）=（λ1，λ2，λ3，β1，β2，β3）是预测对比度和亮度参数的变换网络为了将几何校正和颜色校正两者应用于合成图像，我们然后可以组合等式3和等式4：该模型结合了Ifindi的前景区域，由掩模α和背景图像Ib确定;θG为F（I）=C.ΣH（If，Th（I; θ G）），Tc（I; θ G）.（五）8419-一个2注意，我们可以使用单个网络同时预测颜色和几何变换参数，使得T（I;θG）=[Th（I;θG）;Tc（I;θG）]并将等式5简化为：F（I）=（C <$H）（I f，T（I; θG））.（六）等式2和等式6一起描述了我们的合成模型需要附加的约束，因为直接最小化上述目标通常会导致微不足道的解决方案，其中合成模型简单地使用几何变换去除合成图像中的前景。因此，我们在目标函数中添加一个几何损失项：中文（简体）KIc=G（I;θG）的情况。然而，合成图像可能仍然Lg=EIT（I;θG）（十一）包含一些边界伪影为了解决这个问题，我们引入具有编码器-解码器架构的细化网络R，其进一步细化合成图像。因此，最终的组合模型可以描述为：Ic=G（I;θG）=R（A（I）<$F（I）+（1 − A（I））<$I b）。（七）3.3. 对抗性学习等式7描述了我们的合成模型Ic=公式11中的第一项惩罚大变换，类似于[21]中的更新损失;第二项是指数损失，如果前景掩模太小，则直接惩罚前景掩模的大小。对于具有地面真实几何变换参数的数据，我们直接使用预测参数和地面真实参数之间的均方误差作为我们的几何损失。最后，我们使用逐像素L1损失Lc将变换后的前景图像锚定到原始前景图片：G（I;θG）的一个变换网络，精细化网络我们采用类似于[7]中描述的过程来训练具有对抗学习的神经网络D（x;θD）。对抗性学习最大化了以下内容-ΣLc=EI.ΣH（If，T（I;θ））−F（I）A（I）◦ A（I）Σ.（十二）降低对抗损失La来区分自然图像Ib根据合成图像Ic：结合上述三个损失项，GCC-GAN的最终损失函数为：La（D，G）=EIbΣΣlogD（Ib）+EIcΣ Σlog（1−D（Ic））。（八）min maxλaLa+λsLs+λgLg+λcLc，（13）θGθD我们使用一个基本的三层卷积网络的卷积网络的网络，并采用频谱归一化[24]加强培训工作。为了减少合成图像中前景和背景之间的差异，我们提出训练一个额外的分割网络S，该网络学习将合成图像中的前景对象与背景分离。该网络使用对抗分割损失进行训练：其中λa、λs、λg和λc是控制不同损失项之间权重的超参数3.5.实现细节我们使用 PyTorch [25] 实现了 GCC-GAN ，并在Nvidia GTX 1080TI GPU上进行了训练。为了对合成数据进行实验，将输入调整为128×128Ls（S，G）=Σs∈fgEIcΣ Σlog（1 −Ds（Ic））COCO实验为256×256。公司现采用国际Adam优化器，初始学习率为0.0002并且（λa，λs，λg和λc）被设置为（0.01，0.01，1，1）至em。Σ+s∈bgEIcΣ Σlog（Ds（Ic），（9）在损失条款上进行了平衡。我们对两个实验都使用批量大小1，并为合成数据集训练模型200个epoch，为COCO实验训练模型5个epoch。其中，s∈ {fg∈bg}指示不同的空间位置，并且fg、bg是前景和背景空间位置的集合，合成图像中的位置。分割网络S通过为每个空间位置生成前景/背景概率来检测前景区域。3.4.几何和颜色一致的GAN（GCC GAN）8420在[7]之后，我们通过最小化最小-最大目标来优化等式7minmax La（D，G）+ λLs（S，G）.（十）是的。最后，我们使用仿射变换作为我们的几何变换函数，并且我们采用[13]对于细化网络和分段网络。4. 实验4.1. 基于合成对象的首先，我们验证我们的模型在一个简化的人工设置与合成数据集。我们使用Panda3D游戏引擎1来渲染包含桌子和汽水罐的图像。1https://www.panda3d.org/θG θD，θS8421初始输出地面实况几何颜色（一）仅几何（b）第（1）款考虑到合成图像中颜色一致性的重要性，我们还训练了一个仅使用类似于[21]的几何变换网络的模型。图3（b）显示了仅应用几何校正的模型的结果该模型无法生成合理的合成图像，因为单独的几何变换无法将合成图像移动到训练数据的流形上。4.2. 常见对象的图像合成我们使用上下文中的公共对象（COCO）[22]数据集进行合成实验。COCO由图3. 合成数据实验。（a）通过几何变换和颜色变换，我们的模型学习了汽水罐和桌子之间的关系，并成功地生成了汽水罐放在桌子上的合成图像。(b)如果没有颜色变换，模型就无法学习正确的变换，因为单独的几何变换无法将合成图像移动到训练数据的流形上。掩蔽几何和颜色扰动扩张路口前景对象Mask（If，α）输入图像和对象掩码联盟反转侵蚀掩蔽背景合成图像图像（Ib）辅助对象遮罩图4. 培训数据生成过程。对于给定的图像及其对象掩码，我们首先从数据集中具有相同语义类别的不同图像中选择辅助对象掩码我们利用形态学运算来去除前景物体与背景影像的边界.然后，我们结合的对象掩模与辅助的，以模拟在测试过程中的边界失配。最后，我们应用几何和颜色扰动来模拟测试过程中的不一致性。我们为每个3D配置渲染三个图像，包括一个带有汽水罐的前景图像，一个带有桌子的背景图像，以及一个带有桌上汽水罐的地面真实合成图像。然后，我们对前景应用随机的几何和颜色扰动，并学习一个模型来将扰动的前景合成到背景图像中。由于合成图像具有完美的分割掩模，因此在合成图像中将不存在边界伪影。因此，我们省略了细化网络和分割网络在我们的模型的实验。我们在15，000个合成的训练三元组上训练我们的模型，其中有200个epoch。图3（a）示出了一些示例结果，其中第一行是具有前景扰动的初始合成，第二行是我们的模型的输出我们的模型能够校正前景对象的几何形状和颜色，并生成一个合理的合成图像。颜色一致性的重要性。为了证明我-的330K图像与分割掩模的80个常见的对象类别。训练数据生成。我们的目标是通过将前景图像中的对象插入到新的背景图像中来生成合成图像然而，我们没有训练数据与现实的复合图像，这重新-需要专业的图像编辑软件进行密集的人工注释相反，我们通过扰动输入图像自动生成训练数据图4显示了训练数据生成的过程。对于每个具有相应对象掩码的输入图像，我们首先从数据集中具有相同对象类别的另一图像中选择然后，我们使用形态学操作，并结合对象掩模与辅助掩模从图像中去除边界，模拟测试过程中的边界失配。最后，我们应用几何和颜色失真的前景来模拟几何和颜色失配在测试过程中。对于每个输入图像I，我们生成背景图像Ib、前景图像If和对象掩模α作为模型的输入。然后，我们的模型尝试将前景对象合成到背景中，并生成逼真的合成图像。我们选择的对象段，占整个图像的5%至50%之间，我们的实验。对于每个片段，我们选择与原始对象掩码具有最大交集的5个辅助对象掩码，得到516，070个训练三元组。在测试过程中，我们简单地从背景图像中删除一个对象，并将另一个前景对象与背景合成。请注意，我们的目标是评估图像合成算法，因此我们使用地面实况对象掩码来分割对象，但是，我们也可以使用语义分割来分割对象以进行图像合成。对比基线。我们将我们的模型与以下基线进行比较：• 阿尔法合成：使用阿尔法蒙版线性组合前景和背景.• Poisson Blending [27]：一种基于梯度的方法，可以最大限度地减少合成图像中的梯度变化。• Deep Harmonization [30]：具有语义分割的端到端编码器-解码器网络。8422原始前景掩模Possion混合深协调Pix 2 Pix GCC-GAN（我们的）图5. 不同算法的定性结果。第一列是原始图像，第二列是前景对象掩码。其余列显示不同算法的输出。请注意，由于基线方法不考虑几何一致性，为了公平比较，我们选择与背景最匹配的前景对象以确保几何一致性。• Pix2Pix [11]：一个具有对抗性损失的图像到图像翻译网络。图5显示了与基线相比，请注意，由于基线不考虑几何一致性，为了公平比较，我们选择与背景最匹配的前景对象，并在输入基线之前调整几何形状以匹配前景和背景遮罩。即使没有几何不匹配，我们的模型可以自动生成竞争力或更真实的复合图像相比，所有的基线方法。与所提出的方法相比，Pix2Pix可以生成类似质量的图像，然而，在下面的部分中，我们表明，当前景和背景之间存在几何不一致时，Pix2Pix无法生成合理的合成图像，因为它们的模型不包含几何损失（参见图10）。图7）。几何一致性的重要性。图6示出了所提出的模型的几何校正的过程，一些示例第一列是背景图像，第二列是带蒙版的前景对象。第三列显示了使用简单的复制-粘贴操作的初始alpha组合。请注意，在这个初始组合中，前景在第四列中，我们的模型首先使用空间Transformer网络变换前景，使合成图像在几何上保持一致。最后，最后一列显示了细化网络的结果，它使边界更真实，实现了更真实的图像合成。图7显示了我们的模型与不包含几何校正的Pix2Pix模型之间的比较。与Pix2Pix生成的合成图像相比，我们的模型能够对前景图像进行几何变换，从而生成看似合理的合成图像。人类感知实验我们还进行了人类感知实验来定量评估我们的模型。在第一个实验中，我们想验证与基线方法相比，我们的合成图像在近距离检查下可以欺骗人类受试者。我们从COCO数据集中的80个类别中的每一个类别中随机选择10张图像，总共800张图像。对于每个图像，8423Alpha原始前景合成几何变换GCC-GAN方法%真实值α成分4.1%泊松混合[27] 10.0%深度协调[30] 8.6%[11]第十一届中国国际汽车工业展览会GCC-GAN（我们的）11.0%真实图像73.8%表1. 人类对单一图像的感知实验。我们要求注释者检查图像中是否有任何不寻常的伪影与基线相比，GCC-GAN可以欺骗注释者11%的时间请注意，为了公平比较，我们通过选择与背景最匹配的前景对象来确保几何一致性。图6. GCC-GAN的几何校正。第一列和第二列显示原始图像和前景对象.第三列显示了使用alpha合成的合成图像，其中前景和背景之间的几何形状不一致。第四列显示了几何变换后的合成图像，最后一列显示了GCC-GAN与最终细化网络的输出背景前景Pix2PixGCC-GAN（我们的）原始图7.当输入几何不一致时Pix 2 Pix和GCC-GAN之间的比较。与Pix 2 Pix相比，GCC-GAN能够纠正几何误差并生成更合理的合成图像。我们使用前面提到的基线A1生成五个合成图像。我们将合成图像以及原始真实图像以随机顺序显示给注释者，并要求他们检查图像中是否有任何不寻常的伪影，总共获得了4，800个注释。表1示出了实验结果。即使输入图像不需要任何几何校正，表2. 人类对图像的感知实验。给定两个图像，我们要求注释者从这对图像中选择更真实的与所有其他基线相比，GCC-GAN的输出在一半以上的时间内被选中我们的模型在人类感知方面仍然优于所有基线，这证明了使用分割网络的对抗学习过程请注意，26.2%的真实图像实际上被注释为假图像，这表明注释者非常严格，并仔细检查图像。在第二个实验中，我们希望直接将我们的算法与基线进行比较。我们从COCO网站上每类随机抽取5张图片，共计400张图片。我们向注释器显示两个合成图像。一个图像是由我们的模型生成的，而另一个是用一种基线方法生成的。为了确保公平的比较，两个图像都是用相同的前地和背景生成的，具有匹配的对象掩模以确保合成图像在几何上是一致的，并且不以特定的顺序向注释者示出。表2显示了实验结果，即使没有几何校正，我们的模型也可以优于所有基线方法，并生成更好的合成图像。定性结果和失败案例。图8显示了由我们的模型生成的复合图像以及不同对象类别的原始图像GCC-GAN能够生成逼真的构图。图9显示了我们模型的一些失败案例。在第一个例子中，我们的模型没有任何姿势信息，也无法考虑街景的语义布局。因此，该模型生成具有不一致姿态的汽车的合成。在第二示例中，前景分割掩模是不完美的（即，自行车的轮子），所以模型生成-方法GCC-GAN性能更佳α成分82.5%[27]第二十七话百分之六十七点三[30]第三十话71.4%[第11话]56.7%8424方法平均RGB-N评分α成分75.4%Poisson blending [27]百分之七十五点八深度协调[30]77.0%[第11话]百分之六十九点一GCC-GAN（我们的）百分之六十三点七真实图像百分之五十七点八表3. 不同合成算法的平均操作分数。分数由最先进的操纵检测算法[34]生成，其中分数越高表示图像被操纵的可能性越高。GCC-GAN能够生成更逼真的图像，从而欺骗操纵检测算法。请注意，泊松混合和深度谐波化的性能比阿尔法合成差，这可能是因为合成过程引入了由操纵检测算法捕获的额外伪影。图8. 定性结果。第一行和第三行显示原始图像，第二行和第四行显示GCC-GAN的输出。使用不一致的外观对合成图像进行渲染。在第三个例子中，我们将一个彩色序列插入到黑白背景中由于我们的大多数训练数据由彩色图像组成，因此模型没有学会将前景的外观变为黑白。在最后一个例子中，我们展示了一个失败的情况下，生成一个复合图像与动物。我们的模型对刚性物体的效果更好，对具有不同姿势的动物建模有困难。图像处理检测。在这个实验中，我们想看看由我们的模型生成的合成图像能在多大程度上欺骗图像操作检测算法。为此，我们利用训练有素的国家的最先进的形象操纵检测模型RGB-N [34]，它使用双流faster-rcnn网络来检测不同类型的图像操纵。我们随机选择了50个由每个基线算法输出的图像，并将它们传递给RGB-N模型以生成操作分数。表3显示了不同合成算法的平均操作分数。我们的模型获得了最低的RGB-N分数，这表明RGB-N模型认为我们的GCC-GAN模型生成的合成图像与基线相比更真实。5. 结论我们提出了GCC-GAN用于图像合成，它考虑了几何，颜色和边界的一致性。基于合成数据以及真实世界数据的实验，我们表明，几何和颜色一致性，图9. 故障案例。（1）GCC-GAN不包含姿态信息，也不学习街道的语义布局。因此，合成图像包含具有不真实姿态的汽车。(2)GCC-GAN由于分割误差和运动模糊而生成不真实的图像，这是不考虑的。(3)由于我们的大多数训练数据都是彩色图像，GCC-GAN将彩色训练组合成黑白背景。(4)GAN在处理刚性物体时表现更好，但在处理动物等具有不同姿势的物体时却很困难。清晰度对于生成逼真的合成图像是至关重要的。我们还表明，GCC-GAN产生更好的结果相比，几个国家的最先进的基线实验涉及人类感知和图像操纵检测。尽管结果令人鼓舞，但我们也显示了GCC-GAN的局限性，例如无法处理具有不同姿态的对象。未来的工作包括将姿态信息融入到我们的图像合成框架中，并使用GCC-GAN来改进图像操纵检测算法。鸣谢。我们要感谢威瑞森媒体集团的CAKE（内容分析知识工程）团队在图像注释方面的帮助我们还要感谢Guy Dassa提供的有用反馈和讨论。8425引用[1] Photoshophttps://www.adobe.com/products/photoshop.html。1[2] A. Agarwala、M. Dontcheva，M. Agrawala，S. 德鲁克A.科尔本湾Curless，D. Salesin和M.科恩交互式数码照片剪辑。ACM Transactions on Graphics（ToG），23（3）：294-302，2004. 2[3] K. Bousmalis，N. Silberman，D. Dohan，D. 尔汗，还有D.克里希南无监督像素级域适应与生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第3722-3731页，2017年。一、二[4] P.J.Burt和E. H.阿德尔森多分辨率样条及其在图像拼接中的应用。 ACM Transactions on Graph-ics，2（4）：217-236，Oct. 1983. 一、二[5] Q. Chen和V. Koltun.使用级联细化网络的摄影图像合成。在IEEE计算机视觉国际会议论文集，第1511- 1520页，2017年。1[6] 德贝维克将合成对象渲染到真实场景中：通过全局照明和高动态范围摄影将传统图形和基于图像的图形连接起来。ACM SIGGRAPH 2008，第32页。ACM，2008年。2[7] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展，第2672-2680页，2014年。一、二、四[8] Y. Hold-Geoffroy，K. Sunkavalli，J. Eisenmann，M. 费舍尔E. Gambaretto，S. Hadap和J. - F.拉隆德用于深度单图像相机校准的感知测量。在IEEE计算机视觉和模式识别会议上，第2354-2363页，2018年。2[9] Y. Hold-Geoffroy ， K. Sunkavalli ， S. Hadap ， E.Gambaretto和J. - F.拉隆德深度室外照明估计。在IEEE计算机视觉和模式识别会议论文集，第7312-7321页2[10] S. Iizuka、E. Simo-Serra和H.石川全局和局部一致的图像完成。ACM Transactions on Graphics，36（4）：1-14，2017年7月。2[11] P. Isola，J.- Y. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。一二六七八[12] M. Jaderberg ， K. Simonyan 、 A. Zisserman 等人空间Transformer网络。神经信息处理系统的进展，2017-2025页，2015年。二、三[13] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694-711页。施普林格，2016年。4[14] M. K.约翰逊，K。Dale，S. Avidan，H. Pfister，W. T.自由人和W。马图西克Cg2real：使用大量的照片来提高计算机生成图像的真实感。IEEE Transactions onVisualization and Computer Graphics，17（9）：1273-1285，2011。一、二[15] K. Karsch，V. Hedau，D. Forsyth和D.霍伊姆将合成对象渲染为旧照片。在ACM Transac-8426《图形学》（TOG），第30卷，第157页。ACM，2011年。2[16] K. Karsch，K.Sunkavalli，S.Hadap，N.Carr，H.金河，西-地丰特，M. Sittig和D.福赛斯三维物体合成中场景的自动推断。ACM Transactions on Graphics，33（3）：1-15，2014年6月。2[17] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。4[18] J. - F. Lalonde和A. A.埃夫罗斯使用颜色兼容性评估图像真实性。2007年IEEE第11届计算机视觉国际会议，第1-8页。IEEE，2007年。一、二[19] J. - F. 拉隆德湾Hoiem，A.A. 埃夫罗斯角罗瑟，J。Winn和A.天啊照片剪贴画。ACM图形交易（TOG），26（3）：3，2007年。一、二[20] C. 莱迪格湖Theis，F.Husza'r，J.Caballero，A.坎宁安A.阿科斯塔A.艾特肯A. Tejani，J. Totz，Z. wang等人使用生成对抗网络的照片级逼真的单幅图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，第4681-4690页，2017年。2[21] C.- H. Lin ， E. 尤默岛 O.Wang ，中国山核桃E.Shechtman和S.露西St-gan：用于图像合成的空间Transformer生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第9455-9464页一、二、三、四、五[22] T.- Y. 林， M 。迈尔， S 。贝隆吉， J.Hays ，P.Perona，D.Ra-manan，P. Doll a'r和C. L. 齐特尼克Microsoftcoco：上下文中的通用对象欧洲计算机视觉会议，第740-755页Springer，2014. 5[23] M. Mirza和S.奥辛德罗条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。2[24] T.宫城，T.卡塔奥卡，M。Koyama和Y.吉田生成对抗网络的频谱归一化 arXiv 预印本 arXiv ：1802.05957，2018。4[25] A. Paszke，S.格罗斯，S。钦塔拉湾Chanan、E.杨，Z.De Vito ， Z. Lin ， L. 德迈松湖 Antiga 和 A. Lererpytorch中的自动微分。2017. 4[26] D.作者：P. Krahenbuhl，J.多纳休，T. Darrell和A. A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。在IEEE计算机视觉和模式识别会议论文集，第2536-2544页，2016年。2[27] P. 我是佩雷斯先生。Gangnet 和A. Bla k e.泊松图像编辑。ACM Transactions on graphics（TOG），22（3）：313-318，2003。一、二、五、七、八[28] X.齐，阿根-地Chen，J. Jia，and V.科尔顿。半参数图像合成。在IEEE计算机视觉和模式识别会议论文集，第8808- 8816页，2018年。1[29] F.坦角，澳-地伯尼尔湾Cohen，V. Ordonez，and C.巴恩斯在哪里和谁？自动语义感知人物组合。2018年IEEE计算机视觉应用冬季会议（WACV），第1519-1528页。IEEE，2018年。2[30] Y.-- H. Tsai，X.沈，Z.Lin，K.Sunkavalli，X.Lu和M.H.杨深层图像协调。在IEEE计算机视觉和模式识别会议集，第3789-3797页，2017年。一、二、五、七、八8427[31] T.- C.王兆国Y.刘杰- Y. Zhu，中国茶青冈A. Tao，J. Kautz和B. 卡坦扎罗基于条件gans的高分辨率图像合成与在IEEE计算机视觉和模式识别会议集，第8798-8807页，2018年。1[32] S. Xue、黑腹拟步行虫A. Agarwala，J. Dorsey和H.拉什迈尔理解和提高图像合成的真实感ACM Transactions on Graphics（TOG），31（4）：84，2012。一、二[33] J. Yu，Z.Lin，J.Yang，X.Shen，X.Lu和T.S. 煌具有上下文注意的生成图像修复。在IEEE计算机视觉和模式识别会议上，第5505-5514页，2018年。一、二[34] P. Zhou，X.维·汉Morariu和L. S.戴维斯学习丰富的特征用于图像操纵检测。在IEEE计算机视觉和模式识别会议论文集，第1053-1061页，2018年。8[35] J. - Y. Zhu，P. Krahenbuhl，E. Shechtman和A. A.埃夫罗斯学习一个判别模型，用于感知合成图像中的真实感。IEEE国际计算机视觉会议，第3943-3951页，2015年一、二、三[36] J. - Y. Zhu，T.帕克山口Isola和A.A. 埃夫罗斯使用循环一致对抗网络的不成对在IEEE计算机视觉国际会议论文集，第2223-2232页一、二

下载后可阅读完整内容，剩余1页未读，立即下载