基于级联语义指导的多通道注意力选择GAN跨视角图像翻译

37 浏览量更新于2023-10-18 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于级联语义指导的多通道注意力选择GAN跨视角图像翻译唐昊1，2*徐丹3*Nicu Sebe1，4王艳芝5Jason J. Corso6严妍21意大利特伦托大学DISI2美国德克萨斯州立大学圣马科斯分校3英国牛津大学4爱尔兰都柏林华为技术有限公司5美国波士顿东北大学6美国密歇根大学安娜堡分校摘要跨视图图像转换是具有挑战性的，因为它涉及具有显著不同视图和严重变形的图像。在本文中，我们提出了一种新的方法命名为多通道注意力选择GAN（选择- GAN），使它成为可能，生成图像的自然场景中的任意视点，基于一个图像和一个新的语义图。所提出的SelectionGAN明确地利用语义信息，并由两个阶段组成。在第一阶段，条件图像和目标语义图被送入一个循环语义引导生成网络，以产生初始的粗糙结果。在第二阶段，我们使用多通道注意力选择机制来改进初始结果。此外，从注意力自动学习的不确定性图用于指导更好的像素损失。称为网络优化。在Day-ton [41]，CVUSA [43]和Ego 2 Top [1]数据集上的广泛实验表明，我们的模型能够产生比最先进的方法更好的结果。源代码、数据和训练模型可以在https：//github上找到。com/Ha0Tang/SelectionGAN.1. 介绍跨视点图像翻译是一项旨在将新图像从一个视点合成到另一个视点的任务。它已经获得了很多兴趣，特别是从计算机视觉和虚拟现实社区，并已被广泛研究，在最近几年[40，20，54，34，47，15，31，52，45]。早期的工作使用编码器-解码器卷积神经网络（CNN）通过在城市场景合成[52]和3D对象转换[45]的瓶颈表示中涉及视点代码来也有一些研究生成对抗网络的作品*同等贡献。图1：我们在两个公共基准上的跨视图翻译结果示例，即Dayton [41]和CVUSA [43]，以及我们基于Ego2Top[1]的自主创建的大规模基准。类似的任务[31]。然而，这些实例考虑了对象和场景在外观和视图上具有很大程度的重叠与以往的工作不同，在本文中，一个更具挑战性的设置，其中视野有轻微或甚至没有重叠，导致显着不同的结构和外观分布的输入源和输出目标视图，如图所示1.一、为了解决这个具有挑战性的问题，Regmi和Borji [34]最近提出了一种条件GAN模型，该模型联合学习图像域和相应语义域中虽然这种方法进行了一个有趣的探索，我们观察到不令人满意的方面，主要是在生成的场景结构和细节，这是由于不同的原因。首先，由于获得手动注释的语义标签总是代价高昂的，因此标签图通常由来自其他大规模分割数据集的预训练语义模型产生，导致对所有像素的预测不够准确其次，我们认为，翻译与一个单一的24172418不确定性图不确定性图`1`2`3SGCG我0我0S多通道注意力选择模块00IgGSGGsGS00GIaFiFsCGa最终输出第一阶段第二IgIg`4图2：建议的SelectionGAN概述第一阶段提出了一个循环的语义引导生成子网络，接受来自一个视图的图像和条件语义图，并同时合成另一个视图中的图像和语义图。第二阶段从第一阶段获得粗略的预测和学习到的深层语义特征，并使用所提出的多通道注意力选择模块进行细粒度生成。相位生成网络不能捕获两个视图之间的复杂场景结构关系。第三，三通道生成空间可能不足以适合于学习用于该复杂合成问题的良好映射。鉴于这些问题，我们是否可以扩大生成空间，并学习一种自动选择机制来合成更细粒度的生成结果？基于这些观察，本文提出了一种新的多通道注意力选择生成式广告网络（SelectionGAN），它包含两个生成阶段。所提出的Selec- tionGAN的总体框架如图所示。二、在第一阶段，我们学习了一个循环的图像语义生成子网络，它接受由图像和目标语义图组成的一对，并为另一个视图生成图像，这些图像进一步馈送到语义生成网络以重建输入的语义图。这种循环生成在图像和语义域之间增加了更强的监督，促进了网络的优化。来自第一代网络的粗略输出（包括输入图像）与来自最后一层的深度特征图一起被输入到第二级网络中。产生若干个中间输出，同时我们学习一组与中间生成数量相同这些注意力图用于从中间世代中进行空间选择，并且被组合以合成最终输出。最后，为了克服语义标签不准确的问题，进一步使用多通道注意力图来生成不确定性图，以指导再现损失。通过广泛的实验评估，我们证明了SelectionGAN产生的结果明显优于Pix 2 pix [16]，Zhai等人 [47]，X-Fork [34]和X-Seq [34]等基线。此外，我们在三个不同的数据集上建立了任意交叉视图图像合成任务。总体而言，本文的贡献如下：• 提出了一种新的多通道注意力选择 GAN 框架（SelectionGAN），用于跨视角图像翻译任务它探索了级联语义指导与粗到细的推理，并旨在从更丰富和更多样化的多个中间代产生更详细的合成。• 提出了一种新的多通道注意力选择模块，利用该模块对感兴趣的中间代进行注意力多通道atten- tion模块还有效地学习不确定性图，以指导像素丢失，从而实现更稳健的优化。• 大量的实验清楚地证明了所提出的SelectionGAN的有效性，并在两个公共基准上显示了最先进的结果，即。 [41]第43话：同时，我们还使用Ego2Top [1]的数据创建了一个更大规模的跨视图合成基准，并为研究社区提供了多个基线模型的结果。2. 相关工作生成对抗网络（GAN）[11]已经显示出生成更好的高质量图像的能力[42，18，12]，与现有方法相比，限制玻尔兹曼机[13，35]和深度玻尔兹曼机[14]。一个普通的GAN模型[11]有两个重要的组成部分，即生成器G和判别器D。G的目标是从噪声向量生成照片级逼真的图像，而D试图区分真实图像和G生成的图像。虽然它成功地用于生成高视觉保真度的图像[18，48，32]，但仍然存在一些挑战，即如何在受控设置中生成图像。为了生成特定领域的图像，条件 GAN（CGAN）[27]2419S′的g′提出了一种CGAN通常结合了一个普通的GAN和一些外部信息，如类标签或标签[29，30，4，39，36]，文本描述[33，49]，人体姿势[8，37，28，22]和参考图像[25，16]。图像到图像转换框架采用输入-输出数据来学习输入和输出之间的参数映射。例如，Isola et al. [16]提出Pix2pix，这是一个监督模型，并使用CGAN来学习从输入到输出图像域的转换函数。Zhu等人。 [53]介绍了CycleGAN，它使用循环一致性损失来定位未配对的图像翻译。为了进一步提高生成性能，最近在图像平移中研究了注意力机制，例如[3，44，38，24，26]。然而，据我们所知，我们的模型是第一次尝试在GAN框架内整合多通道注意力选择模块用于图像到图像翻译任务。学习观点转换。大多数关于视点变换的现有工作都是为了合成同一对象的新视图，例如汽车，椅子和桌子[9，40，5]。另一组作品探索了跨视图场景图像生成，如[46，52]。然而，这些作品集中在场景中的对象和场景有很大程度的重叠在外观和视图。最近，一些作品开始研究图像翻译问题与dras- tically不同的意见，并产生一个新的场景从一个给定的任意一个。这是一项更具挑战性的任务，因为不同的视图几乎没有重叠。为了解决这一问题，Zhai et al. [47]尝试通过使用卷积神经网络从同一位置的航空图像生成全景地面图像。Krishna和Ali [34]提出了一种基于X-Fork和X-Seq GAN的结构，使用额外的语义分割图来解决从空中到街景的图像转换任务。然而，这些方法是第二阶段，粗合成和来自第一阶段的深度特征被组合，然后被传递到所提出的多通道注意力选择模块，该模块旨在从更大的生成空间产生更细粒度的合成，并且还生成不确定性图以引导多个优化损失。3.1. Cascade Semantic Guided Generation语义引导生成。跨视图合成是一个具有挑战性的任务，特别是当两个视图有轻微的重叠，如在我们的研究案例，这显然会导致在生成过程中的歧义问题。缓解在这个问题上，我们使用语义图作为条件引导。由于获得带注释的语义地图总是代价高昂，因此[34]我们使用从大规模场景解析数据集（如Cityscapes [6]）预训练的分割深度模型生成地图然而，[34]仅在重建损失中使用与他们不同的是，我们不仅将语义映射应用于输出损失，还将其作为网络输入的一部分。具体地说，如图2.将源视图的输入图像Ia和目标视图的语义映射SG连接起来，并将它们输入到im-vector中。′年龄生成器Gi，并合成目标视图图像Ig′如Ig=Gi（Ia，Sg）。通过这种方式，地面实况语义地图提供了更强的监督，以指导交叉视图在深层网络中翻译。语义引导循环Regmi和Borji [34]观察到同时生成图像和语义映射可以提高生成性能。同样，我们提出了一个循环语义生成网络，以利于更多的语义信息的学习。条件语义图Sg与输入图像Ia一起被输入到图像生成器Gi中，无法产生令人满意的结果，由于激烈的“源视图和目标视图之间的差异及其模型设计。为了克服这些问题，我们以更有效的网络设计为目标，提出了一种新的多通道注意力选择GAN，它允许从多个不同的和丰富的中间代中自动选择，从而显着提高生成质量。并产生合成图像Ig。那么g更进一步被馈送到语义生成器G中，语义生成器G重构一个′新的语义图Sg.我们可以把这个过程形式化为Sg=Gs（Ig）=Gs（Gi（Ia，Sg））.最后，优化了...′目标是使Sg尽可能接近Sg，这就意味着urally形成一个语义生成c，i。e. [I，S]→Gi′ Gs′3. 多通道注意力选择GAN在本节中，我们将详细介绍所提出的多通道注意力选择GAN。整个网络结构的图示在图1中描绘。二、在第一阶段，我们提出了一个级联语义引导生成子网络，它利用来自一个视图的图像和来自另一个视图的条件语义映射作为输入，并在另一个视图中重建图像。这些图像被进一步输入到语义生成器中以恢复输入的语义图，形成生成循环。在秒-I g →S g<$S g. 这两个生成器是显式连接的由地面实况语义地图，这在这种方式亲，在生成器上提供额外的约束，以更好地学习语义结构的一致性。级联发电。由于任务的复杂性，在第一阶段之后，我们观察到图像生成器Gi输出粗略的合成，这产生模糊的场景细节和与目标视图图像的高像素级不相似性。这启发我们探索一种从粗到精的生成策略，以提高基于粗预测的合成性能。级联模型2420i=1′N中间代多尺度空间池多通道注意选择图3：所提出的多通道注意力选择模块的图示为了更好地生成场景细节，采用多尺度空间池化方法将不同感受野的特征汇集起来;多通道注意力选择的目的是在更大的代空间中从一组中间差异代中自动选择，质量符号、、c而表示逐元素加法、逐元素乘法、级联和上加。取样操作。已经被用于其他几个计算机视觉任务，生成器Gi和Gs的卷积层。作为对象检测[2]和语义分割[7]，以及我们应用一组M个空间尺度{si}M在合并中，已经显示出很大的效果。本文介绍级联策略处理复杂的跨视图翻译问题。在这两个阶段中，我们有一个基本的循环语义引导生成子网络，而在第二阶段，我们提出了一个新的多通道注意力选择模块，以更好地利用粗输出从第一阶段，并产生细粒度的最终输出。我们观察到显着的改善，通过使用建议的cas-cade策略，在实验部分说明。3.2. 多通道注意力选择概述了拟议的多通道注意se-选择模块G a如图所示。3.第三章。该模块由多尺度空间池和多通道atten- tion选择组件组成。多尺度空间融合。由于在源视图和目标视图之间存在大的物体/场景变形，单尺度特征可能无法捕获细粒度一般所需的所有空间信息。第因此，我们提出了一种多尺度空间池化方案，该方案使用一组不同的核大小和步幅来对相同的输入特征执行全局平均池化。通过这样做，我们获得了多尺度特征与不同的感受野感知不同的空间背景。更具体地说，给定从阶段I产生的粗略输入和深层语义特征，我们首先将所有其中，对于阶段II，作为新特征表示为Fc，如下：′Fc= concat（Ia，Ig，Fi，Fs）（1）其中concat（·）是用于通道级级联操作的函数;Fi和Fs是来自最后一个连接的特征从而产生具有不同空间分辨率的汇集特征与[50]中使用的池化方案不同，该方案在池化后直接组合所有特征，我们首先通过与输入特征的逐元素乘法来选择每个池化特征。由于在我们的任务中，输入特征来自不同的来源，因此高度相关的特征将为下一代保留更多有用的信息。让我们将pl ups（·）表示为以尺度s进行池化，然后进行上采样操作以在相同分辨率下重新缩放池化特征，并将pup s（·）表示为逐元素乘法，我们可以将整个过程形式化如下：.Fc←concatFcplup1（Fc），. . .，Fc=M（Fc））（二）然后将特征Fc馈送到卷积层，′其产生新的多尺度特征Fc，用于多通道选择模块。多通道注意力选择。在以往的跨视角图像合成工作中，图像仅在三通道RGB空间中生成。我们认为，这是不够的，我们正在处理的复杂的翻译问题，因此，我们探索使用更大的生成空间，通过构建多个中间代有一个更丰富的合成。因此，我们设计了一个多通道的注意力机制，自动执行空间和时间选择的世代，合成一个细粒度的最终输出。给定多尺度特征向量F_c∈R_h×w×c，其中h和w是特征的宽度和高度，并且c是通道的数量，我们考虑两个方向。一种是用于产生多个中间图像同步，FCFCCFCFC0FC最终输出CN通道注意力地图不确定性图企业简介CONVCONV池CONV2421′Ep论文，另一个是多通道注意力地图的生成。产生N个不同的中间基因-CNOD学习分辨来自不同域的一对图像是否彼此关联。IG={Ii}N，执行卷积运算在第二阶段，它接受真实图像Ia和生成图像I a。G i=1′′具有N个卷积滤波器{Wi，bi}N随后是校正图像I g 或实际图像I g作为输入。这两两GG i=1tanh（·）非线性激活操作。用于产生对应的N个注意力地图，另一组文件-输入激励D辨别图像构建和捕获本地感知信息。ters{Wi，bi}N 应用。然后是中间世代-一A i=1注意力地图和注意力地图计算如下：3.3. 总体优化目标对抗性损失。在第一阶段，伊伊伊IG =tanh（FcWG+ bG），其中i=1，. . . ，ND，用于区分合成图像对[Ia，Ig]与伊伊伊（三）实像对[Ia，Ig]被公式化如下，IA= Softmax（FcWA + bA），其中i = 1，. . . ，N其中，Softmax（·）是使用的通道级softmax函数为了正常化。最后，学习的注意力地图LcGAN（Ia，Ig）=EIa，Ig[logD（Ia，Ig）]+Σ′Σ（六）E′我-我log（1−D（I a，Ig））。用于从每个帧中执行信道选择中间体生成如下：在第二阶段，D的对抗性损失的区别，′′′′11N N（4）从真实图像中剔除合成图像对[Ia，Ig]′′我在哪里Ig=（IAIG）··（IAIG）代表最终合成的一代se-pairs[Ia，Ig]的公式如下：′′LcGAN（Ia，Ig）=Ia，Ig[logD（Ia，Ig）]+从多种多样的结果中选出，表示逐元素加法。我们还生成了一个fi-E′′我-我Σ′′Σlog（1 −D（I a，Ig））。（七）的g在第二阶段中的最终语义映射与在第一阶段中一样，′′ ′′即 Sg =Gs（Ig）。由于两者的目的相同，Mantic generators，我们通过共享这两个阶段的参数，以减少网络容量。不确定性引导的像素丢失。就像我们在讨论的那样-这两种损失都旨在保留局部结构信息并产生视觉上令人愉悦的合成图像。因此，所提出的SelectionGAN的对抗性损失是Eq.（6）和（7），′ ′′troduction，从预训练模型对于所有像素都不准确，这导致训练中的错误指导。为了解决这个问题，我们提出了生成的注意力地图来学习不确定性地图，以控制优化损失。在[19]中已经研究了多任务学习的不确定性学习，在这里我们介绍它来解决噪声问题。LcGAN= LcGAN（Ia，Ig）+ λLcGAN（Ia，Ig）。（八）整体损失。总优化损失是上述损失的加权和。生成器Gi、Gs、注意力选择网络Ga和注意力选择网络Gd以端到端的方式进行训练，优化以下最小-最大函数，Σ4Mantic标签问题假设我们有K个不同的min最大L=λiLi+LcGAN+λtv Ltv。{G，G，G}{D}p需要指引的地图。多个所生成的注意力地图首先被连接并传递到convo，我S一我i=1（九）具有K个过滤器的过滤层{Wi}K产生一组K其中Lp使用L1重建来分别计算u i=1′ ′ ′′不确定性地图使用注意力图生成不确定性图的原因是注意力图直接影响最终生成，导致与失去令Li表示像素级损失图，并且Ui表示第i个不确定性图，我们有：延迟所生成的图像Ig、Sg、Ig′′S g 以及相应的真实图像。 Ltv是总数最终合成图像上的变化正则化[17′′Ig. λi和λtv是用于控制不同目标的相对重要性。训练.I1Ni通过求解最小-最大优化问题来执行。U i= σ Wu（concat（IA，. . . ，IA）+buLiLi←p+ log U i，其中i = 1，. . . ，KpUi2422一（五）3.4. 实现细节网络架构。为了公平比较，我们采用U-Net [16]作为我们的生成器架构Gi和Gs。U-其中σ（·）是用于像素级归一化的S形函数。不确定性图是自动学习的，作为控制优化损失的加权方案。参数共享鉴别器。我们将[16]中的vanilla扩展到参数共享结构。在第一阶段，该结构将真实图像I 和′生成图像I g 或地面实况图像I g作为输入。Net是一个在下采样编码器和上采样解码器之间具有跳跃连接的网络这种体系结构全面保留了上下文和纹理信息，这对于去除伪像和填充纹理至关重要。由于我们的重点是跨视图图像生成任务，因此Gi比Gs更重要。因此，我们对Gi使用更深的网络，对G i使用浅网络。2423图4：不同方法在Dayton数据集上以256×256分辨率在a2g和g2a方向生成的结果表1：不同方法的SSIM、PSNR、Sharm Difference（SD）和KL score（KL）对于这些指标，KL分数越高越好（*）这些结果在[34]中报告。方向代顿（64×64）代顿（256×256）CVUSA方法⇆SSIMPSNRSDKLSSIMPSNRSDKLSSIMPSNRSDKLZai等人 [47]第四十七话-------0.4147*17.4886*16.6184*27.43 ±1.63*[16]第16届中国国际汽车工业展览会19.4919*16.4489*6.29 ±0.80*0.4180*17.6291*19.2821*38.26 ±1.88*0.3923*17.6578*18.5239*59.81 ±2.12*A2g[34] 2016年12月31日19.6273*16.4928*3.42 ±0.72*0.4963*19.8928*19.4533*6.00 ±1.28*0.4356*19.0509*18.6706*11.71 ±1.55*X-Seq [34] 0.5171*20.1049*16.6836*6.22 ±0.87*0.5031*20.2803*19.5258*5.93 ±1.32*0.4231*18.8067*18.4378*15.52 ±1.73*SelectionGAN（Ours）0.686524.614318.23741.70±0.450.593823.887420.01742.74±0.860.532323.146619.61002.96±0.97[16]第16届中国国际汽车工业展览会20.5135*14.7813*6.39 ±0.90*0.2693*20.2177*16.9477*7.88 ±1.24*----[34] 2016年12月31日20.6933*14.7984*4.45 ±0.84*0.2763*20.5978*16.9962*6.92 ±1.15*----G2aX-Seq [34] 0.3663*20.4239*14.7657*7.20 ±0.92*0.2725*20.2925*16.9285*7.07 ±1.19*----SelectionGAN（Ours）0.511823.265716.28942.25±0.560.328421.806617.38173.55±0.87----GS。具体地，Gi的第一卷积层中的滤波器Gs分别为64和4。对于网络Ga，用于生成中间图像和注意力图的卷积的核大小分别为3×3和1×1我曾以《易经》为题，以《易经》为题。培训详情。在[34]之后，我们使用RefineNet [23]和[51]分别在Dayton和Ego2Top数据集上生成分割图作为训练数据。我们遵循[11]中的优化方法来优化所提出的SelectionGAN，即在判别器和生成器上交替进行一个梯度下降步骤。我们首先在D固定的情况下训练Gi，Gs，Ga，然后在Gi，Gs，Ga固定的情况下训练D。建议的SelectionGAN以端到端的方式进行训练和优化。我们采用Adam [21]，动量项β1=0。5和β2=0。第999章我们的解决方案亚当的初始学习率是0.0002。网络初始化策略是Xavier [10]，权重从标准差为0.2且平均值为0的高斯分布初始化4. 实验4.1. 实验环境数据集。我们在三个不同的数据集上进行实验：（i）对于Dayton数据集[41]，遵循[ 34 ]的相同设置，我们选择了76，048张图像，并创建了55，000/21，048对的训练/测试分裂。的图像原始数据集的分辨率为354×354。我们将其大小调整为256×256;（ii）CVUSA数据集[43]由训练/测试分割中的35，532/8，884图像对组成福尔-下[47，34]，航空图像的中心裁剪，224×224，调整为256×256。对于地面图像和相应的分割图，我们取两者的第一个四分之一，并将其大小调整为256×256;（iii）Ego 2 Top数据集[1]更具挑战性，包含不同的室内和室外条件不同。每个案例都包含一个俯视视频和几个由俯视摄像机中可见的人拍摄的以自我为中心的视频。这个数据集有超过230，000帧。对于训练数据，我们随机选择386，357对，每对由同一场景但不同视点的两幅图像组成。我们随机选择了25，600对进行评估。参数设置。为了公平比较，我们采用与[16，34]相同的训练设置。所有图像都缩放到256×256，并且我们启用了图像翻转和随机裁剪来增强数据。与[34]类似，Dayton数据集上的低分辨率（64×64）实验进行了100个epoch，批量大小为16，而该数据集的高分辨率（256×256）实验则训练了35个epoch，批量大小为4。对于CVUSA数据集，我们遵循与[47，34]相同的设置，并以4的批量大小训练我们的网络30个epoch对于Ego2Top数据集，使用批量大小8，用10个时期训练所有模型。在我们的实验中，我们在等式中设置λtv=1e−6，λ1=100，λ2=1，λ3=200和λ4=2。（9），且在等式中λ=4。（八）、注意力通道的数量N在等式（5）设为10。拟议SelectionGAN在PyTorch中实现我们在具有11GB内存的Nvidia GeForce GTX 1080 Ti GPU上进行实验，以加速训练和推理。评价方案。与[34]类似，我们采用Incep-tion Score，top-k预测准确度和KL评分进行定量分析。这些指标评估生成2424表2：不同方法的准确度对于这个指标，越高越好。（*）这些结果在[34]中报告Dir.代顿（64×64）方法代顿（256×256）CVUSA网站首页Top-5Top-1Top-5Top-1Top-5准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）准确度（%）Zai等人[47个]--------13.97美元 *14.03*42.09美元 *52.29美元 *[第16话]7.90美元 *15.33*27.61美元 *39.07美元 *6.80美元 *9.15*23.55美元 *27.00*7.33*9.25*25.81美元 *32.67美元 *[34]第三十四话16.63*34.73美元 *46.35美元 *70.01*30.00*48.68美元 *61.57美元 *78.84*20.58美元 *31.24美元 *50.51美元 *63.66美元 *X-Seq [34]4.83*5.56*19.55美元 *24.96美元 *30.16*49.85美元 *62.59美元 *80.70美元 *15.98美元 *24.14*42.91美元 *54.41美元 *SelectionGAN（Ours）45.3779.0083.4897.7442.1168.1277.7492.8941.5265.5174.3289.66[第16话]1.65*2.24*7.49*12.68美元 *10.23*16.02*30.90美元 *40.49美元 *----[34]第三十四话4.00*16.41*15.42*35.82美元 *10.54美元 *15.29*30.76美元 *37.32*---X-Seq [34]1.55*2.99美元 *6.27*8.96*12时30分 *19.62*35.95美元 *45.94美元 *----SelectionGAN（Ours）14.1251.8139.4574.7020.6633.7051.0163.03----表3：不同方法的初始评分对于这个指标，越高越好。（*）这些结果在[34]中报告Dir.Dayton（64×64）Dayton（256×256）CVUSA方法拉科尔Top-1Top-5所有Top-1Top-5所有Top-1Top-5表4：申报SelectionGAN的消融研究。基线设置SSIMPSNRSD一′I→GiI的g0.455519.657418.8870B′S→GiIGg0.522322.496119.2648C′[I，S]→GiI一Gg0.537422.834519.2075D′ ′[I，S]→GiIG→sS一ggg0.543822.977319.4568ED +不确定性引导的像素丢失0.552223.031719.5127FE +多通道注意力选择0.598923.756220.0000GF +全变差正则化0.604723.795620.0830HG +多尺度空间池0.616723.931020.1214从一个高层次的特征空间的图像。我们还采用像素级的相似性度量，即结构相似性（SSIM），峰值信噪比（PSNR）和SharpingDifference（SD）来评估我们的方法。4.2. 实验结果基线模型。我们在Dayton数据集上进行了2g（aero-to-ground）方向的消融研究。为了减少训练时间，我们从整个55，000/21，048个样本中随机选择1/3样本，即大约18，334个样本用于训练，7，017个样本用于测试。拟议的SelectionGAN考虑了八个基线（A、B、C、D、E、F、G、H），如表4所示。基线A使用Pix2pix结构，′真[16]并生成I g 使用单个图像1a。基础-′行B使用相同的Pix 2 pix模型并生成Igus-将对应的语义映射Sg.基线C也使用Pix2pix结构，并将条件图像Ia和目标语义映射Sg的组合输入到生成器Gi。基线D在基线C基础上使用建议的循环语义生成基线E代表类类类类类类类类类Zai等人 [47]第四十七话-----1.8434*1.5171*1.8666*[16]第16届中国国际汽车工业展览会1.5014*1.9300*2.8515*1.9342*2.9083*3.2771*2.2219*3.4312*[34]第34话1.5908*2.0348*3.0720*2.2402*3.0932*3.4432*2.5447*3.5567*A2gX-Seq [34] 1.8503*1.4850*1.9623*2.7384*2.1304*2.7674*3.8151*2.6738*4.0077*选择GAN（我们的）2.16061.72132.13233.06132.27073.13363.80742.71813.9197实时数据2.35341.81352.32503.83192.57533.92224.87413.29594.9943[16]第16届中国国际汽车工业展览会1.3029*1.6101*3.5676*2.0325*2.8141*---[34]第34话1.3162*1.6521*3.1342*1.8656*2.5599*---G2aX-Seq [34] 1.7854*1.3189*1.6219*3.5849*2.0489*2.8414*---选择GAN（我们的）2.15711.44412.08283.24462.13313.4091---2425图5：CVUSA数据集上由粗到细生成的定性结果由学习的不确定性图引导的像素损失Baseline F采用所提出的多通道注意力选择模块来生成多个中间代，并使神经网络注意地选择哪个部分对于生成具有新视点的场景图像更重要。基线G加上总变差正则化-′′最后的结果是Ig。基线H采用所提出的多尺度空间池化模块来细化特征Fc从第一阶段开始。所有基线模型都经过训练和测试在相同的数据上使用配置。消融分析。消融研究结果见表4。我们观察到基线B优于基线A，因为Sg包含更多的结构信息2426表5：Ego2Top数据集的定量结果对于除KL评分外的所有指标，越高越好。方法SSIM PSNR SDInception Score AccuracyKL Score所有类顶级-1级前5名班级前1名前5名[第16话]0.221315.719716.59492.54181.67972.49471.221.575.336.86 120.46 ±1.94X叉[34]0.274016.370917.35094.64472.13863.84175.9110.2220.9830.29 22.12± 1.65X-Seq [34]0.273816.378817.26244.50942.02763.67564.788.9617.0424.40 25.19± 1.73SelectionGAN（Ours）0.602426.656519.77555.62002.53284.764828.3154.5662.9776.30 3.05 ±0.91真实数据---6.45232.85075.4662---- -图6：在CVUSA数据集上以256×256比我A。通过比较基线A和基线C，语义引导生成的SSIM、PSNR和SD分别提高了8.19、3.1771和0.3205，这证实了条件语义信息的重要性：通过使用所提出的循环语义生成，Baseline D进一步提高了C，这意味着所提出的语义循环结构确实以更有效的方式利用了语义信息，证实了我们的设计动机;基线E优于D，示出了使用不确定性图来引导像素损失图的重要性，该像素损失图包含由于从预训练的分割模型产生的错误语义标签而导致的不准确的重建损失;基线F显著优于E，4.67在SSIM度量上的点增益，清楚地证明了所提出的多通道注意力选择方案的有效性;我们还可以从表4中观察到，通过添加所提出的多尺度空间池方案和TV正则化，整体性能进一步提升。最后，我们证明了所提出的两阶段策略的优势，比一阶段的方法。图中显示了几个示例。五、很明显，粗到细生成模型能够生成更清晰的结果，并包含更多的细节比一个阶段的模型。最先进的比较。我们将我们的Selec- tionGAN与最近提出的四种最先进的方法进行比较，它们是Pix 2 pix[16]，Zhai等人 [47]，X-Fork [34]和X-Seq [34]。比较结果见表1、2、3和5。我们可以在这些表中观察到SelectionGAN的显著 SelectionGANconsideringoutperforms Pix2pix，Zhai et al. 、X-Fork和X-Seq对除初始得分之外的所有指标的影响。在表3中的某些情况下，我们实现了与X-Seq相比略低的性能然而，我们产生了比X-Seq更照片般逼真的结果，如图所示。4和6。定性评价。定性结果较高图7：Ego2Top数据集上的任意交叉视图图像转换。Dayton和CVUSA数据集的分辨率如图所示。4和6。可以看出，我们的方法在所生成的地面图像中生成关于对象/场景（诸如道路、树木、云、汽车）的比其他比较方法更清晰的细节。对于生成的航拍图像，我们可以观察到，与其他图像相比，草、树和屋顶渲染得很好。此外，我们的方法产生的结果更接近地面真理的布局和结构，如结果在a2g方向图。4和6。任意交叉视图图像翻译。自从代顿并且CVUSA数据集在一个场景中仅包含两个视图，即空中和地面视图。我们进一步使用Ego2Top数据集进行任意跨视图图像翻译实验。定量和定性结果分别见表 5 和图 7 。给定图像和一些新颖的语义图，SelectionGAN能够生成相同的场景，但具有不同的视点。5. 结论我们提出了多通道注意力选择 GAN（SelectionGAN），以解决一个新的图像合成任务的条件下的参考图像和目标语义图。特别地，我们采用级联策略将生成过程分为两个阶段。第一阶段旨在捕捉场景的语义结构，第二阶段通过提出的多通道注意力选择模块关注更多的外观细节。我们还提出了一个不确定性地图引导的像素丢失，以解决不准确的语义标签的问题，以更好地优化。在三个公共数据集上的实验结果表明，该方法比现有方法具有更好的性能.鸣谢：这研究是部分由美国国家标准与技术研究所拨款60 NANB 17 D191（YY，JC）、陆军研究办公室W 911NF-15- 1-0354（JC）和思科公司（YY）的捐赠支持。2427引用[1] Shervin Ardeshir和Ali Borji Ego2top：匹配以自我为中心和顶视图视频中的观众。在ECCV，2016年。一、二、六[2] 陈冬，任少卿，魏亦琛，曹旭东，孙坚。联合级联人脸检测和对齐。2014年，在ECCV。4[3] 陈新元，徐畅，杨小康，陶大成。野生图像中物体变形的注意力在ECCV，2018。3[4] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在CVPR，2018年。3[5] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在ECCV，2016年。3[6] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。3[7] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在CVPR，2016年。4[8] 董浩业、梁晓丹、龚克、赖汉江、朱佳、尹建。用于姿势引导的人物图像合成的软门控 warping-gan 。NeurIPS，2018。3[9] Alexey Dosovitskiy 、Jost Tobias Springenberg 、MaximTatarchenko和Thomas Brox。学习用卷积网络生

下载后可阅读完整内容，剩余1页未读，立即下载