全景感知的生成对抗网络：图像到图像转换中的对象风格变换

19 浏览量更新于2023-10-16 收藏 1.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

259生成学习图像生成学习样式代码东西东西...事样式代码事...东...东全景感知的图像到图像平移Liyun Zhang1，Photchara Ratsamee1，2，Bowen Wang1，Zhaojie Luo1，YukiUranishi1，Manabu Higashida1 and Haruo Takemura11日本大坂大学liyun. lab.ime.cmc.osaka-u.ac.jp2日本大坂工业大学photchara@ime.cmc.osaka-u.ac.jp摘要尽管在图像转换方面取得了显著的进展，但复杂场景中存在多个不一致的对象仍然是一个具有挑战性的问题。翻译后的图像逼真度低，目标小，细节少，导致目标识别效果不理想。如果没有雷神-+输入（夏季）图像级样式代码图像抽样随机潜码(a) 图像级：BicycleGAN（基线）产量（冬季）充分的对象感知（即，边界框、类别和掩码）作为先验知识，每个对象的风格变换将难以在变换中跟踪实例-级别（仅对象）映像-级别样式代码lation. 我们提出全景感知的生成对抗+，网络（PanopticGAN），用于图像到图像的转换与紧凑的全景分割数据集结合在一起。全景感知（即，前台实例和后台实例输入（夏季）采样随机潜码输出（冬季）(b) 实例级：INIT（基线）图像场景的地面语义）被提取以实现输入域的对象内容代码与从目标样式空间采样的全景级别样式代码之间的对齐，然后通过用于锐化对象边界的所提出的特征掩蔽模块来内容和采样样式代码之间的图像级组合也被合并，以生成更高保真的图像。通过与不同的竞争方法进行系统的比较，我们提出的方法在图像质量和目标识别性能上都得到了显著的改善。1. 介绍图像到图像（I2I）转换是计算机视觉领域中一个具有挑战性的问题。它需要结合输入域图像的内容信息和目标域的风格[9]。最初，一些图像级I2I翻译模型是基于配对（例如，Pix2Pix [11]或BicycleGAN [43]）或未配对的数据集（例如，CycleGAN[42]或MUNIT [9]）以及后来翻译高质量（真实性、清晰度和多样性）图像成为热门问题（例如，Pix2PixHD[38]或U-GAT-IT [17]）。随着对象驱动图像合成（例如，SG2IM [15]和Layout2IM [40]分别从场景和布局合成图像），语义或对象实例倾向于促进合成具有更清晰对象的图像。在那里-Panoptic-Level（thing + stuff）图像级样式代码、+输入（夏季）采样随机潜码输出（冬季）(c) 全景水平：PanopticGAN（建议）图1.图像级[43]、实例级的流水线比较[33] 并提出了I2I翻译方法。（a）使用随机采样的图像级样式代码进行I2 I转换;（b）使用实例级（对象仅仅是可计数的前景实例“事物”，例如，汽车）和图像级样式代码;我们的方法（c）使用全景水平（对象既是“事物”又是不可数的背景片段“东西”，例如，道路）和图像级样式代码。为此，提出了一些基于对象实例的实例级I2I翻译方法，INIT [33]实现了实例/局部和整体背景/全局区域的单独学习它们可以生成高保真的对象实例。然而，对于具有多个不一致对象的复杂场景，上述方法不能对前景和背景的图像进行平移以保持高保真度和更详细的微小对象如示于图1、图像级I2I翻译图像生成学习260图中的方法1（a）提取图像表示作为内容代码以与图像级风格代码组合，所述图像级风格代码是从用于I2I翻译的目标域的风格空间中随机采样的。与此相反，图1中的实例级方法。1（b）使用预先训练的实例分割网络[7]从输入图像中提取实例感知，它提供了“事物”（前景对象实例）的边界框，类别和掩码。“事物”表示由感兴趣区域对齐（RoIAlign）[7]通过边界框从图像表示中提取，然后与图像表示组合作为内容代码。采样的实例级和图像级样式代码与实例感知I2I转换的对应内容代码对齐，这可以精确地细化前景对象实例表示，但不能完全细化背景语义区域。在本文中，我们提出的全景水平的方法（PanopticGAN）在图。1（c）使用预先训练的全景分割网络[19]来提取全景感知，它提供了边界框，类别和“事物”（前景对象实例）和“东西”（背景空间区域）的掩码提取“物”和“物”表征，然后与图像表征结合作为整体内容代码。将采样的全景级和图像级样式代码与对应的内容代码对齐以进行全景感知I2I转换，这可以经由全景感知彻底细化图像中的每个可识别区域以跟踪转换中的样式变换，并避免丢失太多信息。我们的主要贡献有三方面：• 用于全景感知I2I翻译的新型GAN框架：该框架提取全景感知，将输入域的对象内容代码与目标域的采样全景级样式代码进行对齐，并将内容代码与采样样式代码的图像级组合进行融合，从而实现全景感知图像翻译，具有高保真度和更细微的对象细节。• 用于锐化对象边界的特征掩蔽模块：样式对齐的特征图通过特征掩蔽进一步细化，以获得清晰的对象边界，用于更高保真的图像生成。• 紧凑的全景分割热图像数据集：我们在部分KAIST-MS数据集上注释了全景分割热图像数据集[10]，增强数据集可用于训练全景分割模型，以在I2 I转换或其他任务中提取热图像的全景感知。2. 相关工作图像到图像转换。图像到图像（I2I）翻译模型将输入域图像转换到目标域，改变了风格，但保持内容不变。Pix2Pix [11]实现了配对数据集学习，但它生成了单模态输出。BicycleGAN [43]实现了多模式结果的潜在空间和输出空间之间的双射映射CycleGAN [42]使用循环一致性损失进行非配对训练。解纠缠表示模型[9，22，25]结合了无监督学习的输入域内容Pix2PixHD [38]可以通过多尺度判别器和粗到细生成器转换高分辨率图像。AGGAN [37]和U-GAT- IT[17]提取了注意区域，作为本地化重要内容以获得高质量结果的指导。TSIT [13]使用具有特征变换的双流模型进行粗略到精细的图像合成。然而，对于具有多个不一致对象的复杂场景，上述方法不能生成高保真图像。实例级图像到图像转换。实例级I2I转换是从对象驱动的图像生成方法（例如，从目标场景合成图像[1，15]或从布局生成图像[35，36，40]），它们使用目标感知（即，边界框或掩模），用于生成清晰的对象边界。Instagan [29]为实例感知的I2I转换引入了一组实例属性。DA-GAN [26]学习了深度注意编码器，从而发现实例级对应关系。SCGAN [41]和SalG-GAN [12]将显着图视为图像翻译的对象感知。Shen等人[33]，Suetal.[34] Chenet al.[3]将实例级特征映射与图像级特征映射相结合，以实现高质量的实例级I2I转换。然而，它们在图像翻译过程中仅使用实例级对象全景级图像到图像转换。据我们所知，全景级I2I翻译问题尚未被研究。从理论上讲，实例级I2I翻译只将前景实例作为学习对象，与全景级I2I翻译将前景“物”和背景“物”都 Lin等[24]提取图像区域的神经网络，以提高性能的GANs，黄等人。[8]根据参考信号控制输出。Dundar等人[5]经证实的全景感知使生成的图像具有更高的保真度和更多细节的微小物体。全景分割[20]结合语义分割和实例分割来定义不可数的背景语义（例如，天空）作为车，我们使用预先训练的全景分割网络[19]来提取全景感知（涵盖261S wEsEwZwZsSsCsCwSwDsDwDsDwS2sS2wW2sW2w地面实况(a) （b）管道图2.PanopticGAN的培训方式和流程示意图（a）中的红色箭头对应于（b）的过程图3.我们提出的PanopticGAN架构的图示;详细的符号在架构部分中描述码组合对应的内容码以用于更高保真度的全景感知I2I转换。3. 该方法(a)概述我们从训练方式和流水线两个方面概述了我们提出的方法，并以夏季域到冬季域的I2I转换为例介绍了我们的框架细节。训练方式。在图2（a）中，我们使用来自瞬态属性数据集[21]的夏季图像s和冬季图像w来提取内容代码（夏季：Cs，冬季：Cw）和样式代码（夏季：Ss，winter：Sw）. E和Ew是s和w的编码器;Ds和Dw是解码器。通过将Cs和Ss结合起来送入Ds，我们可以重建夏季图像s2s.类似地，w2w可以由Cw和Sw重建.风格代码Zw和Zs是从正态分布中随机抽样的。通过假设Zw来自冬季风格空间，并将Cs与Zw结合起来输入Dw，可以合成红色箭头所示的冬季图像s2w同样地，w2s可以被Cw和Zs转换.跨域（s2w和w2s）和域内（s2s和w2w）一起训练[9]。渠道. 在图2（b）中，我们使用预先训练的全景分割网络来获得输入图像场景的全景感知，它提供全景级别的边界框，类别和掩码。边界框是亲-Zimg ∈ h（0，1）Zobji∈ h（0，1），i = 1，n，m发生器... RoIAlign...全景对象样式-对齐...功能... 掩蔽输入生成鉴别器融合铰链损耗感知Panoptic发生器Zimg骨干CimgMLPRoIAlign输入特征掩蔽车CobjOobjAdaIN参数边界框山全景对象样式-对齐ZobjMLPAdain普雷斯阿拉米泰Himg口罩树霍布伊Fobj级联解码器生成鉴别器特征掩蔽平均池FC图像级铰链损耗simgFCλ生成骨干高音总和调整大小和零填充乘二进制掩码RoIAlign变平对象级铰链损耗奥布杰Cobj总和FCsclsOobji对象（树）特征图Bobji仿射变换O对象进入边界框我Fobji蒙面Bobj我地面实况感知PanopticResBlockcLSTMResBlockResBlockcLSTMcLSTM......ResBlock...ResBlockResBlock...262ΣΣ×我×Σi=1∈Σ·.Σ∼Mi=1我我σ（x）img作为图像级样式代码（尺寸Z=.ZM作为全景水平样式代码（dimen，--Fobj=Fobj我i=1提供给RoIAlign [7]，并将掩模提供给所提出的特征掩模模块。首先，提取图像级表示，得到全景级风格码Zobj和全景级别样式，内容用于平移目标图像中的不同对象。图像级样式代码Z是从正常的离散数据中采样的，分配，.拉齐姆格目标i由拟议的. x − µ（x）全景对象样式-对准模块，m是对象的数目。在全景感知中被感知到。请注意，我们将“事物”和“东西”都视为全景图中的对象。Zobj和Zimg将与生成器中对应的全景级和图像级表示对齐，以进行全景级图像平移。翻译后的图像被输入到图像处理器，在那里我们使用融合我其中xi是Cobj的每个特征图，其被分别归一化，然后使用来自样式y的相应标量分量进行缩放和偏置。µ和σ是通道平均值和标准差，γ和β是从Zobj生成的AdaIN参数。该过程实现了全景对象的风格对齐，我们得到了风格-铰链损失包括图像级和对象级ADVER，sarial铰链损失项[23]用于优化。对齐对象表示obj =.O目标ii=1。(b)架构我们的架构，如图所示。3，是建立在一个发电机，投影仪和提出的新模块（全景对象风格对齐和功能掩蔽）。我们通过来自瞬态属性数据集[21]的夏季和冬季域图像部署生成对抗学习设置，以说明我们的架构。Oobj=AdaIN（Cobj，Zobj）（3）类似地，图像级风格码Zimg也由MLP网络处理以生成AdaIN参数，AdaIN参数通过具有AdaIN层的残差块将图像级风格与图像内容码Cimg融合以获得隐藏表示Himg。特征掩蔽。如示于图3，Oobjcon-获取m个对象特征图。Oi=1目标iMi=1. 由于对象3.2.1发生器在生成器中，输入求和器图像s（例如， 256 256）由骨干模块提取，该骨干模块由用于获得图像控制的下采样残差块边界框P（bboxi）m定义大小和位置在原始图像中的每个对象，我们首先仿射trans-对每个对象特征进行映射，将Oobj映射到其对应的原始包围盒中，然后在图像中的每个包围盒外进行零填充，得到新的对象帐篷代码Cimg（大小32 32，尺寸256）。让M特征图Bobj =.B目标iMi=1. 去除多余的P=（categoryi，bboxi，maski）i=1成为全景摄影师由类别、边界框和掩码组成的类别，其中m是从预训练的全景分割网络感知的对象的数量，并且类别iCAT（CAT在COCO-全景分割网络dataset [20]，这里的Cimg由RoIAlign [7]裁剪到P（bboxi）m的对象包围盒对象内容M在物体轮廓之外的背景信息，我们进一步-因此，为了更精确的对象边界，通过对象掩码M=P（掩码i）m来细化B对象。与使用像素投影方法的卷积特征掩码（CFM）层[4]相比，在仿射变换之后，Bobj中的每个特征图的大小与掩码M相同，因此我们只需要沿着类别se对齐Bobj1m的序列并相乘以屏蔽外部值代码 Cobj= . Cobj（尺寸i=18 ×8，尺寸128）.去-物体轮廓。最后，我们可以获得更精细的目标特征精细Zii=1（256）地图.好吧64），从正态分布中随机抽样bition。发电机在夏季到冬季转换是学习生成函数G（），其能够将夏季图像s转换为生成的冬季图像Fobj=Bobj·M（4）我们将Fobj馈送到三层卷积长短期记忆（cLSTM）模块中（参见补充材料，图像w′通过给定的（Zimg，Zobj）：rial）来整合每个对象特征图F目标iMi=1 沿着w′=G（s|其中，ΘG是生成函数的参数。全景对象样式-对齐。我们使用MLP网络处理Zobj以动态生成参数自适应实例归一化（AdaIN）的y=（yγ，yβ）[16]层，则C_obj由残差块处理AdaIN层。AdaIN层参数融合Zobj =ZAdaIN（xi，y）=yγ，i+yβ，i（2）obj目标iMi=12631m ，以获得融合的隐藏表示Hobj。我们将Hobj与Himg连接为H，其由包括上采样残差块的解码器上采样以生成经平移的冬季图像w′。3.2.2鉴别器如示于图3、我们的分类器由图像级和对象级分类器组成与generator类似，264Σ∥i=11∼1−我i=1imgMi=1我目标i--翻译后的图像由主干编码为图像内容码Cimg，其由RoIAlign [7]细化为ob-C img。w′和地面真值w，1计算L1范数。这里我们主要是计算域内（s2s和w2w）的方法。对象内容代码Ci=1obj =.C目标iMi=1 通过边界框感知损失。 Lp解决了一个问题，P（bboxi）m.图像级分类器由一个全局平移图像组成，该全局平移图像容易产生扭曲的纹理，平均池化和单输出全连接（FC）层以处理Cimg以获得标量真实性得分simg。HW对象级分类器由一个扁平层和两个FC层1层。一个FC层进程计算一个真实的-我i=1Lp=中国<$k（w）i，j−<$k（w）i，j<$1（8）Cobj每个对象的ness得分，由sreal={sreal}m表示。KKki=1j=1另一个FC图层计算类别投影分数其中，k（·）表示第k个的特征表示，[2，28，35]对于每个对象，由scls=sclsm，也就是类别嵌入和VGG-19网络中的最大池化层[14]，以及CkHkWk表示要素表达的大小。（将P（categoryi）m的每个类别转换为一个cor-i）m。目标明确最终损失函数定义为：响应从正态分布采样的潜在向量）和下采样的C_obj的线性投影（使用FC层）。因此，对象的总体对象级丢失是Ltotal=λ1Ladv+λ2Limg + λ3Lp（9）其中λ是平衡不同损耗的参数。索布日 =sreali +scls岛将由下式表示D（·，ΘD）具有参数ΘD。（simg，sobji，···，sobjm）=D（I;ΘD）（5）在图像I（地面实况w或生成的w'）中，预测器计算图像的预测分数和对象的平均分数。(c)损失函数完整的目标包括三个损失函数：对抗性损失。我们利用标准对抗性损失[6]to train训练（ΘG，ΘD）in our PanopticGAN，(d)实现细节在Ltotal中，λ1λ3被设置为0.1、1和10。使用正交初始化方法[32]初始化模型参数。谱归一化[27]是为了稳定生成器和训练器中的训练我们使用斜率为0.2的leaky-ReLU作为激活函数，并使用β1=0和β2= 0的Adam优化器[18]。9 .第九条。生成器的学习率设为10 - 4，而生成器的学习率设为0。005，为了你。我们在四个NVIDIA V100 GPU上设置了400，000次迭代进行训练4. 实验我们进行了广泛的实验，以评估我们的l（I）=. min（0，−1 + sk）;如果I是真值wK（六）方法与最先进的模型，以显示优越性min（0，−1−sk）;如果I是w′生成的其中k∈ {img，obji，· · ·，objm}。总损失是l（I）=λ·l（I）+ λml（I），具有折衷Pa。在图像质量和物体识别性能方面曼斯。对于竞争方法，MUNIT [9]，BicycleGAN[43] 和TSIT [13]属于图像级I2I翻译。SCGAN [41]使用显着图作为对象感知，实例级I2I转换。INIT [33]是一个实例级熔合铰链损失中的λ（实验中使用在图像级和对象级之间。我们分别定义整流器和发电机的损耗[35]，方法，我们还实现了它，以便进行更公平的评估比较。为了实现足够公平的比较，我们将全景感知添加到图像级竞争方法中，MUNIT、BicycleGAN和TSIT。全景摄影机-从预训练的全景分割中提取图像Ladv（ΘD，ΘG）= E(I) pall（I） [I（I）]（七）网络[19]并与图像特征连接作为用于训练的额外特征通道，因此我们称之为Ladv（ΘG，ΘD）=−（I）pE[D（I;ΘD）]（一）MUNIT+Seg、BicycleGAN+Seg和TSIT+Seg。根据具体指标，我们将评估结果总结为其中，最小化Ladv（ΘD，ΘG）使得以区分地面实况和翻译的图像;通过翻译细粒度的图像来最小化Ladv（ΘG，ΘD）。pall（I）表示地面实况和翻译图像，pfake（I）表示翻译图像。图像重建丢失。我们惩罚L1差异-假26511通过Limg=<$w′−w<$在平移图像之间定性和定量方面分别讨论。请注意，补充材料中提供了模型效率、更多实验结果和限制。(a)数据集我们在瞬态属性[21]和KAIST-MS [10]数据集上训练和评估了我们的模型，用于日常生活。266方法HP（%）↑IS↑FID↓DS↑表1. 人类偏好（HP）、初始得分（IS）、Fre'chet初始距离（FID）和差异得分（DS）指标评估了热颜色（t2c）、白天到夜晚（d2n）和夏季到冬季（s2w）任务中的图像质量较高的HP、IS和DS以及较低的FID更好。输入MUNIT+分段BicycleGAN+SegTSIT+SegSCGANINIT我们的地面实况图4.翻译图像的图像质量比较顶部：夏季−→冬季;中部：白天−→夜晚;底部：热色−→颜色。夜间、夏季至冬季和热至彩色I2I转换任务。在白天到晚上的任务中，我们使用了17，823张图像进行训练，2，287张图像进行评估;在夏季到冬季的任务中，训练集是17，674张图像，评估集是2558张图像;在热量到颜色的任务中，训练集是11，610张图像，评估集是2，541张图像。对于白天到晚上和夏季到冬季任务的训练和推理中的全景感知对于热-颜色任务训练中的全景感知，我们通过预处理从成对的彩色图像中感知它T2cd2n s2wt2c d2nS2wT2cD2nS2wT2cd2n s2wMUNIT+Seg [9]0的情况。80的情况。407二、291501 .一、92九十八5九十八7九十三90的情况。460的情况。650。62BicycleGAN+Seg [43]3 .第三章。0二、21. 7二、611861 .一、81九十八8九十七992. 20的情况。470的情况。60061[13]第十三话12个。312个。四点十七分1二、64 1. 781 .一、96九十五3八十8 81. 30的情况。430的情况。670642671方法PQ↑SQ↑RQ↑PQTh↑SQTh↑RQTh↑PQSt↑SQSt↑RQSt↑MUNIT+Seg [9]3.312.14.20.69.60.89.017.511.3BicycleGAN+Seg [43]4.316.85.50.813.11.210.923.913.6[13]第十三话6.417.28.12.113.33.313.926.415.3SCGAN [41]5.615.27.41.711.82.613.622.517.4[第33话]7.219.69.03.115.43.916.729.120.9我们8.322.711.34.217.55.118.431.021.6表2.PQ、SQ和RQ系列指标（越高越好）评估翻译图像的对象识别性能在COCO-Panoptic数据集上训练Panoptic FPN模型;在推断中，通过在热全景分割的紧凑的我们贡献的数据集（参见补充材料）上的预训练的全景FPN模型从输入图像感知，源数据是来自部分KAIST-MS [10]数据集的热图像和彩色图像对。(b)评估指标我们使用人类偏好（HP），初始分数（IS）[31]，Fre'chet初始距离（FID）[30]和DiversityScore（DS）度量来衡量图像质量，以及Panoptic Quality（PQ）[20]系列度量来衡量对象识别性能。HP是一项用户感知研究，它比较了不同方法翻译结果的图像质量，包括输入图像和地面实况图像，这些图像被显示给20名参与者，以选择与目标域对应的最佳翻译图像（分别涵盖热到颜色、白天到夜晚和夏季到冬季任务IS是衡量GAN生成的图像质量的流行FID通过结合来自真实图像的统计数据来改进IS。我们使用LPIPS度量[39]来计算DS，它通过计算感知相似性来测量PQ包含分割质量（SQ）和识别质量（RQ）[20]，它结合了SQ中的平均交集（mIoU）和RQ中的平均精度（AP），比实例分割和对象检测更全面。此外，PQ Th、SQ Th、RQ Th仅用于“物”（Th）范畴; PQ St、SQ St、RQ St仅用于“stuff”（St）类别。度量的详细说明见补充材料。(c)定性结果对于图像质量，表1中的人类偏好结果表明，与其他方法相比，我们的方法在不同任务的人类感知研究中获得了显着更高的分数。图4展示了我们的Panop-ticGAN可以翻译更高的保真度和明亮的彩色图像，并具有更详细的微小对象。相比之下，其他方法的结果更模糊，扭曲和丢失小对象。对于平移的对象，我们的结果往往具有更好的清晰度，更自然的颜色风格和显示多样性（例如，汽车的外观在其他方法方面，对象清晰度不令人满意，风格与事实相去甚远，多样性不足对于对象识别性能，我们使用COCO-Panoptic数据集上预训练的Panoptic FPN模型的Panoptic分割结果。我们只显示了热颜色任务的物体识别结果，因为从白天到夜晚的转换夜间图像和从夏季到冬季任务的转换冬季图像对于物体识别比较具有不显著差异的缺点图结果表明，该方法比其他方法具有更好的目标识别性能，汽车的数量和范围;天、树、路的结构;以及识别失败相对较少的区域。同时，我们的结果明显优于原始热图像的结果，这验证了我们的方法适用于图像增强的优势。(d)定量结果对于图像质量，表1中的IS、FID和DS得分表明，与其他方法相比，我们的方法在翻译图像的图像质量方面具有优越性我们的方法总体上优于基线，因为我们避免了在翻译中丢失太多信息。我们提出的方法具有较高的IS和较低的FID，表明我们的方法翻译的图像具有更高的保真度和锐化的对象信息。DS越高，说明该方法在场景不变的情况下，特别是对于图像上生成的目标，具有更好的灵活性和鲁棒性对于对象识别性能，表2示出了我们的方法在所有PQ、SQ、RQ、PQTh、SQTh、RQTh、PQSt、SQSt、RQSt对象识别度量上与其他计算训练模型相比执行了最先进的评分。从得分差异来看，我们的结果一致高于国家的最先进的竞争方法在一定的距离，这说明了我们的方法的优势。(e)消融研究我们证明了损失和模块的必要性（Lobj：对象级铰链损失 ;Limg ：图像反射损失 ;Lp ：知觉丧失;MMSK：特征掩蔽;Mpano：panoptic object style-align; Mclstm ： cLSTM ）通过比较 InceptionScore（IS）[31]、Fr e'chetInception Distance（FID）[30]和Diversity Score（DS）[40]来分析我们的模型。2681输入MUNIT+分段BicycleGAN+SegTSIT+分段SCGANINIT我们的地面实况图5.翻译图像的对象识别性能比较。上：翻译图像;下：全景分割。图像质量;全景质量（PQ）[20]，Segmenta-方法IS↑FID↓DS↑PQ↑SQ↑RQ↑识别质量（SQ）和识别质量（RQ）是针对对象识别性能的。实验结果展示了我们模型的几个消融版本，不含L目标1二、24 110.40四七五31627. 7KAIST-MS [10]数据集用于热颜色任务。AsLp如表3所示，去除任何损失将减少过度-所有性能。移除Lobj和Limg具有较低的CLSTMIS、DS和更高的FID，这是由于生成低保真度图像和变化较少的对象; PQ、SQ和RQ也减少了，因为Lobj计算了类别projec。对象的分数去除Lp，产生的模型扭曲的纹理，这不可避免地降低图像质量和对象识别性能。删除任何Mmsk，Mpano或Mclstm模块都会降低整体性能，这证明了它们的必要性。因为Mmsk锐化对象边界，Mclstm顺序地将不同对象集成回图像。特别是，删除Mpano摧毁了我们提出的全景的整个基础水平框架，整体性能大幅下降。因此，上述对损耗和模量的研究结果表明了我们模型设计的合理性。5. 结论我们提出了一种新的全景感知图像到图像的翻译方法（PanopticGAN）连同一个紧凑的全景分割数据集。提取全景图，实现内容和样式代码之间的全景级组合，进一步细化表3.消融研究。在图像质量（由IS、FID和DS评估）和对象识别（由PQ、SQ和RQ评估）方面比较了去除损失和模块的性能通过我们提出的用于生成尖锐对象边界的特征掩蔽模块。图像级的内容和风格代码的组合也被合并，用于在具有多个差异对象的复杂场景中更详细地翻译具有高保真度和微小对象的图像。大量的实验表明，我们的方法得到了显着的改善，在图像质量和目标识别性能相比，不同的方法。消除图像翻译模型训练中的边界框和模板回归损失将是我们今后工作的重点。致谢：这项工作得到了KAKENHI促进国际联合研究基金的部分支持（促进国际联合研究（B）No. 20KK0086）和穆罕默德·本·扎耶德国际机器人挑战赛（MBZIRC）赠款。不含Limg二、64一百零四30的情况。45六、420块410个。1W/O二、66九十七10的情况。42六、719号。410个。5不含Mmsk二、53101 60的情况。47六、119号。810个。2269引用[1] 奥伦·阿舒尔和里奥·沃尔夫。在交互式场景生成中指定对象属性和关系在IEEE/CVF计算机视觉国际会议论文集，第4561-4569页[2] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。[3] 陈天狼，熊伟，郑海天，罗杰波。图像情感传递。第28届ACM国际多媒体会议论文集，第4407-4415页，2020年。[4] 戴季峰、何开明、孙建。用于联合对象和填充物分割的卷积特征掩蔽在Proceedings of the IEEE conference oncomputer vision and pattern recognition，第3992-4000页[5] Aysegul Dundar ， Karan Sapra ， Guilin Liu ， AndrewTao ， and Bryan Catanzaro. 基于全景的图像合成在IEEE/CVF计算机视觉和模式识别会议上，第8070-8079页，2020年[6] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。《神经信息处理系统进展》，2014年第27期。[7] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[8] 黄嘉璐，廖静，邝森。语义示例引导的图像到图像翻译。IEEE Transactions on Multimedia，23：1654[9] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第172-189页[10] Soonmin Hwang ， Jaesik Park ， Namil Kim ， YukyungChoi，and In So Kweon.多光谱行人检测：基准数据集和基线。在IEEE计算机视觉和模式识别会议论文集，第1037-1045页[11] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。[12] Lai Jiang，Mai Xu，Xiaofei Wang，and Leonid Sigal.显著性引导的图像翻译。在IEEE/CVF计算机视觉和模式识别会议论文集，第16509-16518页[13] Liming Jiang ， Changxu Zhang ， Mingyang Huang ，ChunxiaoLiu ， JianpingShi ， and ChenChangeLoy.Tsit：一个简单而通用的图像到图像翻译框架。欧洲计算机视觉会议，第206-222页。Springer，2020年。[14] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694-711页。施普林格，2016年。[15] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像。在IEEE计算机视觉和模式识别会议论文集，第1219-1228页[16] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第4401-4410页[17] Junho Kim，Minjae Kim，Hyeonwoo Kang和KwangheeLee。U-gat-it：具有自适应层实例归一化的无监督生成注意力网络，用于图像到图像的翻译。arXiv预印本arXiv：1907.10830，2019。[18] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[19] Alexander Kirillov ， Ross Girshick ， Kaiming He ， andPiotr Doll a'r. 光学特性金字塔网络工作。在IEEE/CVF计算机视觉和专利识别会议的论文集中，第6399-6408页，2019年[20] Alexander Kirillov 、 Kaiming He 、 Ross Girshick 、Carsten Rothe r和PiotrDol la'r。全视节段在IEEE/CVF计算机视觉和模式识别会议的论文集中，第9404-9413页，2019年[21] Pierre-Yves Laffont， Zhile Ren ， Xiaofeng Tao ， ChaoQian，and James Hays.瞬态属性为高层次的理解和编辑的户外场景。ACM图形交易（TOG），33（4）：1[22] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第35-51页，2018年[23] Jae Hyun Lim 和 Jong Chul Ye 。几何杆 arXiv 预印本arXiv：1705.02894，2017。[24] 郁林、王益公、李一凡、杨镐、卓义王、毛尔汗。基于注意力的图像间平移空间引导。在IEEE/CVF计算机视觉应用冬季会议论文集，第816-825页[25] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。神经信息处理系统的进展，第700-708页，2017年[26] Shuang Ma，Jianlong Fu，Chang Wen Chen，and TaoMei. Da-gan：深度注意力生成对抗网络的实例级图像翻译。在IEEE计算机视觉和模式识别会议论文集，第5657-5666页[27] Takeru Miyato，Toshiki Kataoka，Masanori Koyama，and Yuichi Yoshida.生成式对抗网络的谱归一化。arXiv预印本arXiv：1802.05957，2018。[28] 宫人武和小山正则。具有投影鉴别器的CGNSarXiv预印本arXiv：1802.05637，2018。[29] Sangwoo Mo Minsu Cho和Jinwoo Shin。Instagan：实例感知的图像到图像转换。 arXiv 预印本 arXiv ：1812.10889，2018。[30] Suman Ravuri和Oriol Vinyals。条件生成模型的分类准确度得分。神经信息处理系统的进展，32，2019。270[31] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford和Xi Chen。改进的gans训练技术。神经信息处理系统的进展，29：2234[32] Andrew M Saxe ， James L McClelland ， and SuryaGanguli.深度线性神经网络非线性动态学习的精确解arXiv预印本arXiv：1312.6120，2013年。[33] Zhiqiang Shen ， Mingyang Huang ， Jianping Shi ，Xiangyang Xue，and Thomas S Huang.面向实例级图像到图像的翻译。在IEEE/CVF计算机视觉和模式识别会议论文集，第3683-3692页[34] 苏正伟、朱洪国、黄家斌实例感知的图像着色。在IEEE/CVF计算机视觉和模式识别会议论文集，第7968-7977页[35] 孙伟和吴天福。从可重新配置的布局和风格的图像合成。在IEEE/CVF计算机视觉国际会议集，第10531[36] Tristan Sylvain，Pengchuan Zhang，Yoshua Bengio，RDevon Hjelm，and Shikhar Sharma.从布局生成以对象为中心的图像。 arXiv 预印本 arXiv ： 2003.07449 ， 1（2）：4，2020。[37] 唐昊、丹虚、尼库·塞贝、严妍。用于无监督图像到图像翻译的注意力引导生成对抗网络。在2019年神经网络国际联合上，第1-8页IEEE，2019。[38] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.用条件gans实现高分辨率图像在I

下载后可阅读完整内容，剩余1页未读，立即下载