语义图像合成方法的比较与评估

94 浏览量更新于2023-10-17 收藏 17.51MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2337233823392340523410标签真实标签 CRN [8] pix2pixHD [45] 我们0图5：COCO-Stuff数据集上语义图像合成结果的视觉比较。我们的方法成功地从语义标签中合成逼真的细节。标签真实标签CRN [8] SIMS [40] pix2pixHD [45] 我们0图6：ADE20K室外和Cityscapes数据集上语义图像合成结果的视觉比较。我们的方法在保持空间语义布局的同时生成逼真的图像。0COCO-Stuff ADE20K ADE20K室外 Cityscapes0方法 mIoU 准确率 FID mIoU 准确率 FID mIoU 准确率 FID mIoU 准确率 FID0CRN [8] 23.7 40.4 70.4 22.4 68.8 73.3 16.5 68.6 99.0 52.4 77.1 104.7 SIMS [40] N/A N/A N/A N/A N/A N/A 13.174.7 67.7 47.2 75.5 49.7 pix2pixHD [45] 14.6 45.8 111.5 20.3 69.2 81.8 17.4 71.6 97.8 58.3 81.4 95.0 我们 37.4 67.922.6 38.5 79.9 33.9 30.8 82.9 63.3 62.3 81.9 71.80表1：我们的方法在所有基准数据集上的语义分割得分（平均IoU和整体像素准确率）以及FID方面都优于当前领先的方法。对于mIoU和像素准确率，数值越高越好。对于FID，数值越低越好。0合成结果与真实图像分布之间的距离。0基准方法。我们将我们的方法与三种领先的语义图像合成模型进行比较：pix2pixHD模型[45]，级联细化网络模型（CRN）[8]和半参数图像合成模型（SIMS）[40]。pix2pixHD是当前最先进的基于GAN的条件图像合成框架。CRN使用一个深度网络，从低分辨率到高分辨率反复优化输出，而SIMS采用半参数方法。0CRN和SIMS主要通过图像重建损失进行训练，CRN还使用了一个从低分辨率到高分辨率反复优化输出的深度网络。为了公平比较，我们使用作者提供的实现来训练CRN和pix2pixHD模型。由于使用SIMS合成图像需要对训练数据集进行多次查询，对于像COCO-Stuff和完整的ADE20K这样的大型数据集来说，这在计算上是不可行的。因此，我们尽可能使用作者提供的结果图像。0623420图7：Flickr Landscapes数据集上的语义图像合成结果。这些图像是从Flickr上的照片的语义布局生成的。0我们的方法在所有数据集上的表现都远远超过了当前最先进的方法。对于COCO-Stuff数据集，我们的方法的mIoU得分为35.2，比之前的领先方法提高了1.5倍。我们的FID也比之前的领先方法好2.2倍。我们注意到，SIMS模型在Cityscapes数据集上产生了较低的FID分数，但分割性能较差。这是因为SIMS通过首先从训练数据集中拼接图像块来合成图像。使用真实的图像块，生成的图像分布可以更好地匹配真实图像的分布。然而，由于不能保证数据集中存在完美的查询（例如，特定姿势的人），它倾向于复制具有不匹配分割的对象。定性结果。在图5和图6中，我们对竞争方法进行了定性比较。我们发现，我们的方法在视觉质量和减少伪影方面都比竞争方法好得多，特别是对于COCO-Stuff和ADE20K数据集中的多样化场景。当训练数据集规模较小时，SIMS模型也可以生成具有良好视觉质量的图像。然而，所描绘的内容往往偏离了输入的分割掩模（例如，图6第二行中的游泳池的形状）。在图7和图8中，我们展示了来自FlickrLandscape和COCO-Stuff数据集的更多示例结果。所提出的方法可以生成具有高图像保真度的多样化场景。更多结果请参见我们的附录。0数据集我们对比我们对比我们对比0COCO-Stuff 79.76 86.64 N/A ADE20K 76.66 83.74 N/AADE20K-outdoor 66.04 79.34 85.70 Cityscapes 63.6053.64 51.52表2：用户偏好研究。数字表示偏好我们提出的方法的用户百分比超过竞争方法。0arXiv版本。0人工评估。我们使用亚马逊机械土耳其（AMT）来比较我们的方法与现有方法之间的感知视觉保真度。具体而言，我们给予AMT工作者一个输入分割掩模和两个来自不同方法的合成输出，并要求他们选择更像分割掩模对应图像的输出图像。工作者可以无限制地进行选择。对于每个比较，我们随机生成每个数据集的500个问题，每个问题由5个不同的工作者回答。为了质量控制，只有生命周期任务批准率大于98%的工作者可以参与我们的评估。表2显示了评估结果。我们发现用户在所有数据集上都强烈偏好我们的结果，尤其是在具有挑战性的COCO-Stuff和ADE20K数据集上。对于Cityscapes，即使所有竞争方法都达到了723430图8：COCO-Stuff上的语义图像合成结果。我们的方法成功地在各种场景中生成逼真的图像，从动物到体育活动。0方法 #参数 COCO. ADE. City.0带SPADE的解码器（我们的） 96M 35.2 38.5 62.3带SPADE的紧凑解码器 61M 35.2 38.0 62.5 带串联的解码器 79M31.9 33.6 61.10pix2pixHD++ w/ SPADE 237M 34.4 39.0 62.2pix2pixHD++ w/ Concat 195M 32.9 38.9 57.1pix2pixHD++ 183M 32.7 38.3 58.8 紧凑pix2pixHD++103M 31.6 37.3 57.6 pix2pixHD [45] 183M 14.6 20.3 58.30表3：使用SPADE层时，解码器架构（图4）和pix2pixHD++的编码器-解码器架构（我们对pix2pixHD[45]进行了改进的基准模型）的mIoU分数得到提升。另一方面，仅在每个层次上串联语义输入无法实现这一点。此外，我们在所有层次上具有较小深度的紧凑模型优于所有基准模型。0高图像保真度，用户仍然更喜欢我们的结果。0SPADE的有效性。为了研究SPADE的重要性，我们引入了一个强大的基准模型pix2pixHD++，它结合了我们发现对提高pix2pixHD性能有用的所有技术，但不包括SPADE。我们还训练了模型，在所有中间层通过串联接收分割掩模输入（pix2pixHD++ w/Concat）。最后，将强大的基准模型与SPADE相结合的模型被标记为pix2pixHD++ w/SPADE。此外，我们通过在生成器中使用不同数量的卷积滤波器来比较具有不同容量的模型。0方法 COCO ADE20K Cityscapes0segmap输入 35.2 38.5 62.3 随机输入 35.3 38.361.60卷积核大小 5x5 35.0 39.3 61.8 卷积核大小 3x335.2 38.5 62.3 卷积核大小 1x1 32.7 35.9 59.90#参数 141M 35.3 38.3 62.5 #参数 96M 35.2 38.562.3 #参数 61M 35.2 38.0 62.50同步批量归一化 35.0 39.3 61.8 批量归一化 33.7 37.961.8 实例归一化 33.9 37.4 58.70表4：SPADE生成器可以使用不同的配置。我们改变生成器的输入，卷积核大小对分割图像的作用，网络的容量以及无参数归一化方法。本文使用的设置以粗体显示。0如表3所示，使用提出的SPADE的架构在解码器风格架构（图4）和pix2pixHD中更传统的编码器-解码器架构中始终优于其对应的架构。我们还发现，在所有中间层级上串联分割掩模，这是SPADE的直观替代方法来提供语义信号，无法达到与SPADE相同的性能。此外，即使使用较少的参数，解码器风格的SPADE生成器也能获得比强基准模型更好的性能。823440图9：当使用图像编码器进行训练时，我们的模型具有多模态合成能力。在部署过程中，通过使用不同的随机噪声，我们的模型合成具有不同外观但具有相同输入掩模中所描述的语义布局的输出。作为参考，地面真实图像显示在输入分割掩模内部。0SPADE生成器的变化。表4报告了我们生成器的不同变体的性能。首先，我们比较了生成器的两种输入类型：随机噪声或下采样的分割图。我们发现两者的性能相似，并得出结论，仅通过SPADE的调制提供了关于输入掩模的足够信号。其次，我们改变了应用调制参数之前的无参数归一化层的类型。我们观察到SPADE在不同的归一化方法中可靠地工作。接下来，我们改变了作用于标签图上的卷积核大小，并发现1x1的卷积核大小会损害性能，可能是因为它限制了利用标签的上下文。最后，我们通过改变卷积滤波器的数量来修改生成器网络的容量。我们在arXiv版本中提供了更多的变体和消融结果，以进行更详细的研究。0多模态合成。在图9中，我们展示了在Flickr风景数据集上的多模态图像合成结果。对于相同的输入分割掩模，我们采样不同的噪声输入以实现不同的输出。更多结果请参见arXiv论文。0语义操作和引导图像合成。在图1中，我们展示了一个应用，用户可以绘制不同的分割掩模，我们的模型将生成具有相应全局外观的输出图像。0不同的分割掩模，我们的模型渲染出相应的风景图像。此外，我们的模型允许用户选择一个外部风格图像来控制输出图像的整体外观。我们通过用图像编码器计算的风格图像的嵌入向量替换输入噪声来实现这一点。05. 结论0我们提出了空间自适应归一化方法，它在归一化层中利用输入的语义布局进行仿射变换。所提出的归一化方法导致了第一个能够为包括室内、室外、风景和街景在内的多样场景生成逼真输出的语义图像合成模型。我们进一步展示了它在多模态合成和引导图像合成方面的应用。致谢：我们感谢Alexei A. Efros和Jan Kautz提供的有见地的建议。TaesungPark在NVIDIA实习期间对这项工作做出了贡献。他的博士学位得到了三星奖学金的支持。923450参考文献0[1] M. Arjovsky, S. Chintala, and L. Bottou.Wasserstein生成对抗网络.在国际机器学习会议（ICML）上，2017年。 30[2] J. L. Ba, J. R. Kiros, and G. E. Hinton. 层归一化.arXiv预印本arXiv:1607.06450，2016年。 20[3] C. Barnes, E. Shechtman, A. Finkelstein, and D. B.Goldman. Patchmatch: 一种用于结构图像编辑的随机对应算法.在ACM SIGGRAPH上，2009年。 10[4] D. Bau, J.-Y. Zhu, H. Strobelt, Z. Bolei, J. B. Tenenbaum, W.T. Freeman, and A. Torralba. Gan dissection:可视化和理解生成对抗网络.在国际学习表示会议（ICLR）上，2019年。 20[5] A. Brock, J. Donahue, and K. Simonyan.大规模GAN训练用于高保真度自然图像合成.在国际学习表示会议（ICLR）上，2019年。 1，20[6] H. Caesar, J. Uijlings, and V. Ferrari. Coco-stuff:上下文中的物体和物品类别.在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。 2，40[7] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A.L. Yuille. Deeplab:基于深度卷积网络、空洞卷积和全连接CRF的语义图像分割.IEEE模式分析与机器智能（TPAMI），40(4):834–848，2018年.40[8] Q. Chen and V. Koltun. 使用级联细化网络进行摄影图像合成.在IEEE国际计算机视觉会议（ICCV）上，2017年. 1 , 2 , 4 , 50[9] T. Chen, M. Lucic, N. Houlsby, and S. Gelly.关于自我调节的生成对抗网络. 在国际学习表示会议上，2019年.20[10] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler,R. Benenson, U. Franke, S. Roth, and B. Schiele.用于语义城市场景理解的Cityscapes数据集.在IEEE计算机视觉和模式识别会议（CVPR）上，2016年. 2 , 40[11] H. De Vries, F. Strub, J. Mary, H. Larochelle, O. Pietquin,and A. C. Courville. 通过语言调节早期视觉处理.在神经信息处理系统进展（NeurIPS）上，2017年. 20[12] V. Dumoulin, J. Shlens, and M. Kudlur.一种学习的艺术风格表示.在国际学习表示会议（ICLR）上，2016年. 2 , 30[13] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D.Warde-Farley, S. Ozair, A. Courville, and Y. Bengio.生成对抗网络. 在神经信息处理系统进展（NeurIPS）上，2014年.20[14] J. Hays and A. A. Efros. 使用数百万张照片进行场景补全.在ACM SIGGRAPH上，2007年. 10[15] K. He, X. Zhang, S. Ren, and J. Sun.深度残差学习用于图像识别.在IEEE计算机视觉和模式识别会议（CVPR）上，2016年. 30[16] A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H.Salesin. 图像类比.在第28届计算机图形学和交互技术年会上，页码327–340.ACM，2001年. 20[17] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S.Hochreiter.通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡.在神经信息处理系统进展（NeurIPS）上，2017年. 4 , 50[18] S. Hong, D. Yang, J. Choi, and H. Lee.推断用于分层文本到图像合成的语义布局.在IEEE计算机视觉和模式识别会议（CVPR）上，2018年. 20[19] X. Huang and S. Belongie.实时的任意风格转换与自适应实例归一化.在IEEE国际计算机视觉会议（ICCV）上，2017年. 2 , 30[20] X. Huang, M.-Y. Liu, S. Belongie, and J. Kautz.多模态无监督图像到图像的转换.欧洲计算机视觉会议（ECCV），2018年. 2 , 30[21] S. Ioffe and C. Szegedy. 批量归一化:通过减少内部协变量偏移加速深度网络训练.在国际机器学习会议（ICML）上，2015年. 2 , 30[22] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros.条件对抗网络的图像到图像转换.在IEEE计算机视觉和模式识别会议（CVPR）上，2017年. 1 , 2 ,30[23] L. Karacan, Z. Akata, A. Erdem, and E. Erdem.从属性和语义布局学习生成户外场景图像.arXiv预印本arXiv:1612.00215，2016年. 20[24] L. Karacan, Z. Akata, A. Erdem, and E. Erdem.通过幻觉操纵自然场景的属性.arXiv预印本arXiv:1808.07413，2018年. 20[25] T. Karras, S. Laine, and T. Aila.生成对抗网络的基于风格的生成器架构.在IEEE计算机视觉和模式识别会议（CVPR）上，2019年. 20[26] D. P. Kingma and J. Ba. Adam: 一种随机优化方法.在国际学习表示会议（ICLR）中，2015年. 40[27] D. P. Kingma and M. Welling. 自动编码变分贝叶斯.在国际学习表示会议（ICLR）中，2014年. 2 , 40[28] A. Kolliopoulos, J. M. Wang, and A. Hertzmann.基于分割的3D艺术渲染. 在渲染技术中，页码361-370，2006年. 20[29] A. Krizhevsky, I. Sutskever, and G. E. Hinton.使用深度卷积神经网络进行图像分类.在神经信息处理系统（NeurIPS）中，2012年. 20[30] J. H. Lim and J. C. Ye. 几何GAN.arXiv预印本arXiv:1705.02894 , 2017年. 30[31] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ra-manan, P. Doll´ar, and C. L. Zitnick. Microsoft coco:上下文中的常见对象.在欧洲计算机视觉会议（ECCV）中，2014年. 2 , 40[32] M.-Y. Liu, T. Breuel, and J. Kautz.无监督的图像到图像转换网络.在神经信息处理系统（NeurIPS）中，2017年. 21023460[33] X. Mao, Q. Li, H. Xie, Y. R. Lau, Z. Wang, and S. P. Smol-ley. 最小二乘生成对抗网络.在IEEE国际计算机视觉会议（ICCV）中，2017年. 30[34] L. Mescheder, A. Geiger, and S. Nowozin.GAN的哪些训练方法实际上会收敛？在国际机器学习会议（ICML）中，2018年. 2 , 30[35] T. Miyato, T. Kataoka, M. Koyama, and Y. Yoshida.用于生成对抗网络的谱归一化.在国际学习表示会议（ICLR）中，2018年. 3 , 40[36] T. Miyato and M. Koyama. 具有投影鉴别器的cGANs.在国际学习表示会议（ICLR）中，2018年. 2 , 30[37] K. Nakashima. Deeplab-pytorch. https://github.com/kazuto1011/deeplab-pytorch , 2018年. 40[38] A. Odena, C. Olah, and J. Shlens.带有辅助分类器GAN的条件图像合成.在国际机器学习会议（ICML）中，2017年. 20[39] E. Perez, H. De Vries, F. Strub, V. Dumoulin, and A.Courville. 在没有强先验的情况下学习视觉推理.在国际机器学习会议（ICML）中，2017年. 20[40] X. Qi, Q. Chen, J. Jia, and V. Koltun. 半参数图像合成.在IEEE计算机视觉和模式识别会议（CVPR）中，2018年. 4 , 50[41] S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H.Lee. 生成对抗文本到图像的合成.在国际机器学习会议（ICML）中，2016年. 20[42] T. Salimans and D. P. Kingma.权重归一化：一种简单的重新参数化方法来加速深度神经网络的训练. 在神经信息处理系统（NeurIPS）中，2016年. 20[43] D. Ulyanov, A. Vedaldi, and V. Lempitsky.实例归一化：快速风格化的缺失要素. arxiv 2016.arXiv预印本arXiv:1607.08022 , 2016年. 2 , 30[44] T.-C. Wang, M.-Y. Liu, J.-Y. Zhu, G. Liu, A. Tao, J. Kautz,and B. Catanzaro. 视频到视频的合成.在神经信息处理系统（NeurIPS）中，2018年. 1 , 40[45] T.-C. Wang, M.-Y. Liu, J.-Y. Zhu, A. Tao, J. Kautz, and B.Catanzaro. 高分辨率图像合成和条件GAN的语义操作.在IEEE计算机视觉和模式识别会议（CVPR）中，2018年. 1 , 2 , 3, 4 , 5 , 70[46] X. Wang, K. Yu, C. Dong, and C. Change Loy.通过深度空间特征变换在图像超分辨率中恢复逼真的纹理.在IEEE计算机视觉和模式识别会议中，页码606-615，2018年. 20[47] Y. Wu and K. He. 分组归一化.在欧洲计算机视觉会议(ECCV)上, 2018. 20[48] T. Xiao, Y. Liu, B. Zhou, Y. Jiang, and J. Sun.统一的感知解析用于场景理解. 在欧洲计算机视觉会议(ECCV)上,2018. 40[49] T. Xu, P. Zhang, Q. Huang, H. Zhang, Z. Gan, X. Huang,and X. He. Attngan:基于注意力生成对抗网络的细粒度文本到图像生成.在IEEE计算机视觉与模式识别(CVPR)会议上, 2018. 20[50] F. Yu, V. Koltun, and T. Funkhouser. 扩张残差网络.在IEEE计算机视觉与模式识别(CVPR)会议上, 2017. 40[51] H. Zhang, I. Goodfellow, D. Metaxas, and A. Odena.自注意力生成对抗网络. arXiv预印本arXiv:1805.08318, 2018. 1 ,2 , 30[52] H. Zhang, T. Xu, H. Li, S. Zhang, X. Huang, X. Wang, andD. Metaxas. Stackgan:基于堆叠生成对抗网络的文本到逼真图像合成.在IEEE国际计算机视觉会议(ICCV)上, 2017. 1 , 20[53] H. Zhang, T. Xu, H. Li, S. Zhang, X. Wang, X. Huang, andD. Metaxas. Stackgan++: 基于堆叠生成对抗网络的逼真图像合成.IEEE模式分析与机器智能交易 (TPAMI), 2018. 10[54] B. Zhao, L. Meng, W. Yin, and L. Sigal. 从布局生成图像.在IEEE计算机视觉与模式识别(CVPR)会议上, 2019. 20[55] B. Zhou, H. Zhao, X. Puig, S. Fidler, A. Barriuso, and A.Torralba. 通过ade20k数据集进行场景解析.在IEEE计算机视觉与模式识别(CVPR)会议上, 2017. 2 , 40[56] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros.无配对图像到图像的转换使用循环一致性生成对抗网络.在IEEE国际计算机视觉会议(ICCV)上, 2017. 20[57] J.-Y. Zhu, R. Zhang, D. Pathak, T. Darrell, A. A. Efros, O.Wang, and E. Shechtman. 迈向多模态图像到图像的转换.在神经信息处理系统(NeurIPS)会议上, 2017. 2 , 3

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

语义图像合成方法的比较与评估

Python-Tensorflow实现文本到图像合成使用ThoughtVectors

用于遥感图像语义分割的方法

图像语义分割图像预处理

语义分割与图像分割区别

语义分割 图像分割

获取图像深层特征语义信息的方法有哪些

基于pytorch在MSRC-V2数据集上利用UNET网络实现图像语义分割，并用mloU评估性能

matlab图像语义分割

图像分割和语义分割区别

根据图像增广中的内容。哪些在图像分类中使用的图像增广方法难以用于语义分割？

matlab 图像语义分割

CRF应用到图像语义分割中的具体方法

语义分割和图像分割的区别

融合PointNet 和3D-LMNet的单幅图像三维重建及语义分割论文方法详细步骤

语义分割与图像分割的区别

RGBD图像语义分割研究现状

RGBD图像语义分割基础

5253-微信小程序基于springboot汽车维修管理系统微信小程序springboot（源码+数据库+lun文）.zip

基于Matlab界面GUI设计的身份证号码识别源码[Matlab界面GUI设计].zip

1.开源数据库MySQL DBA运维实战 第1章 部署.学习笔记整理分享给需要的同学

最新资源

语义分割图像分割

1.开源数据库MySQL DBA运维实战第1章部署.学习笔记整理分享给需要的同学