没有合适的资源?快使用搜索试试~ 我知道了~
7783具有全景布局生成的交互式图像合成王涛吴敏峰朱鹏杜 *{wangbo341,zhumenfeng,dupeng25} @ hisilicon.com,taowu1@huawei.com摘要当用户希望轻松控制生成图像的场景结构时,从用户引导输入的交互式图像合成是一项具有挑战性的任务虽然基于布局的图像合成方法已经取得了显着的进展,现有的方法需要高精度的输入,如准确放置的边界框,这可能会不断违反在交互式设置。当边界框的放置受到扰动时,基于布局的模型在构造的语义布局中遭受“缺失区域”,并且因此在生成的图像中遭受不期望的伪像。在这项工作中,我们提出了全景布局生成对抗网络(PLGAN)来应对这一挑战。PLGAN采用全景理论,该理论将对象类别区分为特别地,填充布局可以采取无定形形状并且填充由实例布局遗漏的缺失区域。我们通过实验比较了我们的PLGAN与COCO-Stuff,Visual Genome和Landscape数据集上最先进的基于布局的模型。PLGAN的优点不仅在视觉上得到了证明,而且在起始分数、Fre′chet起始距离、分类准确度分 数 和 覆 盖 率 方 面 得 到 了 定 量 验 证 该 代 码 可 在https://github.com/wb- finalking/PLGAN上获得。1. 介绍面向创新设计的条件图像合成技术已经取得了很大的进展.条件输入的不同形式包括类别[2,14,25迄今为止,通过条件生成模型进行交互式图像合成文本到图像模式-*通讯作者。对象输入实例布局 生成的图像实例/素材输入全景布局生成的图像图1. Grid2Im [1]与PLGAN的场景到图像合成。与Grid2Im使用的将所 有对象视为实例( 事物)的实例布 局不同,PLGAN的全景布局区分了实例和填充物之间的对象,从而消除了缺失区域中的伪影(在布局中标记为黑色)。ELS通常受到推理对象位置和关系的影响[42]。来自语义布局的图像合成为计算机-人类交互提供了另一种方式[9,21],并产生美观的结果[28,36,45]。然而,高质量的语义布局需要用户从头开始手绘的专业技能,这使得它们不能被新手用户用作拖放GUI。在这方面,场景图近年来吸引了很多关注[1,12],因为它只需要在画板上放置多个对象,并允许用户友好地操作单个对象。Grid2Im [ 1 ]是场景图到图像合成的里程碑,它大致包括两个阶段:布局构造和图像生成。首先,输入条件被传递以构造具有每个对象遮罩和边界框的实例布局。其次,在实例布局的条件下,合成照片般逼真的图像作为图像生成阶段的结果。虽然Grid2Im [1]需要地面真值分割图作为支持,PLGANGrid2Im7784透视信号,LostGAN [34,35]可以以弱监督的方式学习中间实例布局。除[1,34,35]外, 基于实例布局生成诸如[9,12,21,43]的模型也推动了许多跨域图像合成任务的进展。上述方法中的一个共同的警告在于,它们对场景对象的空间扰动敏感,并且特别是在交互场景中,易受区域丢失它们可以预测具有空白区域的中间布局,其中像素可能没有正确的类别信息。在训练阶段,地面实况边界框和掩模通常覆盖整个图像格子。然而,在交互式场景中,用户可以任意放置具有边界框的对象。此外,预测的每对象掩模将不会填充对应的边界框。因此,中间布局可能没有被对象掩模完全覆盖,从而产生区域缺失问题。Grid2Im [ 1 ]缺失区域的图示如图所示。1.一、不出所料,包含空白区域的不完美语义布局会在生成的图像中引起不期望的伪影。在这项工作中,我们提出了全景布局生成对抗网络(PLGAN)的交互式图像合成。与将所有物体都视为实例(或事物)的现有工作不同,我们采用了全景分割理论[17],该理论将物体分为不可计数的东西(指无定形背景,如草,天空或海洋)和可计数的事物(具有明确形状的前地物体,如人,动物或车辆)。此外,我们开发了全景布局生成(PLG)模块,它并行地使用一个用于填充布局构造的填充分支和一个用于实例布局构造的实例分支实例分支预测每个实例的边界框和掩码,如[1,34]所示。填充分支为覆盖整个图像网格的所有填充对象生成像素级遮罩。然后,通过实例和素材感知归一化(ISA-Norm)模块将实例布局和素材布局组合成全景布局从这样的全景布局的图像合成成功地消除了丢失的区域,并表现出更强大的对象位置的扰动;参见图1的可视化示例。我们的贡献总结如下:• 我们利用全景布局在交互式图像合成,以解决目前的实例布局为基础的方法继承的区域丢失问题。• 关于模型架构,我们建议在布局构造过程中分开处理东西和事物对象,然后通过实例和东西感知规范化(ISA-Norm)将构造的实例和东西布局融合到全景布局中。• 我们的实验表明定性和定量比 较 COCO-Stuff 数 据 集 , Visual Genome 和Landscape数据集,并证明我们的PLGAN相对于最先进的基于布局的方法的优点。2. 相关工作自生成对抗网络(GAN)[5]的工作以来BigGAN [2]和StyleGAN [13]在网络架构和训练策略方面取得了进一步的里程碑,带来了令人印象深刻的高分辨率图像质量。 虽然像GAN这样的无条件合成模型将随机噪声作为输入,但条件合成[15,25,31,42,44]需要额外的条件(例如,类别、场景、布局)作为输入来控制所生成图像的内容和样式。其中,基于布局的图像合成是一种有效的人机交互方式[9,21,34],它需要为每个像素分配布局到图像模型[28,36,45]可以通过直接利用对象的位置和形状来产生具有多个对象的美观结果。实例布局。基于实例布局的方法将每个对象看作一个独立的带有边界框和形状的实例,并为每个像素分配类别标签和实例ID。例如,文本到图像模型[9]将文本描述作为输入,并采用LSTM [8]来预测实例边界框和掩码。可配置的场景布局[1,12,34,43]是一个更用户友好的工具,它由一个 一组带有标签、位置及其相互作用的对象。SG2Im [12]和Grid2Im [1]利用图形卷积网络[33]从场景中提取信息并构建实例嵌入特征,以预测用于布局构建的边界框和掩码LostGAN [34]接收边界框和类作为图像合成的输入。与其他条件格式相比,场景布局提供了与目标图像相似的空间结构,并且更容易构造。虽然基于实例的方法可以生成具有可识别形状的真实实例,但它们往往会导致区域丢失问题,特别是在高分辨率和交互式场景中,图像网格不能完全被实例掩码覆盖全景布局。我们提出的PLGAN利用来自全景分割的全景理论。全景分割在[17]中首次被称为统一场景理解任务的实例分割和语义分割。全景分割模型[4,20,23]通常利用单独的分支来生成基于区域的物体实体布局和密集像素语义布局。受以前作品的启发,我们的PLGAN在交互式图像生成的背景下采用全景布局,允许用户操纵整个场景,7785|C|∈∈C--我我∈--C C C我C∈∈S我 ∈我我 我我我我--图2. PLGAN架构概述。PLGAN是一种以端到端方式训练的交互式图像合成模型。它包括两个阶段:场景到布局生成和布局到图像合成。受全景分割[17]的启发,提出了全景布局生成(PLG)用于场景到布局生成,其区分所生成对象的实例和填充物。特别是,stuff布局补充了实例布局,因为后者容易出现区域丢失问题。在运行中创建照片般逼真的图像3. 方法拟议的PLGAN遵循两个阶段的程序:场景到布局生成和布局到图像合成;见图。2以了解其体系结构的概述PLGAN的输入是一组对象O=o1,o2,.,其中每个oi=(ci,pi,si),其中ci是对象类别(例如, =171),pi[0,1]2是中心位置,si是对象大小(通常从某个预定义的集合中绘制,例如,[1,25])。对于场景到布局构造,我们提出了受[17]启发的全景布局生成具体来说,PLG通过分别嵌入东西和事物标签来学习从场景到全景布局的映射LSt=GSt(OSt,zSt),(1)LTh=GTh(oTh,zTh),(2)其中,LSt公司简介|CSt| 其中LThRH×W ×1是实例布局,GSt和GTh分别是在填充分支和实例分支下的两个不同的生成元,OSt和OTh=oTh是填充对象和事物对象的集合,zSt,zThRm是从标准高斯模型中抽取的潜在码。同时,布局到图像合成在最近的文献中已经被很好地探索。PLGAN利用了最先进的模型,如Grid 2 Im[1]、LostGAN-V1由生成器GIm产生:If=GIm(LSt,{LTh},zIm),(3)根据布局LSt、LTh和高斯潜在码zImRm。最后但并非最不重要的是,我们已经将实例和素材感知规范化(ISA-Norm)集成到布局到图像阶段,该阶段致力于融合素材布局和实例布局。3.1. 全景布局生成在PLG中,我们将对象类别分为两个不相交的子集,St和事物即,=StTh这些东西代表纹理或材料的无定形背景区域,例如草地、天空和道路。相比之下,事物通常是具有明确定义的形状的可计数的前景对象,诸如人、动物和车辆。为了从基于实例布局的模型中消除任务区域[1,43],我们建议将布局构造拆分为实例分支和填充分支,类似于全景分割[17,19,39]。此外,我们建议融合的东西和实例布局,然后完善全景布局条件实例到实例和实例到东西的关系。3.1.1实例布局分支类似于以前的作品[1,12,35],我们在两个镜头中生成实例布局首先,我们预测B(ounding)Box和掩码为每个实例对象与条件一般-[34]、LostGAN-V2 [35]和CAL 2 I [6],用于布局到图像模型。给定一个物体oTh=(ci,pi,si),合成. 在数学术语中,一个真实感图像Ifci∈ CT h,掩码生成器和BBox生成器都接受字全景布局生成编码o:c,p,s1111C...zSt~东西对象...语义布局发生器o1:c 1,p1,s 1...on:c n,pn,s nok:c k,pk,s k……材料科材料布局实例分支实例布局Mask2Layout例如对象边界框/掩码一代……~zIm面具SoftmaxISA-Norm布局到图像7786∈×× ×^^*、*、cΣSt生成的图像全景布局zIm图3.布局到图像模块的图示。嵌入对象标签、中心位置pi和大小si作为输入。为了简化模型,我们只预测BBox的高度和宽度,然后将它们与输入的中心位置相结合,以获得最终的BBox。在第二步中,将所有遮罩调整为由BBox定义的特定区域 基于这些BBox和掩码,我们进一步利 用 Mask2Layout 模 块 [35] 来 构 建 实 例 布 局LThRH×W×|OTh|,其中切片LTh对应于对象oTh的预测掩模。图4.实例感知和填充感知规范化的说明将实例布局作为其条件生成模型的输入。为了充分利用PL-GAN设置中的全景布局,我们提出ISA-范数来代替ISLA-范数。图3示出了用于实现图像处理的布局到图像阶段的设计。128 128输出分辨率。生成器由一个完全连接(FC)层和五个ResBlocks组成。的FC层将128维的图像潜码zIm映射到4× 4 × 128张量。然后,采用五个ResBlock来将该张量连续上采样到最终生成的期望分辨率的图像,其中每个ResBlock经由ISA-Norm模块将全景布局混合到上采样中我3.1.2物料布局分公司我3.2.2 实例感知和填充感知的规范化虽然实例布局是彼此独立生成的更具体地,我们首先生成粗略布局LSt,init∈RH×W×| C|,其中每个切片LSt , init是具有标签c∈CSt 的 stu f f 对 象 的 粗 略 掩码。给定一个填充对象oSt=(c,p,s),我们通过设置一个正方形掩码来生成一个粗略的掩码,其中s为它的高度和宽度,p为它的中心位置(见图2)。2)。然后,我们使用具有四个ResBlocks [28]的条件生成模型,以将该粗略布局LSt,init细化为填充布局LSt。最后,我们使用掩码softmax对LSt进行归一化:eL^StL=一旦实例和东西布局模板准备好了,我们需要正确地融合它们在这方面,ISLA-Norm模块用于LostGAN [35](仅处理实例布局)。ISLA-Norm通过将实例布局嵌入到BatchNorm层的仿射变换中来实现多对象融合。然而,直接对嵌入的实例对象求平均值对于全景布局是不合适的。在全景设置中,素材布局将覆盖作为背景的整个场景,并且在素材和素材之间存在广泛的重叠。 为了解决这一挑战,我们提出了实例和素材感知规范化(ISA-Norm);见图。4为例。设X∈RB×H×W×C为4D特征图,Sth,w, ch、w、c eL^St、 c∈ Cin,(4)'从图3中的ResBlocks的激活层。的ISA-Norm像标准BatchNorm中那样变换X其中,Cin_Cst中的C包含输入stu fcategories。1µc= BHWXb,h,wb,h,w,c、(五)3.2. 布局到图像合成3.2.1条件图像合成σc=1BHW.b、h、w2Xb,h,w,c−µc(6)从版面合成图像是一种近年来受到关注的条件生成任务;参见,例如,[1 ],[2],[3],[4],[5],[ 6 ],[7]。为-Xb,h,w,c=Xb,h,w,c−µcγσch、w、c+βh,w,c.(七)ResBlockResBlockResBlock线性~ResBlockConv+ReLUISA-NormConvConv上采样上采样ReLUISA-NormISA-Norm………………BatchNorm…………导向滤波器.c'∈Cinh、w、cΣ7787∈在PLGAN中完成布局到图像的合成,我们遵循最先进的方法CAL 2I [6]来构建我们的生成模型。LostGAN[35]提出了ISLA-Norm,此处µ,σRC 是平均值和标准差,关于batch的问题位移和尺度参数β,γ∈RH×W×C的构造如下.7788StL> τ,·我联系 我们appLβγγ响应权重为1/32、1/16、1/8、1/4和1.我们使用conv 1 -1的激活来计算Lper,我LLF F首先,我们使用可学习矩阵来嵌入对象重建损失。重建损失措施类,并获得WStThE ∈R| C|×C和 WT h,WTh ∈的L预测图像之间的像素距离,以及R| C|×C for stuff and thing objects separately. 然后我们计算事物对象的前景遮罩:地面实况图像,即,R f2001年1月, 如果T hh,w,cLrec=EIrpreal,Ifpfake[I-I.(十七)Mh,w=C0,否则,(八)感知损失。感知损失鼓励合成大小和真实图像共享相似的特征表示,其中τ是表示前景阈值的标量值(τ=0. 1在实验中)。我们通过引导过滤器(GF)[37]进一步处理基于当前图像特征的实例布局,并投影实例和它被广泛用于风格转换[11]和图像处理。合成[44]。 其中φj()是来自VGG-19网络的第j层的激活,感知损失被定义为:使用标签嵌入将布局填充到语义空间中:Lper=EIrp房ΣΣwjǁφj(Ir)−φj(If)ǁ1Σ,(18)LTh=GF(LTh,X),(9)我 我٨h,w我fp假j. L我 我 h,w具有特征平衡权重{wj}。 在我们的实验中-Eh,w为. 你好,٨conv 2 -1、conv 3 -1、conv 4 -1和conv 5层,ESt,E=LStWSt,(11)其中 *γ、β和ETh,,ESt,RH×W ×d。有关GF的详细信息,请参阅附录。最后,从实例和填充布局嵌入融合γ、β:γh,w,c=Mh,wETh,γ+(1−Mh,w)ESt,γ,(12)外观损失。在CAL 2I [6]之后,我们还引入了外观损失,该外观损失根据像素级未对准来惩罚发生器:h、w、cTh,βh、w、cSt,βLapp=EIfpfa ke[−Dap p(A|我 )]、(十九)βh,w,c=Mh,wEh,w +(1− Mh,w)Eh,w,c.(十三)3.3. 模型目标对抗性损失:D应用程序通过最小化ad来更新。用于PLGAN训练的总损耗由下式给出:adv r rL app(Dapp)= EIr preal [max(0,1 −Dapp(A|我))]L=λ1Lbox+λ2L img+λ3L obj+λ4Lper+λ5Lrec+ λ6Lapp.(十四)+EIf假[max(0,1+Dap p(Af|I(f))]。 (二十)这里L 框是预测边界在Lapp和Ladv中,我们使用了Ar和Af,框和地面实况边界框,是两个对抗性损失img 和Lobj分别在Ir和If中的对象特征的Gram矩阵。Gram矩阵的目的是测量空间图像和对象,实际上,PER是感知损失,REC是重建损失,APP是另一种针对外观的对抗性损失。在实验中手动设置平衡配重,即,λ2=0。1,λ1=λ3=λ4=λ5=λ6= 1。图像和对象丢失。 我们使用铰链损失[24]来计算Limg:FL1Th,(十)7789LAdvL对象特征之间的相似性,因此更好地保留合成图像中的位置敏感信息[6]。3.4. 实现细节PLGAN模型使用Pytorch [29]在NVIDIA Tesla V100GPU服务器上进行训练。训练使用Adam优化器[16],学习率为10- 4,批量大小为128。Limg=EIfpfak e[−Dimg(I)]、(十五)并在所有测试数据集上运行200个epoch推理其中,Ir是从训练数据绘制的真实图像,If是从等式(1)生成的假图像。(三)、请注意,img涉及到一个通过最小化对抗损失来更新的CJD img:在配备Ascend AI加速卡和Ascend Compute Architecturefor Neural Networks(CANN)的华为Atlas推理工作站上对PLGAN模型进行了测试。Limg(Dimg)=EIrpreal[max(0,1−Dimg(I(r))]4. 实验+EIf假[max(0,1 +D(If))],(16)我们在三个数据集上评估所提出的PLGAN并且对于对象损失OBJ也是类似的。对抗性损失已被证明是有效的,在生成逼真的纹理。COCO-Stuff [3],Visual Genome [18]和我们自己的Land-scape数据集。将PLGAN的结果与7790GT Pert BBox Grid 2 Im LostGAN-V2我们的128×128 256×256 128×128 256×256 128×128 256×256图5.从COCO-Stuff数据集上的扰动BBoxes(Pert BBoxes)生成的样本图像之间的视觉比较输入Grid2Im Ours128× 128 256× 256 128×128 256 × 256图6.COCO-Stuff数据集上的实例布局和全景布局之间的视觉比较现有技术的方法不仅在视觉上而且在量化上使用广泛采用的度量。我们还进行了消融研究,以评估PLGAN单个组件的有效性。由于篇幅所限,补充的结果留在附录中。数据集。COCO-Stuff数据集[3]使用边界框和分割掩码为80个事物类别和91个事物类别注释了40 K训练图像和5 K验证图像。根据Ashual et al.[1],我们选择具有三到八个对象的图像,并进一步过滤对象覆盖率小于2%的图像。我们将Visual Genome(VG)数据集[18]的类别分为92个事物类别和87个东西类别。我们选择了62,565个训练,5,506个验证和5,088个测试图像,其中包含3到30个对象在我们的实验中。为了充分展示PLGAN中素材布局生成的优势,我们还从Flickr网站上收集了27k张4482分辨率 的照片(25k train和 2k val ), 创建了自 己的LandscapeLandscape 数 据 集 只 包 含 23 个 stuff 对 象 类(如天空、海洋和山脉),但没有任何东西对象。我们使用预先训练的UPSNet [39]来提取事物和东西对象的像素级分割掩码。方法. 我们将我们的PLGAN与最先进的布局到图像模型进行比较:[2019 - 02 - 15] 的这些模型的结果由公开发布的代码复制。评估指标。采用四个指标,7791- -表1.在COCO-Stuff数据集上对Inception Score(越高越好)、FID(越低越好)和CAS(越高越好)进行定量比较Pert1 BBox和Pert2 BBox是通过对GT BBox在对象中心上施加不同的随机偏移来生成的方法分离度IS↑ FID↓ CAS↑真实图像64×64 13.4±0.5-真实图像128×128 22.3±0.4-真实图像256×256 30.4±0.6-51.04[43]第四十三话[1]第一章64×64GT BBox Pert1 BBox Pert2 BBox GT BBox Pert1 BBox Pert2 BBox GT BBox9.1±0.1 7.7±0.2 7.0±0.2 37.53 44.57 50.58 27.3210.3±0.1- -48.7-LostGAN-V1 [34] 9.8±0.2--34.31--28.81我们的(CAL2I [6]+PLG)10.3±0.1 9.2±0.1 8.2±0.1 21.85 28.01 34.52 29.50[1]第一章11.2±0.3 7.4±0.1 6.4±0.2 63.2 77.76 87.89 25.89LostGAN-V1 [34] 13.8±0.4 9.2±0.1 7.7±0.1 29.65 51.96 71.04 30.68LostGAN-V2 [35] 14.2±0.4 9.9±0.1 8.1±0.2 24.76 43.82 59.34 31.98CAL2I [6]128×12815.6±0.211.1±0.1 9.0±0.1 24.15 43.12 57.89 32.52Grid2Im [1]+PLG 12.7±0.1 11.0±0.2 9.5±0.2 45.83 51.53 60.24 26.74LostGAN-V1 [34]+PLG14.1±0.112.6±0.211.0±0.226.8531.8238.6731.33LostGAN-V2 [35]+PLG 14.6±0.2 12.8±0.1 11.4±0.1 25.43 30.80 36.75 32.86我们的(CAL2I [6]+PLG)15.6±0.3 13.2±0.2 11.7±0.2 22.70 29.03 35.40 33.86[1]第一章LostGAN-V2 [35]256×25615.2±0.1 7.7±0.4 4.4±0.1 65.95 147.85 253.5918.2±0.2 12.2±0.2 9.5±0.2 30.82 56.67 77.56 30.33我们的(CAL2I [6]+PLG)18.9±0.3 15.8±0.2 14.2±0.2 29.10 40.14 46.89 32.33定量评价:初始分数(IS)[32]、Fr e'chet初始距离( FID ) [7] 、 分 类 准 确 度 分 数 ( CAS ) 和 覆 盖 率(COV)[10]。特别是,我们通过在合成图像上训练ResNet-101模型 来计 算 CAS [30 ,35],以 对COCO-Stuff和VG数据集的真实图像进行分类CAS越高越好(即,更多可识别的对象)。覆盖率(COV)衡量中间语义布局的质量,其计算为生成的语义布局中空白区域的平均百分比(范围在0和100之间)COV越高越好(即,较少的空画板)。4.1. 定性结果在图5中,我们显示了Grid 2 Im [1],LostGAN-V2[35]和我们的PLGAN在1282和2562分辨率下的视觉比较,所有这些都使用扰动的BBox作为输入。 可以清楚地观察到,依赖于基于实例的布局的Grid 2 Im和LostGAN-V2在这是由于实例的BBoxes不能占据整个图像晶格的事实。即使BBox之间没有间隙,实例掩码之间的不匹配也会导致Grid2Im布局中的区域丢失问题。随着分辨率的提高,这个问题变得更加明显。我们的PL-GAN采用基于全景的布局,并处理类似于语义分割的对象,因此背景自然地填满整个图像格子。我们参考图实例布局和全景布局之间的视觉差异为6。4.2. 定量结果在选项卡中。1,我们展示了COCO- Stuff在不同分辨率下的初始分数,FID和CAS方面的定量比较“GTBBox”是指来自原始数据集的地面实况注释;“Pert 1 BBox”和“Pert 2 BBox”是指GT BBox在范围[ 0. 3,0。3]和[ 0.5,0。[5]分别。不出所料,GT BBox下的IS和FID优于Pert1 BBox和Pert2 BBox下的IS和FID。以GT BBox作为输入,我们的PLGAN(CAL2I+PLG)在IS和FID中是最好的,但与竞争机型的差异很小。然而,PLGAN在IS和FID中的优势在Pert1 BBox和Pert2 BBox下更加明显。这是因为BBox的完美放置可能会消除先前基于实例布局的模型所遇到的区域缺失和重叠问题。为了比较CAS,我们仅使用GT BBox作为输入来测试合成图像。遵循LostGAN-V2 [35],我们从合成图像和真实图像中以322分辨率计算根据Tab。1、我们的方法在不同分辨率下都有较高的CAS。这证实了,通过ISA-Norm模块的优化实例布局,7792我们的(CAL2I+PLG)Grid2Im+PLGLostGAN-V1+PLGLostGAN-V2+PLGGrid2ImLostGAN-V1LostGAN-V2 CAL2I我们的(CAL2I+PLG)Grid2Im+PLGLostGAN-V1+PLGLostGAN-V2+PLGGrid2ImLostGAN-V1LostGAN-V2 CAL2I覆盖FID表2. PLG和ISA-Norm模块的消融研究。GT BBox Pert1 BBox Pert1C C14.6±0.2 12.3±0.1 10.3±0.1 24.8915.0±0.3 12.5±0.1 10.8±0.1 23.65 33.09 52.73 31.09 22msC C15.6±0.3 13.9±0.2 12.8±0.2 22.70 27.03 33.40 33.86 26ms1690100148090701280601050 70840603060.0 0.1 0.2 0.3 0.40.5扰动范围200.0 0.1 0.2 0.3 0.40.5扰动范围500.0 0.1 0.2 0.3 0.4 0.5扰动范围图7.分辨率为128×128的COCO-Stuff数据集上具有不同扰动范围的IS、FID和覆盖率曲线。表3.全视布局的消融研究。布局IS↑ FID↓ CAS↑仅材料布局12.7±0.6 43.7027.15仅实例布局15.6±0.2 24.1532.52全景布局(实例+素材)15.6±0.3 22.7033.86在生成的图像将获得更高的保真度。值得注意的是,我们的PLGAN使用CAL2I作为布局到图像生成器,它可以被其他基于实例布局的模型所取代。出于这个原因,我们还将结果包含在Tab中。1,结合了PLG模块和不同的布局到图像生成器。NoticomputPLG总是改进实例布局基线。进一步阐述了GT BBox的抗扰动鲁棒性测试。 通过改变扰动范围从0到0。图5,图7绘制了我们的PLGAN和来自Tab. 1.一、观察到随着GT BBox扰动的增加,所有模型的IS和FID都会恶化。然而,我们提出的PLG模块总是鲁棒的图像合成相比,实例布局基线。PLGAN结合了CAL2I和PLG,在IS和FID方面表现最好。关于覆盖度量,随着扰动范围的增加,我们观察到所有实例布局基线的可见衰减。同时,我们的PLGAN由于全景布局而保持100%的COV。4.3. 消融研究我们现在验证PLGAN的在选项卡中。2,我们使用CAL2I [6]作为基线,并使用PLG和ISA-Norm模块对其进行增强。我们看到,尽管PLG解决了基线区域缺失问题,但它有时会降低由三个指标测量的图像质量ISA-Norm是提高全景布局生成的图像质量的正确解决方案。PLGAN,与所有三个组件相结合,达到所有指标的最高分,并保持实时。我们还测试了PLGAN的变体,单独使用实例或填充布局分支。在选项卡中。3,我们看到,将所有对象单独视为材料或事物会产生比全景布局方法更差的度量。5. 结论本文主要研究如何解决交互场景下场景到图像合成的区域丢失问题为此,我们的PLGAN利用全景理论,通过单独的分支构建实例和内容布局。由此产生的全景- tic布局消除丢失的区域,并产生美观的图像,即使对象位置上的扰动是允许的。COCO-Stuff、VisualGenome和Landscape数据集上的大量证据支持PLGAN优于最先进的方法。6. 确认我们非常感谢Ascend CANN(神经网络计算架构)对本研究的优化支持。我们的(CAL2I+PLG)Grid2ImLostGAN-V1LostGAN-V2 CAL2I是PLG ISA-Norm不含GFIS↑Pert2 BBox GTFID↓Pert2 BBoxCAS↑推断时间GT BBoxC15.6±0.2 11.1±0.19.0±0.1 24.1543.1235.6657.89 32.52 14毫秒58.84 31.99 22毫秒7793引用[1] 奥伦·阿舒尔和里奥·沃尔夫。在交互式场景生成中指定对象属性和关系在IEEE计算机视觉国际会议论文集,第4561-4569页一二三四六七[2] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv:1809.11096,2018。一、二[3] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可 可 - 东西:上下文中的事物和东西类。 在IEEE计算机视觉和模式识别会议论文集,第1209-1218页,2018年。五、六[4] Bowen Cheng,Maxwell D Collins,Yukun Zhu,TingLiu,Thomas S Huang,Hartwig Adam,and Liang-ChiehChen. Panoptic-deeplab:用于自下而上全景分割的简单、强大且快速的基线。在IEEE/CVF计算机视觉和模式识别会议论文集,第12475-12485页,2020年。2[5] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在Z. Ghahra-mani , M. 威 灵 角 Cortes , N.Lawrence 和 K.Q. Wein-berger,编辑,神经信息处理系统进展,第27卷,2014年。2[6] 何森,廖文通,杨勇新,宋益哲,罗森汉,陶翔. 具有增强对象外观的图像生成的上下文感知布局在CVPR,2021年。三四五六七八[7] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展,第6626-6637页,2017年7[8] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735-1780,1997。2[9] Seunhoon Hong,Dingdong Yang,Jongwook Choi,andHonglak Lee.推理语义布局的分层文本到图像合成。在IEEE计算机视觉和模式识别会议论文集,第7986- 7994页,2018年。一、二[10] Maor Ivgi,Yaniv Benny,Avichai Ben-David,JonathanBe-rant和Lior Wolf。场景图到图像生成与上下文对象布局细化。在2021年IEEE图像处理国际会议(ICIP)上,第2428-2432页。IEEE,2021。7[11] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694施普林格,2016年。5[12] 贾斯汀·约翰逊,阿格里姆·古普塔,李飞飞。从场景图生成图像。在IEEE计算机视觉和模式识别会议论文集,第1219-1228页,2018年。一、二、三[13] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在IEEE计算机视觉和模式识别会议论文集,第4401-4410页,2019年。2[14] Tero Karras , Samuli Laine , Miika Aittala , JanneHellsten,Jaakko Lehtinen,and Timo Aila.分析和改进StyleGAN的图像质量。在IEEE计算机视觉和模式识别会议论文集,2020年。1[15] Taeksoo Kim、Moonsu Cha、Hyunsoo Kim、Jung KwonLee和Jiwon Kim。学习发现与生成对抗网络的跨域关系。arXiv预印本arXiv:1703.05192,2017。一、二[16] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。5[17] Alexander Kirillov 、 Kaiming He 、 Ross Girshick 、Carsten Rothe r和PiotrDol la'r。 全视节段在IEEE/CVF计算机视觉和模式识别会议的论文集中,第9404-9413页,2019年二、三[18] Ranjay Krishna , Yuke Zhu , Oliver Groth , JustinJohnson,Kenji Hata,Joshua Kravitz,Stephanie Chen,Yannis Kalantidis,Li-Jia Li,David A Shamma,et al.可视化基因组:使用众包密集图像注释连接语言和视觉。国际计算机视觉杂志,123(1):32-73,2017。五、六[19] Jie Li , Allan Raventos , Arjun Bhargava , TakaakiTagawa,and Adrien Gaidon.学会融合各种东西。arXiv预印本arXiv:1812.01192,2018。3[20] Qizhu Li,Xiaojuan Qi,and Philip HS Torr.统一全景分割的训练和推理。在IEEE/CVF计算机视觉和模式识别会议论文集,第13320-13328页,2020年。2[21] Wenbo Li , Pengchuan Zhang , Lei Zhang , QiuyuanHuang,Xiaodong He,Siwei Lyu,and Jianfeng Gao.通过对 抗训 练实 现对 象驱 动的文 本到 图像 合成 。在IEEE/CVF计算机视觉和模式识别会议上,第12174-12182页,2019年。一、二[22] Xinyang Li,Shengchuan Zhang,Jie Hu,Liujuan Cao,Xi-aopeng Hong , Xudong Mao , Feiyue Huang ,Yongjian Wu,and Rongrong Ji.通过分层风格解纠缠的图像到图像转换。在IEEE计算机视觉和模式识别会议论文集,第8639-8648页1[23] Yanwei Li,Xinze Chen,Zheng Zhu,Lingxi Xie,GuanHuang,Dalong Du,and Xingang Wang.用于全景分割的注意力引导统一网络。在IEEE/C
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功