多类多实例计数条件对抗图像生成

30 浏览量更新于2023-10-13 收藏 889KB PDF 举报

图像生成

模型扩展

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6762多类多实例计数条件对抗图像生成Amrutha Saseendran1，Kathrin Skubch1 and MargretKeuper21 Bosch Center for Artificial Intelligence，2University of SiegenAmrutha.Saseendran@ de.bosch.com摘要图像生成近年来发展迅速。对抗训练的现代架构允许生成具有显著质量的甚至高分辨率图像。同时，越来越多的努力致力于控制所生成的图像的内容在本文中，我们在这个方向上迈出了更进一步，并提出了一个条件生成对抗网络（GAN），它可以从给定的类中生成具有定义数量的对象的图像这需要两个基本能力：（1）能够在给定复杂约束的情况下生成高质量图像，以及（2）能够对给定图像中的每个类的对象实例进行我们提出的模型模块化地扩展了成功的StyleGAN2架构，具有基于计数的调节以及回归子网络，以在训练期间计算每个类生成的对象的数量。在三个不同的数据集上的实验中，我们表明，即使在存在复杂背景的情况下，该模型也能根据给定的多类计数条件学习生成图像。特别是，我们提出了一个新的数据集，CityCount，它是从Cityscapes街道场景数据集派生出来的，以评估我们的方法在一个具有挑战性和实际相关的场景。一个实现可在https：//github.com/boschresearch/MCCGAN网站。1. 介绍发育研究表明，人类大脑具有理解数字量的自然机制[10，48]。即使是年幼的孩子也对计算有抽象的理解，并且可以将计数的概念从一个类别推广到另一个类别（例如：从物体到声音）[48]。虽然对对象实例进行计数对于人类来说相对容易，但对于深度学习和计算机视觉算法来说是具有挑战性的，尤其是当来自多个类别的对象时，例如人和汽车。在本文中，我们采取了一个步骤，这种基本的视觉推理，解决了产生的图像条件下的数量的对象实例，每CityCount示例生成的图像3车2人2车+ 1人图 1 ：我们的模型基于多类计数输入生成的真实CityCount图像。对象类。我们特别感兴趣的是复杂的情况下，从多个类的对象存在于同一个图像（比较图1）。这是一个基本的视觉任务，甚至可以由小孩子解决[10]，但在计算机视觉中仍然是一个未解决的问题除此之外，许多实际应用可以受益于生成尊重数值约束的图像的能力。特别是，它有助于生成额外的不同的训练数据的视觉问答和计数方法。此外，基于不同组分的数量的技术设计的生成在拓扑设计领域中是特别感兴趣的，其中基于数据的方法最近已经在从用于化学应用的分子设计[2]到用于美学或工程性能的产品设计[38]的应用中成功地探索在本文中，我们提出解决多类计数（MC2）条件图像生成（即图像中可见的不同类对象数量条件下的图像生成）作为对抗图像的最新网络的代，StyleGAN2 [29]。我们进一步论证了6763计数应被视为多类回归问题。虽然这种方法很简单，但它允许相邻数字之间的相似性在网络中自然这将理想地使我们的网络学习将计数的概念从一个对象类推广到另一个对象类，这意味着它可以在训练时看到“两辆车和一个人”的图像，并在推理时推断出“两个人”的外观。据我们所知，这是第一次尝试评估GANs基于多个对象类计数生成图像的潜力。我们验证了所提出的方法在两行的实验。首先，我们评估了我们的模型在根据CLEVR [24]数据集生成的合成数据以及SVHN [36]数据集的真实数据上的生成性能。我们进一步提出了一个新的，具有挑战性的现实世界数据集，CityCount，它是从著名的街道场景数据集Cityscapes [9]派生出来的城市计数数据集包括来自城市景观图像的各种作物，其中包含来自重要类别，汽车和人的特定数量的对象。该数据集包括各种具有挑战性的场景，如多样化和复杂的背景，对象遮挡，不同的对象比例和场景几何形状。来自CityCount数据集的样本和我们模型生成的样本如图1所示。在第二行实验中，我们表明MC2-StyleGAN 2生成的图像可用于增强图像的真实感。计数器预测网络训练数据的大小和质量作品，在CLEVR和CityCount的图像上训练。2. 相关工作生成对抗网络（GANs）- GANs [17]已经迅速发展成为生成各种照片级逼真图像的最有前途的趋势。深度卷积GAN（DCGAN）[39]首次证明了卷积神经网络在这种背景下的潜力大量的研究致力于提高GANs的训练稳定性[18，26，33]并开发更先进的架构[5，28，40]。基于显式信息的条件化GAN（CGAN）首先由Mirza等人引入。[32]。从那时起，已经提出了各种方法来提高GAN的可控性这些中的许多需要广泛的附加信息，诸如类别标签和/或自然语言描述，例如，用于文本到图像或文本到视频生成的图像字幕[4，20，32，41]。调节GAN的其他变体包括GAN的信息理论扩展（InfoGAN）[7]，辅助分类器GAN（ACGAN）[37]，双辅助分类器GAN（TACGAN）[16]和基于投影的调节方法[35]。ACGAN扩展了GAN的损失函数，并使用辅助分类器生成图像。TACGAN进一步改善了分歧通过与生成器和鉴别器两者交互的附加网络，在ACGAN的真实数据分布和生成数据分布之间进行比较。在基于投影的方法[34]中，通过考虑条件变量和图像特征向量的内积，ContraGANs [25]引入了一种条件对比损失来学习输入图像之间的关系SpatialGAN [20]提出了一种使用对象的边界框注释和类标签以及图像标题进行多重调节的方法，以根据对象身份，大小，位置和数量控制图像布局。在他们的方法中，对象边界框在测试时提供，因此不需要学习计数的想法。在[11]中，作者提出了一种变分U-Net架构，以根据形状或外观来调节图像生成。还提出了各种方法来控制GAN在应用中的图像生成过程，例如图像到图像转换[23，51]或属性转移[19，31]。我们的工作与ACGAN有关，重点是使用回归的多类计数问题。基于[26]中介绍的高分辨率架构，StyleGAN [28]采用基于自适应实例归一化[22]的特征图重新加权，以便于在多个潜在空间上操作图像，编码不同的风格属性。StyleGAN2 [29]改进了StyleGAN，避免了一些特征生成工件。最近，提出了一种新技术[27]，即使在训练数据有限的情况下，也可以使用StyleGAN2实现最先进的结果。虽然这些方法允许例如在给定样式上对图像内容进行隐式调节，但是它们不能够操纵所生成的图像的显式属性，诸如每个对象类的所生成的对象实例的数量我们提出的模型引入了对StyleGAN2的扩展，从而促进了这种显式调节。计数方法-对图像中的对象进行计数的一种方式是首先使用对象检测网络对它们进行定位和分类，然后对所有找到的实例进行计数。虽然这种方法是有效的，但它还需要额外的类标记的边界框或对象原型信息[6，13，45]。使这些方法适应条件图像生成将需要附加信息，诸如在训练期间感兴趣对象的预定义位置。其他方法依赖于递归神经网络架构和注意力机制[42，43，49]。因此，它们不能很容易地应用于我们的问题设置。基于密度估计的计数方法[12]表明，学习计数可以在没有事先检测的情况下实现，并且在严重遮挡的情况下更可靠。已经提出了多种方法来计算图像中的对象实例，例如在视觉问题回答的上下文中[3，30，47]。在[1]中，Agarwal等人建议6764潜伏Z[2 1]y假WFCFCFC正常化FCFC∼NLL LL真实图像真/假发电机/ 综合网络伪造图像计数网络权重共享StyleGAN 2-鉴别器[2 1]y真/y假真/假TOR对应于不同的对象类，并且每个索引处的值表示来自相应对象类的对象的数量。我们的模型的生成部分包括将潜在向量和计数约束的组合映射到中间潜在向量w的映射网络和生成器/合成网络，以生成如图2所示的图像。对于映射网络的第一层，我们提供随机采样噪声和我们的多类计数向量的组合，该组合指定输出图像中需要哪些对象以及每个对象的数量计数向量也连接到映射网络中的每一层，如图2所示。在生成器网络中，我们引入了稠密的跳跃连接图2：MC2-StyleGAN 2架构：生成器的输入是多类计数向量，其中每个索引向量的值对应于每个对象类，并且每个索引处的值表示对应对象类的多重性。在给定的CityCount示例中，计数向量[2，1]分别对应于2辆汽车和1个人通过使用裁剪和修补来修改对象ARIGAN [15]利用条件DCGAN来生成给定叶子数量的植物的图像在本文中，我们试图引导图像生成过程中，仅通过调节的图像中的预定义类的对象的数量，而一个合理的空间布局是从训练数据分布推断。而不是解决单个对象类计数，如[44，46]所示，其中卷积或递归神经网络用于计数数字出现，我们的方法专注于在生成过程中对多个类的对象实例进行计数。我们通过将额外的回归网络集成到鉴别器来引入对Style-GAN 2架构的扩展，以便于基于每个类的对象数量生成图像。基于[8]中的发现，我们的网络在生成器架构中采用密集块来缓解计数约束的传播以及计数网络的回归损失。3. 多类别计数条件图像生成在本节中，我们将介绍针对基于多类计数的图像生成提出的StyleGAN 2扩展MC2-StyleGAN 2。3.1. MC2-StyleGAN2我们借用了StyleGAN2的生成器和鉴别器的架构规范，并为我们的应用程序扩展了模型。生成器的输入是多类计数向量，其中，向量的每个索引都是多其中来自每个块的输出连接到其后续块。如图2所示，真实/生成的图像通过两个路径，（1）将输入图像分类为真实/虚假的对抗路径，以及（2）计数回归路径，以预测输入图像中的对象类别及其多样性。两个子网络之间的权重共享使鉴别器规则化，并减少训练期间的存储器消耗。3.2. 计数损失生成器G使用潜在噪声分布z和（0，1）和多类计数向量c=[cl，c2，. . . ，Cn]，其表示n个不同的对象类和它们各自的重数ci，i =，. . . ，n，以生成伪图像x_fake= G（z，c）。鉴别器D旨在区分这些假图像和真实图像X真实。我们将数据分布表示为x pdata（x）。训练附加计数子网络C以预测每类对象计数，对于fake图像为y_fak，对于真实图像为y_real。网络的对抗目标表示为LGAN（G，D）=Expdata（x）[logD（x）]+Ezpz（z）[log（1−D（G（z|（c）]。（一）多类计数损失 MC2 被定义为真实图像的预测计数y_real=C（x_real）与真实计数c之间的欧几里得距离，以及预测计数y_fak_e=C（x_fak_e）与生成图像的计数条件的值之间的距离。LMC2（C）=||C（x）−c||二、（二）因此，计数损失迫使生成器生成具有期望数量的对象实例的图像。因此，网络的总损失是匹配真实图像与假图像的分布的对抗性损失和强制网络基于指定的输入计数生成图像的计数损失我们的方法的总体目标函数是，MC2−StyleGAN2（G，D）=GAN（G，D）+λMC2（C），（三）映射网络6765××××方法CLEVR-3SVHN-2CityCount加速度（↑）FID（↓）加速度（↑）FID（↓）加速度（↑）FID（↓）SNGAN0的情况。61四十三680的情况。72四十七340的情况。5555. 85ContraGAN 0的情况。68二十七岁440的情况。7821岁120的情况。59四十九62CStyleGAN2 0的情况。6531岁950的情况。8019号。420的情况。61十三岁89我们0.928.940.9310.900.788.33表1：跨数据集的定量分析。*对于城市计数，我们使用具有自适应鉴别器增强的StyleGAN2。[27日]其中λ控制计数目标的重要性。实现细节模型通过以下方式进行训练该模型学习在空间上将对象放置在合理的位置，尽管没有提供对象边界框注释。此外，对于计数预测分析，我们考虑了模型中计数子网络的性能我们观察到CLEVR-2和CLEVR-3的平均计数准确度分别为96%和92%（对CLEVR-2和CLEVR-3计数预测的更详细分析见附录）。对于CLEVR-3，观察到的计数预测准确度相对低于CLEVR-2，可能是由于两个原因，（1）由于图像中的大量对象（每个图像最多九个对象），图像分布非常复杂，以及（2）图像中的对象通常显著重叠。大小为64 64的SVHN图像，128128CLEVR图像和256256CityCount图像。使用的所有超参数见附录。4. 实验分析在下文中，我们在三种不同的设置中评估我们的模型。我们定量地评估（1）模型在平均计数准确度（Acc）方面预测多类计数的能力，以及（2）在Fre'chetInception Distance（FID）方面基于学习的计数生成的我们的方法（MC2-StyleGAN 2）与现有技术条件GAN（如SNGAN [34]，ContragAN [25]和ConditonalStyleGAN 2 [29]）的定量结果在表1中给出。4.1. Clevr实验的目的是分析模型生成复杂的3D对象和布局的能力。众所周知的CLEVR数据集包括不同颜色的不同3D形状、圆柱体、立方体和球体的图像。对于我们的实验，我们基于CLEVR数据集的实现为每个计数组合生成总共2000个图像[24]。我们考虑了CLEVR图像的两种变体，（1）具有两种形状（圆柱体和球体）的CLEVR-2，以及每个图像中每种形状的至多六个实例，以及（2）具有三种形状（圆柱体、球体和立方体）的CLEVR-3，以及每个图像中每种形状的至多三个实例。对于我们的第一行实验，我们考虑一个简单的设置，其中我们限制相同类别的形状具有相同的颜色（红色圆柱体，绿色球体和蓝色立方体）。图3a中所示的生成的图像示出了所提出的模型基于学习的对象计数来学习生成图像为了进一步评估，我们扩展了实验设置，并考虑不同颜色的CLEVR形状。如图3b和3c所示，即使在形状颜色不提供附加信息的更复杂的设置中，模型也捕获计数信息的相关性。还可以观察到插值和外推我们进一步研究的能力，模型之间的计数组合插值和外推到看不见的计数组合从一个对象类到另一个。对于插值实验，我们在CLEVR-2图像的一个子集上训练我们的模型，该子集不包含四个球体的图像和CLEVR-3的一个子集，该子集不包含两个圆柱体的图像，而在测试时，我们在这些图像上评估回归网络。测试期间未观察计数的观察计数准确度值为0。94和0。91为CLEVR-2和CLEVR-3。这表明该模型有可能将CLEVR-2上的学习计数4从圆柱体转移到球体，并将CLEVR-3图像上的学习计数2从球体和立方体转移到圆柱体类。对于外推实验，我们使用CLEVR-2图像（最多3个球体）训练网络，并在图4中的测试时间根据计数准确度和FID绘制成功率，以生成4、5和6个球体。在这里，基线模型使用球体和圆柱体的图像进行训练，直到计数6。观察到的外推性能与基线方法相当。这进一步证实了网络不仅仅是记忆计数。4.2. SVHN在本节中，我们考虑来自街景门牌号（SVHN）数据集上的噪声训练数据的真实世界图像[36]。该数据集包括从街景图像裁剪的门牌号。对于我们的实验，我们认为，对大小调整为64 - 64像素的原始图像和每个计数组合的1500个样本的总数。我们严格限制自己的SVHN图像，每个数字类（SVHN-2）最多有两个实例，因为具有三个或更多数字的图像计数标签是规定图像中每个数字的多重性的10个条目所生成的图像在图3d中示出。我们观察到平均计数预测准确度为93%，计数1的个体准确度为91%，计数2的个体准确度为90%（对计数1和计数2的更详细分析）。6766[3 2] real [3 3 2][2 3 1](a) CLEVR-2和CLEVR-3（简单）-计数向量对应于圆柱体、球体和立方体的数量[1 5][2 4](b) CLEVR-2-计数矢量对应于圆柱体和球体的数量。[3 3 2][2 1 3][2 2 1](c) CLEVR-3-计数向量对应于圆柱体、球体和立方体的数量。[0 0 1 1 0 0 0 0 0 0][0 1 0 0 0 0 1 0 0 0][0 0 0 0 0 0 0 0 2][0 0 0 0 0 0 0 2 0 0](d) SVHN-2-计数向量对应于每位计数。实数[5 0]实数[0 3]实数[3 0]实数[1 1][1 2]第四届全国政协委员(e) 城市计数-计数向量对应于汽车和人数。为了便于可视化，在感兴趣的对象周围绘制框。图3：针对数据集的不同计数组合生成的MC26767FID基线（所有计数）Accc基线（所有计数）FID外推ACC外推×1.00.80.60.40.2014121086421 2 3 4 5 60计数骑手在路上。由于这种额外的空间约束没有明确指定，这使得我们的数据集更有趣和具有挑战性的评估所提出的方法。最重要的是，用于生成训练数据的边界框在训练期间没有提供给模型。评估为了考虑到训练图像的数量有限，我们使用自适应鉴别器增强技术[27]来训练我们的模型。真实的样品图4：基于FID和平均计数准确度（Acc）的球体上的CLEVR-2虚线指示外推性能。SVHN上的计数预测在附录中提供我们经常注意到原始数据集中的错误标签，这可能会影响计数标签和预测准确性。4.3. CityCount160并且在图3e中示出了具有它们各自的计数矢量的生成的图像。大小为2的每个计数向量表示汽车和人的数量。为了便于可视化，在感兴趣的对象周围绘制框。该模型生成的图像具有不同的背景和良好定义的人和汽车类放置在空间上合理的位置。如图3e中的1辆汽车和2个人组合的生成样本所示，可以看到放置在道路上的人连同自行车，而第二个人站在人行道上。该模型学习区分行人和骑手类别，即使在训练集中没有明确的定义。1401201008060402000 1 2 3 4 5预测2001501005000 1 2 3 4 5 6预测我们分别在图5a和图5b中评估针对汽车和人类别的计数子网络的预测性能在这里，我们将生成的样本上的预测计数值与在测试时间期间提供给生成器网络的真实计数进行比较。由于在训练集的许多样本中，人仅部分可见，并且经常失焦或分辨率低，因此我们观察到一个复杂的(a) 汽车(b) 人士对于人员类，计数性能相对较差。为较高的计数，4或5，相对较低的性能是预处理的。图5：CityCount生成图像的计数性能。该图显示了从我们的模型生成的样本的汽车和人类的预测计数值。数据集为了在复杂的现实世界场景上评估我们的方法CityCount中的图像是通过裁剪256 256大小的块来收集的，其中具有来自Cityscapes的限定数量的汽车和人。该数据集包含的图像最多有五个实例来自这些类中的每一个，每个对象类计数组合大约有1000个图像。为了给我们的数据集配备额外的计数信息，我们从Cityscapes-3D [14]和CityPerson数据集[50]的汽车和人的2D边界框信息中确定每个图像中每个类别的对象数量。为了允许训练集中的人的更多样化的外观，当对图像中的人的数量进行计数时，将Cityscapes图像中的包括行人、坐着的人和骑手的类别视为正样本。这进一步增加了CityCount数据集在空间布置方面的复杂性，因为网络必须推断出人的合理位置，如人行道上的行人和行人。总的来说是由于训练样本的数量较少以及相应计数的严重阻塞。4.4. 消融我们对合成数据集CLEVR和真实数据集CityCount进行了消融研究，以验证额外计数损失、发生器设计、鉴别器中的权重共享和调节方法的重要性。计数损失我们在没有计数回归网络的情况下训练我们的模型，并用计数标签来调节生成器和鉴别器我们架构的其余部分保持不变。观察到的值（表2中的无计数损失）示出了去除计数损失实质上降低了计数预测和图像质量两者的性能。生成器架构我们考虑StyleGAN2中引入的两种不同的一个使用输出跳过连接，第二个使用剩余连接。如表2（残差和输出跳过生成器）所示，我们提出的密集类连接在计数预测和图像质量方面实现了整体良好的性能。0 1 2 3 4 50 1 2 3 4 5精度出现次数FID出现次数6768方法数据集CLEVR-2CLEVR-3CityCount加速度（↑）FID（↓）加速度（↑）FID（↓）加速度（↑）FID（↓）无计数损失0的情况。78十八岁670的情况。80三十340的情况。5120块24w/o鉴别器权重共享0的情况。91三十三岁。420的情况。8431岁030的情况。69十五岁78无标签映射0的情况。9011个国家。010的情况。8511个国家。320的情况。598. 84残差产生器0的情况。948. 280.9311个国家。940的情况。6511个国家。72输出跳跃发生器0的情况。948. 620的情况。928. 980的情况。7210个。71MC2-StyleGAN 2（我们的）0.957.980的情况。928.940.788.33表2：基于平均计数准确度（Acc）和Fre´ chet起始距离（FID）的数据集消融研究。该表显示了在我们的方法中所提出的架构选择的有效性。在鉴别器中的权重共享我们计算我们的模型的评估度量，而不需要在计数子网络和鉴别器之间进行权重表3中的观察值（w/o鉴别器权重共享）表明，模型无法正确生成对象计数这证实了权重共享对规则化计数信息并通知鉴别者的积极影响。Generator中的计数条件最后，我们考虑计数向量不连接到生成器中映射网络中的表3中的结果（w/o标记映射）显示在该设置中预测这证实了使用基于计数向量的映射网络在训练期间有效传播多类计数的益处5. 与其他方法我们比较了其他条件 GAN 变体 CGAN [32] 、InfoGAN [7]、AC-GAN [37]和TACGAN [16]的定量性能，用于CLEVR和SVHN图像上的多类计数。为了有一个公平的比较，我们的方法与这些有条件的GAN变量，蚂蚁，我们使用一个不太进化的网络架构，在我们提出的模型。我们称之为我们的方法， MC2-SimpleGAN的简化版本。MC2-SimpleGAN生成器将随机采样噪声和多类计数向量的组合作为输入。生成器架构受Densenet架构[21]的启发，包括两个密集块（其中每个层的输出以前馈方式连接到其后续层），然后是两个完全连接的层。鉴别器包括基于卷积的对抗网络和具有权重共享的计数回归网络。有关更多架构细节，请参阅附录。初始结果（表3中的行1到3）指示所考虑的条件GAN模型在图像质量和FID两者方面都表现不佳。我们甚至观察到模式崩溃CGAN。于是，我们就把它替换掉了。6769使用基于Densenet的生成器来改进这些模型的tor架构，以提高性能（表3中的第4至6行）。虽然我们可以大大提高这些模型的初始性能（这显示了所提出的基于 Densenet 的生成器的积极影响），但 MC2-SimpleGAN在设想的设置中明显优于其他方法此外，所生成的图像的质量与所提出的MC2-StyleGAN 2的改进6. 使用合成图像我们进一步证明了MC2-StyleGAN 2生成的图像用于训练计数预测网络的可用性。特别是，我们使用一个多类扩展的基于回归的架构类似的鉴别器的MC2-SimpleGAN。该网络旨在预测对应输入图像的每个对象类的对象数量。我们设计了两个实验，在这种情况下，使用CLEVR和CityCount图像。由于CityCount图像中的每个实例的质量相对较低，因此我们还考虑称为CityCar的CityCount的子集，其仅包括汽车类。该模型的平均计数精度被认为是评估指标。在第一个实验中，我们评估了在训练过程中与真实图像结合时，生成的图像是否可以提高计数性能对于基线比较，计数预测网络最初仅用真实图像训练（表4中的第一行）。然后用真实图像和增强真实图像的组合来训练网络（表4中的第二行）。然后将观察到的计数准确度与用真实图像和生成的图像训练时的网络性能进行比较（表4中的第三行）。为了公平比较，我们考虑相同数量的增强图像和合成图像。如表4所示，对于CLEVR和CityCar图像，真实图像和合成图像的组合（Real+Syn）改善了基线设置（仅Real）以及真实图像和增强图像的组合对于CityCount，观察到Real+Aug和Real+Syn的计数性能相似。6770方法数据集CLEVSVHN-2加速度（↑）FID（↓）加速度（↑）FID（↓）加速度（↑）FID（↓）CGAN0的情况。31119 230的情况。39一百八十六130的情况。39一百七十80InfoGAN0的情况。37101 450的情况。40一百三十五360的情况。43151. 98sACGAN0的情况。38九十九。880的情况。40一百三十二230的情况。41一百五十56塔甘0的情况。4092. 040的情况。42一百二十110的情况。45138. 29CGAN（我们的）0的情况。3888岁790的情况。45一百五十二560的情况。55九十34InfoGAN（ourG）0的情况。4075. 230的情况。44一百一十二340的情况。5582岁13ACGAN（我们的）0的情况。4155. 240的情况。4291. 020的情况。58七十28TACGAN（我们的）0的情况。44四十九010的情况。4787岁640的情况。61六十五77MC2-SimpleGAN（我们的）0.9047.950.8985.480.9257.52MC2-StyleGAN 2（我们的）0.957.980.928.940.9310.90表3：基于平均计数准确度（Acc）和Fre'chet起始距离（FID）的跨数据集与其他方法的比较下划线值表示所提出的方法在简单（MC2-SimpleGAN）上的性能，并且粗体值表示具有复杂架构（MC2-StyleGAN 2）的性能。训练数据加速度（↑）ClevrCityCount市车仅限实数0的情况。810的情况。680的情况。77真实+8月0的情况。810.710的情况。78Real + Syn（我们的）0.860.710.80表4：不同训练数据设置的数据集的平均计数准确度。训练数据加速度（↑）ClevrCityCount市车仅限实数0的情况。810.680的情况。75仅Syn（我们的）0的情况。400的情况。300的情况。39仅25%真实0.650.410.5925%真实+75% Syn（我们的）0.670.450.62仅50%真实0.760.560.6950%真实+50% Syn（我们的）0.810.600.7575%真实0.770.650.7475%真实+25% Syn（我们的）0.830.680.76表5：当计数预测网络以各种比例用真实和生成的图像（Syn）训练时，数据集的平均计数准确度在第二个实验中，我们研究了生成的图像在训练过程中替代真实图像的潜力，而不会影响计数准确性性能。我们考虑在不同的环境下用真实图像和合成图像的组合来训练网络的6771比率。最初，仅用真实图像训练网络，然后仅用合成图像训练网络。我们逐渐取代真实图像与合成图像在各种比例和评估的计数性能为每个设置，丁如表5所示。对于每个设置的基线比较，我们考虑了当仅用真实图像的对应比率（仅在表5中的x% Real）训练时网络的计数准确度如表5所示，50%的真实图像可以被生成的图像替换，而不会损害CLEVR和CityCar图像的总体计数性能。合成图像还可以提高网络的整体计数性能，同时取代CLEVR和CityCar图像的25%的真实图像。对于CityCount图像，25%的真实图像可以被生成的图像替换，而不会影响整体计数性能。7. 结论在本文中，我们研究了GAN根据图像中不同类别的对象数量来指导图像生成过程虽然计数的任务对于深度学习方法通常非常具有挑战性，但我们提出的我们的实验表明，在图像中的对象的numeros- ity提供了强大的信息regarding他们的可区分性在特征学习，因此允许控制的图像生成过程。我们的评估进一步表明，该模型能够插入和外推到特定类别的不可见计数。即使不提供诸如图像中的对象的位置之类的附加信息，网络也仅使用计数信息从训练数据分布推断对象的合理空间布局和实现6772引用[1] V. Agarwal 、 Rakshith Shetty 和 M. 弗里茨关于因果VQA：通过不变和协变的语义编辑来揭示和减少虚假的相关性。2020年IEEE/CVF计算机视觉和模式识别会议（CVPR），第9687-9695页2[2] Namrata Anand和Possu Huang。蛋白质结构的生成建模。In S. Bengio，H. Wallach，H. 拉罗谢尔K.格劳曼Cesa-Bianchi和R. Garnett，编辑，神经信息处理系统进展31，第7494-7505页。Curran Associates，Inc.2018. 1[3] S. Antol，A. Agrawal，J. Lu，M.米切尔，D。巴特拉角L. zitnick和D.帕里克 Vqa：可视化问答。在2015年IEEE国际计算机视觉（ICCV），第2425-2433页2[4] Yogesh Balaji ， Martin Min ， Bing Bai ， RamaChellappa，and Hans Graf.用于文本到视频合成的具有判别滤波器生成的第19952[5] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。在国际会议上学习表示（ICLR），2018年。2[6] A. B. Chan，Zhang-Sheng John Liang，and N.瓦斯康斯洛斯。隐私保护人群监测：无需人员模型或跟踪即可计算人数。2008年IEEE计算机视觉和模式识别会议，第1-7页2[7] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。在NIPS，2016年。二、七[8] 陈玉华，施峰，安东尼G.周正伟，谢义斌，李德彪.使用生成对抗网络和3d多级密集连接网络实现高效准确的mri超分辨率。在MICCAI，2018年。3[9] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在proc IEEE计算机视觉与模式识别会议（CVPR），2016年。2[10] S.德阿纳数字感：思想如何创造数学牛津大学出版社，2011年。1[11] PatrickEsse r，EkaterinaSutte r，andB joürnOmme r. 一个用于条件外观和形状生成的变量u-网。2018年IEEE/CVF计算机视觉和模式识别会议，第8857-8866页2[12] L.菲亚斯基科特河Nair和F. A.汉普雷希特学习使用回归森林和结构化标签进行计数。在第21届模式识别国际会议（ICPR 2012）的会议记录中，第2685-2688页2[13] 作者：Victor S.放大图片作者：Paul R.放大图片作者：Andrew Zisserman，J.艾莉森·诺布尔和鲍里斯·沃伊诺维奇学习计数细胞：应用于大视场的无透镜成像。2011. 2[14] NilsG¨hlert ， NicolasJourdan ， MariusCordts ， UweFranke，and Joachim Denzler.Cityscapes 3d：9自由度车辆检测的数据集和CoRR，abs/2006.07864，2020。6[15] Mario Valerio Giuffrida、Hanno Scharr和Sotirios A.Tsaf-taris. Arigan：使用生成对抗网络合成拟南芥植物。在2017年IEEE国际计算机视觉研讨会（ICCVW），第2064- 2071页3[16] Mingming Gong ， Yanwu Xu ， Chunyuan Li ， KunZhang，and Kayhan Batmanghelich.双辅助分类器gan。神经信息处理系统的进展，32：1328-1337，12 2019。二、七[17] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。在第27届神经信息处理系统国际会议论文集-第2卷，NIPSCambridge，MA，USA，2014.麻省理工学院出版社. 2[18] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统进展（NeurIPS），第5767-5777页，2017年2[19] Z.他，W。左，M. Kan，S. Shan和X.尘属性编辑只改变你想要的 . IEEETransactions on Image Processing ， 28（11）：5464 2[20] Tobias Hinz，Stefan Heinrich，and Stefan Wermter.在空间上不同的位置生成多个对象。在2019年国际学习代表会议上。2[21] G. Huang，Z.柳湖，加-地Van Der Maaten和K.Q. 温伯格密集连接的卷积网络。2017年IEEE计算机视觉和模式识别会议（CVPR），第2261-2269页7[22] Xun Huang和Serge Belongie。任意风格的实时传输与自适应实例规范化。在IEEE国际计算机视觉会议（ICCV）的论文集，2017。2[23] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A.埃夫罗斯使用条件对抗网络的图像到图像翻译。2017年IEEE计算机视觉和模式识别会议（CVPR），第59672[24] 李飞飞，李文 Zitnick 和 Ross Girshick Clevr ： Adiagnostic dataset for composite language and elementaryvisual reasoning.（英语：Clevr：Adiagnostic dataset forcomposite language and elementary第1988-1997页，2017年。二、四[25] 姜敏谷和朴载植Contragan：用于条件图像生成的对比学习。arXiv：计算机视觉与模式识别，2020。二、四[26] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。2[27] Tero Karras ， Miika Aittala ， Janne Hellsten ， SamuliLaine，Jaakko Lehtinen，and Timo Aila.用有限的数据训练生成式对抗网络在proc 神经IPS，2020年。二、四、六[28] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在6773IEEE计算机视觉与模式识别会议（CVPR），2019年。2

下载后可阅读完整内容，剩余1页未读，立即下载