没有合适的资源?快使用搜索试试~ 我知道了~
1基于全景的图像合成Aysegul Dundar Karan Sapra Guilin Liu Andrew Tao Bryan Catanzaro NVIDIACorporation全景图基线我们的基线放大我们的放大了图1.与以前依赖语义和边界标签地图来合成图像的方法不同,我们的模型使用全景图。即使在多个实例相互遮挡的混乱场景中,它也能生成分离清晰的实例第四列和第五列显示了从第二列和第三列图像放大的补丁,以突出实例之间的边界,其中先前的方法倾向于将实例混合在一起。摘要用于生成光真实感图像的条件图像合成服务于用于内容编辑到内容生成的各种应用。以往的条件图像合成算法大多依赖于语义映射,在多个实例相互遮挡的复杂环境中往往会失败。我们提出了一个全景感知的图像合成网络,以生成高保真度和真实感的图像条件下的全景地图,统一的语义和实例信息。为了实现这一点,我们在卷积和上采样层中有效地使用全景图。我们表明,随着对生成器的拟议更改,我们可以通过在复杂的实例交互环境中以更高的保真度和更详细的微小对象生成图像来改进以前的最先进的方法此外,我们提出的方法也优于在 平 均 IoU ( Intersection over Union ) 和 detAP(Detection Average Precision)指标中的先前最先进的方法。1. 介绍图像合成是指生成多样化和照片般逼真的图像的任务,其中一个流行的子类别称为条件图像合成,输出以某些输入数据为条件的图像。最近,深度神经网络在条件图像合成方面取得了成功[11,4,32,38,39,37,1],其中一个条件输入是语义分割图。扩展这一概念,在本文中,我们感兴趣的是在全景地图的指导下生成照片般真实的图像。全景映射统一了语义映射和实例映射.具体地说,80708071它们提供关于可计数类的对象实例的信息,可计数类被称为“事物”,例如人、动物和汽车。此外,它们还包含关于无定形区域和重复模式或纹理(如草、天空和墙壁)的类的语义信息。这些类被称为我们感兴趣的全景地图,因为语义地图不提供足够的信息来合成“事物”(实例),特别是在复杂的环境中 , 其 中 多 个 相 互 作 用 。 即 使 是 最 先 进 的 基 线(SPADE [23]),当对象较小且实例部分包含时,将边界映射输入这个问题可以在图1中观察到,在从一个斑马延伸到另一个斑马的连续图案中。这是传统卷积和上采样算法独立于类和实例边界的结果。为了解决这个问题,我们将生成器中的卷积层和上采样层替换为Panoptic aware卷积层和Panoptic aware上采样层。我们将这种形式的图像合成称为基于全景的图像合成。 我们评估我们的建议,年龄发生器在两个不同的和具有挑战性的数据集:[5]和COCO-Stuff [2]。我们证明,我们能够有效和准确地使用全景图来生成更高保真度的图像,并改进以前方法使用的评估指标[4,32,23]。我们的主要贡献可概括如下:1. 我们建议使用Panoptic感知卷积,该卷积基于条件图像生成设置中的Panoptic映射重新加权卷积。类似的机制以前已经用于其他任务[15,7],具有二进制掩模和学习的软掩模,但不用于具有多类全景掩模的图像合成。2. 我们提出了全景感知上采样,解决了上采样的低分辨率特征和高分辨率全景图之间的不对准。这确保了语义和实例细节不会丢失,并且我们还在生成的图像和全景图之间保持了更高的准确性对齐。3. 我们证明,使用我们提出的网络体系结构,我们不仅看到更逼真的图像,但我们也观察到显着的改善,在城市景观和COCO- Stuff数据集上的对象检测分数时2. 相关工作生成对抗网络(GANs)[6]通过对自然图像失真进行建模来执行图像合成从自然图像中提取和合成新的样本。这是通过使用一个生成器和一个神经网络来实现的,它们都试图在零和游戏中优化一个相反的目标函数。许多条件图像合成作品使用GAN来生成逼真的图像,我们的作品也是如此。有条件的图像合成可以根据要调节的不同类型的输入而变化。例如,输入可以是文本[25,38,34,9],自然和合成的IM。年龄[13,41,17,42,10,40,14],或无人监督的地标[18,12,28]举几个例子。最近,[24,4,11]使用语义映射,[32,23]使用语义映射和边界映射作为生成器的输入,其中边界映射从实例映射中获得。如果边界元图中的像素的对象身份不同于其4个相邻像素中的任何一个,则将其设置为1,这种方法不能保留实例映射中包含的全部信息,尤其是属于同一实例的像素可以由多个边界分开。内容感知卷积。已经有许多工作学习基于注意力机制对卷积激活进行加权[37,33,35,7]。这些机制在特征图上操作以在做出决定时捕获彼此相关的空间位置在另一种研究中,不应该对输出有贡献的空间位置可以通过二进制掩码提供给我们,例如在图像修补的情况下,填充图像中的孔的任务在这个任务中,[16,30]使用部分卷积,使得给定一个带有孔和有效像素的二进制掩码我们的卷积层类似于图像修复中使用的卷积层,而不是具有孔的掩模,我们有全景图,因此我们知道实例的卷积结果不应该依赖于另一个实例或属于不同语义类的像素我们没有给出二进制掩码,但我们根据全景图有效地生成它们。内容感知上采样。最近邻和双线性插值是深度学习应用中最常用的上采样方法。这些方法使用基于像素坐标的相对位置的手工算法。人们对学习语义分割[22,29]以及图像和视频超分辨率[27]任务的上采样权重也很感兴趣。最近,[19,31]提出了特征引导的上采样算法。这些方法对特征图进行操作以编码内容,并且基于内容对特征进行上采样。在我们的方法中,类似于全景感知卷积层中的想法,我们利用高分辨率全景图来解决上采样特征图和全景图中的未对准。807216x1632 x32-上采样1)上采样校正32x32原创特征图上采样w最近邻上采样的基于W\2)新出现的实例/类的填充B一部分卷积全景图缩放补丁遮罩(M)图2.全景感知部分卷积层采用全景图(为可视化而着色),并基于每个滑动窗口的中心生成二进制掩码M。与窗口中心具有相同标识的像素被分配1,其他像素被分配0。3. 方法在本节中,我们首先详细介绍Panoptic aware卷积和Panoptic aware上采样层。然后,我们描述了整个网络架构。3.1. 全景感知卷积层我 们 将 使 用 panoptic 映 射 的 部 分 卷 积 操 作 称 为Panoptic感知部分卷积层,它与其他使用部分卷积进行不同任务的工作共享基本原理[7,15]。设W为卷积滤波器权重,b为相应的偏置。X是特征值,P是当前卷积(滑动)窗口的全景图值,M是当前卷积(滑动)窗口的全景图值。B一一一BB一一BB上采样w\最近邻特征地图32x32全景图32x32语义地图基于实例的上采样特征图二进制掩码。M定义哪些像素将基于全景图对卷积操作的输出做出贡献。与全景图中的中心像素共享相同标识的像素坐标在掩模中被分配1这表示为:.1、如果P(i,j)==P(中心,中心)图3.全景感知上采样模块概述16×1632×32全景图是从原始256×256全景图下采样的最近邻全景图。采用最近邻上采样算法对16×16全景图进行上采样,得到32×32全景图。比较32×32上采样和32×32原始图,我们可以观察到两个问题:1)空间未对准和2)新类或实例的出现。作为如图(上)所示,首先,我们通过复制属于该像素的相邻像素的特征向量来m(i,j)=(一)0,否则同样的全景镜头此操作与最近邻上采样不同,最近邻上采样总是复制左上角这可以通过首先从补丁中减去中心像素并将绝对值裁剪为(0,1),然后从1中减去裁剪的输出以反转0和1来实现。图2描绘了掩模M的构造。每个位置处的部分卷积表示为:.功能.其次,如图(底部)所示,我们通过使用Panoptic感知卷积层对语义映射中的新特征进行编码来解析新语义或实例类刚刚出现的像素。如[15]中的有效输入的变化量对于等式2,实例或填充物的卷积结果仅取决于x′=WT(X<$M)sum(1)总和(M)+b,如果sum(M)>0(二)属于相同实例或内容的特征值。0,否则其中m表示逐元素乘法,1与M具有相同的形状,但所有元素都是1。缩放因子sum(1)/ sum(M)应用归一化以考虑3.2. 全景感知上采样层我们提出了一个全景感知上采样层作为替代传统的上采样层时,更高分辨率的全景地图是可用的,在这种情况下,100110111011011011一一BB一一BB一一BB一一一B一一BB一-BB80735.0M=1i、jM=1i、jM=1i、jM=1i,j(i,j)504040.2未对齐的标签新出现的标签算法1上采样对齐校正。初始化:M校正= 0,F′u= 0,对于i∈[0,2W);j∈[0,2H),32.030ui、j福Di/2,j/ 2=Fd然后i,ji/2,j/ 220.9201012.27.3校正i,j结束if结束for对于i∈[0,2W);j∈[0,2H),04x8毫米8x16毫米16x32双32x640.464x128像素128x256像素ui,j福di/2+1,j/2=FdM纠正!= 1,则i,ji//2+1,j//28x1616x3232x6464x128128x256256x512校正i,j图4.使用upsam错误映射要素的百分比通过不同的网络层。结束if结束for对于i∈[0,2W);j∈[0,2H),内容生成任务的年龄合成。最近邻ui,j福di/2,j/2+1=FdM纠正!= 1,则i,ji//2,j// 2+1上采样是一种流行的传统上采样选择,如[1,23,32,23]所使用的条件图像合成任务然而,最近邻上采样算法是手工制作的复制。例如,在2×2upsam中,校正i,j结束if结束for对于i∈[0,2W);j∈[0,2H),最邻近算法将复制在一个2×2的窗口中,左上角的相邻像素ui、j福Di//2+1,j//2+1=FdM纠正!= 1,则i,ji//2+1,j// 2+1这产生了两个问题,如图3所示。首先,它可能在高分辨率全景图和上采样特征之间产生空间未对准。图3-top示出了这个问题,其中实例idB的特征被复制并且不正确地用于实例idA,遵循传统的上采样方法。在图3中,为了清楚起见,我们展示了上采样全景图中的未对准,但我们只对特征图中的对准感兴趣。我们将用于修复该未对准的操作称为“上采样对准”校正。其次,如图3底部所示,高分辨率全景图可以包含可能不存在于较低分辨率全景图中的新类别和实例。这意味着需要在上采样特征图中生成和替换新特征我们把这种操作称为图4描述了上述两个问题在Cityscapes数据集的网络中不同层发生的频率。如图所示,特别是在早期层中,新生成的像素特征中超过30%的像素特征与全景图不对齐,并且属于新实例或语义图的许多像素首次以新比例出现。为了解决这两个问题,Panoptic感知上采样层执行两步过程:上采样对齐校正和孔填充,如图3所示。设S为语义图,F为要上采样的特征。校正i,j结束if结束for地图,F′u,以及我们将生成的更高比例的全景和语义地图,Pu和Su,以及掩模Mcorrection的指导。为了纠正2×2上采样层中的错位,我们扫描每个像素的四个相邻像素在2×2窗口中,如果我们找到对应的pix-ELS该方法在算法中描述1.一、注意,如果循环中没有if状态,则第一个for循环将 对 应 于 最 近 邻 上 采 样 算 法 。 我 们 还 更 新 掩 码M_corr_i_n,以跟踪哪些索引已被成功对齐。在随后的for循环中,对于尚未对齐的索引,我们检查是否有任何其他邻居与它们匹配全景身份。在算法1之后,我们以部分填充的上采样特征图F′u和定义哪些坐标找到匹配的Mcorrectionmask结束之后,我们通过以下公式计算最终的F′u我们对2×2上采样感兴趣,因为它是最好的乌(i,j)乌(i,j)+图像合成方法使用的上采样比例令Pd是下采样的全景掩模。我们对上采样Fd感兴趣,以生成上采样特征(1−Mcorrecttion)fholefilling(Su )联系我们孔填充3.01.60.84.70.1如果P==P如果P==P如果P==P如果P==PF=F8074我们通过 将语义图 (Su ) 作为输 入并将全景 图(Pu)作为指导,使用全景感知卷积层生成f孔填充。我们使用语义图对K×2W×2H语义图中的特征进行编码,其中K是高维的类别数 C×2W×2H与此层。f孔填充=全景感知卷积(Su)(3)使用Panoptic感知上采样层,为特定实例或语义映射定制的特征不会复制到另一个实例或语义映射,这提高了生成图像的准确性。3.3. 网络架构我们最终提出的架构,由SPADE [23]驱动,如图5所示。与SPADE类似,我们将下采样的分割图馈送到生成器的第一 控制感知卷积层,用于对#Classes×W×H语义映射到更高维度1024×W×H。在网络的其余部分,我们将ResNet块中的所有卷积层替换为Panoptic感知卷积层和所有具有Panoptic感知上采样层的上采样层。 每个块都以不同的尺度运行,我们对语义和全景图进行下采样,以匹配特征的尺度。SPADE模块的输入被保存为学习反规范化参数的语义映射。全景图不适合这种计算,因为卷积运算需要固定数量的通道。因此,我们依靠SPADE为网络提供基于语义类的正确特征统计数据。我们将全景图馈送到全景感知卷积层,以便基于实例和类执行卷积操作。原始全分辨率全景图和语义图也被馈送到全景感知上采样层,以执行上采样对准校正和孔填充。该 架 构 的 第 一 层 中 的 全 景 感 知 卷 积 层 将 来 自#Classes×W×H语义映射的特征编码为更高维度的编码特征,该全景感知卷积层在网络的其余部分中的全景感知上采样层之间共享。 当数字-部分卷积层从第一层产生的通道的BER与在不同块处的预期BER不匹配,我们用1×1卷积层来降低维度。这一层在图5中用绿色框表示。请注意,图中多次显示了绿色框但是它们在阶段之间共享通过共享权重,我们不会向基线引入额外的参数,除了1×1卷积的成本可以忽略不计。共享这些权重也是有意义的,因为这一层的任务在每个阶段都是通用的,即为在该阶段首次出现的实例和语义类生成特征。4. 实验数据集。我们在Cityscapes [5]和COCO-Stuff [2]数据集上进行了实验,这些数据集具有实例和语义分割标签。Cityscapes数据集包含3,000张城市街道场景的训练图像和500张验证图像,以及35个语义类和9个实例类。合成图像时使用所有类,但只有19个类用于Cityscapes评估基准定义的语义评估。COCO-Stuff数据集包含来自室内和室外场景的118,000张训练图像和5,000张验证图像。该数据集有182个语义类和81个实例类。实施详情。我们使用SPADE基线提供的参数[23]。具体来说,我们使用同步批量归一化以跨GPU收集统计数据,并将 SpectralNorm [20]应用于生成器和GPU中的所有层。 我们训练并生成256 ×256COCO-Stuff分辨率为256×512,Cityscapes分辨率为256×512数 据 集 。 我 们 在 Cityscapes 数 据 集 上 训 练 了 200 个epoch,批量大小为16,并且在100个epoch之后线性衰减学习速率,如[23]所做的那样。COCO-Stuff数据集被训练了100个epoch,批量大小为48,学习率恒定初始学习率设置为0。0001和0。0004分别用于生成器和控制器,并使用β1=0和β2= 0的ADAM求解器训练网络。999绩效指标。我们采用评估指标作为先前的条件图像合成工作[23,32]加上添加用于检测成功生成的对象实例的另一度量。前两个度量,平均交集超过并集(mIoU)和整体像素精度(精度),通过推断合成图像上的最先进的语义分割模型,并比较预测的分割掩码与地面实况语义图的匹配 程 度 来 获 得 。 此 外 , 我 们 使 用 检 测 平 均 精 度(detAP)通过使用训练的对象检测网络来评估合成图像上的实例检测精度。我们使用[23]中使用的相同分割网络进行评估。具体来说,我们使用DeepLabV 2 [3,21]用于COCO-Stuff,DRN-D-105 [36]用于Cityscapes数据集。为了检测,我们使用Faster-RCNN [26]和ResNet-50主干。除了mIoU,准确性和detAP性能指标外,我们还使用Fre'chetInceptionDistance(FID)[8]来测量合成结果分布与真实图像分布之间的距离。基线。 我们将我们的方法与三种流行的图像合成框架进行比较,即:级联细化网络(CRN)[4],半参数图像合成8075全景感知卷积层(在级之间共享)特征图全景图语义地图语义地图全景图黑桃ReLU3x3Panop。conv黑桃ReLU3x3Panop。convResNet块图5.在我们的生成器中,每个ResNet Block层都使用分割和全景遮罩来调制层激活。(左)生成器包含一系列具有Panoptic感知卷积和上采样层的残差块。(右)残差块的结构。表1.城市景观的结果。我们的方法在detAP,mIoU和整体像素精度方面优于当前领先的方法。SPADE* 由我们训练。(SIMS)[24]和空间自适应反规范化模型(SPADE)[23]。CRN使用具有给定语义标签映射的深度网络,它在没有对抗性训练的情况下重复地从低分辨率到高分辨率细化输出。SIMS使用从图像训练集构建的图像片段的存储库,并通过深度网络细化边界。SIMS和CRN都只能在地震地图上运行。SPADE是当前最先进的条件图像合成方法,它不仅使用语义映射,而且通过边界映射合并实例信息。如果边界图中的像素的对象标识不同于其4个相邻像素中的任何一个,则该像素为1,否则为0。这种方法不能提供完整的实例信息,特别是在许多对象相互遮挡我们在Cityscapes数据集上与SIMS进行了比较,但在COCO-stuff数据集上没有进行比较,因为SIMS需要对训练集图像进行查询,并且对于COCO-stuff数据集等大型数据集来说,计算成本很高。定量结果。在表1和表2中,我们分别提供了Cityscapes和COCO-Stuff数据集我们发现,我们的方法在两个数据集中的对象检测分数、mIoU和像素级准确度方面都优于当前最先进的方法。表4报告了Cityscapes数据集中每个类的mIoU。我们改进了-目前 在 detAP 、 mIoU 和 整 体 像 素 精 度 方 面 领 先 的 方 法 。SPADE* 由我们训练。大部分的班级都有意义。特别是,我们提出的方法提高了交通标志的mIoU从44。七到五十。0,这是一个具有挑战性的类,因为标志的尺寸很小。我们观察到我们的FID评分与发布的SPADE模型以及我们使用[23]提供的参数训练的SPADEFID分数试图匹配真实图像和生成图像之间的差异/差异,而不关心与条件语义图和实例图的对应性。我们的结果有更好的对应关系的底层语义和实例映射。虽然这是所期望的行为,但结果可能会受到人类注释偏差的影响我们怀疑,这种注释偏见(例如,直线偏差、过度简化的多边形形状偏差)可能恶化方差的匹配。还要注意,SIMS产生的图像具有比其他方法显著更低的FID分数,即使它实现了更差的detAP和mIoU分数。这是因为SIMS从训练数据集复制图像块,并且有时复制的块不忠实地匹配给定的分割掩模。这个问题在de-tAP评分中变得更加明显,因为SIMS在补丁上复制,而没有确保汽车的数量与全景图一致。定性比较。 在图6和图7中,我们提供了图像合成结果,我们的方法和其他竞争全景感知上采样ResNet块全景感知上采样ResNet块全景感知上采样ResNet块全景感知上采样ResNet块方法detAPMiou精度FID方法detAPMiou精度FIDCRN [4]8.7552.477.1104.7CRN [4]22.723.740.470.4SIMS [24]2.6047.275.549.7SPADE [23]28.537.467.922.6SPADE [23]11.6762.381.971.8SPADE*29.038.268.625.3SPADE*11.8062.281.994.0我们31.038.669.028.8我们13.4364.882.496.4Table 2。结果可可的东西。我们方法输出形式8076方法路swalkbuild.壁围栏极特莱特特西格veg.陆地天空人骑手车卡车总线火车姆比凯自行车CRN [4]96.979.576.729.010.634.839.844.368.454.491.963.039.787.825.056.231.814.552.2SIMS [24]93.366.173.633.134.530.327.239.573.446.256.642.931.070.335.842.537.320.343.1SPADE [23]97.480.087.950.647.235.939.044.788.266.191.662.338.788.765.070.241.428.658.8我们97.782.589.260.654.235.339.850.089.569.092.463.238.290.666.772.248.831.259.1表3.Cityscapes上的每类mIoU结果[24]第二十三话:我的世界图6.Cityscapes数据集上图像合成结果的视觉比较我们还提供了边界框检测预测来自Faster-RCNN。第一行图像中的汽车被柱子遮挡,这给图像合成方法带来了挑战CRN生成的汽车可以被Faster-RCNN检测到,但视觉上看起来不那么令人愉快。SIMS松散地遵循所提供的语义映射,并且SPADE生成的汽车没有足够的独特性,无法被Faster-RCNN检测到。在第三行中,在图像右侧生成的汽车对仅使用语义地图的算法提出了挑战,如CRN和SIMS的图像中所示,CRN生成两辆汽车,SIMS生成四辆汽车,而应该存在三辆汽车。由于SPADE中使用的边界地图,它可以生成正确的汽车数量。然而,我们提出的方法在生成正确数量的汽车实例的同时,也生成了更多可以以更高准确度检测到的人的实例。方法.我们还提供了Faster-RCNN的边界框检测预测。我们特别提供了多个实例相互遮挡的示例。我们发现,我们的方法产生的实例具有更好的视觉质量,在具有挑战性的情况下。具体来说,我们发现我们的方法即使在电线杆后面也能生成不同的汽车,即使在很远的地方也能生成可检测的人,如图6所示。如图7所示,我们发现其他方法可能会混合相邻实例中对象的模式和纹理,而我们的方法则会将它们明确分离。消融研究。我们进行受控实验,并逐步添加我们提出的组件。我们从基线SPADE模型开始[23]。我们训练模型三次,并报告平均结果。 首先,我们将ResNet块中的卷积和第一层替换为全景感知卷积层。第二,我们另外用全景图像替换最近邻上采样层表4. Cityscapes数据集上的消融研究。结果是3次运行的平均值,与表1中的结果略有不同。感知上采样层。每个设置生成的图像的分割mIoU评分和detAP评分如表4所示,其中每个添加的模块都提高了性能。5. 结论总之,我们提出了一种基于全景的图像合成网络,它可以生成对底层分割和实例信息具有更高保真度的图像。方法mIoU detAP基线(SPADE)60.00 10.97+全景感知部分转换61.24 11.50+全景感知上采样64.55 13.048077[23]第二十三届中国国际纺织品展览会图7.COCO-stuff数据集上图像合成结果的视觉比较我们还显示边界框检测预测来自Faster-RCNN。其他方法生成的模式在整个实例中是连续的,这使得实例无法区分。还要注意,在最后一行中,我们的方法能够在混乱的场景中产生可检测的汽车实例。我们表明,我们的方法是更好地在具有挑战性的场景中生成不同的实例,并优于先进的detAP指标,该指标尚未被用来评估条件图像合成结果之前显着。未来的工作。多模态图像合成和样式的可控制性对于内容生成应用非常重要。我们实验中的架构不支持样式引导的图像合成。然而,我们的工作可以扩展到通过编码器输出多种风格pix2pixHD中提出的解码器架构[32]。此外,所提出的全景感知卷积和上采样层可以用于解码样式的特征图,并且可以提供进一步的改进。我们把它作为未来的工作。引用[1] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练8078姐在2019年国际学习代表会议(ICLR)上。1、4[2] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可 可 - 东西:上下文中的事物和东西类。 在IEEE计算机视觉和模式识别会议论文集,第1209-1218页,2018年。二、五[3] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence(TPAMI),40(4):8345[4] Qifeng Chen和Vladlen Koltun。用级联细化网络进行摄影图像合成。在IEEE计算机视觉国际会议论文集,第1511-1520页,2017年。一、二、五、六、七、八[5] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition,pages 3213二、五[6] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第26722[7] Adam W Harley,Konstantinos G Derpanis,and IasonasKokkinos.使用局部注意掩码的分段感知卷积网络。在IEEE国际计算机视觉会议(ICCV),第2卷,第7页,2017年。二、三[8] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。 通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。在神经信息处理系统,2017年。5[9] Seunhoon Hong,Dingdong Yang,Jongwook Choi,andHonglak Lee.推理语义布局的分层文本到图像合成。在IEEE计算机视觉和模式识别会议,2018。2[10] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz.多模态无监督图像到图像翻译。欧洲计算机视觉会议(ECCV),2018年。2[11] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议(CVPR),2017。一、二[12] Tomas Jakab 、 Ankush Gupta 、 Hakan Bilen 和 AndreaVedaldi。通过条件图像生成的对象地标的无监督学习在神经信息处理系统的进展,2018年。2[13] Levent Karacan , Zeynep Akata , Aykut Erdem , andErkut Erdem.学习从属性和语义布局生成户外场景的图像。arXiv预印本arXiv:1612.00215,2016。2[14] Levent Karacan 、Zeynep Akata 、 Aykut Erdem 和 ErkutErdem。通过幻觉操纵自然场景的属性arXiv预印本arXiv:1808.07413,2018。2[15] Guilin Liu,Fitsum A Reda,Kevin J Shih,Ting-ChunWang,Andrew Tao,and Bryan Catanzaro.使用部分卷积的 不规 则孔 图像 修复 。在欧洲 计算 机视 觉会 议(ECCV)的会议记录中,第85-100页,2018年。二、三[16] 刘桂林,Kevin J.放大图片作者:Shih,Wang Ting-Chun , Fitsum A.Reda , Karan Sapra , Zhiding Yu ,Andrew Tao,and Bryan Catan-zaro.基于部分卷积的填充,2018年。2[17] Ming-Yu Liu,Thomas Breuel,and Jan Kautz.无监督图像到图像翻译网络。在神经信息处理系统的进展,2017年。2[18] Domini kLorenz , LeonardBereska , TimoMilbich ,andBjo? rnOmmer.对象形状和外观的无监督的基于部分的解开。在CVPR,2019年。2[19] 大卫·马志尼用于实时语义分割的引导上采样网络。arXiv预印本arXiv:1807.07466,2018。2[20] Takeru Miyato,Toshiki Kataoka,Masanori Koyama,and Yuichi Yoshida.生成式对抗网络的谱归一化。arXiv预印本arXiv:1802.05957,2018。5[21] 桐人中岛Deeplab-pytorch。https://github.com/kazuto1011/deeplab-pytorch ,2018年。5[22] Hyeonwoo Noh Seunghoon Hong和Bohyung Han。用于语义分割的学习反卷积网络IEEE国际计算机视觉会议(ICCV)2015年12月。2[23] Taesung Park , Ming-Yu Liu , Ting-Chun Wang , Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在IEEE计算机视觉和模式识别会议论文集,第2337-2346页二、四、五、六、七、八[24] Xiaojuan Qi , Qifeng Chen , Jiaya Jia , and VladlenKoltun.半参数图像合成。在IEEE计算机视觉和模式识别会议论文集,第8808-8816页,2018年。二六七[25] Scott Reed , Zeynep Akata , Xinchen Yan , LajanugenLo- geswaran,Bernt Schiele,and Honglak Lee.生成对抗性文本到图像合成。在2016年的国际机器学习会议(ICML)上2[26] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。神经信息处理系统的进展,第91-99页,2015年。5[27] WenzheShi,JoseCaballero,FerencHusza'r,JohannesTotz,Andrew P Aitken,Rob Bishop,Daniel Rueckert,and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在IEEE计算机视觉和模式识别会议,2016年。2[28] Kevin J Shih,Aysegul Dundar,Animesh Garg,RobertPot- torf,Andrew Tao,and Bryan Catanzaro.无监督地标的视频arXiv预印本arXiv:1909.02749,2019。2[29] Hang Su,Varun Jampani,Deqing Sun,Orazio Gallo,Erik Learned-Miller,and Jan Kautz.像素自适应卷积8079神经网络。在IEEE计算机视觉和模式识别会议论文集,第111662[30] Jonas Uhrig , Nick Schneider , Lukas Schneider , UweFranke,Thomas Brox,and Andreas Geiger.稀疏不变cnn。arXiv预印本arXiv:1708.06500,2017年。2[31] Jiaqi Wang , Kai Chen , Rui Xu , Ziwei Liu , ChenChange Loy , and Dahua Lin.Carafe : Content-awarereassembly of fea- tures,2019. 2[32] Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,AndrewTao,Jan Kautz,and Bryan Catanzaro.用条件gans实现高分辨率图像在IEEE计算机视觉和模式识别会议论文集,第8798-8807页,2018年。一、二、四、五、八[33] 王晓龙,Ross Girshick,Abhinav Gupta,和Kaiming He.非局部神经网络。在IEEE计算机视觉和模式识别会议集,第7794-7803页,2018年。2[34] Tao Xu , Pengchuan Zhang , Quyuan Huang , HanZhang , Zhean , Xiaeli Huang , and Xiaodong He.Attngan:使用注意力生成对抗网络生成细粒度文本到图像。在IEEE计算机视觉和模式识别会议(CVPR),2018年。2[35] Zichao Yang,Xiaodong He,Jianfeng Gao,Li Deng,and Alex Smola.用于图像问答的堆叠注意力网络。在IEEE计算机视觉和模式识别会议论文集,第21-29页,2016年。2[36] Fisher Yu,Vladlen Koltun,and Thomas Funkhouser.扩张的剩余网络。在IEEE计算机视觉和模式识别会议(CVPR),2017。5[37] Han Zhang , Ian Goodfellow , Dimitris Metaxas , andAugus- tus Odena.自我注意生成对抗网络。arXiv预印本arXiv:1805.08318,2018。一、二[38] Han Zhang,Tao Xu,Hongsheng Li,Shaoting Zhang,XiaoleiHuang , XiaogangWang , andDimitrisMetaxas.Stackgan:使用堆叠的生成对抗网络进行文本到 照 片 般 逼 真 的 图 像 合 成 。 IEEEInternationalConference on Computer Vision ( ICCV ) , 2017 年 。一、二[39] 张涵,徐涛,李洪生,张少庭,王晓刚,黄晓蕾,和Dimitris Metaxas. stack-gan ++:使用堆叠生成式对抗网络 进 行 真 实 图 像 合 成 IEEE Transactions on PatternAnalysis and Machine Intelligence(TPAMI),2018年。1[40] Bo Zhao,Lili Meng,Weidong Yin,and Leonid Sigal.从布局生成图像。在IE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功