基于表面引导GANs的全身匿名化

115 浏览量更新于2023-10-16 收藏 1.92MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1基于表面引导GANs的真实全身匿名挪威科学技术hakon. ntnu.no原始图像表面检测多样性分析匿名化图1：我们的模型通过首先检测与CSE的像素到表面的对应关系来执行野外匿名化[41]，然后Surface-Guided GAN单独匿名每个人。图像来源：COCO [32]摘要最近关于图像匿名化的工作表明，生成对抗网络（GAN）可以生成近乎照片般真实的人脸来匿名化个人。然而，将这些网络扩展到整个人体仍然是一项具有挑战性且尚未解决的任务。我们提出了一种新的匿名化方法，生成现实的人在野外的图像。我们设计的一个关键部分是通过图像和规范3D表面之间的密集像素到表面的对应来引导对抗网络。我们引入变分表面自适应调制（V-SAM），嵌入整个发生器的表面信息。结合我们新颖的表面监督损失，生成器可以在复杂和变化的场景中合成具有不同外观的高质量人类。我们证明，表面指导显着提高图像质量和多样性的样品，产生一个非常实用的发电机。最后，我们证明了我们的方法在收集图像数据集用于训练计算机视觉模型时保留了数据的可用性，而不会侵犯隐私。源代码和附录可从以下网址获得：github.com/hukkelas/full身体匿名化1. 介绍隐私法规构成了使用公开拍摄的图像数据进行培训的重大障碍，计算机视觉算法最近的工作反映了生成对抗网络（GAN）[21，35，50]可以真实地匿名化面部，其中匿名数据集的表现与未来计算机视觉发展的原始数据集相似。然而，这些方法[21，35，50]仅关注面部匿名化，留下几个主要识别符（例如，耳[23]）和软标识符（例如，（性别）在人体上不受影响。生成对抗网络在许多领域都擅长合成高分辨率图像，包括人类[27]。尽管取得了这一成功，但之前关于全身生成建模的工作主要集中在简化的任务上，例如运动转移[6]、姿势转移[3，31]、服装交换[16]或使用场景的已知3D结构渲染身体[55]。这些方法不直接应用于野外匿名化，因为它们不处理后台的变化。据我们所知，我们的工作是第一个在不简化任务的情况下解决将人类合成为野外图像的任务（例如，具有要传送的源纹理、场景的已知3D结构，或者假定为静态背景）1.我们的贡献解决了未探索和艰巨的任务，全身匿名化的野生图像。我们的目标是确保匿名个人的隐私;因此，我们提出的匿名化任务作为一个图像修复问题。将匿名化建模为图像-[1]尽管如此，我们注意到CIAGAN [35]消除了他们的低分辨率人体合成方法。14301431绘画比以往的人与人的合成方法，依赖于一个来源的身体纹理或原来的身份，有更强的隐私保障。在这项工作中，我们提出了表面引导GAN，它使用连续表面嵌入（CSE）[41]来引导具有像素到表面对应关系的生成器。CSE的紧凑、高保真和连续表示在合成人体方面表现出色，因为它允许简单的建模选择，而不影响细粒度的细节。我们表明，表面引导显著提高了图像质量，而当前最先进的GAN在没有它的情况下难以生成人物我们将我们的贡献总结为三点。首先，为了有效地利用强大的CSE表示，我们提出了变分曲面自适应调制（V-SAM）。V-SAM将生成器的输入潜在空间这允许生成器直接将变化的潜在因素映射到相关的表面位置（例如，将“红衬衫”与上身联系起来，显式解纠缠表示是V-SAM所独有的，与先前的空间不变[27，62]和空间自适应调制[43]相比，其显著改善了潜在解纠缠和图像保真度。其次，我们提出了鉴别器表面监督，激励鉴别器学习像素到表面的对应关系。识别器的表面感知为发生器提供了更高保真的反馈，从而显著提高了图像质量。事实上，我们发现，来自VSAM的表面感知反馈是V-SAM学习的强大表示的关键因素，其中类似的基于语义的监督[48]产生次优结果。第三，我们提出了一种新的全身匿名化框架，产生接近真实感的图像。我们证明了表面引导匿名化显著改善了传统方法（例如，在数据可用性和隐私方面。例如，对于Mask R-CNN [17]实例分割，像素化使人的平均精度降低了14.4相比之下，表面引导匿名化仅产生2.8的降级。2. 相关工作图像的匿名化简单的匿名化方法，应用简单的图像失真（例如，模糊）不足以去除隐私敏感信息[14，39]，并且严重扭曲数据。最近的工作反映了深度生成模型可以通过修复[2，21，35，50，51]或变换原始图像[10]来真实地匿名化面部。这些方法表明，保留原始数据分布对于未来的计算机视觉发展（例如，评价人脸识别[21]。然而，先前的工作集中在面部匿名化，留下几个主要和次要标识符未触及。一些方法匿名化整个身体[4，35]，但这些方法仅限于低分辨率图像[35]或生成具有视觉伪影的图像[4]。条件图像合成条件图像合成的当前最新技术一种新兴的方法是通过自适应调制（也称为自适应归一化[19]）将条件信息引入发生器。已知这对于无条件合成[27]、语义合成[43]和风格转移[19]是有效的。自适应调制通过逐层移位和缩放生成器的特征图来调节生成器，其中移位和缩放参数相对于条件是自适应的。与现有的语义调制方法[43，52，53]相比，V-SAM根据密集的表面信息调节调制参数，并生成全局调制参数，而不是独立的逐层参数。条件调制适用于人类合成，其中现有方法适用于空间不变[36，46]或空间变化调制[1，59]。然而，这些方法以源外观为条件，与V-SAM相比，产生更软的隐私保证。人类合成用于人物图像生成的现有工作通常集中在使用用户引导的输入重新合成人类，例如以新颖的姿势[3，31]、使用不同的服装[16]或使用新的运动[6]渲染人最近的工作[7，13，30，40，47]采用密集像素到表面的对应关系，其形式为密集姿态UV贴图[15]。这些方法“填充”UV纹理贴图，然后在新的相机视图[7]或姿势[13，30，40，47]中渲染人物。相比之下，CSE是一种更紧凑的表示，并且连续表示简化了建模复杂性（例如，DensePose的下采样并不简单），并消除了处理边界的需要。在其他情况下，目标是重建3D表面和纹理[38，45，55]，可以在给定相机视图的情况下渲染到场景[55]。有限数量的工作集中在没有源图像的人类合成上，其中Ma等人。[34]将背景、姿势和人物风格映射到高斯变量中，从而能够合成新人物。这些方法都不此外，它们都没有考虑场景中的背景变化建模，这是野外匿名化的挑战。1432NⓈ我我我∈∈我我我图2：（a）CSE检测器[41]预测表示为连续位置嵌入的像素到表面的对应关系。为了简单起见，我们展示了一个人的管道，但多人检测是通过裁剪每个人来完成的（见图1）。（b）映射网络（f ω）变换表面位置和潜在变量（z（0，1））进入中间表面自适应潜在空间（ωi）（3.1节，3.2节）。然后，wi在每次卷积之后用逐像素调制和归一化来控制生成器。（c）我们的FPN-SVM预测表面嵌入并优化表面回归损失（LCSE，第3.3节）以及对抗损失（LGAN）。3. 方法我们将匿名化任务描述为修复任务。生成器的目的是对图像中的缺失区域进行补绘，其中对于缺失像素，Mi=0，否则Mi= 1。对于每个丢失的像素，表面嵌入ei∈R16（CSE检测器的输出[41]）表示像素i在规范3D表面S上的位置（即，在“T形”人体上的位置）。表面S用27K个顶点离散化，其中每个顶点具有从CSE检测器获得的位置嵌入ek[41]。由此，像素到顶点的对应关系是从ei和ek2之间的欧几里得最近邻搜索中找到的。图2显示了总体架构。3.1. 表面自适应调制受语义自适应模型有效性的启发，[43]，我们引入表面自适应调制（SAM）。SAM针对图像和固定3D表面之间的密集像素到表面的对应关系对卷积特征图进行归一化和调制给定连续位置嵌入ei，非线性映射fω将ei变换为中间表面自适应表示ωi;（a）n=0（b）n=2（c）n=4（d）n=6（e）SPADE图3：SAM的γ范数的可视化，其中fω有n层（a-d），（e）显示SPADE [43]有26个语义区域。请注意，SAM学习更多的细粒度细节（例如，[43]第一个是指其头部或手指的放大特征图xA;SAM（xA，γA）=γA·xA，（2）其中每个像素i独立地由γA调制。请注意，我们遵循StyleGAN2设计[28]，在卷积之前进行调制，之后进行归一化。全局映射网络（fω）将平滑表面嵌入适配成语义上有意义的表面自适应样式，其不一定是平滑的。因为在-ωi=.fω（ei）如果Mi=0，（1）在这种情况下，这使得生成器能够学习具有明确定义的语义边界的部分连续样式（例如，是─ωM，否则其中，ωiRD和ωMRD是不对应于表面的所有像素的像素无关学习参数（对于所有实验，D=512给定ωi，一个学习的仿射运算将ωi转换为逐层的2寻找像素到顶点的对应关系并不是严格必要的。然而，用最接近的ek替换回归嵌入ei禁止生成器直接观察从原始图像回归的嵌入这可以减轻通过CSE嵌入的身份泄露。匿名化（a）侦查（b）发电机（c）FPN-Discriminator输入图像Conv 3x3CSE检测器规范V-SAMFCFCFCFCFC足球俱乐部1433两件衣服）。我们观察到，更深的映射网络学习更高保真的风格（图3），这提高了图像质量（见4.1节）。与之前基于语义的调制不同[43，52，53]，SAM使用更密集，更丰富的表示，擅长人类合成。基于语义的调制学习空间不变（但语义可变）的风格[53]，如图3所示。这些空间不变的参数是有效的自然图像合成，但trans-late差的高度细粒度的任务的人物形象合成。相比之下，SAM学习语义详细1434我Σ风格独立于预定义的语义区域。3.2. 变分表面自适应调制SAM的一个关键限制是合成体的外观取决于其空间位置。通常，图像到图像生成器通过级联或添加噪声将潜在代码（z）直接输入到2D特征图。然而，这将潜在代码与空间特征图纠缠在一起，使得生成的人的外观取决于图像中的位置。我们没有将z输入到2D特征映射中，而是将SAM扩展为将映射网络限制在z上;ωi=fω（ei，z）。现在，fω将潜在变量z转换为- 表面自适应中间潜在空间（ω），其被调制到空间特征图上。这种天真的延伸-SAM的作用允许生成器直接关联变化的潜在因素（例如，衬衫的颜色）到身体上的特定位置。注意，V-SAM的变分调制与图像中身体的空间位置无关，因为γA仅由（z，ei）确定。这使得V-SAM能够将身体不变量的风格调制为图像旋转和平移，从而提高生成器独立于其空间位置3合成同一个人的能力。自适应调制是文献中用于无条件调制[19，27]和有条件调制[43，62]的既定技术。然而，V-SAM的设计比当前的方法更有表现力，并且隐变量对与空间位置无关的表面位置的显式自适应是V-SAM所独有的。V-SAM的朴素设计源于CSE的简单表示，其中基于其他表示的同等表达调制技术（例如，密集姿态或语义地图）需要更多的工程努力。例如，当前基于变分语义的调制[52，66]不会直接转换为人类合成4，并且V-SAM生成的样式具有更高的保真度。此外，与先前的方法相比，V-SAM的表达性显著提高了质量和解缠，我们在第4.2节中进行了实验验证。3.3. 鉴别器表面监控通过教导它预测条件信息（而不是输入它）来监督训练器，已知可以提高图像质量和训练稳定性[42，48]。我们提出了一个类似的目标表面嵌入。我们将表面嵌入预测公式化为回归任务。我们用一个FPN来扩展这个函数3请注意，旋转不变性不保留在生成器中，因为生成器本身不是旋转不变的。然而，使用StyleGAN 3-R [26]调整V-SAM会产生表面引导的旋转不变生成器。4例。适应[52，66]身体部位需要类特定的潜在变量，这些变量必须在相关区域头，其针对每个像素输出连续嵌入;是的。与广告对象ive一起，广告优化平滑L1损失的掩蔽版本[11];LCSE（e，e）=（1−Mi）n-smoothL1（ei，ei）.（三）i∈h，w类似地，生成器目标被扩展为相对于所生成的图像具有回归损失。与原始的CSE损失[41]不同，我们的目标更简单，因为我们假设预先学习的固定嵌入e鉴别器表面监督明确鼓励鉴别器学习像素到表面的对应关系。这产生了一个向发生器提供高度详细的梯度信号的放大器，这大大提高了图像质量。与基于语义的监督[48]相比，表面监督提供了更高保真的反馈，而不依赖于预定义的语义区域。最后，我们发现额外预测3.4. Anchorization Pipeline我们提出的匿名化框架包括两个阶段。最初，基于CSE的[41]检测器计算人类的位置，包括2D图像和固定的3D人体表面之间给定检测到的人体，我们将覆盖人体的像素归零，并使用生成模型完成部分图像。请注意，从CSE [41]生成的遮罩不覆盖人体“外部”的区域我们扩展EQ。（1）具有用于扩张区域的附加像素无关学习参数（类似于ωM），以确保已知区域和未知扩张区域之间的平滑过渡（没有表面嵌入）。4. 实验我们在第4.1节中验证了我们的设计选择，并在第4.2节中将V-SAM与替代方法进行了比较。第4.3节在DeepFashion [33]数据集上进行消融，用于场景无关的人类合成。最后，第4.4节评估了匿名化对未来计算机视觉发展的影响附录C和D包括进一步评价。架构细节我们遵循StyleGAN 2 [28]的实现来进行训练设置。发电机一个U-Net [44]，以前适用于图像到图像的翻译[22]，并且该转换器类似于StyleGAN 2的转换器。生成器对每个卷积使用实例归一化，仅对标准差（即，1435×原始SPADE B D，n=0 D E图4：表1中不同模型迭代的合成图像。附录D包括随机示例。平均值不用于归一化）。潜在变量（z）被线性投影并连接到生成器的解码器的输入，除非它是通过调制输入的基线除颤器和发生器的参数分别为8.5M和7.4M。我们使用非饱和对抗性损失[12]，带有惩罚[24]和r1-正则化[37]。我们用M来屏蔽r1-正则化，类似于[57，20]。COCO-Body的数据扩充包括几何变换和颜色变换。否则，我们保持训练设置简单，没有特征匹配损失[54]或路径长度正则化[28]。我们将ωi和fω中的全连接层的维数设置为512，并且在fω中使用6层，除非另有说明。附录A包括更多细节。我们在两个数据集上验证了我们的方法; COCO数据集的衍生版本[32]（名为COCO- Body）用于全身匿名化，DeepFashion [33]用于静态场景合成。我们将开源这两个数据集的CSE注释。COCO-Body包含来自COCO的裁剪图像[32]，其中每个图像的中心都有一个（a）（b）（c）（d）（e）图5：配置E多样性合成。(a)是输入，（b）是具有截断（t=0）的生成图像，以及（c-e）是没有截断的。附录D包括随机示例。形象每个图像都有自动注释的CSE嵌入和一个布尔掩码，指示要替换的区域。注意，每个掩码从原始CSE嵌入被扩大，使得掩码覆盖身体的所有部分该数据集包含43，053张训练图像和10，777张验证图像，分辨率为288×160。更多详情请参见附录B。DeepFashion-CSE包括来自DeepFashion [33]的店内服装检索基准的图像，其中我们用CSE嵌入注释了每个图像。它有40，625个训练图像和10，275个验证图像，其中每个图像都经过下采样，384 256.数据集在注释中包含一些错误，因为没有进行注释验证。评估细节我们遵循一般建模的典型评估实践。我们报告了Fre'chet起始距离（FID）[18]、学习感知图像块相似性（LPIPS）[61]、LPIPS多样性[65]和感知路径长度（PPL）[27]。通过为每个验证样本生成6个图像，发现FID、LPIPS和LPIPS多样性，其中··1436LⓈ8±××方法仿射平移↑转换旋转↑Hflip↑配置B23.120.321.7B + SPADE [43]22.519.820.7B + INADE [52]24.120.220.9B + CLADE [53]22.920.121.3B + StyleGAN [28]25.520.921.6[62]第六十二话24.520.621.6B + SAM23.820.721.4B + V-SAM26.121.422.5多样性↑质量FID ↓城市PPL↓面部FID↓0.1405.819.09.10.1505.920.69.70.1405.819.59.40.1385.716.98.90.1555.748.29.40.1545.517.58.00.1435.619.27.40.1665.213.77.4表1：表面引导到基线的迭代添加。* CSE被应用于G和D，其中G通过与图像方法LPIPS↓FID↓PPL↓多样性↑A：基线0.2377.426.70.162B：A +LCSE*0.2205.819.00.140C：B + SAM0.2195.619.20.143D：B + V-SAM0.2205.213.70.166E：D +较大D/G0.2114.815.10.161表2：在映射网络（fω）中具有不同层数（n）的配置D所有其他实验使用6层。fωdepth（n）面部FID↓FID↓PPL↓07.75.424.928.05.419.747.95.519.867.45.213.7报告的LPIPS是平均值。此外，我们通过评估面部区域的FID来报告面部质量（参见Ap-pennsylvaniaA）。附录C包括每个模型的所有指标4.1. 表面引导GAN我们迭代地开发基线架构，以引入表面制导。表1（和图4）反映出，增加了表面监控（配置B）和表面调制（配置C/D），大大提高了图像质量。注意，自适应调制仅适用于解码器中的卷积层。配置E将发生器和除颤器的模型尺寸分别增加到33 M和34 M参数。最终生成器生成高质量和多样化的结果（图5）。此外，条件中间潜在空间ω服从与Style-GAN [27]的潜在空间类似的技术，例如。截断技巧[5]和潜在插值（在附录C中删除）。图5包括具有潜在截断的生成图像。映射网络深度更深的映射网络允许生成器学习更细粒度的调制参数，我们发现这可以显着改善图像质量和潜在的解纠缠（表2）。从质量上讲，我们观察到这显著提高了细粒度区域的质量（例如，手指和手指（见图4）。我们通过上采样人脸区域的FID（Face FID）定量验证了这一改进此外，更深的映射网络允许生成器更好地解开由PPL反射的潜在空间5。改进的解缠是基于[5]继Karraset al. [27]“解纠缠的表3：V-SAM与替代自适应归一化方法的比较所有方法均应用于配置B之上两种设计选择;首先，SAM明确地将姿态的变化分解为表面自适应调制。其次，V-SAM允许发生器通过将固定分布z“解扭曲”为表面条件分布ω来更容易地控制与空间图像分离的人体的特定区域仿射不变性研究V-SAM对仿射图像平面变换是不变的，因此，提高了生成器从这种变换中分离潜在表示的能力。我们用峰值信噪比（PSNR）定量评估这一点，如下[60]，EI，M，E，tTPSNR[t（G（I<$，E）），G（t（I<$），t（E））]，（4）其中I<$= I M，E是CSE嵌入，G是生成器，T是垂直/水平图像偏移的分布。T被限制为平移图像宽度/高度的最大值1类似地，我们评估旋转不变性（限制为90μ m）和水平翻转。V-SAM显著改善了基线w.r.t.不变的对于仿射变换（表3），V-SAM是这种变换的不变量。相比之下，SAM的得分与基线相似仿射不变性的方面对于现实匿名化是重要的，因为检测可以引起跨帧的轻微移位。计算复杂度V-SAM包括两个阶段，映射网络和逐层线性变换。每个逐层变换有效地实现为11卷积。映射网络是全连接层的序列，其可以通过针对每个像素i使用空间嵌入映射ei来实现为11然而，在实践中，我们为每个嵌入ei找到最近的顶点嵌入ek，并将27K个顶点嵌入转换为wk。这导致独立于图像分辨率的映射网络。4.2. V-SAM的表达性我们现在分析V-SAM的表现力相比，完善的调制技术。具体来说，我们比较了自适应实例规范化，1437表4：COCO验证集上的实例分割掩码AP结果来自于在不同的匿名数据集上评估的来自detectron 2 [56]的预训练的Mask R-CNN [17] R50-FPN-3x。验证数据集AP50：95↑AP50↑AP75↑APs↑APm↑APl↑AP人员↑原始37.258.639.918.639.553.347.7面罩拔刀32.852.035.116.334.647.327.58×8像素32.851.835.216.434.647.233.316×16像素33.453.035.716.735.048.138.4我们34.655.037.017.136.850.044.9图6：V-SAM可以通过简单地对相同的潜在变量z进行采样来在姿势之间传输属性。每行显示具有相同潜在变量但不同输入姿态的合成图像StyleGAN 2 [28]、共调制（CoMod）[62]和基于语义的变分[52]/非变分[43，53]方法。所有方法都应用于配置B之上。表3示出了V-SAM对先前的调制方法的显著改进。V-SAM生成比基于语义的调制[28，62]和空间不变调制[43，52，53]更高保真的风格，从而大幅提高图像质量（FID）。这在身体的语义复杂区域（面部FID）中尤其突出。请注意，V-SAM相对于共调制[62]的改进是显著的，因为它与增加20 M的参数数量大致相同（配置E与D，表1）。此外，V-SAM改善了潜在解缠结（PPL），这源于V-SAM的显式和显式设计。最后，V-SAM对仿射像平面变换具有4.3. 静态场景我们证明了V-SAM在DeepFashion [33]数据集的人类合成方面表现出色。遵循SPADE [43]的设计，我们设计了一个仅解码器的生成器，它可以独立于任何背景图像来合成人类。V-SAM的解纠缠和空间不变的潜在空间允许生成器在姿势之间传输属性。通过对相同的潜在变量z进行采样，在没有任何任务特定建模选择的情况下，V-SAM能够执行合成人的姿势/运动传递（图6）（例如，包括纹理编码器[59]）。然而，V-SAM是不平行于成像平面的3D仿射变换的变体（例如，改变场景的深度）。这反映在图6中，其中改变场景的深度显著地改变了合成的人。我们相信，将V-SAM与来自姿势/运动转移文献[36，59]的特定任务建模选择相结合可以解决这些问题。4.4. 计算机视觉数据可用性我们通过在COCO数据集上评估预训练的Mask R-CNN [17]来分析匿名化对未来计算机视觉发展我们对预先训练的CSE检测器检测到的所有个体进行匿名化[41]，其中我们使用置信度得分高于0的所有检测。1.一、我们将我们的框架与传统的匿名化方法进行比较（图7）。与传统的匿名化相比，我们的方法显着改善了AP人（表4），甚至是像素化，这对于匿名化来说是值得怀疑的[14，39]。然而，我们观察到其他对象类的平均精度显着下降，这源于两个错误来源。首先，全身匿名化删除了经常与人体一起出现的物体。例如，其次，检测包括误报，在匿名化这些图像时产生高度损坏的图像。例如，我们观察到很少被检测为人的物体（例如，汽车、火车、大象）。最后，表面引导匿名化在训练目的上优于传统技术，我们在匿名COCO数据集上验证了这一点（附录B）。匿名化质量表5评价了匿名化对Market1501 [63]数据集上人员重新识别的影响。表面引导的GAN提供了类似的匿名化保证，就像掩盖区域一样。同时，人脸匿名化和像素化产生了更高的重新识别率，反映了其更差的匿名保证。143816×16Masked Out Ours图7：COCO [32] val2017中图像的不同匿名化方法附录D包括随机示例。表5：使用OSNet的官方代码[64]在Market 1501 [63]上重新识别mAP和rank-1准确度。匿名化R1↓mAP↓原始94.482.5像素8×8像素16×16掩蔽67.886.628.239.666.410.4[21]第二十一话82.150.7我们31.114.45. 结论我们提出了一种新颖的全身匿名化框架，可以在不同和复杂的场景中生成接近真实感和多样化的人类我们的实验表明，引导具有密集像素到表面对应性的对抗网络，可以大大提高不同姿势和场景的高保真纹理合成最后，我们证明了与传统匿名化相比，我们的匿名化框架更好地保留了未来计算机视觉发展的数据可用性。我们的贡献显著提高了匿名数据的可用性，并生成独立于原始数据的新身份。然而，我们的方法有局限性，可能会损害个人的隐私。与任何匿名化方法一样，我们的方法依赖于远不完美的检测，并且容易受到对抗性攻击。检测每年都在改进，对抗性攻击的防御目前是社区的一大焦点[29]。我们认为，潜在的错误，在detec- tion可以规避人脸检测作为后备。在完美检测的假设下，通过步态识别（当匿名视频时）或通过CSE嵌入中的身份泄漏仍然可以进行识别我们推测，步态识别可以通过稍微随机化帧之间的原始姿势毛皮-6当前基于CSE的检测器（R-101-FPN-DL-s1 x [56]）在COCO-DensePose [15]上进行人体分割的平均召回率为96.65%（AR 50）。请注意，COCO-DensePose主要包含高分辨率的人物。然而，通过表面嵌入的身份泄漏是可能的，因为它们是从原始图像回归的，并且可能包括识别信息。我们通过将回归嵌入离散化为27K顶点特定嵌入之一来减少这种可能性（第3节）。表面引导的GANs显着改善了用于野外图像匿名化的人体合成。尽管如此，人类合成是一项复杂的任务，并且通过我们的方法生成的许多图像可以被人类评估器识别为我们模型的限制因素之一这相对于FFHQ中的70K图像来说是相对较小的，这是一个相当简单的任务。我们的方法应用数据增强来减轻这一点。然而，使用自适应增强[25]或迁移学习的进一步扩展可能是富有成效的。社会影响我们生活在大数据时代，个人信息是许多公司的商业模式。最近引入的立法使数据收集变得复杂，要求同意存储包含个人信息的任何数据这可能是研究和开发的障碍，特别是对于依赖数据的计算机视觉领域我们提出了一种方法，可以更好地保护个人的隐私，同时保留数据的可用性。然而，我们的工作集中在现实的人的合成，这有一个潜在的误用。典型的例子是DeepFakes的滥用，其中生成模型可以用于创建操纵内容，意图误导。已经提出了几种解决方案，其中DeepFake Detection Challenge [8]提高了模型检测操纵内容的能力，以及抢先解决方案，如模型水印[58]可以减少滥用的可能性。鸣谢计算是在 NTNU IDUN/EPIC 计算集群 [49] 和Tensor-GPU项目提供的资源上进行的。安妮C.在国立台湾师范大学计算机科学系与资讯科技与电子工程学院的协助下，此外，Rudolf Mester感谢DNVGL的支持。1439引用[1] Badour AlBahar ， Jingwan Lu ， Jimei Yang ， ZhixinShu ， Eli Shechtman ， and Jia-Bin Huang. Pose withstyle：基于条件风格的姿态引导的细节保持图像合成。arXiv预印本arXiv：2109.06166，2021。[2] 然后我去找了一个 vithraaBalaji ， PatrickBlies ， Geo rgGoéri，Raphael Mitsch，MarcelWassere r和TorstenSc oén。通过gan修复实现实时一致视频匿名化arXiv预印本arXiv：2106.02328，2021。[3] Guha Balakrishnan，Amy Zhao，Adrian V Dalca，FredoDu- rand，and John Guttag. 合成人类的图像以看不见的姿势。在IEEE计算机视觉和模式识别会议论文集，第8340- 8348页[4] Karla Brkic，Ivan Sikiric，Tomislav Hrkac，and ZoranKalafatic.我认识那个人：图像中人物的生成性全身和面部去识别。在2017年IEEE计算机视觉和模式识别研讨会（CVPRW）上，第1319-1328页。IEEE，2017年。[5] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在学习代表国际会议上，2019年。[6] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A Efros.大家跳舞吧在IEEE/CVF计算机视觉国际会议论文集，第5933-5942页[7] Bindita Chaudhuri、Nikolaos Sarafianos、Linda Shapiro和Tony Tung。3d人体高分辨率可编辑纹理的半监督合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第7991-8000页[8] Brian Dolhansky ， Joanna Bitton ， Ben Pflaum ， JikuoLu，Russ Howes，Menglin Wang，and Cristian CantonFerrer.Deepfake检测挑战数据集。arXiv电子印刷品，第arXiv-2006页[9] M. 埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I. 威廉斯，J.Winn和A. 齐瑟曼。 pascal 视觉对象类（ voc ）的挑战。International Journal of Computer Vision，88（2）：303[10] 奥兰·加夫尼、利尔·沃尔夫和亚尼夫·泰格曼。视频中的实时人脸去识别。在IEEE/CVF计算机视觉国际会议论文集，第9378- 9387页[11] 罗斯·格希克。快速r-CNN。2015年IEEE计算机视觉国际会议（ICCV）。IEEE，dec 2015.[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[13] Artur Grigorev ， ArtemSevastopolsky ， AlexanderVakhitov和Victor Lempitsky。基于坐标的姿态引导人体图像生成的纹理修复。在IEEE/CVF计算机视觉和模式识别会议论文集，第12135-12144页[14] R.格罗斯湖Sweeney，F. de la Torre和S.贝克基于模型的人脸去识别。计算机视觉与模式识别研讨会. IEEE，2006年。[15] Riza Alp Guler，Natalia Neverova和Iasonas Kokkinos。DensePose：在野外进行密集的人体姿势估计。2018年IEEE/CVF计算机视觉和模式识别会议。IEEE，2018年6月。[16] Xintong Han，Zuxuan Wu，Zhe Wu，Ruichi Yu，andLarry S Davis.Viton：一个基于图像的虚拟试穿网络。在IEEE计算机视觉和模式识别会议论文集，第7543-7552页[17] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[18] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展，第6626-6637页，2017年[19] Xun Huang和Serge Belongie。任意风格转换以自适应实例规范化实时执行。2017年IEEE计算机视觉国际会议（ICCV）。IEEE，2017年10月。[20] HakonHuk k e lalas，FrankLindseth，andRudolfMeste r. 基于可学习特征填充的图像修复。arXiv预印本arXiv：2011.01077，2020。[21] Ha˚konHuk k e la˚ s，RudolfMeste r，andFrankLindseth. 深度隐私：一个用于人脸匿名化的生成对抗网络。在Advances in Visual Computing 中，第 565-578 页。Springer International Publishing，2019。[22] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A.埃夫罗斯使用条件对抗网络进行图像到图像翻译2017年IEEE，2017年7月。[23] 阿尼尔·杰恩帕特里克·弗林阿伦·罗斯生物计量学手册。Springer New York，NY，01 2008.[24] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.GANs的逐步增长，以提高质量，稳定性和变化。在2018年国际学习代表会议上[25] Tero Karras ， Miika Aittala ， Janne Hellsten ， SamuliLaine，Jaakko Lehtinen，and Timo Aila.用有限的数据训练生成式在Proc. NeurIPS，2020中。[26] 泰罗·卡拉斯、米卡·艾塔拉、萨穆利·莱恩、埃里克·哈克·奥嫩、简·赫尔斯滕、贾科·莱赫蒂宁和蒂莫·艾拉。无干扰生成对抗网络。 arXiv 预印本 arXiv ：2106.12423，2021。[27] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第4401-4410页[28] Tero Karras、Samuli Laine、Miika Aittala、Janne Hell-sten、Jaakko Lehtinen和Timo Aila。分析和改善stylegan的图像质量。arXiv预印本arXiv：1912.04958，2019。[29] Alexey Kurakin ， Ian Goodfellow ， Samy Bengio ，Yinpeng Dong ， Fangzhou Liao ， Ming Liang ， TanyuPang，Jun Zhu，1440胡小林，谢慈航，等.对抗性的攻击和防守竞争。在NIPS'17 竞赛中：建筑智能系统，第 195-231 页。Springer，2018.[30] Verica Lazova ， Eldar Insafutdinov ， and Gerard Pons-Moll. 360-从一张照片中可以看出人们穿着衣服的不同程度的纹理。在2019年3D视觉国际会议（3DV）上，第643-653页。IEEE，2019。[31] Yining Li，Chen Huang，and Chen Change Loy.用于人体姿势转移的密集内在外观流在IEEE/CVF计算机视觉和模式识别会议上，第3693-3702页，2019年[32] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[33] 刘紫薇，罗平，邱石，王晓刚，唐晓鸥. Deepfashion：支持强大的服装识别和检索与丰富的注释。在IEEE计算机视觉和模式识别会议（CVPR）的会议中，2016年6月。[34] Liqian Ma，Qianru Sun，Stamatios Georgoulis，Luc VanGool，Bernt Schiele，and Mario Frit

下载后可阅读完整内容，剩余1页未读，立即下载