上下文感知的人物生成

138 浏览量更新于2023-10-23 收藏 15.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

178400希望你在这里：上下文感知的人物生成0Oran Gafni FacebookAI Research0oran@fb.com0Lior Wolf Facebook AI Research and Tel-AvivUniversity0wolf@fb.com0（a）（b）（c）（d）（e）图1。“希望你在这里”应用。给定一张包含一个或多个人物的图像（a），以及一个可选的边界框，指示在哪里添加一个新的人物（b），该方法生成新人物的姿势（c）。然后，给定目标人物的外观信息（d），该方法渲染出一个新的图像（e）并添加该人物。0摘要0我们提出了一种新颖的方法，可以将对象，特别是人物，插入到现有图像中，以使它们以逼真的方式融入，并尊重场景的语义上下文。我们的方法涉及三个子网络：第一个子网络根据场景中其他人物的姿势和可选的边界框规范生成新人物的语义映射。第二个网络根据多个外观组件的规范，渲染新人物的像素和混合掩模。第三个网络通过改进生成的人脸来匹配目标人物的人脸。我们的实验在这个新颖且具有挑战性的应用领域中呈现出令人信服的高分辨率输出。此外，这三个网络分别进行了评估，例如在姿势转移基准测试中展示了最先进的结果。01. 引言0图像，或者在指定具体约束条件（如近似绘图或期望的关键点）时。在其他贡献中，存在一组语义规范，例如基于场景图像生成或基于自由文本生成，但这些方法尚未证明能够生成高保真度的人类图像。似乎缺少的是两者之间的中间地带：一种方法在允许一定自由度的同时，要求遵守源自图像上下文的高级约束条件。在我们的工作中，生成的图像必须符合具有连贯组合的软要求。具体而言，我们生成一个适应现有场景的人物形象。与以前在人体放置领域的工作不同，我们不需要驱动姿势或语义映射来渲染新的人物，而是独立生成一个适合图像上下文的语义映射。此外，我们提供了对渲染方面的丰富控制，可以实现其他应用，例如个体组件替换和草图化逼真的人物。此外，我们提供了分辨率显著更高的结果（512×512，而领先的姿势转移基准的分辨率为176×256或64×128），适用于具有大幅度姿势变化的图像。我们专注于的应用领域是将目标人物插入包含其他人物的图像中。这是一个具有挑战性的应用领域，因为很容易“spot discrepancies between the novel person in the gener-ated image, and the existing ones. In contrast, methods thatgenerate images from scratch enjoy the ability to generate“convenient images”.In addition, images that are entirely synthetic are judgedless harshly, since the entire image has the same quality. Inour case, the generated pixels are inserted into an existingimage and can therefore stand out as being subpar with re-spect to the quality of the original image parts. Unlike otherapplications, such as face swapping, our work is far lesslimited in the class of objects.Similar to face swapping and other guided image manip-ulation techniques, the appearance of the output image iscontrolled by that of an example. However, the appearancein our case is controlled by multiple components: the face,several clothing items, and hair.Our method employs three networks. The ﬁrst generatesthe pose of the novel person in the existing image, basedon contextual cues that pertain to the other persons in theimage. The second network renders the pixels of the newperson, as well as a blending mask. Lastly, the third aug-ments the face of the target person in the generated imagein order to ensure artifact-free faces.In an extensive set of experiments, we demonstrate thatthe ﬁrst of our networks can create poses that are indistin-guishable from real poses, despite the need to take into ac-count the social interactions in the scene. The ﬁrst and sec-ond networks provide a state of the art solution for the posetransfer task, and the three networks combined are able toprovide convincing “wish you were here” results, in whicha target person is added to an existing photograph.The method is trained in an unsupervised manner, in thesense that unlike previous work, such as networks trained onthe DeepFashion dataset, it trains on single images, whichdo not present the same person in different poses. However,the method does employ a set of pretrained networks, whichwere trained in a fully supervised way, to perform variousface and pose related tasks: a human body part parser, a facekeypoint detector, and a face-recognition network.Our main contributions are: (i) the ﬁrst method, as faras we can ascertain, is the ﬁrst to generate a human ﬁg-ure in the context of the other persons in the image, (ii) aperson generating module that renders a high resolution im-age and mask, given two types of conditioning, the ﬁrst be-ing the desired multi-labeled shape in the target image, andthe second being various appearance components, (iii) theability to perform training on a set of unlabeled images “inthe wild”, without any access to paired source and targetimages, by utilizing existing modules trained for speciﬁctasks, (iv) unlike recent pose transfer work, which address asimpler task, we work with high resolution images, generat-ing 512 × 512 images, (v) our results are demonstrated in adomain in which the pose, scale, viewpoint, and severe oc-78410结论在文献中的姿势转移工作中变化更大，并且（vi）在一个具有挑战性且迄今未被探索的应用领域展示了逼真的照片效果。我们的研究可以用于实现自然的远程事件和社交互动。增强现实应用也可以通过添加上下文中的角色获益。最后，对场景中关系的精确建模可以帮助识别被篡改的媒体。02. 相关工作0关于合成新图像的工作要远远多于增强现有视图的工作。一条重要的研究线路是生成不同姿势的人物图像[2,13]，可以根据特定姿势进行条件约束[6, 28,15]。我们使用的第二个网络（上述三个网络之一）能够执行这个任务，并且我们通过实验证明了与这些方法的比较。大部分文献都在DeepFashion数据集[17]上呈现结果，该数据集使用白色背景。在我们考虑的应用中，能够与复杂场景平滑集成是很重要的。然而，出于研究目的和与之前工作的结果进行比较[18, 23, 10, 32,8]，我们使用了该数据集。包括人物形象和背景场景的贡献包括vid2vid[25]和“everybody dancenow”工作[6]。这些方法学习根据姿势或面部动作将驱动视频映射到输出视频。与我们工作中的类似姿势生成部分不同，[25,6]中的参考姿势是从真实帧中提取的，并且这些方法没有生成姿势的挑战。我们的方法处理生成的姿势，这些姿势受到额外的伪影的影响。此外，运动转移工作生成了整个图像，包括角色和背景，导致生成的姿势边缘附近出现伪影[20,7]，以及背景细节的丢失。在我们的工作中，生成的人物形象使用生成的alpha掩码与背景集成。Esser等人展示了基于指导姿势的目标人物的新颖生成方法，他们提出了两种将图像中的人物外观与任意姿势混合的方法[10,9]。他们的方法产生了低分辨率的输出，并且有明显的伪影，而我们的工作在更高的512p分辨率上进行。Balakrishnan等人的工作也提供了低分辨率的输出，这些输出设置在特定的背景中[2]。在我们的实验中，我们与最近的姿势转移工作[18, 23,32]进行了比较。[8]提出了一种基于语义地图的人物生成方法。与我们的方法相反，这项工作仅在较低分辨率和较低姿势变化的DeepFashion和Market-1501数据集上进行了演示（176×256和64×128）。此外，[8]中的目标编码方法依赖于一个额外的语义地图，与78420期望的目标人物，要求目标人物具有相同的形状，这排除了其他应用，如组件替换。此外，先前的方法需要姿势关键点，这增加了算法的复杂性，并限制了应用范围，例如我们展示的绘制人物的应用。据我们所知，没有文献方法在场景中生成人物姿势。03. 方法0给定源图像x，完整的方法目标是将另一个人嵌入到图像中，使得新的人物既逼真又与上下文一致。系统可选地接收新人物的粗略位置，以边界框b的形式。这允许对新人物的位置和大小进行粗略控制，但仍然将大部分定位留给算法。我们使用三个生成阶段，其中插入的人物变得越来越详细。Essence Generation Network(EGN)生成目标人物p在新图像中的语义姿势信息，捕捉人际互动的场景本质。Multi-Conditioning RenderingNetwork(MCRN)根据语义姿势图p和分割的目标人物t生成逼真的人物。Face Re�nement Network(FRN)用于细化生成的人脸f的高级特征，这需要特别注意，因为人类感知中对人脸给予了重要的关注。03.1. Essence generation network0Essence Generation Network(EGN)被训练用于捕捉图像中的人物交互，并为新的人物生成一种连贯的方式。给定输入图像x的两通道语义映射s，其中包含不同数量的人物，以及一个可选的二进制第三通道b，其中包含一个边界框，网络生成一个新人物p的两通道语义映射，该映射与现有人物的上下文相容，如图2、5所示。更准确地说：s和p都包含一个用于人物语义映射的通道，以及从面部关键点导出的一个面部通道。s涉及输入图像中的一个或多个人物，而p是指新的人物。语义映射，即s和p的第一个通道，被缩减为八个标签组，编码为值0、36、72、..、252。它们分别表示背景（0）、头发、面部、躯干和上肢、上身穿着、下身穿着、下肢和鞋子。选择这个较少的组数是为了简化语义生成，同时支持详细的图像生成。s和p的面部通道是通过考虑检测到的面部关键点上的凸包来提取的。0通过[5]的方法。第三个通道b是可选的，包含一个边界框，指示p中新人物的大致大小和位置。在训练过程中，边界框被视为x和y轴上标签的最小和最大位置。我们并行训练两个EGN模型（EGN和EGN'）来执行以下映射：0p = EGN(s, f, b)或p = EGN' (s, f) (1)0在EGN′的基础上，EGN获得了一个额外的输入通道。为了简洁起见，我们在下文中称之为EGN。输入张量被调整为368×368像素的空间尺寸。随后的网络采用更高的分辨率，生成高分辨率图像。EGN的编码器-解码器架构基于pix2pixHD[26]的架构，但有两个主要修改。首先，由于生成的人物存在不确定性，因此禁用了VGG特征匹配损失。换句话说，给定一个源图像，在场景中的其他人物的背景下，有很多可能的选项来生成一个新的人物。这些关系由鉴别器损失和鉴别器特征匹配损失捕捉到，因为这两个损失都接收到（s，f，b）和p。第二个修改是添加了一个导数正则化损失Lp�=∥px∥1+∥py∥1，它应用于p的第一个通道。该损失减少了生成的语义映射图像中的高频模式。03.2. Multi-conditioning rendering network0MCRN映射被训练用于将逼真的人物渲染和融合到输入图像x中，创建一个高分辨率（512×512）的图像o。它以语义姿势图p的形式获得一个调节信号，并且以指定分割人物部分t的输入形式给出，参见图3（a）。调节信号p是由EGN在推理时生成的，并通过SPADE块[19]引入到MCRN的解码器部分。这个调节信号作为渲染人物图像z和相应的掩膜m的结构基础。分割的人物t通过MCRN编码器进行融合，将目标人物的外观属性嵌入到潜在空间中。t允许对渲染的人物z进行大量控制（例如替换人物的头发或服装，如图7所示，以及补充图1、2、3）。与仅传递目标人物图像相比，t的分割结构具有优势，因为它不允许在输出图像z中简单地复制目标人物。这个特性很重要，因为在训练过程中，我们同时使用相同的人物作为目标输出图像和MCRN的输入。M�(6)M�78430图2. Essence GenerationNetwork的架构。给定身体和面部语义映射s，以及可选的边界框b，网络生成与场景中的人类互动相关的新人的语义映射p。生成的人物以蓝色突出显示。0张量t的大小为6 × 3 × 128 ×128，对应于六个语义分割类别（头发、面部、上身服装、下身服装、皮肤和鞋子），每个类别有三个RGB通道，空间范围为1282像素。每个部分通过使用最小边界框裁剪身体部分并将裁剪调整为这些空间尺寸来获得。为了避免将生成的人物z粗略地插入图像输出o并避免“粘贴”效应，网络与人物z的渲染图像一起生成可学习的掩码m。因此，输出图像生成如下：0[z, m] = MCRN(t, p), o = x ⊙ (1 - m) + z ⊙ m (2)0掩码m被优化为与姿势图像p的二进制版本相似，表示为pb。为此，使用L1损失Lm1 = ∥m -pb∥1。此外，还通过以下损失鼓励掩码平滑：0Lm� = ∥mx∥1 + ∥my∥1. (3)0MCRN编码器的架构由五个连续的(Conv2D，InstanceNorm2D[24])层组成，后面是一个具有LeakyReLU激活的FC层，结果是一个大小为256的潜在空间。潜在空间通过额外的FC层处理，重塑为大小为4 x 4 x1024。解码器具有七个上采样层，其中夹杂着SPADE块。它使用图中所示的损失项进行训练。即：0LGhinge = -∥D1,2(t, p, zb)∥1 (4)0LD1,2hinge = -∥min(D1,2(t,p,zb) - 1, 0)∥1 -0∥min(-D1,2(t, p, xb) - 1, 0)∥1 (5)0LDk=1,2FM = E(t,p,xb,zb)0j = 101/Nj || D(j)k(t, p, xb) - D(j)k(t, p, zb)) || 10其中M是层数，Nj是每层中的元素数，D(j)k是鉴别器k在第j层的激活，zb，xb = z ⊙ pb，x ⊙ pb。0LVGGFM =0j = 101/N'j || VGG(j)(x) - VGG(j)(o)) || 1 (7)0其中N'j是第j层中的元素数，VGG(j)是第j层的VGG分类器激活。0Lz1 = ∥zb - xb∥1, Lz� = ∥zbx - xbx∥1 + ∥zby - xby∥1 (8)03.3. 人脸细化网络0第三个网络FRN接收的输入是o中新人的面部裁剪，以及作为条件信号的目标人脸的面部描述符，该描述符是从目标人的原始图像y（在转换为张量t之前）中获得的。为此，使用了预训练的VGGFace2[4]网络，并将倒数第二层的激活连接到FRN的潜在空间。FRN应用了[11]中的架构，该架构使用了相同的两个条件信号，但目标完全不同。在[11]中，从VG-GFace2网络的嵌入e中获得的生成人脸f的顶级感知特征与y中的人脸fy的特征不同，而在我们的情况下，感知损失通过最小化距离∥e(f) -e(fy)∥1来鼓励两者相似。FRN的输出与第二个掩码mf混合，如下所示：0[f, mf] = F0w = o ⊙ (1 - mf) + f ⊙ (mf) (9)0其中c是裁剪人脸边界框的运算符。04. 实验0EGN和MCRN都是在Multi-HumanParsing数据集上进行训练的（[14]，[31]）。我们选择这个数据集作为我们的78440（a）（b）图3.（a）MCRN的架构。给定目标t和条件语义映射p，渲染人物z和混合掩码m。然后使用掩码m将渲染的人物z混合到最终图像o中。（b）用于训练MCRN的损失项。0图4. “Wish you were here”样本。每个样本都有一个源图像x和3个不同的插入人物y和输出图像w的配对。0由于高分辨率图像和多样化的姿势、场景、种族和年龄设置，我们选择了主要数据集，这使得它适用于我们的任务。我们随机选择了20,000张图像进行训练，250张图像进行测试。EGN的训练方式是对于每个样本，保持s中的所有语义映射，排除一个作为生成目标p。此外，我们过滤掉不包含至少一个检测到的面部关键点集的图像。总体而言，我们获得了51,717个训练样本，训练300个epochs，批量大小为64。MCRN是在每个人上单独训练的，结果是53,598个采样图像。网络训练了200个epochs，批量大小为32。我们的方法有一个调整参数。这是掩码边缘正则化的强度（Eq.3）。在开发过程中，通过测试后，将损失项的尺度设置为乘以5的因子。0[0, 1, 5,10]的值。这个值在MCRN消融研究中得到了验证，如图8所示。上下文感知生成。我们在完全上下文感知生成任务中为各种目标人物y提供样本，如图1、4所示。在这些实验中，EGN被给予一个随机的边界框b，其大小和y轴位置随机选择在图像中现有人物的0.9到1.1之间，而x轴位置则通过图像上的均匀分布随机选择。EGN生成一个语义映射p，然后由MCRN对各种目标y进行运行，每列显示一个目标。然后应用FRN来改进渲染的面部。从生成的结果可以看出，EGN恰当地捕捉到了场景的上下文，生成了一个与场景中人类互动密切相关的新人物的语义映射。MCRN成功地渲染出一个逼真的人物。78450图5. EGN'的无约束（无边界框）样本。对于每个输入（红色），显示生成的姿势（紫色）。0图6.画一个人（DeepFashion）。使用[31]的注释工具粗略地绘制语义映射（第一行），区分头发（橙色）、面部（红色）、躯干/上肢（明亮绿色1）、T恤（黄色）、运动衫（明亮绿色2）、裤子（绿色）、下肢（蓝色）。由MCRN生成的渲染人物（第二行）符合条件分割，尽管与原始数据集有所偏差。面部关键点（此处未显示）来自随机检测到的图像。附录中附有描述绘制和生成过程的视频。0根据目标y的条件，EGN很好地融合了新的人物，如在不同的目标上所示。没有指定输入边界框的情况如图5所示。可以观察到，EGN自己选择了高度相关的姿势。个体组件替换。为了评估MCRN泛化到其他任务的能力，我们将其用于头发、衬衫和裤子的替换，如图中所示。0在DeepFashion数据集[17]中，如图7、附图2、3和高分辨率附图4所示。如后一个数据集所示，MCRN可以成功应用于无约束的图像，而不仅仅是低变异的数据集，如DeepFashion，增加了这个任务的适用性和鲁棒性。我们使用[16,12]的模型进行人体解析。人物绘制。MCRN的另一个应用是自由形式的人物绘制。我们有意地在一组极端和粗略的草图上演示这个任务，描绘了在数据集流形之外渲染人物的能力，但结果仍然是连贯的，如图6和附录视频所示。使用[31]中提供的注释工具对语义映射进行草图，附录中附有描述绘制和生成过程的视频。姿势转移评估。MCRN可以应用于姿势转移任务。通过修改EGN，使其接受源语义映射、源姿势关键点（由[5]的方法提取的棍人）和目标姿势关键点的串联作为输入，我们可以生成目标语义映射p，然后将其输入MCRN。也可以使用Dense-Pose[21]表示代替棍人。将此流程与[32, 18, 10,23]的方法进行定性比较，见附录图4。[8]的工作呈现了与我们在这个任务中类似的视觉效果。由于代码不可用，我们没有与[8]进行定性比较。然而，我们在表1中进行了定量比较（未应用FRN）。为生成任务提供可靠的定量指标是具有挑战性的。广泛使用的方法，如Inception Score [22]和SSIM[27]，无法捕捉到78460图7. 更换头发、衬衫和裤子（DeepFashion）。对于每个目标y（第一行），替换上左和上右人物的语义映射s的头发、衬衫和裤子（第二行），仅替换衬衫（第三行）。未使用EGN/FRN。另请参见补充材料中的图2、3、4。0（a）（b）（c）（d）（e）（f）（g）图8.MCRN消融研究。（a）目标人物，（b）我们的结果，（c）没有FRN（扭曲的脸，不像目标），（d）没有Lz1和Lz�（模糊的脸，扭曲的皮肤纹理），（e）Lm�未调整（强边缘像素化），（f）没有蒙版（不自然的混合“粘贴”效果），（g）没有分割编码器（源自目标和标签空间差异的过多伪影）。0（a）（b）（c）（d）（e）（f）（g）图9.EGN消融研究。（a）用于（b）-（c）的语义映射输入，（b）我们的结果，（c）没有Ls�（高频模式以及生成的孤立对象），（d）用于（e）-（g）的语义映射输入，（e）单个人输入（上下文可以不太描述），（f）启用VGG特征匹配（无论变形伪影如何，形状都匹配），（g）生成形状减少到256×256（标签有孔洞，在现有分割上生成新标签）。为了清晰起见，列（b）-（c）和（e）-（g）以高对比度颜色呈现。0感知概念或人体结构[3,32]的度量。提出了捕捉人体结构的度量，如PCK[29]或PCKh[1]。然而，它们依赖于人体形式的退化形式（关键点）。0因此，我们开发了两种基于密集姿态的人体结构度量（DPBS和DPIS），并在补充材料中提供了Python代码。此外，我们使用LPIPS（学习感知图像补丁相似性）度量[30]评估了感知概念。DPBS（DensePose二进制相似性）提供了生成和真实人体的检测到的DensePose[21]表示之间的粗略度量。0通过计算二进制检测的交并比（IoU）来评估与基准图像的一致性。第二个新的度量指标DPIS（DensePose指数相似性）提供了更细的形状一致性度量，计算了由DensePose检测提供的身体部位索引的IoU。然后对身体部位进行平均。0定量比较遵循[32]中描述的方法，将数据集分为训练和测试对（101,966对随机选择用于训练，8,570对用于测试，训练和测试之间没有身份重叠）。我们的方法在指标方面取得了最好的结果78470方法↓ LPIPS↓ LPIPS↑ DPBS↑ DPIS↑ SSIM↑IS（SqzNet）（VGG）0Ma [18] 0.416 0.523 0.791 0.392 0.773 3.163 Siarohin [23] -- - - 0.760 3.362 Esser [10] - - - - 0.763 3.440 Zhu [32] 0.1700.299 0.840 0.463 0.773 3.209 Dong [8] - - - - 0.793 3.314我们的（DP） 0.149 0.264 0.862 0.470 0.793 3.346我们的（KP） 0.156 0.271 0.852 0.448 0.788 3.1890表1. DeepFashion数据集上的姿势转移。显示了LPIPS[30]、DPBS、DPIS、SSIM [27]和IS[22]指标。我们基于DensePose（DP）和关键点（KP）的方法在大多数指标上取得了最先进的结果。未应用FRN。0N 成功03 39.47% ± 0.47 447.37% ± 0.49 528.07% ± 0.43 647.37% ± 0.450平均 42.98% ± 0.470（a）（b）表2. 用户研究。（a）用户识别生成人物的成功率。按照图像中的N人数显示。（b）使用的图像示例。对于每个图像，用户有无限时间来识别生成的人物。0在测试的方法中，我们的关键点和DensePose方法在感知度量方面表现出色。对于人体结构一致性，我们的两种方法在DPBS指标上都取得了最好的结果，并且在DPIS指标上基于DensePose的模型得分最高。我们的方法在有争议的指标（SSIM，IS）上也表现良好。用户研究。用户研究显示在每个图像中，用户选择生成的人物。用户知道所有图像都包含一个单独的生成人物，并且与通常用于图像生成的用户研究不同，没有给出时间限制。低成功率验证了EGN在生成上下文中新人物的能力。请注意，成功率与N的预期不相关，可能是因为随着N的增大，场景变得更具挑战性，更难修改。消融研究我们对EGN和MCRN进行了定性消融研究。由于“希望你在这里”应用程序没有基准图像，感知比较或形状一致性定量方法无法捕捉到每个组件的视觉重要性。不依赖于基准图像的其他方法（例如InceptionScore，FID）是不可靠的，因为对于姿势转移任务，更高的IS似乎与更多的显著伪影相关，表明更高程度的伪影会导致0IS给出了更强的感知多样性。MCRN消融结果如图8所示，展示了每个组件或设置的重要性。详细信息在图注中给出。EGN消融结果如图9所示。对于生成的人物，有许多生成选项可以考虑与上下文相关。这产生了一个复杂的消融研究，涵盖了在测试模型之间的额外偏差，这些偏差不是不同组件测试的直接结果。除了微小的差异外，预期的偏差（如在实现最终网络的实验中所见）在图注中详细说明。05. 讨论0我们的方法是在裁剪的人物图像上进行训练的。生成的人物往往会被场景中的其他人物遮挡，并且不会遮挡它们。原因是在训练过程中，被保留的人物可能会被遮挡，这种情况下前景人物是完整的。或者，被保留的人物可能是完整的，这种情况下，一旦被移除，被遮挡的人物就会出现缺失部分。在测试时，人物包含的缺失区域仅仅是由于现有场景而产生的。因此，测试图像看起来就像是被遮挡的图像中的被保留人物。从某种意义上说，这正是“希望你在这里”的应用（向现有图像中添加一个人物）所需要的-找到一种方法在不干扰已经存在的人物的情况下添加一个人物。然而，如果能够控制人物在场景中相对于相机平面的顺序，将增加另一个变化维度。当前方法的一个限制是，生成的语义图p没有与目标人物y或其属性t有关的条件。因此，例如，生成的人物的头发风格与目标人物不同。这个限制不是固有的限制，因为可以将EGN条件化于更多的输入，而是训练方式的限制。由于训练过程中只有一个图像，提供额外的外观信息可能会损害网络的泛化能力。一个部分的解决方案可能是条件化于非常粗糙的描述符，例如相对头发长度。06. 结论0我们展示了将目标人物添加到现有图像中的令人信服的能力。该方法依次应用三个网络，并将图像生成过程从语义到具体。从一个总体的角度来看，我们展示了在保持整体图像质量的同时，修改图像以符合场景语义的能力。78480参考文献0[1] Mykhaylo Andriluka，Leonid Pishchulin，PeterGehler和Bernt Schiele. 2D人体姿势估计：新的基准和最新分析.在IEEE计算机视觉和模式识别会议论文集中，第3686-3693页，2014年7月0[2] Guha Balakrishnan，Amy Zhao，Adrian V Dalca，FredoDu- rand和John Guttag. 在未见姿势中合成人类图像.在IEEE计算机视觉和模式识别会议论文集中，第8340-8348页，2018年2月0[3] Shane Barratt和Rishi Sharma. 关于Inception Score的注释.arXiv预印本arXiv:1801.01973，2018年7月0[4] Qiong Cao，Li Shen，Weidi Xie，Omkar MParkhi和Andrew Zisserman.VGGFace2：一个用于识别不同姿势和年龄的人脸数据集.arXiv预印本arXiv:1710.08092，2017年4月0[5] Zhe Cao，Gines Hidalgo，Tomas Simon，Shih-EnWei和Yaser Sheikh.OpenPose：实时多人2D姿势估计，使用Part Af�nity Fields.arXiv预印本arXiv:1812.08008，2018年3月，6月0[6] Caroline Chan, Shiry Ginosar, Tinghui Zhou, and Alexei AEfros. Everybody dance now.arXiv预印本arXiv:1808.07371，2018年2月0[7] Patrick Chao, Alexander Li, and Gokul Swamy.姿势转换的生成模型。arXiv预印本arXiv:1806.09070，2018年。20[8] Haoye Dong, Xiaodan Liang, Ke Gong, Hanjiang Lai, JiaZhu, and Jian Yin.姿势引导的人物图像合成的软门控Warping-GAN。在神经信息处理系统进展中，2018年。2，6，80[9] Patrick Esser, Johannes Haux, Timo Milbich, and Bj¨ornOmmer. 学习人类行为的真实渲染。在ECCVWORKSHOP中，2018年。20[10] Patrick Esser, Ekaterina Sutter, and Bj¨orn Ommer.条件外观和形状生成的变分U-Net。在IEEE计算机视觉和模式识别会议上，2018年。2，6，80[11] Oran Gafni, Lior Wolf, and Yaniv Taigman.视频中的实时人脸去识别。在国际计算机视觉会议（ICCV）IEEE中，2019年。40[12] Ke Gong, Xiaodan Liang, Dongyu Zhang, Xiaohui Shen,and Liang Lin.着眼于人物：自监督结构敏感学习和人物解析的新基准。在计算机视觉和模式识别（CVPR）IEEE会议中，2017年。60[13] Angjoo Kanazawa, Jason Y. Zhang, Panna Felsen, and JitendraMalik.从视频中学习3D人体动力学。arXiv预印本arXiv:1812.01601，2018年。20[14] Jianshu Li, Jian Zhao, Yunchao Wei, Congyan Lang,Yidong Li, Terence Sim, Shuicheng Yan, and Jiashi Feng.野外多人解析。arXiv预印本arXiv:1705.07206，2017年。40[15] Yining Li, Chen Huang, and Chen Change Loy.人体姿势转换的密集内在外观流。在IEEE计算机视觉和模式识别会议上，2019年。20[16] Xiaodan Liang, Ke Gong, Xiaohui Shen, and Liang Lin.着眼于人物：联合身体解析和姿势估计网络及新的基准。IEEE模式分析与机器智能交易，2018年。60[17] Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, and XiaoouTang.Deepfashion：用丰富的注释提供强大的服装识别和检索。在IEEE计算机视觉和模式识别会议上，2016年。2，60[18] Liqian Ma, Xu Jia, Qianru Sun, Bernt Schiele, TinneTuytelaars, and Luc Van Gool.姿势引导的人物图像生成。在神经信息处理系统进展中，2017年。2，6，80[19] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, andJun-Yan Zhu.带有空间自适应归一化的语义图像合成。在IEEE计算机视觉和模式识别会议上，2019年。30[20] Albert Pumarola, Antonio Agudo, Alberto Sanfeliu, andFrancesc Moreno-Noguer.任意姿势下的无监督人物图像合成。在计算机视觉和模式识别（CVPR）IEEE会议中，2018年。20[21] Iasonas Kokkinos R ˜ iza Alp G¨uler, Natalia Neverova.密集姿势：野外密集人体姿势估计。在计算机视觉和模式识别（CVPR）IEEE会议中，2018年。6，70[22] Tim Salimans, Ian J. Goodfellow, Wojciech Zaremba, VickiCheung, Alec Radford, and Xi Chen.改进的GAN训练技术。arXiv预印本arXiv:1606.03498，2016年。6，80[23]

下载后可阅读完整内容，剩余1页未读，立即下载