保持高精度的图像中的姿势生成模型

14 浏览量更新于2023-10-13 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

保内空间生成式姿态机刘双军和莎拉·奥斯塔达巴斯美国波士顿东北大学电气与计算机工程系增强认知实验室{shuliu，ostadabbas}@ ece.neu.eduhttp://www.northeastern.edu/ostadabbas/抽象。基于图像的生成方法，例如生成对抗网络（GAN），已经能够生成具有大量上下文控制的逼真图像，特别是当它们被调节时。然而，大多数成功的框架都有一个共同的过程，即执行图像到图像的转换，而图像中的人物姿势不变。当目标是在保留图像的其余部分的同时在图像中放置人物时，现有技术主要假设具有简单背景和有限姿态偏移的单个刚体，这很难扩展到正常设置下的图像在本文中，我们根据图像中的“图像空间”将模型表示为将可解释的低维姿态描述符（LDPD）表示为图像中的关节图形。然后，通过将LDPD和原始图像通过条件GAN结构中的多级增强沙漏网络来生成图 reposing ，称为内部空间保持生成姿态机（ ISP-GPM）。我们评估了ISP-GPM的repos- ing人的数字，这是高度阐述了与多才多艺的变化。在我们的静止数据集上测试最先进的姿态估计器，在PCK0.5度量上给出了超过80% 结果还阐明，我们的ISP-GPM是能够保持高精度的背景，同时合理地恢复被阻挡的图形要休息的区域。关键词：条件生成对抗网络（cGANS）·内空间保持·生成姿势模型·铰接体。1介绍照片很重要，因为它们似乎捕捉到了很多东西：在右边的照片中，我们几乎可以感受到阳光，闻到海风，看到鸟儿的飞舞。然而，这些信息实际上都不存在于二维图像中。我们的人类知识和先前的经验使我们能够重新认识我们的生活（即我们的生活）。e. 它是一个空间），并且由于可能的世界状态的流形具有比世界状态空间更低的维度，因此可以填充图像中被遮挡对象的最例如，设计两个任务可以使用“新知识”来填充丢失的元素。但更重要的是，如果训练得当，它们可以修改（休息）内部空间的一部分，同时保留其余部分，使我们能够显着改变图像的部分在本文中，我们提出了一个新的2S. Liu和S. 奥斯塔达巴斯保内空间寄托原画人体图通过内部空间保持生成式姿态机了图1.一、 Innerspacep ere基于深度学习的生成模型，其采用图像和姿态规范并创建其中安置目标元素的类似图像。在图1中，我们根据20世纪早期画家托马斯·埃金斯的一幅画，以多种不同的方式安置了一个人。在放置一个图形时，有三个目标：（a）输出图像应该看起来像源图像风格的逼真图像，（b）图形应该处于指定的姿势，以及（c）图像的其余部分应当尽可能地与原始图像相似。生成式对抗网络（GAN）[23]是一种“最近，已经开发了其他方法，将深度学习和概率模型（包括变分自动编码器（VAE））合并，以生成逼真的图像[57，52，35，16，7，73，37，48，70]。第二个目标，把人物在正确的姿势，需要一个更受控制的生成方法。该领域的大部分工作都是基于条件 GAN （ cGAN ） [42] 或条件 VAE（cVAE）[62，35]。上下文信息可以以各种方式提供。这些算法中的许多算法基于语义生成，语义可以是类标签、属性、或文本描述符[22，67，54，65，47]。另一些则以图像为条件，通常称为图像到图像的翻译[70]。图像到图像翻译的成功在许多任务中可见，包括彩色化[73，36，26]，语义图像分割[11，38，58，24，43，13，45，19，49，12]，纹理转移[17]，户外保内空间生成式姿态机3(a)（b）第（1）款图二.从[56]中的工作中生成的鸟图，标题为：这只鸟有一个黑色的头，一个尖橙色的喙，和黄色的身体，（b）这只鸟有一个红色的头，一个尖橙色的喙，和黄色的身体。具有特定属性的照片生成[60，34]、具有语义布局的场景生成[30]和产品照片生成[72，18]。从表面上看，这似乎解决了安置问题。然而，这些现有的方法通常集中于保留图像（目标c）或基于上下文图像生成完全新颖的图像（目标b），但不是两者都集中。例如，当将面部照片转换为草图时，结果将保持原始面部空间轮廓不变[70]，并且当从卫星照片生成地图时，街道轮廓将不受影响[27]。相反，在基于属性的生成中，整个图像是为每个描述唯一生成的[67，30]，因此即使是微小的变化也会导致完全不同的图像。来自[56，54]的基于属性的鸟类生成模型的演示案例在图中被定义。在图2中，将图像的颜色从黑色改变1最近，已经尝试改变内部空间的一些元素，同时保留图像的其余元素。一些作品成功地保留了具有不同姿势或光照条件的对象图形身份[32，40，33，28，25，41，15，68]。这些作品包括人脸或办公椅多视图再生。然而，所有这些作品都是在简化的设置下进行的，假设一个单一的刚体，没有纹理和背景。另一项工作限制了姿势范围，使其停留在姿势流形上[68]。这使得它们在应用于具有多功能纹理和杂乱背景的自然设置的图像时非常有限我们通过生成逼真的重置图像（目标a）的我们的保持图像空间的生成姿态机（ISP-GPM）的内部复制来解决铰接式图形重置同时保持图像的内部空间（目标b和c）的问题。在ISP-GPM中，将可解释的低维姿态描述符（LDPD）分配给2D图像域中的指定图形更改LDPD会导致图形静止。对于图像再生，我们在cGAN框架中使用增强沙漏网络的堆栈我们通过简化压缩算法来替换沙漏网络原始下采样方法，以最大限度地优化原始图像和重建图像之间的“内部空间”保护。此外，我们还扩展了1对于本实验，随机项设置为零，以排除由于输入导致的差异4S. Liu和S. 奥斯塔达巴斯“位姿”概念是一种更一般的形式，其中，位姿不是单个刚体的整体，而是图像中存在的所有物理实体与其背景之间的相对关系。我们把边界推到一个极端的情况下-一个高度铰接的对象（即。人体）相对于自然背景（代码可在[2]获得）。ISP-GPM的直接结果是，通过改变图像中的姿态状态，我们可以实现对原始世界的无限生成再解释，这最终导致一次性ISP数据增强。2相关工作改变姿势在我们的物理世界中非常常见。如果我们拍照随着时间的推移，它们几乎不可能相同。这些图像由于具有相对静态的背景而共享强相似性，其中仅由对象的姿势中的变化引起的差异。我们可以保留这些差异，因为姿态信息部分地反映在这些图像中。然而，真正的“寄托”实际上发生在3D空间中，并且2D映射只是之后的简单投影。这一事实激发了Blender，Maya或3DS Max等3D渲染引擎在图形级别以（半）精确尺寸模拟物理世界，合成其中的3D对象，将对象放置在3D中，然后最终使用虚拟相机从放置的对象渲染2D图像[37]。在这个流水线之后，最近尝试生成合成的人类图像[51，61，63]。SCAPE方法使用多个姿势的人的密集3D扫描将人体形状参数化为通用模板[5]。[11]中的作者将服装照片映射到SCAPE模型中，以增强人体3D姿势数据集。物理渲染和真实纹理在[64]中组合以生成合成人类数据集。然而，这些方法不可避免地需要复杂的3D渲染引擎，并且需要来自使用特殊设备的全3D扫描或从一般化模板生成的化身数据[39，5]，这意味着这样的数据不容易访问或扩展到新颖的图形。基于图像的生成方法，如GAN和VAE已经能够生成具有大量上下文控制的逼真图像，特别是当它们被调节时[27，7，54]。还存在解决刚性的姿势问题的作品（例如，[14]或单独（例如，面[68]）对象。在[35]中采用了用于捕获移位或旋转变化的自动编码器结构，其成功地再生了具有姿势移位的2D数字和3D图形渲染图像的图像深度卷积逆图形网络（IGN）[33]学习图像的可解释基于IGN概念，Yang采用了一种递归网络来将平面外旋转应用于人脸和3D椅子，以生成新图像[68]。在[15]中，作者构建了一个用于椅子视图渲染的卷积神经网络（CNN）模型，该模型可以在给定的视点之间进行插值，以生成缺失的视点，或者通过在训练集的椅子之间进行插值来发明新的椅子样式3D MORE-保内空间生成式姿态机5phable模型到GAN结构中，作者在[71]中提出了一个框架，该框架可以用较少的训练数据在野外生成人脸正面化。这些作品实际上在某种意义上保留了内部空间信息，而目标身份不变。然而，大多数仅限于具有简单背景或没有背景的单个刚体，并且不足以处理复杂的铰接对象，例如现实背景设置中的人体。在过去的几年里，已经有一些基于图像的生成模型提出了人体休息。在[56]和[54]中，通过定位精确的身体部位，利用提供的属性合成了人物。然而，尽管姿态信息被精确地提供，但是外观在属性上下文下被随机地Lassner及其同事在[37]中通过从给定的一组属性中采样，生成了具有不同姿势和服装纹理的生动的人类形象。基于采样的方法的直接结果是图像中不同身份之间的强耦合效应，其中在不改变图像内部空间的情况下，姿势状态不能改变。在本文中，我们专注于相同的姿势和休息的主题，但将它们扩展到一个更一般的格式，高度清晰的对象与多功能的背景下现实/野生设置。我们将保留图像的原始内部空间，同时改变图像中特定人物的姿势我们的目标不是在图像上应用大的域偏移，例如将白天更改为夜晚，或将夏季更改为冬季，而是在3D物理世界中建模由运动引起的姿势偏移受这个想法的启发，我们提出了我们的内部空间保持生成姿态机（ISP-GPM），而不是基于属性的采样，我们专注于特定的图像实例。3意象的世界状态与内在空间“没有任何管理人员在系统中进行检查”，这是来自He racl i t u s的问题。我们的世界正在发生动态变化。向前走一步，举手一点，把我们的头移到一边，所有这些微小的动作都使我们在视觉上与刚才不同。这些变化也可靠地反映在我们拍摄的照片中。在大多数情况下，在短时间段内，我们可以假设这样的变化纯粹是由姿态偏移而不是所有相关的特征长度引起的。这是一个很简单的概念，即通过一个“世界”的形象来描述这个世界如果我们用一组刚体来建模世界，对于没有背景的单个刚体（大多数现有技术中的假设），世界状态可以用外观项α和姿态状态来描述当W s={α，β}时，刚体的静止过程是通过改变β到一个大的位置β（而进行的。然而，所有的图像都可以由简单的刚体来表示，但是可以由群集的铰接刚体和背景来表示。在在这种情况下，我们将世界状态表述为：W s={αi，βi，φ（i，j）|i，j ∈ N}。（一）其中，N表示世界上刚体的总数，φ（i，j）表示两个刚体之间的约束。例如，一个人6S. Liu和S. 奥斯塔达巴斯我CNN接口转换器堆叠全卷积沙漏cGAN内部空间保持生成式姿态机低维姿势描述符原始图像图三.内部空间保持生成姿势机（ISP-GPM）框架的概述。N（取决于我们选择的模板的粒度）铰接的肢体，其中它们之间的关节遵循身体的生物力学约束物理世界中的一个纯粹的静止过程应该保持αi项不变。然而，在成像过程中，只有部分αi信息被保留为αin，其中αi=αin+αout，其中αout表示缺失我我我图像中关于物理世界的信息我们假设每个图像可以部分地保留物理世界的信息，我们称这种部分保留的图像为“内部空间”。如果αi和φ（i，j）在数字化过程中保留了最大值，则我们称其为“在线空间保留”。另一个假设是，在大多数情况下，前景（F）和背景（B）应该在图像中解耦，这意味着如果图（B）中的前景（F）和背景（B）在图像中解耦，则前景（F）和背景（B）在图像中解耦。i∈F且图j∈B，则φ（i，j）为空，反之亦然。这意味着如果一只黑色头部和黄色身体的鸟是前景，那么同一只鸟可以在不同的背景中，例如在树上或天空中然而，前景和背景之间的强耦合经常出现在基于属性的模型中，如图所二、相反，我们设计了我们的生成式姿势机器来反映：（1）内部空间保持，以及（2）前景和背景解耦。4ISP-GPM：内部空间保持生成式姿势机器ISP-GPM通过以下过程解决了图像中的铰接图形的广泛姿态变换：给定具有指定图形及其可解释的低维姿态描述符（LDPD）的图像，ISP-GPM输出具有保留的原始图像内部空间的静止图形（参见图1）。（3）第三章。ISP-GPM的主要组成部分是：（1）CNN接口转换器，用于使LDPD与ISP-GPM接口的第一卷积层兼容，以及（2）生成姿态机，用于当堆叠在cGAN框架中时使用沙漏网络的回归结构来生成静止图形，以便将姿态描述符强制到再生图像中。4.1CNN接口转换器我们在2D图像域中采用LDPD，这在大多数实施例中是可行的。诸如马克斯普朗克研究所信息学（MPII）[3]和利兹运动姿势（LSP）[29]的人体姿势数据集被定义为2D关节位置的向量保内空间生成式姿态机7坐标为了使这个描述符与ISP-GPM的卷积层接口兼容，我们需要一个CNN接口转换器。最直接的转换器可以简单地设置图像中的接合点，类似于[56]中描述的工作。由于人体可以用连通图[4，8]表示，更具体地说是树结构，因此在这项工作中，我们进一步将边缘信息添加到我们的转换器中。假设人类姿势由在i个N个j中的i个上的2D10c表示。我们使用N 个字符映射将其作为joi n t m ap ，J M a p。对于具有C〇ordinates（xi，yi）的j〇n，如果j〇nti的部分关节在生成JMap时，绘制操作由诸如OpenCV [10]的图像库进行。4.2堆叠全卷积沙漏cGAN许多先前的工作已经证明了多阶段估计结构在人体姿态估计中的有效性，例如2016年卷积姿态机的革命性工作[66]。作为一个逆操作，以再生人物，我们采用了类似的多阶段结构。此外，人体姿势可以以多尺度的方式描述，从简单的关节描述到每个身体部位上的复杂服装纹理，这启发了使用具有堆叠回归结构的沙漏模型[44]。然而，代替姿态估计或分割，对于人类休息问题，需要在hourgl的编码和解码阶段两者中保留更详细的信息作为s_n_w或k。因此，我们将h作为n个w或k的最大值，并且通过纯卷积层对最近的上采样模块进行上采样，原始沙漏网络的跳跃结构也被保留，以让更多的原始高频部分通过。原始沙漏设计用于图像回归。在我们的情况下，我们通过引入结构损失[27]来增强沙漏原始设计，这会惩罚输出的联合配置。我们通过采用cGAN机制将姿势强制到生成的图像中。我们的堆叠的完全卷积沙漏cGAN（FC-沙漏- cGAN）的概述在图1B中示出。4，其中我们采用了双跳过机制，模块级跳过以及内部模块级跳过。每个FC沙漏采用类似于编码器-解码器的结构[46，6，44]。堆叠的FC沙漏在我们的设计中扮演了生成器的角色，而另一个卷积网络则扮演了生成器的角色。我们采用了类似于[44]的中间监督机制，但监督是通过L1损耗和发电机损耗进行的，如下节所述。4.3叠加发生器和鉴别器损耗由于ISP-GPM堆叠结构，发电机损耗来自所有中间级到最后一级。发电机的损耗计算如下：LG（G，D）=Eu，v[logD（u，v）]+NΣstkEu[log（1−D（u，G（u）[i]）].（二）i=18S. Liu和S. 奥斯塔达巴斯图4.第一章ISP-GPM的堆叠FC-沙漏-cGAN部分内部蓝色箭头代表图像流，黄色箭头代表沙漏特征贴图，绿色箭头代表J贴图流。其中，u表示JMap和原始图像的组合输入，并且v是目标静止图像。G是充当生成器角色的堆叠的FC沙漏，Nstk代表生成器G中的堆叠的总数，并且D是cGAN的鉴别器部分。与常用的生成器不同，我们的G根据堆栈数给出多个输出。G（u）[i]表示以u为条件的第i个输出。与传统cGAN设计的另一个区别是，我们不包括随机项z，因为它在大多数基于GAN的模型中很常见[42，62，22，67，47，23]。在传统的基于GAN的模型中具有该术语的特定原因在GAN中引入随机性的主要原因是捕获概率分布，该概率分布生成与特定风格匹配的新颖然而，我们的ISP-GPM遵循完全相反的方法，旨在实现基于内部空间参数的确定性解决方案，而不是从采样过程中生成图像。D项是鉴别器，用于显示输入是真的还是假的，以我们的输入u信息为条件。由于我们的目标是在其子空间流形上将图形回归到目标姿态，因此低频分量在这里起到重要作用，以将图形粗略地定位到正确的位置。因此，我们使用经典L1丢失：LL1（G）=NΣstki=1Eu，v[||v − G（u）[i] ||1]中。（三）我们使用加权项λ来平衡目标函数中L1和G损失∗obj = arg minmaxLG（G，D）+λLL1（G）。（四）G D5模型评估为了说明我们的内部空间保持的概念和所提出的ISP-GPM的性能，我们选择了一个特定的人物作为我们的寄托目标，hu-堆叠全卷积沙漏条件GAN（FC-沙漏-cGAN）CNN接口转换器模块级别跳过SkipSkipSkipSkip原始图像静止图像真实目标图像内部空间保持生成式姿态机目标函数LGLL1低维姿态描述子Conv层Conv层L保内空间生成式姿态机9人的身体，由于以下理由。首先，人体是根据定义的肢体粒度，具有超过14个组件的高度铰接的对象。其次，人体姿态估计和跟踪是一个深入研究的主题[59，20，66，50，9，53]，因为它在行人检测，监控，自动驾驶汽车，人机交互，医疗保健等大量应用中非常需要最后，有几个开源数据集可用，包括MPII [3]，BUFFY [21]，LSP [29]，FLIC [59]和SURREAL [64]，这些数据集可以促进基于深度学习的模型训练和广泛的模型评估测试样本。5.1数据集描述虽然存在用于人体姿势估计的众所周知的数据集[3，29，59]，但其中很少有如第3节所述，我们的目标是在图形放置之前保留原始图像的内部空间因此，我们需要具有相同α项但不同β项的图像对，这意味着相同的背景和人。大多数现有数据集是从不同的人单独收集的，图像之间没有联系，因此它们具有不同的α和β。更好的选择是从视频的连续帧中提取图像。然而，没有多少标记的视频数据集从人类是可用的。运动捕捉系统可以促进自动标记过程，但是它们关注于姿态数据而没有特别地增强外观α，如[1]中所提到的“在机器上的姿态可以被应用并且在机器上的姿态可以被执行”运动捕捉标记在取自自然环境的图像中也不常见。日常视频剪辑的另一个问题是背景不受约束，因为它可能是由相机运动或背景中的其他独立实体引起的动态。虽然，我们的框架可以通过在等式中扩展世界状态来处理这种情况。(1)为了适应场景中的多个动态人物，在本文中，我们集中在一个情况下，从一个人的图像作为感兴趣的人物在一个静态的，但繁忙的背景。或者，我们将注意力转移到具有完美关节标记和背景控制的人类姿势的合成数据集。我们采用了具有各种外观纹理和背景的合成人的SUR- REAL（合成人用于REAL任务）数据集所有姿势数据都来自卡内基梅隆大学运动捕捉（mocap）数据集[1]。用于培训的视频剪辑的总数为54265，具有组合的不同重叠设置[64]。另一组504个片段用于模型评估。使用SURREAL来满足我们的目的的一个主要问题是，人类主体并不总是显示在视频中，因为它采用固定的相机设置，并且主体由运动捕捉数据忠实地驱动。我们过滤了SURREAL数据集，以去除其中没有人类的帧以及持续时间太短的剪辑，例如1帧剪辑。5.2ISP-GPM实施我们的流水线在Torch中实现，环境设置为CUDA8.0，CUDNN 5和NVIDIA GeForce GTX 1080-Ti。我们的实施建立在10S. Liu和S. 奥斯塔达巴斯(a)（b）第（1）款图五、利用不同的下采样层来保持人体休息的内部空间：（a）利用最大池化来下采样，以及（b）利用卷积层来下采样第一列是输入图像，第二列是目标姿态的地面实况图像，最后一列是从ISP-GPM生成的图像。原始沙漏的架构[44，64]。鉴别器网络遵循[27]中的设计 β 1 = 0的Adams优化器。5，学习率为0.0002 [31]。我们使用3个堆叠的沙漏，输入分辨率为128×128。在每个沙漏中，采用5卷积配置，最低分辨率为4×4。所有比例级别都有跳过层我们在生成器训练期间使用加权和损失，更强调L1损失，以优先生成主要结构而不是纹理。我们在等式中设置λ= 100。(4)因为如果我们给出一个小的λ，我们在合成图像中观察到透明性。由于内存限制，我们的输入设置为128×128×3姿势数据是16× 2向量，以指示SURREAL数据集[64]中定义的人体的16个关键点位置在训练会话中，我们采用批量大小为3，epoch数量为5000，并为每个测试进行50个epoch。5.3不同配置为了比较具有不同模型配置的ISP-GPM之间的所得静止图像的质量，我们将输入图像固定为每个测试剪辑的第一帧，并且将第60帧或最后一帧固定为目标姿态图像。下采样策略：我们首先比较了完全卷积（FC）层与在堆叠沙漏网络中使用最大池化下采样为了进行清楚的比较，我们为不同的模型配置选择了相同的测试用例，并在图中呈现了输入图像、地面实况和生成的图像五、每行显示一个测试示例。从左到右的列代表输入图像、地面实况和生成的结果。通过给出的两个示例，很明显，最大池化倾向于保内空间生成式姿态机11见图6。不同网络配置下的静止人像：第一至第三行具有二至四层鉴别器网络，第四行没有鉴别器但只有L1损失。模糊，而FC配置输出更详细的纹理。然而，图1B的最后一行。5发现FC配置更有可能导致与最大池化配置相比，颜色异常。这是可以预期的，因为最大池化更倾向于保留区域的局部信息鉴别器层：受[27]的启发，我们采用具有不同补丁大小的鉴别器层来测试其性能。可以通过改变鉴别器层编号来调整补丁大小，以覆盖具有不同大小的补丁在这个实验中，我们选择的所有配置都可以有效地在指定位置生成人体轮廓，但只是在图像质量上有所不同。因此，我们只显示了结果，通过改变从两个到四个分层作为在1st到3rdrow的Fig中定义的。6，respecttively. 该图显示了没有鉴别器层的输出。我们发现，鉴别器确实有助于纹理生成，但是对比度较大的补丁将导致强烈的伪影，如图2的第2行和第3行所示六、在没有鉴别器并且只有L1损失的情况下，输出明显倾向于模糊，这与先前工作的发现一致[35，48，27]。我们认为较大的补丁考虑了更高级别的结构信息，但是所生成的人的局部纹理可以提供更好的视觉质量，如图1的第一行所示。6）具有两个层间。为了在训练过程中充分利用训练器的关键作用，我们在训练过程中使用不同的网络配置来减少每个组件的损失，12S. Liu和S. 奥斯塔达巴斯(a)（b）第（1）款见图7。针对不同网络配置的训练期间的损耗：（a）L1损失，（b）发电机损失。注意，没有鉴别器的模型仅显示L1损失。示于图7.第一次会议。没有鉴别器的模型仅在图中示出7a. 虽然没有鉴别器的模型在L1度量上表现出更好的性能，但它并不总是产生好看的图像，因为它更喜欢在可能的颜色中选择中值随着训练的进行，各G损失量均呈增加趋势，且最终G损失量比初始G损失量更大。通过观察训练过程，我们发现这是一个原始人逐渐消失，目标人逐渐显露的过程。事实上，无论发电机有多强，它的输出都不可能像原来的那样真实。因此，在开始时，所生成的图像将更有可能欺骗鉴别器，因为它保留了具有较少伪影的大部分真实图像信息。5.4与最新技术水平的很少有关注于经由生成模型的人类图像生成的作品，包括Reed的[55，56]和Las s ne r的[ 37]。我们将我们的ISP-GPM模型的输出与这些工作进行了比较，如图所示。8（不包括[55]，因为未提供代码）。我们省略了图中的输入图像8，并且仅显示静止的，以提供与其他方法的直接视觉比较。F ig. 8showsatLassner' s [ 37] m e d h o r e r e d i m e r e r e d i m e r e r e d im e r e r e d i m e r e r e d i m e r e r e d i m e r e r e d i m e r e r e d i m e r er 然而，需要注意的是，在Lassner r中的某些情况。首先，它们的生成过程更像是来自人类图像流形的随机采样过程第二，对模型进行条件化处理(a)(b)（c）第（1）款图8. 由（a）Lassner [37]，（b）Reed [56]和（c）我们的ISP-GPM提出的人物生成模型的图像质量比较保内空间生成式姿态机13GPM-MPIIGPM-SUREALMPIISUREALISP-GPM的输入逐像素RMSE比较(goalc）、未受影响区域休息图阻滞面积（已恢复）10.80.60.40.2原始图像LDPD地面真实目标图像ISP-GPM基于PCK的重置图像位姿估计比较（目标a和b）（一）000.1 0.2 0.3 0.4 0.5PCK总计(b)见图9。(a)ISP定量评估示意图。（b）在MPII、SURREAL和我们的ISP-GPM数据集上测试的姿态估计准确度比较。在姿态上，需要SMPL模型用于轮廓生成，这不可避免地利用3D引擎。第三，它们可以生成具有生动背景的人，然而，这就像是预先充分观察背景图像的直接掩模重叠过程在我们的ISP-GPM中，在同一管道中生成并合并人和背景。我们的姿态信息是一个低维的姿态描述符，可以手动生成另外，由于人面向方向和场景中的人引起的遮挡，人和背景两者仅部分地被观察到。至于[56]，这项工作不是ISP模型，如图1中的例子所示。二、5.5定量评价为了联合评估目标a和b，我们假设如果生成的静止图像具有指定的姿势，则它们的姿势应该可以通过在真实世界图像上训练的姿势识别模型来识别。我们采用了具有卷积网络架构的高性能姿态估计模型[44]，以将静止合成图像中的估计姿态与输入中分配给它的LDPD进行比较。我们从MPII人体姿势和SURREAL数据集中连续选择了100张图像，以避免可能的樱桃采摘。我们选择随机视频序列的第20帧来安置原始图像以形成重新渲染的ISP-GPM版本数据集，即具有与MPII联合定义兼容的联合标签的MPII-GPM和SURREAL-GPM。请注意，为了合成静止图像，我们使用具有三层鉴别器和L1损失的ISP-GPM模型，如第5.3节所述我们使用正确关键点概率（PCK）标准进行姿态估计性能评估，这是联合定位精度的度量[69]。在MPII-GPM和SURREAL-GPM数据集上测试的平均姿态估计率（在12个身体关节上）在图1中示出。9 b，并与来自原始MPII和SUR- REAL数据集的100张图像上测试的姿态估计器精度[44]进行比较。这些结果表明，经过良好训练的姿态估计器模型能够识别我们的静止图像的姿态，在PCK0.5度量上的准确率超过80%。因此，ISP-GPM不仅可以准确地再现人体，而且还可以使其具有足够的真实感，以欺骗最先进的姿态检测模型将其部分视为人体肢体。关于目标c，我们在两个方面测试了内部空间保持能力：（1）静止图像的背景（即，未受影响区域）应估计率（%）14S. Liu和S. 奥斯塔达巴斯(a)(b)（c）第（1）款图10个。人物的ISP安置：（a）MPII数据集[3]，（b）LSP数据集[29]和（c）一个在以下文献中的作品，MadameX（1884）-J ohn Si n g e r S a rg e nt，Sil v e r F a v o u ri t es（1903）- L a w re n c e A l m a - T a d e ma， S a i n t S e b a s t i an T e nd e d - S a i n t Ire n e and her Maid-Bernardo Strozzi。尽可能地保持与原始图像相似，以及（2）应当相对于上下文来恢复被处于原始姿势的人物遮挡的区域为了测试（1），我们在原始图像和目标图像中遮挡感兴趣图形占据的受影响区域，并计算两个图像的未受影响区域之间的逐像素平均RMSE（RMSE =0.050±0.001）。为了评估（ 2 ），我们将恢复的阻挡区域与真实目标图像进行比较（RMSE=0.172±0.010）。这些结果说明，我们的ISP-GPM是能够保持高精度的背景，同时恢复合理的阻塞区域。请注意，该模型从未在原始图像中看到人的后面，并且它试图重建与图像的其余部分兼容的纹理，因此RMSE较高。6现实世界为了更好地说明ISP-GPM的能力，我们将其应用于来自知名数据集MPII [3]和LSP [29]的真实世界图像。由于没有地面实况来说明目标姿势，我们通过根据关节的运动学关系连接关节来将LDPD可视化为骨架MPII [3]和LSP [29]的ISP静止图像如图所示10a和图10b分别。每个示例从左到右显示输入图像、可视化骨架和生成的图像。艺术源于现实世界，我们相信艺术家在创作的同时，也保留了一个想象世界的内部空间。因此，我们还将ISP-GPM应用于受人物启发的艺术，包括绘画和雕塑。它们要么来自可公开访问的网站，要么来自博物馆中由普通智能手机摄像头拍摄的艺术作品。ISP重新定位结果如图所示。10c.从真实世界的图像的结果，有前途的性能ISP-GPM是显而易见的。然而，仍然存在失败的情况，例如网络无法完全擦除原始人的残留物或丢失详细的纹理和形状信息。保内空间生成式姿态机15引用1. CMU 图形实验室运动捕捉数据库。 http://mocap.cs.cmu.edu/info.php（2018）2. ISP-GPM 代码。 http://www.northeastern.edu/ostadabbas/2018/07/23/inner-space-preserving-generative-pose-machine/（2018）3. Andriluka，M.，Pishchulin，L. Gehler，P. Schiele，B.：2D人体姿态估计：新的基准和最先进的分析。IEEEConferenceonncomputerVisionandPatternRecognitionpp. 36864. Andriluka，M.，Roth，S.，Schiele，B.：图片结构回顾：人物检测和关节姿态估计。计算机视觉与模式识别， 2009 。 CVPR2009 。IEEEConferenceonpp. 10145. Anguelov，D.，Srinivasan，P.科勒D. Thrun，S.，Rodgers，J.，Davis，J.：景观：人的形体完成与动画。ACM图形事务（TOG）24（3），4086. Badrinarayanan，V. Kendall，A.，Cipolla，R.：Segnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions onPat-ternanalysisandmacinein e intelligence39（12），248 17. Bao，J.，Chen，D.，中国农业科学院，温，F.，Li，H.，Hua，G.：CVAE-GAN：通过非对称训练生成细粒度图像CoRR，abs/1703.10155 5（2017）8. 在这之前，M. Kap pes，J. S.，S.， S chnoürr，C. ：一种使用完全图进行基于对象的类检测的方法。国际计算机视觉杂志87（1-2），93（2010）9. Bourdev，L. Malik，J.：Poselets：使用3d人体姿势注释训练的身体部位检测器。计算机视觉，2009年IEEE第12届国际会议，pp。第136510. Bradski，G.，Kaehler，A.：OpenCV. 博士多布斯软件工具杂志3（2000）11. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：Deeplab：使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割。IEEETransactions on pattern analysis and machineintelligence40（4），83412. Ciresan，D. Giusti，A.，Gambardella，L.M.，Schmidhuber，J.：深度神经网络在电子显微镜图像中分割神经元膜。神经信息处理系统的进展。284313. Dai，J.，他，K.，孙杰：用于联合对象和填充物分割的卷积特征掩蔽。ProceedingsoftheIEEEConferenceonComputerVisionandPat-ternRecognitionpp. 399214. Dosovitskiy，A.，Brox，T.：基于深度网络生成具有感知相似性度量的图像。神经信息处理系统进展65815. Dosovitskiy，A.，Springenberg，J.T.，Brox，T.：学习用卷积神经网络生成椅子。计算机视觉与模式识别（CVPR），2015IEEEConferenceonpp. 153816. Dosovitskiy，A.，Springenberg，J.T.，Tatarchenko，M.，Brox，T.：学习用卷积网络生成椅子、桌子和汽车。 IEEEtransactionsonpatternanalysisandmacinei n e intelligence39（4），69217. 埃夫罗斯，匿名戒酒会弗里曼，W.T.：图像绗缝纹理合成和转移。第28届计算机图形学和交互式技术年会论文集。34116S. Liu和S. 奥斯塔达巴斯18. Eitz，M.，Hays，J.，Alexa，M.：人类如何绘制物体？ACM Trans.Graph.31（4），4419. 法拉贝特角库普利角Najman湖LeCun，Y.：学习层次特征用于场景标记。IEEE transactions on pattern analysis and machine intelligence35（8），191520. Felzenszwalb，P.，McAllester，D. Ramanan，D.：一个有区别的训练，多尺度，可变形的部分模型。计算机视觉与模式识别，2008年。CVPR2008.IEEEConferenceonpp. 第121. 法拉利，V。，Marin-Jimenez，M.，齐瑟曼，A.：用于人体姿态估计的渐进式搜索空间缩减。计算机视觉与模式识别， 2008 年。 CVPR2008.IEEEConferenceonpp. 第122. Gauthier，J.：用于卷积人脸生成的条件生成对抗网络。斯坦福大学CS231N课程：卷积神经网络用于视觉识别，冬季学期2014（5），2（2014）23. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A. Bengio，Y.：生成性对抗网。神经信息处理系统进展。267224. Hariharan ， B.Ar bela'ez ， P. ，Gir shi ck ， R. ，Malik ， J. ：Simultaneusdetectionandsegmention。EuropeanConferenceonComuputerVisionpp. 29725. 辛顿通用电气Krizhevsky，A.，Wang，S.D.：转换自动编码器。Interna-tionalCo nfer nceo nArticialNe uralNetwo rks pp.第4426. Iizuka，S.，Simo-Serra，E.，Ishikawa，H.：要有颜色！：联合端到端学习全局和局部图像先验，用于自动图像着色和同时分类。ACM Transactionson Graphics（TOG）35（4），110（2016）27. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。ArXiv预印本（2017）28. Jampani，V.，诺沃津，S.，Loper，M.，Gehler，P.V.：知情

下载后可阅读完整内容，剩余1页未读，立即下载