基于空间自适应实例归一化的神经姿势传递模型

80 浏览量更新于2023-10-23 收藏 2.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5831基于空间自适应实例归一化的王嘉顺1张超文1张彦伟1林海涛1邹天云1薛向阳1张银达21复旦大学2Google LLC图1：四组姿势转移示例。每个可视化组由3个网格组成，输入姿势网格，输入身份网格和我们的结果。对于前两组，我们显示了来自SMPL [16]的姿态网格，来自FAUST [4]的身份网格和我们的结果，第三组的身份网格来自MG数据集[3]，最后一组显示了我们来自动物数据集的姿态转移结果[24]，请参阅补充材料以了解更多细节。摘要位姿变换是一种将源网格的位姿应用到目标网格上的方法。特别是在本文中，我们感兴趣的是转移环的姿态源人体网格变形的焦油，得到人体网格，而源网格和目标网格可能具有不同的身份信息。传统的研究认为，成对的源网格和目标网格存在用户标注的界标/网格点的逐点对应关系另一方面，当源和目标网格具有不同的身份时，深度模型的泛化能力是有限的。为了打破这一限制，我们提出了第一个神经姿势传递模型，解决了*表示平等缴款。†表示通讯作者。傅延伟、王嘉顺分别就职于数据科学学院、MoE脑科学前沿中心、上海市智能制造重点实验室信息处理复旦大学.赵文，复旦大学通过最新的图像风格转换技术进行姿态转换，利用新提出的组件-空间自适应实例归一化。我们的模型不需要源和目标网格之间的任何对应关系。实验结果表明，该模型能有效地将变形从源网格转移到目标网格，并具有良好的泛化能力，能够处理网格的不可见身份或姿态代码可在https://github.com/jiashunwang/Neural-Pose-Transfer上获得。1. 介绍几十年来，变形传递一直受到人们的关注例如，在游戏和电影中，可以很容易地将姿势从一个人的网格转移到另一个人然而，当存在巨大的“形状间隙”时，如图1B所示，给出了源网格和目标网格的非常不同的身份，这是非常具有挑战性的1.一、为了使这一点可行，以前的工作要求加强源和目标网格之间的对应关系，附加信息，如逐点5832对应[24]、辅助网格[26]、人体关键点注释[2]、骨架姿势[5]、密集对应[10]等。不幸的是，获得用于变形传递的这样的附加输入是不平凡的并且耗时的。在这项工作中，我们提出了一种用于人类姿势转移的深度学习模型，该模型将姿势从源网格转移到目标身份网格，如图所示。二、我们的模型不依赖于任何额外的辅助输入来实现或显式地建立对应关系，并且可以用于具有随机和不同顺序的顶点的源和目标网格。这些灵活性使我们的模型非常方便地在实践中使用，并可以直接从任意来源获得的身份网格，但这是非常具有挑战性的实现现有的变形为基础的方法的作为输出，我们的模型产生一个人的网格与身份从目标网格和姿势从源网格。从本质上讲，我们的核心思想是重新利用风格转移技术，这是广泛用于图像分析的变形转移问题。该模型将目标网格的身份信息作为一种我们不是明确地学习从源网格变形目标网格，而是堆叠几个卷积层来逐渐编码来自源网格的姿态信息，然后在从目标网格学习的特征的指导下将其解码回所需的输出。受空间自适应实例归一化层（SPAdaIN）[12]在2D图像风格传输方面取得的巨大成功的启发，我们将其引入3D领域，以与PointNet类似的网络架构一起处理点云[22]。在用于2D图像样式转换的SPAdaIN中，从目标图像中的每个像素（“样式”）学习仿射变换，我们通过在图像像素和网格顶点之间进行类比来设计我们的模型特别地，我们首先学习源网格中每个顶点的特征向量（然而，这不会简单地工作，因为源和目标之间的对应关系是未知的。要在源网格对于顶点顺序排列是不变的，1×1的卷积滤波器被用于每个单独的点，并且（在所有点之间）附加实例归一化以全局交换上下文。然后，可以将所学习的特征与目标网格版本相关联用于风格转换的任意排列的样式。我们发现该模型有效地将看不见的身份转移到源姿态网格上，并且产生比最先进的方法更准确的人体形状，甚至需要额外的辅助输入。图2：姿势从源网格转移到目标网格。与传统方法不同的是，我们只需要姿态和身份网格，而不需要任何额外的输入。捐款.本文的贡献归纳如下。据我们所知，我们提出了第一个端到端深度学习模型，该模型利用来自另一个网格的姿势来变形身份网格，即使身份网格是不可见的并且具有更细粒度的几何细节。我们的模型不需要任何额外的辅助网格或额外的知识来弥合源和目标网格之间的巨大视觉差距。我们的模型也方便在实践中使用，因为姿势和身份网格可以有不同的顶点顺序。此外，我们的模型是强大的姿态网格几何噪声。大量的实验表明，该模型能够实现从源网格到目标网格的位姿推理和传递，且推理结果与源网格和目标网格之间的网格顶点顺序无关。2. 相关作品变形转移。变形转移的目的是在给定一对源和目标形状以及变形的源形状的情况下产生新的3D形状，使目标形状进行相同的变形（图1）。2）。然而，一些基于蒙皮骨架动画的传统方法[14]需要额外的手动调整。或者，许多作品利用仿射变换来生成目标形状[24，26，27]。Sumner等人[24]转移变形梯度，但需要相应的界标来处理形状之间的差异。Baran等人[1]假设两个角色的姿势之间的语义关系。然而，语义相似对的要求限制了该方法的可用性。 Ben等人[2]在一组控制笼的帮助下变形为目标形状。Chu等人[5]提出用几个例子来产生自然的结果。即使取得了令人印象深刻的成功，对辅助数据的依赖也使得难以为基于图形的方法自动转移姿势。为了解决这个问题，Gaoet al. [9]建议的VC-GAN，使用循环consis-5833以实现变形传递。但这种方法也带来了另一个问题，由于过度依赖训练数据而失去了通用性。每当处理新的身份时，它需要收集训练数据并重新训练模型。非刚性形状表示的深度学习。[25，15]提出了网格变分自动编码器来学习网格嵌入以进行形状合成。然而，它们仅仅使用全连接层，这将消耗大量的计算资源。[8]使用网格卷积来捕获三维网格的三角形面特征。尽管他们的方法使用空间和结构信息，但由面部表示的特征不适合我们的任务。Qi等人提出了PointNet[22]从无组织点云中提取特征，但丢失的边缘信息将导致具有离群值的变形3D形状。因此，我们使用网格作为3D形状的表示，但使用共享权重卷积层作为编码器的网络结构。条件规范化和风格转换。已经提出了几种条件归一化方法[7，6，12，23]。首先，它们用于风格转换，然后是其他视觉任务[13，18，20，17，28，21]。这些工作需要外部数据。在对激活层的均值和偏置进行归一化处理后，利用这些外部数据学习仿射变换参数，对激活层进行反归一化处理。Park等人[19]提出了一个类似的想法，以帮助图像合成，但从空间的方式使用空间变化的语义掩码。这启发我们将空间三维网格作为外部数据来生成我们期望的网格。由于点的三维坐标是三维数据最重要的空间和自然表示形式之一，因此直接在空间意义上进行坐标归一化的思想非常直观，实验结果证明了该方法的有效性。SPAdaIN与其他条件归一化。特别是，我们强调的区别是：（1）与SPADE [19]相比，我们使用实例规范化。由于每个实例可能具有不同的特征来引导传输，因此按通道方式规范化网络的激活是不合理的。因此，我们规范化的空间变化参数的实例，这是更适合于神经元的姿态转移任务。(2)与CIN [7]相比，我们的规范化参数向量不是从一组固定的身份或姿态中选择的，相应的参数γ和β是自适应学习的，因此，他们的方法在没有重新训练的情况下不能适应新的身份或姿态此外，它们的参数是跨空间轴聚合的;因此，它们可能丢失特定空间位置中的某些细节特征。（3）AdaIN[12]也不适合于姿势转移。虽然AdaIN可以处理任意的新身份或充当向导，但AdaIN中没有可学习的参数由于图3：不同参数对3D人体网格模型的影响。每一行表示当改变α、β、θ中的一个参数时网格的变化。α控制网格标识，β控制网格姿势，θ指示顶点顺序。最后一行的网格颜色编码网格顶点索引。由于缺乏可学习的参数，当采用AdaIN作为归一化时，网络将倾向于模仿M的形状，而不是将其用作产生新姿态的条件3. 方法在本节中，我们将介绍我们用于人体姿势转换的深度学习模型（图1）。4）.我们的模型受到了图像风格转换的高度启发。以源网格为载体的姿态，我们的模型产生一个功能，为每个顶点编码的局部细节和全球范围内。每个顶点的功能，然后连接到目标网格中的顶点位置提供的身份，这是馈入到由 SPAdaInResBlocks组成的风格转换解码器。在整个解码器中，每个特征在来自目标网格的顶点的引导下在输出网格中产生一个顶点。最终输出网格继承源网格的姿势和目标网格的标识网格顶点顺序与单位网格一致.3.1. 问题定义我们用M（α，β，θ）表示三维人体网格。如图3，α表示网格恒等式的参数，5834^图4：网络架构。蓝色部分是置换不变编码器，黄色部分是SPAdaIN引导解码器。给定Mid和Mpose作为输入，生成转换为新姿态的网格符号表示连接操作图5：详细的网络组件架构。（a）姿态特征提取器的架构，（b）SPAdaIN的架构和（c）SPAdaIN ResBlock的架构。控制网格形状，β表示不同的人体姿态，θ表示顶点顺序。给定两个网格Mid=M（α1，β1，θ1）和Mpose=M（α2，β2，θ2），我们的目标是通过产生输出网格M输出=M（α1，β2，θ1）。3.2. 置换不变姿态特征提取器我们首先介绍我们的姿态特征提取器E。编码器的目的是提取特征F姿态的有序输入网格顶点。编码器E通过姿态特征提取器获取M个姿态顶点坐标，如图1所示。第五条（a）款。姿态特征提取器由3个堆叠的1×1卷积和InstanceNorm层组成，所有激活应用于卷积层的函数是ReLU。然后编码器将姿态特征与模板身份网格M_id的顶点坐标连接，以最终产生潜在嵌入Z=F_pose_M_id（P表示连接）。需要讨论的一个架构选择是为什么F姿态是张量而不是全局向量。以来不同训练数据的顶点顺序不一致，归一化是聚集全局上下文的必要条件，InstanceNorm（IN）是对特征进行归一化的唯一选择。然而，如果E将姿态特征编码为全局向量，然后将其附加到M_id，则计算IN将导致姿态特征被归一化为零。所以我们更喜欢学习具有与M_id相同的空间大小的姿态特征。原则上，这将允许整个流水线保留空间信息并且不需要M_id和M_pose之间的逐点对应。3.3. 风格转换解码器在本节中，我们首先介绍我们的新条件然后，我们描述了基于SPAdaIN ResBlock的解码器架构。斯巴达。扩展以前的风格转换工作[7，12，19]，我们提出了空间条件归一化来生成应用于姿势转换任务的3D人体形状，同时保持网格的身份。特别地，SPAdaIN是[12，19]处理点的推广。与IN类似，激活在空间维度上独立地针对每个通道和实例进行归一化，然后用学习的尺度γ和偏置β进行调制。注意，这里我们假设在第i层中，M是提供身份的3D模型，Vi是该层中的3D形状顶点的数量，Ci是特征通道的数量，N表示批量大小，h是激活值。网络的作用值（脚注表示具体指标，其中n∈N，c∈Ci，v∈Vi）。标准化的值58352Σh22ΣΣSPAdaIN可以计算如下，面受[10]的启发，设N（p）是顶点的邻域，p，边缘长度正则化可以定义如下，in，c.σin， =1Vi1=ViΣ。vin，c，vvΣ（一）L边缘 =p v∈N（p）||p-v ||2（六）SPAdaIN（h，M）= γ（M）。hi− µ我σ+β（M）in，c，vvin、cn、c我v（三）数据集我们使用SMPL模型[16]生成训练并通过对参数空间进行随机采样来测试数据为了创建训练数据，我们生成16个identi的网格其中γ和β是可学习的仿射参数，ε=1e−5数值稳定性。详细的SPAdaIN模块结构示于图5（b）。在SPAdaIN中，外部数据Mid被馈送到2个不同的1×1卷积层，以产生调制参数γ和β。将参数相乘并添加到归一化特征。译码器我们采用的解码器架构是受风格转换任务的启发。我们首先将潜在的嵌入Z馈送到解码器中，由多个SPAdaIN ResBlocks组成。如图4、整体架构有3个SPAdaIN ResBlocks 。图 5 （ c ）示出了 SPAdaINResBlock 架构的细节。每个 SPAdaIN ResBlock 由SPAdaIN块组成，后面是1×1卷积层和ReLU激活函数，3个相同的单元以残差块的形式组织[11]。然后将此操作的输出馈送到双曲正切层，生成最终输出M_output。3.4. 损失函数为了有效地训练我们的网络，我们引入并定义损失函数L如下：L=Lrec+λedg·Ledg（4）其中λedg是边缘正则化系数重建损失。损失的目的是回归的顶点接近其正确的位置。我们预处理地面与模板身份模型具有相同顶点数的真实值，并使用由我们的模型M^（α1，β2，θ1）预测的网格与地面真实网格M（α1，β2，θ1）之间的逐点L2距离的监督来训练网络。与400个姿势，并随机选择两个作为一对，训练通过运行SMPL获得地面实况模型[16]分别从两个网格中获得所需的形状和姿态参数为了保持顶点顺序的不变性，在输入网络之前，网格顶点被随机地重排。因此，地面实况网格以与身份网格相同的方式被混洗，使得它们逐点对齐到其对应的输入网格。在测试步骤中，我们评估我们的模型，将可见和不可见的姿势转移到新的身份。为此，我们创建了14个不在训练集中的新身份。我们使用这些新的身份形成72对随机选择的训练姿势，和72对新创建的姿势。为了进一步测试我们的模型是如何推广的，我们使用了FAUST [4]和MG数据集[3]的网格。这些网格与SMPL并不严格一致，但具有更精细的几何细节和更真实的效果.对于所有的输入网格，我们将它们移到中心，并将它们缩放到单位球面，我们的方法对全局尺度是鲁棒的。实作详细数据。训练我们网络的超参数如下。我们使用Adam优化器，学习率为5e-5。损失函数中的λedg设为5e−4。该模型在单个GTX 1080Ti GPU上训练了200个epoch，批量大小等于8请回复-请参阅补充资料，了解更详细的网络架构。评估指标。由于输出网格与地面实况逐点对齐，因此我们使用逐点网格欧氏距离（PMD）作为我们的评估指标。特别是，Lrec=||M^（α1，β2，θ1）−M（α1，β2，θ1）||2（五）PMD=1|V|||2 ||2v（七）边长正则化。直接回归顶点位置不会保证避免转移产生超长的边缘，因为我们倾向于使其中我们有网格顶点Pv∈Qv∈M（α1，β2，θ1）.M^（α1，β2，θ1）和生成的模型表面光滑。为了解决这个问题，我们进一步提出了边缘长度正则化惩罚长边。具体地，该正则化强制输出网格表面是紧密的，从而产生平滑的4.2. 与变形传递的比较在这一节中，我们比较了变形传递基线，并给出了定性和定量的结果.µH-µin，c，v2 +ε（2）in，Σ4. 实验4.1. 实验装置5836图6：所见姿势的定性比较。从左到右，我们在每一行中显示：输入身份网格，输入姿态网格，DT [ 24 ]的结果分别使用5个控制点和13个控制点，我们的结果和地面真实。我们的预测有更自然的关节运动。图7：看不见的姿势的定性比较。Mid和Mpose都是不可见的。从左到右，我们在每行中显示：输入身份网格，输入姿势网格，分别使用5个控制点和13个控制点的DT [24]的结果，我们的结果和地面实况。我们的预测在关节处更自然据我们所知，目前还没有基于学习的方法来设计新的身份的变形转移。最有效的方法之一是变形传递（DT）[24]，然而，它必须依赖于附加控制点和第三个网格作为辅助输入。为此，我们为DT提供第三个网格，并使用5个和13个控制点运行它。定性结果见图。6和图7和定量结果显示在选项卡. 1.一、可以看出，我们的模型在看到的姿势上学习，以有效地将姿势转移到测试集中的新身份，而我们的方法的PMD显著低于DT的PMD，DT甚至具有额外的输入。这大大验证了我们的模型在学习变形网格的有效性。此外，对于那些在训练阶段从未见过的姿势，我们的模型表现出非常好的泛化能力，并且仍然可以生成5837如图所示，合理的好结果。7.第一次会议。请注意，DT不是一种基于学习的方法，因此它在训练集和测试集上具有非常相似的性能。为了证明我们的模型对网格顶点置换是不变性的图8示出了具有对顶点索引进行颜色编码的输入和输出网格。可以看出，我们的模型可以产生类似的输出网格与输入身份网格在不同的洗牌。这表明，输出顶点顺序保持相同的身份网格。表1：平均PMD的定量比较。PMD ↓（×10−4）图9：定性消融研究结果。我们展示了（a）我们的朴素基线concat 1，（b）我们的模型没有SPAdaIN模块，（c）我们的模型没有姿势类型[24]第13话第14话第15话边缘正则化和（d）我们的完整模型。我们可以看到SPAdaIN在学习姿势转移方面非常有帮助，seen-pose 7.3 7.7 1.1unseen-pose 7.2 6.7 9.3图8：顶点索引颜色编码的可视化。我们给出了两对不同顶点阶数的输入网格和预测结果。从左到右，M姿态、Mid和M输出。我们的姿态转移结果的顺序是一致的身份网格。4.3. 消融研究在本节中，我们通过一些消融研究来验证我们模型的关键组件的有效性。我们从一个简单的网络架构开始，其中解码器只由几个1维卷积滤波器（conv1d）组成。然后，我们依次将ResBlock和SPAdaIN添加到网络中我们将这两个简单的方法命名为concat 1和w/o SPAdaIN。定量评价见表1。2，一些例子可以在图中找到9 .第九条。可以看出，naive conv1d（concat1）的表现并不好，当向网络添加更多组件特别是，SPAdaIN在学习姿势转移方面非常有帮助，边缘损失可以帮助生成更平滑的结果。图10：基于非SMPL的同一性的定性比较。分别使用FAUST [4]和MG-数据集[3]作为身份网格将误差从8减小。三比一。1关于看到的姿势和从十三岁七到九3看不见的姿势这意味着样式传递网络可以有效地将身份作为样式传递到目标网格上。我们还评估了边缘正则化损失对模型性能的影响。在Tab中比较。2、边缘正则化损失一致性降低了可见和不可见姿态的测试数据集上的PMD从图9中可以看出，与不使用边缘正则化损失的结果相比，如果使用边缘损失进行训练，结果会更平滑5838表2：可见和不可见姿势的定量消融研究。我们展示了PMD的度量，其中有一个朴素的基线（concat1），SPAdaIN和边缘正则化禁用re-establishment，full表示我们的完整模型。姿势源PMD ↓（×10−4）concat1 w/o SPAdaIN w/o edg fullseen-pose 12.1 8.3 1.2unseen-pose图11：基于非SMPL的姿态的定性示例。我们使用FAUST [4]中的网格作为姿势网格来显示结果。我们的系统具有从非SMPL网格转移姿态的能力。4.4. 泛化能力在本节中，我们研究了我们的方法从跨源数据和鲁棒性的推广能力具体来说，我们测试我们的模型与非SMPL为基础的身份和构成网格。值得注意的是，SMPL创建的训练数据受到高度约束，缺乏几何细节。我们的深度学习模型可以处理超出SMPL能力的细节。基于非SMPL的身份我们首先测试我们的模型如何使用严格意义上不是SMPL模型的人类网格执行。为此，我们从FAUST [4]和MG数据集[3]中选取网格，其中包括穿着的人体网格作为身份网格。通过SMPL训练数据集得到的模型不需要输入网格顶点的顺序或顶点的个数，但必须设置与识别网格点相同的姿态网格点的个数。SMPL网格每个有6890个点，FAUST有与SMPL相同的点数。对于每个网格为27554的MG数据集[3在图10中，我们可以看到，即使使用不是来自SMPL的身份网格，我们的模型仍然产生正确的姿势，同时保持不是由SMPL编码的几何细节，例如，胡子和衣服。另一方面，DT图12：对噪声的鲁棒性。当使用具有噪声的姿势网格（a）时，我们的方法（c）仍然表现得非常好，然而，DT [24]（b）可能会保持不期望的几何噪声。有时在手指附近产生更明显的伪影基于非SMPL的姿势。然后，我们测试我们的系统与非SMPL为基础的源网格提供的姿态。我们给出了使用FAUST [4]中的网格作为图中的姿势网格的示例。11个国家。如图11，我们的模型仍然设法产生相当好的结果。对噪声的鲁棒性最后，我们在姿态网格中测试模型对噪声的鲁棒性。我们通过向点坐标添加随机扰动来手动向姿态网格添加噪声，因为在应用过程中有时可能会有一些噪声令人惊讶的是，如图所示。12、我们的方法还是做得很好的。5. 结论在本文中，我们提出了一种高效的基于深度学习的架构，以有效地将姿态从源网格转移到目标网格。整个网络的设计思想是将图像域中的风格传递推广到点的处理上。因此，引入了新的组件- SPAdaIN来实现我们的想法。引人注目的是，我们的经验验证和表明，我们的网络具有潜在的能力，在推广到不可见的网格，是- ING不变的源和目标网格的不同顶点顺序。通过与其他方法的比较，我们证明了该模型能够很好地处理噪声条件下的位姿转换和任意顶点置换，最重要的是不依赖于辅助网格的额外输入或额外的知识。确认这项工作得到了国家自然科学基金项目（U1611461），科学和技术上海市项目委（19511120700，19ZR1471800）、上海市科技重大专项（2018SHZDZX01）、上海市科研创新功能计划（17DZ2260900）。5839引用[1] 伊利亚·巴兰，丹尼尔·弗拉西奇，埃坦·格林斯彭和约万·波普。语义变形传递。在ACMTransactionson Graphics（TOG），第28卷，第36页中。ACM，2009年。2[2] Mirela Ben-Chen，Ofir Weber，and Craig Gotsman.空间变形传递2009年ACM SIG-GRAPH/Eurographics计算机动画研讨会论文集，第67-74页。ACM，2009年。2[3] BharatLalBhatnagar ， GarvitaTiwari ， ChristianTheobalt，and Gerard Pons-Moll.多服装网：学习从图像中打扮 3d 人 IEEEInternational Conference on ComputerVision（ICCV）IEEE，2019年10月。一、五、七、八[4] Federica Bogo ， Javier Romero ， Matthew Loper ， andMichael J.黑色. Faust：3D网格配准的数据集和评估。在IEEE计算机视觉和模式识别会议（CVPR）上，2014年6月。一、五、七、八[5] 朱洪国和林朝宏。基于实例的三维多边形模型变形传递。J. Inf. Sci. Eng. ，26（2）：379-391，2010. 2[6] Harm de Vries ， Florian Strub ， Jeremie Mary ， HugoLarochelle，Olivier Pietquin，and Aaron C Courville.通过语言调节早期视觉处理在重症盖永联合V. Luxburg，S. Bengio，H.瓦拉赫河Fergus，S.Vish-wanathan和R. Garnett，编辑，Advances in NeuralInformation Processing Systems 30 ，第 6594-6604 页。Curran Associates，Inc. 2017. 3[7] Vincent Dumoulin ， Jonathon Shlens ， and ManjunathKud-lur. 对艺术风格的博学的表现arXiv预印本arXiv：1610.07629，2016。三、四[8] 冯雨桐、冯一凡、游浩轩、赵喜斌、高岳。Meshnet：用于3D形状表示的网格神经网络。在AAAI人工智能会议论文集，第33卷，第8279-8286页3[9] Lin Gao，Jie Yang，Yi-Ling Qiao，Yukun Lai，PaulRosin，Weiwei Xu，and Shihong Xia.自动不成对形状变形转移.ACM Transactions on Graphics，37（6）：12[10] Thibault Groueix、Matthew Fisher、Vladimir G Kim、Bryan C Russell和Mathieu Aubry。3d编码：通过深度变形的3d对应。在欧洲计算机视觉会议（ECCV）的会议记录中，第230-246页，2018年。二、五[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。5[12] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE计算机视觉国际会议论文集，第1501-1510页，2017年。二、三、四[13] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第172-189页，2018年。3[14] 亚历克·雅各布森，伊利亚·巴兰，乔·沃·波普·维西，还有奥格·索金。实时变形的有界双调和权重。ACM图形汇刊（ACM SIG-GRAPH），30（4）：78：1-78：8，2011。2[15] 或者 Litany ， Alex Bronstein ， Michael Bronstein 和Ameesh Makadia。可变形形状完成与图形卷积自动编码器。在IEEE计算机视觉和模式识别会议论文集，第1886- 1895页3[16] Matthew Loper、 Naureen Mahmood 、Javier Romero 、Gerard Pons-Moll和Michael J Black。Smpl：一个有皮肤的多人线性模型。 ACM transactions on graphics（TOG），34（6）：248，2015。一、五[17] 拉尔斯·梅谢德安德烈亚斯·盖格和塞巴斯蒂安·诺沃津。gans的哪些训练方法实际上是趋同的？arXiv预印本arXiv：1801.04406，2018。3[18] 宫人武和小山正则。具有投影鉴别器的CGNSarXiv预印本arXiv：1802.05637，2018。3[19] Taesung Park ， Ming-Yu Liu ， Ting-Chun Wang ， Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在IEEE计算机视觉和模式识别会议论文集，第2337-2346页三、四[20] 伊森·佩雷斯，哈姆·德·弗里斯，弗洛里安·斯特鲁布，文森特·杜莫林，和亚伦·库维尔.学习视觉推理没有强烈的先验知识。arXiv预印本arXiv：1707.03017，2017。3[21] 伊森·佩雷斯，弗洛里安·斯特鲁布，哈姆·德·弗里斯，文森特·杜莫林，和亚伦·库维尔.影片：具有一般条件层的视觉推理。在第三十二届AAAI人工智能会议上，2018年。3[22] Charles R Qi ，Hao Su ， Kaichun Mo ，and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在IEEE计算机视觉和模式识别会议论文集，第652-660页二、三[23] Cheng Shi 12，Chun Yuan，Jiayin Cai，Zhuobin Zheng12，Yangyang Cheng 12，and Zhihui Lin 12.用于组合推理的条件kro- necker批处理规范化。2018. 3[24] RobertWSumner和J ov anPop o v ic'。三角形网格的变形传递ACM Transactions on graphics（TOG），23（3）：399-405，2004. 一二六七八[25] Qingyang Tan，Lin Gao，Yu-Kun Lai，and Shihong Xia.用于使3d网格模型变形的可变自动编码器。在IEEE计算机视觉和模式识别会议上，2018年6月。3[26] Weiwei Xu ， Kun Zhou ， Yizhou Yu ， Qifeng Tan ，Qunsheng Peng，and Baining Guo.变形网格序列的梯度域编辑。ACMTransactions on Graphics（TOG），第26卷，第84页。ACM，2007年。2[27] Jie Yang，Lin Gao，Yu-Kun Lai，Paul L Rosin，andShihong Xia.具有自动关键点选择功能的双谐波变形转换。Graphical Models，98：1-13，2018. 2[28] Han Zhang ， Ian Goodfellow ， Dimitris Metaxas ， andAugus- tus Odena.自我注意生成对抗网络。arXiv预印本arXiv：1805.08318，2018。3

下载后可阅读完整内容，剩余1页未读，立即下载