ICON:3D穿着人体的衣服重建与动画化

5 浏览量更新于2023-10-25 收藏 9.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13296ICON：从法线获得的隐式穿着衣服的人修玉良，杨金龙.德国图宾根，黑马克斯·普朗克智能系统研究所{玉良.秀，金龙.杨，dtzionas，黑}@ tuebingen.mpg.de图1. 图像到头像。ICON从单个视频帧（左）中以不受约束的姿势稳健地重建3D穿着人类。这些用于学习具有真实服装变形的完全纹理和可动画化的服装化身（右）。摘要当前用于学习逼真且可动画化的3D穿着化身的方法需要具有仔细控制的用户姿势的3D扫描或2D图像。相比之下，我们的目标是只从处于非约束姿势的人的2D图像中学习化身给定一组图像，我们的方法估计一个详细的3D表面从每个图像，然后将这些组合成一个动画化身。隐式函数非常适合第一个任务，因为它们可以捕获头发和衣服等细节。然而，当前的方法对于变化的人类姿势不鲁棒，并且经常产生具有断裂或脱离身体的肢体、缺失细节或非人类形状的3D表面。问题在于，这些方法使用对全局姿态敏感的全局为了解决这个问题，我们提出了ICON（ICON有两个主要模块，它们都利用SMPL（-X）车身模型。首先，ICON根据SMPL（-X）法线推断出详细的穿衣人法线（前/后）。第二，可见性感知隐式表面回归器产生人体占用领域的等值面。重要的是，在推理时，反馈循环在使用推理的衣服法线细化SMPL（-X）网格和然后细化法线之间交替。给定多个重建帧的主体在不同的姿势，我们使用修改后的版本的SCANimate产生一个动画的化身从他们。对AGORA和CAPE数据集的评估显示ICON在识别方面优于现有技术，即使训练数据非常有限。此外，它对分布外样本（例如，野外姿势/图像和帧外裁剪。ICON从野外图像中向强大的3D穿着人体识别迈出了一步。这使得能够直接从视频创建具有个性化的姿势相关的布料变形的化身。模型和代码可在https://icon.is.tue.mpg.de上进行研究。1. 介绍现实的虚拟人将在混合现实和增强现实中发挥核心作用为了实现这一点，需要新的工具来轻松创建可以随时动画的3D虚拟人。传统上，这需要大量的艺术家的努力和昂贵的扫描设备。因此，这种方法不容易扩展。一种更实用的方法将使个人能够从一个或多个图像创建化身。现在有几种方法可以获取单个图像并回归最少穿着的3D人体模型[4，5，13，16，28，40]。然而，现有的参数化身体模型缺乏重要的细节，如衣服和头发[24，32，40，45，56]。相比之下，我们提出了一种方法，鲁棒地提取3D扫描的数据从任意姿势的人的图像，并使用它来构建一个动画化身。13297我们的方法基于隐函数（IF），它超越了参数化的身体模型，以表示精细的形状细节和不同的拓扑结构。IF允许最近的方法从图像中推断出详细的形状[17，19，46，47，57，62]。尽管结果令人鼓舞，但最先进的（SOTA）方法与野外数据作斗争，并且经常产生四肢断裂或无实体的人类，缺少细节，高频噪音或非人类形状;例如参见图2。的问题与先前方法是双重的：(1) 这样的方法通常在小的、手工策划的3D人类数据集（例如，Renderpeople [1]），姿势、形状和服装变化非常有限。(2) 它们通常将全局2D图像或3D体素编码器的特征馈送给隐式函数模块，但这些特征对全局姿态敏感。虽然越来越多的3D训练数据会有所帮助，但这些数据仍然有限。因此，我们采取不同的方法并改进模型。具体来说，我们的目标是从单个RGB图像中重建一个详细的穿着3D人体，该方法对训练数据有效，并且对野外图像和分布外的姿势具有鲁棒性。我们的方法称为ICON，代表从法线获得的隐式穿着人类。ICON用更有效的数据本地方案取代了现有方法的全局编码器;图。3显示了模型概述。ICON将分割的穿着衣服的人的RGB图像和从图像估计的SMPL身体作为输入[27]。SMPL主体用于引导ICON的两个模块：一个推断详细的穿着衣服的人表面法线（前视图和后视图），而另一个推断可见性感知隐式表面（占用区域的等值面）。然而，初始SMPL估计中的误差可能误导推断。因此，在推断时，迭代反馈回路细化SMPL（即，其3D形状、姿势和平移），反之亦然，从而产生具有更好的3D细节的精细隐式形状。我们在具有挑战性的数据集（即AGORA [39]和CAPE [35]）以及野外图像上定量和定性地评估了ICON。结果表明，ICON算法具有两个优点：1.最新技术水平：(1) 概括。ICON代表性案例如图所示。2.注意，虽然ICON受过训练，仅在全身图像上，它可以处理具有帧外裁剪的图像，而无需微调或后处理。(2) 数据效力。ICON的局部性有助于避免姿态和表面形状之间的虚假相关性。因此，它需要更少的数据进行训练。ICON在低数据状态下的表现明显优于基线，因为它在训练时仅用12%的数据就达到了SOTA性能。我们提供了一个示例应用程序的图标创建一个动画化身;参见图1的概述。我们首先将ICON应用于视频序列的各个帧图标与PIFU图标对比PIFuHD图标相对于PaMIR图标vs++图2.SOTA方法用于从野外图像推断3D人体PIFu、PIFuHD、PaMIR和PIFuHD ++在挑战姿势和帧外裁剪（E）方面遇到困难，导致各种伪影，包括非人类形状（A、G）、非实体部分（B、H）、缺失的身体部分（C、D）、缺失的细节（E）和高频噪声（F）。ICON处理这些挑战并产生高质量的结果，用绿色阴影突出显示前视图（蓝色）和旋转视图（青铜色）。以获得处于各种姿势的穿着衣服的人的3D网格。然后，我们使用这些来训练一个使用修改版本的SCANimate [48]的姿态化身。与SCANimate作为输入的3D扫描不同，我们估计的形状并不是所有视图都同样详细和可靠。因此，我们修改SCANimate利用可见性信息在学习的化身。输出是一个3D穿着的化身，自然移动和变形;见图1-右和图2。8b.ICON迈出了一步，从野外照片中强大地重建3D穿着人类。基于此，可以直接从视频帧创建具有个性化姿势感知服装变形的完全纹理化和可动画化的化身模型和代码可在https：//icon.is.tue.mpg.de网站。2. 相关工作基于网格的统计模型基于网格的统计身体模型[24，32，40，45，56]是3D人体重建的流行显式这不仅是因为此类模型能够捕获整个人群的统计数据，还因为网格与标准（（（（（（（（H13298∈∈M∈I图形管道。很多工作[13，25，26，28，49，50，58]从RGB图像估计3D人体网格，但这些没有衣服。其他工作估计穿衣服的人，而不是通过建模服装几何形状作为身体几何形状上的3D偏移[2由此产生的穿着衣服的3D人体可以很容易地设置动画，因为它们自然地继承了底层身体模型的骨架和表面蒙皮权重。然而，一个重要的限制是建模衣服，如裙子和连衣裙;因为这些与身体表面有很大的不同，简单的身体到衣服的偏移是不够的。为了解决这个问题，一些方法[8，22]使用分类器来识别输入图像中的布料类型，然后执行布料感知推理以进行3D重建。然而，这样的补救措施并不能扩大到各种各样的服装类型.基于网格的统计模型的另一个优点是，由于其一致的网格拓扑结构，可以通过多视图图像或图像序列[4，8]轻松积累纹理信息然而，最大的局限性是，最先进的技术不能很好地推广w.r.t. 服装类型变化，并估计网格不对齐，以及输入图像像素。深层隐式函数。与网格不同，深度隐式函数[12，37，38]可以表示具有任意拓扑的详细3D形状，并且没有分辨率限制。Saito等[46]引入了深度隐式函数，用于从RGB图像重建穿着衣服的3D人体，后来[47]，它们显着改善了3D几何细节。估计的形状与图像像素很好地对齐。然而，它们的形状重建缺乏规则化，并且经常产生诸如断裂或脱离实体的肢体、丢失的细节或几何噪声的伪像。他等人。[17]增加了一个粗略占用预测分支，李等人。[31] Dong et al.[15]使用由RGB-D相机捕获深度信息来进一步正则化形状估计并提供对姿态变化的鲁棒性。Li等人[30]通过有效的体积采样方案加快了推理速度。所有上述方法的局限性在于，所估计的3D人体不能被重新放置，因为隐式形状（与统计模型不同）缺乏一致的网格拓扑、骨架和蒙皮权重。为了解决这个问题，Bozic et al.[9]推断一个嵌入的变形图来操纵隐函数，而Yang et al. [57]还可以推断骨架和蒙皮场。统计模型隐函数。基于网格的统计模型具有很好的正则化，而深层隐式函数更具表达力。为了获得两个世界的最佳效果，最近的方法[6，7，19，62]结合了两种表示。给定一个穿着衣服的人的稀疏点云，IPNet [6]推断出具有身体/衣服层的占用场，将SMPL注册到具有推断出的身体部位分割的身体层给定一个穿着衣服的人的RGB图像，[19]和[18]通过扭曲来自规范到构成的空间，并将它们投影到2D图像空间。然而，为了训练这些模型，需要将扫描解构成具有准确拟合的身体模型的规范姿势;不准确的姿势会导致伪像。此外，使用“未穿衣”模特的蒙皮权重进行未穿衣扫描对于相同的RGB输入，Zheng et al.[61，62]将隐式函数设置在一个有姿势的和体素化的SMPL网格上，以获得对姿势变化的鲁棒性，并从图像像素重建局部细节，类似于PIFu [46]。然而，由于它们的3D卷积编码器，这些方法对全局姿态因此，对于姿态变化有限的训练数据，它们会与分布外的姿态和野外图像作斗争。定位ICON w.r.t.相关工作。 ICON将统计人体模型SMPL与隐式函数相结合，从单个RGB图像中重建出穿着衣服的3D人体形状。SMPL不仅指导ICONICON不依赖于全局身体特征，而是利用与全局姿势变化无关的局部身体特征因此，即使在非常有限的数据上进行训练，ICON也能实现最先进的性能，并且对分布外的姿势具有鲁棒性。这项工作将单眼3D穿衣人重建与基于扫描/深度的化身建模算法联系起来[11，14，34，36，48，52，54]。3. 方法ICON是一个深度学习模型，可以从彩色图像中推断出3D穿着衣服的人。具体而言，ICON将具有分割的穿着人的RGB图像作为输入（遵循PIFuHD的存储库[ 41 ]的建议ICON有两个主要模块（见图1）。3）用于：（1）SPL引导的衣服体正常预测，以及(2)基于局部特征的隐式曲面重构3.1. 体导法向预测从穿着衣服的人的单个RGB图像推断全360°3D法线是具有挑战性的;遮挡部分的法线这是一个不适定的任务，对于深度网络来说是具有挑战性的。与无模型方法[21，47，51]不同，ICON考虑了SMPL [32]估计SMPL网格（β，θ）RN×3来自图像，我们使用PyMAF [60]，因为与其他方法相比，它具有更好的网格到图像对齐SMPL由形状βR10和姿态θR3×K参数化，其中 N=6 ， 890 个顶点， K=24 个关节。 ICON 也与SMPL-X兼容[40]。在弱透视相机模型下，s∈R和平移t∈R3，我们使用PyTorch 3D [43] dif-13299DrM^，N前C^NN^N^^L=|N−N|、L=|S−S|、（五）^^NvNv其中Lpi x el=|Nc−N^c|，v={前，后}，是损失（L1）CNB图3. ICON的架构包含两个主要模块：（1）身体引导的正常预测，以及（2）基于局部特征的隐式3D重建。带有箭头的虚线是2D或3D查询功能。两个GN网络（紫色/橙色）具有不同的参数。可参考的渲染器（表示为）从两个相对的视图进行渲染，获得可观察侧）和闭塞侧）SMPL-身体法线图Nb={Nb，Nb {\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}给定Nb和原始彩色图像I，前回来N N n我们的正常网络G={Gfront，Gback}预测穿衣-体法线映射，表示为N^c={N^c返回}：BDR（M）→N，（1）G（N，I）→N^.（二）我们训练正常网络GN，损失如下LN=L pixel+λ VGGL VGG，（3）在地面实况和预测法线之间（图3中的两个GN具有不同的参数），LVGG是由λVGG加权的感知损失[23]。如果只有L像素，推断的法线会模糊，但添加LVGG有助于恢复细节。精炼SMPL。直观地，更准确的SMPL身体拟合提供更好的先验，其有助于推断更好的穿衣身体法线。然而，在实践中，人类姿势和形状（HPS）回归器不给出像素对准的SMPL拟合。为了解决这一问题，在推断期间，SMPL拟合基于渲染的SMPL体法线与图4.使用反馈回路的SMPL细化。SMPL身体法线映射Sb和人体遮罩S^cILL分段映射b，以及预测的衣身法线映射c，如图4.第一章具体来说，我们优化SMPL形状β、姿态θ和平移t参数，以最小化：[44]从.我们消融Ndiff，Sdiff in Sup. Mat.细化法线。重新绘制的法线贴图细化的SMPL网格Nb被馈送到GN网络。改进的SMPL网格到图像对准引导GN进入LSMPL = min（λθ，β，tN diffLN diff +左右差异）、（4）提供更可靠和详细的法线c.细化循环。在推理过程中，ICON交替-B C B CN diff S diff其中，LNdiff 是法线贴图损失（L1），加权λNdiff;LSdiff是两个轮廓之间的损失（L1）补间：（1）使用推断的c法线细化SMPL网格，以及（2）使用细化的SMPL重新推断c实验表明，这种反馈回路导致更可靠的衣服身体正常的地图（前/后）双方。前法线（布料+躯干，6暗）布料法线DR（前）身体正常1姿势形状估计可见性SDF可见点SDF（1dim）隐形点SDF（1dim）身体正常DR（背6或16布料法线后法线（布料+躯干，6暗）MarchingCubes(1)体导法向预测(2)基于局部特征的隐式三维表示渲染预测炼体13300^nC.^N^^IFFVOF如果如果GNNN^前或N^后取决于P的可见性：我3.2. 基于局部特征的隐式三维重建给定预测的穿着衣服的身体法线映射Nc和SPL身体网格M，我们基于局部特征FP回归穿着衣服的人的隐式3D表面：训练验证集测试集B CFP=[Fs（P），Fn（ P），Fn（ P）]，（6）其中Fs是从查询点P到最近体点Pb∈ M，Fb为重心面表1.3D服装人类的数据集灰色表示ICON使用的数据集。底部的单元格格式BnP的法线;两者都提供了针对自闭塞。最后，Fc是从下式中提取的法向量：是扫描次数[方法]。ICON表示为[IC]。符号†对应于图1中的“8x”设置。六、c cbFn（P）=c阵面C（π（P））如果Pb可见（七）4.2. 数据集几个公共或商业3D服装人体数据集Nback（π（P）） else，其中π（P）表示3D点P的2D投影。请注意，P与全局身体姿势无关。实验表明，这是对分布外姿态的鲁棒性和对分布外姿态的功效的关键。训练数据我们喂P 转换成一个隐函数，由多层感知器（MLP）参数化以估计点P处的概率，表示为o（P）。使用均方误差损失来训练地面实况占用率o（P）。然后使用快速表面定位算法[30，33]从IF推断的3D占用中提取网格。4. 实验4.1. 基线模型我们将ICON与PIFu [46]和PaMIR [62]进行比较。这些方法与ICON不同，彼此也不同。训练数据、损失函数、网络结构、SMPL主体先验的使用等。为了隔离和评估每个因素，我们通过基于ICON架构的“模拟”来重新实现PIFU和PaMIR。这提供了一个统一的基准测试框架，使我们能够轻松地使用完全相同的数据和训练超参数来训练每个基线，因为可能会有小的差异w.r.t.原始模型，我们用“星号”表示• PIFU：{f 2D（I，N）}→ O，• PaMIR评分：{f 2D（I，N），f 3D（V）}→ O，• ICON：{N，γ（M）} → O，其中f2D表示2D图像编码器，f3D表示3D体素编码器，表示体素化SMPL，表示整个预测的占用字段，并且γ是在第2节中描述的3.2.结果总结见表。2-A，并在第二节讨论。4.3-A.作为参考，我们还报告了原始PIFu[46]，PIFuHD [47]和PaMIR [62]的性能;我们的在文献中使用，但每种方法使用不同的子集和这些组合，如表1所示。1.一、训练数据。为了公平地比较模型，我们排除了训练数据中的差异，如第二节所述。4.1.根据之前的工作[46 ， 47] ，我们在相同的 450 个 Renderpeople 扫描（AGORA的子集）上重新训练所有基线。需要3D身体先验的方法（即，PaMIR，ICON）使用AGORA提供的SMPL-X网格。ICON和模块在相同的数据上训练。测试数据。我们主要在CAPE [35]上进行评估，没有方法用于训练，以测试他们的遗传学能力。具体地，我们将CAPE数据集划分为分别具有“时尚”和“非时尚”姿势的“CAPE-FP”和“CAPE-NFP”集合，以更好地分析复杂身体姿势的生成;有关数据分割的详细信息，请参见Sup。Mat. 为了在训练/测试数据之间没有域间隙的情况下评估性能，我们还在“AGORA-50”上测试了所有模型生成合成数据。我们使用MonoPort [30]的OpenGL脚本来渲染具有动态照明的照片级逼真图像。我们通过使用弱透视相机并在其前面旋转扫描，从多个视图渲染每个穿着衣服的人的3D扫描（和c）及其SMPL-X拟合（b）。这样，我们生成了138，924个样本，每个样本包含3D服装人体扫描，其SMPL-X适合，RGB图像、摄像机参数、扫描和SMPL-X网格的2D法线贴图（来自两个相对视图）以及SMPL-X三角形可见性信息w.r.t.镜头4.3. 评价我们使用3个评估指标，如下所述：“倒角”距离。我们报告倒角距离之间的地面实况扫描和重建网格。为此，我们在扫描/网格上均匀采样点，以消除分辨率差异，并计算平均双向点到曲面距离。该度量捕获了大渲染。[1]第一章双胞胎[五十三]Agora[39]第三十九届图曼[63个]缓冲器[59个]Cape[35、42]免费公共SMPL（-X）pose高分辨率纹理✗✗✓✗✓✗✗✓✗✓✗✗✓✓✓✓✓✗✓✗✓✗✗✓✓✓✓✗✓✓扫描次数四百五十[四十六、四十七]1000 [62]450 [IC]小行星3109600 [IC†]六百[六十二]第五章[46、47]26 [19]300 [30，62]150 [IC]13301的几何度量差异，但错过了较小的几何细节。13302^enc（，）^NNnnF^NFC ”在Tab中。2-C）。方法SMPL-X条件倒角AGORA-50↓P2S ↓常态↓倒角 ↓CAPE-FPP2S↓常态↓倒角CAPE-NFP↓P2S ↓常态↓倒角↓CapeP2S↓常态↓我们图标✓1.2041.5840.0601.2331.1700.0721.0961.0130.0631.1421.0650.066一PIFU [46]PIFuHD [47]帕米尔 [六十二]✗✗✓3.4533.1192.0353.6603.3331.8730.0940.0850.0792.8232.3021.9362.7962.3351.2630.1000.0900.0784.0293.7042.2164.1953.5171.6110.1240.1230.0933.6273.2372.1223.7293.1231.4950.1160.1120.088SMPL-X GTN/A1.5181.9850.0721.3351.2590.0851.0701.0580.0681.1581.1250.074PifuPaMIR✗✓2.6881.4012.5731.5000.0970.0632.1001.2252.0931.2060.0910.0552.9731.4132.9401.3210.1110.0632.6821.3502.6581.2830.1040.060B图标编号ICON w/oFbn✓✓1.1531.2591.5451.6670.0570.0621.2401.3441.2261.3360.0690.0721.1141.1801.0971.1720.0620.0641.1561.2351.1401.2270.0640.067CICONenc（I，N^c）ICONenc（N^c）✓✓1.1721.1801.3501.4500.0530.0551.2431.2021.2431.1960.0620.0611.2541.1801.1221.0670.0600.0591.2501.1871.2291.1100.0610.060D图标ICON+ BRPaMIR✓✓✓1.5831.5541.6741.9871.9611.8020.0790.0740.0751.3641.3141.6081.4031.3561.6250.0800.0700.0721.4441.3511.8031.4531.3901.7640.0830.0730.0791.4171.3391.7381.4361.3781.7180.0820.0720.077SMPL-X扰动N/A1.9842.4710.0981.4881.5310.0951.4931.5340.0981.4911.5330.097表2.定量评价（cm）：（A）相对于SOTA;（B）身体引导的正常预测;（C）基于局部特征的隐式重建;以及（D）对SMPL-X噪声的鲁棒性推断条件：（1）SMPL-X地面实况（GT）;（2）扰动SMPL-X GT;（3）无SMPL-X条件。SMPL-X地面实况由每个数据集提供CAPE不用于训练，而是测试泛化能力。“P2S” CAPE将原始扫描作为地面实况，其中可能包含大漏洞。为了排除孔洞，我们还报告了从扫描点到最近的重建表面点的平均点到表面（P2S）距离该度量可以被视为上述度量的单向版本“Normals” 我们从固定的视点为重建和地面实况表面绘制正常图像（第二节）。4.2，当倒角和P2S误差较小时，这会捕获高频几何细节的误差A. ICON -vs- SOTA。ICON优于所有原始的最先进的（SOTA）方法，并与我们的“模拟”版本的方法竞争，如表1所示。2-嗜我们使用AGORA我们注意到，我们重新实现的PaMIR排除-执行SMPL-X GT用于具有分布内身体姿势的图像（不含SMPL Prior不含SMPL Prior图5. 正态预测（N^c）w/和w/oSMPL先验（Nb）。卷积滤波器这些应用于图像和（“CAPE-NFP”）。这表明，尽管有条件∗衣身法线贴图（C ”在Tab中。2-C），IN由于其全局特征编码器，姿势不一致，并且无法推广到分布外的姿势。相反，ICON可以很好地生成分布外的姿势，因为它的局部特征独立于全局姿势（参见第2节）。3.2）。B. 身体引导的正常预测。我们评估了SMPL-X-body法线映射的条件，b，用于指导服装体法线映射的推断， c（第二节）。第3.1节）。表 2-B 示出了具有（“ICON”）和不具有（“ICON N t“）调节的性能。在没有条件作用的情况下，“CAPE”上的错误略有增加。质量，指导身体法线大大提高了推断法线，特别是对闭塞的身体区域，见图。五、我们还消除了身体正常功能的影响（第二节）。3.2），b，通过移除它;这将显示结果，请参见选项卡中的“ICON w/o b“。2-BC. 基于局部特征的隐式重建。为了评估我们的“本地”功能的重要性（第二节）。3.2），FP，我们用2D产生的“全局”特征替换它们。enc（）我们使用一个2层沙漏模型[20]，其感受野扩展到图像大小的46%。这需要考虑大的图像区域，并产生对全局身体姿势敏感的特征。这会影响分布外姿态的重建性能，例如在“CAPE-NFP”中。有关PaMIR感受野大小的评估，请参见Sup。Mat.我们比较了ICON和最先进的（SOTA）模型，在图中有不同数量的训练数据。六、“数据集规模”轴报告数据大小为相对于原始PIFU方法[46，47]的450次扫描;最左侧对应于56次扫描，最右侧对应于3，709次扫描，即，[39]和[63]的所有扫描ICON始终优于所有方法。重要的是，ICON即使只在一小部分数据上训练也能达到SOTA性能我们将此归因于ICON点特征的局部性质;这有助于ICON在姿态空间中很好地概括并且是数据有效的。规模罕见自遮挡单色硬式GT SMPL-X接头，PaMIR仍然对全球机构或仅在法线贴图（13303[47]第47话偏好30.9% 22.3% 26.6% P值1.35e-33 1.08e-483.60e-543.02.52.01.51.01/8x 1/4x 1/2x 1x 8x数据集量表（比率）图6.重建误差w.r.t.训练数据大小。“Dataset size”在[46，47]中使用的450次扫描“8x”设置是AGORA [ 39 ]和THuman [ 63 ]的所有3，709次D. 对SMPL-X噪声的鲁棒性。从图像估计的SMPL-X可能与图像中的身体像素不完全对准。然而，PaMIR和ICON以这一估计为条件。因此，它们需要对SMPL-X形状和姿态中的各种噪声水平具有鲁棒性。为了评估这一点，我们向PaMIR和ICON提供地面实况和扰动的SMPL-X，在Tab中用（R）和（R2-A，D. ICON条件扰动（微扰）SMPL-X产生较大的误差w.r.t. GroundTruth（地面实况）然而，添加主体细化模块（+BR3.1，完善SMPL-X并提高性能，曼斯。因此，5. 应用5.1. 从野外图像我们从Pinterest上收集了200张野外图片，展示了人们在进行跑酷，运动，街舞和功夫。这些图像在训练过程中是看不到的我们在图中显示了ICON的定性结果。8a和图中的SOTA比较。 2;更多的结果看到我们的视频和Sup. Mat.为了评估我们的结果的感知现实性，我们在感知研究中将 ICON 与 PIFuHD 、 PaMIR HD 和原始 PIFuHD[47ICON、PIFu和PaMIR在 AGORA [39]和THuman [63]的所有 3 ， 709 次扫描上进行训练（图 1 中的 “8x” 设置）（六）。对于PIFuHD，我们使用其预训练模型。在这项研究中，参与者被展示了一幅图像，以及ICON或其他方法的渲染结果。参与者被要求选择最能代表图像中人类形状的结果我们报告了参与者更喜欢基线方法而不是标签中的ICON的试验百分比3; p值对应于两种方法表现同样好的零假设。有关研究的详细信息，例如刺激，捕捉试验等。这是Sup。Mat.图7.极端服装、姿势或相机视图的ICON失败案例。我们显示了前视图（蓝色）和旋转后视图（青铜色）表3.感性研究。数字表示对于野外图像，参与者更喜欢竞争方法而不是ICON的重建的可能性ICON被认为更加现实。5.2. 从视频给定一系列具有不同姿势的相同主题的图像，我们在 SCANimate 的帮助下创建一个可动画化的化身[48]。首先，我们使用ICON每帧重建一个3D服装人网格然后，我们将这些网格馈送到SCANimate。ICON与使用多视图系统拍摄的原始3D扫描不同，ICON在单个图像上操作，并且其重建对于观察到的身体区域比遮挡区域更可靠因此，我们重新制定SCANimate的损失，以根据摄像机的视点来降低遮挡区域的结果示于图1和图8b;动画请参见我们网页上的视频。6. 结论我们已经提出了ICON，其以超过现有技术的准确性和真实性从单个图像稳健地恢复3D穿着衣服的人。有两个关键：（1）用3D身体模型正则化解决方案，同时迭代地优化该身体模型(2)使用局部特征来消除与全局姿态的虚假相关性。彻底的消融研究证实了这些选择。结果的质量足以从单目图像序列构建3D化身局限性和今后的工作。由于ICON先前利用的是强壮的身体，远离身体的宽松衣服可能很难重建;见图。7 .第一次会议。虽然ICON对体拟合的小误差是鲁棒的，但体拟合的显著失败会导致重建失败。因为它是在立体视图上训练的，ICON在强烈的透视效果上有困难，产生不对称的肢体或解剖学上不可能的形状。未来的一个关键应用是单独使用图像来创建一个穿着衣服的化身数据集这样的数据集可以推进人体形状生成的研究[10]，对时尚行业有价值，并促进图形应用。2.68261.倒角距离（cm）3.339PIFu帕米尔2.96八点九三2图标SMPL-X2.0241.781.4791.351.761.331.09561.261.1421.03613304(a) ICON重建，用于极端姿态的野外图像（Sec. 5.1）。(b) 使用SCANimate从图像创建头像（第5.2）。输入的每帧网格用ICON重建图8.两个应用程序的ICON结果（第（五）。我们为每个网格显示两个视图，即，前视图（蓝色）和旋转视图（青铜色）可能的负面影响。虽然从图像中创建的虚拟人体的质量还没有达到面部“深度伪造”的水平这些风险还必须通过娱乐、远程呈现和未来虚拟实境应用中的积极用例来平衡。显然，需要监管来确定其使用的法律界限。代替今天的社会准则，我们已经使我们的代码与适当的许可证。管理公开https://files.is.tue.mpg.de/black/CoI CVPR 2022.txt致谢。我们感谢Yao Feng、Soubhik Sanyal、HongweiYi、Qianli Ma、Chun-Hao Paul Huang、Weiyang Liu和Xu Chen的反馈和讨论，感谢Tsvetelina Alexiadis在知觉研究方面的帮助，感谢Taylor McConnell的帮助，感谢Benjamin Pellkalan的网页，感谢Yuanlu Xu在与Esco和Esco ++进行比较方面的帮助。该项目获得了欧盟地平线 2020 研究和创新计划的资助，该计划是 860768（CLIPE项目）。13305引用[1] RenderPeople renderpeople.com，2018年。二、五[2] 放大图片作者：Marcus A. Magnor，Bharat Lal Bhatna-gar，Christian Theobalt，and Gerard Pons-Moll.学习从单个RGB相机重建穿着衣服的人。在计算机视觉和模式识别（CVPR），第1175-1186页，2019年。3[3] 放大图片作者： Marcus A.Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.从单目视频的详细的人类化身。在3D视觉国际会议（3DV），第98-109页，2018年。3[4] 放大图片作者： Marcus A.Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.基于视频的3D人物模型再现。在计算机视觉和模式识别（CVPR），第8387-8397页，2018年。第1、3条[5] ThiemoAlldieck ， GerardPons-Moll ， ChristianTheobalt，and Marcus A.玛格诺Tex2Shape：从单个图像中获得详细的完整人体几何形状。 In InternationalConference on Computer Vision (ICCV), pages 2293–2303,2019. 第1、3条[6] Bharat Lal Bhatnagar ，Cristian Sminchisescu ， ChristianTheobalt，and Gerard Pons-Moll.结合隐函数学习和参数模型进行三维人体重建。在欧洲计算机视觉会议（ECCV），第12347卷，第311-329页，2020年。3[7] Bharat Lal Bhatnagar，Cristian Sminchisescu，ChristianTheobalt，and Gerard Pons-Moll. LoopReg：隐式表面对应、姿势和形状的自监督学习，用于3D人体网格配准。在神经信息处理系统会议（NeurIPS），2020年。3[8] BharatLalBhatnagar ， GarvitaTiwari ， ChristianTheobalt，and Gerard Pons-Moll.多服装网：学习从图像中打扮3D人物。在国际计算机视觉会议（ICCV），第5419-5429页，2019年。3[9] 巴勃罗·阿尔贾兹·博齐奇Palafox，MichaelZollhoüfer，JustusThies，Angela Dai，and Matthias Nießner.用于全局一致非刚性重建的神经在计算机视觉和模式识别（CVPR），第1450-1459页，2021年。3[10] Xu Chen ， Tianjian Jiang ， Jie Song ， Jinlong Yang ，MichaelJ.Black ， AndreasGeiger ， andOtmarHilliges.gDNA：走向生成详细的神经化身。在计算机视觉和模式识别（CVPR），2022。7[11] 陈旭，郑玉峰，Michael J. Black，Otmar Hilliges，andAndreas Geiger. SNARF：用于动画非刚性神经隐式形状的可区分向前蒙皮。国际计算机视觉会议（ICCV），第11594-11604页，2021年。3[12] 陈志勤和张浩。学习生成式形状建模的隐式字段。在计算机视觉和模式识别（CVPR），第5939-5948页，2019年。3[13] 放大图片作者：VasileiosChoutas ， LeaMüller，Chun-HaoP.Huang ，Siyu Tang，Dimitrios Tzionas，and Michael J.黑色.通过语言属性和人体测量进行精确的3D体型回归在计算机视觉和模式识别（CVPR），2022。第1、3条[14] Boyang Deng 、 JP Lewis 、 Timothy Jeruzalski 、 GerardPons- Moll 、 Geoffrey Hinton 、 Mohammad Norouzi 和Andrea塔利亚萨奇神经关节形状近似。在欧洲计算机视觉会议（ECCV），第12352卷，第612-628页，2020年。3[15] Zijian Dong，Chen Guo，Jie Song，Xu Chen，AndreasGeiger，and Otmar Hilliges.PINA：从单个RGB-D视频序列中学习个性化的隐式神经化身。在计算机视觉和模式识别（CVPR），2022年。3[16] Yao Feng，Vasileios Choutas，Timo Bolkart，DimitriosTzionas，and Michael J.黑色.使用适度的表达体在3D视觉国际中，第792-804页1[17] 作者： John P.Collomosse ， Hailin Jin ， and StefanoSoatto.Geo-PIFu：用于单视图人体重建的几何和像素对齐隐式函数在神经信息处理系统会议（NeurIPS），2020年。二、三[18] Tong He，Yuanlu Xu，Shunsuke Saito，Stefano Soatto，and Tony Tung. ARCH++：动画准备穿衣服的人类重建重访。在国际计算机视觉会议（ICCV），第11046-11056页，2021年。3[19] Zheng Huang，Yuanlu Xu，Christoph Lassner，Hao Li，and Tony Tung.ARCH：衣服人类的动画重建在计算机视觉和模式识别（CVPR），第3090-3099页，2020年。二三五[20] 亚伦·S杰克逊，克里斯·马纳法斯，斯特凡·罗斯·吉奥斯·齐米罗普洛斯.

下载后可阅读完整内容，剩余1页未读，立即下载