服装网：基于规范空间形状的服装类别级姿态估计

93 浏览量更新于2023-10-15 收藏 2.19MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3324GarmentNets：基于规范空间形状完成的服装类别级姿态估计Cheng Chi Shuran Song ColumbiaUniversityhttps://garmentnets.cs.columbia.edu摘要本文解决了服装的类别级姿态估计的任务。由于几乎无限程度的自由度，服装的完整构型（即，姿态）通常由其整个3D表面的逐顶点3D位置来描述。然而，服装通常也会受到自遮挡的极端情况的影响，尤其是在折叠或起皱时，这使得感知其完整的3D表面具有挑战性。为了解决这些挑战，我们提出服装网，其中的关键思想是制定可变形对象的姿态估计问题作为一个形状完成任务的规范空间。该规范空间是跨类别内的服装实例定义的通过将观察到的部分表面映射到规范空间并在该空间中完成它，输出表示使用具有每顶点规范坐标标签的完整3D网格来描述该服装为了正确处理服装上呈现的薄的3D结构，我们提出了一种新的3D形状表示使用广义缠绕数字段。实验表明，GarmentNets是能够推广到看不见的服装的立场，并取得显着更好的性能相比，替代方法。代码和数据可在https://garmentnets.cs.columbia.edu中找到。1. 介绍服装是我们生活中最常见的物品之一，但它们具有一系列独特的属性，使机器难以感知和交互：• 无限自由度（DoF）：与其姿态可以被完全指定为低维向量的刚性对象相比，一件衣服具有接近无限的DoF，即，为了完全指定其配置（即，姿势），我们需要描述服装表面上的所有3D点的位置。当我们考虑类别级泛化时，这个问题变得复杂，其中存在可以被认为是不同服装实例的“规范”的无限姿势• 重度自闭塞：服装通常会发生极端的自闭合情况，尤其是当折叠或折叠时。如何表示和估计不同服装在严重自遮挡下的完整构型？我们的方法：GarmentNets1. 皮卡2。映射到3。完成4.使用WNF任务空间观察规范姿势中的姿势图1. 服装的类别级姿态估计。GarmentNets的关键思想是将服装姿态估计问题制定为规范空间中的形状完成任务。该规范空间是跨类别内的服装实例定义的，因此，指定共享的类别级姿势。输出使用具有每顶点规范坐标标签的完整3D网格来描述服装皱巴巴的这种性质使得从部分视觉观察中感知它们的完整配置特别具有挑战性并且有时是模糊的。• 薄结构：服装通常由不防水的薄的3D几何结构组成。这种独特的几何性质使得它们不适合于为实心刚性对象（例如，占用网格或符号距离函数）。由于这些挑战，服装或布料感知的先前工作通常建立在简化的假设上，例如完全可见性[19]，已知的实例级网格[16，24，5]，初始观察中的已知物理或完整状态信息[24]，其中问题被简化为实例级跟踪任务。因此，这些算法不能推广到在训练期间未观察到的新服装实例。为了解决这些挑战，我们提出了GarmentNets，这是一个端到端的神经网络，可以估计完整的配置。3325通过局部观察来确定衣服的形状。该算法突出了以下关键思想：为了处理无限的自由度，并使类别级的泛化，我们定义了一个规范的人体姿势为每个服装类别的归一化坐标空间。该表示允许算法学习具有不同样式、形状或配置的服装实例之间的语义上有意义的对应关系。为了处理自遮挡，算法在其规范姿势下显式地执行形状完成，这允许算法完全指定服装配置，即使当观察到的表面不完整时。为了处理薄结构，我们提出了一种使用缠绕数域（WNF）的新型3D形状表示[12]。这种表示允许算法准确地表示在表面上具有强梯度但在其他地方连续和平滑的薄布结构，为网络学习更好的几何特征提供更有意义的信号我们在机器人操作的背景下研究服装感知任务，这比身体上的服装感知（即，人们穿着的衣服），因为可能的构造的数量大得多，并且潜在的自闭塞更严重。然而，这种设置也允许我们利用简单的机器人交互来减少可能的配置空间。例如，我们允许机器人首先用随机拾取点提起起皱的衣服，并允许重力自然地将衣服拉成稳定的姿势。然后，系统这个任务制定潜在地允许我们的感知算法被用于一个现实的机器人操作任务。据我们所知，我们是第一个启用类别级全配置估计的部分观测的规模。我们的实验证明，训练的模型能够推广到新的服装实例以及现实世界的图像。2. 相关工作姿势估计。刚性物体的姿态估计在计算机视觉和机器人社区中被广泛研究[27，34，26，25，31]，其中任务是预测描述已知物体实例的视觉观察的物体旋转和平移的6 DoF向量He等人。[28]通过为类别内的不同对象实例定义归一化规范空间（NOCS）最近，Li etal.[15]进一步扩展了这种方法，通过定义额外的规范关节配置来处理类别级关节对象。然而，与刚性或铰接对象不同，服装具有接近无限的DoF并且违反分段刚体假设，这使得它们不适用于这些方法。形状完成。提出了许多使用不同3D表示的刚性对象的形状完成算法，例如占用网格[8]，距离函数[19，6]，点云[33]和隐式函数[18]。特别是，隐函数已经成为一种流行的解决方案，以提高预测分辨率，同时保持低内存消耗。然而，服装的高类内形状变化和薄的几何结构激发了一类新的形状表示。我们提出了一种新的绕组数- ber字段表示来解决这些问题。实例级布料感知。可变形物体的视觉算法主要集中在实例级任务上。在3D重建中，一系列工作从纯几何角度考虑可变形对象，而不利用任何语义先验[29，11]。例如，DynamicFusion [19]将不同的观察扭曲并累积成规范姿势（即，第一帧）作为3D体积。然而，它不能重建整个序列所包含的区域相比之下，我们的方法可以通过利用类别级语义先验来推断具有严重变形的布料的遮挡部分。在姿态估计中，大多数现有工作通过假定已知的初始状态[5]、实例级3D网格[9]或附加的视觉标记[30]来简化任务我们的方法不依赖于上述假设，而是使用简单的机器人交互（即，随机拾取）以减小可能的配置空间。贴身衣物感知。学习方法已经通过利用人体形状先验在穿着衣服的人体重建上取得了巨大成功[14，23，20，21，36]。然而，在诸如[17]的关节化体型模型的顶部上明确地表示服装使得这些模型无法表达机器人操纵任务中常见的高度起皱的服装形状Bhatnagar等人[4]仅执行配准，不完成形状。[3]直接在任务空间中执行形状完成。结合姿态估计，我们的方法是能够在规范空间，这是更强大的大变形和遮挡执行形状完成。3. 方法利用接近无限的自由度，服装姿势）通常由其顶点前3D位置来描述另一方面，仅重建服装的3D几何形状并不提供不同服装实例（例如，服装实例）之间的语义上有意义的对应关系。袖子在哪里？），其可用于许多应用（例如，折叠）。在本文中，我们建议制定的可变形物体的姿态估计问题作为一个形状完成任务的规范空间。给定的部分点云为3326(a)规范化输入：部分点云PointNet++x0，y0，z0x1 ，y1，坐标坐标特征特征特征3D CNN正则坐标（NOCS）预测抓取散乱可见曲面点特征体积特征完成密集特征表面采样输出：完成的形状+全配置网格取样SExt切蒂dx，MLP特征绕组数（0，1）MLP特征(c)完全曲面(b)基于缠绕数预测的乌尔法图2. 网络概述。给定任务空间中抓取的服装的有色点云，（a）NOCS网络预测观察点的规范坐标。预测的坐标用于通过提供目标体积中的位置索引来将逐点特征分散到3D体积中。分散的稀疏特征体积被传递到3D CNN以产生密集特征体积。然后（b）形状完成网络通过预测采样位置p的缠绕数量场来推断服装最后，（c）扭曲场网络预测将完成的表面（以规范姿势）映射回原始任务空间的隐式扭曲场然后，输出网格使用每顶点规范坐标标签对服装的完整配置进行编码对于一件看不见的服装，GarmentNets首先将观察到的点映射到类别级规范空间，在该空间中完成服装的3D几何形状，最后将其扭曲回观察空间。输出配置由完整的3D网格描述，其中每个顶点都标记有其在规范空间中的对应坐标。该规范空间通过跨类别内的不同服装实例以下部分提供了关键算法组件和设计决策的详细信息。3.1. 先选后认感知服装在其任意褶皱状态下的完整构型（如图1B中的示例）。1）非常具有挑战性，而且往往是不可能的。受Li et al.启发[16]中，我们利用简单的机器人交互来减少服装的可能配置空间并增加其可见性。机器人首先用随机的拾取点提起起皱的衣服，并摇动它以允许重力自然地将衣服拉下到稳定的姿势。在机器人的夹持器提起服装之后夹持点是原点）。在此之后，GarmentNets被训练以根据它们的点云观察来估计这些服装这种该假设对于大多数服装是有效的，因为服装上的几乎任何表面点都是机器人可抓取的。同时，拿起衣服有助于隔离-图3.服装规范坐标（NOCS）。的规范坐标被定义为使用每类别缩放因子将规范配置中的服装缩放到单位立方体将其从杂波中去除，增加其表面可见性，这对于下游感知算法都是3.2. 服装的规范化标准空间一个密集的、语义上有意义的标签对下游任务（如折叠或拾取和放置）很有帮助。人工指定这样的标签可能是昂贵且耗时的[10]。在这里，我们扩展了He etal. [28]定义服装的规范空间（即，NOCS）是通过模拟T姿势的人所穿的服装来定义的（由CLOTH3D [2]提供）。使用SMPL [17]指定人体姿势，计算类别中所有实例的轴对齐边界框。然后，每个类别内的所有实例以相同的缩放和平移进行变换，使得每个类别的最大维度被变换。输入地面实况NOCS（0，1，1）（1、1、1）（1，0，1）（0，1，0）（1，0，0）（0，0，0）33274π∫∫∈边界框适合一个单位立方体（图（3）第三章。注意，我们的算法不依赖于规范姿势的特定定义。对于其他对象，可以选择提供高表面可见性的任何规范姿势。典型坐标预测给定一个有色点1.00.50.0(a) 绕组编号字段（WNF）(b) 截断符号距离函数1.00.0-1.0服装的云观察，我们使用PointNet++[22]体积表面提取体积表面提取基于网络来预测每个点的规范坐标。我们通过将每个轴划分为64个箱来将此预测制定为分类任务，其中网络独立地预测每个轴。我们发现这种分类公式比回归更有效，因为它允许网络模拟由对称性引起的坐标预测的双峰分布。相比之下，L2回归损失鼓励网络预测两个假设之间的平均值（图2）。（七）.虽然区间大小限制了预测精度，但该步骤尽管网络在该阶段由于对称性的模糊性（例如，将左袖预测为右），我们观察到网络的后期该网络使用交叉熵损失使用地面真实NOCS标签进行训练在训练期间，输入点云被随机下采样为6000个点，并且利用围绕抓握点的随机Z旋转来增强。使用规范坐标的特征分散。在获得针对每个观察到的3D点的坐标预测之后，我们将323特征体积。被分散的预测的规范坐标、每个维度上的NOCS预测的置信度以及倒数第二层128维的PoinetNet++特征，总共137维。该级联特征在聚合之前通过MLP（多层感知器）。通过使用预测的NOCS坐标将特征向量复制到目标体积位置来映射到同一体积索引的所有特征将使用通道最大值进行聚合。没有对应输入点的特征向量用零初始化。该聚合的稀疏特征体积进一步用3D UNet[7]变换以生成密集特征体积ψ（x）。共享的MLP和3DUnet的权重使用形状完成来训练（第12节）。3.3）和翘曲场预测（第3.4）模块联合。3.3. 使用缠绕数在此阶段，预测具有有限分辨率的所有可见点的规范坐标。估计图4.使用规范网格计算的WNF和TSDF。注意，TSDF的零交叉表面还包括腰部、颈部和袖子，这是不期望的。相比之下，WNF可以使用梯度的大小来区分表面和开口。姿势的闭塞表面，我们执行的体积形状完成在规范空间。刚性物体的形状复杂性是一个公认的任务，有许多先前的工作。在这项工作中，我们借鉴了相关领域的成功技术和思想。然而，服装的非水密薄结构对该任务提出了独特的挑战。典型的3D形状表示（诸如占用网格）将非常具有挑战性地精确表示薄表面。精度受其体素分辨率的限制;然而，高分辨率体积将导致极其稀疏数据分布和高存储器消耗。使用截断符号距离函数（TSDF），我们能够通过为服装内部或外部的体素给出不同的符号来表示精确的薄表面结构（图4），其中零交叉表面精确地描述了表面的位置。然而，该TSDF表示还在化妆品开口周围产生附加的人造表面（例如，（1）因其变化而变化。形状表示的绕组编号字段。为了解决这个问题，我们采用Jacobson等人提出的广义缠绕数。”[13]这是一个比喻。对于点PR3和表面S，广义缠绕数通过在表面上积分立体角来定义。w（p）=1sin（）dθd。S直观地，如果表面S是水密的并且不具有自交叉点，如果p在S内部，则绕组数等于1，如果在S外部，则绕组数等于0。然而，如果S不是水密的，则Jacob- son et al.证明了当边界条件为曲面内侧为1，外侧为0的情况。当直接穿过曲面时，绕组数从1跳到0。当穿过表面开口时，缠绕数以使狄利克雷能量最小化的方式从1平滑地过渡到0。的这种性质缠绕数字段允许我们表示水密隐式曲面上的点是否w（p）= 0。5实际上使用空间梯度在非水密表面S上，如图5所示。4.第一章在实践中，计算三角形网格的广义缠绕数域将需要对每个查询点的所有三角形上的立体角求和，这是有利的。3328∈∈贵得令人望而却步。我们使用Barillet等人提出的算法。[1]加速计算。这种表示对于深度学习是友好的，因为它在表面上提供了强梯度，但在其他地方是连续和平滑的。据我们所知，这是第一次在深度学习中使用缠绕数域形状完成网络。为了实现具有合理内存消耗的高分辨率预测，我们使用了一种结合3D CNN和隐式神经表示的网络结构，其灵感来自[18]。给定密集特征ψ（x）由在第2节中描述的3D CNN网络产生。在图3.2中，形状完成网络将缠绕数字段预测为神经隐式函数w（q）=f（q;ψ（x）），其中q是3D空间中的查询点。对于每个查询点q，我们首先对322稠密特征量进行三线性插值以获得该点处的特征ψ（p;x）。然后，该特征与查询点连接并由MLP变换，MLP输出单个标量作为缠绕数预测w（q）。然后从预测的缠绕数域中提取一个水密三角形网格针对网格的每个顶点评估空间梯度的大小使用恒定阈值来确定顶点属于曲面还是洞口。训练与推理在训练期间，对于每个实例均匀地采样6000个查询点。网络是用L2损失训练的。请注意，来自MLP的梯度将传播到3D UNet。在预测期间，将针对所有样本点评估f（q;ψ（x））以生成最终绕组数场体积。为了简单起见，我们直接预测了一个密集的1283绕组数场体积切片成8643卷。3.4. 规范到任务空间的映射最后，我们想要将预测网格从规范空间映射回任务空间（即，原始输入点云的坐标系，其中抓取点是原点）。该输出通知机器人关于观察空间中的服装的完整配置，包括被遮挡的部分。物理模拟一种可能的方法是物理地模拟具有预测的抓握点的预测的规范网格的姿势，假设服装的物理参数是已知的。由于我们现在知道了输入点云中的抓取位置（即，原点），我们可以通过使用最接近原点的观察点的规范坐标预测来推断预测网格上的抓握点通过模拟三维网格被抓取点抓取的物理过程，我们可以将预测映射回任务空间。由于模拟结果在围绕重力矢量旋转时会变得模糊，因此我们可以通过以下公式计算最佳旋转对齐：最小化其相对于输入点云的倒角距离。然而，在我们的实验中所示，这种方法不产生最好的定量结果，由于其敏感性不正确的夹点预测或网格重建。关于已知物理参数的假设也限制了其适用性。因此，我们还提议使用神经隐式函数直接推断每顶点翘曲场隐式翘曲场预测网络。在这种方法中，我们将翘曲场预测为另一个隐式神经函数g（p;ψ（x））R3接收样本位置 P并推断该位置的扭曲场（即，其任务空间位置）。在实践中，虽然g（p;ψ（x））被定义为pR3中的所有点，但我们只能在服装表面上获得其地面真值。如果预测的规范空间网格有误差，我们依靠神经网络注意，在特征分散步骤中，观察点位置被包括作为被递送到稀疏特征体积中的特征的一部分。利用该信息，网络针对镜像预测获得额外的鲁棒性。例如，如果属于左袖的点被预测在规范空间的右侧，则其训练与推理在训练期间，在每个地面实况网格表面上均匀地采样6000个点。用L2损失训练翘曲场网络。使用共享特征体积ψ（x）同时训练绕组数量字段和经纱字段模块。两个模块的损耗以相等的权重相加。在预测过程中，预测的规范网格表面中的每个顶点被用作查询点来预测任务空间坐标。4. 评价数据生成。我们使用来自CLOTH3D数据集[2]的规范姿势网格来生成我们的数据。该数据集有六个服装类别。我们使用随机采样的夹持点模拟每个服装实例21次。我们使用Blender来模拟物理并渲染地面实况图像（即，RGB-D图像、UV贴图和对象遮罩）。训练集、验证集和测试集在服装实例级别是不相交的。度量：我们使用以下两个指标进行评估：• 对称倒角距离（D c）。该度量标准可测量表面重建的准确性和完整性。精度度量定义为输出网格上的点到地面真实网格上的最近邻点的平均L2距离。完整性度量3329裙子顶部输入Canonical形状姿势输入Canonical形状姿势输入Canonical形状姿势点云坐标完成任务空间点云连体裤裤子坐标完成任务空间点云裙子衬衫坐标完成任务空间图5. 对不可见服装实例的定性结果（模拟）。从左到右显示了每个阶段的输入和输出。地面实况和预测的抓取点显示为红色球体。请注意，尽管“连衣裙和裤子”示例上的预测夹持点位于错误的一侧，但由于扭曲场预测，最终姿势仍然被正确预测定义类似，但方向相反。我们esti- mate两个距离有效地从两个网格随机采样10 k点，并使用KD-树估计相应的距离。在Tab的任务空间中测量Dc1和规范空间中的Tab。二、• 对应距离（Dn）。类似于Dc，我们计算预测表面和地面之间的逐点L2距离然而，使用预测的NOCS标签和地面实况NOCS标签之间的最近点而不是3D中的最近点来建立对应性。该度量测量姿态估计准确度。5. 实验结果图 5 和图 10 示出了针对模拟数据和真实数据的GarmentNets在看不见的服装上的定性结果。以下章节讨论了定性结果和消融研究。与替代方法的比较。据我们所知，目前没有先前的工作准确地执行我们的任务（即，类别级服装姿势估计）。为了提供用于比较的基线，我们考虑以下替代方法：（1）NN：使用从输入点云观测中提取的全局PointNet++特征来(2)直接：在任务空间中执行形状完成和canoni- cal坐标标记。选项卡. 图1示出了虽然[NN]可以实现类似的Cham-fer距离（Dc），但是姿态估计误差（Dn）显著更高，这指示检索到的最近邻网格不共享与输入观察类似的配置，而几何形状可能是类似的。“切角距离”中的小间隙是因为在任务空间中，所有服装曲面都是褶皱的并且彼此靠近。因此，单纯地使用最近点对应测量表面距离与[Direct]的比较显示了规范空间表示的好处通过将部分观察映射到规范空间中，网络可以利用更强的形状先验，其对服装配置是不变的。相反，在任务空间中直接执行形状完成需要网络推理所有可能的配置，这更具挑战性。NOCS预测：分类与回归分析由于服装的对称性，我们发现分类损失比回归损失更有效地用于NOCS预测如图如图7所示，对于左袖上的一组选定点，分类网络预测了双峰分布，表示这些点可能在左袖或右袖的相同位置上。相反，回归模型预测两个可能位置中间的坐标。这种差异在最终的NOCS坐标可视化上也是可见的，其中，重新计算的NOCS坐标可视化的结果是相同的。地面实况预测地面实况预测3330输入地面实况我们的NN直接形状表示。如图 8、利用卷绕数场的梯度大小，我们的方法能够预测夹克的前开口或裤子的腰部。相反，TSDF不能预测具有开口的表面。定量预测开口的能力提高了我们的评估指标，并通知下游任务，如运动规划和物理模拟的拓扑结构的服装。占用网格可以将具有开口的布料表示为亏格>0的水密表面。然而，其预测精度受到体积分辨率的限制。同时提高网格分辨率图6. 与替代方法的比较。NN：最近邻检索.直接：在任务空间中直接进行形状补全和NOCS预测。方法裙子跳.裙子顶部裤子衬衫DcNN2.091.892.181.821.391.69直接13.6263.8112.559.6311.129.40我们2.121.822.141.541.411.63DnNN12.7413.3820.5511.5712.4312.11直接48.3281.7939.7331.1936.4443.43我们6.636.067.344.474.374.94表 1. 姿态估计。虽然 NN 实现了可比较的 Cham-fer 距离（Dc），但姿态估计误差（Dn）显著更高，表明检索的网格不共享类似的提高了表面精度，这将导致稀疏的数据分布，对网络训练产生负面影响。在我们的实验中，一个1283的占有率网格有一个占有率率为0。4%，这导致网络预测只有零值因此，我们将占用网格分辨率降低到643进行评估。类似于占用网格，截断无符号距离函数（S 卩，TDF）导致网络在平滑的距离场上进行预测，导致厚表面预测和大多数应用中的较低性能。服装类别。然而，厚表面预测更好地捕获顶部上的薄带，而卷绕数字段往往会错过。总的来说，我们的方法得到了26。比TSDF提高7%，18. 比TDF提高7%，比TDF提高32. 比占用网格提高2%配置作为输入，而几何形状可能类似。分类0.20回归0.100.05GroundTruth分类表2. 形状完成错误。具有不同的形状表示。使用标准姿势下的倒角距离（cm）测量误差。Occ：占用网格，TSDF：截断符号距离函数，TDF：截断无符号距离函数和我们的：绕组数字段。0.000.0 0.20.4 0.60.8 1.0学习的翘曲场与物理模拟。正如我们X轴正则坐标预测图7. 分类与回归分析我们可视化选定点的规范坐标预测（即，在左袖的红色框内）。直方图分布示出，虽然分类模型预测双峰分布，但回归模型预测接近两个可能假设的平均值的分布，其远离任一解。回归模型倾向于将所有观察映射到布料的中间部分。定量地，与回归模型相比，分类模型还在NOCS预测中产生较低的误差：0的情况。14对 0的情况。16（在NOCS空间中）和0的情况。06对 0的情况。11如果我们考虑误差计算站（即，计算预处理之间的最小距离。口述的NOCS和地面实况以及左右镜像的地面实况标签）。节中讨论3.4，有两种方法可以将完成的3D网格转换回任务空间：（1）使用具有旋转对准的物理模拟，以及（2）使用学习的隐式翘曲场预测网络。选项卡. 图3和图9示出了这两种方法的比较。虽然物理模拟可以生成物理上合理的结果，但学习的扭曲场通常会产生更准确的预测。这通过使用特征体积中携带的原始任务空间点坐标在翘曲场预测步骤中自校正NOCS预测误差来实现。使用真实世界数据进行测试。在这个实验中，我们希望用真实世界的数据来验证算法的性能。为此，我们使用UR5机器人手臂随机拿起桌子上的服装并捕获RGB方法连衣裙连身裤裙子上衣裤子衬衫OCC 2.94 3.00 2.44 1.43 2.03 2.50地面实况TSDF2.451.763.032.381.441.98TDF2.552.182.081.221.672.110.15回归我们的1.941.452.001.301.031.70百分比3331输入：规范坐标Pred.绕组编号字段舍位有符号距离函数截断距离函数占用网格地面实况形状已完成的形状物理模拟扭曲区域地面实况（一）（b）第（1）款图9. 包络场预测与物理模拟虽然物理模拟总是可以提供物理上合理的映射，平，包裹场预测总体上产生更准确的估计，通过纠正错误，在前面的步骤中引入。例如，扭曲场预测能够在两种情况（a，b）下自校正镜像夹持点预测。服装原料输入形状任务空间中的姿势地面实况点云点云完成WarpFieldPhysSim图8. 形状完成。空间梯度的大小被用来预测缠绕数场（我们的表示）中的表面开口。TSDF只能代表水密表面。TDF预测厚的、过度平滑的表面。占用网格不能表示比体素尺寸更薄的织物。在地面实况网格上，灰色表示输入中的可见表面，蓝色表示遮挡表面。方法裙子跳.裙子顶部裤子衬衫DcPhysSim我们2.572.122.421.822.412.143.311.541.641.411.921.63DnPhysSim17.1116.8017.4315.6714.7417.58我们6.636.067.344.474.374.94表3. 规范到任务空间转换。我们比较了隐式翘曲场和物理模拟使用完成的网格和预测的抓取点预测的映射。总的来说，隐式扭曲场能够通过潜在地校正在早期步骤中产生的误差来预测更准确的映射。使用iPhone 12 Pro Max的点云。我们通过在x、y、z坐标上应用恒定阈值来过滤背景点。图10示出了算法预测的定性可视化。当用模拟数据训练算法时，模型能够完成不同服装实例的3D几何形状，并估计其在抓握状态下的姿势。注意，在训练期间不呈现在该实验中使用的所有服装。6. 结论我们提出了GarmentNets的类别级服装姿态估计从部分点云观察。前-图10. 对不可见服装实例的定性结果（真实世界数据）。我们在真实世界的服装上验证了我们的算法，其中服装由机器人手臂提起，点云由iPhone 12 Pro Max捕获。实验证明，GarmentNets能够一般化到真实世界和模拟图像的不可见服装实例，并且与替代方法相比实现了明显更好的虽然用真实世界的数据实现有希望的测试结果，但训练GarmentNets需要大量具有详细标签的高质量数据（例如，预对准的3D网格和密集的对应标签），这些对于真实世界数据都是难以获得的。未来的工作可以考虑开发自我或弱监督的方法，允许直接用真实世界的数据训练这种算法，而不需要昂贵的数据注释。致谢作者感谢 Eric Cousineau 、 Benjamin BurchfielNaveen Kuppuswamy和丰田研究所的其他研究人员提供的有益反馈和富有成效的讨论。我们还要感谢HuyHa的数据收集，感谢Google捐赠的UR5机器人。这项工作得到了亚马逊研究奖和国家科学基金会CMMI-2037101的部分支持。地面实况地面实况0.0 0.5 1.0-1.0 0.0 1.0 0.0 0.5 1.0 0.0 0.51.03332引用[1] 作者：Gavin Barill，Neil G.放大图片作者：David I. W.Levin和Alec Jacobson。汤和云的快速缠绕数字。ACM事务处理图表，37（4），2018年7月。五个[2] Hugo Bertiche Meysam Madadi 和 Sergio Escalera 。Cloth3d：穿着衣服的3d人类。在Andrea Vedaldi，HorstBischof，Thomas Brox和Jan-Michael Frahm，编辑，计算机视觉施普林格国际出版社. 三、五[3] Bharat Lal Bhatnagar，Cristian Sminchisescu，ChristianTheobalt，and Gerard Pons-Moll.结合内隐函数学习和参数模型进行三维人体重建。欧洲计算机视觉会议（ECCV）Springer，2020年8月。二个[4] Bharat Lal Bhatnagar，Cristian Sminchisescu，ChristianTheobalt，and Gerard Pons-Moll. Loopreg：用于3D人体网格配准的隐式表面对应、姿势和在神经信息处理系统（NeurIPS），2020年12月。二个[5] C. Chi和D.贝伦森遮挡鲁棒的无物理仿真可变形目标跟踪。 2019 年 IEEE/RSJ 智能机器人和系统国际会议（IROS），第6443-6450页，2019年。一、二[6] Julian Chibane、Aymen Mir和Gerard Pons-Moll。用于隐函数学习的神经无符号距离场。InNeurIPS），2020. 二个[7] OüzguünCicek ， AhmedAbdulkadir ， SoerenS.Lienkamp ，Thomas Brox，and Olaf Ronneberger. 3d u-net：从稀疏注释中学习密集体积分割。作者：SebastienOurselin，Leo Joskowicz，Mert R.Sabuncu，Gozde Unal和William Wells，编辑，医学图像计算和计算机辅助干预施普林格国际出版社. 四个[8] A.戴角，澳-地R. Qi和M.尼斯纳使用三维编码器预测器cnn和形状合成的形状完成。在2017年IEEE计算机视觉和模式识别会议，第6545-6554页，2017年。二个[9] R. Danundefine dˇrek，E. 迪布拉角厄兹蒂雷利河ziegler，以及M.恶心深衣：根据单个图像的3D服装形状估计。Comput. Graph. Forum，36（2）：269 -280，May2017. 二个[10] R. A. Guüler，N. 我也是。好的密集姿势：在野外的密集人体姿势估计。2018年IEEE/CVF计算机视觉和模式识别会议，第7297-7306页，2018年。三个[11] MatthiasInnmann，MichaelZollhoüfer，MatthiasNießner ， ChristianTheobalt ， andMarcStamminger.体积变形：实时体积非刚性重建。欧洲计算机视觉会议，第362-379页。施普林格，2016年。二个[12] Alec Jacobson ， Ladislav Kavan ， and Olga Sorkine-Hornung. 使用广义缠绕数的鲁棒内外分割。 ACMTransactions on Graphics（TOG），32（4）：1-12，2013。二个[13] Alec Jacobson ， Ladislav Kavan ， and Olga Sorkine-Hornung.使用广义缠绕数的鲁棒内外分割。ACM事务处理图表，32（4），2013年7月。四个[14] Boyi Jiang，Juyong Zhang，Yang Hong，Jinhao Luo，Ligang Liu，and Hujun Bao. Bcnet：从单个图像学习身体和衣服形状。欧洲计算机视觉会议。Springer，2020年。二个[15] 李小龙，王贺，李毅，Leonidas J. Guibas、A.林恩·艾伯特和宋舒然类别级铰接对象姿态估计。在IEEE/CVF计算机视觉和模式识别会议录（CVPR）中，2020年6月。二个[16] Y. Li，C. Chen和P. K.艾伦可变形物体类别和姿态的识别。在 2014 年 IEEE 机器人与自动化国际会议（ICRA），第5558- 5564页，2014年。第1、3条[17] Matthew Loper， Naureen Mahmood ，Javier Romero ，Gerard Pons-Moll，and Michael J.黑色. Smpl：一个有皮肤的多人线性模型。ACM事务处理图表，34（6），Oct.2015. 二、三[18] L. Mescheder，M.Oechsle，M.Niemeyer，S.诺沃津和A. 盖革Occupancy networks：Learning 3d reconstructionin function space.2019年IEEE/CVF计算机视觉和模式识别会议（CVPR），第4455- 4465页，2019年。二、五[19] R. A. Newcombe，D. Fox和S. M.塞茨动态融合：非刚性场景的实时重建与跟踪。在2015年IEEE计算机视觉和模式识别会议（CVPR），第343-352页，2015年。一、二[20] Chaitanya Patel，Zhouyingcheng Liao，and Gerard Pons-Moll. Tailornet：根据人体姿势、形状和服装风格预测3D服装。IEEE计算机视觉与模式识别会议（CVPR）IEEE，2020年6月。二个[21] Gerard Pons-Moll、Sergi Pujades、Sonny Hu和Michael J.Black。Clothcap：无缝的4D服装捕捉和重新定位。ACM事务处理图表，36（4），2017年7月。二个[22] Charles R. Qi，Li Yi，Hao Su，and Leonidas J. GuibasPointnet++：度量空间中点集的深度层次特征学习。在第31届神经信息处理系统国际会议论文集，NIPS'17，第 5105-5114 页， Red Hook ， NY ， USA ， 2017 年。Curran Associates Inc. 四个[23] Shunsuke Saito，Jinlong Yang，Qianli Ma，and MichaelJ.黑色. SCANimate：弱监督学习的皮肤衣服头像网络。IEEE/CVF 会议论文集计算机视觉和模式识别（CVPR），2021年6月。二个[24] T.唐，Y。范，H. Lin和M.富冢基于点配准和动态模拟的可变形物体状态估计2017年IEEE/RSJ智能机器人和系统国际会议（IROS），第2427-2433页，2017年。一个[25] Bugra Tekin，Sudipta N. Sinha和Pascal Fua。实时无缝单镜头6d物体姿态预测。CVPR，2018年。2[26] Chen Wang，Danfei Xu，Yuke Zhu，Roberto Mart´ın-Mart´ın，Cewu Lu，Li Fei-Fei，and Silvio Savarese. 致密化：基于迭代密集融合的6D目标姿态估计。CVPR，2019年。二个3333[27] He Wang ， Srinath Sridhar ， Jingwei Huang ， JulienValentin，Shuran Song，and Leonidas J. Guibas用于类别级6d对象姿态和大小估计的归一化对象坐标空间。CVPR，2019年。二个[28] H. Wang，S.Sridhar，J.黄，J.Valentin，S.Song和L.吉巴斯用于类别级6D对象姿态和大小估计的归一化对象坐标空间。在2019年IEEE/CVF计算机视觉和模式识别会议（CVPR），第2637-2646页，2019年。二、三[29] ThomasWhelan 、 RenatoFSalas-Moreno 、 BenGlocker、Andrew J Davison和Stefan Leutenegger。弹性融合：实时密集扫描和光源估计。 TheInternationalJournal of Robotics Research，35（14）：1697-1716，2016. 二个[30] Ryan White、Keenan Crane和D. A.福赛斯捕获被遮挡的布料并为其设置动画。在 ACM SIGGRAPH 2007Papers，SIGGRAPH计算机协会。二个[31] Yu Xiang，Tanner Schmidt，Venkatraman Narayanan，Dieter Fox. Posecnn：一种卷积神经网络，用于在杂乱场景中进行6D物体姿态估计。RSS，2018. 二个[32] 井萧和金田武夫。可变形结构的无标定透视重建。在第十届IEEE计算机视觉国际会议（ICCVIEEE，2005年。三个[33] W. Yuan，T. Khot，D.赫尔德角Mertz和M.赫伯特点完成网络。2018年3D视觉国际，第728-737页，2018年。二个[34] Sergey Zakharov，I

下载后可阅读完整内容，剩余1页未读，立即下载