数字化铰接对象：从交互中构建虚拟孪生模型

150 浏览量更新于2023-10-26 收藏 1.96MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5616同上：从交互中构建铰接对象的数字双胞胎美国德克萨斯大学奥斯汀分校计算机科学系摘要将物理对象数字化到虚拟世界中有可能在实体人工智能和混合现实领域开启新的研究和应用。这项工作的重点是重新创建现实世界的关节式物体的交互式数字孪生，可以直接导入到虚拟环境中。我们引入Ditto来通过交互感知学习关节模型估计和关节物体的3D几何重建。给定交互前后对铰接对象的一对视觉观察，Ditto重建部件级几何并估计对象的铰接模型。我们采用隐式神经表示关节几何和关节建模。我们的实验表明，Ditto有效地建立了数字孪生的连接对象在一个类别不可知的方式。我们还将Ditto应用于现实世界的对象，并在物理模拟中部署重建的数字孪生。代码和其他结果可在https://ut-austin-rpl.github.io/Ditto/上获得1. 介绍合成数据在推动新兴人工智能应用方面发挥了越来越重要的作用，从训练和原型计算机视觉模型[20，42]到教机器人执行物理任务[2，28，57]。随着现代人工智能模型变得越来越大，越来越需要数据，虚拟平台和合成数据集提供了大量廉价的训练数据。对于视觉模型来说，从合成数据中受益，真实性是关键-真实世界和虚拟世界之间的分布不匹配阻碍了模拟训练模型的泛化。缩小现实差距的一个有希望的途径是将物理对象数字化并在虚拟环境中重新创建它们。对3D视觉和SLAM [3，12，34，35，53]的研究在利用静态3D模型捕获逼真的对象和场景方面取得了显著的尽管如此，新兴的嵌入式人工智能和混合现实研究需要物理对象的交互式数字双胞胎，这些物理对象可以在模拟环境中产生并与虚拟代理交互构建铰接对象的数字孪生模型尤其具有挑战性图1.我们通过交互感知建立了连接对象的数字孪生模型。给定交互前后的视觉观察，我们的方法联合重建对象的部分级几何和关节模型。我们重新创建的数字双胞胎可以在物理引擎中产生，并在机器人模拟和AR/VR应用中完全交互。因为它不仅需要很好地理解其整体几何形状，而且需要很好地理解部件组成以及部件之间的最近在具体化AI平台[22，23，50]方面的努力已经将交互式铰接对象（如橱柜和抽屉）纳入模拟家庭环境中，并将其用于训练虚拟代理。即便如此，他们严重依赖图形设计师和工程师来创作和管理对象模型，限制了原始采集过程的可伸缩性。开发基于视觉的方法来自动估计[1，17]和重建[33]铰接对象一直是一个活跃的研究方向，由3D视觉社区开发的新工具加速，包括几何深度学习[19，37，39]和隐式神经表示[10，36]。以前的大部分工作都集中在解决问题的各个组成部分，而不是构建一个完整的模型。几个最近的作品[24，52]已经研究了部分分割和联合估计的联合学习。然而，它们在点云上引入了部分级几何，而点云不能用于物理模拟，因为物理模拟需要网格等对象的紧凑几何5617用于碰撞计算。从以前的工作出发，我们寻求从未知的类别中完整的虚拟重建关节物理对象这些铰接对象的数字孪生体表示各个对象部分的几何形状和物理特性以及它们的铰接关系（例如，棱柱形或旋转接头）。从一个单一的图像类别不可知的清晰度估计是固有的模糊。部件可以沿着棱柱轴移动或围绕旋转轴旋转，这取决于下面的运动接头。继pi-oneer对关节式物体的交互感知的研究[14，29]之后，我们建议从关节式运动前后收集的视觉观察中推断数字孪生（见图1）。1）。该任务包括三个密切相关的挑战：基于运动线索的对象部分分割，从部分点云的部分重建，以及未知关节类型的清晰度估计。我们介绍了Ditto（人工耳蜗的Digitalt win），一种基于隐式神经表示的模型，它联合预测部件级几何形状和部件之间的运动学关节。我们采用隐式神经表征[6，31，38，45]来编码连续和高分辨率的3D信息。Ditto建立在ConvONets [40]之上，它基于卷积特征网格学习局部隐式字段。Ditto的输入是铰接对象在与其一个部件相互作用之前和之后的部分点云观测。关键的技术挑战是在这两个部分观测之间建立对应关系。为了实现这一点，我们使用PointNet++[41]将点云编码为两组二次采样点特征。然后，我们将这两组点特征与自关注层融合[51]，并将融合的子采样特征解码为密集点特征。我们从解码的点特征构造结构化局部特征可以从查询3D坐标处的特征网格计算我们学习了一个隐式占用解码器和一个隐式分割解码器，该解码器从3D坐标及其局部特征映射到该坐标处的占用/部分分割标记，以重建部分级几何形状。我们使用另一组隐式解码器，密集预测每个查询点的相对联合参数。这种密集的关节预测带来了比全局预测关节参数更鲁棒的关节估计。我们在两个铰接对象数据集上评估了我们的方法[1，52]。我们的研究结果表明，Ditto准确地重建零件级的几何形状和关节模型的类别不可知的方式。与基线相比，Ditto在所有数据集和指标此外，我们将我们的方法应用于现实世界的铰接对象，以重建数字双胞胎。我们提供了实例化的数字双胞胎在模拟的虚拟机器人进行交互和转移的互动回到现实世界的例子2. 相关工作接合模型估计。概率方法[8，46-由于从单个物体推断清晰度可能是模糊的，因此已经采用交互感知方法[4，14，21，29，30传统方法采用一系列感官观察作为输入，并依赖于标记或手工制作的特征来跟踪移动部件。最近，已经开发了深度学习方法，用于从原始感觉数据中进行清晰度估计[1，16，17，26]。这些工作主要集中在预测的清晰度参数。相比之下，我们的方法联合重建完整的3D几何形状，并估计关节模型。关节式物体的三维重建。铰接对象的3D模型编码对象的铰接和几何属性。来自Huang等人的先锋工作。[15]使用运动恢复结构来重建对象的完整点云，并使用基于特征的对应关系来分割点云。最近，开发了基于学习的方法[24，52这些工作是由于点云上的零件级几何结构缺乏物理仿真所需的网格信息。一系列重建可变形物体的方法[5，55，56]使用关节骨骼来表示关节。这些表示松散地约束对象部分的运动相比之下，数字孪生模型需要精确的零件级几何形状和精确的关节建模，以便在物理引擎中进行模拟。与我们的工作最接近的是A-SDF [33]，它为可以提取3D网格的铰接对象学习深度符号函数。它使用一个单独的潜在代码来隐式地模拟发音状态。相反，我们的方法为每个部件构建完整的3D网格，并显式地对其进行建模。由此产生的数字双胞胎可以在虚拟环境中产生物理交互。隐式神经表征。我们的方法建立在最近关于隐式神经表征的工作之上[6，31，38]。这些作品编码的三维形状与等值面的隐式功能。这些隐式模型使用深度网络进行参数化，以便能够以高分辨率平滑和连续地表示复杂形状。为了更好的可扩展性和更精细的细节，有几种方法[13，25，40]学习局部隐式解码器并将隐式表示条件化为局部特征而不是全局形状特征。具体来说，我们的模型扩展了ConvONets [40]，具有更强大的编码器和融合模块，用于处理两个输入数据流。使用铰接对象进行物理模拟。物理模拟器已经成为体现人工智能的重要工具，5618P P∈∈∈∈3D要素格网之前相互作用子采样点要素密集点要素查询（，，占用概率池化0零件级重建PointNet++编码器几何特征解码器3D-UNet1局部特征行军立方体3D点云融合点要素查询（，，移动概率01联合估计PointNet++编码器运动特征解码器投影池化2D-UNets联合投票当地特征后相互作用二维特征平面密缝预测双流编码器隐式解码器显式铰接对象提取发音解码器Attention层分段解码器占用解码器图2. Ditto的模型架构。输入由交互前后的点云观测组成。在PointNet++[41]编码器之后，我们将二次采样点特征与一个简单的注意力层融合在一起。然后，我们使用两个独立的解码器，传播融合的点特征到两组密集的点特征的几何重建和清晰度估计分别。我们通过投影和池化点特征来构造特征网格/平面，并从构造的特征网格/平面中查询局部特征在局部特征的条件下，我们使用不同的解码器来预测相对于查询点的占用、分割和联合参数搜索一个不断增长的趋势是从用于视觉导航的静态3D场景[22，44，57]转向支持机器人和物体之间物理交互的交互式环境[9，23，50]。交互式3D资源是构建这些模拟器的关键要素现有的交互式3D资产大多由3D艺术家创作和改进[32，50，52，54]或程序生成[1]。我们的方法直接从视觉观察中构建日常铰接对象的交互式数字孪生模型。它有可能加速现实的交互式3D资产的获取。3. 问题公式化我们研究的问题，重新创建交互式数字孪生的铰接对象从一对感官观察之前和之后的互动。数字双胞胎通常以标准3D格式（诸如URDF）表示，使得它们可以被导入到物理引擎中。为了实现虚拟世界中的物理交互，铰接对象的数字孪生体构成运动树，其中节点定义几何形状和物理特性（例如，质量和摩擦力），并且边缘限定了部件之间的运动接合点这项工作的重点是估计零件几何形状和运动关节，同时根据真实世界的统计数据将物理属性设置为默认值。给定来自未知类别的铰接对象，我们与对象交互以改变铰接状态。在不失一般性的情况下，我们假设在交互之后只有一个部分被移动，我们称之为移动部分。我们的方法的输入是一对点云观测1，2RN×3的铰接对象之前和之后的相互作用。N是输入点数。目标是分割和重建静态和移动部件的3D几何形状，估计连接的连接参数这两个部分，以及关节状态的相对变化。对于关节估计，我们考虑了1D旋转关节和1D棱柱关节。我们遵循[24]中的关节参数化。平移关节的参数包括平移轴的方向upR3和关节状态cp。联合状态cp被定义为两个观测之间的相对平移距离。转动关节的参数包括转动轴的方向urR3、转动轴上的支点qR3和关节状态cr。联合状态cr被定义为两个观测之间的相对旋转角。4. 方法我们现在介绍Ditto，这是一个学习框架，它通过交互式感知建立了连接对象的数字孪生模型。Ditto通过结构化特征网格和统一的隐式神经表示联合学习部件级几何关系和关节模型估计。图2说明了整体模型架构。Ditto由一个双流编码器组成该模型是联合优化的几何重建和关节估计的损失函数的组合。在推理时，我们从隐式解码器中提取出articulated对象的显式模型。4.1. 双流编码器为了共同学习3D重建和关节模型估计，我们需要提取融合输入点云对信息的特征。我们基于ConvONets[40]构建编码器，这是最先进的基于隐式表示的3D重建方法。我们使用注意层[51]来融合两个输入点云的两组点特征。注意力操作的复杂性表现出相对于点的数量的处理更密集的点云5619PP∈pp2∈中pP∈中p中p中p中p中pOp为了捕捉物体的更精细细节，我们使用Point- Net++[41]编码器µenc来获得两组二次采样点特征f1=µenc（1）和f2=µenc（2），其中f1，f2RN′×dsub，N′ tocc]1[s（p）> tseg]，os（p）=1[o（p）> tocc]1[s（p）≤tseg]，（十一）用简单的101损失Lstat ep=|c−c|，其中c是P P PGround Truth联合国此外，我们还最大限度地减少了预测位移和地面真实位移之间状态预测和参数预测可以用这个损失联合优化显示P =cucu。所有这些都是棱柱关节其中Tocc和Tseg是预测的发生概率和分割概率的阈值。然后我们应用多分辨率等值面提取[31]和Marching Cube[27]来提取每个部分的表面网格。全局关节模型提取。我们使用一个简单L参数p=（L中p奥里普+ L状态p+Ldispp）。（八）平均投票策略来聚集密集联合预测。在网格提取过程中，我们可以用预测的标签对网格内的许多点进行采样。因为旋转接头转动关节的轴向和关节状态的损失与移动关节相同，记为orir和stater。我们对投影方向dr和投影距离hr的取向应用相同的损失，它们加在一起形成pos。由于我们的密集关节表示，基于位移的损失也可以应用于旋转关节参数预测。对于中的每个点p，我们计算预测的旋转矩阵Rpin 和地面实况一个Rp在根据预测，地面实况轴方向和旋转角度。我们还将估计的枢轴点定位在 = pin+物体的运动决定了关节模型，我们只让运动部分内部的点投票给全局关节。对于两种类型关节的关节轴方向和关节状态对于旋转轴的位置，我们利用预测的投影方向和投影距离计算每个移动点的枢轴点坐标然后，我们平均所有移动点的结果，并得到轴上的估计枢轴点。5. 实验我们研究了DittoR中pRHD5622−L||−||中p .那么位移可以计算为有关节的物体。我们首先进行系统的定量分析，Rpin（pinqpin）+qpin. 中的地面真值位移可以与地面实况参数类似地计算而位移损失分配=lpinlpin-是的此外，我们在旋转矩阵上应用额外的损失，在两个3D资产数据集上的评估表明，Ditto可以准确地重建几何形状并估计articulation模型。然后，我们定性地表明，我们的方法推广到现实世界中的对象。5623几何联合数据集方法整个移动棱柱雷武吕特倒角距离↓倒角距离↓角度误差↓角度错误↓位置错误↓合成数据集[1]同上（我们的）0.38 0.210.060.72 0.03[52]第五十二话同上（我们的）0.720.420.081.36 0.02表1.Shape2Motion [52]和合成[1]数据集上几何重建和关节估计的定量结果5.1. 数据集我们在两个3D铰接对象数据集上进行实验，这两个数据集是由Ab- batematteo等人提供的合成对象数据集。[1]和Shape2Motion数据集[52]。合成数据集包含程序生成的articulated对象。Shape2Motion包含人类设计的物体。我们从每个数据集中选择四个类别。在数据生成过程中，我们在仿真中随机生成一个对象，并将对象设置为随机的开始和结束状态，以模仿关节运动。在每个状态下，我们将多视点深度图像融合到点云观测中.即使我们使用多视图深度图像，由于对象的自遮挡，点云仍然可能是不完整的。我们为每个部分单独生成占用数据点，用于地面真实几何形状，并聚合样本以获得形状级别的占用和分割。地面实况清晰度和占用率直接从模拟器获得。5.2. 基线A-SDF A-SDF [33]是最接近我们的工作，因为没有现有的方法是专门为关节连接对象的全面虚拟重建而设计的。A-SDF和我们的工作有两个主要区别。首先，A-SDF是一个类别级模型，它假设同一类别中的对象具有相同的运动学树结构。其次，它估计的衔接模型隐含而不是明确。因此，我们为每个类别训练一个A-SDF模型，并仅评估合成数据集上的几何recruitc- tion结果。书信往来。我们首先在整个数据集上训练FCGF [7]特征提取器。然后，我们使用提取的特征来找到点对应的观察之前和之后的相互作用基于对应性并使用非线性拟合来拟合清晰度最小二乘算法此外，我们使用对应关系来计算每一个点的移动距离，并分割移动点的阈值为0.02。我们使用为部件重建而训练的Con-vONet [40]重建分割点的网格。此基线的输出与Ditto相同。全球联合。为了验证我们选择的密集联合表示，我们修改了我们的模型，并使用解码器，预测联合参数从一个全球性的功能。由于旋转关节轴线的枢转点是不明确的，即，它可以沿轴移动，我们采用ScrewNet中基于螺钉的关节参数化[17]。我们还应用ScrewNet的损失函数来训练模型。除了上述基线外，我们还使用以下消融版本的模型验证了我们的设计选择：Concat Fusion。该算法不采用基于注意力的融合方法，而是直接将点云结构化特征进行拼接，并根据拼接特征对局部隐式解码器进行调节。共享功能。我们使用三维特征网格的占用预测和二维特征平面的分割和联合预测在我们目前的模型。该消融版本的几何结构和关节面均具有3D和2D特征。共享解码器。在我们当前的模型中，我们在PointNet++中使用两个独立的解码器来处理几何和关节。这个消融版本使用共享解码器代替。5.3. 评估指标零件级几何图形。为了评估重建的部分级网格的质量，我们使用Chamfer-1距离（CD）作为评估度量。除了整个重建的网格和地面实况之间的CD外，我们还评估了分割的移动部分的CD，因为它是对象的唯一可交互区域。如A-SDF [33]中所示，CD乘以1000。A-SDF [33]2.48----通信[7]2.13 93.210.346.50.46全球联合[17]0.54 37.70.6952.00.13通信[7]2.2235.715.245.50.28全球联合[17]0.9064.91.3679.80.17共享功能0.7510.70.072.220.04Concat Fusion0.973.090.173.130.03分享解码器0.683.300.191.930.025624互动前相互作用之后CorrespondenceGlobal joint同上GroundTruth之前后A-SDF对应全球联合Ditto地面相互作用相互作用真相图3.在Shape2Motion [52]（顶部）和合成[1]（底部）数据集中重建不可见的关节对象。静态部件为灰色，而移动部件为绿色。我们还用红色箭头可视化估计的关节。关节模型。对于这两种类型的关节，我们测量方向误差（Angle Err）。对于旋转关节，我们还使用预测旋转轴和地面真实旋转轴之间的距离来测量位置误差（Pos Err）。5.4. 关节式物体重建定量结果见表。1.一、在这两个数据集上，与基线相比，Ditto在所有指标上都获得了更好的结果对应[7]和全球联合[17]基线在关节估计方面表现不佳。如图3所示，虽然基线方法产生整体良好重构的形状，但预测的移动部分具有许多伪影。相比之下，Ditto实现了精确的部分级几何重建以及精确的联合估计。由于两阶段的设计，对应基线高度依赖于一个学习的解纠缠的功能表示在开始。不良的初始特征表示容易导致不准确的对应和清晰度估计。相比之下，Ditto作为端到端方法没有这样的瓶颈。“全局联合”基线性能较差，主要是由于直接全局联合回归的方差较高。联合估计也会损害分割预测，因为它们共享相同的特征平面。同样，Ditto预测每个点的联合密集的预测被聚合到最终的联合估计中，从而导致更鲁棒和准确的结果。为了与A-SDF [33]进行比较，我们提供了合成数据集上的形状重建结果当涉及到整个倒角距离时，Ditto以明显较大的幅度超过A-SDF如图3所示，A-SDF无法重建看不见的物体的形状细节，特别是具有棱柱关节的物体。相比之下，Ditto精确地重建整个对象和细粒度的几何细节，如橱柜门和抽屉的把手。A-SDF和我们之间的一个关键区别是，我们使用前馈模型，而A-SDF使用测试时间优化来找到清晰度和形状代码。A-SDF的性能较差是由于在测试时间优化中清晰度代码和形状代码的干扰。请注意，A-SDF需要对每个类别进行单独的训练，而Ditto是一种与类别无关的方法。因此，这项任务对Ditto来说应该更具挑战性此外，Ditto可以提取显式接合和部分级别的geome-5625图4.真实世界的结果。我们使用在模拟数据集中训练的Ditto来构建这些物理对象的数字孪生模型。将重新创建的水龙头模型导入物理模拟器。机器人与虚拟水龙头交互，并将其动作转移回现实世界以操纵物理水龙头。try while A-SDF隐式编码发音模型。5.5. 消融研究如Tab.所示。1、Ditto在所有指标上都实现了卓越的或至少是同等的性能。Ditto的移动倒角距离（CD）显著低于（优于）消融版本。移动CD测量重构的移动部分的质量，这对于模拟交互至关重要。共享功能基线在移动CD中的性能最差。我们观察到，使用相同的3D和2D特征进行几何和关节运动会使训练不稳定，而2D特征会由于投影后空间信息的丢失而损害反射。Concat Fusion不对对应性进行推理，因此与Ditto相比，在所有指标上表现出较差的性能。最后，共享解码器基线将一个解码器应用于几何和运动特征。这个解码器需要同时推理几何和发音。由于能力有限，该基线在移动CD和关节角度误差上获得次优性能。消融研究的定性结果和分析见附录。5.6. 现实世界的实验最后，我们使用Ditto来重建真实世界物体的数字孪生.我们选择三个日常用品，一个玩具柜，一台笔记本电脑和一个水龙头。结果示于图4中。由于来自深度相机的噪声和不完整的输入点云，结果具有一些伪影。尽管存在这些人为因素，Ditto通常可以重建这些物理对象的几何形状和纹理。此外，我们将水龙头的数字孪生模型导入Robosuite [58]，这是一个机器人学习模拟框架。我们使用一个模拟的机器人手臂与数字孪生交互，并在校准模拟和真实机器人帧后将动作传输回现实世界。该实验的视频在项目网站上提供。有了Ditto，我们可以在虚拟环境中为数字孪生子重新创建一个真实世界的铰接对象，并将与数字孪生子的交互映射回现实世界中的动作。5.7. 限制运动树目前，Ditto只将对象分割为两部分，移动部分和静态部分。我们希望通过模型推理的连续相互作用和聚合，将我们的方法扩展到重构具有多关节和多部件的组合对象的完整运动树。主动感知。我们使用交互来创建新的感官数据来推断清晰度。这些相互作用要么通过设置联合状态（在模拟中），要么通过人（现实世界）。我们希望开发算法来自主地与对象交互并主动收集数据。6. 结论我们介绍了Ditto，一个基于隐式神经表征的模型，用于通过交互感知重建关节式物体的数字孪生。Ditto是一个端到端模型，它可以从关节运动前后的两个视觉输入中联合学习完整的几何形状再现和关节估计。结果表明，Ditto在基线上实现了更精确的几何和清晰度推理结果。此外，我们证明了Ditto推广到现实世界的对象，我们可以直接产生重新创建的数字双胞胎在交互式仿真。这些结果表明了自主数字孪生模型在增强嵌入式AI研究和AR/VR应用方面的潜力。致谢这项工作得到了NSF CNS-1955523、UT-Austin机器学习实验室的MLL研究奖和Ama- zon研究奖的部分支持5626引用[1] Ben Abbatematteo Stefanie Tellex和George Konidaris。学习将运动学模型推广到新对象。在2019年第三届机器人学习会议上一二三六七[2] OpenAI：Marcin Andrychowicz，Bowen Baker，MaciekChociej ， Rafal Jozefowicz ， Bob McGrew ， JakubPacibaki ， Arthur Petron ， Matthias Plappert ， GlennPowell ， Alex Ray ， et al. Learning dexterous in-handmanipulation. 国际机器人研究杂志，39（1）：3-20，2020。1[3] Armen Avetisyan ， Manuel Dahnert ， Angela Dai ，Manolis Savva，Angel X Chang，and Matthias Nießner.Scan 2cad ：学习 rgb-d 扫描中的 cad 模型对齐。在IEEE/CVF计算机视觉和模式识别会议上，第2614-2623页，2019年。1[4] Jeannette Bohg ， Karol Hausman ， Bharath Sankaran ，Oliver Brock ， Danica Kragic ， Stefan Schaal ， andGaurav S Sukhatme.互动感知：在感知中利用行动，在行动中利用感知。IEEE Transactions on Robotics，33（6）：1273-1291，2017。2[5] Aljaz Bozic，Pablo Palafox，Michael Zollhofer，JustusThies，Angela Dai，and Matthias Nießner.用于全局一致非刚性重建的神经变形图。在CVPR中，第1450-1459页，2021年。2[6] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE/CVF计算机视觉和模式识别会议论文集，第5939-5948页2[7] Christopher Choy，Jaesik Park和Vladlen Koltun。完全卷积几何特征。在IEEE/CVF计算机视觉国际会议论文集，第8958-8966页，2019年。六、七[8] 安东尼·迪尔登和扬尼斯·德米里斯学习机器人的前向模型。在IJCAI，第5卷，第1440页，2005中。2[9] Matt Deitke，Winson Han，Alvaro Herrasti，AniruddhaKembhavi ， Eric Kolve ， Roozbeh Mottaghi ， JordiSalvador ， Dustin Schwenk ， Eli VanderBilt ， MatthewWallingford，et al. Robothor：An open simulation-to-realembodied ai platform.在IEEE/CVF计算机视觉和模式识别会议论文集，第3164-3174页，2020年。3[10] Boyang Deng ， John P Lewis ， Timothy Jeruzalski ，GerardPons-Moll ， GeoffreyHinton ， MohammadNorouzi，and Andrea Tagliasacchi. Nasa：神经关节形状近似。欧洲计算机视觉会议，第612-628页1[11] Pete Florence 、 Corey Lynch 、 Andy Zeng 、 OscarRamirez 、 Ayzaan Wahid 、 Laura Downs 、 AdrianWong 、 JohnnyLee 、 IgorMordatch 和 JonathanTompson 。隐式行为克隆。 arXiv 预印本 arXiv ：2109.00137，2021。4[12] Andreas Geiger，Julius Ziegler，and Christoph Stiller.立体扫描：实时高密度三维重建。2011年IEEE智能车辆研讨会（IV），第963-968页。IEEE，2011年。1[13] Kyle Genova 、 Forrester Cole 、 Avneesh Sud 、 AaronSarna和Thomas Funkhouser。三维形状的局部深度隐式函数。IEEE/CVF会议5627计算机视觉和模式识别，第4857- 4866页，2020年。2[14] 卡罗尔·豪斯曼，斯科特·尼库姆，莎拉·奥森托斯基，高拉夫·S·苏哈特梅.通过交互感知的主动发音模型估计。2015年IEEE机器人与自动化国际会议（ICRA），第3305-3312页。IEEE，2015年。2[15] 黄晓霞伊恩·沃克斯坦·伯奇菲尔德三维关节式物体的咬合感知重建与操作。2012年IEEE机器人与自动化国际会议，第1365-1371页。IEEE，2012。2[16] Ajinkya Jain，Stephen Giguere，Rudolf Lioutikov，andScott Niekum.基于分布深度的目标识别模型估计。arXiv预印本arXiv：2108.05875，2021。2[17] Ajinkya Jain ， Rudolf Lioutikov ， and Scott Niekum.Screwnet：使用螺旋理论从深度图像进行类别独立的清晰度模型估计。arXiv预印本arXiv：2008.10518，2020。一、二、五、六、七[18] Zhenyu Jiang ， Yifeng Zhu ， Maxwell Svetlik ， KuanFang，and Yuke Zhu.启示和几何尝试之间的协同作用：通过隐式表示的6-dof抓取检测。arXiv预印本arXiv：2104.01542，2021。4[19] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik。端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议论文集，第7122-7131页，2018年。1[20] Amlan Kar ， Aayush Prakash ， Ming-Yu Liu ， EricCameracci ， Justin Yuan ， Matt Rusiniak ， DavidAcuna，Antonio Torralba，and Sanja Fidler.Meta-sim：学习生成合成数据集。在IEEE/CVF计算机视觉国际会议论文集，第4551-4560页，2019年。1[21] 多夫·卡茨和奥利弗·布洛克用交互式感知操纵铰接的在2008年IEEE机器人和自动化国际上，第272-277页IEEE，2008年。2[22] Eric Kolve 、 Roozbeh Mottaghi 、 Winson Han 、 EliVanderBilt 、 Luca Weihs 、 Alvaro Herrasti 、 DanielGordon、Yuke Zhu、Ab-hinav Gupta和Ali Farhadi。ai2-thor：一个交互式的3d环境。arXiv预印本arXiv：1712.05474，2017。第1、3条[23] Chengshu Li ， Fei Xia ， Roberto Mart 'ın-Mart' ın ，Michael Lin- gelbach ， Sanjana Srivastava ， BokuiShen，Kent Vainio，Cem Gokmen ，Gokul Dharan，Tanish Jain，et al. igibson 2.0：Object-centric simulationfor robot learning of everyday household tasks.arXiv预印本arXiv：2108.03272，2021。第1、3条[24] Xiaolong Li，He Wang，Li Yi，Leonidas J Guibas，ALynn Abbott，and Shuran Song.类别级铰接对象姿态估计。在IEEE/CVF计算机视觉和模式识别会议论文集，第3706-3715页，2020年。一、二、三、四[25]

下载后可阅读完整内容，剩余1页未读，立即下载