IFOR：迭代流最小化机器人对象重排

186 浏览量更新于2023-10-25 收藏 2.84MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14787123初始场景456进球场景789IFOR：机器人目标重排的迭代流最小化AnkitGo yal1，2*，ArsalanMousa vian1，ChrisPaxton1，Yu- WeiChao1，BrianOkorn1，3邓佳2，Dieter Fox11NVIDIA、2普林斯顿大学、3卡内基梅隆大学图1.IFOR应用于实际数据的一个例子初始和目标场景显示在左侧。我们的方法允许机器人重复识别转换，将最小化当前和目标场景之间的各种对象的流量。然后，它可以反复抓取、移动和放置物体，根据需要旋转，以实现在目标场景中的配置该系统完全基于合成数据进行训练，并以零触发的方式传输到现实世界。摘要在非结构化环境中，从视觉中精确地重排目标是现实世界机器人应用中的一个关键问题。我们提出了IFOR，迭代流最小化机器人对象重排，一个端到端的方法，具有挑战性的问题，对象重排未知对象给定的原始和最终场景的RGBD图像。首先，我们学习基于RAFT的光流模型，纯粹从合成数据估计对象的相对变换。然后，在迭代最小化算法中使用该流程，以实现先前未看到的对象的精确定位至关重要的是，我们证明了我们的方法适用于杂乱的场景和现实世界，而只在合成数据上进行训练。视频可在https：//imankgoyal.github.io/ifor.html网站。1. 介绍对象重新布置是具体化代理将场景中的对象物理地重新配置为*作者在NVIDIA目标配置[2]。这是日常活动中必不可少的技能，比如摆餐桌，放杂货，整理桌子。赋予机器人这种能力对于部署它们帮助人们完成日常任务至关重要[2]。随着任务设置的变化，期望的目标状态可以以不同的形式提供，例如，紧凑的状态表示[32，67]或自然语言描述[36，55]。在这项工作中，我们解决了目标状态由RGB-D图像指定的重排任务[34，51]，如图1所示。这种设置非常适合于许多场景，其中目标状态可以被一次捕捉，无论是在第一时间还是从一次性演示中。例如，用户可以将餐桌设置为他们的偏好并拍照，并且机器人助理可以将桌子从任何破坏恢复到期望的状态传统上，对象重排问题已经在机器人社区中进行了研究，通常在任务和运动规划（TAMP）的背景下[15]。尽管最近取得了很大进展[10，16，26]，但大多数TAMP方法仍然依赖于感知方面的一组严格假设。第一、14788通常假定对象和场景是先验已知的，并提供有高保真度3D模型。这使得这些方法难以部署在看不见的环境或没有模型的环境中。其次，给定模型，规划前沿通常假设输入处的准确姿态信息。这使得显式对象姿态估计[33，35，50，61，66]成为流水线的必要部分，并且整个系统容易受到来自真实视觉系统的姿态估计误差机器人领域最近的努力试图通过利用深度学习的力量来放松这些限制。Qureshi等人提出了一种称为NeRP的新方法[51]，允许重新排列在训练时看不见的对象，通过用学习的嵌入表示观察到的对象。它还通过利用基于学习的抓取规划器[62]和碰撞检测器[7]的最新进展，消除了对规划的显式对象姿态估计的需求。然而，NeRP仅允许在工作台表面上移动具有2D平面内平移的对象，并且不允许改变它们的方向。这就阻止了它在现实场景中的应用，这些场景需要用更复杂的变换来移动对象，如图1所示。1.一、我们提出了一种新的方法，图像引导的机器人对象重排与RGB-D输入。它实现了，第一次尽我们所知，处理未知物体的平移以及平面旋转的能力我们的方法的关键是重新制定目标后方测距作为一个迭代的光流之间的当前观察图像和目标图像的最小化。通过使用光流作为中间表示，我们可以利用流估计模型的前沿发展[63]。虽然这些流模型最初是为具有小像素位移的连续视频帧开发的，但我们表明，通过适当的训练，这些模型可以擅长于从对象的任意变换估计具有大位移的流。使用这个估计的流，连同深度输入和通用对象分割模型[69]，我们可以获得每个对象的密集3D对应。这提供了一个通用的表示，允许我们通过简单的优化来解决对象的然而，有了这样一个一般的表示，我们的方法完全在合成数据上训练，以零射击的方式很好地转移到现实世界中。总之，我们介绍了IFOR，迭代流最小化的不可见对象R安排。据我们所知，IFOR是第一个能够重新排列看不见的物体的系统，给定RGB-D图像目标，可以处理平移和旋转。我们的方法仅在模拟数据上进行训练，并以零射击的方式转移到现实世界最后，我们进行了一组实验，表明我们的方法允许重新安排的新对象在杂乱的场景与真正的机器人。2. 相关工作机器人对象操作。我们的工作属于机器人操作的广泛领域。传统的操纵系统通常采用模块化方法，将整个系统分解为感知、规划和驱动组件。感知模块负责估计环境的状态，例如，检测和分割对象[4，6，22，38，70]，并估计其6D姿势[33，35，50，61，66]。利用感知输出，规划模块然后搜索动作序列以完成操纵任务。在机器人技术中，这通常在任务和运动规划（TAMP）问题中进行形式化和研究[10，15，16，26]。然而，设置真实世界的TAMP系统通常需要大量的任务特定知识和环境的精确3D模型，这显著限制了系统可以推广的环境。为了应对这一挑战，最近的工作采用了基于深度学习的机器人操作方法，例如，抓取规划[44，47，48，62，65]，运动规划[7，57]，以及关于空间关系的推理[20，36，49]。我们的工作涉及重新排列物体，这是一个在机器人领域有着悠久历史的领域[31，32，34，51，54]，但由于模拟平台的进步，最近在视觉和学习社区中获得了牵引力[2，19，39，67与我们最相关的作品是Labbe等人的作品。[34]和NeRP [51]，它们也解决了具有图像指定的目标状态的重排任务。解决这个问题的关键步骤是建立当前和目标图像之间的对象的对应关系，并解决其所然而，[34]和[51]都只考虑2D平面平移，没有方向变化。这可能是因为它们的对象特征描述符是通用的，而不是旋转敏感的。相比之下，我们建议使用光流作为低级特征描述符，它可以自然地用于推断完整的6D变换。与我们的工作平行，最近的努力也解决了重排，特别是从人类演示[14，72]中学习到的重排，以及不同的目标规范，如语言[36，55]。光流和特征对应。光流是一个长期存在的视觉问题，解决了两个视频帧之间的像素运动的估计。与计算机视觉中的其他子领域一样，深度学习的起飞已经用基于学习的端到端架构取代了光流的传统管道[1，23，27，30、41、58在处理对象重排时，我们的工作提出使用当前图像和目标图像之间的预测光流来建立所需的对象变换。然而，我们证明了最先进的模型可以在预测具有大位移的流量时表现出色，而不是从连续的视频帧中估计流量14789当前深度当前场景分割规划和执行流量最小化进球场景预测光流目标深度更新当前场景并在必要图2. IFOR算法概述。IFOR将当前和目标场景的RGB+D图像作为输入，并使用这些图像来预测哪些对象应该移动以及通过哪些变换，使用RAFT来估计光流。然后将其发送到机器人规划和执行流水线，该流水线能够在具有未知几何形状的场景中抓取未知对象和运动规划在对象重排中从任意目标图像分割。除了光流之外，我们的工作还可以潜在地利用场景流的工作主体，其直接预测3D而不是2D图像空间中的运动。最近的工作研究了场景流的各种设置，包括从单眼帧[24]、立体图像[3，29，43]、RGB-D对[25，42，64]到3D点的云[17，21，37，45]。最后，我们的流量预测任务与在3D重建中建立特征对应性[11，52，71，74]的问题密切相关（例如， SfM ）和视觉定位（例如，SLAM）。具体化的AI。我们的工作非常符合嵌入式AI的最新趋势。最初，这项工作主要集中在与导航有关的任务家族[8，9，53，56，68]，但逐渐发展到包括与物理操作有关的任务[12，28，69]。此外，Batra et al.[2]已经认识到重新排列问题是评估嵌入式AI的我们的工作推动了这一领域的进步和不像大多数先前的体现人工智能工程，只在模拟运行评估，我们也评估了我们的方法在现实世界的机器人平台上的性能3. 方法IFOR将当前场景和目标场景的RGB-D图像作为输入，并迭代地每次为一个对象生成拾取和放置动作。在每次迭代中，当前和目标场景的RGB-D图像通过两个组件：（1）感知和（2）规划（图1）。2）。感知组件负责估计当前场景和目标场景之间所有对象的相对变换给定估计的变换，规划组件通过考虑碰撞和运动学可行性来选择要与所需变换一起移动的对象。最后，在执行计划的拾取和放置动作之后，系统将对场景进行新的观察并重复该过程。3.1. 感知感知组件的任务是分割出当前图像和目标图像中的对象，建立它们的对应关系，并预测每个对象从其当前姿态到其目标姿态的6-DoF变换。我们实现了这一点与管道相结合的光流估计，看不见的对象分割，和基于RANSAC的变换优化。重排的光流。第一步是估计当前图像和目标图像之间的光流。这为我们提供了它们之间的像素级对应关系在常规设置中，通常在视频中的时间上接近的图像之间估计光流。流动的位移通常很小，因为时间上接近的图像彼此相差不大。事实上，这种小位移先验对于经典方法（如Lucas-Kanade方法[40]）至关重要。然而，这种假设在重排中并不成立，因为对象可以从初始场景移动很大的距离并旋转很大的角度这使得经典的光学14790∼∈ΣL--初始目标初始目标初始目标图3.来自用于训练RAFT的合成数据集的示例。图像以成对的初始图像和最终图像出现，每个图像都包含杂乱的各种对象。在两个图像之间，存在大的随机采样变换。在这些大的不连续性上重新训练RAFT对我们的方法至关重要。流量估计不适合重新安排。与经典方法相反，基于深度学习的光流方法，如递归所有对场变换（RAFT）[63]，学习从数据中进行预测但是，它们也是为估计视频中的流量而开发和训练的，因此预训练的RAFT模型在重排场景中不能很好地工作。然而，RAFT因此，在给定合适的数据的情况下，RAFT可以被训练用于具有大的平移和旋转的对象重排。筏。递归所有对场变换（RAFT）通过构建一个4D相关体积来估计光流，其中一个图像中的每个像素与另一个图像中的每个像素进行比较[63]。然后，它使用循环单元更新流量估计，从所有位置的零光流开始。在每次迭代中，递归单元围绕当前流量估计进行查找，以决定如何更新流量估计。在培训期间，RAFT对经常性单位所做的所有这些中间流量估计进行监督假设f1，. 如果N是N个中间流估计，并且fgt是真实流，则loss（）被定义为估计流和真实流之间的具体地说，最后，我们创建了一个包含54K训练样本和1000个测试样本的数据集。我们的合成数据的一些样本如图所示。3 .第三章。不可见对象分割。光流本身不足以估计对象的变换，因为它们缺乏分组或此外，不像大多数先前的分割方法，只分割对象类，他们训练，我们需要一个零杆分割方法来处理在测试时看不见的对象。我们使用预训练的UCN [70]，它被训练用于从场景的RGB-D图像中分割未知对象它学习逐像素嵌入，使得属于同一对象实例的像素具有类似的嵌入，但与场景中的其他对象实例不同。在测试时，使用均值漂移聚类对对象进行分割。从流转换相对对象。下一步是估计两个帧之间的对象的相对变换。每个对象的相对变换是通过首先从场景的深度图和相机固有函数中将每个像素解投影到3D来计算的。从预测流量和未投影点计算当前图像和目标图像之间的3D对应关系。我们解决了一个刚体变换为每个对象的位置误差最小化后，应用变换的形成。设PcR3×n为物体的三维点3×n在当前场景中，Pg∈R是对应的-NL=γN−i||fgt−fi||1、（1）i=1其中γ是值为0.8的贴现因子。有关更多详细信息，请参阅Teed an Deng的工作[63]。合成数据。为了训练RAFT进行对象重排，我们创建了一个视觉上逼真的合成场景数据集。在这些场景中，对象被放置在桌子或床等支撑物上。我们从ShapeNet[5]和Google扫描数据集[18]中采样支持。我们使用NViSII渲染器[46]通过光线跟踪渲染具有逼真光照的场景，并通过随机相机姿势渲染不同的视点我们还随机化了场景的照明、支撑物的纹理和背景图像。在在进球的场景中得分。然后，我们通过使用SVD分解解决以下优化问题来估计刚体旋转R和平移Targmin||（R·Pc+T）−P g||二、（二）在实践中，我们观察到来自流的匹配对应可以包含许多离群值。当物体经历极端变换（例如，大的旋转），导致在两个图像中仅可见物体表面的一小部分。为了可靠地处理离群值，我们在求解相对姿态时采用RANSAC [13]。在表1中，我们表明RANSAC在去除离群值和估计准确变换方面是有效的。在图4中，我们展示了定性的R、T14791| |||初始场景进球场景转化图4.在根据IFOR估计的姿态转换对象点之后，不同的真实世界场景被扭曲的示例。根据预测的光流特征估计姿态。IFOR中规划模块的算法11：输入：对象[O1，. . .，0 n]，估计变换[T1，. - 是的- 是的，T n]2：对于i= 1到n，3：计算对象Oi的得分Si4：对对象进行排序[O1，. - 是的-是的，O n]和变换[T1，. - 是的- 是的，Tn]基于得分[S1，. - 是的- 是的，S n]5：设排序对象为[O<$1，. -是的-是的，O<$n]和排序的mations是[T′1，. -是的-是的，Tn]6：ObjectMoved = False7：对于i= 1到n，8：碰撞=如果O<$i在应用变换T<$i时发生碰撞9：如果碰撞为假，则10：用Ti的相关变换来移动对象Oi11：ObjectMoved = True12：断开回路13：如果ObjectMoved为False，则14：对于i= 1到n，15：FreeSpace Found=查找可用空间F<$i以放置O<$i16：如果FreeSpaceFound为True，则第17章：我是你的女人18：断开回路RANSAC使用我们训练的RAFT模型估计的变换的示例3.2. 规划和执行给定所需对象变换的列表，规划器产生要执行的拾取和放置动作，同时考虑各种运动学和几何约束。我们的规划算法迭代了从感知模块获得期望的对象变换，并发现哪些对象可以使用预测的变换直接移动如果预测变换处的对象不与场景中的任何其他对象冲突，则规划器将每个相对变换分类我们使用预先训练的SceneCollisionNet [7]来检查对象在预测变换时的碰撞。然后，基于得分S = r+ λ t对可行的对象进行排序，其中r是以弧度为单位的相对旋转变换，t是以cm为单位的相对平移，并且λ=0。2在我们的实验中该规划算法可以更好地选择具有较大相对变换的对象。如果政策不能找到一个可行的运动，任何对象，它将尝试将其中一个对象移动到随机的无碰撞位置。假设所估计的对象的变换是正确的，则保证所提出的规划和执行策略收敛并成功地重新布置对象，即，在更坏的情况下，它将把除了一个对象之外的所有对象移动到无碰撞位置，然后把它们中的每一个逐个移动到目标位置。当估计的ro变化时，系统终止。所有对象的位移和平移小于固定阈值。具体来说，我们使用10厘米的旋转阈值和5厘米的平移阈值。我们的实验表明，这种启发式在处理现实世界中具有挑战性的对象重排场景时非常有效（在第二节中讨论）。4.1）。规划算法的伪代码在Algo中概述。1.一、4. 实验我们目前的结果在两个设置。首先，我们在现实世界中执行集成系统比较，具有物理-14792进球场景执行部队复兴方案图5.两个例子比较了NeRP [51]与执行部队的质量性能。在这两个例子中，IFOR都比NeRP更接近地匹配目标图像，并且更精确地匹配方向。腐∈[−60<$，60<$]Rot.∈[−180<$，180<$]中位旋转呃。中位阳性呃。中位旋转呃。中位阳性呃。方法(in）(in厘米）(in）(in厘米）学习基线22.88.133.88.2预训练RAFT + RANSAC20.646.567.843.1重排RAFT + RANSAC3.61.213.72.7表1.在模拟数据上一步估计从流的姿态变换的各种方法的性能。我们发现，RANSAC优于学习为基础的方法来寻找相对变换。此外，预训练的RAFT模型在对象位移大于视频序列的重排场景中表现IFORNeRP仅限位置完整的姿态在1-4的范围内对整体质量进行评分哪种方法更适合匹配…RealSense L515摄像头和腕戴式RealSense D415摄像头。外部摄像机用于IFOR规划、碰撞避免和控制机器人。手腕安装的摄像机仅用于抓取，以提高系统的鲁棒性。IFOR生成一个对象列表和表示放置位置的变换。这些姿势被传递到拾取和放置系统，该系统从规划器获取有序的动作列表。它选择第一个可以图6.执行部队与NeRP [51].当被要求评价如果将两种方法的执行情况按1-4级进行比较，用户大幅度地倾向于执行部队用户在几乎所有情况下都选择了IFOR而不是NeRP，当只看位置（94%）或完整姿势（位置和方向，92%）时。使用IFOR或先前的技术状态拾取和放置物体的机器人[51]。其次，我们进行大规模的烧蚀模拟研究，以评估在IFOR的每一个设计选择的效果。4.1. 真实世界实验我们使用了一个弗兰卡熊猫机器人来进行真实世界的实验。世界是从一个外在的并将其放置在所需的位置。通过Contact-GraspNet [62]计算每个对象的抓取，并使用模型预测控制管道和SceneCollisionNet生成机器人运动。有关拾取和放置系统的详细信息，请参阅[7]没有一个组件是在任何真实对象上训练的，也没有一个是在我们测试的对象上训练的。我们对6个场景进行了评估，其中每个场景在初始配置和不同的目标配置中具有2到5个对象。虽然不可能在现实世界中复制精确的初始条件，但我们尝试在视觉上验证初始配置，并使用相同的RGB-D目标图像来测试两种方法。为了定量评价方法在1 -非常差2-差3 -好4 -非常好NeRP IFOR14793第1步第2图7.一个例子显示了我们的模型对合成数据执行的转换序列。物体被传送到IFOR预测的下一个位置，而不进行碰撞检查。该图仅显示了前两个步骤，但仍然可以进行微小的改进。在现实世界中，我们对10名用户进行了用户研究，要求用户选择性能更好的方法：IFOR或NeRP [51]。我们还请用户按1-4的等级给执行部队除了对物体最终姿态的估计之外，对于IFOR和NeRP来说，拾取和放置系统的所有组成部分都是相同的图5示出了给定类似目标图像的IFOR和NeRP的定性比较。实验的视频包含在补充材料中由于NeRP不处理方向更改，我们要求用户仅根据平移以及考虑旋转和平移对两种方法进行排名。图6示出了在仅平移设置和全姿态设置上，用户明显更喜欢 IFOR 而不是NeRPNeRP失败通常是由于当前图像和目标图像之间的不正确对应。此外，学习放置生成器不generalize以及任意重排。另一方面，IFOR可以从预测的光流中可靠地找到对应的对象及其相对4.2. 消融研究我们在一个合成数据集上进行了消融研究每个场景包含1到9个对象。给定一个随机目标场景，通过对每个对象应用随机平面旋转和平移来生成当前场景。我们首先定义以下评价指标，然后提供对不同消融研究的分析。指标. 我们报告了所有对象的平均平移和旋转误差的中位数。我们还报告了在不同阈值下旋转和位置误差阈值内的对象的年龄百分比此外，对于表2，我们将场景划分为三个任务难度级别：位置误差小于2 cm且旋转误差小于5 mm的“容易”;位置误差小于5 cm且旋转误差小于10 mm的“中等”;以及位置误差小于10 cm且旋转误差小于15 mm的相对变换预测的基于学习与RANSAC。我们探索了基于学习的解决方案来预测流的转换，而不是用RANSAC优化它。对于估计位置，我们预测的热图的质心的目标场景中的场景的流量和深度图像。为了估计旋转，我们使用对象周围的流的裁剪图像，并回归旋转的变化。表1将基于学习的基线的准确性与我们的基于 RANSAC 的优化进行了比较。我们的基于RANSAC的优化与重新训练的RAFT（重排RAFT）实现了显着更低的错误。预先训练的RAFT与重排RAFT。我们比较了在视频序列上训练的预训练RAFT与在具有大的平移和方向变化的合成数据上训练的重排RAFT之间的单步变换预测的准确性表1表明，在重排场景上训练RAFT对于实现预测对象的相对变换的高精度是至关重要的。传送物体与计划一次一个动作。为了提供IFOR的近似上限性能，我们实现了一个基线，其中策略计算所有对象的转换，并一次移动所有对象，然后再次观察场景图图7显示了在模拟中传送策略的执行。该策略在任何真实的机器人设置中显然是不实用的，但是消除了规划约束并且实现了如表2的第一行中所示的明显更好的结果。此外，我们可以看到启发式规划并没有失去性能相比，传送策略，显示其有效性。Ground-truth Collision 与 Learned Collision 的对比[7]。IFOR的一个重要组成部分是碰撞检查器，它指示预测的旋转和平移是否应该被策略接受。表2显示了由于学习的碰撞检查器的缺陷而导致的放置精度下降本-14794图8.随时间推移的每类结果，显示位置和旋转误差。来自Google Scanned Objects数据集[18]的对象被分成不同的组，其中包含至少10个不同的模型。这个类分解表明，系统在具有大量物理对称性的对象类上遇到的问题最多;安宁中位数中位数|∆t|<2厘米|5厘米|∆

下载后可阅读完整内容，剩余1页未读，立即下载