强化学习方法提高6D对象姿态估计任务的计算效率和性能

155 浏览量更新于2023-10-15 收藏 703KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6702PoseAgent：基于强化学习的Alexander Krull1，Eric Brachmann1，SebastianNowozin2，Frank Michel1，Jamie Shotton2，CarstenRother11TU Dresden，2Microsoft摘要最先进的计算机视觉算法通常通过对接下来要探索的假设进行离散选择来实现效率。这允许将计算资源分配给有希望的候选者，然而，这样的决策是不可微的。因此，这些算法很难以端到端的方式进行训练。在这项工作中，我们提出了学习一个有效的算法，用于6D对象姿态估计的任务。我们的系统使用强化学习优化了现有最先进的姿态估计系统的参数，其中姿态估计系统现在变成了由CNN参数化的随机策略。此外，我们提出了一个有效的训练算法，大大减少了计算时间。我们的经验表明，我们学习的姿态估计程序可以更好地利用有限的资源，并在具有挑战性的数据集上改进最先进的技术。我们的方法能够对复杂的算法管道进行可区分的端到端训练，并学会最佳利用给定的计算预算。1. 介绍计算机视觉中的许多任务涉及学习函数，通常学习在给定输入图像的情况下预测期望的输出标签深度学习的进步已经在解决这些任务方面取得了特别是，卷积神经网络（CNN）在使用梯度下降方法在大型训练集上训练时工作良好，以最大限度地减少预测和地面真实标签之间的预期损失。然而，重要的计算机视觉系统采用算法的形式，而不是简单的可微函数：滑动窗口搜索、超像素分割、粒子滤波器和分类级联是实现复杂非连续函数的算法的示例。算法方法在计算预算有限的情况下特别有用：算法可以动态地将其预算分配给解决问题的不同方面，例如，采取捷径，以便将计算花费在更有希望的解决方案上，而牺牲不太有希望的解决方案。我们想学习算法。不幸的是，在大多数算法方法中采取的硬决策是不可微的，这意味着这些有效算法的结构和参数不能容易地从数据中学习。强化学习（RL）[22]为学习算法提供了一种可能的我们将该算法看作是RL代理的策略，即.动态序列行为的描述RL提供了一个框架来学习这种行为的参数，目标是最大化预期的奖励，例如算法输出的准确性我们应用这种观点的算法计算机视觉方法。特别是，我们解决了6D对象姿态估计的问题，并使用RL来学习深度算法管道的参数，以在有限的计算预算下提供最佳的准确性。对象姿态估计是从图像估计特定对象相对于其环境的3D平移（位置）和3D旋转（定向）的任务。该任务在许多应用中是重要的，例如机器人和增强现实，其中有效使用有限的计算预算是重要的要求。一个特殊的挑战是在杂乱的环境中小的、无纹理的和部分被遮挡的物体（见图1）。①的人。最先进的姿态系统，如Krull等人的系统。[12]生成一个姿势假设池，然后使用预先训练的CNN对每个假设进行评分。高分假设的子集得到细化，最终返回得分最高的假设作为答案。在计算上，细化步骤是最昂贵的，并且在允许的细化的数量和结果的预期质量之间存在权衡。理想情况下，人们将端到端地训练这种最先进的系统，以便学习如何使用最佳数量6703的改进，以最大限度地提高姿态估计的预期成功。不幸的是，由于两个原因，不可能将系统视为具有优化参数的黑盒子：（i）每个选择过程关于评分函数是不可微的;以及（ii）用于确定估计姿态是否正确的损失也是不可微的。为了克服这些困难，我们将姿态估计重新定义为RL问题。我们将姿势推断过程建模为RL代理，我们称之为PoseAgent。PoseAgent被赋予了比原始系统更大的灵活性：它被赋予了一个固定的细化步骤预算，并允许通过选择单独的姿势进行细化来操纵其假设池，直到预算用完。在我们的PoseAgent模型中，每个决策都遵循可能行动的概率分布。这种分布称为策略，我们可以通过随机策略梯度方法来区分和优化这种连续策略[23]。由于这种随机方法，最终的姿势估计变成了一个随机变量，每次运行PoseAgent都会产生稍微不同的结果。这种策略梯度方法是非常通用的，并且不需要所使用的损失函数的可微性。因此，我们可以直接取关于预期利息损失的梯度，即。正确估计的姿势的数量。由于估计梯度的额外方差[7，23]，策略梯度方法的训练可能很困难，因为额外的随机性导致估计梯度的方差更大。为了克服这个问题，我们提出了一个有效的训练算法，从根本上减少了训练过程中的方差相比，一个天真的技术。我们将我们的方法与最先进的方法[12]进行比较，并在准确性方面取得了实质性的改进，同时使用与[12]相同或更小的细化步骤平均预算我们的贡献概括如下：• 据我们所知，我们是第一个将策略梯度方法应用于对象姿态估计的人问题.• 我们的方法允许使用对应于原始评价标准的不可微报酬函数• 我们提出了一个有效的训练算法，显着减少训练过程中的方差。• 我们在数据集上发表的最佳结果的基础上进行了显著改进。2. 相关工作下面，我们首先讨论6D姿态估计的方法，特别关注对象坐标预测方法，然后提供在类似于我们的设置中使用的RL方法的简短回顾。2.1. 姿态估计存在多种用于6D对象姿态估计的方法传统上，基于稀疏特征的方法[14，15]已经取得了成功，但仅适用于纹理对象。其他方法包括基于模板的方法[9，19]，投票方案[6，10]和基于CNN的直接姿势回归[8]。我们专注于称为对象坐标回归的工作线[3]，它为我们的方法提供了基本框架。物体坐标回归最初被提出用于人体姿势估计[24]和相机定位[20]。在[3]中，随机森林为6D对象姿态预测提供了密集的逐像素预测在每个像素处，森林预测像素是否位于对象的表面上以及位于对象的表面上的位置。然后可以通过对一小组像素进行采样并将森林预测与来自RGB-D相机的深度信息相结合来有效地生成姿势假设。[3，12，17]中的对象坐标回归方法通过比较渲染和观察到的图像块来对这些假设进行评分。虽然[3，17]使用了一个简单的像素距离函数，[12]提出了一个学习比较：CNN比较再现的和观察到的图像，并输出表示姿态空间中的后分布的参数的能量值。尽管他们在特定的评分函数上存在差异，[3，17，12]使用相同的推理技术来得出最终的姿势估计：他们都细化了最佳假设，重新评分，并输出最佳假设作为最终选择。我们的PoseAgent方法可以被看作是该算法的推广，其中代理反复选择用于细化的假设，每次都能够做出更明智的选择。Krullet al. [12]与我们的工作关系最密切。我们使用与Krull等人类似的CNN结构，将渲染和观察到的图像补丁都输入到我们的CNN中。然而，我们使用CNN的输出作为随机策略的参数，该随机策略控制我们的姿势代理的行为。此外，虽然[12]中的训练过程被视为学习后验分布，然后在使用固定推理程序的测试期间将其最大化，但我们的训练过程直接修改代理的行为，以便最大化正确估计的姿势的数量。2.2. 相似任务中的强化学习传统上，RL在机器人[21]、控制[1]、广告、网络路由或玩游戏等领域取得了成功。虽然RL的应用对于涉及真实代理和环境的情况似乎是自然的，但RL越来越多地成功应用于计算机视觉系统，其中将系统解释据我们所知，6704b）、姿势特工这项工作的重点c）、d）、e）、f）的a）、图1. 姿态估计流水线：a）我们系统的输入是RGB-D图像。我们感兴趣的是绿框中突出显示的相机的姿态。b）与[3]类似，图像由随机森林处理c）森林输出对象概率（顶部）和对象坐标（底部）的密集预测对象坐标被映射到RGB立方体以进行可视化。d）我们使用预测连同深度信息来对姿势假设池H0进行采样。e）RL代理通过重复选择要细化的个体假设来操纵假设池。这是本文的重点。f）智能体输出最终姿态估计H。为了将RL应用于6D对象姿态估计，最近有几篇论文将RL应用于2D对象检测和识别[18，5，16，2]。在[18，5]中，智能体将其注意力转移到图像上，直到做出最终决定。而不是像[18，5]那样在搜索空间上移动单个2D注意力区域，我们使用多个6D姿势假设的池[16]中的智能体通过移动2D固定点来集中注意力，尽管对一组预先计算的图像区域进行操作以收集信息并做出最终决定。我们的代理通过细化单个假设来操纵它的假设池Caicedo等人[5]使用Q学习，其中CNN预测可用状态-动作对的质量。Mnih等人[18] Matheet al. [16]使用基于随机策略梯度的不同RL方法，其中代理的行为直接学习以最大化预期奖励。我们遵循[18，5]使用随机策略梯度，这允许我们使用不可微的奖励函数，直接对应于评估期间使用的最终成功标准。3. 方法在本节中，我们首先定义姿态估计任务，并简要回顾[3，12，4]中的姿态估计流水线然后，我们继续描述PoseAgent，我们的增强-以及它的方向。姿态总共有六个自由度，三个用于平移，三个用于旋转。我们将姿态定义为将点从对象的局部坐标系映射到相机的坐标系的刚体变换。我们的方法是基于Krull等人的工作。[12 ]第10段。与[12]一样，我们使用称为对象坐标的中间图像表示。通过观察RGB- D输入图像的小块区域，可以生成一个随机森林（图1）。1b）为每个像素i提供两个预测。每棵树预测一个物体概率，能力pi∈[0，1]以及一组对象坐标yi(Fig.1c）。对象概率pi描述了像素被认为是物体的一部分或不是。对象坐标yi表示对象表面上像素的预测位置，即，其在对象的局部坐标系中的3D坐标。再次遵循[12]，我们在RANSAC启发的采样方案中使用这些森林预测来生成姿势假设。我们根据对象概率pi从图像中重复采样三个像素。通过将预测的对象坐标yi与像素的相机坐标（从输入图像的深度通道计算）组合，我们获得三个3D-3D对应。我们使用Kabsch算法[11]从这些对应关系计算姿势假设我们对固定数量N的假设进行采样，这些假设被组合在假设池H0=（H0. . . H0）（图1d）。上索引表示学习代理，旨在解决同样的问题。1N最后，我们讨论了如何训练我们的代理，介绍我们新的，有效的训练算法。3.1. 姿态估计管道我们首先描述对象姿态估计任务。给定一个RGB-D图像x，我们感兴趣的是定位一个特定的、已知的、刚性的物体（图11）。1 a）。我们假设前一个对象实例存在于场景中我们的目标是估计实例的真实姿态H_∞，即。其位置我们稍后将在算法中使用的时间步长。Krull等人[12]提出了以下刚性方案进行姿势优化。对所有假设进行评分，并对得分最高的25个假设进行细化。然后，再次对细化的假设进行评分，并且返回最佳评分假设作为算法的最终姿态估计。我们的论文着重于改进从相同的初始假设池开始找到正确姿势的过程。我们建议使用RL代理（图。1 e）至6705一的T的T一一一1Na一优化阶段最终决策阶段c）、测试DERED掩码是否为内点。1所有内点像素用于使用Kabsch算法重新计算姿态对于单个选定的假设，我们多次重复此过程，直到内点像素的数量停止增加，或者直到执行的细化步骤的数量mt超过最大值mmax.预算减少了所执行的细化步骤的数量，Bt+1=Bt−mt 。代理继续选择细化动作，直到Bt

下载后可阅读完整内容，剩余1页未读，立即下载