6D姿势估计的Pose-FreeReinforcementLearning方法

75 浏览量更新于2023-10-25 收藏 1.93MB PDF 举报

计算机视觉

弱监督学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1PFRL：用于6D姿势估计的清华大学中国北京{sjz18，jiangyh19，wangg16，lzg15} @ mails.tsinghua.edu.cnxyji@tsinghua.edu.cn摘要在计算机视觉中，从一幅RGB图像中估计6维姿态是一项艰巨而重要的任务当前主流的深度模型方法采用标注有真实世界地面实况6D对象姿态的2D图像，其收集相当麻烦且昂贵，甚至在许多情况下不可用。在这项工作中，为了摆脱6D注释的负担，我们将6D姿态细化公式化为马尔可夫决策过程，并通过精细的奖励定义和复合强化优化方法，将仅2D图像注释作为弱监督的6D姿态信息的再强化学习方法LINEMOD和T-LESS数据集上的实验表明，与不使用真实世界地面实况6D姿态标签的方法相比，我们的Pose-Free方法能够实现最1. 介绍6D位姿估计的目的是从单个图像定位对象的3D位置和3D方向它在现实世界的应用中起着至关重要的作用，包括机器人操纵[5，43]，增强现实[21]和自动驾驶汽车[4，19]。例如，当机器人试图抓取物体时，根据所配备的相机捕获的图像准确地估计6D物体姿态是先决条件。该问题传统上被认为是一个几何问题，可以用透视n点法（Perspective-n-Point，简称PINP）[14]算法通过匹配2D图像和3D对象模型之间的特征由于丰富的纹理是必不可少的特征匹配，他们不能有效地处理纹理少的情况。随着深度学习的兴起，针对各种感知情况（例如，RGB-only，RGB-D），极大地推动了这一领域的发展一些人[24，29，25]遵循传统的方法来构建2D- 3D对应关系，然后通过图1.无姿势强化学习（Pose-Free Reinforcement Learning，PFRL）我们制定的姿态细化过程作为一个顺序的决策过程，并利用复合增强优化方法来解决它。我们使用掩码信息的相似性度量来计算奖励，以避免姿势标签的注释。PnP.其他人[12，38]则以端到端的方式训练深度模型，直接从图像中导出姿势。与传统方法相比，这些方法即使在无纹理、杂乱、遮挡等具有挑战性的情况下也能取得显著的效果。进一步提高位姿精度的一种常用方法是位姿细化. DeepIM [15]能够通过将渲染对象与2D空间中观察到的对象进行比较来预测当前估计与地面实况之间类似的想法也被[20，40]探索。现实世界的姿态注释是必不可少的，目前的approaches，以实现卓越的性能。不幸的是，与2D空间中的2D图像相比，用真实世界地面实况6D对象姿态注释的2D图像的获取是相当麻烦和昂贵的（例如，实例2D掩模），这极大地限制了这些方法的推广。或者，一些研究人员[12，33，40]转向通过仅在合成数据上进行训练来摆脱这个问题然而，在现实世界的情况下，域间隙容易降低姿态估计性能。在这项工作中，我们专注于从RGB图像中进行6D姿态估计，而不需要真实世界的姿态注释1145411455并且避免了在仅合成数据上训练模型所导致的域间隙。为了实现这一目标，我们通过将6D姿势细化问题制定为马尔可夫决策过程（MDP）来引入强化学习。给定一个初始姿态估计，我们的方法学习旋转和平移3D对象模型顺序对齐它的观察。为了训练模型，我们设计了一个基于2D蒙版的奖励，它只根据渲染的和目标2D蒙版计算。对于每一集，累积的奖励被最大化，从而产生了一个可以顺利快速地接近目标的策略（图1）。1）。我们还提出了一种复合强化优化方法，以有效地学习操作策略与现有的监督方法相比，我们的方法利用顺序决策过程来优化来自弱监督掩模相似性的延迟累积奖励，而不是来自地面实况6D姿势的监督损失由于不涉及地面实况6D姿态信息，我们称我们提出的方法为用于 6D 姿态估计的无姿态强化学习（PFRL）方法。在LINEMOD [9]和T-LESS [10]数据集上的实验表明，与现有方法相比，我们的方法能够在不使用地面实况6D姿态标签的情况下实现最先进的性能。我们的工作作出了以下主要贡献：i）我们将6D姿态估计问题表示为马尔可夫决策过程，并提出了一种无姿态强化学习解决方案，该解决方案能够利用2D图像注释作为弱监督信息和基于奖励的顺序决策来进行6D姿态细化。ii）我们设计了一个基于二维掩码的低成本奖励策略，并提出了一种复合强化优化方法，以实现高效和有效的策略训练。iii）在LINEMOD和T-LESS数据集上，与不使用真实世界地面实况6D姿态标签的方法相比，我们实现了最先进的性能。2. 相关工作基于RGB的6D物体姿态估计。传统上，姿态估计被认为是一个几何问题，并通过匹配2D图像和3D模型之间的特征，使用透视n点（PSPOT）[14]算法来解决。然而，它们严重依赖于纹理，并且不能处理无纹理的情况。最近，深度学习技术显著地推进了姿态估计的发展。一些作品遵循传统的方式训练模型，通过1）从图像中检测预定义的关键点[24，29，36，41]或2）预测3D坐标来建立2D-3D对应关系。对象像素的nates [2，37，40，16]。对于前者，稀疏的2D-3D 对应使得估计器对遮挡敏感。对于后者，RANSAC [23]是必要的从密集对应中求解姿态，这显著地增加了推理的计算复杂度。 Different from these PnP-based approaches,others trained the deep model in an end-to-end manner topredict the pose directly from an image. [12]通过将3D旋转空间离散化为一些bin，在SSD上训练视点分类器[17]。从2D边界框计算平移。[33]利用增强自动编码器（AAE）对每个离散旋转的特征进行编码，以构建字典。在测试过程中，通过将特征与字典进行匹配来检索旋转[38]开发了一个基于CNN的网络，直接从图像中回归四元数。这些直接方法可以享受快速的推理速度，但与基于PNP的方法相比，它们通常具有较差的性能。Current RGB-based pose estimation approaches relyheavily on real-world annotated training data. 例如，借助真实数据，DPOD [40]的位姿估计精度可以从MetricADD的50%提高到82.98%。在没有真实训练样本的情况下，现有方法的性能不幸的是，真实数据的姿势注释是相当昂贵和耗时的。提出了无姿态强化学习（PFRL）框架，该框架仅基于相对低成本的2D真实数据标注（即基于图像的姿态标注）就能显著提高姿态估计精度。分割掩模）。6D对象姿势优化。为了进一步提高6D姿态细化的性能，许多方法利用了ICP的深度[1]。因此，需要额外的深度传感器，并且可能受到其帧速率、分辨率、深度范围和光照度等的限制。对于基于RGB的姿态细化，一种有前途的方法是训练姿态细化器。例如，DeepIM [15]被提议将渲染的对象（伴随着遮罩）与观察到的对象进行比较，这可以迭代地预测当前姿态估计与地面实况之间的相对变换[20]和[40]通过引入并行分支来提取特征，发展了类似的思想。这些方法可以实现显着的姿态估计性能，通过利用地面实况姿态注释，以提供完全监督的训练信号。最近[26] 尝试经由近似的可微分渲染器来训练没有真实6D姿态标签的6D对象姿态细化器，然而，可微分渲染器的利用是不平凡的，因为它们需要其中仍然需要真实6D姿态注释的附加表示学习步骤。视觉任务的强化学习。最近，深度强化学习[35]已成功应用于广泛的计算机视觉任务，如对象检测[22]，语义分割[42]，视觉对象跟踪[34，39，30]，基于视觉的机器人抓取[28]等。一些作品也试图解决6D对象的姿态11456图2.PFRL框架。在每个时间步k，我们使用裁剪的观察图像，地面实况边界框，渲染图像和渲染掩码来形成状态sk。政策网络（详见第二节）3.4)将sk作为输入并生成解纠缠动作ak，其表示当前姿态的相对SE（3）变换（在第2节中详细描述）。第3.1节）。环境（即渲染器）然后根据新的姿势渲染新的图像，根据当前掩码和地面实况掩码计算奖励（在第2节中详细介绍）。3.2）。最后，使用奖励执行复合策略优化（详见第3.3）。通过强化学习估计相关任务。例如，[13]提出了一种基于策略梯度的方法，以节省现有6D对象姿态估计系统的推理预算。[32]采用策略梯度法选择摄像机运动策略通过强化学习来解决这个问题。我们假设Agent在每个时间步所做的决策只基于当前状态，不受先前状态的影响，可以用MDP表示的目标是最大化未来贴现的预期收益和最不确定的物体。奖励Vπ（s）=Ek≥0γkrk[27]，其中γ∈[0，1）是与之不同的是，我们提出了一种新的方法，通过强化学习，以无姿势的方式学习6D姿势细化，而通过在再增强学习框架下公式化问题，可以在优化期间更好地利用来自不可微的基于光栅化的渲染器它同时具有无姿态2D注释和姿态细化预测功能。3. 方法我们的框架概述如图所示。2.在下面的部分中，我们首先提出了用于解决第二节中的6D姿态估计问题的Rein-Robot Learning（RL）的公式3.1.然后，我们在第二节中引入了一个基于2D掩码的奖励函数3.2. 此外，复合材料增强优化提出了特定于任务的6D姿态估计问题。3.3.最后，我们讨论了我们的策略网络架构。三点四分。3.1. 问题公式化为了实现精确的6D姿态估计，我们的核心思想是将3D对象的2D投影与其在2D图像中观察到的外观对齐。我们提出PFRL框架，折扣因子r k=r（sk，ak）是k时刻的即时回报，sk是k时刻的状态，ak <$π（·|sk）是遵循某种策略π产生的动作，条件是sk. 我们框架的状态和动作空间定义如下：状态：对环境知识进行编码的状态应该有助于智能体决定如何旋转和平移3D模型。在当前时间步长k处，状态sk由渲染的RGB图像和由当前姿态指定的3D对象模型的投影掩模、观察到的RGB图像以及对象的地面实况2D边界框形成。这四个图像连接在一起作为策略网络的输入。在测试过程中，由于地面实况边界框不可用，因此我们通过投影具有初始姿势的对象来利用它。Action：Action是Agent在每个时间步执行的相对SE（3）转换，它将影响环境的状态。我们利用相同的表示如[15]中所述，由于其非纠缠旋转和平移的特征，即，旋转和平移的动作不相互影响。从策略网络参数化的两个分布中随机选择旋转和平移动作。与con不同114570Σ2在传统的强化学习方法中，我们通过将旋转和平移的特征结合在一起来测量两个分布的单个策略值（第二节）。第3.4段）。我们分别评估策略模型的连续和离散分布：aR<$N（µR（θ），σ2），at<$N（µt（θ），σ2），（1）高对称性具有与地面实况掩模的完美重叠，则对象很可能处于实际的局部化和定向中。因此，姿态估计问题可以转换为2D掩模匹配问题。我们的目标是最大化最后一帧图像的IoU。因此，我们以对应于RL目标的相邻帧中的IoU差异的形式设计rI和R t最大化累积奖励k端 r k. 映射aRC（R（θ）），atC（（二）函数fφ被设计为当IoU为更接近1。在大的当量1是旋转和平移作用的连续分布。N（·）表示多元高斯分布。µR（θ）和µt（θ）表示旋转的平均值（即四元数）和从策略的转换网络分别。因此，σR和σt是变异矩阵。为了简单起见，我们假设维数是相互独立的，并且不损失表示能力，因此σR和σt都是对角矩阵。IoU（例如，0.8到1.0），这是训练期间最常见的情况，帮助智能体更容易地学习目标。在实践中，当IoU达到某个阈值IoUthr时，我们希望环境立即给出奖励反馈并停止优化。因此，我们将额外的达到目标的奖励rG定义为：.当量2表示旋转和平移动作的离散分布。C（·）表示Cat几何分布，rG=1、 IoUk≥IoUthr0，看，看，<.（五）式中，R（θ）和t（θ）是由以下公式产生的概率：政策网络。我们手工制作了13个旋转和平移操作，其中每个操作包括沿±x，±y，±z旋转（或平移）3D模型，具有固定的小度数和大度数（或步长），以及没有旋转/平移操作。参见第1的补充材料，以了解更多详情。旋转和平移的每个操作都用四元数和方向向量编码。从连续和离散分布中采样的最终形式是相同的。3.2. 2D面具奖励在旋转和平移3D模型之后，代理需要用于策略更新的奖励信号rA 在姿势自由的情况下，我们提出了一个基于2D面具的奖励，它包括三个组成部分：IoU（交并）差奖励r I、达到目标奖励r G和中心化奖励r C，其纯粹从2D空间中的渲染和地面实况掩码计算。我们将IoU差异奖励rI表示为：rI=fφ（IoUk+1）−fφ（ IoUk），（3）这样的奖励给代理一个明显的到达信号，这节省了现实世界中的应用程序的预算。在对象远离真实位置的情况下，如果网络没有很好地初始化，可能会发生这种情况，我们进一步添加集中化奖励rC，以给出对平移估计的显式约束。rC表示为：-一个C=0（||c r−c g||第2、1、（6）段其中cr和cg分别是渲染掩模和地面实况掩模最重要的是，最终的奖励rA可以总结为：rA=rI+σCrC+σGrG，（7）其中σC和σG是rC和rG的权.请注意，如果对象表现出某种对称性，则天真地训练姿态估计器是有问题的且不稳定的，因为RGB中的相似外观可以显示不同的6D姿态并导致不同的损失值[18]。我们基于掩码的奖励设计可以隐式地避免这个问题，并且在对称对象上工作得很好，类似于[33]中的想法。3.3. 复合材料增强优化哪里.fφ（x）=x，x Xthrαx2−βx， x≥ Xthr.（四）高维的状态空间给策略网络的训练带来了很大的方差和不稳定性通常，需要数百万个样本才能充分利用强化学习模型的强大功能。然而，在6D姿势中，令MR和MG表示当前渲染的遮罩状态和地面真实掩码。由方程式3估计，很难渲染如此大量的图像。在本节中，我们提11458S（MRMG）出了一个特定的任务，看， =S（MRk<$MG）测量它们的IoU。FK是一个映射复合材料增强优化方法的6D位姿估计函数，其形状由α、β和阈值控制X螺纹动机是，如果一个物体的掩模没有mation 我们将政策内和政策外策略相以充分利用渲染的图像。φ11459我们使用θ和φ表示当前策略网络和值函数参数。给定元组（sk，ak，rk），我们使用θold来表示策略网络的参数，其中ak在θ之前采样。相应的策略表示为π θ（ak|sk）和π θold（ak|sk）。在策略上的优化是指学习策略的值Vφ（sk）π θ（ak|（k）由代理人执行，并相应地-英阿K。在本文中，我们采用最接近的政策优化，Mization（PPO）算法[31]用于策略优化。PPO的损失函数定义为：L on =L clip + λvL value + λeL entropy 。（八）由方程式8，Lclip是度量裁剪后的和原始的重要性加权优势值函数的最小值的裁剪后的代理目标。λv和λe是权衡参数。L值度量了价值函数和累积回报之间的近似平方误差损失。L熵是政策的熵红利。关于损失函数的更多细节，我们请读者参考[31]。在更新策略网络之后，元组（sk，ak，rk）不再与πθ相关联，即， ak由先前的策略网络πθold采样。因此，元组（sk，ak，rk）不能用于策略上优化。为了进一步充分利用“过时”的利用数据效率，我们引入了类似于[7]的策略外值更新策略，以帮助策略内优化来加速训练过程。我们设置了一个优先级队列重放缓冲区来存储“过时”的数据样本。然后，我们使用来自重放缓冲区的样本更新具有策略外损失的值函数Vφ（sk）Loff=（V φ（sk）− Vtrace）2。（九）方程中V迹线的定义9可以在[7]中找到复合材料配筋优化的整个过程总结为算法1.算法一：复合强化优化初始化策略网络π θ和值函数V φ;初始化重放缓冲区R。对于发作=1，M做生成轨迹T =（s0，a0，r0，s1，. ）;在使用T时用L更新πθ和Vφ;将T存入R;采样B=来自R的（s，a，r）对;使用B计算V迹目标V迹;在L关闭的情况下更新Vφ。端3.4. 分离策略架构图3描绘了分离的策略网络结构。主干由前11个卷积层组成图3.分离的政策架构。观察到的图像、地面实况边界框、渲染图像、渲染遮罩被连接并一起缩放作为输入。用于旋转和平移的分支被分离，并且动作从连续或离散分布中采样。“C3”和“C4”表示平移和旋转的连续分布，而双“D13”表示离散分布。价值函数是一起计算的。的FlowNet-S [6]。与[15]类似，输入图像和掩模在馈送到主干之前被放大。如第3.1，用两个独立的分支来预测解纠缠旋转和平移的分布。这两个分支都包含2个全连接（FC）层，具有256个隐藏单元，后面还有一个额外的FC层。与[15]相比，我们的网络在训练和推理方面都是轻量级的，因为我们没有使用繁重的计算流程和掩码分支。两个分支的最后一个FC以这种方式，值函数与动作共享相同的参数，并且可以用于优化两个动作。4. 实验4.1. 数据准备我们在LINEMOD [9]和T-LESS [10]数据集上进行了实验。我们按照[3]分割LINEMOD数据集，包括大约15%的训练和85%的测试，即，每个对象的训练集大约有200张图像。请注意，在训练和测试期间没有直接使用6D姿势注释。它们仅用于生成地面实况掩码。在6D位姿难以获取或无法获取的情况下，可以通过语义分割或人工标注的方法得到真实掩模。在 LINEMOD 数据集上，我们使用 AAE [33] 和PoseCNN [38]的结果作为我们的初始姿势进行测试。将具有零均值的随机高斯噪声添加到每个维度，11460列车数据姿态自由初始化+无姿势优化GT姿势初始化+无姿势优化对象[33]第三十三话美国[40]SSD6D[12]ADDDPOD-SYN+RefineADDAAE+我们的ADD美国[36][38]第三十八话[15]第15届中国国际机器人展览会PoseCNN+我们的Proj.2D ADD猿3.9637.22-55.2365.421.627.881.723.995.660.5本齐维塞20.9266.76-72.6984.581.868.992.293.194.788.9相机30.4724.22-34.7641.536.647.597.084.795.064.6可以35.8752.57-83.5980.968.871.489.691.593.191.3猫17.9032.36-65.1080.441.856.796.179.599.382.9司钻23.9966.60-73.3277.663.565.485.982.394.892.0鸭4.8626.12-50.0452.527.242.892.624.098.255.2蛋盒81.0173.35-89.0596.169.698.390.888.397.899.4胶45.4974.96-84.3776.780.095.681.296.997.193.3穿孔器17.6024.50-35.3544.942.650.978.020.696.766.7铁32.0385.02-98.7867.375.065.659.385.181.675.8灯60.4757.26-74.2791.171.170.375.685.596.096.6电话33.7929.08-46.9852.747.754.688.366.191.069.1是说31.4150.034.166.4370.156.062.785.370.994.779.7表1.与LINEMOD上最先进的无姿态方法进行比较，度量ADD和Proj。2D.左部分是在合成数据+Pose-Free细化器上训练的初始姿势的结果，右部分是在地面真实标签+Pose-Free细化器上训练的初始姿势的结果PFRL（我们的）优于用合成数据训练的最先进的方法DPOD，尽管我们使用AAE提供的更差的当使用来自PoseCNN的相同初始姿势时，PFRL优于在合成数据上训练的DeepIM将旋转和平移作为训练的初始姿势。每个旋转轴的方差为（15μ m）2，平移轴的方差为[22，22，52]（cm）2。如果旋转轴之一超过45度，则重新采样噪声。在T-LESS数据集上，我们使用AAE [33]的结果初始化我们的方法，AAE是T-LESS上当前最先进的仅RGB方法。没有真实的图像可用于训练，因此我们在PASCAL VOC [8]的随机背景图像上渲染具有随机姿势和光照条件的对象。我们用与LINEMOD相同的噪声扰动地面真实姿态作为初始姿态。由于每个真实图像的相机内禀矩阵仅在PRIN-UNR点上略有不同，因此我们平移并裁剪图像，使得它们具有相同的内禀矩阵以便于使用。4.2. 评估指标在我们的实验中，我们使用三个常见的指标进行评估：项目。2D、ADD和VSD。对于项目2D度量，如果平均Proj.2D距离（等式(10))的模型点小于5个像素：可见表面离散度（VSD）[11]是一种依赖于可见表面的模糊不变度量，可以更好地解释对称性。用于VSD度量的参数与[33]相同。4.3. 关于LINEMOD表1显示了我们的方法和一些最近表现良好的基于RGB的方法的结果我们实现了最先进的姿势自由方法。大多数姿势自由方法，如DPOD [40]和AAE [33]，在随机背景上渲染对象，如PASCAL VOC数据集[8]中的图像，并在合成数据上训练。当初始位姿估计和细化器都是Pose-Free时，我们的方法在AAE估计的初始位姿的情况下实现了平均 ADD 70.1% （ ADD31.41%），超过了先前最先进的方法DPOD的ADD66.43%（初始位姿ADD 50.0%）在13个物体中的10个上，尽管初始姿态得分相对较低，但我们得到了比DPOD更高的得分。我们平均为AAE带来38.7%的ADD改善。为了用更好的初始姿势来评估我们的方法，我们还项目2D =1 ΣK（Rx+t）−K（R（十）使用PoseCNN [38]的结果，用真实的6D姿势训练标签作为初始姿势。我们提高了17.0%-Mx∈MFor ADD metric, a pose is regarded as correct if the aver-age distance of model points is less than 10% of the modeldiameter [9] (Eq.（11））。对于对称对象，距离由最近的模型点计算（等式2）。（12））。在 PoseCNN 上。我们的方法也超过了 DeepIM-SYN[15]，DeepIM使用纯合成数据进行训练，并在测试期间使用PoseCNN结果进行初始化，在两个指标上都是如此。我们也可以看到，在项目。2D度量，我们的方法在13个对象中的12个上表现更好，这证明了我们基于2D掩模的设计的优势。ADD=1 ΣMx∈M<$（Rx+t）−（R<$x+t）<$，（11）奖励我们还提供了DPOD初始化的结果。3、补充材料。4.4. 关于T LESS11461ADD-S =1MΣx1∈Mminx2∈M 治疗（Rx1）+t）−（Rx2+t）。（十二）为了在仅合成的情况下评估我们的方法，我们在T-LESS数据集的对象19-23我们使用AAE [33]，11462RIrI+rI+R+我G+ CRCRGCRGG+ CrI+rI+RCrIrI+动作风格度量初始纪元：800纪元：1600纪元：2400纪元：3200连续离散项目2D14.237.645.757.560.4添加35.643.846.756.260.9项目2D14.258.963.375.380.6添加35.652.855.470.779.20.860.840.820.800.780.760.74IOU项目2D误差（px）151413121110旋转误差（度）50454035302520平移误差（cm）876540.720 10000 20000 30000步骤90 10000 20000 30000步骤0 10000 20000 30000步骤30 10000 20000 30000步骤图4.不同奖励方式的曲线。地面实况边界框作为我们测试的初始姿势。对象19-23是唯一使用AAE的无纹理模型训练的对象。由于T-LESS数据集没有用于训练的真实图像，因此我们使用类似于AAE的合成数据进行训练。结果示于表2中。方法度量[33]第三十三话二维室间隔缺损AAE+我们的项目二维室间隔缺损1930.6549.9532.7957.392023.5141.8725.4045.292156.5559.0660.5862.502242.9946.0844.7848.022321.8840.3829.3244.44平均数35.12 47.4738.57 51.53表2. T-LESS数据集上的结果。左侧的准确度是根据AAE [33]作者提供的模型计算的，略优于原始报告的结果。在没有真实训练图像的无纹理对象上，由于较大的域间隙，度量召回率的改善不如LINEMOD明显。但是，我们仍然在项目上获得了3.5%的改进。2D和4.1%的更广泛使用的公制VSD。我们相信，通过提供具有掩模注释的真实图像可以实现进一步的改进，这比获得6D姿态注释便宜得多。4.5. 消融研究对奖励方式、行动方式、测试速度和优化策略进行了消融研究对于每次消融，我们使用LINEMOD[9]中的几个对象进行训练和测试。我们将批量大小设置为256，Xthr= 0。5，IoU thr= 0。98，α=3。8，β=1。8，σ C=1，σ G=2，λ v=0。5，λ e= 0。001。除非另有说明，否则所有超参数都是固定的奖励方式。我们的基本奖励是IoU差异奖励rI。我们使用相同的参数和训练步骤对对象Iron进行训练，使用rI和额外的达到目标奖励rG和集中化奖励rC。图4显示了四种奖励方式在四个评估中的比较。评估指标虽然由于奖励是根据掩码信息设计的，因此与平均旋转和平移误差没有明显的区别，但rI+rG+rC的IoU增长最快，保持最高水平，而Proj最低。2D错误。rI+rC与rI相比，rC对IoU的改善有明显的加速作用.虽然将rG独立地添加到r I似乎不好，但当与rC结合时，它表现良好。因此在实验的其余部分，我们都使用rewardrI+rG+rC。表3.动作式消融。动作风格。我们在相同的条件下训练了两个模型，不同的是动作风格分别是连续的和离散的，并在Benchvise对象上进行了测试。表3显示了测试集上不同训练时期的结果。我们可以看出，在整个训练过程中，离散动作空间的性能优于连续动作空间，并且在收敛性方面优于连续动作空间约离散化对我们的方法有很大的贡献。精炼步骤和测试速度的影响。我们的实验是在一台配备Intel Core i7 3.60GHz CPU和NVIDIA GeForce RTX2080 Ti GPU的台式机上进行的。我们在训练过程中将一个姿势估计过程的片段长度设置为50我们发现物体通常在几步内就非常接近目标姿态，并在接下来的几步中保持不动。因此，我们绘制投影曲线。相对于图1中的细化步骤的2D精度。6.曲线包括3个对象（猿，Benchvise，可以），具有2种初始姿势（AAE，PoseCNN）。我们可以看到，所有对象在步骤15-20达到最佳精度。我们总结了RIrI+rI+RCRGrI+ G+ CRIrI+ RrI+RGrI+G+ C11463猿林pEp长度猿本齐维塞可以A P A P图5. AAE初始姿势的定性结果[33]和我们在LINEMOD数据集上的改进姿势。红线和绿线分别表示初始姿势和优化姿势的轮廓。100908070605040项目 2D精度（%）0.80.70.60.50.4IOU项目2D误差（px）2018161412108300.3 0200040006000800010000样品0 200040006000800010000样品0 20 40 60 80 100Ep长度图6.项目。3个对象的测试事件长度曲线的2D准确度：阿佩、本奇维斯、坎恩使用AAE [33]作为表4中的初始姿势，相对于发作长度的准确度和测试速度（ms/帧）。我们的方法在准确性和精炼性方面是灵活的039.083.114.250.016.869.6累积（%）5102087.093.095.292.093.494.048.266.178.478.483.988.959.871.677.784.887.590.05096.994.285.192.782.691.15626467656868时间10110114126121128127（毫秒）2021822024323424524350529534588578588584表4.准确度和测试时间与发作时间有关‘A’步我们发现，一个相对较好的姿态可以估计在20个步骤，也就是说，在约240毫秒每帧。优化策略我们在图中的相同样本数下，对对象Ape和Lamp比较了复合优化策略和纯策略优化7.第一次会议。每幅图中的4条曲线代表2 分别用两种优化策略对对象进行优化。我们使用相同的学习率10- 4来进行策略内和策略外的更新。策略内和策略外更新时间为4：1。图7.复合优化策略（实线）与基于策略的优化策略（虚线）。左边和右边显示了IoU和Proj的变化2D误差与更新的样本数可以看出，对于相同的对象和相同的更新样本，混合更新规则具有更高的IoU和更低的Proj。2D错误比策略更新规则，这表明值函数的额外更新有助于策略更早获得准确值，而无需从环境中获取更多样本。更多的实验结果，如泛化能力和类不可知训练，我们请读者参考补充材料。5. 结论在这项工作中，我们制定了基于RGB的6D姿态估计问题作为一个MDP，并介绍PFRL框架工作的姿态自由的方式，而不需要现实世界的6D姿态注释。我们设计了一个任务指定的二维掩码为基础的奖励，这是纯粹的计算从对象掩码信息，并采用复合增强优化规则，学习操作策略，有效地和有效地。实验表明，我们的方法是能够实现国家的最先进的性能相比，没有使用真实世界的地面实况6D姿态标签LINEMOD和T-LESS数据集的方法6. 确认这项工作得到了中国国家重点研发计划的资助，资助号为2018AAA0102800和2018AAA0102801。猿_AAE猿_姿势CNN本齐维塞本齐维塞_AAE_PoseCNNCan_AAECan_Pose CNN猿灯11464引用[1] Paul J Besl和Neil D McKay。三维形状配准方法。在SensorfusionIV ： controlparadigmsanddatastructures，第1611卷，第586国际光学与光子学会，1992年。[2] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。使用3d对象坐标学习6d对象姿态估计。在欧洲计算机视觉会议上，第536-551页。Springer，2014.[3] Eric Brachmann ， Frank Michel ， Alexander Krull ，Michael Ying Yang，Stefan Gumhold，et al.从单幅rgb图像估计物体和场景的不确定性驱动的6d姿态。在IEEE计算机视觉和模式识别会议论文集，第3364-3372页[4] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集，第1907-1915页，2017年。[5] Alvaro Collet ， Manuel Martinez ， and Siddhartha SSrinivasa.助力车框架：用于操作的对象识别和姿态估计。The International Journal of Robotics Research，30（10）：1284[6] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在IEEE计算机视觉国际会议的论文集，第2758-2766页[7] Lasse Espeholt，Hubert Soyer，Remi Munos，Karen Si-monyan ， Volodymyr Mnih ， Tom Ward ， YotamDoron ， Vlad Firoiu ， Tim Harley ， Iain Dunning ， etal.Impala：可扩展的分布式深度学习，具有重要性加权的演员-学习者体系结构。在机器学习国际会议上，第1406-1415页[8] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[9] Stefan Hinterstoisser，Vincent Lepetit，Slobodan Ilic，Ste- fan Holzer ， Gary Bradski ， Kurt Konolige ， andNassir Navab.基于模型的训练，检测和姿态估计无纹理三维物体在严重混乱的场景。亚洲计算机视觉会议，第548-562页。Springer，2012.[10] 汤姆·马尔斯·霍丹、帕维尔·哈卢扎、斯特普 ·奥布德·扎列克、伊日·马塔斯、马诺利斯·卢拉基斯和色诺芬·扎布利斯。T-less：用于无纹理对象的6D姿态估计的rgb-d数据集。 2017 年 IEEE 计算机视觉应用冬季会议（WACV），第880-888页。IEEE，2017年。[11] To ma´sˇHoda nˇ、Ji ˇr´ıMatas和Sˇt eˇ p a´ nObdr zˇa´ lek。关于6d物体姿态估计的评估。欧洲计算机视觉会议，第606-619页。施普林格，2016年。[12] Wadim Kehl ， Fabian Manhardt ， Federico Tombari ，Slobodan Ilic，and Nassir Navab.Ssd-6d：使基于rgb的3d检测和6d姿态估计再次伟大。法律程序IEEE计算机视觉国际会议，第1521-1529页，2017年。[13] Alexander Krull，Eric Brachmann，Sebastian Nowozin，Frank Michel ， Jamie Shotton ， and Carsten Rother.Poseagent：通过强化学习进行预算约束的6D对象姿态估计在IEEE计算机视觉和模式识别会议论文集，第6702-6710页[14] Vincent Lepetit ， Francesc Moreno-Noguer ， and PascalFua. Epnp：pnp问题的精确O（n）解。国际计算机视觉杂志，81（2）：155，2009。[15] 易离，顾望，向阳季，于翔，迪特尔福克斯。Deepim：深度迭代匹配6D姿态估计。在欧洲计算机视觉会议（ECCV）的会议记录中，第683-698页[16] Zhigang Li，Gu Wang，and Xiangyang Ji. Cdpn：基于坐标的解缠姿态网络，用于实时基于rgb的6-dof对象姿态估计。在IEEE国际计算机视觉会议（ICCV）上，2019年10月。[

下载后可阅读完整内容，剩余1页未读，立即下载