基于渲染和比较的相机6D姿态和焦距估计

166 浏览量更新于2023-10-25 收藏 2.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3825基于渲染和比较的焦距和物体姿态估计Geor gyPonimatkin1，2Y annLabbe'3BryanRussell4Mathieu Aubry1 Josef Sivic21LIGM，E'coledesPonts，Uni vGustav eEif fel，CNRS 2CIIRCCTU3ENS/Inria4AdobeResearch电子enpc.frhttps://ponimatkin.github.io/focalpose摘要我们介绍了FocalPose，这是一种神经渲染和比较方法，用于在给定单个RGB输入图像描绘已知对象的情况下联合估计相机对象6D姿态和相机焦距。这项工作的贡献是双重的。首先，我们推导出焦距更新规则，该规则扩展了现有的最先进的渲染和比较6D姿态估计器，以解决联合估计任务。其次，我们研究了几种不同的损失函数，共同估计的对象姿态和焦距。我们发现直接焦距回归与重新投影损失的组合消除了平移、旋转和焦距的影响，从而导致改进的结果。我们展示了三个具有挑战性的基准数据集的结果，这些数据集描述了在不受控制的设置中的已知3D模型。我们证明了我们的焦距和6D姿态估计比现有的最先进的方法具有更低的误差1. 介绍将3D物体投影到图像中不仅取决于物体与相机的相对姿态，还取决虽然可以在摄像机的固有参数已知的受控环境中捕获对象机器人上的校准互联网图片或档案照片。给定输入图像，我们试图从模型库中检索所描绘的对象的3D模型，并结合相机的焦距来估计相对相机-对象6D姿态（如这个问题起源于计算机视觉的早期[26，27，36]，并且在增强现实和计算机图形学中具有重要的现代应用，例如在不受控制的消费者捕获的图像中应用原位对象覆盖或通过3D合成编辑对象的位置。本文研究了在不规则空间中的6D物体姿态估计问题图1.给定单个输入照片（左）和已知的3D模型，我们的方法准确地估计6D相机对象姿态以及相机的焦距（右），这里通过将对齐的3D模型覆盖在输入图像上来显示。我们的方法处理了大范围的焦距和由此产生的透视效果。振动设置本质上是具有挑战性的。首先，很难区分相机焦距的细微变化与物体深度的变化。其次，包括相机的焦距增加了必须估计的参数的数量，因此增加了优化复杂性。最后，“野外”消费者捕获的图像可以描绘模型库中的特定对象实例的大的外观变化。变化可能是由于照明的差异以及所描绘的对象在不同的现实世界实例捕获中具有略微不同的、不相同的形状或例如，考虑具有相似的整体形状但可能具有不同颜色、磨损或可定制特征（例如，附加的前灯、合金车轮或扰流板）。用于该任务的先前方法主要依赖于在图像之间建立局部2D-3D对应关系。3826以及使用手工制作的3D模型[2，3，7，8，17，27]或CNN特征[12，19，20，31，32，34，35，38，41，42，47，48]，然后使用PADER进行鲁棒的相机姿态估计[23]。这些方法通常在具有大的无纹理区域的场景中失败，其中不能可靠地建立局部对应。相比之下，最近性能最好的6D对象姿态估计方法是基于渲染和比较策略[22，24，28，30，48]，其在3D模型的渲染视图的所有像素上执行密集对齐，以在输入图像中对其进行描绘。然而，所有现有的渲染和比较方法都不能处理上述期望的不受控制的、未校准的设置，因为它们假设了其中相机固有参数是固定的并且先验已知的受控环境。此外，这些现有方法通常仅对少数已知对象进行操作为了应对这些挑战，我们建立在渲染的优势我们介绍了FocalPose，一种新的渲染和比较方法，用于联合估计对象的6D姿态和基于单目图像输入的相机焦距。我们的贡献是双重的。首先，我们通过以可微分的方式导出并整合焦距更新规则来扩展最近的6D姿态估计（CosyPose [22]）的最新技术水平[18其次，我们研究了几种不同的损失函数联合估计对象的姿态和焦距。我们发现，直接的焦距回归与重投影损失的组合解开的平移，旋转和焦距的贡献导致最佳的性能，并允许我们的方法来区分由于焦距和对象我们将我们的方法应用于具有不同相机焦距的三个真实世界消费者捕获的图像数据集，并表明我们的焦距和6D姿态估计与现有技术相比具有较低的误差。作为一个额外的好处，我们的工作是第一个渲染和比较方法适用于大量的3D网格（Pix 3D为20-200个网格[39]，汽车数据集为150个网格[45]）。2. 相关工作从RGB图像中估计刚性物体的6D姿态。该任务是计算机视觉中最古老的问题之一[26，27，36]，并且已经通过从经由局部不变特征[3，7，8，27]获得的2D-3D对应关系估计姿态或通过模板匹配[17]成功地解决。这两种策略都依赖于浅手工设计的图像特征，并且已经用可学习的深度卷积神经网络（CNN）重新审视[19，20，31，32，34，35，38，41，42，47，48]。从RGB图像进行6D姿态估计的最佳方法现在基于深度渲染和比较策略的变体埃及[22，24，28，30，48]。然而，这些方法假设全透视相机模型是已知的，使得对象可以被渲染并与输入图像进行比较。我们建立在国家的最先进的渲染和比较的方法Labbe 'et al。[22]并将其扩展到摄像机校准。相机校准技术[1，9，10，29，33，40，43，49]共同恢复相机模型（内在参数）及其姿态（外在参数）。局限性在于，它们需要使用结构化对象模式[11，14，40，43]来估计多个图像中的2D-3D对应，识别诸如线或消失点[6，9，40]或结构化特征（例如，人的面孔标志[4]）。这些要求限制了它们对不存在这些结构的无约束图像的适用性其他作品[46]考虑了野外图像，但只关注重新覆盖相机的焦距。相比之下，我们的方法在给定已知对象的单个图像的情况下恢复相机校准的两个分量（焦距和6D相机姿态）联合6D姿态和焦距估计从一个单一的野生图像。与我们的方法最接近的先前工作建立了点对应，然后是相机模型的鲁棒拟合[12，13，45]。Wang等人[45]使用具有标量回归头和L1损失的Faster R-CNN来估计焦距，并且通过预测2D-3D对应关系来估计6D姿态，然后是PSNR。GP 2C [12]通过两步过程扩展了该方法，该过程使用类似的直接回归预测初始2D-3D对应关系和焦距，然后应用PnPf求解器联合优化6D姿态和焦距。该模型不能端到端训练，因为它依赖于一个单独的不可微优化器。GCVNet [13]使用PnPf解算器的近似值进行微分，但其结果受到该近似值的限制相反，我们的工作建立在最近的渲染和比较方法[22，24]的成功基础上，用于6D刚性姿态估计。我们的6D姿态和焦距更新是使用我们新颖的焦距更新参数化加上解纠缠训练损失来端到端学习的。我们的方法产生与GP2C[12]的两步法和先前的单次端到端方法[13，45]一致的较低误差焦距和姿态估计。3. 方法我们的目标是估计在未知焦距下拍摄的照片中物体的6D姿态。为了实现这一目标，我们使用渲染和比较策略，其中我们联合估计相机焦距与6D姿态。我们3827MMRMR R MRMXy对象坐标系相机图像平面相机坐标系投影点相机-对象旋转+平移相机焦距（一）（b）第（1）款图2. Focal Poseovere r vie w. （a）生成已知对象3D模型的单个野外RGB输入图像I，由焦距fk和对象6D姿态（3D平移tk和3D旋转Rk）组成的参数Rk使用我们的渲染和比较方法迭代地更新。渲染R与输入图像I一起被给予深度神经网络工作器F，深度神经网络工作器F预测更新参数k，然后使用非线性更新规则U将更新参数k转换为参数更新参数k+1。（b）具有由3D平移t、3D旋转R和焦距f组成的参数t的相机对象设置的图示。对准网络使用一种新的姿态和焦距损失进行训练它能理清焦距和姿态更新。这项工作的两个主要贡献在图中用红框突出显示假设在图像中可能出现的3D模型的数据库的知识，但我们的结果表明，即使3D模型只是近似的，该方法也是有效的。3.1. 方法概述我们的方法的第一步，如图所示。2，识别输入图像中的对象位置，并从数据库中检索与所描绘的对象实例相匹配的3D模型。我们使用对象检测器[15]，在这些已知对象的真实图像上训练在测试时，我们在测试图像上运行此检测器，以获得对象的2D边界框及其相应的3D模型.我们描述了一个渲染和比较的方法，迭代估计的焦距和6D姿态的识别对象。我们将迭代k处的焦距和6D姿态的当前估计联合表示为fk。首先，使用当前估计值 k 将对象模型重新绘制到图像（一）， k ）使用渲染器- 是的渲染（一）.k=F（I，R（M，（一）直觉是，神经网络将输入图像I与渲染图像I进行比较，（，k），并且基于它们的（潜在细微的）差异来预测渲染参数k 的更新。姿态和焦距更新Rfk被设计为尽可能地没有非线性，因此易于通过神经网络F预测。然后通过非线性更新规则U计算下一次迭代k+1处的姿态和焦距：其中，Rk是姿态和焦距的当前估计是由等式Fgiv en得出的网络预测（1），以及✓k+1是更新的姿态和焦距。注意，U不是学习的，而是从3D到2D投影模型导出的，并且考虑了成像过程的非线性神经网络F以这样的方式被训练，使得更新的姿态和焦距Rk+1逐渐接近他们的真相我们的方法总结在图中。2讨论现有的渲染和比较估计器[22，24]需要了解相机的内部参数。在我们的场景中，这个问题更具挑战性，因为渲染也取决于未知的焦距。我们通过提出焦距的更新规则以及考虑未知焦距的6D姿态参数的更新规则的修改来解决这一挑战（第3.2节）。然后，我们介绍了一种适用于联合焦距和6D姿态估计的新型损失函数，它可以解开姿态和焦距更新的影响，以便更好地进行网络的端到端训练（第二节）。3.3）。请看supp。有关我们的实现细节、参数初始化和训练数据的材料。3.2. 使用焦距估计用于6D姿态估计的标准渲染和比较方法[22，24]仅将平移tk和旋转Rk视为参数tk。另外，我们将焦距fk估计为未知数，因此需要建立适当的规则U（如等式2中所定义的）。（2）用于联合地更新所有参数。详细地说，我们假设一个针孔相机模型，焦距为fk=fk=fk，其中光学中心被设置在图像的中心。我们通过3D旋转Rk和3D平移tk= [xk，yk，zk]来定义对象相对于相机的6D姿态。接下来，我们将描述焦距和6D姿态的更新。焦距更新。为了建立一个合适的焦距输入图像Alignme联网3D模型姿态和焦距更新（第3.2节）NTK渲染器姿态和焦距损失（第3.3节）固定损失更新固定损失更新3828R,1R，1FR，1R，1z--✓ v.vLL--zi=1 FXyXyzXyz更新规则，我们考虑到它应该重新-使用两个3向量v k的旋转更新kR，2限定在整个更新迭代中，main严格为正。我们旋转矩阵R（v，kKR，2作者：Gram-Schmidt orthog-考虑乘法的更新规则，即，它们通过一系列乘法来缩放初始猜测f0。令fk是迭代k处的焦距的当前估计，并且vk是由网络F预测的焦距更新（参见等式10）。①①）。我们将更新后的焦距fk+1定义为：如[50]中所描述的那样。发现该参数化对于不同的预测任务[50]（包括6D对象姿态估计[22]）工作良好。最后得到的最新规则写为乘法，fk+1vk kk+1Rk+1=R（vkKR，2）Rk，（7）K=eff .（三）其中R是新更新的对象旋转，R是乘法更新的序列可以写为：当前对象旋转，以及R（vkkR，2 ）是旋转ma-fk+1=ePk其中f0是初始焦距，通过Gram-Schmidt正交化从两个3-向量vk，vk根据路线网预测，vi，i=0，. ..，k-1是单独的更新。另一工作费R，1R，2F上述策略的一个固有特点是加强积极性通过S形函数而不是指数函数的焦距更新。我们发现指数函数和sigmoid函数的行为类似，但sigmoid更新需要设置一个额外的尺度参数。因此，我们选择了方程中描述的更简单的指数更新。（三）、6D 姿势更新。对于 6D姿态的更新，我们建立在DeepIM [24]中引入的更新规则的基础上，该规则将3D旋转和3D平移更新分开。更详细地，网络F被训练以预测投影对象中心到图像[vk，vk]的平移（以像素为单位测量），以及观察图像和渲染图像之间的相机到对象深度的比率vk对象的3D平移然后从由网络F预测的量[vk，vk，vk]更新，考虑从相机模型导出的非线性投影方程。[24]这是一个已知的和固定的焦距在我们的场景中，作为一部分，请注意，此旋转更新与DeepIM [24]中使用的旋转更新类似。3.3. 姿势和焦距训练损失我们现在展示我们的网络训练损失，其中我们假设训练数据由图像和对齐的模型对组成。注意，训练对可以是真实图像，手动对准的模型或在指定的6D姿态和焦距下的模型的渲染图像。给定输入在输出参数k+1的情况下，输出参数k+1完全由网络输出k +1定义，（1）以及由等式（1）描述的不同更新规则。（3）（7）在过去科. 在下文中，我们考虑单个网络迭代，并将k =R，t，f表示为估计参数。为了联合学习以估计6D姿态和焦距，我们使用以下损失来惩罚输出6D姿态预测（R，t）和估计焦距f中的误差：我们不知道的是，它的长度是固定的，它的长度是固定的。cal长度与预测的焦距fk+1。详细来说L（R，t）=Lpose（（R，t），（R，t））ˆ ˆ（八）所述对象相对于所述相机的更新的3D平移[xk+1，yk+1，zk+1]被获得为：+左室病灶（（R，t，f），（R，t，f）），其中，f={R，t，f}是估计的姿态和焦距xk+1=yk+1=Kxfk+1启彦fk+1XK+zkyk+zk（4）第一次见面（5）第一次见面参数，参数=R、t、f是地面实况姿态和焦距参数，姿态是惩罚6D姿态估计中的误差的损失，焦距是我们的新颖损失函数，其联合考虑焦距和6D预测姿态中的误差，并且f是标量超zk+1=vkzk，（6）其中[vk，vk，vk]是由网络F预测的对象转换更新，作为转换的一部分（等式1）。1），[xk，yk，zk]是相对相机对象姿态的3D平移向量，迭代k，[xk+1，yk+1，zk+1]是新的更新的3D平移向量，并且fk+1是由等式给出的相机的更新的焦距。（三）、为了获得对象姿态的旋转分量的更新，我们在乘法更新中直接使用对准网络F的预测，这不依赖于焦距。特别是，我们参数化，v，v，v，v◆！3829LL参数.这个损失是针对单个实例编写的，但我们的模型经过训练，以最小化所有训练图像的平均损失我们现在描述单个损失L焦点和L姿势。焦距损失。我们使用以下焦距损失：Lfocal=LH（f，f） +LDR（（R，t，f），（R，t，f）），（9）其中，H是Huber回归损失，DR是解纠缠重投影损失，而λ是标量超参数。下面将解释各个术语 Huber回归损失LH测量估计值与实际值之间的误差。38302MF我LMXyzFXyzFXyzFXyzFXyzFXyLz联系我们L根据Grabner等人的建议，使用焦距的对数参数化的地面真实焦距。[12]为了更好的训练：且{R2，t2}：1D（{ R，t}，{R，t}）=X||（R p+t）-（R p-t）||、11LH（f，f）=||lo g（f）-lo g（f）||H、（10）1 1 2 2|p 2M|p2M2 21（十四）其中，f是真实焦距，f是我们的模型估计的焦距。虽然仅使用损失H可以训练我们的模型，但我们发现，通过使用焦距和对象6D的当前估计来考虑图像中投影的3D模型的2D误差，可以获得更好的结果。pose. 我们首先定义重投影误差：哪里|| · ||1表示L1范数，Ri是旋转矩阵，ti是平移向量，并且p2M是从网格M采样的点。在[22]之后，我们将姿势损失分解为Lpose=D（U（k，{vk，vk，vk，Rk，vk}），R，t）+D（U（k，{vk，vk，vk，Rk，vk}），R，t）（15）+D（U（k，{vk，vk，vk，Rk，vk}），R，t），L p ro j。（（R，t，f），（R，t，f））=x y zfX（十一）其中，Rk是在itr处的姿态和焦距参数p2M||⇡(K(f),R,t,p)-⇡K（f），R，t，p||1,其中，R是地面真实旋转，t是地面真实平移，D是由等式（1）定义的距离。（14）且U为其中K（f）是我们的相机模型的固有相机矩阵，焦距为f ， p是在对象模型上采样的 3D 点，K（f），R，t，p）是a的投影，使用所有参数的当前估计的3D点p由（2）定义的更新函数。这种损失的主要思想是将x-y平面中的平移误差、沿z轴的深度对准误差以及旋转误差由方程式（15）项{vk，vk，vk，Rk，vk}，其中，k（K（f），R，t，p）是同一个三维点的投影p使用地面真实参数。这种损失可以被看作是姿势损失姿势（定义如下）的对应物：代替惩罚3D空间中的误差，它惩罚图像中的再现误差，同时还考虑估计的焦距f。然而，这种损失并没有分解姿态和焦距预测的影响因此，我们引入解纠缠的重投影损失：vk，vk，vk，Rk，vk以及vk，vk，vk，Rk，vk代表必要的更新，导致这种损失解开。这里[vk，vk，vk]是由网络F预测的迭代k处的平移更新，Rk是由网络F预测的迭代k处的旋转更新，并且vk是迭代k处的焦距更新。然后，vk和Rk表示将当前参数转换为地面真值所需的更新，这导致沿着每个左DR1=2L proj（（R，t，f），（R，t，f））（12）尺寸. 第一项在Eq。（15）导致沿x-y轴的分离，因为该项提供了1ˆˆˆ ˆˆ由x-y对准误差产生的梯度。肛门-+2Lproj（（R，t，f），（R，t，f）），（13）其中每一项分别测量由6D姿态（第一项）和焦距（第二项）中的误差引起的2D重投影误差。正如我们在烧蚀结果中所示，这种解纠缠导致更快的收敛和更好的模型6D姿势丢失。对于姿势（在等式（8）中），我们建立在CosyPose [ 22 ]中使用的损失上。该损失基于点匹配损失[24，47]，其测量用预测姿态（R，t）和地面真实姿态（R，t）变换的3D模型上的点的对准之间的误差。 CosyPose[22]e扩展了这种损失以考虑对象对称性，并使用[ 37 ]的解纠缠思想来分离沿相机轴，图像平面和旋转的平移误差的影响。在我们的方法中，我们不考虑对象对称性，因为它们对于在这项工作中考虑的野外3D模型来说是不平凡的详细地说，对于姿态损失，我们利用以下方法-由{R1，t1}指定的两个姿势之间的距离度量3831显然，第二项和第三项提供的梯度由深度和旋转对准误差引起。4. 实验我们在三个具有挑战性的基准上评估我们的焦距和6D姿态估计方法：Pix3D [39]、CompCars [45]和StanfordCars [45]数据集。在本节的剩余部分，我们首先介绍基准数据集，并详细介绍完整的姿态估计管道。然后，在Sec。4.1我们提出了建议的损失函数的主要组成部分的消融。节中4.2我们将我们的方法与解决相同任务的最新技术[12，13，44]最后，在第4.3我们讨论了我们方法的主要局限性。数据集和评价标准。我们考虑三个真实世界中的野外数据集，其描绘具有用对象的真实焦距和6D姿态注释的已知3D模型的对象根据Grabneret al.[12]，我们考虑Pix3D中的床、椅子、沙发和桌子383266数据集[39]。每个对象类的图像被视为单独的数据集。斯坦福汽车和CompCars数据集[45]包含不同汽车实例的图像注意a. LHb. LH+L项目6.613.281.511.424.171.45对于Pix3D椅子图像和汽车数据集，数据集中有数百个不同的对象实例，这使得识别对象实例的任务具有挑战性。我们使用先前工作[12，13，44]使用的标准评估标准集，包括检测精度和几个6D姿态度量。结果被报告为预测和地面实况之间的中值误差（越小越好）（例如，MedErrR是中间旋转误差）和精度（越高越好），其报告具有小于特定阈值的误差的图像的百分比（例如，AccR报告测试图像的旋转误差小于100）。有关所有评估的详细说明，请参见补充说明的搜索.完整的姿态估计管道。第一步我们的流水线通过Mask R-CNN检测器返回输入图像中描述的模型实例的边界框坐标。一个检测器被训练用于每个对象类。对于每个检测到的实例，我们裁剪给定边界框的输入图像，并应用实例分类器来获得要对齐的3D模型实例。在我们的例子中，我们微调DINO模型[5]作为实例分类器。我们将3D模型实例与最高分类器得分相对应。该分类器在Pix3D、Stanford Cars和CompCars数据集上的检索准确率分别为62.1%接下来，我们使用完整图像、边界框和检索到的3D模型实例来估计粗略的6D姿态和焦距。最后，细化器FocalPose模型在给定粗略估计的情况下迭代地细化N次迭代的估计4.1. 消融损失研究在本节中，我们将消除我们提出的损失函数的不同组成部分我们用第3.3节介绍的三种不同的损失来训练粗网络和精网络。我们在表1中报告了结果。首先，我们的解决方案（C）。将Huber回归损失与考虑到对象3D模型及其6D姿态的2D重投影误差相结合导致比简单地使用回归损失显著更低的误差（a.）在Grabneretal. [12 ]第10段。第二，我们的新损失（c.），其使焦距和姿态的影响分开，导致与不使姿态和焦距分开的标准重投影损失（b.）相一致的较低的中值误差。4.2. 与最新技术水平的下面我们报告了我们在三个不同数据集上的方法结果，并与其他6D物体姿态和焦距估计方法进行了比较[12，13，44]。Pix3D数据集。我们报告四个班级C. LH+LDR2.98 1.29 1.36表1. Pix3D沙发上的训练损失消融。使用不同损失函数训练的细化模型的中值对齐误差我们提出的Huber回归损失与解纠缠重投影损失的组合（c.）表现最好。(bed椅子、沙发、桌子）。每节课的结果见补充材料。平均而言，在所有类中，我们的方法在8个指标中的5个指标上明显优于其他方法。特别是，我们看到估计焦距的明显改善（中位焦距误差相对减少近11%，从0.172到0.155）。我们还看到了估计的3D平移的明显改善（3D平移误差中位数相对减少20%，从0.185减少到0.148）。请注意，3D平移与焦距相关，这是焦距/深度模糊的原因。这些改进是有意义的，并验证了我们的方法的贡献。CompCars和Stanford汽车。在表2（中间，底部）中也示出了包含数百个不同汽车模型的 CompCars 和Stanford汽车数据集的类似结果模式。我们的方法在8个报告指标中的4个（CompCars）和5个（Stanfordcars ）特别是，我们的方法显着提高了焦距估计（CompCars上的11%相对减少和斯坦福汽车上的54%相对减少）和3D translation估计（CompCars上的10%相对减少和斯坦福汽车上的52%相对减少）。同样，这些改进是重要的，并验证了我们的方法的贡献。定性结果。我们报告了我们的方法在图中Pix 3D数据集的四个类别上的定性结果的例子。4和定性结果斯坦福汽车和Comp-pCars数据集在图。五、请注意，预测的渲染（考虑到焦距和对象6D姿态）显示与野外照片的观察图像精确对齐。值得注意的是，这些定性的结果表明，我们的方法的鲁棒性大对象截断和强大的透视效果。有关其他定性结果和比较，请参见补充材料4.3. 限制我们的方法有三种主要的失效模式，如图所示。3 .第三章。首先，我们观察到对称物体（如桌子或凳子）的高旋转误差请注意，所使用的评估标准均未考虑以下对称性损失MedErrRMedErrt·10MedErrf·103833[12]第四十五话[12]-BB我们[12]第四十五[12]-BBPix3DCompCars96.0%百分之九十六点二百分之九十七·17.256.926.894.925.245.234.87687.8%88.4%百分之九十点八84.1%百分·102.521.851.941.493.302.612.55·101.761.301.301.092.351.861.84·102.411.721.751.533.232.972.95·106.333.853.662.977.854.213.8771.5%百分之八十五点五88.0%百分之七R检测旋转平移姿势焦点投影MedErrRMedErrtMedErrR，tMedErrf MedErrP方法数据集访问D0。5附件R-11 12加速度P0。1[13]第十三话-4.37百分之九十八点一3.221.903.794.54百分之九十点二[13]第十三话-3.99百分之九十八点四3.181.893.764.31百分之九十点五我们98.2%3.99百分之九十八点四2.351.672.652.9593.0%[45个]99.6%5.43百分之九十八2.331.802.347.46百分之七十六点四[12]-LF99.6%5.38百分之九十八点三1.931.512.013.72百分之九十六点二[12]-BB斯坦福99.6%5.24百分之九十八点三1.921.472.073.2596.5%[13]第十三话-5.0997.5%2.291.522.523.7893.6%[13]第十三话-4.9297.5%2.201.462.433.6594.6%我们百分之九十九点五4.44百分之九十五点一1.000.841.092.55百分之九十三点八表2. 与Pix3D、CompCars和Stanford cars数据集上的6D姿态和焦距预测的最新技术进行比较。粗体表示直接可比方法中的最佳结果。我们的方法在所有三个数据集上报告的8个指标中有4/5优于其他竞争方法。在所有三个数据集上的焦距（“焦距”）和3D平移（“平移”）估计（阴影列）中获得了明显的改善（中值误差的相对减少范围从10%到50%），输入图像地面实况我们的预测一在某些情况下，我们的管道检索的3D模型是不正确的。这些故障模式导致较大的误差，这解释了加速度计6 AccP0 1 指标. 然而，我们的方法BC图3. 主要故障模式是：（a）对称对象，（b）局部最小值，以及（c）对象检测器识别的不正确3D模型对象其次，我们的迭代对准过程可能陷入局部最小值，其中预测配置中的预测对象模型被合理地对准，但误差仍然很高，因为这个物体是上下翻转的。这种失败可以通过从多个初始化运行我们的方法或在更好的粗略估计上运行我们的最后，我们发现-3834与当前最先进的方法相比，实现了显著更低的中值误差（8个报告的度量中的5个），这证明了我们的方法在这些故障模式之外的高精度。更广泛的影响。我们的工作有可能对增强现实和机器人技术的实际应用产生积极的影响，其中包括在所观察的物体上叠加艺术效果，或者用于可以操纵现实世界物体的机器人助手然而，我们的工作也可以潜在地用作通过对象合成来创建错误信息的图像或视频的3D辅助操纵的组件。5. 结论我们已经证明了成功的联合估计相机对象的6D姿态和相机焦距给定一个单一的静态图像。我们成功的关键是我们对渲染和比较的扩展，在迭代更新规则中加入了估计的焦距和训练的分离损失。我们已经表明，与现有技术相比，我们的方法产生较低的误差焦距和姿态估计。我们的方法可以推广到其他相机3835输入图像地面实况我们的预测1输入图像地面实况我们的预测1223344556677889图4.Pix3D定性结果。对于每个示例（每行），我们显示输入图像（左），地面真实焦距和姿态注释（中）以及我们的预测（右）。我们将检测到的3D模型的渲染与联合估计的6D姿态和焦距叠加。注意我们的方法如何为截断对象（行1、2、8、9）生成精确对齐，并处理大透视效果（第3、5、6行）。还请注意，在第8行中，我们的预测比手动注释的地面实况更好。除了焦距之外的内部参数，包括不同的-图5. CompCars（第1- 4行）和Stanford cars（第5-8行）数据集的定性结果示例相机失真的形式，只要它们可以被可靠地呈现。这项工作开辟了增强现实/计算机图形和推理的下游应用鸣谢。这项工作得到了欧洲区域发展基金在IMPACT项目下的部分支持。 CZ.02.1.01/0.0/0.0/15003/0000468），the Ministry of Education, Youth and Sports of the CzechRepublic through the e-INFRA CZ (ID:90140), the Frenchgovernment under management of Agence Nationale de laRecherche as part of the “Investissements d’avenir” pro-gram, reference ANR19-P3IA-0001 (PRAIRIE 3IA Insti-tute).3836引用[1] 亚历克斯 · 安德鲁计算机视觉中的多视图几何。Kybernetes，2001年。2[2] 马蒂厄·奥布里，丹尼尔·马图拉纳，阿列克谢·埃夫罗斯，布莱恩·鲁斯塞尔，约瑟夫·西维克.3D椅子：使用大型CAD模型数据集进行基于示例部件的2D-3D对齐。CVPR，2014。2[3] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。Surf：加速健壮的功能。见ECCV，第404Springer，2006年。2[4] Xavier P Burgos-Artizzu，Matteo Ruggero Ronchi，andPietro Perona.一个陌生人与一幅肖像的距离估计。见ECCV，第313-327页。Springer，2014. 2[5] MathildeCaron ， HugoTouvron ， IshanMisra ， Herve'Je'gou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin.自我监督视觉转换器中的新兴特性。ICCV，2021。6[6] Qian Chen，Haiyuan Wu，Toshikazu Wada.任意两个共面圆的摄像机见ECCV，第521-532页Springer，2004. 2[7] Alvaro Collet ， Manuel Martinez ， and Siddhartha SSrinivasa.助力车框架：用于操作的对象识别和姿态估计。国际机器人研究杂志，30（10）：1284-1306，2011。2[8] A Collet和S S Srinivasa高效的多视角物体识别和全姿态估计。ICRA，第2050- 2055页，2010年5月。2[9] Marke'taDubska' ， AdamHerout ， RomanJura'nek ，andJakubSochor.用于交通监控的全自动路边摄像机校准IEEETransactionsonIntelligentTrans-portationSystems，16（3）：1162-1171，2014. 2[10] 奥利维尔·福杰拉斯三维计算机视觉：几何学观点麻省理工学院出版社，1993年。2[11] David A.福赛斯和吉恩·庞塞。计算机视觉-现代方法，第二版。皮特曼，2012年。2[12] Alexander Grabner 、 Peter M Roth 和 Vincent Lepetit 。Gp2c：联合3d姿态和焦距估计的几何投影参数共识。在CVPR中，第2222-2231页，2019年。二、五、六、七、十二、十四[13] 韩耀航、狄惠君、郑汉风、齐建庸、龚建伟。Gcvnet：几何约束投票网络-用于估计细粒度对象类别的3D姿态。见《登记册审查文件》，第180-192页。Springer，2020年。二五六七十二[14] R. I. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，ISBN：0521540518，第二版，2004。2[15] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面罩R-CNN。InICCV，Oct 2017. 三、十二[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。十一、十二[17] S Hinterstoisser ， S Holzer ， C Cagniart ， S Ilic ， KKonolige，N Navab和V Lepetit。多模态模板用于在严重杂乱的场景中实时检测无纹理物体。在ICCV，第858-865页，Nov. 2011. 23837[18] 我的朋友是马丁·桑德姆、伯特伦·德罗斯特、扬·拉布、埃里克·布拉克曼、米歇尔神父、卡斯滕·罗特和吉尔·马塔斯。BOP挑战2020 6D对象定位。ECCVW。2[19] 胡因林、约阿希姆·雨果诺特、帕斯卡·福阿和马蒂厄·萨尔茨曼。分割驱动的6D物体姿态估计。在CVPR中，第3385-3394页，2019年。2[20] WadimKehl ， FabianManhardt ， FedericoTombari ， Slobodan Ilic ， and Nassir Navab.SSD-6D：让基于RGB的3D检测和6D姿态估计再次变得强大在ICCV，第1521-1529页2[21] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。Yoshua Bengio和Yann LeCun编辑，ICLR，2015。11[22] Y. Labbe ， J. Carpentier ， M. Aubry 和 J. 西维克CosyPose：一致的多视图多对象6D姿态估计。在ECCV，2020年。二、三、四、五、十一[23] Vincent Lepetit ， Francesc Moreno-Noguer ， andPascal Fua. Epnp ：一个精确的 O （ n ）解决Pennsylvania 问题的方法。 IJCV （ InternationalJournal of Computer Vision ）， 81 ： 155-166 ，2009。2[24] 易离，顾望，向阳季，于翔，迪特尔福克斯。DeepIM ：用于6D姿态估计的深度迭代匹配在ECCV中，第683-698页，2018年。二、三、四、五、十二[25] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR，2017年。12[26] 大卫·G·洛从单个二维图像识别三维物体。第内特尔，31（3）：355一、二[27] D·G· 劳从局部尺度不变特征进行对象识别在CVPR，第2 卷，第1150-1157页，第2卷，Sept.1999. 一、二[28] Fabian Manhardt ， Wadim Kehl ， Nassir Navab ，and Federico Tombari.RGB中基于深度模型的6D姿态细化在ECCV，第800-815页，2018年。2[29] 中野学一种解决pnp，pnpf和pnpfr问题的通用方法。见ECCV，第338-352页。施普林格，2016年。2[30] Markus Oberweger ， Paul Wohlhart ， and VincentLepetit.用于联合手-物体姿态估计的广义反馈回路。TPAMI（IEEE Transactions on Pattern Analysisand Machine Intelligence），2019年。2[31] Kiru Park ， Timothy Patten ， and Markus Vincze.Pix2Pose：用于6D姿态估计的对象的逐像素坐标回归在ICCV，第7668-7677页，2019年。2[32

下载后可阅读完整内容，剩余1页未读，立即下载