联合3D姿态和焦距估计的野外合一方法

146 浏览量更新于2023-10-11 收藏 2.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2222GP2C：野外联合3D姿态和焦距估计的几何投影参数一致性1Peter M.Roth1 Vincent Lepetit2，11奥地利格拉茨科技大学计算机图形与视觉研究所2法国波尔多大学信息研究实验室{alexander.grabner，pmroth，lepetit}@ icg.tugraz.at摘要我们提出了一个联合的3D姿态和焦距估计方法的对象类别在野外。与独立于焦距预测3D姿态或假设恒定焦距的先前方法相比，我们明确地估计焦距并将其集成到3D姿态估计中。为此，我们将深度学习技术和几何算法结合在两阶段方法中：首先，我们估计初始焦距，并使用深度网络从单个RGB图像建立2D- 3D对应关系。其次，我们恢复3D姿态和细化的焦距，通过最大限度地减少预测对应的重投影误差以这种方式，我们利用由焦距给出的几何先验进行3D姿态估计。这产生两个优点：首先，与现有方法相比，我们实现了显着改进的3D平移和3D姿态精度。其次，我们的方法发现了一个几何的共识之间的个别投影参数，这是需要精确的2D-3D对齐。我们评估了我们提出的方法在三个具有挑战性的现实世界的数据集（Pix3D，Comp和斯坦福大学）与不同的对象类别和显着优于国家的最先进的高达20%的绝对在多个不同的指标。1. 介绍3D物体姿态估计旨在预测物体相对于相机的3D旋转和3D平移这是一个基本的尚未解决的计算机视觉问题，有许多应用，包括增强现实，机器人和场景理解。最近，由于深度学习的发展和为RGB图像提供3D注释的大规模数据集的创建，在类别级别[8，28，34，41]上从单个RGB图像进行3D对象姿态估计方面取得了很大进展[46，47]。虽然最近的方法在3D旋转方面实现了高精度，但是它们在3D平移方面的精度是低的。图1：用具有不同焦距的两个相机捕获的图像。椅子的外观在两张图像中是相似的，但由于不同的焦距和物体到相机的距离，3D姿势有很大的不同经常低[27，42]。这种差异的主要原因如图1所示，我们比较了用不同焦距的相机拍摄的两张物体图像。对象的外观在两个图像中是相似的，即使3D姿态显著不同。事实上，图像中对象的外观不仅由3D姿态确定，而且还由相机固有特性确定。虽然3D旋转的变化总是显著影响外观，但是如果平移方向以及对象到相机距离与焦距之间的比率保持恒定，则3D平移的变化不会影响外观因此，在未知固有函数的情况下，从RGB图像估计对象的3D平移是高度模糊的。现有方法假设3D姿态估计方法将从数据中隐式地学习由不同焦距引起的细微外观变化，并相应地调整预测[27，42]。然而，实际情况并非如此，因为深度网络在没有明确指导的情况下无法为了克服这一限制，我们建议明确估计和集成的焦距到3D姿态估计。为此，我们引入了一个两阶段的方法，结合深度学习技术和geomet，2223Ric算法在第一阶段，我们估计初始焦距，并使用深度网络从单个RGB图像建立2D-3D对应关系。在第二阶段，我们对预测的对应性进行几何优化，以恢复3D姿态并细化焦距。特别是，我们通过解决PnPf问题[29]，最小化预测的2D位置与经受3D旋转、3D平移和焦距的3D点以这种方式，我们利用由焦距给出的几何先验进行3D姿态估计。与现有方法相比，现有方法也预测3D姿态和焦距，但仅执行单独参数的独立估计[42]，我们的方法具有两个主要优点：首先，在3D姿态估计中显式地对焦距进行建模，产生显著改进的3D平移和3D姿态精度。第二，我们的方法发现3D姿势和焦距之间的几何共识。这导致在将对象的3D模型投影回图像上时显著改进的2D-3D对准，这对于像增强现实的许多应用是重要的。因此，我们称我们的方法为几何投影参数一致性（GP2C）.此外，我们还探索了两种可能的方法，从RGB图像建立2D-3D对应关系，从不同的方向接近任务。我们的第一种方法通过估计每个对象像素的3D坐标来预测已知2D位置的3D点[1，2，17]。我们的第二种方法通过估计对象的3D边界盒角的2D投影来预测已知3D点的2D位置我们的实验表明，这两种方法达到相当的准确性，但每种方法都有各自的优点和缺点。因此，我们提供了一个详细的讨论，比较这两种方法。为了证明我们的联合3D姿态和焦距估计方法的益处，我们在具有不同对象类别的三个挑战性现实世界数据集上对其进行评估：Pix3D [35]（床，椅子，沙发，桌子），Comp [42]（汽车）和Stanford [42]（汽车）。我们提出了定量和定性的结果，并显着优于国家的最先进的。总结一下，我们的主要贡献是：我们提出了第一种方法联合3D姿态和焦距估计，强制执行3D姿态和焦距之间的几何共识。我们在涵盖投影几何的不同方面的多个指标中超过了最先进的20%，包括3D平移，3D姿态，焦距和投影精度。2. 相关工作在本节中，我们讨论了以前的工作3D姿态估计的对象类别和方法估计相机的本质，特别是焦距。2.1. 3D姿态估计计算机视觉的最新趋势是直接使用深度学习来预测姿态参数。在这种情况下，许多作品仅使用CNN预测对象的3D旋转。这些方法执行旋转分类[34，40，41]，回归[25，46]，或使用不同的参数化（如欧拉角，四元数或指数映射）应用两者的混合变量[24然而，在这项工作中，我们专注于完整3D姿态的估计，即，物体的三维旋转和三维平移。在这种情况下，许多方法将上述3D旋转估计技术与3D平移回归[21，27，28]相结合。由于在2D中检测和定位对象通常是估计3D姿态的第一步，因此最近的方法将3D姿态估计技术集成到对象检测流水线中，使得整个系统端到端可训练[18，19，42，48]。然而，这些方法没有明确地考虑相机本征函数，这导致例如在以不同焦距捕获的图像上的差的性能。与这些直接方法相反，存在大量关于从2D-3D对应恢复姿态的研究，另外考虑相机模型[9]。在这种情况下，最近的方法使用CNN来预测RGB图像中3D关键点投影的2D位置[30，32]。虽然[32]使用Pn P算法从预测的2D位置和给定的3D模型恢复3D姿态，[30]使用训练的可变形形状模型单独从预测的2D位置恢复3D姿态然而，这些方法依赖于类别特定的语义3D关键点，其需要针对每个3D模型手动选择和注释。在这项工作中，我们还从RGB图像预测2D-3D对应关系，但不依赖于特定类别的3D关键点。特别是，我们探讨了两种不同的策略。我们的第一个策略是预测已知2D位置的3D点。一个自然的选择是预测每个图像像素的3D点[1]。在这种情况下，重要的是要知道哪些像素属于一个对象，哪些像素属于背景或另一个对象[2]。最近，研究表明，深度学习技术（例如分段[10]）显着提高了这项任务的准确性[17，42]。与我们的方法相反，[17]依赖于两个不相交的网络，例如分割和3D点回归，然后是假设恒定焦距的几何优化。相反，我们使用一个网络来执行这两项任务，并进一步优化焦距。[42]另一方面，也用单个网络回归3D点··2224我们的第二个策略是预测已知3D点的2D位置。在这种情况下，我们选择预测虚拟的3D点，这些点概括了不同的对象和类别，例如，对象的3D边界框的角[33，37]，而不是特定于类别的3D关键点。最近，已经表明这种方法可以扩展到在推理过程中不使用3D模型进行预测[8]。与我们的工作相反，[8]假设所有物体都已经在2D中被检测和定位，并使用恒定的焦距。2.2. 焦距估计从2D-3D对应关系计算焦距和其他相机本质在计算机视觉中具有悠久的传统[7，9]。在这种情况下，相机的内部和外部参数通常是联合恢复的[29，44]。为此，许多作品通过解决Pn Pf问题[31，50，51]来明确估计相机的焦距和3D姿态在实践中，这些方法需要精确的2D-3D对应，通常手动选择或使用校准网格[39，49]。然而，许多应用需要自动校准。在特定情况下，可以利用几何图像元素（诸如线[6]、消失点[36]或圆[4]）来计算本征函数，但是这些方法不能推广到任意自然图像。因此，最近的工作从RGB图像估计焦距，而不需要使用深度学习的特定几何结构[42，43]。在这项工作中，我们采取类似的方法。然而，与现有的方法相比，我们提出了一种不同的参数化，并额外使用2D-3D对应来细化预测的焦距。3. 联合3D姿态和焦距估计给定单个RGB图像，我们想要预测图像中每个对象的焦距和3D姿态。为此，我们引入了一种结合深度学习技术和几何算法的两阶段方法，如图2所示。在第一阶段，我们预测初始焦距并使用深度学习建立2D-3D对应关系第3.1节）。在第二阶段，我们对预测的对应关系进行几何优化，以恢复 3D 姿态并细化焦距（秒）。3.2）。3.1. 第1阶段：深焦距和2D 3D对应估计为了用单个深度网络预测焦距以及2D-3D对应，我们扩展了通用的Faster/Mask R-CNN框架[10，34]。该通用多任务框架包括一个2D对象检测流水线，用于执行每图像和每对象计算。通过这种方式，我们使用图2：我们提出的两阶段方法概述。阶段1：我们预测初始焦距，并使用深度学习建立2D-3D对应关系。阶段2：我们对预测的对应性进行几何优化，以恢复3D姿态并细化焦距。单个端到端可训练网络。对于我们的实现，我们在ResNet-101主干[11，12]之上使用特征金字塔网络[22]，并微调预先训练的模型，例如COCO[23]上的分割。在广义Faster/Mask R-CNN框架的上下文中，输出分支提供具有不同结构和功能的一个或多个子网。我们引入了两个专用的输出分支，用于估计焦距和2D-3D对应关系，以及现有的对象检测分支。焦距。焦距分支提供执行每图像计算的一个子网络。在这种情况下，我们从卷积网络骨干计算的共享特征图的整个空间分辨率中回归每个图像的标量与以前的工作相比，我们建议回归焦距的对数参数化yf=ln（f），（1）而不是直接预测焦距f [42]，这有两个优点：首先，对数参数化减少了在网络的优化期间朝向最小化长焦点长度上的误差的偏差。这是有意义的，因为关于焦距的估计，相对误差比绝对误差更重要。其次，对数参数化在整个焦距范围内实现了更平衡的灵敏度否则，短焦距的灵敏度明显高于长焦距。在训练过程中，我们使用Huber损失优化yf[1 6]。2D-3D对应。为了建立2D-3D对应关系，我们探索了两种不同的方法。两种方法从不同的方向处理问题，并产生显著不同的对应关系和表示，如图3所示。然而，我们的总体方法适用于任何类型的2D-3D对应，并且不依赖于特定格式。因此，可以交换用于建立对应关系的方法。这是非常有用的，因为不同的方法有其各自的优点和缺点，我们在我们的实验中讨论四点三。2225××(a)（b）（c）图3：两种不同形式的2D-3D对应关系的可视化：（a）图像，（b）对每个像素的XYZ 3D坐标进行编码的位置字段（LF），以及（c）对象的3D边界框角（BB）的2D投影。我们的第一种方法预测已知2D位置的3D点。特别是，我们建立属于对象的2D图像像素和对象表面上的3D坐标之间的对应关系。我们以位置字段（LF）的形式表示这些对应关系[42]，其以类似图像的格式提供密集的2D-3D对应关系，如图3b所示。位置字段具有与其参考RGB图像相同的大小和空间分辨率，但三个通道编码对象坐标系中的XYZ 3D坐标，而不是RGB颜色。由于其类似图像的结构，这种表示非常适合使用CNN进行回归。我们的第二种方法预测已知3D点的2D位置。在这种情况下，我们预测对象的3D边界框角（BB）的2D投影由于边界框角点的3D坐标在推断过程中是未知的，因此我们还预测了对象沿XYZ轴的3D尺寸[8]，从中我们导出了所需的3D点。我们以19维向量的形式表示这些稀疏的2D-3D对应关系，该向量由8个边界框角点的2D位置（16个值）和对象的3D尺寸（3个值）组成。如图4所示，我们为每个方法实现了一个单独的2D-3D对应分支。与焦距分支相比，两个分支都执行基于区域的每个对象计算：对于每个检测到的对象，特征图中的相关联的感兴趣的空间区域被对准到具有低空间分辨率的固定大小的特征表示。最终分辨率，例如，十四十四这些对齐的特征作为我们提出的两个分支之一的输入。因此，对于每个图像，所选择的2D-3D对应分支被评估N次，其中N是检测到的对应分支对象我们通过添加后缀来识别所选的2D-3D对应方法：我们的LF或BB对于LF方法，对应分支提供两个不同的完全卷积子网络以预测空间分辨率处的3D点的张量和2D对象掩模图4：用于从RGB图像（LF和BB）预测2D-3D对应的两个替代分支。我们发现，与直接回归低分辨率位置场相比，这种方法产生的准确性明显更高，而低分辨率位置场往往会预测对象轮廓周围的过度平滑3D坐标。所得到的低分辨率位置字段可以被放大和填充以获得具有与输入图像相同的空间分辨率的高分辨率位置字段。然而，我们从低分辨率位置字段中采样2D-3D对应关系，并且仅调整它们的2D位置以匹配输入图像分辨率。通过这种方式，我们避免生成大量的2D-3D对应关系，而无需提供额外的信息。对于BB方法，对应分支也提供了两个子网，但这次具有完全连接的输出层。一个子网络预测对象的3D边界框角的2D位置，另一个子网络估计对象的3D尺寸。在这种情况下，我们相对于对齐特征的空间分辨率回归归一化坐标中的2D位置。同样，我们调整预测的2D位置以匹配输入图像分辨率。在训练过程中，我们使用Huber损失优化3D点和2D掩模（Ours-LF ）或 2D投影和 3D尺寸（Ours-BB ）[16]。最终的网络损耗为我们的焦距损失，我们选择的2D-3D对应损失以及广义Faster/Mask R-CNN框架的2D对象检测损失的组合[10，34]。3.2. 阶段2：几何优化一旦我们在2D位置和3D点之间建立了对应关系，我们就对所有方法使用相同的几何优化。在这种情况下，我们对Pn Pf问题[29]进行非线性优化，找到各个投影参数之间的几何一致性。特别地，我们最小化重投影误差1ΣN28的解决方案。然后将2D掩模应用于3D点的张量以获得低分辨率位置场。ereproj= Ni=1L（ProjR，t，f（Xi）−xi<$2），（2）2226·LLL·不L不·其中Xi是3D点，并且Xi是其对应的2D位置。Proj R，t，f（）执行相对于旋转R、平移t和焦距f从3D对象坐标系到2D图像平面上的投影。（）是一个损失函数，例如标准平方损失（x）=x2或更鲁棒的柯西损失[38]（x）=ln（1+x2），N表示对应的数量。我们在3D姿态和焦距上最小化erepij。在这种情况下，需要至少四个2D-3D对应关系来找到唯一的解决方案[45]，因为每个对应关系给出两个独立的方程，并且我们优化了七个参数：3-DoF旋转、3-DoF平移和1-DoF焦距。然而，在实践中，重要的是使用更多的2D-3D对应来补偿噪声的存在。遵循以前的Pn P（f）approaches [13，20，31]的策略，我们在O（n）时间内计算初始解，然后使用迭代精化技术。对于我们的初始解，我们使用EPn P [20]和我们预测的焦距计算3D旋转和3D平移。提供良好的初始焦距是在3D平移方面实现高精度的关键因素。理论上，也可以从头开始使用2D-3D对应关系恢复焦距[29，31]，但这需要非常准确和干净的对应关系。然而，对于在野外的类别水平上的对应估计，我们面临着模糊和嘈杂的预测。包括歪斜、偏离中心的主点、不对称的纵横比或透镜畸变[29]。然而，目前没有具有这种注释的数据集。4. 实验结果为了证明我们的联合 3D 姿态和焦距估计方法（GP2C）的益处，我们在具有不同对象类别的三个具有挑战性的真实世界数据集1上对其进行评估：Pix3D [35]（床，椅子，沙发，桌子），Comp [42]（汽车）和Stanford [42]（汽车）。特别是，我们提供了一个定量和定性的评价，我们的方法相比，国家的最先进的SEC。4.1、分析第二节中的重要方面。4.2，并讨论了我们提出的两种方法的优点和缺点，用于建立2D-3D对应在第4.2节。四点三。为了在我们的评估中涵盖射影几何的不同方面，我们使用以下公认的度量：侦查我们报告的检测精度Acc D0。5，其给出了地面实况2D边界框和预测的2D边界框之间的交集大于并集的对象的百分比[47]。该度量是其他Acc度量的上限，因为我们不进行盲预测。轮换。我们计算测地距离双对数（RgtRpred）在这种情况下，低的重投影误差通过以下方式实现：eR=第2章（3）物体到相机的距离和焦距之间的正确比例。因此，我们不能假设几何优化将从头开始找到正确的绝对焦距。考虑到这一点，我们共同优化了3D ro-在真实旋转矩阵Rgt和预测旋转矩阵Rpred之间，其给出最小角距离。我们报告该距离的中值（MedErrR）和该距离所对应的对象的百分比。距离低于阈值π或30π（AccRπ）[41]。66在我们的迭代过程精致为此，我们采用基于牛顿步长的优化[5]，这取决于损失函数，即，Levenberg-Marquardt [26]（平方损失）或子空间信任区域内部反射[3]（柯西损失）。翻译. 我们报告相对平移距离e=tgt−tpred2tgt（四）我们的方法自然地处理不同的投影模型（自我中心或非自我中心）[19]。另外，联合优化图像中的多个对象的3D姿态连同焦距是直接的。在这种情况下，我们像以前一样计算初始解，但每个-在地面实况翻译tgt和预测翻译tpred之间[15]。Pose. 我们计算3D空间形成我们对1+6N个参数的迭代细化，其中e=平均值dbbox·transfgt（X）−Transfpred（X）<$2（五）N是检测到的对象的数量。我们没有评估这种联合改进，因为可用类别R，tX∈Mdimgtgt具有焦距注释的水平数据集仅为每个图像的一个对象提供3D注释，即使图像中存在多个对象[35，42]。在大多数情况下，我们仍然能够检测到其他对象，但没有地面实况注释来评估它们，如我们的定性结果所示。4.1.此外，我们的方法可以很容易地扩展到处理更复杂的相机模型-以评估3D姿态精度[14，15]。在这种情况下，每个使用经受旋转和平移的地面实况3D姿态Transf gt（·）和预测的3D姿态Transf pred（）来变换地面实况3D模型M的3D点X。我们将该距离归一化为1有关数据集和评估设置的详细信息，请参见花絮2227检测旋转平移姿势焦点投影方法数据集类访问DMedErrRAccRπMedErtMedErrR，tMedErrfMedErrPAccP0的情况。56111201·1·10·10·10·10[第四十二届]百分之九十八点四5.8295.3%1.951.562.226.0574.9%我们的LFPix3D床百分之九十九5.13百分之九十六点三1.411.041.433.52百分之九十点六Ours-BB百分之九十九点五5.4097.9%1.661.171.593.55百分之九十三点二[第四十二届]百分之九十四点九7.5288.0%2.691.581.986.04百分之七十五点三我们的LFPix3D椅子95.2%7.5288.8%1.921.211.623.4188.2%Ours-BB97.3%6.9591.0%1.681.081.583.24百分之九十点九[第四十二届]96.5%4.7394.8%2.281.622.424.33百分之八十二点二我们的LFPix3D沙发96.5%4.4995.0%1.921.331.792.56百分之九十三点七Ours-BB百分之九十八点三4.4097.0%1.631.161.732.13百分之九十五点六[第四十二届]94.0%10.94百分之七十二点九3.162.283.038.9053.6%我们的LFPix3D表94.0%10.53百分之七十三点五2.161.622.055.92百分之六十九点五Ours-BB95.7%10.80百分之七十七点二2.811.782.105.74百分之七十二点四[第四十二届]96.0%7.2587.8%2.521.762.416.3371.5%我们的LFPix3D是说百分之九十六点二6.9288.4%1.851.301.723.85百分之八十五点五Ours-BB百分之九十七点七6.89百分之九十点八1.941.301.753.6688.0%[第四十二届]百分之九十八点九5.24百分之九十七点六3.302.353.237.85百分之七十三点七我们的LFComp车百分之九十八点八5.2397.9%2.611.862.974.21百分之九十五点一2228ǁ ǁOurs-BB百分之九十八点九4.87百分之九十八点一2.551.842.953.8795.7%[第四十二届]Ours-LFOurs-BB斯坦福车99.6%99.6%99.6%5.435.385.24百分之九十八百分之九十八点三百分之九十八点三2.331.802.347.46百分之七十六点四1.931.921.511.472.012.073.723.25百分之九十六点二96.5%表1：Pix3D、Comp和Stanford数据集上的实验结果我们在3D平移、3D姿态、焦距和投影指标方面的表现明显优于最先进的技术我们在第二节中详细解释了报告的数字4.1.使用地面实况2D边界框对角线dbbox与图像对角线dimg之间的比率以及地面实况平移的L2范数tgt2来确定图像中的对象。这种归一化提供了一个无偏的度量的情况下，未知的内在的三维姿态评估。焦距。我们报告的相对焦距误差|f gt − fpred|长度dbbox是地面实况2D边界框对角线。我们报告该距离的中值（MedErr P）和距离低于阈值0的对象的百分比。1（AccP0. 1）[42]。4.1. 与最新技术我们首先提出我们的方法的定量结果-ef=FGT（六）使用我们的两种不同方法建立2D-3D对应关系（Ours-LF和Ours-BB），并将其与在地面真实焦距fgt和预测的焦距fpred[31，44]。投影为了评估所有投影参数，我们计算平均归一化重投影距离Projgt（X）−Projpred（X）最先进的为此，我们重新实施了[42]的方法，并取得了可比的结果，甚至超过了形成其报告的MedErr P和Acc P0。1分，由于我们改进的骨干网架构和初始化。的结果总结在表1中。我们在所有数据集和类别中实现了一致的结果，因此，我们提供了一个eP=avgX∈Mdbbox.（七）根据评估的指标进行联合讨论：在这种情况下，使用经受旋转、平移和聚焦的地面实况投影参数Projgt（·）和预测投影参数Projpred（·）将地面实况3D模型M的每个3D点X侦查所有方法均实现了高检测精度（AccD0. （五）。这并不奇怪，因为我们微调了一个预先训练的模型，例如COCO上的分割[23]。事实上，所有被评估的类别也都存在于COCO中。22296图像地面实况[第四十二届]我们的LFOurs-BB轮换。此外，所有方法均实现了高旋转精度（MedErrR和AccRπ）。我们报告的数字与以前在野外旋转估计方面的工作结果一致[8，41，42]，并证实3D旋转可以从2D观测中稳健地恢复到一定的精度。仅对于类别表，我们观察到次平均精度。事实上，几乎所有的表都具有对称性，如图5所示，这有时会混淆所有评估的方法，因为它们预测单个3D姿态而不是分布（参见最后的表样本）。翻译. 在翻译准确性（MedErr t）方面，我们的方法显着优于最先进的。在未知的本征函数的情况下，从对象的局部图像窗口直接预测3D平移是高度模糊的。通过明确地估计焦距并将其集成到3D姿态估计中，我们利用几何先验并实现了20%的相对改进Pose. 在未知固有函数的情况下， 3D 姿态准确度（MedErrR，t）主要由平移准确度支配。因此，我们还观察到与最新技术水平相比相对改善了20%。焦距。考虑到焦距精度（MedErrf），由于我们的对数参数化和细化，我们的方法优于最先进的投影最后，我们报告了投影度量（MedErr P和Acc P0.1），其评估所有预测的参数。在这些指标中，与最先进的产品相比，我们实现了最大的改进：Acc P 0中的绝对值为20% 。1和40%相对MedErrP在所有数据集。与单独投影参数的独立估计相比，我们的方法找到了导致改进的2D-3D对准和重新投影误差的几何一致性。这种定量改进也反映在图5所示的定性结果中。在这个实验中，我们的方法始终产生更高质量的2D-3D对齐相比，国家的最先进的不同类别的对象这种显著的改进可以归因于我们在推理过程中最小化了重投影误差然而，我们要强调的是，3D模型仅用于评估。在我们的方法中，3D姿态和焦距仅从单个RGB图像计算。图5：所有评估数据集和类别的定性3D姿态和焦距估计结果。我们使用不同方法预测的3D姿态和焦距将地面真实3D模型投影到图像上。与[42]相比，我们的方法发现参数之间的几何一致性，这导致改进的2D-3D对齐，例如，投影的比例我们用框架突出显示最佳数码变焦观看。4.2. 分析接下来，我们分析我们的方法的两个重要方面(a)我们预测的2D-3D对应的鲁棒性，以及（b）焦距对于从这些对应估计3D姿态的重要性。为此，我们在Pix3D上进行实验，Pix3D是最具挑战性的数据集，因为它提供了多个对象类别，并且在对象尺度上具有最2230大的变化。2231FGTFPredf常数L2预测1100阈值(a) 我们的LF0% 1% 0阈值% 1(b) Ours-BB表2：不同Pn P策略的评估。结果表明，我们预测的2D-3D对应是可靠的，不包含单个极端离群值。首先，我们使用不同的P n P策略运行我们的方法，并使用投影度量（MedErr P和Acc P0. 1）在表2中。特别是，我们将标准方法（由于平方损失（x）= x2而对离群值敏感）与更鲁棒的RANSAC方案和柯西损失[38] L（x）=ln（1+x）进行了比较。所有三个Pn P策略实现类似的性能为Ours-LF和Ours-BB。该实验表明，我们预测的2D-3D对应不包含通常存在于传统的基于兴趣点的方法中的单个极端离群值这是由于所有2D- 3D对应关系都是从产生一致预测2的低维特征嵌入计算的事实。其次，为了证明焦距对于从2D-3D对应性估计3D姿态的重要性，我们用三个不同的焦距初始化几何优化，并使用图6中的3D姿态距离比较结果。在这个实验中，我们绘制了3D姿态距离为低在范围[0，1]（AccR，t）中变化的阈值。如预期的，如果我们用地面实况焦距初始化几何优化，则我们实现最高的3D姿态精度。然而，对于野外的3D姿态估计，焦距在推断期间是未知的。在这种情况下，我们可以使用常数或预测的焦距进行初始化。即使我们使用最佳可能的恒定焦距，即训练数据集的中值焦距，准确度也会显著下降。相反，如果我们使用我们预测的焦距进行初始化，我们将实现改进的3D姿态精度。然而，与使用地面真实焦距相比，在精度上仍然存在差距4.3. 讨论到目前为止，我们的结果表明，两种提出的2D-3D对应估计方法（LF和BB）实现了一个简单的2补充材料中提供了我们预测的2D-3D对应关系的定性示例。图6：不同初始焦距的评估。结果表明，一个良好的初始估计的焦距是一个关键因素，实现高的三维位姿精度。类似的精确度。然而，每种方法都具有有利于不同任务的特定特征。例如，LF隐式处理截断和遮挡，因为它估计可见对象部分的3D点，并使用2D遮罩解决遮挡此外，预测的密集2D-3D对应关系也可能用于其他任务，如密集深度估计或形状重建。然而，这种方法需要详细的3D模型进行训练。相比之下，BB只需要精确的3D边界框进行训练。该方法总体设计简单，重量轻，易于实现和训练。这也反映在我们报告的数字中，与LF相比显示出轻微的优势。另外，BB总是给出固定数量的稀疏2D- 3D对应。这导致快速推断，这对于例如实时应用是有益的。然而，虽然这种方法非常适合处理像汽车这样的盒子形状的对象，但其他方法可能在高度非盒子形状的对象上表现得更好。5. 结论估计野外物体的3D姿态是一项重要但具有挑战性的任务。特别地，由于不同焦距导致的模糊外观，预测3D平移是困难的为此，我们提出了第一个联合3D姿态和焦距估计方法，强制执行3D姿态和焦距之间的几何共识。我们的方法结合了深度学习技术和几何算法来明确估计焦距并将其集成到3D姿态估计中。我们在三个具有挑战性的真实世界数据集（Pix3D，Comp和Stanford）上评估了我们的方法，并显著优于最先进的20%。致谢本工作得到了 Christian Doppler Semantic 3DComputer Vision实验室的支持，高通公司提供了部分资金。我们衷心感谢NVIDIA公司的支持，捐赠了用于本研究的Titan Xp GPU。FGTFPredf常数加速度R，t加速度R，t方法Pn P标准2MedErrP ·103.88加速度P 0。1百分之八十五点三我们的LF RANSAC3.8785.4%Cauchy3.85百分之八十五点五2232引用[1] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。使用3D对象坐标学习6D对象姿态估计。欧洲计算机视觉会议，第536-551页，2014年。2[2] Eric Brachmann ， Frank Michel ， Alexander Krull ，MichaelYing Yang，Stefan Gumhold，and Carsten Rother.不确定性驱动的6D姿态估计的对象和场景从一个单一的RGB图像。计算机视觉和模式识别会议，第3364-3372页，2016年。2[3]作者：Mary Ann Branch，Thomas F.Coleman和YuyingLi。大规模有界约束极小化问题的子空间、内部和共轭梯度法SIAM Journal on Scientific Computing，21（1）：1-23，1999.5[4] Qian Chen，Haiyuan Wu，Toshikazu Wada.任意两个共面圆的摄像机欧洲计算机视觉会议，第521-532页，2004年。3[5] 安德鲁河，澳-地尼古拉斯？康恩 Gould，and PhilippeL.托因特信赖域方法SIAM，2000年。5[6] Marke'taDubska' ， AdamHerout ， RomanJura'nek ，andJakubSochor.用于交通监控的全自动路边摄像机校准。 IEEE Transactions on Intelligent Trans- portationSystems，16（3）：1162-1171，2015。3[7] O.D.福格拉斯三维计算机视觉：一个-几何视点。麻省理工学院出版社，1993年。3[8] 放大图片作者：Peter M. Roth和Vincent Lepetit野外物体的三维姿态估计和三维模型检索。在计算机视觉和模式识别会议上，第3022-3031页一二三四七[9] Richard Hartley和Andrew Zisserman。多视图GE-计算机视觉中的几何学剑桥大学出版社，2003年。二、三[10] Kaim ing He，Geor gia Gkioxari，Piotr Dolla'r，and RossGir-真恶心。面罩R-CNN。在计算机视觉国际会议上，第2980-2988页，2017年。二、三、四[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。计算机视觉和模式识别会议，第770-778页，2016年3[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度残差网络中的恒等映射欧洲计算机视觉会议，第630-645页3[13] 乔尔·A.黑施和斯特吉奥斯岛鲁梅利奥蒂斯直接最小-平方（DLS）方法用于Pn P.在国际计算机视觉会议上，第383-390页5[14] Stefan Hinterstoisser ， Vincent Lepetit ， Slobodan Ilic ，Ste-Fan Holzer，Gary Bradski，Kurt Konolige，and NassirNavab.基于模型的训练，检测和严重杂乱场景中无纹理3D对象的姿态估计。亚洲计算机视觉会议，第548-562页，2012年。5[15] Toma´sˇ Hodanˇ、Jiˇr´ı Matas和Sˇteˇ pa´ n Obdrzˇa´ lek。关于Evalua-6D物体姿态估计。欧洲计算机视觉会议，第606-619页，2016年。5[16] 彼得·胡博。位置参数的鲁棒估计数学统计年鉴，35（1）：73-101，1964年。三、四2233[17] Omid Hosseini Jafari，Siva Karthik Mustikovela，KarlPertsch，Eric Brachmann，and Carsten Rother. iPose：部分遮挡物体的实例感知6D姿态估计。2018年亚洲计算机视觉会议。2[18] Wadim Kehl ， Fabian Manhardt ， Federico Tombari ，Slobodan伊利克和纳西尔·纳瓦布SSD-6D：使基于RGB的3D检测和6D姿势估计再次伟大。国际计算机视觉会议，第1530-1538页，2017年2[19] Abhijit Kundu，Yin Li，and James M Rehg. 3D-RCNN：通过渲染和比较的实例级3D对象重建。在计算机视觉和模式识别会议上，第3559-3568页，2018年。二、五[20] Vincent Lepetit ， Francesc Moreno-Noguer ， and PascalFua.EPn P：一个精确的O（n）解决Pn P问题。国际计算机视觉杂志，81（2）：155，2009。5[21] Chi Li，Jin Bai，and Gregory D Hager.一种多视角多类别目标位姿估计的统一在欧洲计算机视觉会议上，第1-16页，2018年。2[22] 林宗毅，彼得·杜勒勒，罗斯·B·格希克，何开明，Bharath Hariharan和Serge J Belongie。用于目标检测的特征金字塔网络。在计算机视觉和模式识别会议上，第2117-2125页，2017年。3[23] 林宗毅，迈克尔·梅尔，塞尔日·贝隆吉，詹姆斯·海斯，皮埃特罗·裴罗那、德夫·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的常见对象。欧洲计算机视觉会议，第740-755页，2014年。三、六[24] Siddharth Mahendran，Haider Ali，和Rene Vidal.混合从2D图像估计3D姿态的分类回归框架在英国机器视觉会议上，第238.1-238.12页2[25] 弗朗西斯科·马萨、雷诺·马莱和马修·奥布里。工艺-使用多任务CNN进行视点估计。在英国机器视觉会议上，第91.1-91.12页，2016年。2[26] 乔·格·J·莫尔。Lev enber g-Marquardt算法：心理学和理论。在数值分析中，第105- 116页，1978年。5[27] Roozbeh Mottaghi，Yu Xiang，and Silvio Savarese.一用于3D姿态估计和子类别识别的由粗到细模型。计算机视觉和模式识别会议，第418-426页，2015年。一、二[28] Arsalan Mousavian、Dragomir Anguelov、John Flynn和贾娜·科塞卡使用深度学习和几何的3D边界框估计。计算机视觉和模式识别，第7074-7082页，2017年。一、二[29] 中野学求解Pn P，Pn Pf，Pn Pfr问题欧洲计算机视觉会议，第338-352页，2016年。二三四五[30

下载后可阅读完整内容，剩余1页未读，立即下载