从单个RGB图像识别三维坐标框架

102 浏览量更新于2023-10-12 收藏 2.93MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8638FrameNet：从单个RGB图像黄经纬1周毅超2托马斯·芬克豪瑟3，4列奥尼达斯·吉巴斯1，51斯坦福大学2加州大学伯克利分校3普林斯顿大学4谷歌5Facebook AI研究摘要在这项工作中，我们介绍了新的问题，从一个单一的RGB图像识别密集规范的三维坐标框架。我们观察到，图像中的每个像素都是基础3D几何结构中的小表面区域的投影，其中可以将规范框架识别为由三个正交轴表示，一个沿着其法线方向，两个在其切平面中。我们提出了一种算法来预测这些轴从RGB数据。我们首先看到的是，最近引入的方向场合成方法自动计算的规范框架可以为任务提供训练数据。我们的第二个发现是主方向正常预测透视不变量特征匹配增强现实设计用于表面法线预测的网络在被联合训练以预测规范帧时提供更好的结果，并且在被训练以还预测规范帧的2D投影时甚至更好我们推测这是因为正则切线方向的投影通常与图像中的局部梯度对齐，并且因为这些方向通过投影几何和正交约束与3D正则框架紧密相连在我们的实验中，我们发现我们的方法预测3D规范框架，可用于从表面法线估计，特征匹配和增强现实的应用。1. 介绍近年来，从单个RGB图像预测3D属性的学习取得了很大进展。例如，单目深度估计[34，25，47，44，12]和表面正态预测[10，45，3，28]有了显著的改进。这些任务在场景理解和机器人交互中有许多应用。在这个领域的主要挑战是选择一个适当的表示三维几何预测。Zhang等人[52]预测密集的表面法线，然后使用几何约束以全局优化的方式求解深度。GeoNet[28]预测表面法线和深度，然后将它们传递到细化网络进行进一步优化。这些方法巧妙地使用了几何约束来正则化稠密预测。然而，在这方面，图1.我们提出了一个新的任务，预测密集的3D佳能-从一个单一的RGB图像的标准帧。我们使用QuadriFlow从重建的网格中计算帧，并将其渲染为图像以监督任务。我们训练了一个网络，该网络联合预测帧的所有方向。我们发现，预测切线提供了更好的表面法线，是有用的应用程序，如功能匹配和增强现实。它们仅推断出3D坐标系中3个自由度中的2个-切平面中围绕表面法线的旋转是未知的。因此，它们缺少对许多应用至关重要的3D信息。例如，它们无法帮助AR系统将相框放置在墙上或将笔记本电脑放置在桌子上，因为它们在这项工作中，我们提出了一个新的图像到3D的任务：从单个图像进行密集3D规范帧估计（图1）。这项任务需要预测一个完整的3D坐标系定义的表面法线和两个princi- pal切线方向的表面上观察到的每个像素在RGB图像。我们调查这个任务有三个原因。首先，我们预计预测主切线方向比预测法线更容易，因为它们通常与表面纹理中的可观察图案对齐（例如，木纹、织物编织、瓷砖接缝等）和表面边界，其在图像中可直接观察到（图2）。其次，我们期望联合曲面法向和切线预测比法向预测更鲁棒3D扫描QuadriFlow本地主轴+投影切线主方向RGB图像CNN相机对准8639（a）曼哈顿（b）我们的（c）图2.我们通过挑选随机种子点并沿着图像中的投影方向跟踪来可视化方向。(a)和(b) 分别显示了同一场景中的曼哈顿和投影主方向。(c)表明投影的主方向通常遵循纹理方向或对象边界。由于正交性约束提供的正则化，第三，我们期望在每个像素处预测完整的标准3D坐标框架对于许多应用（诸如增强现实）是有用的。我们已经实现了一个算法，在监督设置这项任务。为了获得“地面实况”规范帧，我们利用来自RGB-D扫描数据集的数据，如ScanNet [9]，其提供在重建的3D网格内构成的大量图像。我们在网格上计算规范帧，并将它们渲染到RGB图像以生成训练数据。对于如何定义框架有多种选择一个简单的方法是使用曼哈顿框架;然而，它们仅反映全局场景定向（图2（a））。相反，我们使用Quadriflow算法计算遵循主曲率的局部一致4-RoSy规范框架[21]（图2（b））。我们发现，以这种方式计算的表面切线方向与图像特征一致，并且可以通过网络从2D数据中学习。规范帧是场景的基本3D属性，因为它们意味着将3D表面映射到图像平面的规范变换它们不仅提供了表面法线，而且还提供了正则切线方向及其在图像平面上的投影。我们表明，联合预测所有这些方向可以改善表面法线估计，使用SIFT特征的局部补丁描述[26]，并允许在增强现实应用中插入具有正确方向的新对象总体而言，该文件的核心贡献是：• 识别一个重要的新的3D视觉问题：从RGB图像的局部规范帧估计。• 利用投影切主方向改进了标准框架的估计，其性能优于已有的标准框架估计。曲面法线估计是曲面法线估计的基础。• 利用切线投影主方向计算透视不变特征描述子。• 在场景中插入新的元素，以感知视角扭曲的方式，用于增强现实。2. 相关工作3D从单一图像。最近，从单个图像估计2.5D几何特性已变得流行年传统的方法旨在理解低层次的图像信息和几何约束。例如，Torralba等人。 [41]利用场景结构来估计绝对深度值。Saxena等人。 [33]使用手工制作的功能来预测基于马尔可夫随机场的深度。Hoiem等人。 [18]恢复由消失点和线引导的场景布局。Shi等人。 [35]估计散焦模糊并使用它来辅助深度估计。随着大规模数据集的可用性和深度学习的发展，已经提出了许多用于深度或/和表面法线估计的方法。对于深度估计，Eigen等人。 [11]使用CNN来预测NYUv2数据集上的室内深度图。借助VGG [37]或ResNet [16]等强大的骨干网络架构，可以进一步改进深度估计[13，46]。DORN [12]提出了一种新的普通损失，并在KITTI [14]中实现了最对于表面法线估计，Wang等人。 [45]将消失点和布局信息纳入网络架构中。Eigen和Fergus [10]训练了一个由粗到细的CNN来细化法线的细节提出了跳跃连接架构[3]来融合隐藏层以进行表面法线估计。由于表面法线和深度彼此相关Wang等人。 [43]利用平面区域中法线和深度之间的一致性。GeoNet [28]提出了一种细化网络，以增强彼此的深度和法线估计。Zhang等人。 [52]预测法线并解决全局优化问题以完成深度。我们采取进一步的步骤，联合估计每个像素处的3D规范框架的所有轴，这有助于通过约束来正则化预测，并且在应用中很有用（参见第二节）。（五）。曲面上局部标准框架的计算是解决许多问题的基础。3DLite [19]在拟合的3D平面中构建规范框架以进行颜色优化。 GCNN [27]定义了低-用球坐标计算框架，并在切平面上应用离散面片算子。ACNN [6]引入了从主曲率导出的各向异性热核，使得它可以在由主轴定义的规范框架中应用卷积。这样的规范框架也被用于Xu et al. [48]对于非刚性分割，由 Tatarchenko 等人[39，20]用于3D场景的语义分割。我们的目标是从2D图像中识别这些帧，并从3D表面计算它们以监督学习。TextureNet [20]强调了在平面表面区域计算鲁棒局部规范框架的挑战，其中主曲率不确定或受到噪声或不均匀采样的高度影响。因此，提出计算4-RoSy方向场来表示主方向。 4-RoSy取向场是几何处理通信中的一个重要概念（一）（b）第（1）款（c）第（1）款8640平坦区域在平坦区域平滑与主曲率(a) 主曲率(b) 4-RoSy字段RGB X Y法线投影图4.局部规范框架数据集。对于每个RGB帧，我们为每个像素绘制相应的切线主方向（X和Y）。表面法线可以计算为主方向的叉积。(c) （a）（d）（b）图3.（a）从估计的主曲率计算方向场噪声存在于图像中的几何结构和投影中，如（c）中所示。(b)使用QuadriFlow [21]计算4-RoSy场，并产生稳健的切线主方向，如（d）所示，作为图像平面中的投影。nity [30，23].目标方向与主曲率对齐[8，7]，但通过附加能量进行正则化以平滑变化这可以通过周期函数[17，29]或混合整数表示[30，5]优化非线性能量来实现在我们的工作中，我们使用Quadri-Flow [21]来优化4-RoSy场，使其与曲面处的主曲率对齐，并确保平坦区域（其中主方向定义不清）的平滑度以及对噪声的鲁棒性。3. 方法在本节中，我们开发了从RGB图像学习局部规范帧的方法。首先，我们在第3.1节中讨论了来自2D图像的规范框架的地面真值标记。然后，我们在3.2节中讨论投影切主方向的概念。最后，在3.3节中，我们提出了几个能量项，这些项鼓励神经网络在投影切主方向的帮助下预测一致的局部规范框架Since we focus on thebehavior of the local canoni- cal frames rather than theneural network architecture, we can adopt any neuralnetwork that predicts per-pixel fea- tures (see experimentsin Sec.第4和第5段）。3.1. 局部标准框架生成为了标记规范帧，我们需要一个具有与RGB图像对齐的3D网格的数据集我们选择ScanNet [9]进行实验。我们计算规范框架作为表面法线，特别是在存在噪声的情况下。如图所示，在图3（a，c）中，切主方向可能非常嘈杂。为了解决这个问题，我们采用了如 TextureNet [20] 提出的使用QuadriFlow [21]的4-RoSy场，如图3（b，d）所示：该场生成一致的方向，这些方向在平坦区域平滑变化，并与曲面的主曲率对齐。交叉场是4-RoSy，因为每个顶点处的正切主方向有四个有效选择考虑到这一点，我们选择交叉场中的任何一对正交切向量来表示主方向，但我们也将其他三个替代方案视为有效的基础事实。我们将计算出的局部规范帧存储在网格顶点之上，并将它们转换到相机空间后将其渲染为图像对于每个要渲染的三角形，我们枚举到最后两个顶点的切线主方向的90○N（N2Z）度旋转，以便在标准光栅化阶段之前将它们与第一顶点对齐。这是为了处理交叉场中的4路旋转模糊。对于每个RGB图像，我们渲染并将切线主方向保存为两个图像，如图4所示为X和Y。地面真值法线可以直接计算为它们的叉积。3.2. 预计主要方向由于我们的目标是从RGB图像的外观预测3D主切线方向，因此我们首先推导出与它们相关的投影几何。对于规范相机坐标系统中的像素p=（px，py），其像素的3D 位置可以表示为P=（px d ，py d ，d），其中d是深度值。假设像素有两个相切主方向i和j，我们想分析它们的投影。对于i=（ix，iy，iz），我们可以将连接端点P和P+δ·i的线段l（P，δ，i）投影到图像中作为lp（P，δ，i），其为从p到P+δi投影的偏移：与场景几何体相切的主方向。它l（P，δ，i）=P+δi-p=（iδ- p i，i-p i）。计算曲面法线是很简单的，但是切线p平坦区域的主方向很难计算，（P+δi）zx x zyyzd+δiz（一）4个有效选择8641p2NO2ELECE编号E&E$图5.为了估计局部规范帧，我们将RGB图像和规范像素坐标映射馈送到网络。输出是每个像素的13维向量，包括两个投影切线主方向、两个3D切线主方向和一个法向量。我们提出了一个新的损失，利用投影方向，以提高估计的规范框架。我们找到了几种方法来将投影线段转换为像素的属性，如等式2，3，4所示。最直接的想法是将属性定义为从像素通过主方向的单位3D线段的投影，表示为l1（P，i）：=l（P，1，i）.（二）图像平面3D方向！投影3D平面相机图6.图像平面中的每个投影方向（如pp红色）对应于场景中的3D平面。任何3D方向然而，这个简单的定义需要复杂的数学运算-包括作为隐藏信息的深度值的数学形式。因此，它可能很难学习。另一个属性是归一化的投影主方向，或lu（P，i）：=lp（P，δ，i）= （i x-p x i z，i y-py i z）。p||lp（P，δ，i）||2||（i x-p x i z，i y-p y iz）||2（三）这种表示消除了深度的影响，因为深度是具有挑战性的隐藏属性。由于投影通常与图像梯度对齐，因此它可以像预测神经网络的归一化梯度一样简单。然而，尽管这是一项容易的任务，但单位投影方向不能确定原始3D方向。如图6（a）所示，图像中的2D方向对应于3D世界中的平面，其中任何3D方向都可以是有效的解决方案。幸运的是，我们可以将定义简化为l∈（P，i）：=（ix-pxiz，iy-pyiz）.（四）这排除了深度的影响，并对3D空间中的方向提供了足够的监督。从数学上讲，gi，如果预测l（P，i） =（li，li），我们可以计算在平面内是该方向的有效候选。根据公式5推断i和j以用于规范帧估计。然而，我们发现，这种方法不会导致一个强大的规范框架。因此，我们建议联合估计的标准框架以及投影的切主方向，并加强其正交性和投影一致性与额外的软能量约束。我们希望额外的约束将提供一个正则化，可以帮助网络学习。我们提出的解决方案如图5所示神经网络可以被看作是一个黑盒函数，预测RGB图像的每像素特征。由于投影的切线主方向与规范相机中的像素坐标有关，因此我们将规范像素坐标及其RGB值作为输入馈送到网络中。网络输出一个13维向量包括两个切线主方向i和j、它们的2D投影ip和jp以及表面法线n。我们提出一组能量，使得投影切线主方向可以帮助局部主轴估计。损失能量E是如等式6所示的五个能量项的线性组合，p x y方向i=（ix，iy，iz）通过求解系统5：E=λE+λE+λE+λE+λE8iL LPPNNCCOO>ix-pxiz=lxE = min||[i，j]-R（[igt，jgt]）||2iy-py iz=li（五）l k 4ppkp p 2电话：021 - 88888888传真：021 -88888888E = min||[i，j]-R（[igt，jgt]）||2ix + iy + iz =1。3.3. 联合估计P0K4KE=||N-N gt||22（六）E为||l（i）-i||2个以上||l（j）-j||2我们可以训练一个网络来估计预计的印刷品-方向ip=l<$（P，i）和jp=l<$（P，j），并且直接Cpp2pp2E= ||N-i j||二、p p预测方向RGB主方向像素坐标地面实况CNN正常L1（y8642其中R1（[a，b]）=[-b，a]且Rk=R1 ◦ Rk-1 （k > 1）。具体地，EL测量在2D投影空间中预测的切主方向与地面实况之间的距离。Rk表示绕法向轴的90○k度旋转。EL通过枚举可能的90○k次旋转来消除旋转模糊性，测量其中的最小L2损失。同样，EP测量3D空间中切线主方向的最小L2损失，并且EN测量表面法线估计的L2损失。为了将切主方向与它们的投影连接起来，我们设计了EC来衡量投影预测的di之间的一致性（i），（j），（ip，jp），（ip，jp），表1.在ScanNet上测试局部主轴估计的平均误差我们评估表面法线，切线主方向，他们的预测我们的网络。p p工作最后，我们也希望这种影响能够得到传播所以我们增加了一个正交性约束EO来强制曲面法线与切线主方向正交。由于所有的距离都大致相同，我们设置λL= λP= λN=1来平衡不同向量的错误惩罚。为了使系统能够预测具有一致2D投影的正交规范框架，我们在实验中设置λC=λO=5，以在网络预测之间提供稍微更强的约束。4. 评价在本节中，我们描述了一系列实验，以评估我们的局部典型帧估计方法，并使用ScanNet数据集进行消融研究[9]。除非另有说明，否则我们使用DORN架构[12]作为图1中架构的主干。5，并且我们使用方程4用于投影切线主方向，因为它们给出了最佳结果（见下文）。这些测试的主要结论是，联合预测的投影切线方向和执行的一致性损失是成功的局部主轴和表面法线估计的主要贡献者。从RGB中可以很好地估计规范帧吗？我们的第一个实验只是简单地研究我们的算法可以预测的规范框架。由于这是一项新的任务，因此与先前的工作没有适当的比较。然而，我们仍然可以通过比较预测法线、主切线主方向和投影切线主方向的误差来深入了解问题。结果表明，投影切向主方向的预测误差最小，曲面法线的预测误差最大，切向主方向位于中间。这表明预测切线方向比法线更不容易出错，这是可以预期的，因为它们在很大程度上与输入图像中的纹理和梯度对齐（图7）。图7.投影主方向的可视化。在曲面或纹理光滑区域，我们的估计类似于地面实况。预测的方向与输入图像中的纹理和梯度对齐。方法UNetSkipNet土工网多恩正常21.0820.8420.3716.42正常-YZ17.4917.1716.7112.51标准XZ18.0517.1617.6813.00正常XY29.0529.7129.0822.57主要17.5515.7815.4112.53校长-YZ21.1521.9620.6116.19Principal-XZ22.6721.8721.5716.65主XY11.479.969.537.55表2.ScanNet上法线和切线主方向及其投影到三个正交平面的平均角度误差哪些方向最容易预测？为了进一步研究预测局部规范框架的不同分量的相对挑战，我们进行了实验，其中我们分别训练具有L2损失的3D空间中的法线和切主方向，并使用它们投影到相机空间中的三个平面的平均角度误差对其进行表2所列的预测误差及其投影分量表明，切主方向的误差小于法线的误差，切主方向在像平面上的投影误差小于其它两个平面上的投影这再次表明，网络可以预测切线主方向比表面法线更好，特别是对于投影到图像平面的组件有趣的是，图像平面中法线的投影误差是最大的，这可能是因为网络在潜在空间中学习切线主方向，并通过叉积将误差从XZ和YZ平面传播到图像平面每一项损失如何影响估计？接下来，我们研究我们提出的一致性损失如何影响PredGTRGB3D帧是说中值RMSE○11个国家。25 二十二岁5○○30正常15.288.1423.3660.678.684.7主要12.267.8816.8563.784.390.88643ScanNet是说中值RMSE○11个国家。25 二十二岁5○○30l1（P，i）p11.137.6315.0065.186.292.5lu（P，i）p7.354.3810.9481.293.696.7l（P，i）p7.564.4611.3679.893.096.3图8.通过将方向投影到摄像机空间的XY、YZ、XZ平面上，可以测量投影角误差。方法UNetSkipNet土工网多恩EN21.0820.3619.7716.42EN，EP21.0420.4519.6416.29EN，EP，EL20.6219.4719.2615.45EN，EP，EL，EO20.5819.4319.1815.41EN，EP，EL，EC19.7919.4419.0215.31所有损失19.6819.3918.9615.28表3.我们在ScanNet上测试了具有不同损失项组合的表面法线预测的平均平均角度误差。 EL和EC对改善有重大贡献，表明了预测的主要方向的重要性。学习过程。在表3中，我们给出了表面法线w/o的测试平均值平均角度。在ScanNet上训练期间的某些部分的损失。我们注意到，通过直接预测所有的EN和EP，已经有了改进。原因可能是预测的主方向和3D帧之间的相关性是从数据分布中自动学习的。然而，改进是微小的，没有预测的投影主方向与EL。通过正交约束或一致性约束，可以进一步提高性能，并在两者的共同作用下实现最大化。该方法是否适用于不同的网络？为了研究我们的方法的通用性，我们用不同的网络架构对其进行了测试。表3显示，我们的联合损失提高了所有测试网络的性能，包括 UNet[31] ， SkipNet[3] ， GeoNet[28] 和DORN[12]。表4.不同选择方案的检验平均误差在ScanNet数据集上显示切线主方向。ScanNet是说中值RMSE○11个国家。25 二十二岁5○○30UNet21.0814.2128.5540.866.9 76.3UNet-Ours19.6812.4327.5846.170.6 78.8SkipNet20.3613.7428.6345.468.2 77.4SkipNet-Ours 19.3910.8527.5253.272.7 79.3土工网19.7711.3428.5149.770.4 77.7GeoNet-Ours 18.969.8427.2954.673.5 80.1多恩16.428.6424.9458.776.7 82.9DORN-我们的15.288.1423.3660.678.684.7表5.表面法线预测的评价。我们在ScanNet [9]数据集上使用不同的网络架构训练和测试我们的算法。在我们的联合损失的帮助下，所有网络的性能都得到了改善。5. 应用在这一节中，我们研究局部标准框架的估计是否对应用有用。我们首先研究表面法线估计，我们的方法的直接应用。此外，我们还研究了如何将3D规范框架用于透视不变特征描述符和增强现实。5.1. 表面法线估计我们首先将我们的表面法线估计的性能与ScanNet上最先进的方法进行比较[9]。我们使用我们的方法来训练四个网络，并根据RGBD提供的地面实况对其进行评估。表8显示了所有网络的结果，包括UNet [31]，SkipNet [3]，GeoNet [28]和DORN [12]。在投影切线主方向的帮助下，法线预测对于所有架构都更好。图13显示了使用DORN预测的法线，使用和不使用我们的方法。使用我们的方法，误差更小，特别是在对象边界处，可能是因为投影切线主方向所提供的额外监督哪种投影方向的定义最好？在方程2 - 3 - 4中，我们提出了三种投影切向主方向的选择.我们使用UNet [31]在ScanNet [9]上分别训练和测试它们，如表4所示。方程2的平均角度误差作为与深度相关的复函数是最高的。公式4的误差仅略高于公式3中的误差，但公式4可以明确地引导具有一致性损失EC的3D方向。因此，我们选择方程4与规范框架一起进行联合估计。在NYUv2上进行测试我们在NYUv2上测试了不同版本的网络[11]，作为标准评估数据集。由于NYUv2不提供重建的3D网格，我们不能得到地面真实的3D帧。因此，我们在ScanNet数据集上训练网络，并直接在NYUv2上进行测试，如表9所示。请注意，GeoNet-origin [28]是专门在NYUv 2上训练和测试的，是该数据集正态估计的当前最先进方法。其他行是使用和不使用我们的关节XZ投影预测YZ投影3D地面实况XY投影（图片）8644局部仿射变换难匹配容易匹配局部仿射变换RGB GT DORN DORN+Ours图9.结果的视觉比较通过我们的联合损失，预测的曲面法线产生更少的错误和更多的细节。NYUv2是说中值 RMSE11个国家。25○二十二岁5○○30GeoNet-origin 19.011.826.948.471.5 79.5ScanNet是说中值 RMSE11个国家。25○二十二岁5○○30UNet23.46 17.58 29.9029.960.9 72.7UNet-Ours22.09 15.45 29.2636.964.5 74.9SkipNet22.27 14.25 30.6042.064.8 73.5SkipNet-Ours 20.68 13.42 28.3346.367.4 76.0土工网22.02 14.55 29.7940.764.9 73.9GeoNet-Ours 20.22 13.23 28.1947.968.0 76.4多恩19.12 11.60 27.0649.070.6 78.5DORN-我们的18.6311.16 26.6150.271.6 79.5表6. NYUv2的正常预测[11]。GeoNet-origin在NYUv 2上训练和测试[28]。DORN-我们在扫描网络上训练的人在所有人中表现最好。在ScanNet上测试并在NYUv2上测试。虽然GeoNet的性能比GeoNet-origin差，因为它只在ScanNet上训练而没有进行微调，但我们仍然使用DORN [12]架构和我们的损失（DORN-Ours）实现了更好的性能。此外，所有网络在我们的损失下表现出更好的性能，这意味着我们的联合估计具有强大的优势。5.2. 关键点匹配预测局部变换对于关键点特征匹配很重要[26，4，40，15，51，36，49]。例如，SIFT [26]估计尺度和相机平面旋转，以提供这些变换的不变性。由于我们的网络估计完整的局部3D规范帧，因此我们可以额外估计投影扭曲。具体地，将像素p的投影切线主方向对（在等式4中）预测为ip和jp，则局部块P为如等式7所示，翘曲到P：P∈（x）=P（[ip，jp]x）.（七）为了研究这个特征，我们用SIFT [26]进行了一个简单的实验。我们增强了标准SIFT描述符计算，以考虑由我们预测的规范帧实现的透视扭曲我们特别8645Sift+OursSift+Ours标准切空间图10.通过将图像中的局部块变形到表面的典型切平面，特征描述符对相机视角是不变的。关键点匹配可以改进。图11.可视化有和没有我们的扭曲SIFT之间的匹配通过我们的变形，SIFT找到了更多正确的匹配。分区资源中心[4]ORB [32][40]第四十话BRISK [24].224.127.262.193VGG [22] MatchNet [15] DeepDesc [36]PN-Net [2].271.198.257.267SIFT [26]ASIFT [50]电梯[49]SIFT+我们.272.265.317.335表7.DTU数据集上描述符的匹配分数使用SIFT [26]检测关键点，并使用我们估计的局部投影切线主方向提取扭曲补丁为了评估我们修改后的描述符，我们将其与DTU数据集上的其他方法进行比较[1]，其中场景是用不同的照明和视点捕获的。我们在图11中可视化了SIFT产生的正确匹配，有和没有我们的局部图像扭曲。结果，局部图像变形减少了透视畸变，产生了更正确的匹配.我们还将匹配分数测试为如表7所示，SIFT [26]优于大多数方法。由于我们的方法还使用投影切线减少了透视效果，Sift输入Sift输入8646Cc主要方向，我们可以进一步提高SIFT性能。请注意，ASIFT [50]也共享SIFT [26]对不同视点的限制，并使用各种仿射变换从图像中提取因此，它们通常提供更多的正确匹配，但也提供更多的离群值。这就是为什么ASIFT [50]产生的匹配分数略低于SIFT [26]的原因。然而，它有时显示出更好的鲁棒性的几何滤波器在某些应用中的帮助。5.3. 增强现实预测3D表面帧的一个特别引人注目的应用是增强现实-即，它使得能够以适当的3D方向向场景添加新元素。作为一个简单的例子，我们研究基于估计的3D帧（图12的前两行）扭曲添加到RGB图像的虚拟贴花在我们的实验中，我们要求用户选择RGB图像中的一个像素如果我们假设表面是平面的，我们可以计算将贴花与场景几何体对齐所需的单应性变换假设所选择的像素是p，具有两个估计的主方向i和j以及深度d。那么，图案（xc，yc）的中心位于K -1p·d处其中，K是摄像机固有函数。我们还假设附着到场景的图案的相邻像素的目标距离为δ·d。然后，对于图案中的像素（x，y），场景中的齐次坐标为P（x，y） =K·（K -1p·d+i·（x-x ）δd+j·（y-y）δd）. （八）图12.在场景中添加新元素。我们使用红色箭头表示刚性连接，绿色表示可变形连接，蓝色表示对象放置。RGB图像，如图12的最后两行所示。对于该应用，预测场景几何形状的全3D取向是关键的，使得对象不仅可以根据表面法线是平面，而且可以围绕法线适当旋转（例如，所以前面是面向正确的方向）。例如，图12左下角的填充动物如果面对墙壁，就会显得不自然这也可以缓解混合C c视觉任务的现实数据增强，如果存在因此，单应性变换可以被推断为：H=K[δ i，δ j，K-1p-δ（xi+yj）].（九）这里，δ表示图案与像素深度的相对比例，可以由用户控制。在这一点上，我们的局部框架甚至可以在曲面上实现可变形的图案附着。类似地，任何像素xt的均匀坐标可以计算为：ZxtP（xt） =p+δK·[i（P（x）），j（P（x））]dx.（十）XC我们使用简单的显式欧拉方法来演化P（x），其中积分的路径从中心开始，并遵循宽度优先搜索的顺序，其中扩展是从一个像素到尚未访问的四个相邻像素中的像素。图12中示出了可变形附接件的几个示例。用户可以控制δ来指定附加图案的大小。对象放置我们还可以使用由预测主轴定义的局部3D框架来将3D对象渲染为方法需要深度图像用于平面检测[42]。6. 结论我们已经提出了新的问题，密集估计，从一个单一的RGB图像的局部3D规范帧。我们将问题表述为表面法线、正则切线方向和投影切线方向的联合估计。我们发现，这种方法导致super-perior性能相比，以前的工作正常估计和其他任务，包括本地投影不变的特征提取和AR新对象插入图像。进一步的研究是必要的，以调查其他几何属性可以预测从RGB使用类似的方法，以及如何可以利用它们在应用程序设置。确认这项工作得到了三星GRO资助、NSF资助DMS-1546206 、 Vannevar Bush 教师奖学金以及 IAS/TUMHans Fischer教师奖学金的部分支持结果输入+贴片输入+对象结果8647引用[1] Henrik Aanæs、Anders Lindbjerg Dahl和Kim SteenstrupPedersen 。有趣的兴趣点。 International Journal ofComputer Vision，97（1）：18[2] Vassileios Balntas ， Edward Johns ， Lilian Tang ， andKrys- tian Mikolajczyk. Pn-net：用于学习局部图像描述符的联合三重深度网络。 arXiv 预印本 arXiv ：1601.05030，2016.[3] Aayush Bansal、Bryan Russell和Abhinav Gupta。Marr再访：经由表面法线预测的2D-3D对准。在IEEE计算机视觉和模式识别会议论文集，第5965-5974页[4] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。Surf：加速健壮的功能。在欧洲计算机视觉会议上，第404-417页Springer，2006年。[5] David Bommes，Henrik Zimmer，and Leif Kobbelt.混合整数四边形。在ACM Transactions On Graphics（TOG）中，第28卷，第77页。ACM，2009年。[6] Da videBoscaini ， JonathanMasci ， EmanueleRodola` ，andMichael Bronstein.用各向异性卷积神经网络学习形状对应关系。神经信息处理系统进展，第3189-3197页，2016年。[7] 埃里克·卡扎·莱斯和马克·波吉特。用密切射流的多项式拟合估算微分计算机辅助几何设计，22（2）：121[8] 大卫·科恩-施泰纳和让-玛丽·莫凡。限制Delaunay三角剖分与正规圈。在第十九届计算几何学年会论文集，第312-321页。ACM，2003年。[9] Angela Dai，Angel X Chang，Manolis Savva ，MaciejHal- ber，Thomas A Funkhouser，and Matthias Nießner.Scan-net：室内场景的丰富注释3D重建。在CVPR，第2卷，第10页，2017年。[10] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签。在Proceedings of theIEEE international conference on computer vision ，第2650-2658页，2015年。[11] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统的进展，第2366-2374页，2014年[12] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在IEEE计算机视觉和模式识别会议集，第2002-2011页[13] Ravi Garg ，Vijay Kumar BG ，Gustavo Carneiro ，andIan Reid.用于单视图深度估计的无监督CNN：几何学拯救了我们。在欧洲计算机视觉会议上，第740-756页。施普林格，2016年。[14] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。The InternationalJournal of Robotics Research ，32（11）：1231-1237，2013.[15] Han Xufeng，Thomas Leung，Yangqing Jia，Rahul Suk-thankar ， and Alexander C Berg. Matchnet ： Unifyingfeature and metric learning for patch-based matching. 在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第3279-3286页[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[17] 亚伦·赫茨曼和丹尼斯·佐林。描绘光滑的表面。在第27届计算机图形和交互技术年会的会议记录中，第517-519526. ACM出版社/Addison-Wesley出版公司两千[18] Derek Hoiem、Alexei A Efros和Martial Hebert。从图像中检索曲面布局 International Journal of ComputerVision，75（1）：151[19] Jingwei Huang ， Angela Dai ， Leonidas J Guibas ， andMatthias Nießner. 3dlite：面向内容创建的商品3d扫描。ACM Trans. Graph. ，36（6）：203[20] Jingwei Huang ， Haotian Zhang ， Li Yi ， ThomasFunkhouser，MatthiasNießner，andLeonidasGuibas.Texturenet：用于从网格上的高分辨率信号中学习的一致局部参数化。 arXiv 预印本 arXiv ：1812.00020，2018。[21] Jingwei Huang ， Yichao Zhou ， Matthias Nießner ，Jonathan Richard Shewchuk ， and Leonidas J Guibas.Quadriflow：一种可扩展的、鲁棒的四边形计算方法。在计算机图形论坛，第37卷，第147-160页。WileyOnline Libra

下载后可阅读完整内容，剩余1页未读，立即下载