基于归纳偏差的输入级3D重建模型

130 浏览量更新于2023-10-25 收藏 13.31MB PDF 举报

3D重建

多视图几何

身份认证购VIP最低享 7 折!

30元优惠券

tectures.Eventually it seems desirable to build a more general vi-sual system that can deal with most perceptual problems. Toget there, one option is to combine state-of-the-art systemsfor all of those problems, but this would be complex, inel-egant and not scalable. Another option is to employ mod-els without much customization or inductive biases for anyparticular task, but these models will by deﬁnition be lessdata-efﬁcient and hence less accurate than specialized onesgiven a ﬁxed data budget.In this paper we explore the single-general-model route.We ask the following question: can the lack of architecture-level inductive biases be replaced by extra inputs which en-code our knowledge about the problem structure? In otherwords, can we feed those priors as inputs rather than hard-wire them into the model architecture (Fig. 1), like a load-able software solution instead of a more rigid hardware so-lution. As the general model we employ the recently pub-lished Perceiver IO [23] and as domain we focus on multi-view geometry and 3D reconstruction, an area of computervision where architectural specialization is particularly ex-uberant [20,22,30,36,44,66,69].Our main contribution is in mapping out and evaluatingsome of the options for expressing priors for 3D reconstruc-tion as input features, in particular in the setting of depthestimation from stereo image pairs. We consider conceptsin multiview geometry such as camera viewpoint, light ray61760用于3D重建的输入级归纳偏差0王一帆 1 � 卡尔∙多尔什 2 Relja Arandjelovi´c 2 Jo˜ao Carreira 2 Andrew Zisserman 2,301 ETH苏黎世理工学院 2 DeepMind 3 VGG，牛津大学工程科学系0查询0图像1的0输入图像对0多视图0几何0归纳偏差0flatten()0图像1的输出深度输入矩阵0通用感知0模型0图1. 输入级归纳偏差。我们使用通用感知模型Perceiver IO[23]来探索3D重建，该模型接受无序和扁平化输入（例如像素）的矩阵。该模型通过查询矩阵进行询问，并为每个查询生成一个输出 -在本文中，输出是输入图像对的所有像素的深度值。我们将有用于多视图几何的归纳偏差直接编码为附加输入，而无需更改其架构。0摘要0最近在3D视觉方面取得的许多进展是通过开发具有几何归纳偏差的专用架构推动的。在本文中，我们使用一个与领域无关的架构来处理3D重建，并研究如何将相同类型的归纳偏差直接注入模型作为额外的输入。这种方法使得可以在丰富的领域上应用现有的通用模型，例如Perceivers，而无需进行架构更改，同时保持定制模型的数据效率。特别是，我们研究了如何将相机、投影光线入射和极线几何编码为模型输入，并在多个基准测试中展示了具有竞争力的多视图深度估计性能。01. 引言0现代计算机视觉研究的重点在很大程度上是为每个感兴趣的任务确定良好的架构。感兴趣的任务有很多，从经典任务如光流[19]到高度专业化（但可以说重要）的任务如识别马行为单元[31]。为每个可能的任务创建专用模型自然会导致庞大的架构目录。最终，构建一个更通用的视觉系统似乎是可取的，该系统可以处理大多数感知问题。为了实现这一目标，一种选择是将所有这些问题的最先进系统组合在一起，但这将是复杂、不优雅且不可扩展的。另一种选择是使用没有太多定制或归纳偏差的模型来处理任何特定任务，但这些模型在固定的数据预算下肯定比专用模型的数据效率低，因此准确性也会较低。在本文中，我们探索了单一通用模型的路线。我们提出了以下问题：是否可以用额外的输入替代架构级别的归纳偏差，以编码我们对问题结构的知识？换句话说，我们是否可以将这些先验知识作为输入而不是将其硬编码到模型架构中（图1），就像可加载的软件解决方案而不是更严格的硬件解决方案。作为通用模型，我们采用了最近发布的Perceiver IO [23]，并将领域集中在多视图几何和3D重建上，这是计算机视觉领域中架构专业化特别丰富的领域[20, 22,30, 36, 44, 66,69]。我们的主要贡献在于绘制和评估一些用于表达3D重建先验的选项，特别是在从立体图像对中估计深度的设置中。我们考虑了多视图几何中的相机视点、光线入射等概念0� 在DeepMind实习期间完成的工作。61770方向和极线约束。与我们比较的先前工作[20,22,30,56]类似，我们假设已经给出了地面真实相机，但原则上也可以由模型计算并作为输入递归地传递回来。我们在多个数据集上进行实验-ScanNet[7]，SUN3D[59]，RGBD-SLAM[49]和Scenes11[56]，并呈现了与所有这些数据集上最先进的专用架构相当或更好的结果。这是在不使用代价体积、变形层等的情况下实现的，实际上（自豪地）没有引入任何架构创新。相反，我们提出了强大的输入级别的三维归纳偏差，大大提高了数据效率。本文反映了计算机视觉中问题解决的新途径，其中领域知识被重视，但以灵活的方式作为附加的模型输入。02. 相关工作0我们的工作是计算机视觉中简化和统一架构的长期趋势的一部分。十年前就有人指出，大数据和简单的架构在解决许多感知问题上“效果不合理地好”[15]，随后的进展进一步证实了这一点[53]。计算机视觉已经从像ConvNets这样的高度通用的图像处理器[29]的架构转向了基于Transformer的方法，例如ViT[10]和Perceivers[23,24]，其中底层的Transformer在声音和语言等多个领域同样有效。统一的架构很有用，因为架构的改进可以轻松地在任务和领域之间传播。它还可以实现跨模态和跨任务的信息共享和传递[48,65]，这对于数据较少的任务至关重要。然而，寻求通用的架构并不意味着在解决几何问题时应该放弃对几何的洞察。将问题分解为特征匹配和三角测量是立体视觉系统的早期组成部分[18,41]。更近期的系统依赖于学习，特别是用于学习在图像之间进行比较以找到对应关系的描述符，无论是通过直接搜索图像之间的匹配[3,33,35,60]，还是通过计算4D相关性体积[2,5,13,27,61,62,66]，或者是两者的结合[14]；随着考虑的匹配数量增加，这些方法的扩展可能会有问题。最近的几项工作[17,32,63]通过在沿着极线聚合样本点来推断对应关系，然而匹配仍然是明确表示和采样的。与我们的工作类似，Cam-Convs[12]利用输入级别的几何先验（相机内参）来更稳健地估计单视图深度在可变相机下。我们的工作考虑了一个更一般的应用-多视图深度估计，其中我们还包括相机的相对姿态和极线约束。0嵌入。对于集成全局和局部推理的对应关系学习的更广泛领域，有各种方法。早期的深度光流和对应关系估计方法[8,11]使用直接回归，与我们的方法一样，但后来的工作发现相关性和代价体积更有效[11,50,55]。然而，PerceiverIO[23]展示了通过直接回归实现强大的光流性能。Transformer也对更一般的场景对应关系改进做出了贡献[26,51,58]，甚至使用学习的对应关系改进少样本学习[9]，尽管这些Transformer仍然应用于相对复杂的机制来明确表示对应关系的特征网格上。这些网格来自于使用深度学习的对应关系的先前工作，其中明确的成对比较和代价体积是表现最好的方法的基本要素[6,36,39,43-45,64]。我们的工作还属于用于三维重建的深度学习的更广泛领域，在这个领域中，有各种各样的提出来表示三维归纳偏差的方法。早期的工作如DeepTAM[69]强调了表示每个图像的深度图和射线的重要性。最近的工作利用深度隐式模型来表示三维[4,37,42]，引入了使用点查询深度表示的思想。虽然这项工作已经扩展到更复杂的场景中，如NeRF[38]及其许多衍生物，但这些通常需要许多相同场景的图像和昂贵的离线训练过程。在线方法通常依赖于更明确但更昂贵的三维表示，如体素网格[25,40,52,67]。特别相关的是TransformerFusion[1]，它使用Transformer从其体素网格表示中关注到输入图像，尽管这种方法仍然存在由于体素网格而导致的内存和分辨率问题。02.1. Perceiver IO回顾0对于通用感知模型，我们使用Perceiver IO[23]，在这里我们简要回顾一下。该模型基于Transformer[57]，将其输入视为一系列简单的标记，并且注意力是主要的工作机制。首先，在输入标记和一组固定大小的内部向量（“潜变量”）之间执行交叉注意力，从而获得输入的压缩表示。然后，在潜变量内部执行一系列自注意力，使得该架构能够很好地扩展到大型输入（例如高分辨率图像）并且可以堆叠多个层次而不会遇到内存问题，因为潜变量比输入标记少得多。最后一步是另一次交叉注意力，这次是在一组外部指定的“查询”和潜变量之间进行的，从而产生所需大小的输出数组（每个查询一个元素）。查询通常是像素位置的某种编码，并且非常密集（例如每个像素一个）。该架构在各种任务和领域上取得了强大的结果，例如图像分类、光流、自然语言理解和StarCraftII，因此非常适合用于本工作中使用的通用感知模型（图1）。Image1RGBRGBRGBRGBRGBRGBIn this section, we demonstrate how to inject geometricinductive biases into a general perception model, PerceiverIO [23] (Sec. 2.1), without changing its architecture. Weconsider the case of 3D reconstruction from an image pair –the inputs are pixels and calibrated cameras, and the outputis depth at each pixel.If we follow prior work, such as the optical ﬂow networkfrom Perceiver IO [23], then we can treat each pixel (or,more generally, each vector in a feature grid) as an inputelement. We then tag each pixel with an encoding for itsposition within the grid as input, and potentially with anadditional tag to indicate which of the two input images thepixel belongs to. The output could be processed similarly:we use the same tagged pixels (or features) as queries inorder to get a depth value for each pixel.In practice, however, we expect this approach to over-ﬁt given the relatively small datasets that are available fortraining geometric inference. A high-capacity model caneasily memorize the depth for each image, rather than learn-ing a procedure which matches features across images andperforms triangulation in a way that can generalize to unfa-miliar scenes.Our hypothesis is that we can create a more data-efﬁcientlearning algorithm by simply providing the Perceiver IOwith information that describes the geometry as input. Inthe ideal case, Perceiver IO can learn to use this informa-tion correctly without the computational pipeline being pre-scribed by a complex, restrictive architecture.In particular, we explore providing information that lets61780图像2 几何0标记0几何0通道0输入矩阵0像素0图2.几何嵌入。Perceiver模型的输入是一个矩阵。我们引入几何嵌入来编码多视角几何的归纳偏好，将像素值与这些嵌入进行连接，作为额外的逐像素通道和/或额外的标记。03. 多视角几何特征化0网络更容易地表示3D空间，以允许三角测量和找到对应点，这是任何通用立体系统的两个主要组成部分。对于第一个目标，我们探索以编码的相机矩阵形式提供相机信息，以及每个像素射线的编码。对于第二个目标，我们为每个像素编码了对极平面，告诉网络哪些像素可能是对应的。我们在这项工作中的主要贡献是展示这些几何量共同可以在不改变网络架构的情况下改善推断的3D几何。几何信息作为输入提供给网络。我们探索了两种主要的操作方式（图2）：1）通过将信息与所有输入元素进行连接来将其融合到输入元素中，以及2）通过使用额外的“几何”标记扩展输入集合。03.1. 对相机进行特征化0相机是多视图几何中最重要的组成部分之一，提供执行三角测量所需的必要信息[16]。我们假设使用常用的针孔相机模型，其参数化为内部参数K ∈R3×3，它定义了从相机坐标到图像坐标的变换，以及外部参数R ∈ R3×3，t ∈R3，它定义了从世界坐标到相机坐标的6自由度相机姿态变换。在实践中，可以通过现成的校准方法[68]获得内部参数，可以使用COLMAP等结构从运动算法估计外部参数[47]。接下来，我们考虑两种编码相机参数的替代方案，第一种是基于连接相机与每个像素的视线构建，第二种是直接提供将3D世界坐标映射到2D像素坐标的投影矩阵。0选项1：视线和相机中心。设x j,i ∈ R20i是图像j中像素i的图像坐标。可以使用视线来在3D空间中唯一表示它，视线可以使用相机中心c j ∈ R3和单位长度的射线方向r j,i ∈ R3进一步参数化。0（图3）。相机j的投影矩阵是一个3×4矩阵P j = K j [R j | tj]。在齐次坐标中，相机中心˜c j = [c j, 1]�满足P j ˜c j =0。将投影矩阵写为P j = [K j R j | K j tj]，相机中心在世界坐标系中为0c j = −(K j R j)−1 K j t j = −R−1 j t j. (1)0未归一化的视线方向可以计算为0¯ r j,i = (K j R j)−1 � x j10，（2）�camera center, c2image1image2relative angle, θ2,ipixel, x2,iray, r2,ic161790由于P j [¯ r j,i , 0] � = [ x j,i , 1]�，我们将其归一化为单位长度以获得rj,i。我们不是以它们的原始形式作为3D向量将c j和rj,i提供给网络，而是将它们嵌入到更高维的傅里叶特征中，因为经验证明这种高维编码更适合神经网络进一步处理[38，57]。这是通过应用逐元素映射x →[x，sin(f1πx)，cos(f1πx)，...，sin(fKπx)，cos(fKπx)]来实现的，其中K是傅里叶频带的数量，fk在1和µ2之间等间距分布，µ对应于采样率。采样率µ和频带数量K是可以分别为cj和r j,i设置的超参数。因此，我们分别获得c j和rj,i的6Kc+3和6Kr+3个傅里叶特征。0选项2：像素坐标和投影矩阵。或者，由于可以仅使用投影矩阵Pj确定每个像素的3D位置（深度未知），我们还可以直接使用P j和像素坐标x j,i唯一嵌入每个像素。为此，我们将Pj展平为一个12维向量，然后再次使用K矩阵和Kx频带以及µ矩阵和µ x采样率将这个12维向量以及2维xj,i映射为傅里叶特征。得到的24K矩阵+12和4K x+2个向量唯一确定了给定像素的几何形状。0将相机信息注入PerceiverIO的输入中。上述几何嵌入包含了网络三角测量像素所需的所有信息。现在我们考虑如何将这些信息提供给通用感知模型。注意，在前面提到的两种选项中，存在一个相机特定部分，它对于给定图像中的所有像素都是相同的，即c j和Pj，以及一个对每个像素都是唯一的像素特定部分，即r j,i和xj,i。像素特定部分最自然地通过将其与像素的RGB值沿通道维度（图2中的“几何通道”）连接起来来合并。有两种方式可以组装相机特定部分-再次作为“几何通道”或作为附加的“几何令牌”。第一种方式只需将相机特定嵌入简单地复制到相应图像的所有像素中，并将其沿通道维度连接为“几何通道”。这将导致总共2×H×W个输入，维度为(D rgb+ D pix + D cam)，其中(H，W)是图像的尺寸，D rgb，Dpix和Dcam分别是基于RGB的输入、像素特定和相机特定几何嵌入的总维度。或者，我们可以将相机特定嵌入视为单独的输入“几何令牌”，与每像素输入一起，从而得到总共2×(H×W+1)个输入令牌。为了指示像素关联的是哪个图像，我们附加了一个额外的图像指示嵌入。0对极平面0θ=00对面0对于像素(j,i)03D点0对极线0对极线0图3.用于计算传递给感知模块的几何嵌入的几何实体。为了清晰起见，仅标记与其中一个图像相关的实体。0对于每个像素标记，它在图像中是唯一的，并在同一图像中的所有像素之间共享。在我们的实验中，我们将图像指示器编码为一个Dind维向量，可以使用图像索引（0/1）的傅里叶映射或可学习参数。每个图像的输入包含特定于相机的几何嵌入，而每个像素的输入是沿通道维度的RGB-based输入、像素特定的几何嵌入和图像指示器嵌入的串联。因此，输入由Dcam维度的2个每相机标记和(Drgb + Dpix +Dind)维度的2×(H×W)每像素标记组成。最后，为了确保两种输入具有相同的通道维度，我们使用可学习参数填充较小的输入。03.2. 提取对极线线索0在前一节中，我们利用几何嵌入来促进视图三角化，现在我们更进一步，利用给定的相机信息来辅助不同图像之间的对应搜索。对应估计对于多视图几何非常重要。对极约束是立体视觉中的基本约束，它规定了两个图像中对应点（3D点的投影）必须位于对应的对极线上，对极线是图像平面与由两个相机中心和3D点定义的平面的交点（图3）。换句话说，图像1中的一点位于对极线l1上，只能与图像2中位于对应对极线l2上的一点匹配。因此，对于已知的相机对，可以计算出对应的对极线，这可以用于限制点对应的搜索。这样可以大大加快搜索速度，同时减少异常值的可能性。与相机信息类似，对极约束通常是显式应用的，例如，仅沿对极线限制对应搜索。相反，我们直接将对极约束作为网络输入的一部分，通过为每个像素标记其对极平面。注意，每个像素只分配给一个对极平面。vj,i = (c2c1)rj,i(3)+ ϵ,(4).(5)61800除了一个特殊情况，即当另一个相机的投影（对极点）落在图像内部时，所有的对极平面都通过对极点；然而，这种退化情况只可能出现在一个像素上，而且对极点与像素中心完全对齐几乎是不可能的，因此这不是一个问题。接下来，我们考虑对极平面的两种参数化方式。第一种选择是将对极平面的法向量编码为c2 -c1和rj,i的归一化叉积，其中rj,i是(2)中的射线方向。形式上，对于图像j中的像素i，法向量nj,i为：0nj,i = sign � [vj,i]x � vj,i0其中[vj,i]x是vj,i的x坐标，sign消除法向量方向的歧义（相反的法向量表示同一个平面）。第二种选择将对极平面参数化为相对角度θj,i，该角度是对极平面与任意选择的参考对极平面之间的角度，角度按比例缩放，使θj,i∈[-1,1]（图3）：0θ j,i = 20� 1 πarccos0� n � j,i n ref0∥ n � j,i n r∥0�0− 0.50�0我们选择参考极线平面，对于两个帧都是固定的，作为与第一张图像中随机选择的像素相关联的平面。最后，对于两种参数化，像素特定的极线编码n j,i或θj,i被嵌入到傅里叶特征中，并作为“几何通道”（图2）沿通道维度与每个像素的输入连接在一起。与相机几何嵌入在第3.1节中描述的相比，极线嵌入不会增加新的信息，但它为网络提供了额外的指导，以更有效地利用对应关系。04. 实验0我们使用PerceiverIO模型对几何嵌入进行深度估计的任务进行评估，这是一个中心计算机视觉任务。数据。我们使用ScanNet[7]和DeMoN[56]数据集进行训练和测试。对于ScanNet，我们使用[30]提供的帧选择，得到94212个训练对和7517个测试对。DeMoN数据集结合了SUN3D [59]、RGBD-SLAM[49]和Scenes11[56]。它总共有166,285个训练图像对来自50420个场景和288个测试图像对。这两个数据集都包含无效的深度测量值，按照社区的常见做法，我们将深度值在[0.1,10]之外的部分视为无效。0实现细节。我们使用常用的L1LOG损失[21]来训练我们的模型，L(d, d�) = |log(d) -log(d�)|，其中d和d�分别是预测的深度值和真实的深度值。除非另有说明，我们将图像处理为240×320的分辨率。原始的RGB值通过Perceiver IO[23]中描述的标准卷积预处理器转换为64维（即Drgb =64）颜色特征，该预处理器由具有感受野7和步长2的1层卷积、批归一化、ReLU和步长2最大池化组成，每个图像的特征网格的维度为60×80×64。这些特征网格与几何嵌入相结合，形成Perceiver IO模型的输入。我们使用原始PerceiverIO架构的较小版本，该版本使用2048×512矩阵作为潜在表示，1个交叉注意力用于输入，然后是8个自注意力层和1个交叉注意力用于输出，其中自注意力使用8个头，交叉注意力只有1个。PerceiverIO模型的输出是两个60×80的深度图。我们使用凸上采样模块[55]将其上采样4倍到原始分辨率，类似于PerceiverIO用于光流估计。对于几何嵌入，我们考虑相对于第一个相机的相机姿态。我们设置Kr = Kmatrix = Kp = 10，Ko =20，最大采样率μ对于rj,i、cj和Pj设置为60，对于极线线索设置为120。这些超参数在我们的实证研究中导致了最佳评估结果。我们应用了广泛的数据增强，包括随机颜色抖动，即改变RGB输入的亮度、对比度饱和度和色调，以及随机裁剪、旋转和水平翻转。我们使用ADAM-W [28,34]优化器，标准参数为β1 = 0.9，β2 =0.999，使用余弦学习率调度而不进行热身，权重衰减为1e-5，最大学习率为2e-4，批量大小为64，训练250个epoch。04.1. 几何嵌入0我们从高层次的问题开始呈现结果：相机和极线几何嵌入是否有用？它们是否互补？然后我们逐渐深入研究这两类几何嵌入的更细粒度的设计决策。在本小节中，所有实验都在ScanNet上进行。为了统计鲁棒性，我们使用不同的随机种子训练三个模型，并报告中位数结果。0粗粒度分析。我们考虑相机和极线嵌入的最佳选项（根据下一小节中的细粒度分析）。表1显示，与仅使用标准像素位置嵌入相比，任何几何嵌入都对深度估计准确性产生了重要影响。0.25680.24230.2340✓0.13500.12930.1234✓0.20840.20180.1853✓✓0.13710.13040.120461810相机极线训练数据比例0嵌入线索 30% 50% 100%0表1.输入对训练效率和泛化性能的影响（使用绝对相对差异评估-值越小越好），使用每种模式的最佳选项。0改进，相机嵌入将绝对相对差异减少了近一半。有趣的是，虽然极线嵌入本身不能提供足够的信息来进行三角测量，但仅使用极线嵌入（第3行）可以增强结果，因为它为对应估计提供了额外的指导。当提供相机和极线嵌入时（第4行），我们的模型的性能与仅使用相机嵌入时相似。然而，随着训练数据的增加，极线嵌入似乎开始对整体准确性产生积极影响。0细粒度分析。我们现在进行更详细的分析，并比较Secs中介绍的不同选项。3.1和3.2。首先，我们比较两种提出的相机参数化方法，即使用相机中心和光线方向c j和rj,i，或直接使用投影矩阵和像素位置P j和xj,i，以及通过几何通道或几何令牌将此信息组装到输入中的两种方法。如表2的上部所示，无论组装方法如何，使用相机中心和光线方向都具有一致的优势，可能是由于其紧凑性。同时，我们观察到将几何嵌入以通道方式与RGB输入进行连接与将几何嵌入作为单独的令牌使用相比更有优势。这可能是因为连接提供了几何和逐像素RGB信息之间更直接的关联。基于最佳相机配置，我们评估了两种极线线索参数化的选项。如表2的下部所示，角度参数化略优于正常参数化，可能是因为在选择参考极线平面时的随机性减少了过拟合。0查询。我们评估两种类型的查询。作为第一种选择，查询的形式与输入相同，使用RGB特征和构建的几何嵌入。或者，我们也尝试丢弃RGB并仅使用几何嵌入进行查询。我们展示了训练损失和验证的进展0相机参数化相机组装极线参数化绝对相对差异0c j , r j,i 通道 - 0.1234 c j , r j,i 令牌 - 0.1249 P j , xj,i 通道 - 0.1345 P j , x j,i 令牌 - 0.18050c j , r j,i 通道 n j,i 0.1235 c j , r j,i 通道 θ j,i 0.12040表2.相机和极线嵌入不同参数化选项的比较（使用绝对相对差异）。0从验证曲线（右图）中我们观察到，当在查询中包含RGB信息（绿色）时，网络最初学习速度稍快，但随着训练的进行，仅包含几何嵌入的查询的性能超过了包含RGB信息的查询。另一方面，包含RGB的查询的训练损失仍然小于排除RGB的查询，这表明RGB信息最终导致网络过度拟合，过度关注纹理信息。图5中显示了这种行为的示例。04.2. 与最先进方法的比较0我们现在将我们的最佳模型与四个不同的数据集上的最先进方法进行比较：ScanNet，Sun3D，RGBD-SLAM和Scenes11。结果显示在表3中，表明使用具有非常通用模型的几何嵌入与专门的最先进模型相匹配，并有时表现更好。请注意，NAS模型[30]使用额外的地面真实法线信息作为监督，并强制法线与深度之间的一致性。我们还评估了我们方法的泛化能力。正如我们在补充材料中展示的那样，当在一个类似领域的未知数据集上进行测试时，我们的模型的性能与专门针对该数据集训练的最先进方法相当，但在显著的领域转移下性能下降。这在某种程度上是可以预料的，因为与传统的平面扫描方法不同，我们的模型没有外部对齐的帧，而是从输入线索中学习对齐。04.3. 相机定位0我们的算法在多大程度上理解相机几何，而不仅仅是记忆深度[54]？我们可以通过要求我们的算法执行一个它从未接受过训练的有用任务来找出答案。事实证明，我们的网络可以根据3D几何定位相机，这是任何SLAM系统的重要组成部分。我们假设我们有一对图像和两者的真实深度图。我们假设相机内参是SUN3DScenes1161820输入rgb 预测深度真实深度输入图像对模型预测真实深度图0图4. 使用我们的最佳模型在ScanNet的图像对上估计深度的示例。地面真实深度图中的空洞被遮挡（显示为黑色）。0图5.带有（绿色）和不带（橙色）RGB信息的查询。我们展示了训练损失（左）和验证曲线（右）。验证曲线中两个选项之间相对性能排名的变化表明过度拟合了RGB信息。0图6.在查询中使用RGB的影响。在查询中使用RGB信息可能会导致由于将深度过度拟合到纹理而产生伪影。0可用，但相机位置和方向未知。我们可以随机初始化相机的相对偏移和方向，然后优化它们以最小化预测深度和真实深度之间的L1LOG距离。我们的基本假设是，当对应关系正确时，相机错误将导致错误的三角测量。因此，如果算法执行正确的3D几何计算，则当相机位置正确时，误差应该最小化。我们在补充材料中提供实现细节。0数据集方法 abs.rel. ↓ rmse ↓ δ < 1 . 25 ↑0ScanNet DPSNet [ 22 ] 0.1258 0.3145 - NAS [ 30 ] 0.10700.2807 - IIB (我们的) 0.1159 0.2807 0.90790DeMoN [ 56 ] 0.2137 2.4212 0.7332 DeepMVS [20 ] 0.2816 0.9436 0.5622 DPSNet [ 22 ] 0.14690.4489 0.7812 NAS [ 30 ] 0.1271 0.3775 0.8292IIB (我们的) 0.0985 0.2934 0.90180RGBD-SLAM0DeMoN [ 56 ] 0.1569 1.7798 0.8011 DeepMVS [20 ] 0.2938 0.8684 0.5493 DPSNet [ 22 ] 0.15080.6952 0.8041 NAS [ 30 ] 0.1314 0.6190 0.8565IIB (我们的) 0.0951 0.5498 0.90650DeMoN [ 56 ] 0.5560 2.6034 0.4963 DeepMVS [20 ] 0.2100 0.8909 0.6881 DPSNet [ 22 ] 0.05000.4661 0.9614 NAS [ 30 ] 0.0380 0.3710 0.9754IIB (我们的) 0.0556 0.5229 0.96310表3.与最先进方法的比较。我们的方法，这里称为IIB（输入级归纳偏差），在这些更专门的方法中表现出竞争力，在四个数据集中有两个表现最好，在另外两个数据集中表现接近。0我们在SUN3D验证集上进行评估。我们将第一个相机视为固定在原点，并评估第二个相机相对于它的位置。根据之前关于相机定位的工作[46]，我们评估两个指标。第一个是平移误差（以厘米为单位），即∥cest−cgt∥2，其中cest和cgt分别是估计的相机中心和地面真实相机中心。第二个是旋转误差（以度为单位），计算公式为arccos((trace(R−1gtRest)−1)/2)，其中61830输入的地面真实t=0；L1=0.094；0旋转误差=3.93；0平移误差=17.60t=5；L1=0.066；0旋转误差=5.21；0平移误差=16.30t=10；L1=0.068；0旋转误差=6.04；0平移误差=14.80t=50；L1=0.053；0旋转误差=6.53；0平移误差=6.30t=200；L1=0.042；0旋转误差=1.66；0平移误差=2.00图7.我们迭代的相机定位算法在200个优化步骤中的进展，左侧是输入图像，右侧是我们拟合的地面真实深度。在每个步骤中，我们显示优化的时间步长（t），预测深度与地面真实深度之间的L1损失，以及估计的相机与地面真实相机之间的旋转和平移误差（这些误差在优化过程中未使用）。0平均旋转误差（°）0中位数旋转误差（°）0平均平移误差（厘米）0中位数平移误差（厘米）0Identity 9.11 7.61 17.7 12.7 Rand. init 9.18 7.68 17.812.8 Optimized 6.67 4.38 2.5 1.90表4. SUN3D上的相机定位性能。数值越小越好。0Rest和Rgt分别是估计的旋转矩阵和地面真实旋转矩阵。这是将两个旋转对齐所需的最小旋转角度。0表4显示了我们的结果。我们报告了数据集中示例的平均值和中位数。我们在这两个指标上都看到了非常明显的改进，将相机定位在几厘米和几度的真实位置附近。虽然我们不指望这与SOTASLAM系统竞争（这些系统通常整合了更多图像的信息），但这些结果清楚地表明算法正在按预期使用几何信息：当相机位于正确位置时，深度误差最小。这可能为更灵活的系统提供了一个起点，这些系统不依赖于对地面真实相机的访问。0图7显示了深度图在优化相机的200个步骤中的进展。我们可以看到初始深度非常差，桌子上几乎没有定义，前景中的椅子被分成两半，就像人类的双重视觉一样。随着相机估计变得更好，这些错误逐渐解决，算法能够使用几何信息正确地将像素绑定在图像上。有趣的是，平移误差的改进速度比旋转误差更快，这表明算法可能更多地使用相机中心而不是射线角度来进行三角测量。05. 讨论0空间的三维性是我们现实世界的一个关键方面，应该作为先验知识纳入我们的视觉模型中。目前，大多数三维重建模型通过调整架构来纳入三维先验。在本文中，我们研究了一种受到Transformer模型进展启发的替代方法：我们将这些先验特征化并将其作为模型的输入。我们展示了这不会牺牲性能，事实上，我们在几个数据集上获得了与领先模型竞争的结果。我们对几何参数化空间的探索是非穷尽的，可能可以得出更简化三维推理的先验。将几何先验作为输入还打开了新的可能性：在具有预训练冻结模型和地面真实深度的情况下，可以对几何输入进行微调，例如用于相机校准或极线几何估计。输入级别的归纳偏差还可以使我们将几何纳入多模态模型中，例如同时处理声音、触觉或文本的模型。在这种情况下，适用于视觉的架构工程将不再适用，而输入级别的

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于归纳偏差的输入级3D重建模型

基于单幅图像的三维重建技术综述

卷积神经网络归纳偏差

卷积神经网络的归纳偏差

Transformer缺少CNNs的归纳偏差，比如平移不变性和局部受限感受野。

直推式模型和归纳式模型的区别

利用chatgpt地类自动归纳

transformer的自注意力机制的归纳偏差和CNN相比怎么样

在软件生存周期中，对用户需求进行综合和归纳，并抽象为概念模型，解决怎么做的过程称之为什么

需求优先级分析基于 Kano 模型

逆向归纳法求解两阶段博弈模型matlab

transformer中的多头注意力机制是基于何归纳假设？

介绍常用的阿尔兹海默症实验动物模型，包括老鼠、大鼠、猴子和体外培养模型等，分别从动物选用、模型构建、病理学特征等方面进行介绍，并对不同模型进行比较和归纳。

归纳显著性检测与目标分割的主要研究方向及主要方法

分析深度学习模型的主要缺陷

如何用gpt归纳会议纪要

matlab基于bp的光伏发电预测代码

首先我们来看真正让深度学习模型在视觉领域能与传统的手工特征打成平手的双流网络，双流网络的背后的归纳偏置

CNN和transformer的归纳偏置有什么不同

为什么将数据资源、模型资源和知识资源归纳为决策资源?

最新资源