学习求解单目立体视觉的神经非线性最小二乘优化算法

158 浏览量更新于2023-10-13 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

J学习求解单目立体视觉Ronald Clark1、Michael Bloesch1、Jan Czarnowski1、Stefan Leutenegger1和Andrew J.戴维森1戴森机器人实验室，伦敦帝国理工学院，伦敦，SW7 2AZ，英国{ronald.clark，michael.bloesch，jan.czarnowski，s.leutenegger，a.davison}@ imperial.ac.ukhttps://www.imperial.ac.uk/dyson-robotics-lab/projects/抽象。平方和目标函数在计算机视觉算法中非常流行。然而，这些目标函数并不总是容易优化。求解者所做的基本假设往往不被满足，许多问题本质上是不适定的。在本文中，我们提出了一种神经非线性最小二乘优化算法，学习有效地优化这些成本函数。所提出的求解器不需要手工制作的正则化器或先验，因为这些都是从数据中隐式学习的。我们应用我们的方法的问题，运动立体声即。从单目序列的图像对联合估计运动和场景几何。我们表明，我们学习的优化器能够有效地解决这个具有挑战性的优化问题。关键词：优化·SLAM·最小二乘法·高斯-牛顿·Levenberg- Marquadt1介绍计算机视觉中的大多数算法使用某种形式的优化来获得最能满足手头问题的某些目标函数的解决方案。优化方法本身可以被简单地看作是搜索答案的解空间的智能手段，可能利用目标函数的特定结构来引导搜索。目标函数的一个特别有趣的形式是由许多平方残差项的和组成的目标函数。E=1Σr2（x）（1）2 J其中rj是第j个残差项，E是优化目标。在大多数情况下，残差项是优化变量的非线性函数，并且具有这种类型的目标函数的问题被称为非线性最小二乘（NLLS）问题（NLSP）。NLSP可以使用二阶方法有效地求解[12]。2Clark等人然而，能否成功地找到一个好的解决方案还取决于问题本身的特点。剩余函数的集合可以被比作方程组，其解为零，rj（x）=0。如果这个系统中的变量数大于方程的数量，则系统是欠定的，如果它们相等，则系统是良定的，如果方程比变量多，则系统是超定的。适定问题需要满足三个条件：1）解必须存在; 2）必须存在唯一解; 3）解必须作为其参数的函数是连续的[19]。待定问题是不适定的，因为它们有无穷多个解，因此不存在唯一解。为了解决这个问题，传统的优化器使用手工制作的正则化器和先验来使不适定问题良定。在本文中，我们的目标是利用传统的非线性最小二乘求解器强大和发达的想法，并将这些与有前途的新的学习为基础的方法。在这样做时，我们寻求利用基于神经网络的方法的能力来学习鲁棒的数据驱动的先验，以及传统的基于优化的方法来获得高精度的精细解特别地，我们建议学习如何基于当前残差和雅可比矩阵（以及一些额外的参数）来计算更新，以使NLLS优化算法更有效并且对高噪声更鲁棒。我们将我们的优化器应用于从被称为单目立体的单目图像序列中估计帧对的姿态和深度的问题1.一、概括起来，我们的论文的贡献如下：1. 我们提出了一种端到端的可训练优化方法，该方法建立在强大的近似基于Hessian的优化方法的NLLS问题。2. 直接从数据中隐式学习最小二乘问题的先验和正则化器。3. 第一种方法使用学习的优化器来有效地最小化用于单目立体重建的光度残差。与现有的基于学习的方法相比，我们的方法旨在产生准确且光度一致的预测。本文其余部分的结构如下。首先，我们概述了使用传统和基于学习的方法进行密集重建的相关工作然后，我们访问一些pre-liminaries，如结构的传统高斯-牛顿优化器的非线性最小二乘问题。然后，我们介绍了我们提出的系统，最后进行了评估，我们的方法在结构和运动精度的一些序列从公开的数据集。2相关工作SLAM的优化在视觉SLAM中，我们面临着估计场景的几何形状和相机的运动的这通常被公式化为对帧对之间的像素深度和变换参数的优化。成本函数包括某种形式的重投影误差，学习求解欠定NLSP3可以用几何残差或光度残差来表示。几何残差需要已知点的对应关系，因此仅适用于稀疏重构。光度残差是根据强度差来制定的然而，这种光度优化是困难的，因为光度残差具有高噪声水平，并且已经提出了各种策略来应对这一点。例如，在DTAM [15]中，这是通过在执行优化之前制定成本体积并对来自多个帧的残差进行积分来实现的。即使这样，残差也需要与TV-Ll正则化项组合以确保噪声不主导重建。其他方法，例如LSD-SLAM [9]，仅在光度残差的信噪比高的高梯度像素上操作即便如此，这些系统中没有一个能够在单个关节优化中估计几何形状和运动相反，它们采用在独立地优化运动参数和然后以交替方式优化深度CodeSLAM[2] 通过使用自动编码器将场景几何结构压缩成小的可优化代码，允许几何结构和运动的联合优化，克服了这个问题。最近，人们对使用端到端学习来估计相机的运动[6，5，22]并从单目图像重建其中大多数[8，23]是基于前馈推理网络。这些网络的训练信号可以以许多方式获得。第一种方法是基于完全监督的学习信号，其中使用了标记的深度和姿态信息。随后的工作表明，可以使用学习信号以自监督的方式学习网络，例如，从逐像素重投影的光度误差[23]，从投影到公共体积中的光线的一致性[20]，或者甚至通过在GAN框架中对图像形成过程进行建模来使用对抗信号即便如此，这些方法仅以离线方式利用光度一致性，即，在训练期间，并且不试图在线优化它，这在传统的密集重建方法中是常见的在这种程度上，一些工作（如[21]）已经证明，在重建过程中包括多个视图和循环细化过程是有益的。他们的网络，包括三个阶段，是密切相关的，我们在这项工作中建立的结构第一级由产生一个自举网络组成。图1.一、概述我们的系统联合优化非线性最小二乘目标4Clark等人2JJ粗略的低分辨率预测;第二阶段包括迭代地细化引导预测的迭代网络;以及最后的细化网络，其计算细化和放大的深度图。在本文中，我们采用相同的结构，但形式化的迭代网络作为一个优化，旨在加强多视图光度一致性，引导网络作为一个初始化的优化和细化作为一个升级。从本质上讲，我们的重建是基于一个优化过程，本身是使用数据优化。这在机器学习文献中通常被称为元学习优化器。元学习和学习优化一个流行的和非常有前途的途径已经受到越来越多关注的研究是元学习优化器的研究。这些方法在执行少量学习而不过度拟合[17]，优化传统上很难训练的GANS [14]，优化一般的黑盒函数[3]，甚至解决困难的组合问题[7]方面表现出了很大的实用性。也许最重要的优点是学习数据驱动的正则化，如[16]中所示，其中作者使用部分学习的优化方法来解决不适定的逆问题。在[13]中，作者通过多步逆合成Lukas Kanade算法进行训练，用于对齐2D图像。在我们的方法中，我们利用一个学习的多步优化模型，通过使用一个递归网络来计算优化变量的更新步骤。虽然大多数尝试学习优化更新的方法，例如[3]，只使用了关于目标和一阶梯度信息的知识，但我们利用了我们问题的最小二乘结构并转发了完整的雅可比矩阵，以向网络提供更丰富的信息。据我们所知，我们的方法是3预赛3.1非线性最小二乘解算器大多数优化问题都有一个对象ive，它的形式为平方和其中，rj是第j个残差项，并且E是最优残差项。实现目标。因此，许多研究致力于寻找有效的求解器对于这种形式的问题。两种最成功和最广泛使用的方法是高斯-牛顿（GN）和Levenberg-Marquadt（LM）方法。这两种方法都是二阶迭代优化方法。然而，他们利用目标的最小二乘结构来计算更新中使用的近似Hessian，而不是计算真正的Hessian。给定变量的初始估计x0，这些方法计算对优化变量的更新，以试图在每个步骤i找到更好的解决方案xi。增量更新Δxi通过求解线性最小二乘问题来计算，该线性最小二乘问题通过在当前估计r（xi+Δxi）≈ri+ JiΔxi[12]处对残差进行线性化而形成，缩写为：.德河ri = r（xi）， Ji =.Dx.x=x.（二）我学习求解欠定NLSP5我使用线性化残差，可以找到最佳更新作为二次问题的解[12]1∆x=argmin||R+ J∆x||二、（三）我我∆xi众所周知的法向方程，这可以计算分析，通过微分的问题，等于零。GN中使用的更新步长然后通过求解以下方程给出：JTJi∆xi=−JTri（4）我我通过将其与牛顿的方法进行比较，牛顿的方法需要计算真实的HessianH（xi）来查找更新[10]，我们看到GN方法使用JTJi有效地近似H（xi），这通常计算起来更有效。LM扩展GN通过将阻尼因子λ添加到更新Δxi=−（JTJi+λdiag（JTJi））−1JTri我我我以更好地调节更新并使优化更鲁棒[10]。在我们提出的方法中，我们通过不将更新限制为Ji的静态函数来建立GN方法。与自适应地设置单个参数λ的LM相比，我们通过使用具有作为其输入的完整雅可比矩阵Ji的神经网络来计算整个更新步骤。详情见第4.2节。3.2翘曲和光度成本函数我们用于最小二乘成本函数的扭曲函数类似于[23]中usupervised训练中使用的损失扭曲是基于一个空间Transformer，它首先将目标视图中的点的坐标变换为源视图中的点然后对源视图进行采样。4x4变换矩阵Tt→s由下式获得：将指数映射应用于网络的输出，即，其中p（粗体）是表示为六向量的相对姿态，并且ps（非粗体）是源图像中的像素位置，并且pt（非粗体）是源图像中的像素位置。目标图像（与论文中的注释一致）psKTt→sDt（ pt）K−1 pt（5）使用这些包络坐标，通过在等式11中计算的位置p，s处对源视图进行双线性采样来获得合成图像Iys（p）。五、我们从中导出J的最小二乘损失函数是，L=Σ||It（p）−Is（p）||第二条第六款p其中I t和I s是源和目标强度图像，对应于每个像素el的残差为rp=It（p）−Is （ p）。对于每个残差，可以使用autodiff （在 Tensorflow 中简单地tf.gradients（res[i]，x））轻松计算扭曲函数J的Jcaobian的元素然而，为了加快我们的实现，我们在计算中分析计算雅可比矩阵的元素graph.我我26Clark等人D4模型该模型是建立在一个短序列的输入图像的深度和运动预测的光度一致性的优化每个图像序列都有一个在所有情况下，我们对逆深度进行操作，z = 1，以便更好地处理大深度值。我们的模型还寻求优化序列中的每个源帧s与目标关键帧t之间的相对变换，pt→s。完整的模型包括三个阶段。所有迭代优化过程都需要初始起始点，因此初始化阶段用于预测良好的初始估计的目的优化阶段由受益于显式计算的残差和雅可比行列式的学习优化器组成为了使优化在计算上易于处理，优化网络对输入的下采样版本进行操作，并利用问题的稀疏性。网络的最后阶段将预测上采样到原始分辨率。网络（包括优化器的网络）使用监督损失来训练我们现在详细描述这三个网络组件中的每一个算法1神经自适应非线性最小二乘法要求：残差函数r（x），图像序列I1，I2，. . .x0← f θ0（I 1，I 2，. . . ）对于i= 0，1，. . . N − 1 dofθ（ Φ（Ji，ri），hi）如果||∆xi||

下载后可阅读完整内容，剩余1页未读，立即下载