图形处理器中的光束平差与高斯贝利夫传播的快速实现

127 浏览量更新于2023-10-25 收藏 1.29MB PDF 举报

光束平差

图形处理器

身份认证购VIP最低享 7 折!

30元优惠券

1图处理机上的光束平差作者：Joseph Ortiz1，Mark Pupilli2，Stefan Leutenegger1，Andrew J.戴维森11英国伦敦帝国理工学院计算机系。2Graphcore。j.ortiz@ imperial.ac.uk摘要图形处理器（如 Graphcore 的智能处理单元（IPU））是人工智能新型计算机架构的主要新浪潮的一部分，具有大规模并行计算、分布式片上存储器和非常高的核间通信带宽的通用设计，这使得任意图形上的消息传递算法具有突破性的我们第一次表明，经典的计算机视觉问题的光束法平差（BA）可以非常快速地解决图形处理器使用高斯贝利夫传播。我们简单但完全并行的实现使用单个IPU芯片上的1216个内核，例如，在40 ms内解决125个关键帧和1919个点的真正BA问题，而Ceres CPU库的时间为1450 ms。进一步的代码优化肯定会增加静态问题上的这种差异，但我们认为，图处理的真正希望是对代表空间AI问题的一般、动态变化的因子图进行灵活的就地优化我们给出的indications，这与实验表明GBP的能力，有效地解决增量SLAM问题，并处理强大的成本函数和不同类型的因素。1. 介绍需要来自计算机视觉的一般实时“空间AI”能力的现实世界应用一个越来越重要的方向是设计专门用于视觉和AI工作负载的处理器和传感器硬件，以取代目前流行的通用CPU，GPU和基于帧的视频摄像机[8，24]。人工智能和视觉算法设计的空间继续快速变化，我们认为现在不是做出非常具体的决定的正确时机，例如图1：我们将捆绑调整因子图映射到Graphcore IPU的瓦片（核心）上，并表明高斯置信传播可用于大型问题的快速，分布式，就地推理。在这里，我们展示了最简单的映射，其中因子图中的每个节点关键帧节点为蓝色，界标节点为绿色，测量因子节点为橙色。对硬件进行分类，除非是非常特殊的用例。然而，新的架构正在出现，它们对AI工作负载的处理做出了相当普遍的设计选择。高效和低功耗的计算必须是大规模并行的，并最大限度地减少数据传输。为此，存储和处理应该是分布式的，并且尽可能多的计算应该“就地”进行。一个关键的例子是Graphcore它像GPU一样是大规模并行的，但它的瓦片具有完全不同的互连结构。议会联盟中断了-24162417通过对具有稀疏图消息传递特性的算法的性能分析。IPU的关键早期商业用例是作为一种灵活的深度学习加速器[19]，主要在云中，但我们相信它在空间AI计算方面具有更广泛的潜力。本文研究了三维视觉处理的核心要素--光束法平差（BA），它是许多几何估计问题的代表，并证明了高斯置信传播（GBP）可以在单个IPU芯片上实现BA问题的快速GBP是一般循环信念传播的一种特殊情况，这是概率估计中的一种众所周知的技术，但它以前只在几何视觉和机器人问题中最少使用[9]。它是一种可以在CPU上运行的算法，但与全局考虑问题结构的替代优化技术相比，它不一定具有然而，GBP可以被映射到一个图形处理器，由于它的完全分布式的性质，以充分利用大规模的partial，IPU的能力。我们提出了BA在图形处理器上的第一个实现，具有针对各种不同序列的突破性优化速度，其中我们记录了CPU上Ceres库的平均速度优势24倍。我们的实现是简单和初步的，实现了只有1000行的PoplarTM C++代码，肯定有很大的空间，为未来的性能优化。我们的GBP方法的积极特点包括：极快的局部收敛、使用鲁棒的成本函数来拒绝异常测量的能力、以及容易处理变量和数据的动态添加以及快速重新优化解决方案的能力。我们在结果中强调了这些方面，并如[9]中所述，认为图形处理和GBP在空间AI的一般增量因子图优化中具有巨大的潜力。将来自附加先验和传感器的因素（诸如由于识别引起的场景区域的平滑度）并入该框架中将是直接且有效的，并且继续优化全局估计，其中所有计算和存储在图形处理器上就地完成。2. 相关工作因子图通常用于几何视觉，以表示估计问题中的约束结构[6，11，12，18，20，22]。特别是，对于光束法调整，[31]研究人员利用这些约束的全局结构来设计有效的推理算法[4，15]。一些作品已经采取了将循环因子图转换为树的方法[17，25]。iSAM 2 [17]使用变量消除将循环因子图转换为贝叶斯树，而[25]使用一种类似连接树的方法，该方法采用最大似然投影来去除边缘。这类方法不同于我们的方法因为它需要周期性的集中计算来将循环约束图转换成树。与我们的工作更密切相关的是，[7]和[27]使用LoopyBelief Propagation进行几何估计问题，尽管是CPU实现。[7]使用离散BP为BA中的Levenberg-Marquardt细化提供初始化，而Loopy SAM [27]使用GBP解决相对较小的2D场景的SLAM类问题。在计算机体系结构领域，最近已经有大量的努力来设计用于视觉算法的特定硬件[29，34]。这在工业领域尤为明显，我们已经看到 HoloLens 的 HPU 和Movidius VPU系列等芯片的发展其他相关研究已经利用现有硬件上的并行性来加速BA。多核BA [33]提出了一种不精确但可并行的CPU或GPU实现，而[14]主张混合GPU和CPU实现。更一般地说，[10]通过自动生成GPU求解器来加速图形中的非线性最小二乘问题。3. 预赛3.1. 因子图因子图在几何视觉中作为估计问题的结构的表示是众所周知的。一因子图G=（V，F，E）是由一组可变节点V={vi}i=1：Nv，一组因子节点F={fs}s=1：Nf 以及一组边E。每个因子节点fs表示由任意函数fs（Vs）描述的变量Vs∈ V的子集之间的概率约束。通过将因子节点与它们所依赖的变量节点。从概率上讲，这些因素是构成联合分布的独立项：YNp（V）=fs（V s）.（一）s=13.2. 置信传播置信传播（BP）[26]是一种众所周知的分布式推理算法，用于根据一组变量的联合分布计算其边际分布。单个变量vi的边际是所有其他变量的联合分布的积分：∫p（vi）= p（V）dv1. dvi−1dvi+1. vvn.（二）BP通过因子图传递消息来工作，并且是高效的，因为它利用了拓扑结构2418的图形编码的联合分布的因式分解。边际使用迭代本地消息传递计算，该消息传递在因子节点向变量节点发送消息和变量节点向因子节点发送消息之间交替见[5]或[9]的消息传递规则的推导。通过设计，置信传播在从根节点到叶节点的一次消息扫描中推断树图的边缘，然后返回。对于循环图，相同的BP消息传递可以应用于消息传递调度，并且在多次迭代之后，估计收敛到边缘。循环BP没有收敛保证，但它通常是稳定的[23]。当分布表示为高斯分布时，循环高斯置信传播收敛到所有图拓扑的正确边缘后验均值[32]。理解为什么置信传播是有效的关键是考虑计算变量的边际分布的最低效率的方法。简单的方法是取所有因子的乘积来给出联合分布，然后对所有其他变量进行边缘化。这种同时边际化所有其他变量的做法代价高昂;例如，在离散的情况下，如果每个变量图2：因子图说明。测量因子连接关键帧和它们观察到的标志。关键帧和地标实例化与自动生成的弱先验因子。消息从所有因子发送到相邻的关键帧和界标节点，并从关键帧和界标节点发送到相邻的测量因子节点。able取k个离散值，然后对所有值进行边缘化，一个变量需要对kNv-1项求和。信仰propa-相反，Gation使用编码在图形拓扑中的条件依赖性信息对变量的最小独立子集进行边缘化。回到离散变量的例子，如果我们想计算只包含成对因子的树图的边际分布，则置信传播只需要对2N f k2项求和。4. Bundle调整因子图束平差是联合细化变量集合V=XL的问题，其中X={xi}i=1：Nk是k个帧姿态的集合，并且L={lj}j=1：Nl是地标位置的集合，受到一组约束它定义了我们想要最小化的误差。具体而言，我们包括两种类型的误差项：重复错误和先前错误。重投影误差将界标投影到观察它们的关键帧的图像平面中的距离与对应于这些观测结果的测量值集合进行归一化服务Z={zkm}。先验误差项试图最大化当前变量val的概率从相应的先验分布中提取UE{N （xi;xp，xp，xi），N（lj;lp，lj）}i=1：N，j=1：N。的100弱于目标中的重投影误差项。我们制定了这使用雅可比矩阵和测量模型定义的测量约束的强度。一个小BA问题的示例因子图如图2所示。在光束法平差中，我们希望执行最大后验（MAP）推断，该推断计算使联合概率最大化的变量{X，L}的配置p（X，L|Z）：{X，L}=arg maxp（X，L|（3）{X，L}=arg maxp（Z|X，L）p（X，L）.（四）{X，L}在第二行中，我们使用贝叶斯定理并删除分母p（Z），因为测量是定量的，并且不影响MAP解决方案。这导致将我们想要最大化的概率分布（我们将其称为pobj（X，L））因式分解为给定变量p（Z）的测量的似然性的乘积|X，L）和变量p（X，L）的先验。如xi和在我们的公式中，xj是独立的，li和lj是独立的，dent和xi和lj仅在给定a的情况下是条件依赖的i jkl需要优先项来设置monocular问题的总体标度，并调节来自measure的消息，测量zij，这些项可以进一步因式分解：否则只会限制2的保证因素pobj（X，L）=YNkφi（xi）YNlθj（lj）YNkYkm（xk，lm），自由度。给定一个初始化点，自动生成OR，使其成为因子i=1j=1k=1m，lm∈Lk（五）2419ΣM--ΣMv1998年你好其中Lk是由关键帧xk观察到的地标的集合。2×9雅可比矩阵J=xk，.xk=xk，0，lm=lm，0.因子集{φi，θj，φkm}i=1：Nk，j=1：Nl，km∈O可以分别被解释为对关键帧姿态的先验约束、对界标位置的先验约束和测量重投影约束。先验约束在变量既然我们所有的约束都是高斯形式的，那么找到MAP解就相当于最小化负对数似然，负对数似然是残差平方和ΣΣNk{xi}i=1：Nk且{lj}j=1：Nl：{X，L}= arg min{X，L}i=1xi−xp，i<$2+φi（xi）为p（xi|xpi，xp，xi）（6）1ΣNl lj−lp，j<$2+（16）exp（−2阿斯克斯岛-xp，i21998年，），（7）ΣNkΣj=1利夫尼普Σθj（lj）为p（l j| l pj，ljp，lj）（8）zkm-h（xk，lm）∝exp（1升2J— lp，j2利夫尼普）的情况。（九）k=1m，lm∈Lk假设高斯测量模型，5. Bundle Ad的高斯置信传播h（ xk， lm）+η，其中η公里<$N（0，<$M）我们可以写出调整测量因素的形式：m =p（xk，l m）|zkm）p（zkm|xk，lm）（10）GBP是一种贝叶斯算法，可用于通过计算所有变量的边际距离来解决光束法平差问题相比之下，经典的光束法平差，exp（1z2公里 — h（xk，lm2）。（十一）ods使用Levenberg-Marquardt算法计算MAP解的点估计。测量因子λkm在zkm中是高斯的，但高斯的变量xk和lm只有当测量函数h（xk，lm）是线性的。在我们的例子中，我们有一个非线性测量函数，h（xk，lm）=π（Rklm+tk），其中π是投影算子，Rk和tk是从xk导出的旋转和平移。因此，我们必须在优化过程中通过重新线性化来更新测量因子由于捆绑调整因子图是循环的，GBP在每个变量节点处存储置信分布，该置信分布在消息传递的足够迭代之后收敛到边缘分布 To describe the message passingequa- tions, we do not distinguish between keyframe andland- mark variable nodes and denote a variable nodefrom the将V=XL设为vi，并且存储在该节点处的置信度为迭代t，bt（vi）=N−1（vi;ηt，Λt）.I BIB I在关于某个固定点（xk，0，lm，0）线性化之后，测量因子可以表示为高斯分布。先验因子发送相同的信息，pri（vi）=N−1（vi; ηp，Λp），到它们连接到的变量节点，我我使用信息表单的配置，该表单由以下参数化：信息向量η和信息矩阵Λ：所有迭代。描述来自测量首先，我们必须划分因子分布的参数：N−1（x; η，Λ）<$exp（−1 x<$Λx+ η<$x）.（十二）2使用信息表是因为它可以代表分布-.ΣvΣΣ吉吉岛Jǁǁ）η2420Mv我.ΣvΣ Σ=N−1i;JijΣij ，jΣ 阿吉II阿吉纪Σ阿吉IJ阿吉JJ具有秩亏协方差的情况，其中变量沿特定方向完全不受约束。有了这个，经过少量的工作[9]，我们发现线性化的测量因子采用以下形式：（十七）消息传递规则[5]规定成对因子ij通过在对v j进行边缘化之前取其因子分布与来自变量节点vj的消息的乘积来计算到变量节点v i的消息。在此n（x，l.x）=N−1k;ηΣ，Λ，（13）计算时，从测量因子ij到vi的消息在迭代t+1时，µt+1（vi）=N−1（vi;ηt+1，Λt+1），有kmkMlmkmkm形式：j→ij→ij→i其中，ηt+1=ηij−Λij（Λij+Λt−Λt）−1（ηij+ηt−ηt），（十八）.xj→iΣiijj j bji→jjbji→jη=J−1Jk，0+z-h（x，l），（14）Λt+1=Λij−Λij（Λij+Λt-Λt）−1Λij.（十九）kmMlm，0kmk，0m，0j→iiiijj j bji→jjiΛkm=J−1J，（15）变量节点通过取以下项的乘积来更新其信念：来自其先前因素的传入消息和所有相邻的ηΣ.2421biij→i=p我测量因素。信念信息向量和信息矩阵更新如下：7. 议会联盟执行情况IPU芯片是大规模并行的，包含1216 in-ηt+1= ηp+Σj，<$ij∈n（vi）Σηt，（20）独立的计算核心称为瓦片。每个模块都有256KB的本地内存和6个硬件线程，可以执行独立的程序。相比之下，GPU具有非常有限的-Λt+1Λb我I+j，<$ij∈n（vi）Λtj→i 、（二十一）在片上的有限缓存，所有数据必须从片外获取DRAM，并且在每个线程上执行不同程序议会联盟其中函数n（. ）返回相邻节点。是的-liefs作为消息从变量节点发送到fac，可以在因子节点处使用先前的因子到变量消息来恢复作为真实消息的因子节点我们使用一个同步调度，其中，在每一个迭代，所有的因素节点relinearise和发送消息到ad-journal变量节点之前，所有的变量节点更新他们的信念，并发回消息到相邻的因素节点。在我们的框架中，重新线性化以完全局部的方式进行，并且当当前置信估计与因子连接到的变量的线性化点之间的距离大于阈值β时，测量因子被重新线性化。在消息传递和再链接的足够迭代之后，置信分布收敛到边缘分布：b t（vi）→p（vi）.（二十二）最后一个需要注意的细节是，我们使用消息阻尼，这通常用于稳定Loopy GBP的收敛[21]。我们阻尼等式18中的更新，使得芯片SRAM意味着存储器访问每字节消耗因此，IPU的嵌入式变体将比现有处理器具有显著的功率优势[1]。为了在IPU上实现GBP，我们必须将因子图中的每个节点映射到IPU上的一个图块上。瓦片以芯片上所有瓦片对之间的类似延迟全部连接[16]，这意味着节点可以映射到任意瓦片。最简单的映射在每个图块上只放置一个因子或变量节点，如图1所示，但将因子图的大小限制为1216个节点。注意到变量和因子节点在计算中交替，并且每个瓦片有6个线程，在所有实验中，我们能够通过在每个瓦片上放置多个节点来将更大的图形映射到单个芯片上，而不会影响速度。为了利用这种并行性，IPU采用批量同步并行执行模型。在这个模型中，所有的瓦片使用它们的本地存储器并行计算。当每个瓦片完成计算时，它进入等待状态。ηt+1替换为（1−d）ηt+1+dηt，其中d是a阶段（空闲）。当所有的瓷砖都完成了，有一个短的j→i阻尼系数6.稳健因素j→ij→i在预定的调度（交换）中，在具有极高带宽的瓦片之间复制数据之前，所有瓦片上的同步阶段（sync）。这一过程重新--众所周知，来自真实传感器的测量值通常具有总离群值的分布，其更好地由具有较重尾部的函数表示，而不是纯高斯测量模型。我们可以直接使用这样一个强大的成本函数在我们的衡量因素在GBP。我们采用Huber函数，当马氏距离Mkm（xk，lm）=zkm−h（xk，lm）超过阈值Nσ。为了保持因子的高斯形式，线性损失状态，遵循[9，2]，我们重新调整高斯测量模型中噪声的协方差，使得对目标的贡献等于该值处的Huber损失。这具有降低权重或减少从该测量因子传出的消息的信息的效果。在线性化之前，测量因子λkm采用以下形式[9]：当所有的瓦片重新进入计算阶段时，期间同步之间的时间间隔不是固定的，而是由计算所花费的时间确定GBP在一次迭代中有三个计算阶段和两个交换如图3的上部所示，因子节点首先重新线性化，然后计算它们的消息，这些消息在变量节点更新它们的信念之前被发送到相邻的变量节点，这些信念被发送回相邻的因子节点。图3的下半部分显示，GBP单次迭代的总时间小于125µs，而因子重新线性化和消息计算占总计算时间的大部分。8. GBP实施在实验中，我们设置重新线性化阈值β=0的情况。01，并允许因子最多每10次迭代重新线性化。阻尼设置为d= 0。4和来自.exp（−1M2），M≤N在重新线性化之后，因子被解阻尼8次迭代km（xl，lm）2公里1 222NNkm σ.2422M公里这种阻尼时间表允许新的重新线性化的消息exp（−M[σ−σ]），Mkm≥Nσ2公里M2公里（二十三）在图中传播的同时，2423重新线性化消息计算交换机1信任更新交换机2图3：议会联盟各阶段。上图：一个示意图显示了在GBP的单次迭代中对16个瓦片的计算。瓷砖是彩色的，当他们在一个计算阶段。在交换1中，因子节点向变量节点发送消息，而在交换2中，变量节点向因子节点发送消息。关键帧和地标变量节点分别为蓝色和绿色，因子节点为橙色。下图显示了在GBP的单次迭代过程中每个图块的活动，因子图具有1216个1对1映射到图块上的节点。在重新线性化阶段，所有929个因子计算相邻信念与其线性化点的距离，这些因子的子集随后重新线性化。Belief Update是用Graphcore的Poplibs TM库实现的迭代由于IPU处理的是一半和浮点数，而不是双倍，我们发现，为了数值稳定性，有必要使用雅可比矩阵自动设置先验约束，使其最初具有与测量约束相同的尺度。然后，这些先验在10次迭代中逐渐减弱到强度的百分之一。GBP对先验的均值不敏感，并且在不需要更强先验的情况下，在具有double- bles的CPU上实现时，在收敛上显示相同的9. 实验评价为了进行评估，我们使用来自TUM [30]和KITTI [13]数据集的序列部分。我们使用ORBSLAM[22]作为选择关键帧的前端，生成ORB特征[28]并处理对应关系。在所有TUM实验中，地标在距离观察它们的第一个关键帧1米的深度处初始化，而在KITTI实验中，我们用标准偏差为0.5米的高斯噪声初始化地标我们将GBP的实现与Ceres [3]进行了比较，Ceres是一种经常用于光束平差的非线性最小二乘优化库。在所有的比较中，Ceres运行在一个6核i7- 8700 K CPU上，有18个线程（我们发现这是为了最大限度地提高性能），并使用Levenberg-Marquardt与稠密Schur和稠密Cholesky的约化系统，Huber核和解析导数。9.1. 束调整速度评估首先，我们提出的结果表明，我们的实施GBP可以快速解决大光束法平差问题。我们通过跟踪图中所有测量的平均重投影误差（ARE）来评估优化速度。表1显示了收敛到ARE <1的时间。5像素的10个序列与不同的相机运动和合作，观察地标，其中关键帧位置用标准偏差为7cm的高斯噪声初始化。图4左侧绘制了3个序列的相应ARE曲线。在10个序列中，GBP的收敛速度平均比Ceres快24倍。通常GBP需要50-300次迭代才能收敛，而Ceres需要10-40步，然而，由于IPU上的快速就地计算，GBP的速度要快得多，IPU的工作功率为120 W。9.2. SLAM速度评估在GBP中，信念估计的置信度随着迭代而增长，因为信念趋向于边际分布。这种贝叶斯属性是一种固有的优势86岁。2µs三十三岁。9µs8.6µs12160时间瓷2424光束法平差满贯图4：速度比较。注意y轴上的对数刻度。左：束调整。ARE用于3个序列fr1desk、fr2desk和fr3teddy。fr1desk更困难，因为它具有最多的测量值，并且相机移动了很大的距离。FR3teddy具有125个关键帧，但是由于在对象重建中密集地观察到较少的界标，因此更容易求解。对于收敛时间在表1中描述的其他TUM序列观察到类似的结果。右：SLAM。在添加新关键帧并使用最近关键帧的姿势初始化后，收敛到ARE 1.5像素的时间<结果是针对序列fr1desk、fr2desk、fr3teddy的前30个关键帧。Table 1: The final two columns give the time in millisec-onds to converge to ARE < 1. 来自TUM数据集的10个序列（两个测试序列，4个手持相机序列，2个机器人安装序列，2个对象重建序列）和来自KITTI数据集的2个序列的5个k是关键帧的数量，p是界标，m是测量。1.00.80.60.40.20.0CeresGBP0.00 0.05 0.10 0.15 0.20摄像机噪声标准差（m）图5：收敛盆地比较。使用fr1desk和fr3teddyTUM 30关键帧序列，针对不同噪声水平进行100次试验后成功收敛的比例。成功的融合是达到ARE<1。5像素。在SLAM设置中进行点估计的批处理方法对于GBP，新的变量被快速捕捉到与给定新约束的当前估计一致的状态，而对于批处理方法，必须重新计算完整的解以细化几个变量。我们通过比较收敛到ARE所需的时间<1.一、对于具有30个关键帧的3个TUM序列，每个新关键帧后添加5个像素。新的关键帧在最近的关键帧位置初始化，新的地标在1米的深度为了帮助谷神星，贝叶斯方法，我们固定Levenberg-Marquardt优化的前3步的地标结果显示在图4中的右图中，平均而言，在添加的90个关键帧中，GBP的收敛速度比Ceres快 36倍，在不到10次迭代中达到10倍。9.3. 耐用性评价我们比较了GBP和谷神星在解决BA问题的鲁棒性，通过改变添加到关键帧初始化的噪声，并计算在每个噪声水平下超过100次试验的成功收敛的比例图5显示，GBP对于这两个TUM序列具有与Ceres相当的收敛半径成功趋同序列KpMGBPCeresfr1xyz4221941290837.21180fr1rpy3419998920130.31030fr1desk6329131351477.32850fr1房间201467538831.7779fr2desk40892399520.8425fr3loh361140506544.6470fr2robot36040333174551.5212fr2robot22056740368.6345fr1plant401824681831.81450fr3teddy1251919903240.01450KITTI003027451630414.2342KITTI083030531048014.83942425收敛重投影误差（像素）迭代1迭代200.6150.4100.250.00 100 200 300 40000.000.020.040.060.08 0.10迭代（一）不良数据关联比例（b）第（1）款迭代50迭代200图6：Huber损失的GBP。地标投影（蓝色点）和测量值（圆圈）通过以下方式连接：图7：fr1desk的20个关键帧序列的结果，其中人为添加了不良数据关联。（a）如果测量值处于线性损失状态，则将其归类为异常值。在所有迭代中，召回率为1。ARE算法经过268次迭代后收敛到1.5个像素，而精度仍在不断提高.<（b）h表示使用Huber损失。对于GBP，如果Huber损失大于3%，则不会达到收敛，而Huber损失GBP可以降低离群值的权重并解决捆绑调整问题。对于Ceres，Huber损失改进了最终的ARE，但它仍然不能收敛解。线当重新投影时，误差超过Huber阈值，与红线的长度成正比。9.4. Huber损失评估Huber损失函数具有降低来自可能包含离群测量的因素的消息的权重的效果。We demonstrate this effectin Figure 6 in which we visualise the reprojection errors atiterations 1, 20, 50 and 200 of GBP in a chosen keyframefor which 10% of measurements are artificially addedoutliers.所有测量值均从离群值区域开始，在20次迭代后，大部分测量值仍处于该区域，因为GBP尚未确定哪些测量值为内值。通过迭代200，只有错误的测量值处于异常值状态，因为GBP已经确定这些测量值与图中的其他约束最不一致。在图7a中可以观察到这种逐渐去除假阳性离群值分类的行为，其中3%的数据关联是不正确的。为了定量验证GBP和Ceres的Huber损失的益处，我们对具有不正确数据关联的序列进行了消融研究，并测量了收敛的重投影误差。图7b表明，对于GBP，Huber损失在处理不正确的数据关联方面是必要的和有效的。然而，对于Ceres来说，同样的Huber损失无法识别异常值，Ceres无法获得低ARE解决方案。这表明GBP分类精度英镑h谷神星hGBPCeres242610. 讨论/结论我们已经证明，随着新的灵活的人工智能计算机架构的出现，特别是像Graphcore的IPU这样的图形处理器，高斯置信传播可以成为空间人工智能问题中推理的灵活而有效的通过将光束法平差因子图映射到单个IPU的瓦片上，我们证明了GBP可以快速解决各种光束法平差问题，速度比Ceres快24倍。此外，我们给出了一个指示的框架的能力，有效地解决增量SLAM的在短期内，我们希望将GBP应用于非常大的光束法平差问题。我们的框架可以任意扩展到多个芯片，Graphcore提供了一个定制的互连，用于高效的IPU间消息传递。一个更有趣的方向是低功耗嵌入式空间AI，它将研究如何通过使用网络先验和边缘化的组合合并或替换因子来在单个芯片上解决大型问题我们希望我们的框架灵活，在一个动态变化的因素图上的优化将被应用到一个广泛的人工智能任务，包括异构因素。确认我们感谢Tristan Laidlow、Jan Czarnowski和Edgar Sucar进行了富有成效的讨论。2427引用[1] Graphcore网址htt ps：www.graphcore.ai/. 一、五[2] P. Agarwal，G. D.蒂帕尔迪湖斯皮内洛角Stachniss和W.Burgard使用动态协方差缩放的鲁棒地图优化。IEEEInternational Conference on Robotics and Automation（ICRA），2012年。5[3] S. Agarwal，Mierle K.，等人谷神星解算器网址：//ceres-solver.org网站。6[4] S. Agarwal，N.斯内夫利岛西蒙，S。M. Seitz和R.塞利斯基罗马在一天之内建成在2009年国际计算机视觉会议（ICCV）上发表2[5] C. M.主教模式识别与机器学习。Springer-Verlag New York，Inc.2006年三、四[6] M. Bloesch ， J. 恰尔诺夫斯基河克拉克， S 。Leutenegger，以及A. J·戴维森CodeSLAM -学习用于密集视觉SLAM的紧凑的、可优化的表示。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。2[7] D. Crandall，A. Owens，N. Snavely和D. Huttenlocher基于运动的大型结构离散-连续优化。IEEE计算机视觉与模式识别会议（CVPR），2011年。2[8] A. J·戴维森FutureMapping：空间人工智能系统的计算结构。arXiv预印本arXiv：arXiv：1803.11288，2018. 1[9] A.戴维森和J.奥尔蒂斯 FutureMapping 2：空间人工智能的高斯信念传播 . arXiv 预印本 arXiv ： arXiv ：1910.14139，2019. 二三四五[10] Z.De V ito ， M. Mara ， M.Zoll hofer， G. Bernstein 和J.Ragan-Kelley 。 Christian Eobalt ， Pat Hanrahan ， MaHew Fisher和Ma Hias Nießner。2016. opt：一种用于图形和成像中的非线性最小二乘优化的领域特定语言。ACMTransactions on Graphics（TOG），2017年。2[11] J. Engel，V. Koltun和D.克莱姆斯直接稀疏odom-矩阵。IEEE Transactions on Pattern Analysis and MachineIntelligence（PAMI），2017年。2[12] J. Folkesson和H.克里斯滕森图形SLAM-一个自我校正的地图 .IEEE International Conference on Robotics andAutomation（ICRA），2004年。2[13] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？KITTI视觉基准测试套件。IEEE计算机视觉与模式识别会议（CVPR），2012年。6[14] S.古普塔河题名其余部分：P.J. GPU上3D重建的实用时间束平差。 ECCV Workshop on Computer Vision onGPU，2010年。2[15] Y. 郑，D.Nister，D.斯蒂利河Szeliski和I.S.奎恩推进光束法平差的现代方法。IEEE计算机视觉与模式识别会议（CVPR），2010年。2[16] Z.贾湾，加-地Tillman，M. Maggioni和D. P. 通过微基准测试分析 Graphcore IPU 架构 arXiv 预印本 arXiv ：1912.03413，2019。5[17]M. Kaess，H.约翰松河Roberts，V.Ila，J.伦纳德和F.德拉特 iSAM 2：增量平滑和映射使用贝叶斯树International Journal of Robotics Research（IJRR），2012.出现。2[18] M. Kaess，A. Ranganathan和F.德拉特iSAM：增量平滑和映射。IEEE Transactions on Robotics（T-RO），24（6）：1365-1378，2008。2[19] D. 蕾西新 Graphcore IPU基准。网址https://www.graphcore.ai/posts/new-graphcore-ipu-基准测试，2019年。2[20] F. Lu和E.米利奥斯环境映射的全局一致范围扫描对齐。Autonomous Robots，4（4）：333-349，1997. 2[21] D. M. Malioutov，J. K. Johnson和A. S.威尔斯基高斯图模型中的行走和和置信传播。 Journal of MachineLearning Research，7（Oct）：2031-2064，2006. 5[22] R. Mu r-Artal，J. M. MMontiel和J. D. 塔尔多。ORB-SLAM：一种多功能、高精度的单目SLAM系统.IEEETransactions on Robotics （T-RO），31 （5）： 1147-1163，2015。二、六[23] K. P. Murphy，Y.Weiss和M.I. 约旦. 近似推理的循环信念传播：实证研究。在1999年第十五届人工智能不确定性会议的会议记录中。3[24] L.纳尔迪湾Bodin，M. Z. Zia，J. Mawer，A. Nisbet，P.H. J.凯利，A. J. Davison，M. Lujan，M. F.P. OBoyle，G. Ri-ley，N. Topham和S.费伯介绍SLAMBench，一种用于 SLAM 的性能和准确性基准测试方法 IEEEInternational Conference on Robotics and Automation（ICRA），2015年。1[25] M. A.帕斯金用于同时定位和映射的薄结树滤波器。国际人工智能联合会议（IJCAI），2003年。2[26] J·珀尔智能系统中的概率推理：合理推理的网络。摩根·考夫曼1988年。2[27] A. Ranganathan，M. Kaess和F.德拉特愚蠢的萨姆。在2007年的国际商业情报联合会议（IJCAI）。2[28] E. Rublee ， V.Rabaud ， K.Konolige 和 G. 布拉德斯基ORB：SIFT或SURF的有效替代方案。在国际计算机视觉会议（ICCV）的会议记录中，第2564-2571页IEEE，2011年。6[29] S. Saeedi湾Bodin，H. Wagstaff，A.尼斯贝特湖Nardi，J.Mawer，N.Melot，O.Palomar，E.Vespa、T.Spink，et al.为机器人技术、虚拟现实和增强现实的实时定位和地图绘制导航Proceedings of the IEEE，2018. 2[30] J. Sturm，N. Engelhard，F. Endres，W. Burgard和D.克雷默斯。RGB-D SLAM系统的评估基准。在IEEE/RSJ智能机器人和系统会议（IROS）的会议记录中，2012年。6[31] B.作者：R. Hartley和A.菲茨吉本捆绑调整-现代综合。视觉算法国际研讨会论文集，与ICCV联合，1999年。2[32] Y. Weiss和W. T弗里曼。任意拓扑高斯图模型中信念传播的正确性神经信息处理系统（NIPS），2000年。32428[33] C. Wu，S. Agarwal，B. Curless和S. M.塞茨多核束调整。IEEE计算机视觉与模式识别会议（CVPR），2011年。2[34] Z. Zhang，中国古柏A. A.苏莱曼湖Carlone、V. Sze和S.卡拉曼。芯片上的视觉惯性里程计：一种算法和硬件协同设计方法。在Proceedings of Robotics：科学与系统（RSS），2017。2

下载后可阅读完整内容，剩余1页未读，立即下载