没有合适的资源?快使用搜索试试~ 我知道了~
多视点配准的自监督对应估计方法
1216基于多视点配准的自监督对应估计Mohamed El Banani酒店,埃及mbanani@umich.eduRocco2irocco@meta.com大卫·诺沃特尼2dnovotny@meta.comAndrea Vedaldi2vedaldi@meta.com纳塔利娅Neverova2nneverova@meta.com贾斯汀·约翰逊1,2justincj@umich.edu本·格雷厄姆2benjamingraham@meta.com1密歇根大学2Meta AI摘要视频为我们提供了视觉学习所需的时空一致性。最近的方法已经利用该信号来从邻近的帧对学习对应性估计。然而,通过仅依赖于接近的帧对,这些方法错过了远距离重叠帧之间为了解决这个问题,我们提出了一种自监督的方法,从短RGB-D视频序列中的多视图一致性中学习的correspondence估计。我们的方法结合成对的对应估计和注册一个新的SE(3)变换同步算法。我们的关键见解是,自我监督的多视图注册允许我们在更长的时间框架内获得对应关系,增加了样本对的多样性和难度我们在室内场景中评估了我们的方法,用于correspondence估计和RGB-D点云配准,发现我们的表现与监督方法相当。1. 介绍考虑图中的沙发。1.一、虽然开始帧和结束帧描绘了空间中的重叠区域,但是大的视点变化使得它们看起来明显不同。在视图之间建立对应关系的能力是场景理解和视觉任务(诸如SLAM和从运动恢复结构)的核心。学习对应性估计的常用方法依赖于对应性监督;即,告诉模型哪些像素属于空间中的同一点。然而,我们通常通过移动和观察外观如何在没有这种明确监督的情况下变化来了解世界。我们可以直接从视频中学习对应性估计吗?现代对应性估计方法严重依赖于监督。这通常是由AP获得的*在Meta AI实习期间完成的工作。图1.多视图RGB-D配准允许我们从宽基线视图对中学习,这些视图对表现出比相邻帧更多的外观变化。在大型图像集合[41,61,66]上应用经典的3D重建算法或在室内仔细捕获扫描[11,15,16],然后对重叠视图对进行采样以进行训练。这已经取得了广泛的成功,因为它提供了对应的监督与大的观点和照明变化。虽然目前的方法受益于监督,但它们仅限于从已经可以使用标准算法构建的仔细捕获的视频中学习最近,依赖于视频中的邻近帧的自监督对应方法已经兴起[20,21,32,38]。这种采样策略限制了外观变化,如图所示。1,导致在具有大的视点变化的图像对上的差的性能。理想情况下,我们将利用视频中的时间一致性来从远处的重叠帧中学习,同时忽略非重叠对。1217为此,我们建议SyncMatch:一种通过同步多视点云配准学习对应性估计的自监督方法。我们的方法自举,通过在短RGB-D视频剪辑内注册和同步所有成对变换来生成宽基线视图对。我们的核心见解是,通过在更长的时间范围内同步转换,我们可以检测并从具有较大视角变化的困难对中学习。尽管仅依赖于RGB-D视频中的几何一致性,但我们实现了与完全监督方法相当的性能。我们的方法受到自监督点云配准[20,21]和变换同步[3,23]的启发。自监督点云配准的核心见解是,随机初始化网络为窄基线点云配准提供了足够好的功能。这使他们能够为自我监督训练提供良好的伪标签。同时,变换同步使我们能够估计一个准确的摄像机轨迹从一个潜在的噪音成对相对摄像机姿势。我们的方法结合了这两个想法的自我监督多视图注册;允许我们学习跨越大的视点变化的对应估计。我们在RGB-D室内场景视频上评估我们的方法。我们在来自ScanNet和ETH-3D的RGB-D视频上训练我们的模型,并在对应性估计和RGB-D点云配准上对其进行评估。尽管只从RGB-D视频中学习,但我们的方法实现了与具有更复杂匹配算法的监督方法此外,我们还对我们的方法进行了全面分析,以了解训练数据和模型组件的影响。概括而言,我们的贡献如下:• 基于多视点一致性的RGB-D视频自监督对应性估计方法。• 一种新的SE(3)变换同步算法,该算法速度快,在训练过程中数值稳定。2. 相关工作对应估计。对应性估计是识别两幅图像中对应于相同物理位置的点的任务。建立对应关系的标准方法有两个不同的步骤:特征提取和特征匹配。早期的工作利用手工制作的特征检测器[43,46]来提取可重复图像点上的归一化图像块,结合基于局部统计的手工制作的描述符来获得对照明变化和小平移具有一定鲁棒性的特征[1,6,43]。这些特征通过最近邻搜索进行匹配,并使用统计学进行过滤。比率检验[43]或邻域一致性[58]。随着深度学习的出现,学习关键点检测器[37,40],描述器[5,63]和对应估计器[54,57,69]已提出这些模型使用来自传统3D重建算法[16,59]的对应监督对旅游地标[41,61,66]或室内场景视频扫描[11,15,70]的图像集合进行训练。其他方法已经使用合成数据[18,45,53,73]、传统描述符[67]或来自视频的RGB-D对[20,21]探索了自我监督我们的工作分享了自监督方法的动机,并将其扩展到从多视图一致性中学习,以更好地利用视频中丰富的信号。Pointcloud注册。点云配准是找到对齐两组3D点的变换的任务。早期的工作假设可以获得完美的对应关系,并设计了算法来估计最佳对齐它们的刚体变换[4,34,64]。后来的工作提出了鲁棒估计,可以处理correspondence错误和离群值,从特征匹配[22,71]。最近,已经提出了用于3D关键点描述符的学习对应物[14,17,25],对应性估计[8,9,13,23,30,51,68],以及用于直接配准一对点云的模型[17,26,39,44]。与我们的工作最接近的是使用RGB-D视频来学习基于对应的点云配准的方法[20,21,65]。与我们的方法类似,它们从视频中RGB- D帧之间的几何一致性中然而,与这些方法不同的是,我们在短视频序列而不是帧对上进行训练,这允许我们在具有较大相机变化的视图对上进行训练SE(3)变换同步给定一组成对估计,同步估计解释它们的潜在值集。变换同步是指应用于SO(3)和SE(3)变换的这个问题,因为它通常出现在SLAM设置中[10,36,47,56]。对于视频,人们可以天真地只考虑相邻对来构造最小生成树并聚合变换。然而,这仅在所有成对估计都是准确的情况下才有效,因为单个坏估计可能是有害的。已经提出了更稳健的方法,可以利用图中多个(或所有)边的信息[7,28,29,31,36,55]。与我们的工作最相关的是Arrigoniet al。[2,3]和Go- jcicet al. [23]第10段。Arrigoni等人[2,3]提出了一种基于成对变换矩阵特征分解的SO(3)和SE(3)同步的封闭形式解。Gojcic等[23]建立在这些想法的基础上,并将转换同步与用于多视图配准的受监督的端到端流水线集成。我们受到这项工作的启发,并提出了一种不同的方法,SE(3)同步的基础上迭代矩阵乘法,它允许准确的同步,同时是- ing更稳定的数字。此外,与以前的工作不同[23,29,55],我们使用转换同步进行无监督学习。1218.计算和估计成对SE(3)变换。Giv enP∈P∈C∈C2Σ图2. 同步匹配。给定N个RGB-D视频帧的序列,我们提取每个图像的特征,并使用输入深度将它们投影到3D点云。我们提取所有成对对应来估计成对SE(3)变换。然后,我们同步成对变换以注册场景。最后,我们使用估计的配准来改进我们的对应和变换估计。我们计算初始和精细注册的对应损失,并将其反向传播到特征编码器。3. 方法我们从短RGB-D序列的多视图注册中学习对应估计,而不依赖于姿势或对应监督。我们首先提供我们的方法的一个高层次的草图,如图2所示.2、在详细讨论每个组成部分之前。接近草图。给定N个RGB-D帧,我们提取每个RGB图像的特征,并使用输入深度和相机固有特性将它们投影到3D点云上。然后我们提取所有点云对之间的对应关系N2成对变换,我们应用变换同步,Nization以找到共享全局帧中的N个相机外部参数。给定这种粗略的对齐,我们基于特征和空间证据集将包括由于匹配不良、重复纹理或遮挡而导致的不匹配。可以使用唯一匹配或几何一致性的度量来过滤对应关系。 启发式方法(如Lowe几何一致性依赖于这样的想法,即几何一致的对应集合可能是正确的。这可以通过估计类似于RANSAC [22]的变换或直接估计内点得分[13,51,69]来完成。我们使用比率检验进行初 始 对 齐 , 使 用 杠 杆 年 龄 几 何 一 致 性 进 行 细 化(Sec.3.5)。具体地,我们计算特征空间中的余弦距离之间的比率如下:接近。我们使用更新的对应关系重复注册。 最后,我们使用估计对应和SE(3)变换,wp,qD(p,q)=1−D(p,q′),(1)将其反向传播到特征编码器。3.1. 特征点云我们使用随机初始化的ResNet-18进行特征提取。虽然对应性估计方法通常依赖于关键点检测,但我们的方法是无检测器的,并且在图像上均匀地生成密集特征。类似于Sunet al.[62],我们以比输入图像低的分辨率(1/4)生成特征网格对于每个帧i,我们使用输入深度图和相机固有函数将特征投影到点云i中,其中每个点pi具有特征fp和3D坐标xp。3.2. 对应估计我们估计所有视图对(i,j)的特征对应关系。我们首先通过为图像i中的每个点找到图像j中具有最接近匹配特征向量的点来生成初始对应集。最初的对应-其中D(p,q)是特征之间的余弦距离,q和q'是特征空间中点p我们使用权重来对对应进行排名,并且只保留前k个对应。这导致每对帧的对应集合i,j。对应(p,q,w p,q)i,j由两个匹配点和匹配权重组成。3.3. 成对比对对于每对帧,我们可以识别变换Ti,jSE(3),其最小化跨图像的对齐对应之间Ti,j= arg minw||xq− T(xp)||二、(二)T∈SE(3)(p,q,w)∈ Ci,j加权Pro- crustes(WP)算法[13]给出了可微解,该算法采用经典的Umeyama点云对齐算法[34,64]。1219.摄像机到摄像机的估计值-−ΣΣ|w∈C|w∈C。.不c2, 1T 2, 1c 2I 4· · ·c 2,NT 2,NWP-RANSAC 虽然WP算法可以处理小的误差,但它对离群值不鲁棒。El Banani等人[20]建议将对齐算法与随机采样相结合以增加鲁棒性。然而,单个大的离群值仍然可以扰乱解决方案,因为解决方案仍然根据所有匹配的平均残差进行排名。我们修改了WP算法,使其更接近经典的RANSAC [22]。我们随机抽取k个对应子集,估计k个变换,并基于每个变换计算内点得分。我们选择最大化内点得分的变换,而不是最小化加权残差[20];使我们对大的离群值更鲁棒。最后,我们更新的对应权值与内点的分数,可以零出大的离群值。我们使用具有更新的权重的WP算法来计算最终配准;保持关于对应权重的可微性。3.4. SE(3)转换同步N2我们想找到N个世界到相机的转换最好的解释他们。Arrigoni等人[2,3]提出了一种利用谱分解的SE(3)同步的闭式解这种方法后来扩展到端到端学习管道[23,29]。该方法通过构造成对变换的块矩阵来操作,其中块(i,j)对应于摄像机i到摄像机j之间的变换。这方面工作的核心观点是,绝对变换构成了图3. 平均对应置信度是一种有效的重叠滤波器. 虽然置信度与视图重叠并不完全相关,但简单的阈值处理可以准确地过滤掉低重叠和无重叠的视图对。虽然置信度与视图重叠相关,但是非重叠帧仍然接收非零置信度。来自非重叠对的不正确转换会对同步和学习产生负面影响。我们通过基于以下内容重新调整置信度值来解决此问题:忽略任何非重叠对的阈值。虽然这个标准很简单,但它有许多假阴性,如图所示。3.第三章。为了确保同步始终是可能的,我们从重新缩放中排除相邻对,因为我们知道它们最有可能重叠。成对置信项调整如下:成对变换矩阵的基础,因此,c=.max(0,c<$i,j−γ),(1−γ)如果|i−j|>1,(三)可以使用特征分解来恢复。虽然这些方法对于推理是成功的,i、jci,j否则,请执行以下操作。它们在训练期间遭受数值不稳定。这是由特征值的后向梯度引起的其中γ是置信阈值。我们只估计对(i,j)的成对对应,其中i< j到最小值位置缩放1jλi−λj 其中λ是特征值,避免重复计算。 对于j> i的对,我们设置−1在ue设完美SE(3)成对矩阵的秩为4,则mini=jλi对于精确的成对矩阵,λ j接近0,这导致梯度爆炸。我们在训练中观察到了这种不稳定性。为了避免这种不稳定性,我们计算特征分解的相关部分,幂迭代,类似于PageRank [49]。我们观察到,这在训练期间保持稳定的同时快速收敛。我们建议读者参阅附录以了解更多细节。成对的信心。当为每个成对估计提供置信权重时,虽然先前的方法训练单独的网络来估计成对置信度[24,29],但我们选择了一种更简单的方法。我们观察到,平均置信权重与视图重叠很好地相关,如图所示。3,其中成对置信度计算为ci,j=1W.i、jcj,i = ci,j和Tj,i = Ti,j。成对变换矩阵。我们使用如下的加权变换来形成块矩阵Ac1I4c1,2T1,2···c1,NT1,NA=. . .、(四)cN,1TN, 1cN, 2TN, 2···cNI 4其中c i,j是成对置信度,Ti,j是估计的成对变换,且c i=k∈Nc i,k。我们执行t矩阵乘法来计算A2,并通过取第一块列并通过其置信度(右下角元素)对每个变换进行归一化来提取同步变换。这导致NSE(3)变换。在第一个视图的参考框架中的选择我1220ΣJI图4. 几何感知采样大大提高了我们的对应集。GART允许我们提取准确的correspondence- dence,即使初始特征匹配是非常嘈杂的。3.5. 细化虽然基于特征的匹配功能强大,但它可能会产生假阳性特征匹配,这些特征匹配可以通过几何一致性轻松过滤掉。为此,我们使用预测的场景对齐,以改善我们的correspondences通过过滤匹配,不与估计的变换几何一致。我们重新采样的对应关系,但计算基于特征相似性和空间接近度的比率测试。我们通过将比率检验中的距离函数更改为:Drefine(p,q)=DC(fp,fq)+λ<$xp−xq<$2,(5)其中DC(x,y)是余弦距离,fp是属于点p的特征向量,λ是加权常数,并且xp是点p在公共全局帧中的对准的3D坐标。我们将这种更新的比率测试称为几何感知比率测试(GART)。3.6. 损失我们强调,我们的方法是自我监督的。因此,我们只依赖于视频中的一致性进行训练。我们使用ElBanani和Johnson [21]提出的配准损失对于给定的对(i,j),我们计算配准损失如下:Lreg(i,j)=w<$T−1xq−T−1xp<$2, (6)(p,q,w)∈Ci,j其中p和q是对应的点,w是它们的权重,Ti是同步变换(第二节)。第3.4段)。我们计算这个损失的初始和细化的对应集和所有视图对的预测变换。4. 实验我们在两个室内场景数据集上评估了我们的方法:ScanNet [15]和ETH3D [60]。我们的实验解决了以下问题:(1)多视图训练是否优于成对训练?; (2)多视角自我监督能否取代全面监督?; (3)我们能从RGB-D序列重建场景吗?; (4)我们可以从不能使用标准方法重建的视频训练数据集。ScanNet提供1513个场景的RGB-D视频和使用Bundle- Fusion计算的相机姿势[16]。我们使用从ScanNet v2 分 离 的 训 练 / 有 效 / 测 试 场 景 。 虽 然 像BundleFusion这样的自动重建模型能够重建ScanNet场景,但ETH3D [60]视频对这些系统更具挑战性,因为BundleFusion 在 大 多 数 序 列 上 都 失 败 了 。 因 此 ,ETH3D为我们提供了一组有趣的视频,这些视频目前无法用于监督训练。我们强调,我们只使用RGB-D视频和相机时代的内在训练和任何提供的相机姿势只用于评估。我们通过对相隔20帧的视图进行采样来生成视图对。对于较长的序列,我们将相邻的对组合起来得到N元组。培训详情。我们使用AdamW [35,42]优化器训练我们的模型,学习率为10−3,权重衰减为10−3。我们训练10万次迭代,批量大小为16。除非另有说明,我们使用6个视图进行训练。我们的实现是在PyTorch [50]中,广泛使用PyTorch3D [52],FAISS [33],PyKeOps [12]和Open3D [72]。我们公开我们的代码。14.1. 对应估计我们评估我们的模型对应估计。虽然我们的模型是在相邻对序列上训练的,但主要的挑战是它如何进行宽基线对应估计。我们在SuperGlue [57]提出的1500个视图对的测试集上对此进行了评估该数据集包括具有大的摄像机运动的困难对;例如,来自房间两侧的图像。评估指标。我们根据其2D和3D误差评估估计的对应性。我们使用已知的深度和内禀函数将估计的对应关系提升到3D中,并且仅考虑具有有效深度值的关键点我们使用地面实况变换来对齐关键点并计算3D误差和2D重投影误差。我们为所有方法提取了500个对应关系,以便在精度值之间进行有意义的比较。21https://github.com/facebookresearch/SyncMatch2LoFTR和SuperGlue使用相互检查启发式进行匹配这可以产生更少的对应。在这种情况下,我们使用它们产生的所有对应关系。1221图5. ScanNet上的对应估计。我们的模型提取准确的对应关系大的视点变化。通过结合强特征描述符和几何细化,我们可以成功地处理以前的方法失败的情况对应性通过3D误差进行颜色编码。基线。我们将我们的方法与经典的,自监督的和监督的对应估计方法进行比较。首先,我们比较两个常用的 特 征 描 述 符 : RootSIFT [1] 和 SuperPoint [18] 。RootSIFT是一个手工制作的功能,仍然在现代管道中使用,而SuperPoint是一个自我监督的描述器,在合成数据和网络图像的仿射变换上训练。我们使用比率测试[43]报告了这些特征用于仅图像匹配的性能,以及使用我们提出的GART进行深度细化匹配。我们考虑三种端到端方法:[57]《明史》:“明者,明也,明者,明也。SuperGlue是一个基于注意力的匹配算法,建立在Super-Point之上。LoFTR和BYOC都是无检测器的方法,它们从头开始训练自己的功能SuperGlue和LoFTR都使用经过通信监督培训的变压器进行匹配。BYOC是自我监督的,并使用比率测试的变体进行匹配。我们采取了多项措施,以确保全面和公平的比较。首先,我们将BYOC这就产生了一个更强、更公平的基 线 , 我 们 称 之 为 BYOC† 。 其 次 , Su- perGlue 和LoFTR都是完全监督的基于图像的方法,它们使用变换器进行特征匹配。因此,不清楚如何调整他们的匹配算法以使用深度信息。我们使用GART来重新排列他们提出的匹配,而不是调整他们的匹配,只保留匹配的顶部这导致了性能的大幅提升,如Tab.1启发式匹配如何执行? 我们发现,良好的调整匹配允许手工制作的功能,以实现强大的性能对学习功能,观察Efe等人。[19 ]第10段。尽管如此,自监督特征描述符仍然保留了性能优势。此外,我们提出的方法优于手工制作和自我监督的描述符,无论深度是否在测试时用于细化。表1. 扫描网上的宽基线对应估计。 SyncMatch提取精确的宽基线对应;执行与监督方法相同的操作。 我们提出的GART使用估计对齐来采样更准确的correspondences,而不管底层的特征描述符。3D校正二维校正自我监督能代替函授监督吗?虽然我们的方法优于经典和自我监督的方法,但它仍然不如最强的监督方法。这是预期的,因为我们使用来自短序列的伪对应标签,而超监督方法是用与测试对相同的方式采样的视图对训练的[57]。尽管如此,我们认为我们的方法仍然很有前途,因为它可以匹配SuperGlue监督的特征和匹配,尽管它是自监督的,并使用比率测试进行匹配。基于几何的细化有帮助吗?我们发现,我们提出的基于几何的细化提高了所有方法的性能。此外,我们的方法的改进是最明显的,当使用深度时,它与监督方法的性能相当,并且在某些阈值上优于它们。方法1cm 5cm 10cm 1px 2px5px基于启发式匹配RootSIFT [1]7.129.235.12.88.622.9RootSIFT [1] + GART14.1 72.484.33.812.8 42.8超级点[18]7.541.451.32.58.629.5[18]第十八话16.8 73.784.34.715.5 47.9[21]第二十一话12.8 53.363.04.514.6 41.9[21]第二十一话22.8 73.181.46.019.6 54.0SyncMatch(我们的)13.1 55.165.44.615.3 43.9SyncMatch(Ours)+ GART 26.8 76.584.47.523.5五十九点七具有训练匹配的超级胶水[57]8.762.4 七十八点七2.59.036.9[57]第57话13.8 74.8 八十七点七3.311.7 44.41222−| −|表2. ScanNet上的成对注册。SyncMatch在窄基线配准方面优于所有方法,而在宽基线配准方面优于某些方法 WP-RANSAC导致跨度量的所有方法的大的性能增益。窄基线宽基线一个UC5英寸AUC10cmAUC5cmUC10cm基于启发式匹配的无监督特征RootSIFT [1]+ RANSAC 36.7 28.915.511.1[18]第18话:我的世界24.917.0RootSIFT [1]+我们的84.377.964.452.3[18]第十八话83.877.061.749.2[21]第二十一话84.677.660.448.4SyncMatch(我们的)85.378.863.450.5具有训练匹配的监督特征[57]第57话LoFTR [62]+ RANSAC65.775.054.064.647.657.233.241.8[57]第57话82.375.066.051.2[62]第62话78.170.556.24.2. 点云配准接下来,我们评估成对和多视点云注册性能。我们评估成对注册使用- ING从ScanNet中提取的视图对。我们还通过重建ETH-3D数据集中具有挑战性的序列来评估我们的模型配对配准。我们评估了窄基线和宽基线视图对的成对配准方法,如表1所示。二、我们评估类似于BYOC的窄行基线视图对和类似于SuperGlue的宽基线视图对。我们报告的面积下的曲线为姿态误差的阈值为5厘米和10厘 米 的 旋 转 和 平 移 误 差 , 分 别 。 对 于 RootSIFT 和SuperPoint,我们使用比率测试计算对应关系,而SuperGlue和LoFTR为我们提供匹配。我们使用Open3D对于SyncMatch和BYOC,我们使用该方法我们报告的数字没有深入细化,以避免混淆的评价。我们的方法在窄基线配准方面优于所有基线,但在宽基线配准方面则低于几个基线。这是令人惊讶的,因为我们的模型在宽基线对应估计中表现出色,但可能是由于用于训练的大多数窄基线对的域转移。此外,我们注意到,我们提出的对齐算法大大提高了所有基线的性能,特别是RootSIFT。我们从具有训练的对应估计器的监督模型中观察到这种改进,表明它们的预测对应性仍然包含显著的结构化错误,这些结构化错误受益于可以利用匹配置信度权重的鲁棒估计器。图6. RGB-D场景重建 SyncMatch可以在推理时扩展到更长的视频,以重建更长的序列。扩展到更长的序列。计算N帧的成对对应关系的时间复杂度为O(N2),这对于较长的视频来说是有问题的.然而,与小重新制定,SyncMatch可以适应显着减少其运行时间。代替考虑所有对,我们在第一步中仅考虑相邻帧以从Nl对中给出近似的相机轨迹。我们使用该轨迹来细化对应性,然后考虑特定窗口W内的所有帧;即,仅考虑帧(i,j),如果ij w。然后,我们可以在所有其他对的置信度设置为0的情况下运行同步步骤。这使我们能够线性地扩展模型我们在图中可视化来自ScanNet的两个六、我们将我们的适应模型应用于具有挑战性的ETH3D数据集。ETH-3D序列对传统的RGB-D重建模型具有挑战 性 , BundleFusion 在 近 75% 的 序 列 上 失 败 。SyncMatch可以重建33/61的训练场景和16/35的测试场景。这超过了标准系统,如BundleFusion(14/61和7/35)和ORB-SLAM [48](25/61和16/35)。由于此类系统通常用于为RGB-D视频数据集自动生成注释,因此SyncMatch我们强调,我们的模型不是为全场景重建而设计的;该评估仅旨在展示我们的模型相对于用于自动生成RGB-D视频的姿态注释的现有方法的性能。4.3. 分析我们通过一系列旨在回答有关其性能的一些关键问题分析实验旨在了解多视图设置、训练数据以及我们的模型组件在训练和推理过程中的影响1223表3. 培训视图数量的影响。使用更多视图的训练提高了对应性估计性能。3D校正二维校正Num. 意见21cm24.75cm73.910cm81.61px6.22px19.85px54.0326.276.885.27.022.658.8426.875.483.57.523.359.2526.975.983.67.623.559.7626.876.584.47.523.559.7表4. 消融实验。虽然WP-RANSAC对模型性能至关重要,但其他组件的影响取决于下游任务。消融PW校正MV注册TrainTestAUC10cmAUC10pxAUC5mm UC10cm完整型号65.9 48.183.477.8Naive Sync.✗65.748.982.876.2无深度优化✗66.049.082.976.3无配置阈值✗35.220.417.914.5无WP-RANSAC✗1.20.21.13.3Naive Sync.65.9元48.182.676.9无深度优化29.7美元19.4,83.477.7无会议阈值65.9元48.176.970.9无WP-RANSAC42.227.774.466.0培训视图的数量有什么影响?我们使用可变数量的训练视图来训练我们的模型,以了解多视图训练的影响我们观察到,增加训练视图的数量会导致性能逐步提高。但是,性能增益在5次查看后饱和。这可以解释ScanNet视频是如何捕获的:照相机通常横向移动,并且在5帧(3秒)之后,通常没有重叠。我们的研究结果表明,使用更多的视图进行训练将不会有帮助,直到足够的帧被用来提供循环闭合模型学习。不同的组件如何影响模型性能?我们通过在培训或测试期间应用的一系列消融来分析各种模型组件我们报告了成对对应估计(3D和2D对应误差)以及6个视图的多视图4.第一章与之前的工作类似[20],我们观察到,在训练期间消融时,使点云更难配准的消融可以提高对应性能;例如,使用仅基于相邻视图的朴素同步或者在没有深度细化的情况下训练。然而,用WP替换WP-RANSAC会防止模型在训练早期由于不准确的配准我们还观察到,几乎所有的测试时间消融导致更差的性能。一个令人惊讶的例外是删除深度细化,这大大降低了宽基线相关性估计精度,同时不影响多视图配准。这可以通过窄基线配准的性能饱和来解释,使得在那里不需要深度细化。表5. ETH-3D数据培训。我们的模型能够学习ETH-3D中更具挑战性的视频。3D校正二维校正训练套装1cm 5cm 10 cm 1 px 2 px 5 px ETH-3D 17.4 66.4 74.54.8 16.147.3ScanNet Mini 18.5 67.0 75.6 4.8 16.2 47.6我们能从更具挑战性的序列中学习吗?虽然ScanNet提供了大量的视频,但这些视频都是精心捕捉的,以确保成功的下游3D重建。我们研究我们的方法是否可以在更具有挑战性的视频上训练,例如ETH-3D。ETH-3D的视频越来越少,越来越不稳定,迫使我们在训练过程中减少视图步幅。然而,我们的模型仍然可以在没有监督的情况下在ETH-3D视频上学习,并且这些特征可以用于宽基线对应性估计,如Tab中所示。五、为了比较,我们在ScanNet的一个子集上训练a,以匹配实例数量和视图间距。这两种模式实现了类似的性能。这表明我们的方法可以扩展到具有挑战性的视频,而不仅仅是仔细捕获的ScanNet序列。5. 结论我们介绍SyncMatch:一种学习对应性估计的自监督方法,该方法依赖于多视图配准来从困难的视图对中学习。我们的核心观点是,多视图配准允许我们利用短视频序列内的一致性来获得用于学习的困难视图对。为此,我们提出了一系列的组件,在一个单一的端到端的微分管道集成自监督对应估计与多视图注册。我们的方法遵循传统的配准管道与几个技术constructions,提高配准和对应估计性能,同时保持可微性。我们的目标不是击败监督方法,而是表明监督可能不需要。虽然像COLMAP和Bundle-Fusion这样的标准3D重建系统为我们提供了良好的重建,但用它们的输出训练的学习方法开始与它们的准确性竞争。这就引出了一个有趣的问题:当我们的训练数据受到它们所能处理的限制,我们的监督受到它们的错误限制时,我们怎么能超过标准管道呢?通过提出直接从视频中学习的自我监督管道,我们朝着实现超越传统设置并扩展到更多未经管理的数据的方法的发展迈出了一步,使我们能够实现更好的3D重建并解决动态场景重建等困难的挑战。致谢我们感谢Karan Desai、Mahmoud Azab、David Fouhey、Richard Higgins、Daniel Geng和Menna El Ba- nani对本作品早期草稿的反馈和编辑。1224引用[1] Relja Arandjelovic和Andrew Zisserman每个人都应该知道的三件事CVPR,2012。二六七[2] Federica Arrigoni , Luca Magri , Beatrice Rossi ,PasqualinaFragneto和Andrea Fusiello。通过低秩和稀疏矩阵分解的鲁棒绝对旋转估计。在3DV,2014年。二、四[3] Federica Arrigoni、Beatrice Rossi和Andrea Fusiello。se中多视图的谱同步(3)。SIAM Journal on ImagingSciences,2016。二、四[4] KS Arun、TS Huang和SD Blostein。 最小二乘拟合两个3D点集载于TPAMI,1987年。2[5] Vassileios Balntas , Edgar Riba , Daniel Ponsa , andKrystian Mikolajczyk.使用三元组和浅层卷积神经网络学习局部特征描述符。在BMVC,2016年。2[6] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。冲浪:加快了强大的功能。在ECCV,2006年。2[7] TolgaBirdal,MichaelArbel,UmutSimSekli,andLeonidasGuibas.通过最优传输同步旋转的概率测度在CVPR,2020年。2[8] 埃里克Brachmann 亚历山大 克鲁尔 塞巴斯蒂安·诺沃津Jamie Shotton , Frank Michel , Stefan Gumhold , andCarsten Rother. DSAC : 用 于 相 机 局 部 化 的 可 微 分RANSAC。在CVPR,2017年。2[9] Eric Brachmann和Carsten Rother。 神经引导的ransac:学习在哪里采样模型假设。在ICCV,2019年。2[10] Luca Carlone、Roberto Tron、Kostas Daniilidis和Frank德拉特3D SLAM的旋转技术:旋转估计及其在姿态图优化中的应用调查InICRA,2015. 2[11] Angel Chang,Angela Dai,Thomas Funkhouser,MaciejHal-Berber , Matthias Niebner , Manolis Savva , ShuranSong,Andy Zeng,and Yinda Zhang.Matterport 3D:从RGB学习室内环境中的三维数据。在3DV,2017年。一、二[12] Ben jaminCharlie r,JeanF e yd y,JoanAl e xisGlaun e`s,Fran C. D a vidCollin和GhislainDurif。在gpu上的内核操作,带有autodiff,没有内存溢出。JMLR,2021年。5[13] Christopher Choy,Wei Dong,and Vladlen Koltun.深度全局配准。在CVPR,2020年。二、三[14] Christopher Choy,Jaesik Park和Vladlen Koltun。充分卷积几何特征。在ICCV,2019年。2[15] 戴安琪,天使X. Chang,Manolis Savva,Maciej Hal-ber , Thomas Funkhouser , and Matthias Nießner.ScanNet:室内场景的丰富注释的3D重建。在CVPR,2017年。一、二、五[16] AngelaDai , Mat thiasNießner , MichaelZollo?fer ,ShahramIzadi,and Christian Theobalt. BundleFusion:使用动态表面重新整合的实时全局一致3D重建。ACM ToG,2017年。一、二、五[17] Haowen Deng,Tolga Birdal,and Slobodan Ilic. 3d局部用于直接成对配准的特征。在CVPR,2019年。2[18] Daniel DeTone,Tomasz Malisiewicz,and Andrew Rabi-novich. SuperPoint: 自 监 督 兴 趣 点 检 测和 描 述 。 在CVPR研讨会,2018年。二六七[19] Ufuk Efe、Kutalmis Gokalp Ince和A Aydin Alatan。效果1225对经典的和基于学习的图像匹配方法进行了参数优化。在CVPR,2021年。6[20] Mohamed El Banani,Luya Gao和Justin Johnson。 Un-supervisedR R:Unsupervised Point Cloud Registrationvia Differentiable Rendering.在CVPR,2021年。一二三四八[21] 穆罕默德·埃尔·巴纳尼和贾斯汀·约翰逊 引导您的自己的通信。ICCV,2021。一、二、三、五、六、七[22] Martin A. Fischler和Robert C.波尔斯随机样本一致性:模型拟合的范例,应用于图像分析和自动制图。Commun. ACM,1981年。二、三、四[23] 周彩发,詹戈伊契奇.作者声明:J.吉巴斯和 托 尔 加 · 伯 达 尔 学 习 多 视 点三 维 点 云 配 准 。 在CVPR,2020年。二、四[24] Zan Gojcic、Caifa Zhou、Jan D Wegner和AndreasWieser。完美匹配:具有平滑密度的三维点云匹配。在CVPR,2019年。4[25] 本杰明·格雷厄姆。稀疏3D卷积神经网络工程. 在BMVC,2015年。2[26] 阿米尔·赫兹,拉纳·哈诺卡,拉贾·吉里斯和丹尼尔·科恩-或者。PointGMM:一个用于点云的神经GMM网络。在CVPR
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功