多视图图像深度估计中利用时间非参数融合的方法

148 浏览量更新于2023-10-13 收藏 3.06MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2651基于时间非参数融合的侯宇欣Juho Kannala Arno Solin计算机科学芬兰阿尔托大学firstname. aalto.fi摘要我们提出了一个新的想法，深度估计从多视图图像姿态对，其中该模型有能力利用信息，从以前的潜在空间编码的场景。该模型使用成对的图像和姿态，这些图像和姿态通过编码器-解码器模型进行视差估计。新颖之处在于软约束瓶颈层的非参数高斯过程之前。我们提出了一个姿势核结构，鼓励类似的姿势有类似的潜在空间。高斯过程（GP）先验的灵活性为融合来自先前视图的信息提供了自适应记忆。我们端到端联合训练除了一个批处理方法，我们得到了一个轻量级的估计方案，规避标准的陷阱，在缩放高斯过程推理，并演示如何我们的计划可以在智能设备上实时运行。1. 介绍多视点立体（MVS）是指从具有已知相机姿态和内部参数的多幅图像重建3D场景结构的问题。例如，当运动已知时，从移动的单目视频摄像机捕获的多个视频帧中估计深度图[34]是MVS的该问题的其他变体包括使用传统的双视图立体装置[15]的深度估计和来自图像集合的基于图像的3D建模[8，27]。MVS重建具有各种应用。例如，基于图像的3D模型可用于大型环境的测量和可视化，以辅助设计和规划[1]，并且来自立体装备或单眼视频的深度估计有益于自主机器的上下文中的感知和同时定位和映射（SLAM）在本文中，我们专注于由单目摄像机，其运动是不受约束的，但已知的视频帧的深度图估计实际上，该动议可以(a) 参考帧(b) 无GP的(c) 基于GP的图1.深度估计结果的示例序列，其中在潜在空间中引入信息共享有助于通过使深度图更稳定和边缘更尖锐来改进深度图可以使用视觉-惯性测距技术来估计（参见，例如，[29]），其能够以非常小的漂移实时提供高精度的照相机姿态并且通常也可用于标准移动平台（例如，AR-Android上的Core和iOS上的ARKit）。在变化和任意运动下从多个视频帧的深度估计比使用刚性双视图立体装备的深度估计更具挑战性，但是使用移动单目相机而不是固定装备可能首先，在小型移动设备中，装备的两个相机之间的基线不能很大，这限制了深度测量的范围。利用移动的单目相机，运动通常提供比设备的尺寸更大的基线，并且因此可以提高远距离区域的测量精度。其次，当相机在给定空间中平移和旋转时，它通常从多个连续变化的视点观察相同的场景区域，并且这将是有益的2652以便能够有效地融合所有这些信息以用于更鲁棒和稳定的深度估计。在这项工作中，我们提出了一种新的方法，该方法将视差估计网络与高斯过程（GP，[ 24 ]）先验相结合，视差估计网络具有如[ 34 ]中的编码器- 这是通过提出一个姿势核结构，鼓励类似的姿势具有类似的潜在空间表示。所提出的方法背后的动机是有效地提高信息融合的重叠- ping意见独立于他们的分离时间。也就是说，我们的姿态内核可以隐式地融合来自具有重叠视场的所有帧的信息，并且不使各个深度图的预测更加耗时或不花费成本体积计算中的额外努力与经常应用于类似上下文中的硬视图选择规则和启发式视图选择规则相比[34，36]，我们的方法允许通过潜在表示进行信息的软融合。我们的方法可以应用于either在批处理模式下，融合的结果利用所有可用的帧，或在在线模式下，只有以前的帧影响当前帧的预测。本文的贡献如下。（i）我们提出了一种用于多视图立体的新方法，该方法通过潜在空间中的概率先验来传递来自先前重建的深度图的信息;（ii）对于非参数潜在空间先验，我们提出了一种姿态核方法来编码关于观察帧之间的相对相机姿态的影响的先验知识;（iii）我们证明了CNN编码器-解码器结构和GP超参数可以联合训练;（iv）我们将我们的方法扩展到能够在智能手机/平板电脑中实时运行的在线方案。据我们所知，这是第一篇利用GP pri- ors的多视图信息融合，也是第一次尝试在智能设备上的可扩展的在线MVS。2. 相关工作MVS方法可以基于其输出表示进行分类，如下所示：（a）体积重建方法[18，17，13]，（b）点云重建方法[9，37]，以及（c）基于深度图的方法[36]。在许多情况下，点云和深度图表示最终被转换为三角形表面网格以用于细化[9，19]。基于体素的方法已经显示出对于小对象的良好性能，但是由于它们的高存储器负载而难以应用于大场景基于点云的方法为纹理场景和对象提供了准确的重建，但具有无纹理表面和重复图案的场景具有挑战性。在这项工作中，我们专注于多视图深度估计，因为基于深度图的方法是灵活的并且适合于大多数使用情况。最近在基于学习的深度估计方法中已经有大量进展。受经典MVS方法[3]的启发，大多数关于学习MVS的尝试使用平面扫描方法首先从附近图像计算匹配成本量，然后将深度估计视为回归或多类分类问题，这由深度神经网络解决[11，34，36]。DeepTAM [39]计算扭曲图像对之间的补丁的绝对差之和，并使用自适应窄带策略来增加采样平面的密度DeepMVS [11]提出了一种补丁匹配网络来提取特征，以帮助比较补丁。对于特征聚合，它考虑了卷内特征聚合网络和卷间聚合网络。MVDepthNet [34]在没有支持窗口的情况下直接计算绝对差以生成成本体积，因为逐像素成本匹配使体积能够保留细节信息。MVSNet [36]提出了一种基于方差的成本度量，并采用3D CNN自动获得平滑的成本量。DPSNet [12]结合扭曲特征并使用一系列3D卷积来学习成本体积生成。重要的是要注意，上述基于学习的MVS方法都没有在移动平台上演示过。事实上，大多数方法都很繁重，使用强大的桌面GPU评估单个深度图需要几秒钟甚至更长时间[11，36]。最轻量级的模型是[34]，因此我们使用它作为基线，在此基础上添加我们的补充贡献。[34]中的单目深度估计系统使用视图选择规则，其选择具有足够角度或平移差异的帧，然后使用所选择的帧来计算成本体积。然而，这种视图选择不能使用来自更遥远的过去的类似视图的信息相比之下，我们的方法允许利用所有过去的信息，在计算上有效的方式。此外，我们的贡献不是与最近提出的各种网络架构竞争[11，39，36，34，10]，而是互补的：潜在表征的时间耦合尚未被更早地提出，并且也可以与我们在实验中使用的[ 34 ]以外的其他网络架构相结合。相关工作的另一个领域是深度图融合，其目的是将多个深度图集成到统一的场景表示中，并且需要处理过程中例如，[21]定义了预测深度图之间的三种可见性关系，通过检测遮挡和自由空间违规来确定估计的有效性。此外，体积2653一y1y2y3y4z1z2z3z4×× ××××× ×× ×0 0z0方法被广泛用于融合和重建[22，23]。再次，我们的方法是互补的：它在潜在空间中隐式地共享信息，并且可以与深度图融合后处理级相结合。最后，关于我们工作的技术和方法方面，我们结合了深度神经网络和高斯过程（GP）模型。GP是一种概率机器学习范式，用于对函数上的灵活先验进行编码[24]。它们在几何计算机视觉的这一领域中没有太多的应用。尽管如此，GP已用于视觉中的其他潜在变量建模任务，其中不确定性量化[14]起着至关重要的作用-包括具有GP先验的变分自编码器[4，2]和用于多视图和视图不变面部表情识别的基于GP的潜在变量模型[5，6]。在[2]中，GP被应用于人脸图像建模，其中GP内核负责姿态，并且在[33]中，它们被用于3D人物跟踪。我们工作的动机是使用GP [26，30]的实时推理的最新进展，使其适用于智能手机中的在线推理。3. 方法我们的多视图立体方法由两个正交部分组成。第一个（图中的垂直数据流）2）是CNN供电的MVS方法，其中输入帧被扭曲成成本体积，然后通过编码器-解码器模型以产生视差（深度的倒数）图。第二部分（图中的水平数据流）2）用于通过在相机轨迹上传递关于潜在空间（瓶颈层编码）的信息来耦合独立视差预测任务中的每一个。我们将首先在前者（第二节）中进行设置3.1），然后重点放在后者（Secs.3.23.1. 网络架构对于编码器和解码器，我们建立在[34]中的直接模型我们的框架只包含一个编码器-解码器，而不改变架构，因此我们可以直接比较结果来检查高斯过程先验的影响。编码器-解码器的输出是连续逆深度（视差）预测。对于每个图像姿态对，我们计算大小为D HW的成本体积，并将参考RGB图像连接为编码器的输入。在本文中，我们使用的图像大小为320 -256，和D = 64深度平面均匀采样，从0的逆深度。5米至50米。为了计算成本体积，我们使用平面单应性经由固定深度处的前平行平面将相邻帧扭曲到参考帧图2.我们的MVS方法示意图。相机姿势和输入帧在顶部行中示出。当前帧和先前帧（或先前帧的序列）用于构成成本体积，成本体积然后通过编码器网络。我们的方法的新颖之处在于对潜在空间编码进行高斯过程推断，使得GP先验被定义为在姿态差异中是平滑的。GP预测最终通过解码器网络，该解码器网络输出视差图（底部）。这是我们的方法的在线变体的逻辑（潜在空间图是有向图/马尔可夫链）。可以以类似的方式示出批量变体，但是具有所有潜在节点Z1之间的链接。相对于相邻帧的向量。di表示第i个虚拟平面的深度值。变形的相邻帧和参考帧之间的绝对强度差是最小的参考帧被计算为每个深度平面处的每个像素的成本：R，G，BIdi−Ir，其中Idi表示在di和Ir处经由深度平面的变形图像表示参考框架。在编码器中，有五个卷积层（第一层为7 × 7滤波器，第二层为5 × 5滤波器，其他层为3 × 3滤波器在编码之后，我们得到大小为512 8 10的潜在空间表示y，其将由GP模型变换。然后，解码器将把变换后的潜在表示z作为输入以生成IHW预测。在编码器和解码器之间存在四个跳跃连接，并且预测逆深度图H= K .R+t.1ΣΣDiK−1、（1）在四个尺度上所有卷积层后面都是批量归一化和ReLU函数。预测其中，K是已知的固有矩阵，（R，t）是根据旋转矩阵和平移给出的使用缩放为2的sigmoid函数来约束预测的范围。支持任意长度的输入视差解码器潜伏GP编码器成本卷相机姿态帧姿势相似度skipskipskipskip26544562× ×10–121 m1-3981231237445678910111212312344567891011125 56 67 78 89 910 10(a) 摄影机姿势轨迹和帧1112(b) 批处理模式1112(c) 链模式下的姿态内核（在线）图3. (a)左侧的连续摄影机轨迹与相关的摄影机帧。在（b）-（c）内核对我们期望某些视图在其潜在空间中具有多少相似性（或相关性）的信息进行编码。参见，例如姿势1-4和9之间的相关性。在（b）中，这种相关性在整个轨迹上传播，而在（c）中，长程效应被抑制。小坐标xyz轴说明相机定向。当存在多于一个相邻帧时，我们分别计算每个相邻图像的成本量，然后在将成本量传递到编码器-解码器网络之前对成本量求平均在训练期间，对于N个输入帧的序列，我们通过使用前一帧作为相邻帧（除了使用下一帧作为相邻帧的第一帧）来预测N个深度图，并且使用所有帧的L1误差（在四个尺度上）的平均值作为针对下一帧的总体损失。潜空间处理使得它们是平稳的，均方连续的，并且在姿态距离上是一次可微的（见[24]，第4章）。这一设计选择的动机是，我们希望潜在功能比纯粹的视觉特征更具结构性，并且我们希望潜在空间以连续和相对平滑的方式表现。从所谓的Mate'rn类[24]中选择协方差函数结构满足这些要求：训练模型。3.2. 位姿核高斯过程先验κ（P，P′）=γ2.√3 D[P，P ′]Σ1个以上ℓ.exp−√3D[P，P′]Σ.ℓ我们试图定义潜在空间上的概率先验，其将解释具有接近或重叠视场的姿势的先验知识，该先验知识应产生比彼此远离的姿势或相机指向相反方向的姿势更相似的该知识将由协方差函数（内核）编码，并且为此，我们需要定义距离度量或度量以定义为了测量相机姿态之间的距离，我们建立在Mazzotti等人的工作基础上。[20]它考虑了刚体姿态的测量。我们将这项工作扩展到适用于计算机视觉应用。具体地，我们提出了两个相机姿态Pi和Pj之间的以下姿态距离度量：.22D[P，P]=t−t+tr（I−RR），（2）（三）该内核将两个任意相机姿态P和P'编码为（2）摄像头的位置。可调（可学习）超参数γ2和γ 2定义了过程的特征幅度和长度尺度。图图3示出了示例相机姿态跟踪和从等式2评估的相关联的协方差矩阵（3）单位超参数。为了在序列中的帧之间共享时间信息，我们将独立的GP先验分配给z i中的所有值，并将编码器输出yi视为“理想”潜在空间编码的噪声破坏版本（参见图11）。2）的情况。该推断问题可以被陈述为以下GP回归模型：z（t）GP（0，κ（P[t]，P[t′]）），i j i j3ijJy=z（t）+ε，εN（0，σ），（四）其中姿态被定义为P={t，R}，位于R3×j，i j ij，ij，iSO（3），I是单位矩阵，并且跟踪算子我们定义了一个协方差（核）函数的潜在空间瓶颈层图。二、我们设计先验其中zj（t），j=1，2，. . . ，（512810），是时间t时的潜函数z。噪声方差〇2是似然模型的参数，并且因此是要学习的第三个和最后一个自由参数。1234567891011122655× ×∼i=11|∼我−我我 i=1i、j我 J2×2|--参考接地-TRUTH OURS（批次）MVDEPTHNET DEEPMVS MVSNET COLMAP图4. 《南方联盟3D》和《七场戏》的定性比较.3.3. 潜在状态批量估计我们首先考虑一个批量解决方案，用于解决方程中（4）对于图像-姿态对的无序集合因为似然是高斯的，并且所有GP共享评估协方差函数的相同姿势，所以我们可以用一个矩阵求逆来解决所有512 8 10这是由于后验协方差仅是输入姿态的函数，而不是学习的图像表示的值（即，y不出现在方程中的后验方差项（五）。后验均值和协方差由[24]给出：将我们的模型放宽到有向图（即，马尔可夫链，见图。2为链）。在这种情况下，GP推断问题可以以状态空间形式（参见[26，25]）来解决，其中每个姿势/帧具有恒定的计算和存储器复杂度这个推论可以通过下面的过程[26]在没有近似的情况下精确对于状态空间GP推断，协方差函数（GP先验）被转换为动态模型。初始（先前）状态被选择为对应于以下的稳态：Mate 'rn变异函数（方程3）：z0N（µ0，Σ0），其中µ0=0且Σ0= diag（γ2，3γ2/2）。我们联合推断所有独立GP的后验，使得E[Z |{（P，y）}N]=C（C+σ2I）−1Y，平均值μi是一个大小为2×（512·8·10）的矩阵，其中i ii=1（五）V[Z |{（P，y）}N]= diag（C−C（C+σ2I）−1C），列是独立的时间边际均值GPS和二维状态来自于Mate'rn其中Z =（z1z2. . . zN）是堆叠的潜在空间编码，Y=（y1y2. . .是来自编码器的输出，并且协方差矩阵C=κ（P，P）（参见图2）。3b模型是一次均方可微的。协方差矩阵在所有独立GP之间共享，Σi∈R。这使得推理速度更快。例如）。后验均值E[zi（P i，yi）N]然后通过解码器以输出预测的根据[26]中的推导，我们定义了一个演化运算符（具有Mate´ rn的特性视差图该批处理方案考虑了序列中所有相互连接的姿势，使其功能强大。下-Σ。0Φi= exp2−3/100−2Σ3/Σ、（6）另一方面，矩阵C随着输入帧/姿态的数量N而增长，并且推断需要反转矩阵-其在矩阵大小上按立方缩放。因此，该方案仅适用于具有至多一些数百帧。其中，姿态差ΔPi=D[Pi，Pi−1]是连续姿态之间的姿态距离。这给出了预测的潜在空间值ziy1：i−1N（µ¯i ，Σ¯i），其中均值和协方差通过以下方式传播：3.4. 在线估计µ¯i=Φiµi−1，i=Φii−1Φ+Qi，（72656我）在图像姿态对具有自然排序的情况下-如在实时应用上下文中-我们可以其中，Qi= 0Φi0Φ。后验均值和协方差然后通过对编码器输出的调节给出。2657我n我我−我我参考接地-TRUTH OURS（批次）MVDEPTHNET DEEPMVS MVSNET COLMAP图5. ETH3D数据集的定性比较。当前步骤的yiμi=μi+ki（y−hμi），Σi=Σ¯i−kihΣ¯i，（8）其中ki=Σ¯ih/（hΣ¯ih+σ2）和观测模型h=（10）.后验潜在空间编码zi|y1：iN（μi，μi），直到电流通过解码器以产生视差预测由于重载符号（状态空间模型跟踪潜在空间值及其导数），实际上传递给解码器的是hµi4. 实验我们使用与DeMoN [32]中相同的数据训练我们的模型。训练数据集包括来自真实世界数据集SUN3D[35]、RGBD [31]、MVS（包括CITYWALL和ACHTECK-TURM[7]）的短序列，以及合成数据集SCENES11 [32]。有92，558个训练样本，每个训练样本由三视图序列用真实的深度图和摄像机姿势输入图像的分辨率为320×256。我们的所有数据4.1. 评价我们在从室内数据集7场景 [28]（办公室-01，办公室-04，redkitchen-01，redkitchen-02）随机挑选的四个序列上评估我们的方法。7个SCENES数据集可以看作是一个理想的评价数据集，因为没有一个模型是用7个SCENES训练的，结果可以反映模型的泛化能力。此外，7个场景中的序列通常在同一房间中包含不同的视点，因此存在许多共享相似场景的相邻视图，这适用于研究我们的融合方案的影响。四个来自SUN3D的序列（mit 46 6lounge，mit dorm mcc eflr6，mit 32 g725，mit w85g）和两个来自ETH3D的序列（kicker，office）正在评估预测的深度图。在评价集中共有951个视图。我们使用四种常见的错误度量：（i）L1、（ii）L1-rel、（iii）L1-inv和（iv）sc-inv。三个L1指标平均绝对差、平均绝对相对差和iΣnversedepth中的平均绝对差训练集也用于MVDepth的训练集尊重我。它们被给定为L1=1|i−i|、1Net，但是我们的训练集的大小要小得多，所以1Σˆ1年iˆ−1不应解释性能的改善我们的训练集。我们加载MVDepthNet预训练模型作为训练的起点。我们使用Adam求解器[ 16 ]在台式工作站（NVIDIA GTX 1080 Ti、i7- 7820 X CPU和63 GB内存）上联合训练编码器、解码器和GP超参数，其中β1= 0。9和β2= 0。999，学习率为10- 4。该模型在PyTorch中实现，并使用46k迭代进行训练在训练过程中，我们使用批处理GP方案（Sec. 3.3）。训练后，GP超参数为γ2= 13。82，= 1。098，且σ2= 1。四百四十三L1-rel=n我|di−di|和L1-i n v=n我|Di−di|、其中di（米）是预测的深度值，di（米）是地面实况值，n是像素的数量这是一个有价值的部门。TΣhescale-invariantmetric is sc-inv=（1z2−1/n2（z）2）1/2，其中zi=logdilogdi.L1-rel对误差进行归一化，L1-inv更重视近距离深度值，并且sc-inv是尺度不变度量。我们将我们的方法与三种最先进的基于CNN的MVS方法（ MVSNet [36] ， DeepMVS [11] 和 MVDepthNet[34]）以及一种传统的MVS方法进行了−我2658−| −|表1. COLMAP，MVSNet，DeepMVS，MVDepthNet和我们的方法之间的比较结果。我们在大多数数据集和错误度量上都优于其他方法（越小越好）。COLMAP MVSNet DeepMVS MVDepthNet Ours（在线）Ours（批量）SUN3DL1-rel 0.8169 0.3971 0.4196 0.1147 0.10640.1010L1-inv 0.5356 0.1204 0.1103 0.0610 0.05480.05120.12680.12201.6324 0.6538 0.9923 0.2631 0.25120.23867场景L1-rel 0.5923 0.2789 0.2198 0.1972 0.17060.1583L1-inv 0.4160 0.1201 0.0946 0.1064 0.09310.0884电话：021 - 88888888传真：021 -888888880.4971 0.4183 0.3807 0.3187ETH3DL1-rel 0.5574 0.4706 0.4124 0.2569 0.23540.2291L1-inv 0.4307 0.1901 0.3380 0.1366 0.12270.10660.5595 0.4555 0.4661 0.26670.6440 0.9567 0.56840.5979图6.通过TSDF Fusion在7个场景上进行3D重建[38]。结果融合了25个深度图。（COLMAP，[27]），因为所有这些方法都可用于图像序列。对于COLMAP，我们使用地面真实姿势直接生成密集模型。对于MVS-Net，使用基于地面实况深度的 192 个深度标签对于 COLMAP ， MVSNet 和DeepMVS，为了获得良好的结果，为每个参考图像分配四个相邻图像，而MVDepthNet和我们的方法仅使用具有足够角度差（>15μ m）或基线平移（>0）的前一帧。1m）作为相邻帧。如表1所示，我们的方法，无论是在线还是批量版本，在所有评估集/指标上都优于其他方法。与原始MVDepthNet相比，引入GP先验后，在所有数据集上的性能都得到了提高这些结果强调，在不同姿势之间共享正如预期的那样，在线估计结果比批量估计略差，因为在线方法仅利用过去的帧。所有模型都是用类似的场景训练的，除了MVSNet是用深度范围小得多的DTU数据集训练的;由于我们的测试序列具有较大的范围，深度标签对于模型来说可能变得过于稀疏，从而解释了其失败的预测。正如在原始文档中所指出的，运行COLMAP和DeepMVS很慢（比其他方法慢几个数量级）。与MVDepthNet相比，由于GP推断仅增加了与网络评估相比较小的一些相对较小的矩阵计算的成本，因此改进几乎没有成本。图4和图5示出了定性比较结果。像DeepMVS和COLMAP这样的基于补丁的方法更容易受到无纹理区域的影响，并且噪声更大与MVDepthNet相比，引入GP先验有助于获得具有更尖锐边缘的更稳定的深度图图6揭示了该方法的时间一致性，证明了它是对传统融合方法的补充。4.2. 消融研究我们已经对我们方法中的设计选择进行了几项消融研究。相邻帧的数量。 MVS方法通常使用多于两个输入帧来减少成本体积中的噪声。我们的方法也可以使用不仅仅是一对输入。表2显示了redkitchen-02上的结果，其中我们将我们的方法与MVDepthNet和MVSNet进行了比较。使用更多的输入帧改进了所有方法，但并没有改变结论。在没有GP先验的情况下，即使使用五个帧也不如我们的方法只有两个帧。邻居选择在许多方法中，为了获得良好的预测，需要严格的视图选择规则，因为如果视图之间没有足够的基线，则成本量会分解。我们研究了在 SUN3D 和7SCENES序列中通过降低平移阈值来选择相邻帧的鲁棒性在表3中，在不使用GP先验的情况下误差度量增加更多，这表明GP在相机不移动太多的情况下是有益的。核函数的选择。除了Matern核之外，我们还尝试了指数核[24]：κ（P，P′）=γ2exp（D[P，P′]/λ）。指数核不编码任何平滑度（不可微），这使得它对于任务来说过于灵活，可以从表4中的误差度量中读取。如果忽略内核中的姿态信息，并且仅使用时间差（TD）代替D[i，j] =i，j，则GP可以被视为低通滤波器。我们对材料中的TD进行了实验-无GP与GP地面实况2659∼表2.烧蚀实验：性能比较w.r.t.不同数量的输入帧。2帧3帧5帧指标/方法MVDepthNet MVSNet我们MVDepthNet MVSNet我们MVDepthNet MVSNet我们L1-rel0.20090.31590.16150.18970.26650.14600.17340.27580.1429L1-inv0.11610.14350.09790.10640.12440.08810.10280.11950.0850sc-inv0.18660.32500.17290.18090.29020.15980.17660.28090.1587L10.42380.60360.33860.39220.51330.30660.36190.51160.2964表3.性能比较w.r.t.翻译的门槛tmin= 0。1mtmin= 0。05米表4.性能比较w.r.t.不同的内核。指标/方法不含GP我们不含GP我们指标/方法L1-relL1-invsc-invL1L1-rel0.14740.12380.15350.1262妈的0.12980.06830.13840.2769L1-inv0.07900.06600.08280.0669指数0.13760.07030.14170.2846sc-inv0.14360.13150.14870.1334TD核0.14500.07450.14570.3041L10.30980.26090.32420.2664不含GP0.15380.08240.15070.3265nel，其给出了比不使用GP更好的结果，但是比使用姿态距离的两个GP执行得更差。4.3. iOS的在线实验为了证明我们的MVS方案的实用价值，我们将我们的实现移植到iOS应用程序中。在线GP方案和成本卷构建是用C++实现的，包装器是用Objective-C实现的，而应用程序本身是用Swift实现的。更具体地，用于成本卷构造的单应性扭曲利用OpenCV，并且实时GP使用本征映射库来实现。经过训练的PyTorch模型通过ONNX转换为CoreML模型相机姿势由Apple ARKit捕获图7显示了应用程序的屏幕截图，其中我们将刷新率设置为1Hz。请注意，该模型没有使用任何iOS数据进行训练，也没有来自应用程序测试环境的任何数据。5. 讨论和结论在本文中，我们提出了一个新的想法MVS，使模型能够利用多视图信息，但保持帧结构简单，时间效率在同一时间。我们的姿态核测量帧之间的在实验中，我们证明了这种方法明显地推进了最先进的技术。当附加到[ 34 ]的基线视差网络时，我们提出的模型一致地提高了估计深度图的准确性，并且这独立于用于计算各个成本体积的视图的数量而保持。此外，由于所提出的模型融合了潜在空间中的信息，因此它与深度图融合技术互补，例如[38]，它可以融合使用我们的方法估计的多个深度图的信息。事实上，除了改进单个深度图预测之外，我们的潜在空间GP先验还在以下情况下导致改进的结果：图7.我们在Apple iPad Pro（11英寸，2018年末型号）上运行的差异估计方法的屏幕截图。前一帧和当前帧并排在顶部。预测的视差（对应于当前帧）在底部可视化。姿势信息来自Apple与随后的深度图融合阶段相结合。我们的方法的一个可能的限制是，错误的预测也可能会向前传播，因为在潜在的空间融合。我们不像传统的深度融合方法那样采用任何离群值拒绝规则。这同样适用于遮挡。尽管我们意识到了这一点，但在测试我们的在线应用程序实现时，我们没有注意到任何鲁棒性问题不过，引入置信度措施来惩罚错误的预测可能会在未来改进该方法。项目页面上的代码和材料：https://aaltoml.github.io/GP-MVS。鸣谢。这项研究得到了芬兰科学院拨款 308640，324345，277685和295081的支持。我们感谢阿尔托科学-IT项目提供的计算资源2660引用[1] Acute3D，Bentley软件公司。网址：http：//www.cn.cnacute3d.com/. 1[2] Francesco Paolo Casale、Adrian Dalca、Luca Saglietti、Jennifer Listgarten和Nicolo Fusi。高斯过程前变分自动编码器。神经信息处理系统进展（ NIPS ），第10369Curran As-Sociates，Inc.2018. 3[3] Robert T.柯林斯一种真正的多图像匹配的空间扫描方法。在IEEE计算机视觉和模式识别会议（CVPR）中，第358-363页，1996年。2[4] Stefanos Eleftheriadis 、 Ognjen Rudovic 、 Marc PeterDeisen-roth和Maja Pantic。变分高斯过程自动编码器用于面部动作单元的顺序预测在亚洲计算机视觉会议（ACCV），第154施普林格，2016年。3[5] Stefanos Eleftheriadis Ognjen Rudovic和Maja Pantic。用于多视图和视图不变面部表情识别的判别共享高斯过程IEEE Transactions on Image Processing，24（1）：189-204，2015。3[6] Stefanos Eleftheriadis Ognjen Rudovic和Maja Pantic。基于多条件潜变量模型的人脸联合动作单元检测。在IEEEInternationalConferenceonComputerVision（ICCV），第3792-3800页，2015年。3[7] Simon Fuhrmann ， Fabian Langguth ， and MichaelGoesele. MVE -多视图重建环境。在欧洲图形与文化遗产研讨会（GCH），第11-18页，2014年。6[8] 放大图片创作者： Brian Curless， Steven M. Seitz 和Richard Szeliski。走向互联网规模的多视角立体。在IEEE计算机视觉和模式识别会议，第1434-1441页1[9] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。 IEEE Transactions on Pattern Analysis MachineIntelligence，32（8）：1362-1376，2010. 2[10] Yuxin Hou，Arno Solin，and Juho Kannala.使用基于掩模的多平面表示的非结构化多视图深度估计。斯堪的纳维亚图像分析会议（SCIA），第54-66页。Springer，2019年。2[11] Po-Han Huang ， Kevin Matzen ， Johannes Kopf ，Narendra Ahuja，and Jia-Bin Huang. DeepMVS：学习多视图立体视觉。在IEEE计算机视觉和模式识别会议中，第2821-2830页二、六[12] Sunghoon Im，Hae-Gon Jeon，Stephen Lin，and In SoKweon. DPSNet：端到端深度平面扫描立体声。国际学习表征会议（ICLR），2019年。2[13] Abhi s hekKa r，ChristianHaíne，andJitendraMalik. 学习多视角立体机。神经信息处理系统进展（NIPS），第365-376页，2017年。2[14] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性在神经信息处理系统（ NIPS ）的进展中，第 5574-5584 页。 CurranAssociates，Inc. 2017. 3[15] Alex Kendall，Hayk Martirosyan，Saumitro Dasgupta，and Peter Henry.几何和上下文的端到端学习深度立体回归在IEEE国际计算机视觉会议（ICCV）中，第66-75页1[16] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[17] Kalin Kolev 、 Maria Klodt 、 Thomas Brox 和 DanielCremers 。多视图三维重建中的连续全局优化。International Journal of Computer Vision，84（1）：80-96，2009. 2[18] 基里亚科斯湾作者：Steven M.塞茨空间雕刻造型理论。 International Journal of Computer Vision ， 38（3）：199-218，2000。2[19] Flore ntLa farr ge ， RenaudKeriv en ， MathieuBre´ dif ，andHoang-Hiep Vu.城市场景建模的混合多视立体算法IEEETransactionsonPatternAnal-ysisMachineIntelligence，35（1）：5-17，2013。2[20] 克劳迪奥·马佐蒂，尼古拉·桑西西，还有帕伦蒂·卡斯泰利.两个刚体姿势之间的距离的度量，基于柏拉图立体的使用。在RO-MANSY 21-机器人设计，动力学和控制，第8189.施普林格，2016年。4[21] Paul Merrell 、 Amir Akbarzadeh 、 Liang Wang 、PhilipposMordohai、Jan-MichaelFrahm、Ruig angYang、Da vi dNiste´ r和Marc Pollefeys。基于可见性的深度图实时融合。 IEEEInternational Conference on ComputerVision（ICCV），第1-8页2[22] Richard A. Newcombe、Shahram Izadi、Otmar Hilliges、David Molyneaux 、 David Kim 、 Andrew J Davison 、Pushmeet Kohi、Jamie Shotton、Steve Hodges和AndrewFitzgibbon。KinectFusion：实时密集表面映射和跟踪。在混合和增强现实国际研讨会上，第127-136页，2011年。3[23] Mat thiasNießner ， MichaelZoll höfer ， ShahramIzadi ，andMarc Stamminger.使用体素散列进行实时3D重建。ACM Transactions on Graphics（ToG），2013年。3[24] 卡尔·爱德华·拉斯穆森和克里斯托弗·K. I.威廉姆斯机器学习的高斯过程。麻省理工学院出版社，2006年。二三四五七[25] 如果我和阿诺·索林在一起。应用统计微分方程剑桥大学出版社，剑桥，英国，2019年。5[26] Sis moSar¨ rkk a¨，ArnoSolin，andJouniHartikainen. 通过无限维贝叶斯滤波和平滑的时空学习 IEEE SignalProcessing Magazine，30（4）：51三、五[27] 约翰内斯湖 Scho¨nberger ， EnliangZheng ， Jan-MichaelFrahm，and Marc Pollefeys.用于非结构化多视图立体的像素视图选择。在欧洲计算机视觉会议（ECCV），第501-518页，2016年。1、7[28] Jamie Shotton 、 Ben Glocker 、 Christopher Zach 、Shahra

下载后可阅读完整内容，剩余1页未读，立即下载