生成和利用概率单目深度估计

133 浏览量更新于2023-10-23 收藏 966KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

65生成和利用概率单目深度估计夏志豪1，帕特里克沙利文2，阿扬查克拉巴蒂11华盛顿大学在圣。路易2波音公司zhihao. wustl.edu，boeing.com，ayan@wustl.edu摘要除了从单个图像进行深度估计之外，单目线索在更广泛的深度推断应用和设置中是有用的，例如当人们可以利用其他可用的深度线索来提高精度时。目前，具有不同推理任务和深度线索组合的不同应用程序通过不同的专用网络来解决，这些专用网络针对每个应用程序单独训练。相反，我们提出了一个多功能的任务不可知的单眼模型，输出的概率分布在场景深度给定的输入彩色图像，作为一个样本近似的输出从一个补丁明智的条件VAE。我们表明，这种分布式输出可用于在不同的设置中启用各种推理任务，而无需为每个应用程序重新训练。在不同的应用集合（深度完成、用户引导的估计等）上，我们的通用模型产生具有高精度的结果--与依赖于应用特定网络的现有技术方法的精度相当或超过其精度。1. 介绍单目深度估计方法-仅从单个彩色图像预测场景深度-通过使用深度神经网络取得了惊人的成功[2，7，9，22，46]。这一成功证实了即使是单个视图也包含有关场景几何体的大量信息。然而，考虑到该任务的不适定性质，Pendulum单目深度图估计远非精确准确幸运的是，许多实际系统能够依赖于其他（但也是不完美的）深度信息源-来自深度传感器的有限测量、交互式用户引导、跨帧或视图的一致性等。因此，期望将这些其他源与单目线索组合以提取比单独来自一个源的可能更准确的深度估计。虽然单目线索对于增强其他深度线索是有用的，但是对于简单地输出深度图的单目估计器（一种不能直接与附加深度线索组合的形式），情况并非如此相反，重新-搜索者已经将使用线索的不同组合的深度估计处理为它们自身的不同应用（例如，深度上采样[4]，根据稀疏[34]和线[28]测量进行估计等），并且通过学习单独的估计器来解决每个问题这要求，为每个应用程序，确定类型的输入，将是可用的，构建一个相应的训练集，选择一个适当的网络架构，然后训练，应用程序特定的网络-一个过程是冗余的，往往是繁重的。在本文中，我们介绍了一个通用的和多功能的网络，利用单目深度线索在多个应用程序设置，而无需重新训练。我们的网络以应用不可知的方式在图像深度对上进行训练，但可以用于不同应用中的推理，并与不同的外部深度线索相结合，如图所示。1.一、我们的单目网络不是产生深度图估计，而是在给定输入彩色图像的情况下输出场景深度的概率分布。该分布忠实地编码基于单目输入的深度值的信息和模糊性以及它们的空间依赖性，并且以可以在推理期间与其他深度线索组合的形式产生。因此，我们的方法使一个模块化的方法来利用单眼深度线索，一个共同的任务不可知模型，可以在不同的应用程序中使用。我们的贡献如下：• 我们提出了一种新的方法来产生一个概率分布在场景深度的条件下，在一个给定的，把图像。我们的分布输出是使用由条件VAE [18]生成的逐块深度样本形成的，因此能够表达场景深度上的任意条件空间依赖性。• 我们证明了我们的概率输出的实际效用，考虑到他们在各种推理中的使用任务：我们描述了一种有效地将我们的图像条件密度与其它可用信息源（例如，传感器或用户输入），以及用于其它应用设置的方法（例如，预测成对深度）。66图1.概述我们的方法。给定一个输入彩色图像，我们使用一个常见的任务不可知网络来输出一个联合概率分布p（Z|I）在深度图上-使用条件VAE的输出形成为样本近似，该条件VAE生成重叠块中的深度的合理估计。此分布的均值表示标准的单眼深度估计，但分布本身可用于解决不同应用程序设置中的各种推理任务，包括利用额外的深度线索来改进估计。所有这些应用程序都由一个通用模型实现，该模型只训练一次。• 我们对NYUv2数据集进行了广泛的实验[44]我们的方法适用于各种各样的应用程序，阳离子所有应用程序都可以通过我们的方法使用相同的网络来实现，该网络只训练一次，但其精度可与依赖于特定任务模型的最先进方法相媲美或超越。2. 相关工作单眼深度估计。首先由Saxena等人尝试。[40]，从单彩色图像估计场景深度的早期工作依赖于手工制作的特征[21，37，41，42]，图形模型的使用[33，41，52]和样本数据库[16，19]。最近，Eigenet al. [8]表明，给定足够大的图像深度对数据库[44]，卷积神经网络可以被训练以实现更可靠的深度估计。从那时起，通过开发改进的基于神经网络的方法[2，7，9，13，23，26，30，39，48，51]以及策略，对于无监督的半监督学习[3，10，20]。除了估计绝对深度之外，一些作品还研究了来自输入彩色图像的场景中的点对之间的成对顺序深度关系[3，53]。概率输出。单目深度估计器通常输出每个像素处的深度值的单个估计，这阻碍了它们在不同估计设置中的使用一些现有的方法确实产生分布输出，但是作为每像素方差图[13，17]或每像素概率分布[29]。注意，不同位置处的深度值在统计上不是独立的，即，不同位置处的不同值可能独立地但不是组合地因此，每像素分布仅提供有限的特征，虽然在某些应用中有用，但不能更普遍地使用，例如，以从稀疏测量中空间传播信息。除了每像素分布，Chakrabartiet al. [2]训练一个网络，为不同的局部深度导数产生独立的分布他们描述了一种使用这些导数分布来生成全局深度的更好估计的方法，但没有提供解决其他任务的方法。此外，由于它们的网络输出仅限于手工选择的导数的单变量分布，因此它不能在我们试图编码用于推理的深度上的联合分布中表达一般的空间依赖性。部分测量的深度。由于进行密集深度测量是缓慢且昂贵的，因此能够通过利用彩色图像中的单眼线索从少量直接测量恢复高质量密集深度图是有用的。将颜色信息与部分测量组合的流行方式是通过要求颜色和深度边缘共同出现：该方法对于“深度修复”通常是成功的，即，填充深度图中缺失测量的间隙（在来自结构光传感器的测量中常见）。一个值得注意和常用的例子是Levin等人的着色方法。[25 ]第20段。沿着这条线的其他方法包括[6，14，31，32，35]，而Zhang和Funkhouser [50]使用神经网络来预测法线和遮挡边界以帮助修复。然而，当使用非常少量的测量值时，该任务明显更具挑战性（参见[4]中的讨论），并且需要更严重地依赖于单眼提示。在这种情况下，解决方案是训练一个网络，该网络将彩色图像和提供的稀疏样本作为输入。各种工作都采用了这种方法，用于从线传感器[28]沿单个水平线的测量、随机稀疏测量[15，34，43，45]以及规则网格上的子采样测量[4，12，27]。请注意，这些方法中的几种甚至针对同一应用的不同设置（例如针对不同的稀疏性水平）也训练单独的网络。67ELS [34]和不同分辨率的网格[4]。这里的一个例外是Wang等人的深度完井方法。[47]他们使用预先训练的单目深度网络，并提供了一种在给定稀疏深度测量时改进其单目预测的方法。它们迭代地反向传播测量和网络输出之间的误差，以更新中间层的激活（但不是网络权重），从而导致改进的因此，他们的方法使用单目网络的输出作为初始化，其内部表示作为空间传播测量信息的结构化方式。相比之下，我们的方法输出一个显式的概率表示，可用于深度完成以及其他推理任务，并且正如我们的实验所示，产生更准确的结果。用于生成样本的网络。在这项工作中，我们通过训练我们的网络来生成多个合理深度值的样本，从而特别是，我们遵循[18]的方法来训练条件VAE，并使用其输出来形成联合分布的样本近似。请注意，我们不是生成全局地图的样本（如[18]），而是训练VAE独立地为各个重叠的补丁生成样本我们还使用条件GAN [11，36]进行消融实验以产生这些样本，虽然VAE公式表现更好，但我们使用GAN的结果也是合理的。这表明我们的方法能够利用任何基于神经网络的方法来生成条件样本，并且可以从这一方向的未来进展中受益。3. 该方法给定场景的RGB图像I，我们的目标是推理其对应的深度图Z∈RN，表示为包含图像中所有N个我们不是预测Z的单个估计值，而是寻求输出分布p（Z|I），以更一般地表征图像中存在的深度信息和模糊性。在在本节中，我们将描述用于生成这种分布输出的方法，同样重要的是，将其用于各种应用中的推理。3.1. 可能单眼深度我们形成分布p（Z|I）作为在各个重叠贴片上定义的函数的乘积，Yp（Z|I）（P Z|（1）图2.使用条件VAE生成样本。我们的网络在每个重叠的补丁中独立地生成深度样本，并且我们多次运行它以生成每个补丁的多个VAE的输入来自于最先进的单眼模型[9]的预训练特征提取层。为不同的补丁（包括那些重叠）生成的样本保持统计独立后，condi- tioning的图像-通过使用单独的每补丁的潜在向量。团，并且由于这些片重叠，所有像素处的深度值-不仅仅是同一片中的那些-在统计上是相互依赖的（参见补充中的讨论）。生成样本。为了形成每个块的电位，我们训练一个网络，该网络在给定图像输入的情况下产生深度样本，并在输入期间多次运行它。参考以生成多个合理样本。该网络的一个关键方面是，它不是对全局深度图进行采样，而是为每个补丁i的深度PiZ独立地生成单独的样本。这确保了每个样本内的深度值代表了在一个实施例中，不同块的样本可以是对应块的样本，但是不同块的样本在给定图像的情况下是条件独立的。限制每个样本的维数允许我们用合理数量的样本来近似per-斑块势函数，同时在不同斑块的样本之间强制独立性，以确保总体分布p（Z）|（1）中的I）在深度上充分地捕获了全局模糊性。我们采用了[18]用于生成样本-其特征在于为了降低复杂性，我们通过采用预先训练的最先进的单目深度估计网络（DORN [9]）来引导我们的网络，删除最后两个卷积层，并将剩余的层视为这些特征，而不是图像本身，我我i作为条件VAE的输入提供我们实现补丁独立采样有一个分离-其中，Pi（·）是ith块的势函数，Pi是从Z中裁剪出该块的稀疏矩阵（对于大小为K × K的块，每个Pi是K2×N矩阵）。注意，这是一个马尔可夫随机场，最大值为K×Karate潜在向量为每个补丁。我们在编码器-解码器网络中设置解码器的架构，以仅使用其自身的潜在向量而不是重叠的潜在向量来68我我ping补丁。先验网络也被设置为预测每个补丁的潜在向量的单独分布（在训练期间后验网络也是如此）。在测试时，我们从每个补丁的潜在空间中独立地提取多个样本，编码器-解码器网络使用这些样本来生成相应的独立的每个补丁深度样本。补充材料中包含了对VAE架构和培训方法的更详细描述其中C（Z）被解释为来自广告深度信息源的我们在（3）中的分布的对数似然可以用用最大值替换指数求和的标准近似来简化（由于PiZ是高维的，最大项通常占主导地位，如补充中所讨论的）：Σ。PZ −x样本近似。接下来，给定样本集合Si，{xs}对于每个补丁i，我们将其潜在的pixeli（·）定义为Zargmin−Z我最大对数xi∈Siexp−我我2h2i（PiZ|I）= 1|S| Σexp. PiZ−xi-2h2.（二）= argminmin+C（Z）Σ PZ−x（四）ixi∈S i我我Z{x∈S}这可以被解释为使用高斯核从S1中的深度样本形成核密度估计，其中高斯带宽h是标量超参数。与独立的每像素[13，17，29]或每导数[2]分布不同，样本{Si}使得块电位Δi（·）能够表达局部区域中的深度值之间的复杂空间依赖性此外，我们的联合分布p（Z|I）是根据重叠补丁定义的，因此可以对整个网络的依赖关系进行建模，轮胎深度图。在推理过程中，这使得信息我我我注意，该表达式现在涉及Z上的最小化和每个补丁的样本xi∈Si的选择我们将使用两种形式的外部成本C（Z）来计算-代码在各种应用中的可用信息第一个是简单的通用全局成本，我们用CG（Z）表示，另一个是可以表示为各个块i Ci（PiZ）的深度值的Σ a和。包括（4）中的这两种可能的形式，我们得到以下优化任务：整个场景的传播，以及关于minmin Σ Σ<$PZ−x<$2+ C（x）+CG（Z），（5）场景深度估计的全局可扩展性。我我我Z {x∈S}注意，分布p（Z|I）可用于将单目深度图估计恢复为p（Z）上的平均值|（一）由我我我联系我们C（Z）的可能形式计算每个像素处的深度的平均估计，来自包括该像素的所有面片的所有样本。但是，我们的分布式输出的真正效用来自于支持各种推理任务，正如我们接下来描述的那样。3.2. 利用附加信息的深度估计在若干应用中，系统可以访问提供关于深度的某些部分信息的单目图像之外的附加源我们的分布式输出允许我们将单眼线索与这些来源相结合，并得出比单独使用任何一个来源更准确的场景深度估计。具体地，我们假设附加的深度信息是以以下形式提供的：成本C（Z），并将其与我们的分布p（Z）相结合|I）为了得到深度估计Z，Z= argmin−logp（Z|I）+C（Z），Z其中，因子2h2被吸收在成本的定义中，并且每个补丁的成本Ci（PiZ）被近似为Ci（xi）以作用于样本而不是Z的作物（我们假设这在收敛时大致相等我们使用一个简单的迭代算法来进行这种优化。全局深度Z被初始化为平均值从p（Z）开始的每像素深度|I），并且将以下更新交替地应用于{xi}和Z直到收敛：xi←arg min<$PiZ−xi<$2+Ci（xi），<$i.（六）xi∈S iZ←arg min<$PiZ−xi<$2+ CG（Z）.（七）Z对于不同的补丁，补丁估计xi（6）中的成本是到相应作物当前全局估计的PiZ，以及每个补丁的成本logp（Z|I）=Σ日志我Σxi∈Siexp.PiZ − xi-2h2.（三）Ci（·）当可用时。我们可以计算S1中所有样本的这些成本，并选择成本最低的一个。注意，仅需要计算所有样本上的成本Ci（·）。在一些术语滥用的情况下，这可以被认为是计算以下各项的最大后验概率（MAP）1估计：1注意，我们输出图像条件分布p（Z|I）-不是可能性p（I）|Z）。因此，（3）可以被认为是MAP估计，因为C-VAE预计将学习隐式地考虑先验分布69一旦在优化开始时。（7）中对全局映射Z的更新取决于全局成本CG（·）的形式。如果不存在这样的成本，则简单地通过每个补丁的当前选择的样本xi的平均值来给出Z对于具有以下功能而不需要添加显式的先验（例如[5]中由于具有全局成本，我们发现首先通过以下方式来解决（7）就足够了70将Z初始化为平均值，然后执行少量梯度下降步骤，Z←Z−γ<$ZCG（Z），（8）其中标量步长γ是超参数。现在，我们通过考虑具体应用来讨论我们的推理方法的具体示例，并描述成本CG（·）和Ci（·）的相关选择。用户选择的各种估计。我们用巴特拉等人的方法的方法[1]，以获得多个不同的全球估计{Z1，. . . 从我们的分布p（Z）的深度图Z的|I），并建议将这些作为替代方案呈现给用户。我们将第一个估计值Z1设置为平均估计值，匹配，通过使用（5）找到模式来生成每个后续估计Zm+1，其中每个补丁成本Ci（·）定义为ΣmC（x）= −λ/m<$PZm−x <$2。我我我m′=1i（12）3.2.1深度完井稀疏测量的密集深度。我们考虑当场景中的孤立点处的深度测量的输入稀疏集F与彩色图像一起可用时估计深度图Z的任务我们使用度量F来定义（5）中的全局成本CG（·）为CG（Z）=λZ↓− F2，（9）其中↓表示在测量位置处的采样Z。基于此，我们定义了（8）中应用的梯度用于将全局深度更新计算为这引入了对与先前估计中的对应补丁不同的样本的偏好，由标量超参数λ（在验证集上设置）加权。使用错误区域的注释。作为一个简单的扩展，我们还考虑获取区域的注释具有来自用户的高误差，在每个估计中。请注意，我们只得到这些区域的位置，而不是它们的正确深度值。给定该注释，我们定义掩码WM，其在区域内为1，在其他地方为0，并且在每个Zm+1 上为nwrec，具有修改的成本Ci（·）：ΣmC（x）=−λ/m<$（PWm）<$（PZm−x）<$2，（13）我我<$ZCG（Z）=λ（Z ↓−F）↑，（10）我我我m′=1其中↑表示采样操作的转置由于（8）中的权重λ和步长γ都是超参数，因此我们简单地设置λ=1，并基于验证集设置步长γ（以及梯度步长的数量）。我们考虑两种稀疏输入。第一个是在任意随机位置，如[15，34，43，45，47]，其中我们使用最近邻插值进行转置采样操作↑（10）。另一种情况是深度上采样，其中测量是在常规的较低-分辨率网格考虑到它们的规律性，我们可以使用双线性插值进行转置运算↑。深度取消裁剪。我们接下来考虑应用程序，可用的测量在连续的（但小）图像的一部分-例如来自具有较小视场（FOV）的传感器，或单独的单线[28]。在这种情况下，我们定义F和W被设置为测量值，并且在测量位置为1，在其他位置为0。我们使用这些来定义用于在（5）中使用的每个补丁成本Ci（·），Ci（xi）=λ<$PiW <$（PiZ − PiF）<$2，其中，权重λ是在验证集上确定的。3.2.2验证用户指南深度估计在交互式图像编辑和图形应用中通常是有用的我们考虑了几个设置，其中我们的估计方法可以用于在循环中包括来自用户的反馈，以提高深度精度。其中，k表示逐元素乘法，将成本集中在标记为错误的区域上。3.3. 其他推理任务我们的分布式输出是通用的，可用于执行一般的推理任务，而不仅仅是估计每像素的深度。我们在下面描述两个这样的应用。信心引导抽样。我们可以使用p（Z|I）计算每像素方差图，作为{Si}中的块和样本上的每个像素的深度值的方差（其不同于p（Z）下的实际方差|（1）由常数h2）。这就给了我们一个相对的空间图在不同位置处的深度的单目模糊性。当试图从任意稀疏测量值中估计深度时，我们可以使用该图来选择在何处进行测量（假设深度传感器提供此类控制）。具体来说，给定测量总数的预算，我们建议选择一组最佳的测量点作为方差图的局部最大值。成对深度。[ 53 ]中介绍的一个有用的单目深度推理任务是预测场景中附近点对的顺序相对深度：这些点是否处于相似的深度（在某个阈值内），如果不是，点更近了。我们使用我们的分布输出来解决这个任务，通过查看包含一对查询点的所有补丁中所有样本的相对深度，输出最频繁的顺序关系我们发现这导致更准确的序数估计，与简单地使用单目深度图估计中的单个深度值对的排序相比（如[3，53]中所做的）。′′′71设置方法越低越好越高越好rms m-rms relδ1 δ2δ3单目深度估计设置方法越低越好越高越好rms m-rms relδ1 δ2δ3任意稀疏测量（设置=测量数量）[第24话]0.5380.4700.13183.797.199.4马[34]-0.3510.07892.898.499.6DORN [9]0.5450.4620.11485.896.2九十八点七我们的0.5120.4330.116 86.196.9九十九点一深度非裁剪（设置=测量FOV）辽宁[28]0.442-0.10487.896.4九十八点九[25]第二十五话0.7030.6020.17575.593.097.9王[47]0.3990.3220.06594.298.4 99.5我们的0.3590.2980.06894.1 98.8 99.7仅在填充区域上计算平均值。200马[34]-0.2300.04497.199.4九十九点八莱文[25]0.3050.2640.06195.799.299.8王[47]0.3160.2540.04896.699.299.6我们0.2460.2030.03997.499.599.9深度上采样（设置=↑因子）陈[4] 0.318 - 0.06194.298.9九十九点八[25]第二十五话0.5120.4430.12085.997.1九十九点四用户选择（设置=选择数）5我们的0.4710.4060.11387.197.4九十九点三10[25]第二十五话0.3190.2750.06595.499.1九十九点八5我们的0.3980.3420.09890.498.2九十九点六表1. NYUv2测试集上各种应用程序的结果。我们使用通用模型的分布输出来生成各种应用环境中的深度估计：从标准的单目估计到当不同形式的附加深度线索可用时的若干应用。我们比较了这些应用程序的其他方法，包括那些（阴影背景）依赖于为每个设置单独训练的任务特定网络。相比之下，我们的网络是任务不可知的，只训练一次。4. 实验我们现在在NYUv2数据集上评估我们的方法[44]，通过训练一个常见的任务不可知的分布单目模型，并将其应用于解决各种应用程序设置中的各种推理任务。准备工作。我们使用NYUv2 [44]的官方训练分割中场景的原始帧来构建训练集和值集，并报告官方测试集的性能。我们使用来自预训练的DORN模型的特征提取层[9]，由于它对输入和输出进行操作，因此分辨率重新调整为较低（从640×480调整为257×353），我们对VAE也进行了同样然而，我们的输出是重新缩放回原始全分辨率以计算误差。如果有输入深度测量值，也以全分辨率提供（见补充资料）。我们使用大小为33×33的重叠贴片，步幅为4，并生成100个每片样本以构造{Si}。生成样本在1080Ti GPU上处理每个图像需要5.8秒，而推断-从这些样品中提取的速度更快（见补充材料）。我们的代码可在https://projects.ayanc.org/prdepth/上获得。水平。莱文[25]1.0030.8520.28163.883.292.3线王[47]0.4820.3940.08990.797.399.1我们0.4310.3560.08891.198.199.5∗120莱文[25]1.1040.9530.34857.579.290.0X王[47]0.4930.4090.09789.196.998.9160我们0.4470.3740.09789.597.799.3∗240莱文[25]0.6640.5780.19674.291.896.7X王[47]0.4160.3420.08191.597.799.2320我们0.3630.2980.07692.598.399.5马[34]-0.2810.05995.599.099.750莱文[25]0.5070.4360.11786.497.199.3王[47]0.3640.2910.05695.598.899.6我们0.3200.2620.05695.699.199.8莱文[25]0.3960.3400.08592.298.599.6100王[47]0.3360.2710.05296.299.099.7我们0.2790.2310.04696.699.499.9我们0.4570.3940.10987.997.699.4王[47]0.3670.2960.05795.498.799.615我们0.4470.3850.10888.397.899.4我们0.3130.2590.05695.799.299.8陈[4]0.193-0.03298.3 99.7 99.9带注释的用户选择（设置=#choices）王[47]0.3180.2560.04896.799.2 99.8十我们0.3720.3220.09391.598.599.7我们0.2350.1950.03597.799.699.915我们0.3640.3150.09091.998.799.7724.1. 各种推理任务的性能我们使用我们的通用模型对几个应用程序进行深度估计，并在官方NYUv2测试集上报告标准误差指标的性能（参见[7]）2表1。我们报告的性能标准单目估计，以及不同的深度complex和用户引导的应用中描述的第二节。3.2.我们使用地面实况深度模拟用户指导-全局深度图的选择是基于在最低误差上，并通过选择50×50的误差最高的胜利来进行注释，与先前标记的区域重叠超过50%我们的方法不仅在单目设置中表现良好-优于DORN [9]，其特征是它使用-它能够在各种应用中使用不同的可用深度线索来改进这种单目估计。我们发现稀疏测量是对单目提示的最好补充，用户注释更重要。2有些文献将RMSE解释为每幅图像RMSE值的平均值我们将标准清晰度报告为rms，将每个图像的版本报告为m-rms。73比单纯的选择更有用。图3显示了示例深度测量2050100200重建我们的方法的几个应用程序。随机0.3590.3200.2790.246表1提供了与许多其他深度的比较。指导0.3310.2860.2530.227完成方法其中两个不需要任务-具体培训-莱文等人的彩色化方法[25]，以及Wangetal.[47]从测量中反向传播正如Wanget al.自己的结果是与旧的单眼网络，为了更公平的比较，我们去-表2.当在随机位置进行测量时，来自不同数量的稀疏测量的深度估计的RMS误差与在我们的指导下，考虑到测量结果，我们在两种情况下都使用深度完井方法。通过将他们的方法应用于相同的我们的网络使用的DORN [9]模型（寻找最佳方法WKDR WKDR=WKDR/=在val set上设置如表1所示，我们的方法是佐兰[53]43.5%百分之四十四点二41.4%比这两种方法都准确。陈[3]百分之二十八点三百分之三十点六百分之二十八点六我们还比较了特定于应用程序的方法，西安[49]百分之二十九点一百分之二十九点五百分之二十九点七为每个应用分别训练专用网络我们的：平均值百分之三十点二百分之二十九点九百分之三十点五(and每个设置）。对于稀疏测量的深度完成，我们比较Chen等人的工作。[4]对于在规则网格上的测量，以及Ma等人。[34]第34话在任何地方对于从水平线测量估计，我们显示了廖等人的方法进行比较。[28]4.我们发现，我们的结果-从一个共同的任务无关的网络模型-是可比的，而且确实往往更好，比这些应用程序特定的方法。接下来，我们评估我们的方法的有效性，使应用程序超出那些估计深度图。在表2中，我们报告了使用我们的方法针对测量次数的不同预算进行由彩色图像引导的稀疏深度测量的结果。我们的引导测量导致比随机位置更好的密集深度估计（给定测量，我们在两种情况下都使用我们的深度估计算法）。最后，我们评估使用我们的分布来预测表3中的成对深度排序，将其与专门针对此任务的三种方法进行比较：[3、49、53]。结果以WKDR误差指标的形式报告，在 NYUv2 测试集上的一组标准点对上（见[53]）。我们发现，使用我们的方法会导致更好的预测比从这些方法，使用我们的分布输出是至关重要的，因为简单地使用我们的单眼平均估计的or-derings的准确性要低得多。4.2. 分析和消融我们在图1中的发现中直观地看到了深度假设的多样性。4.第一章我们为每个补丁选择一个样本-基于其在该补丁的样本中的排名，相对于地面实况的准确性。我们把这个等级从3[34]使用非标准分辨率和裁剪来评估他们的方法并报告错误。我们报告我们的性能与官方设置在这里是一致的基准和其他应用程序。我们在[34]4[28]使用沿3D中模拟为水平的线的测量，导致每个x的不同y图像坐标。由于缺乏精确的细节来复制它们的设置，我们使用相同数量的测量，但是从图像平面中简单水平的线进行测量。74我们的（分配）27.1% 26.0% 27.8%表3.与在训练过程中使用准确排序作为目标的其他方法相比，我们的通用模型我们还报告了仅基于平均深度估计的预测的基线误差。从最好到最坏，通过平均值为每个等级形成全局深度图，并绘制所得到的精度。考虑到单眼线索的模糊性，这些跨越了不同的范围从一个非常准确的估计时，神谕允许理想的选择，以较高的错误时，对抗性地选择最差的样本在每个补丁。图4还叠加了表1中几个推理任务的性能。正如预期的那样，纯单目估计的精度大致处于分布范围的中心但是当额外的深度线索可用时，我们看到我们的结果开始转向具有更高的准确性-对于不同的应用程序有不同的数量。这表明，我们的推理方法是成功的，在incor- porating这些深度线索中存在的信息。我们还研究了不同的变化，我们的方法来生成样本，我们的分布p（Z|I）在表4中-在验证集上测量性能，在如上所述的基于地面实况的预言的准确性方面，以及更现实地，在单目估计的准确性方面和深度完成（从100次测量）。首先，我们使用条件GAN [36]代替VAE进行评估（参见架构细节的补充虽然VAE表现更好，但GAN的结果也是合理的，这表明我们的方法与不同的基于网络的采样方法是兼容的。然后，我们考虑改变补丁的大小（以及相应的步幅）。我们发现较小的补丁实际上有助于Oracle的性能，因为在相同数量的样本下，更容易在低维空间中生成接近地面实况的样本。但是，较小的面片无法准确捕获面片内的空间依赖性，从而导致性能75图3.不同应用的深度估计示例。我们显示输出从我们的方法为纯单目设置，以及改进的估计，我们得到我们的分布输出与其他深度信息相结合，如不同种类的部分测量，用户指导注释和选择。Oracle 平均S→DC-VAES→D表4.确认集的消融研究。我们评估生成样本的不同方法：使用GAN而不是VAE，并且使用不同的补丁大小p（具有成比例的步幅s）。对于每种情况，我们通过“oracle”估计比较单个样本可达到的准确度（见图1）。4），与它们在纯单眼情况下和随机稀疏测量（#100）的实际推理中的效用。我们还通过考虑我们所选模型的较大步幅来评估补丁重叠的重要性。进行实际推理。相反，虽然更高的补丁大小可以允许编码更长范围的空间依赖性，这样做是困难的，通过近似从合理数量的样本，导致较低的准确性与预言和推理。对于我们选择的补丁大小，我们还评估了更高的步幅，从而降低了重叠。这导致较低的每平方根（在深度完成时），突出了在全局分布p（Z）中斑块重叠的效用|I），并在推理过程中传播信息。5. 结论通过分布式单目输出，我们的方法可以在不需要重复训练的情况下实现各种应用虽然我们在本文中考虑了直接关注场景几何的任务，但我们有兴趣探索图4.测试集上的分布输出分析与推理方法。我们的分布允许许多可能的全局深度解释，在这里通过基于其准确性从最好（oracle）到最差（advertisement）的排名选择每个补丁中的一个生成的样本来可视化，并通过平均值计算全局深度。这些解决方案在准确度上跨越了很大的范围，并且在没有任何额外信息的情况下，平均单值估计位于该范围的中间。但是当额外的线索可用时，它们可以被我们的MAP估计方法有效地利用，以从我们的分布中提取更好的解决方案我们的分布式输出如何在未来的工作中用于管理我们也相信概率预测对其他低层和中层场景属性也很有用，比如运动和反射。致谢。这项工作得到了美国国家科学基金会（NSF）的支持。IIS-1820693C-GANp=33，s=40.3840.597 0.428p=33C-VAEp=17，s=20.2630.518 0.413s=80.396C-VAEp=33，s=40.3230.516 0.377S=160.40576引用[1] Dhruv Batra 、 Payman Yadollahpour 、 Abner Guzman-Rivera和Gregory Shakhnarovich。马尔可夫随机场中的多样m-最佳解。在Proc.ECCV，2012中。[2] Ayan Chakrabarti，Jingyu Shao，and Greg Shakhnarovich.深度从一个单一的图像，通过协调过完整的局部网络预测。InNeurIPS，2016.[3] 陈伟峰，赵甫，杨大伟，邓佳。单-图像深度感知能力。InNeurIPS，2016.[4] 赵晨，维贾伊·巴德里纳拉亚南，吉拉德·卓兹多夫，安德鲁·拉比诺维奇.从rgb和稀疏感知估计深度。Proc.ECCV，2018。[5] Carlo Dal Mutto，Pietro Zanuttigh和Guido Maria Corte-拉佐基于混合像元测量模型的概率与立体数据融合PAMI，2015年。[6] David Doria和Richard J Radke。填补李的大洞-通过修补深度梯度来获取雷达数据在proc CVPR工作-商店，2012年。[7] David Eigen和Rob Fergus。预测深度，表面或-MAL和语义标签具有共同的多尺度卷积体系结构。在Proc. ICCV，2015中。[8] David Eigen、Christian Puhrsch和Rob Fergus。深度图使用多尺度深度网络从单个图像进行预测。NeurIPS，2014。[9] 傅欢，龚明明，王朝辉，Kayhan Bat-manghelich和大成陶。用于单目深度估计的深度有序回归网络在proc CVPR，2018年。[10]Ravi Garg、Vijay Kumar BG、Gustavo Carneiro和Ian里德用于单视图深度估计的无监督CNN：几何学拯救了我们。在Proc. ECCV，2016中。[11] Ian Goodfellow ， Jean Pouget-Abadie ， Mehdi Mirza ，BingXu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville ， and Yoshua Bengio. 生成性对抗网。NeurIPS，2014。[12] 古书航：左王梦：史国，陈云锦Chongyu Chen，and Lei Zhang.用于深度图像增强的学习动态引导。在Proc. CVPR，2017中。[13] Minhyeok Heo，Jaehan Lee，Kyung-Rae Kim，Han-UlKim，还有金昌洙使用整条掩蔽和基于可靠性的细化的单目深度估计。Proc. ECCV，2018。[14] Daniel Herrera，Juho Kannala，Janne Heikkilä，et al.深度在二阶平滑度先验下的地图修复。在斯堪的纳维亚图像分析会议，2013年。[15] Maximilian Jaritz，Raoul De Charette，Emilie Wirbel，Xavier Perrotton，and Fawzi Nashashibi.使用cnns的稀疏和密集数据：深度完成和语义分割。在Proc. Intl. 3D视觉会议（3DV），2018年。[16] Kevin Karsch，Ce Liu，and Sing Bing Kang.深度转移：使用非参数采样从视频中提取深度PAMI，2014年。[17] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？在NeurIPS，第5574-5584页[18] 西蒙·科尔，贝尔纳迪诺·罗梅拉-帕雷德斯，克莱门斯·迈耶Jeffrey De Fauw，Joseph R Ledsam，Klaus Maier-Hein，SM Ali Eslami，Danilo Jimenez Rezaviens，and Olaf Ron-neberger.一种用于模糊图像分割的概率u-网。NeurIPS，2018。77[19] Janusz Konrad ，Meng Wang ， Prakash Ishwar ， ChenWu，and Debargha Mukherjee.基于学习的自动2d到3d图像和视频转换。IEEE图像处理学报，2013年。[20] Yevhen Kuznietsov，Jorg Stuckler和Bastian Leibe。半用于单目深度图预测的监督深度学习。在 Proc.CVPR，2017中。[21] Lubor Ladicky，Jianbo Shi，and Marc Pollefeys. 拉事情的角度来看。在Proc. CVPR，2014。[22] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在国际Confer-ence on 3DVision（3DV），

下载后可阅读完整内容，剩余1页未读，立即下载