单视图三维预测：高度和垂直不变性

164 浏览量更新于2023-10-20 收藏 2.62MB PDF 举报

麻省理工

相机姿态估计

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1y单视图三维预测的高度和垂直不变性麻省理工mbaradad@mit.edutorralba@csail.mit.edu摘要从单个图像预测3D的当前最先进的方法忽略了对象的高度和它们的直立取向对于相机姿态和固有参数是不变为了解释这一点，我们提出了一个系统，直接回归3D世界坐标为每个像素。首先，我们的系统预测相机相对于地平面的位置及其内部参数。接着，它预测沿着由相机跨越的射线的每个像素的3D位置。预测的3D坐标和法线对于相机位置或其模型的变化是不变的，并且我们可以直接对这些世界坐标施加回归损失。我们的方法在深度和相机姿态估计方面产生了竞争力的结果（而没有被明确训练来预测这些中的任何一个），并提高了跨数据集泛化性能超过现有的最先进的方法。1. 介绍在过去的十年中，从单个图像进行场景理解已经得到了很大的改进，在各种密集预测任务中取得了重大成功，例如深度回归[11，18，26]，固有图像分解[24，29]和语义分割[39，43，47]，其他之间[41]。尽管所有这些任务的最先进方法都使用类似的架构和训练技术，但这些任务之间存在通常被忽视的固有差异：每个像素的预测对于投影变换是否是不变的。如果我们有一种算法，可以从不同的位置渲染图像并生成场景的新视图，这些任务中的一些任务将表现得不同。例如，如果场景的某个元素上的一个点出现在两个视图中，则它将具有相同的语义和深度值也就是说，语义和反照率对于投影变换是不变的，但深度不是。卷积神经网络对图1.给定单个图像，我们预测每个像素的3D世界坐标（其中y=0对应于地板）。为此，我们预测相机的内部，外部和每像素的深度，并使用这些来恢复世界坐标。我们注意到，使用这种表示，每个像素的ny和y对于相机或其模型的位置的变化是不变的。这种类型的变换，并且存在可以使它们更好地泛化的已知技术[2，31，42]。此外，使用精心选择的类的随机变换（如仿射变换）来增强训练数据已证明可以提高CNN在测试时的泛化能力为了利用从单个图像预测3D结构时的这种鲁棒性，我们提出使用神经网络来预测适当参考帧（我们称之为世界帧）中的3D坐标。使用这个参考系，一个空间维度（yw，相对于参考平面的高度）和一个法向维度（nw，垂直法向）变得对投影变换不变。如图1所示，我们的模型不会产生三个独立的坐标映射。相反，我们建议预测相机模型和每个像素的深度，这定义了每个像素的3D坐标该技术允许将图像的点云的可能配置减少到在预测相机491492模型此外，在坐标和法线上的简单回归损失具有非局部效应，这是回归其他表示（例如深度）无法捕获的，如我们在第3.2节中所示。利用远距离像素之间关系的非局部损失和模型已被证明可以提高广泛的推理问题[3，35]的鲁棒性和泛化能力，特别是对于3D回归问题[40]。当测试分布与训练分布相匹配时，我们的方法在深度和外部回归上表现稳健，利用了Scannet [9]等数据集中已有的深度和外部信息。此外，当在与用于训练的数据集不同的数据集上进行测试时，我们的方法优于使用相同数据源训练的最先进方法。最后，我们表明，我们的系统的输出是particular适合用于下游任务。特别是，我们展示了如何使用其输出将3D对象放置在任意图像中，在野外，以最小的用户干预。2. 相关工作深度和外部参数预测。基于CNN回归度量深度的最新方法通过结合更好的损失[11，40]，更好的架构[6，21]或通过分解问题[22，26]取得了重大进展。然而，这些设计选择通常由训练/测试性能提供信息，并且忽略了在野外图像中使用这些系统时出现的两个(a)场景中的元素的分布可能改变，以及（b）照相机的内部和外部的分布可能改变。第一个已经吸引了很多关注，特别是对于对象在语义上相同但具有不同视觉外观的情况（例如，模拟与实际观测[1，44]）。在这项工作中，我们特别讨论了后者，后者受到的关注较少，尽管最近的研究[14，34]指出这是一个未解决的问题，限制了这些方法在实践中的推广。其他方法通过回归非度量深度来避免这两个挑战中的一些，对于非度量深度，监督更容易获得。这些产生直到未知比例因子[23，25]或直到未知非线性变换[5，20]的度量深度图。通过设计，这些方法不能回归度量深度，并且它们的损失和它们的性能评估（不使用地面实况）是非度量的。学习估计相机的内在和外在也进行了研究[13，36]。虽然端到端方法已经显示出优于基于几何的方法的有希望的结果，[37]表明，与基于几何的方法相比，利用相机和世界帧中的每个像素的密集预测可以提高性能直接回归这些参数。他们表明，当测试与用于训练的数据分布不同的数据分布时，这是特别有用的。此外，已经提出了基于摄影测量一致性的无监督方法，以在焦距已知[12]或未知[46]时估计深度和相机姿态尽管如此，基于光度一致性的方法本质上限于预测未知比例因子的深度。用于3D结构预测的语义先验从单个图像获得度量3D的最成功的方法之一是使用简单的手工先验来确定自然场景中典型元素的大小这些方法通常被称为单视图测量[7]，利用这些先验知识来推导相机模型和其他元素的结构。这些方法经常使用的先验之一是在高度和垂直法线上构造。某些语义类（例如人）可以被建模为高度根据高斯分布分布的站立平面。[19]和[32]等作品利用这一事实从场景的语义图中重建场景的3D结构为了做到这一点，他们首先手动构建一组受限类（通常只有人）高度的先验，然后使用语义注释图像的数据库来一旦他们改进了这个先验知识，他们就能够使用其语义注释来推断新图像的3D结构。虽然一些基于CNN学习的方法已经将语义知识纳入其管道[15]，但已经指出[34] CNN可能无法学习这些简单的先验知识。有了这个，虽然[19]和[32]在假设不成立时容易失败，但它们更好地概括了在训练过程中没有看到的场景，例如新的视角或场景的不同布局。非局部损失自然场景通常包含简单的3D结构，这些结构延伸到图像的大区域。因此，图像的大区域上的像素的深度值是密切相关的。因此，将所有像素视为独立实体的损失虚拟法线方法[40]使用这种思想来推导非局部损失，该非局部损失通过比较由随机采样的像素三元组形成的估计平面和地面实况平面来使远距离像素之间的不一致性永久化。虽然这些平面不必与世界上的物理平面相对应，但它们捕获了深度图的非局部结构，并且比仅使用局部损失的方法获得了类似地，PlaneRCNN [26]强制预测在图像的平面区域中保持一致。为此，它首先检测和估计平面区域的参数，493.1Σ我k，l我y我我我我我X我我然后将它们组合成整个图像的统一深度图。虽然PlaneRCNN依赖于两个inde-位于相机下方，并且可以从相机坐标简单地获得为：他们表明，明确地推理场景的平面结构提高了测试时间性能曼斯。cw=R−1R−1cc−hc（2）3. 方法我3.2. 损失辊音高i0为了获得世界坐标系中的3D点云，我们的系统首先预测针孔摄像机的内禀和外禀以及每个像素的深度，然后从这些中计算3D点云我们在训练时使用的损失，为了解释相机参数和深度之间的模糊性，我们直接在预测的世界坐标 ‚只对3D点云进行操作，这使我们能够即时。N世界的结构是独立的，L3D=，cw−cw（三）相机姿态和参数的凹痕。Nii i=0其中，cw是点的地面实况3D坐标3.1. 三维结构回归量如图1中示意性地描绘的，我们的网络预测内在和外在相机参数，其中相机姿态经由相机到地平面的俯仰、滚动和高度以及每像素深度zc来参数化。为了预测每个像素的密集深度值，我们使用具有与[25]相同的沙漏架构的编码器-解码器CNN我们通过将其所有卷积层替换为CoordConv层来增强CNN [28]。这些层添加坐标映射作为卷积层的额外输入，以便轻松计算卷积变化函数。这背后的推理是，我们的系统应该预测的函数不是平移不变的我对应于像素（x_im，y_im）。这不同于独立地回归深度和照相机参数，因为这强制两者一致，并且同时它不惩罚模糊的情况，因为3D坐标仍然使用照相机参数来计算。我们注意到，通常用于回归深度的其他损失，例如有序回归损失[11]，可以适用于回归我们的输出表示。然而，我们使用的这种简单的RMSE损失往往对室内场景表现良好，其中深度范围有限。根据深度值，我们使用图像平面中相邻像素的3D坐标之间的叉积来预测世界法线在图像平面中。例如，外质分子紧密地nwk，lCWk，lCWk+1，lCWk，l+1-（c）（4）与图像平面中的水平线的位置相耦合。为了预测相机参数，我们使用倒数第二层的特征，平均池化，然后在前两层之后使用ReLU激活的三个线性层。然后，我们使用sigmoid来规范化输出值，并将其缩放和偏移到已知范围。假设针孔相机，并使用深度zc和由网络估计的内在矩阵K，我们获得相机参考系中坐标为（xim，yim）的像素的3D坐标，伊姆伊Cc−1其中k、l是对应于索引i的行和列索引。然后，我们在地面实况和预测的世界法线之间使用余弦相似性损失。这种损失有两个目的：首先，它作为一个正则化器，遵循与先前工作[ 10 ]类似的策略，其中惩罚图像平面中的预测深度梯度和地面真实深度梯度之间的差异。第二个目的是通过预测的摄像机参数迫使远距离像素对于大平面区域是一致的：对应于地平面的像素的预测法线必须与预测相机一致，因为这些区域的所有法线通过预测的相机参数。这一损失，简直是...ci=ziKim1（一）假定为1ΣN一旦我们在相机中获得了3D坐标，L正常=（1 −nw·nw）2（5）参考帧，我们将它们转换为参考帧，其中，y（垂直法线）和y（高度）对于相机参数是不变的我们在此参考3D坐标-2Ni=0最后，我们用于训练系统的损失只是两项的加权和，将坐标系设为世界坐标cw。这个参照系补偿摄像机高度（hc）、滚动旋转（R滚动）L=L3D +λL 正常（6=（−）×（494）以及相对于地板平面的俯仰旋转（R俯仰在我们所有的实验中，我们使用λ= 1的权重。495yy我我损失非局部性。为了说明这种损失具有非局部效应，我们表明，对于某些特定情况，3D坐标受到模型和网络偏向学习的先验知识的组合的约束y w和n w。对于地平线上的所有像素，由摄像机高度定义，因此，由我们模型中的三个单个预测参数（摄像机高度，滚动和俯仰）定义。对于图像的某个预测cw，扰动水平线中的任何yw只能通过扰动相机高度来实现，这将导致图像平面的这条线上的所有yw类似地，对于平面区域（如地板），模型可能能够学习yw 0和nw 1的强先验，这是由我们的损失强制执行的。如果是这种情况，则网络应该预测为与该先验一致的深度值由相机内部和外部控制。因此，导致这些参数改变的扰动可能潜在地影响对应于地板像素的所有点4. 实验在对原始图像的最小维数进行适当的降维后，在256 × 192的中心裁剪上训练模型。我们用一个批量大小为48，使用Adam [16]，初始学习率为10−3，在10万次迭代后减少到10−4我们的训练模型可在：https：//github.com/mbaradad/im2pcl网站。4.1. 数据我们的方法依赖于具有地面真实世界坐标，用于以不同的姿势和内在的集合拍摄的图像。这些可以很容易地从包含具有深度的视频序列的数据集（例如Scannet [9]）或从包含全景深度图像的数据集（例如Matterport3D [4]）。在第一种情况下，可以通过自动将视频融合到单个网格中并为每个场景注释一次来估计地平面。在第二种情况下，通过考虑位于相机下方的区域，可以鲁棒地估计图像是否是在本文中，我们只使用Scannet，因为它包含比Matterport3D更多样化的extrinsics集（特别是更多样化的相机高度范围）。为了生成地面真实姿势，当有超过100个可见时，我们使用带注释的地板像素，将平面拟合到它们并使用它来估计外质。当没有地板点时，我们依赖于数据集上可用的预先计算的姿势。我们已经根据经验发现，我们的基于地平面的方法比数据集中已经可用的方法产生更准确的外质，这些外质是通过融合所有表1.用于训练系统的摄像机参数的有效范围，这些参数来自Scannet中的参数（俯仰、滚动、摄像机高度和 ScannetFoV）。Full FoV范围对应于Scannet中的最大FoV和较小的最小视场，以模拟使用具有不同焦距的相机拍摄的图像。在视频序列中的图像，并易于漂移错误，使地板点不位于一个平面。最后，为了计算每个图像的地面真实法线（nw），我们首先使用以下公式将每个点反投影到3D中：地面实况深度。然后，我们使用k-最近邻[33]将平面拟合到每个点，其中我们使用最大数量为300个邻居和最大搜索半径为1米。这与我们计算估计法线（nw）的方式不同，因为我们要求这种计算在训练期间快速且可微我们根据经验发现，这比只考虑图像平面中的两个最近邻居更好地估计法线。4.2. 相机型号和先验我们假设一个针孔摄像机模型与中心投影和已知范围的外在和内在的参数，如表1所示。这些对应于Scannet数据集经验分布的第1和第99百分位数。由于我们的方法可以自然地处理不同视场（FoV）拍摄的图像，因此我们建议使用随机裁剪来增强数据集，以模拟使用较长焦距拍摄的图像。这允许系统在不太受限制的设置下处理由于Scannet数据集中图像的摄像机FoV较宽（大约60μ m），我们可以简单地通过裁剪生成任意较小FoV的图像。为了与以前的方法进行公平的比较，我们训练了两个系统：一个具有与扫描网络中发现的范围相匹配的减小的FoV（我们称之为扫描网络FoV），另一个具有扩展的FoV范围（我们称之为全FoV）。第一个允许与以前的系统（使用此视场进行隐式训练）进行公平比较，而第二个允许在野外图像上测试系统，其可能具有较小的视场。4.3. 在数据集性能方面深度和相机参数估计的结果在表2和表3中报告。虽然我们的系统在Scannet的验证集中测试时无法在所有指标上优于以前的方法，但我们注意到，参数范围间距（-58。73度11分46分）辊（-9。56岁，9岁。15分）相机高度（1. 10米，2. 77米）496图2.我们方法的Scannet验证数据集的随机样本结果。每对行显示重建点云的自上而下和右视图。我们注意到，我们的重建正确地捕捉平面区域，如地板和墙壁。正如预期的那样，Full FoV模型在裁剪图像上的性能优于Scannet FoV模型，如最后一行所示。方法RMS平方rel. 对数均方根APMoE [17]0的情况。380的情况。100的情况。22[11]第十一话0的情况。290的情况。060的情况。17我们的（全视场）0的情况。380的情况。110的情况。21我们的（ScannetFoV）0的情况。330的情况。080的情况。18表2.当将视场固定到数据集的视场（扫描-网络FoV）和可变视场（全FoV）时，我们的方法在扫描网络的验证集上的深度性能如表1所示。方法并不显式地回归到这两种情况中的任何一种，而是在解决一个处理不同类型的不确定性的问题。例如，如果地板不可见，则墙壁上每个点的y可能难以估计，但是如果存在与墙壁接触的具有容易估计的尺寸的某个对象，则对于固定焦距，深度图2和图3显示了两种系统的Scannet验证集中正如预497期的那样，当在适当的视场上进行测试时，ScannetFoV系统的定性性能更好，但是表3. Scannet测试集上的摄像机参数性能。[36]和[13]的绩效指标与[37]中报告的指标相对应。全FoV能够为更宽的FoV集合如图2和图3的最后一行所示，在对全FoV数据分布进行测试时，其性能优于Scannet FoV。4.4. 跨数据集性能为了评估我们的方法在新数据集上的表现，我们在NYU [30]和SUN360 [38]数据集上进行了测试，系统没有在这些数据集上进行训练该评价方法遵循-[36]第三十六话3 .第三章。81二、56 二、511 .一、82Hold-Geoffroy等人[13个国家]3 .第三章。53二、33 二、151 .一、50498y方法螺距误差（mm）avg.med.滚转误差（mm）avg.med.[36]第三十六话8. 68五、50 二、981 .一、89Hold-Geoffroy等人[13个国家]9 .第九条。57六、09 3 .第三章。11二、20UprightNet [37]7 .第一次会议。594.第一章94二、301 .一、53我们的（全视场）8. 18六、07 二、73二、11我们的（Scannet FoV）7 .第一次会议。45五、39二、181 .一、65图3.扫描网络FoV模型（顶部三行）和全FoV模型（底部三行）的预测外部、世界法线（nw从左至右：具有地面实况（绿色）和预测（红色）水平线的输入图像;地面实况法线;估计法线;地面实况深度;估计深度。我们注意到，全FoV系统解决了具有更多不确定性的问题，并且可以访问关于场景的更少信息（由于减小的FoV），如每个系统的最后一行所示方法RMSrellog10[27]第二十七话0的情况。8580的情况。2200的情况。114[26]第二十六话0的情况。6440的情况。1640的情况。077我们的（全视场）0的情况。6460的情况。1870的情况。107我们的（ScannetFoV）0的情况。5660的情况。1580的情况。082表4.NYU跨数据集深度性能，使用Scannet数据进行训练。使用了与[26]和[37]相同的交叉数据集评估方法，其中作者报告了使用Scannet数据训练和验证的系统的结果，但分别在NYU和SUN360上进行了测试。深度和外部预测的性能指标可以在表4和表5中找到。在性能方面，我们的方法是优于这两种方法在深度和相机参数回归。为了进行视觉比较，我们在预测ADE20k数据集的室内图像结构时，显示了与我们的方法相比最先进方法的定性结果[45]。该数据集由野生图像组成，用语义注释），但没有地面实况深度。在图4中，我们499表5.SUN360数据集上相机参数估计的泛化性能我们遵循[37]中提出的评估方法，该方法包括使用Scannet统计对每个全景图像进行6个不同的样本。显示了几个例子，说明我们的方法的优点和它的缺点相比，其他国家的最先进的方法。为了直观地比较最先进的方法与我们的方法，我们使用可用的语义基础对它们的输出进行后处理，将平面拟合到地板像素，并使用与方法训练的数据集对应的焦距计算点云。我们的结果直接对应于我们系统的输出，无需任何进一步的后处理。定性结果表明，尽管最先进的方法产生合理的深度结果，但我们的方法正确地估计了世界参考系中的点云。定性，我们的结果相匹配的那些计算组合估计的深度和地面真理语义，同时给出了一个更一致的结构，整个场景。例如，我们的方法能够恢复地板、墙壁和其他元素（诸如第一行中的台球桌）之间的更好的正交性，而其他方法不能恢复正交性。这可以在右侧视图中看到，在右侧视图中，可以看到墙与地板不正交，或者在顶视图中，墙不投影成一条线。故障案例。虽然我们已经证明我们的系统比最先进的方法更强大，但如果测试时间分布与训练时间分布差异过大特别是，它不能正确地推广到训练数据集中不存在的对象，如人。图 5我们说明了当有一个人占据图像的大部分时我们的方法的行为，以及针对同一图像的另一种最先进方法的行为。在同一张图的最下面一行，我们展示了另一个失败的案例，这是我们的方法所特有的。当它对一些区域产生了一个不好的估计时，这些区域占了大的平面区域（例如具有类似桌子的高度或相反高度的楼层），这会导致所有预测坐标的偏移。对于这种情况，我们已经定性地找到了深度预测方法来恢复更合理的解决方案。500图4. ADE20k室内图像的点云结果，采用3种最先进的方法和我们的方法。这些方法使用纽约大学数据（DORN [11]和虚拟常态[40]）或扫描网（PlaneRCNN [26]和我们提出的两个系统）进行训练。对于每个图像，我们显示一个自上而下的ortographic视图和一个右侧ortographic视图。用于估计地平面的深度区域在图像中以红色突出显示。501图5. ADE20k上的故障案例。顶部的结果显示了其他预测深度的模型也存在的失败情况：这些模型通常不能推广到训练数据集中不存在的对象，例如人类。下面一行显示了我们模型的失败案例特征。4.5. 在下游任务中使用由于我们获得的表示提供了一个规范的世界框架中的点云，它可以更适合用于下游任务，需要估计的三维结构的场景。为了用一个简单的例子来说明这一点，在图6中，我们展示了我们的方法预测的内在函数和外在函数如何用于将3D对象放置在野外的图像中。为了获得那里显示的结果，我们只需要单个用户点击图像的有效地面点。当放置在那里时，对象必须未被遮挡，以便我们的方法产生合理的结果，因为我们的点云表示不允许琐碎地测试是否发生遮挡。考虑到这一点，我们通过根据预测的相机内函数和外函数渲染对象来放置对象，然后将其与原始图像混合。5. 结论在本文中，我们提出了一种方法来回归三维坐标从一个单一的图像在一个直立和地面平面为中心的参考框架。为此，我们使用CNN图6.公制三维对象放置。给定一个图像（顶行，来自ADE20k数据集）和三个可以放置椅子的图像位置，我们使用我们方法的预测相机参数自动将其放置在投影到该点的地平面它预测所有像素的3D坐标，但是在由一组合理的摄像机模型定义的场景的子空间我们表明，这在经验上导致更好的泛化到看不见的数据集。我们认为，这些的原因是，我们对3D结构的表示对相机姿态是不变的，因此可以在训练过程中获得更一般的结构，以及我们损失的非局部影响，这会惩罚图像中大而远的区域的不一致性。此外，我们已经表明，通过我们的模型获得的表示是服从下游任务，如3D对象放置，这可以受益于预测的度量3D结构在一个规范的参考框架。致谢本研究的资金部分由Obra Social la Caixa研究生奖学金提供。引用[1] A. Atapour-Abarghouei和T. P. Breckon.使用合成数据的实时单目深度估计，通过图像风格转换进行局部自适应。2018年IEEE/CVF计算机视觉和模式识别会议，第2800-2810页2[2] A. Azulay和Y.韦斯为什么深度卷积网络对小图像变换的泛化能力如此之差？、2019. 1502[3] A.布阿德斯湾Coll和J..莫瑞尔一种非局部图像去噪算法。在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPR'05），第2卷，第60-65页vol. 2，2005年6月。2[4] A. Chang，A.戴氏T.Funkhouser M.Halber，M.尼斯纳M. Savva ， S. Song ，中国黑杨 A. Zeng 和 Y. 张某Matterport3d：室内环境中rgb-d数据的学习。国际3D视觉会议（3DV），2017年。4[5] W. Chen，Z. Fu，D. Yang和J.邓小平更在野外的单一图像深度感知。第30届神经信息处理系统国际会议论文集，NIPS'16，第730-738页，美国，2016年。柯伦联合公司2[6] X. Chen，X. Chen和Z. J. Zha.用于单目深度估计的结构感知残差金字塔网络。2019年8月第28届人工智能国际联合会议论文集。2[7] A. 克里米尼西岛Reid 和 A. 齐瑟曼。单视图测量。International Journal of Computer Vision，40（2）：123-148，Nov 2000. 2[8] E. D. 库布克湾Zoph、D.Mane，V.Vasudevan和Q.诉乐自动扩增：从数据中学习增强策略。2019. 1[9] A. Dai ， A. X. 张， M 。 Savva ， M. Halber ， T.Funkhouser和M.尼斯纳扫描：室内场景的在proc 计算机视觉和模式识别（CVPR），IEEE，2017。二、四[10] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。在Z. Ghahramani，M.威灵角Cortes，N. D. Lawrence和K.Q. Weinberger，编辑，《神经信息处理系统进展》27，第2366Curran Asso-ciates，Inc.，2014. 3[11] H.傅，M。贡角，澳-地Wang，K. Batmanghelich和D.涛.用于单目深度估计的深度有序回归网络。 2018 年IEEE/CVF计算机视觉和模式识别会议，2002-2011页，2018年。一二三五七[12] A. Gordon，H.利河，巴西-地Jonschkowski和A.安杰洛娃来自野外视频的深度：来自未知相机的无监督单目深度学习。2019. 2[13] Y. Hold-Geoffroy，K. Sunkavalli，J. Eisenmann，M. 费舍尔E. Gambaretto，S. Hadap和J. - F.拉隆德用于深度单图像相机校准的感知测量。2018 IEEE/CVF计算机视觉和模式识别会议，2018年6月。二、五、六[14] J. Hu，Y. Zhang和T.冈谷用于单目深度估计的卷积神经网络的可视化，2019。2[15] O. H. 贾法里O. 格罗斯，A. 基里洛夫M. Y.Yang和C.罗瑟分析用于联合深度预测和语义分割的模块化cnn架构。2017年IEEE机器人与自动化国际会议（ICRA）2017年5月。2[16] D. P. Kingma和 J. BA. Adam ：随机最佳化的方法。CoRR，abs/1412.6980，2014。4[17] S. Kong 和 C. 福克斯 Pixel-wise attentional gating forparsimonious pixel labeling，2018。5[18] I. 莱纳角 Rupprecht，V. Belagiannis，F. Tombari，以及N.纳瓦布使用全卷积残差网络进行更深的深度预测。2016第四届3D视觉国际会议，2016年10月。1[19]J. - F. 拉隆德湾Hoiem，A.A. 埃夫罗斯角罗瑟，J。Winn和A. 天啊照片剪贴画。ACM Transactions on Graphics10《SIGGRAPH》，26（3），8月。2007. 2[20] K.拉辛格河Ranftl，K. Schindler和V.科尔顿。为了稳健的单目深度估计：混合数据集进行零次交叉数据集传输，2019年。2[21] J. H.李，M.- K. Han，D. W.高和我。H.嗯从大到小：用于单目深度估计的多尺度局部平面制导，2019年。2[22] J. - H. Lee和C.- S. Kim.使用相对深度图的单目深度估计。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。2[23] Z. Li，T.德凯尔，F。科尔河Tucker，N.斯内夫利，C.刘翔的成功W. T.弗里曼。通过观察冷冻人来学习感动人的深度。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。2[24] Z. Li和N.很聪明从观察世界中学习内在图像分解。在计算机视觉和模式识别（CVPR），2018年。1[25] Z. Li和N.很聪明Megadepth：从互联网照片中学习单视图深度预测2018年IEEE/CVF计算机视觉和模式识别会议，第2041-2050页二、三[26] C. Liu，K.金，J.Gu，Y.Furukawa和J.考茨Planercnn：从单幅图像进行3d平面检测和重建。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。一、二、六、七[27] C. Liu ， J. Yang ， D. Ceylan 、 E. Yumer 和 Y. 古川Planenet：从单个rgb图像进行分段平面重建。2018IEEE/CVF计算机视觉和模式识别会议，2018年6月。6[28] R. 刘先生，雷曼兄弟， P. Molino， F. P.这样， E.弗兰克A. Sergeev和J.尤辛斯基卷积神经网络的一个有趣的失败和coordconv解决方案。NeurIPS，2018。3[29] W.- C. Ma，H.楚湾，澳-地周河，巴西-地Urtasun和A.托拉尔巴没有单个内像的单个内像分解在欧洲计算机视觉会议，2018年9月。1[30] P. K. Nathan Silberman、Derek Hoiem和R.费格斯。室内分割和支持从rgbd图像推断。ECCV，2012年。5[31] A. Ruderman，N. C. Rabinowitz，A. S. Morcos和D.佐兰。在cnns，2018中，池化对于适当的变形稳定性既不是必要的，也不是充分的。1[32] B. C. Russell和A.托拉尔巴从用户注释中构建3d场景数据库。 2009年IEEE计算机视觉和模式识别会议，第2711- 2718页，2009年6月。2[33] R. B.鲁苏语义3D对象地图，用于人类生活环境中的日常操作。2009年10月，德国慕尼黑工业大学计算机科学系博士。4503[34] T. van Dijk和G. C. H. E. de Croon神经网络如何在单个图像中看到深度？、2019. 2[35] X. 王河，巴西-地Girshick，A.Gupta和K.他外非局部神经网络。2018 IEEE/CVF计算机视觉和模式识别会议，2018年6月。2[36] S. Workman，M. Zhai和N.雅各布斯野外的地平线。2016年英国机器视觉会议的主办方。二、五、六[37] W.西安Z. Li，M.作者：J. Shechtman和N. 很聪明Uprightnet：从单个图像进行几何感知相机二、五、六[38] J. 肖氏K.A. Ehinger，A.Oliva和A.托拉尔巴使用全景位置表示法对场景视点进行优化。2012年IEEE计算机视觉和模式识别会议，第2695-2702页，2012年6月。5[39] T.肖氏Y.刘湾，澳-地Zhou，Y. Jiang和J.太阳场景理解的统一感知解析。计算机科学讲义，第432-448页，2018年。1[40] W. Yin，Y.刘湾，澳-地D. Schaefer和Y.燕.加强虚拟法线的几何约束进行深度预测。ArXiv，abs/1907.12209，2019。二、七[41] A. R.扎米尔A. Sax，W. B.申湖，澳-地J. Guibas，J.Malik和S. Savarese Taskonomy：解开任务转移学习。2018 IEEE/CVF计算机视觉和模式识别会议，第3712-3722页，2018年。1[42] R.张某使卷积网络再次具有平移不变性。在ICML，2019。1[43] H. Zhao，J. Shi，X. Qi，X. Wang和J.贾金字塔场景解析网络。2017年IEEE计算机视觉和模式识别会议，2017年7月。1[44] S. Zhao，H.傅，M。Gong和D.涛. 用于单目深度估计的几何感知在IEEE计算机视觉和模式识别会议论文集，第9788-9798页2[45] B. Zhou，H.Zhao，X.普伊格S。菲德勒，A.Barriuso和A.托拉尔巴。通过ade20k数据集进行场景解析。在IEEE计算机视觉和模式识别会议上，2017年。6[46] T. Zhou，M.布朗，N。Snavely和D. G.洛从视频中进行深度和自我运动的非监督学习。在CVPR，2017年。2[47] Y. Zhu，K.Sapra，F.A. Reda，K.J. 施，S.Newsam ，A.Tao和B.卡坦扎罗通过视频传播和标签松弛改进语义分割。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。1

下载后可阅读完整内容，剩余1页未读，立即下载