「OASIS：野外大规模图像3D数据集」

56 浏览量更新于2023-10-25 收藏 2.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1OASIS：一个野外大规模单幅图像三维数据集陈伟峰1、2钱圣毅1范大卫2小岛纪之1马克斯汉密尔顿1邓佳21密歇根大学安娜堡分校{wfchen，syqian，kojimano，johnmaxh}@umich.edu2普林斯顿大学网址：dfan@alumni.princeton.edu，jiadeng@princeton.edu人类注释重建的逐像素深度人类注释重建的逐像素深度图1.我们介绍了单图像表面的开放注释（OASIS），这是一个大规模的3D表面人类注释数据集，用于野外140，000张图像。补充材料中的更多示例。摘要单视图3D是从单个图像恢复3D属性（如深度和表面法线）的任务。我们假设单图像3D的主要障碍是数据。我们通过介绍单图像表面的开放注释（OASIS）来解决这个问题，OASIS是一个由140，000张图像的详细3D几何形状注释组成的野外单图像3D我们在各种单一图像3D任务上训练和评估领先的模型。我们希望OASIS能成为三维视觉研究的有用资源。项目地点：https://pvl.cs.princeton。edu/OASIS.1. 介绍单视图3D是从单个RGB图像恢复3D属性（如深度和表面法线）的任务。它是计算机视觉的一个核心问题，具有重要意义. 三维场景解释是了解事件和规划行动的基础3D形状表示对于使对象识别对视点、姿态和照明的变化具有鲁棒性至关重要。由于单眼图像和视频的普遍存在，从单个图像中获得3D图像尤为重要。即使使用立体摄像机，可以通过对来自不同视图的匹配像素进行三角测量来重建3D，单目3D提示仍然是不可能的。在难以可靠地匹配像素值的无纹理或镜面区域中是必要的。单图像3D具有挑战性。与多视图3D不同，它是不适定的，并且除了在最简单的设置中之外，抵抗易处理的分析公式。因此，数据驱动的方法已经显示出更大的前景，正如大量训练深度网络将RGB图像映射到深度，表面法线或3D模型的工作所证明的那样[11，17，36，14，43，24]。然而，尽管取得了实质性的进展，今天最好的系统仍然难以处理“野外”场景如先前的工作所示[5]，当呈现具有新颖形状或布局的不熟悉场景时，最先进的系统经常给出错误的结果。我们假设单图像3D的主要障碍是数据。与对象识别不同，其进展是由ImageNet [10]这样的数据集推动的，这些数据集覆盖了具有高质量标签的各种对象类别，单图像3D缺乏ImageNet等效物，可以覆盖具有高质量3D地面真实的各种场景。实验数据集被限制为狭窄范围的场景[31，9]或简单的注释，例如稀疏的相对深度对或表面法线[5，7]。在本文中，我们介绍了开放注释的单图像表面（OASIS），一个大规模的数据集的单图像三维在野外。它由人类注释组成，679680为140，000个随机采样的互联网图像启用3D表面的像素级重建图图1示出了示例图像的人类注释以及重建的OASIS的一个关键特性是其丰富的人类3D感知注释。为每个图像注释了六种类型的3D属性：遮挡边界（深度不连续性）、折叠边界（法线不连续性）、表面法线、相对深度、相对法线（正交、平行或都不）和平面性（平面或非平面）。这些注释一起实现逐像素深度的重建。为了构建OASIS，我们创建了一个用于交互式3D注释的UI。UI允许群组工作人员注释上述3D属性。它还提供了一个实时的，可旋转的渲染结果的三维表面重建，以帮助人群工作人员微调他们的注释。值得注意的是，与像Ima-geNet这样的数据集中的数百万张图像相比，14万张图像可能看起来并不是但图像的数量可能是一个误导性的指标。对于OASIS，注释一个图像平均需要305秒。相比之下，验证单个图像级标签所需时间不超过几秒钟。因此，就人类的总时间而言，OASIS已经可以与数百万个图像级标签相媲美OASIS开辟了新的研究机会，在广泛的单图像3D任务的深度估计，表面正常估计，边界检测和实例分割的飞机，通过提供在野外地面真相无论是第一次，或在一个更大的规模比以前的工作。对于深度估计和表面法线，首次可用于野外图像的pix- elwise地面实况-野外先前数据仅提供稀疏注释[5，6]。对于遮挡边界和褶皱的检测，OASIS提供了比现有工作大700倍的标注-现有数据集[33，15]仅对约200张图像进行标注。例如，平面分割、地面实况注释首次可用于为了促进未来的研究，我们在OASIS中提供了大量的实验结果表明，该算法在性能上还有很大的提高空间，为设计新的单图像3D学习算法提供了大量的研究机会。我们希望OASIS能够成为3D视觉研究的有用资源。2. 相关工作来自深度传感器和计算机图形学的3D地面实况主要3D数据集由传感器收集[31，12，29，30，9]或用计算机合成图形[4，23，32，22，26]。但由于局限性深度传感器和缺乏各种3D资产渲染-然而，场景的多样性是相当有限的。例如，基于传感器的地面实况主要用于室内或驾驶场景[31，9，23，32，12]。来自多视图重建的3D地面实况单图像3D训练数据也可以通过在互联网图像或视频上应用经典的运动恢复结构（SfM）算法来获得[18，38，6]。然而，经典的SfM算法有许多众所周知的失败模式，包括场景与移动物体和场景与镜面或无纹理表面。相比之下，人类可以注释所有类型的场景。来自人类注释的3D地面真相我们的工作与许多以前的作品有关，这些作品将互联网图像的3D注释众包。例如，先前的工作已经在图像的稀疏位置处众包了相对深度[5]和表面法线[7]的注释（每个图像的单个相对深度对之前的工作也将预先存在的3D模型与图像对齐[39，34]。然而，这种方法有一个缺点，即不是每个形状都可以与可用的3D模型完美对齐，而我们的方法可以处理任意几何形状。我们的工作与Karsch等人的工作有关。[15]，他们从人类对边界的注释中重建像素深度，借助于阴影算法[2]。我们的方法是不同的，因为我们不仅注释边界，而且还注释表面法线，平面性和相对法线，并且我们的重建方法不依赖于自动形状从阴影，这仍然是未解决的，并有许多故障模式。我们的灵感之一是LabelMe3D [28]，它注释了连接到公共接地平面的3D平面。另一个是OpenSurfaces[3] ，它也注释了 3D 平面。我们与 LabelMe3D 和OpenSurfaces的不同之处在于，注释不仅恢复平面，而且恢复曲面。我们的数据集也要大得多，就标注的图像数量而言，是LabelMe3D的600倍和OpenSurfaces的5倍它也更加多样化，因为LabelMe3D和OpenSurface仅包括城市或室内场景。3. 众包人类注释我们使用随机关键字查询和下载具有已知焦距（从EXIF数据中提取）的Creative Commons Flickr图像。每个图像都通过自定义UI呈现给群组工作人员以进行注释，如图1所示。第2段（a）分段。工人被要求戴上面具她希望用她选择的多边形处理的区域，要求多边形覆盖一对随机预选的位置。然后，她在注释上工作，并从交互式预览窗口迭代地监视生成的网格（详见第4节）（图4）。第2（a）段）。681图2. （a）我们的用户界面允许用户注释丰富的3D属性，并包括用于交互式3D可视化的预览窗口。（b）说明我们后端的深度缩放程序。遮挡边界和折叠遮挡边界表示深度不连续的位置，其中一侧的曲面与另一侧的曲面物理断开。当绘制时，工作人员还指定遮挡的哪一侧更靠近观察者，即，遮挡两侧曲面的深度顺序。工作人员需要区分两种遮挡边界。平滑遮挡（图2（a）中的绿色）是指较近的表面平滑地弯曲远离观察者，表面法线应与遮挡线正交并平行于图像平面，并指向较远的一侧。尖锐咬合（图2（a）中的红色）没有这些限制。另一方面，褶皱表示表面法向不连续的位置，其中表面几何形状突然改变，但褶皱两侧的表面仍然物理上彼此连接（图2（a）中的橙色）。遮挡边界将面域分割为子面域，每个子面域都是连续曲面，其几何体可以突然更改，但在三维中保持物理连接。折叠进一步将连续曲面分割为平滑曲面，其中几何形状平滑变化，而曲面法线不连续。表面法线工人首先指定如果一个光滑的表面是平面或曲面。她在每个平面上注释一个法线，以指示平面的方向。对于每个曲面，她会在她认为合适的任意多个位置注释法线。法线被可视化为源自绿色网格的蓝色箭头（参见补充材料），根据已知焦距在透视投影中呈现。这种可视化有助于工作人员在3D中理解正常情况[7]。要旋转和调整法线，工人只需要拖动鼠标。相对法向最后，为了以更高的精度注释法线，工人指定每对平面表面之间的相对法向。她在 Neither 、Parallel和Orthogonal之间进行选择。平行的曲面对或然后自动调整它们的法线以反映这种关系。交互式预览在注释时，工作人员可以单击按钮查看从当前注释构建的3D形状的可视化（稍后将在第2节中详细介绍）。4）.工人可以旋转或缩放，以检查从预览窗口中的不同角度的形状（图2（a））。她继续工作，直到她满意的形状。质量控制完成我们的3D标注任务需要相关概念的知识。为了确保数据集的高质量，我们要求每个工作人员完成培训课程，以学习遮挡，折叠和法线等概念然后，她需要通过资格测验，才能被允许在我们的一个符号的任务工作。除了明确选择合格的工作人员外，我们还对每个收集的网格设置了单独的质量验证任务。在这项任务中，工人检查网格以判断它是否很好地反映了图像。仅接受被视为高质量的补片。为了提高注释吞吐量，我们从两个来源收集了注释：Amazon Mechanical Turk，占所有注释的31%，以及一家雇用全职注释员的数据注释公司，他们提供其余的注释。4. 从人文诠释到深度密集由于人类不会直接注释每个像素的深度值，因此我们需要将人类注释转换为像素深度，以便可视化3D表面。生成密集曲面法线我们首先描述如何从注释生成密集曲面法线。我们假设法线在空间域中是平滑变化的，除了在法线突然变化的折叠或遮挡边界。因此，我们的系统propa-门已知的法线未知的，要求最终的法线是顺利的整体，但停止propa-门，682图3. OASIS的统计数据。(a)焦距分布（单位：相对于图像宽度的长度）。(b)曲面法线的分布（c）边界：仅包含遮挡、仅包含褶皱或两者都包含的区域的比率曲率：仅包含平面、仅包含曲面或两者的区域的分布(d)区域内每种表面类型的频率分布在褶皱和咬合线处的gation。更具体地，令Np表示法线映射N上像素p处的法线，并且F，O表示属于折叠和遮挡边界的像素。我们在位置Pknown处具有一组已知的法线Nn，其来自（1）工人的表面法线注释，以及（2）如第3节中所提及的沿着平滑遮挡边界的预先计算的法线每个像素p具有四个相邻像素Φ（p）。如果p在一个每个S ∈ S的Z S 然后，我们为每个S求解缩放因子XS，其用于缩放深度ZS。令O表示遮挡边界的集合沿着O，我们密集地采样一组点对B。每对（p，q）∈B有p落在其中一个遮挡边界Oi∈O的较近侧而q是另一侧。像素p所在的连续表面on是S（p），它的深度是Zp。最佳缩放因子X的集合如下求解：在一个封闭边界上，它在该边界的较近侧的邻居是ΓO（p）。如果p在一条折线上，只有它的邻居本文考虑了在这条直线的固定随机边上的Γ F（p）。ΣX= argminXSXS∈S（三）我们使用LU分解来求解最优的正常N然后将其归一化为单位范数：S.T.XS（p）Zp+<$N ≤ XS（q）Zq，<$N（p，q）∈ B（4）XS≥η，<$S∈S（5）ΣN= argminΣ|N p− N q|2个以上其中，θ>0是表面之间的最小间隔，并且Np/∈F<$Oq∈Φ（p）q/∈F<$Oη >0是最小比例因子。当量(4)要求sur-Σ Σ|N pΣ- N Q|2个以上Σ|N p -N q|2缩放后的面满足由点对（p，q）∈B与此同时，Eq。(3)约束p∈Oq∈ΓO（p）p∈Fq∈ΓF（p）（一）X的值，使它们不会无限增加。Af-在校正深度顺序之后，表面SS.T.Np=N<$p，<$p∈Pknown（2）生成密集深度我们的深度生成流程包括两个阶段：首先，从表面法线和焦距，我们通过积分恢复每个连续表面的深度[25]。接下来，我们通过执行表面深度缩放来调整这些表面之间的深度。2（b）），即每个表面具有其自己的比例因子。我们的设计是基于这样一个事实：在单视图深度恢复中，连续表面内深度只能恢复到模糊尺度;因此，不同的表面可能以不同的尺度结束，导致表面之间的不正确的深度或排列。但是工作人员已经决定了遮挡边界的哪一侧更接近观察者。基于这样的知识，我们通过缩放每个表面的深度。我们现在描述细节。设S表示所有连续曲面的集合。通过积分，我们得到了683S是X<$ZS。我们将最终的深度归一化并重新投影到3D作为点云，并生成3D网格用于可视化。5. 数据集统计数据图3绘制了3D表面的各种统计数据。图图3（a）绘制了焦距的分布我们看到OASIS中的焦距变化很大：从广角到远距离变焦，大多是图像宽度的1×到10×图3（b）显示了表面法线的分布。我们看到一个实质性的比例-法线的方向直接指向相机，这表明平行正面表面经常出现在自然场景中。图3（c）显示了区域统计数据。我们看到，大多数区域（90%以上）包含遮挡边界，接近一半的区域既有遮挡边界又有折叠（顶部）。我们还看到，大多数区域（70%以上）至少包含一个曲面（底部）。图3（d）示出了684纽约大学深度[31]（深度平均值：2.471 m，深度标准：0.754米）坦克&神殿[16]（平均深度：4.309m，深度标准：3.059米）人际人体传感器CNN传感器人际人体传感器CNN传感器深度（EDist）0.078m0.095m0.097米[17]0.194m0.213m0.402米[17]法线（MAE）13.13岁17.82分[44]第四十四话14.33分20.29分[44]第44话旋转后深度（EDist）0.037m0.048m-0.082m0.080m-深度顺序（WKDR）5.68%8.67%11.90%9.28%百分之十点八32.13%表1.不同人之间的深度和正常差异（Human-Human），人和深度传感器之间的深度和正常差异（Human-Sensor），以及ConvNet和深度传感器之间的深度和正常差异（CNN-Sensor）。结果是所有人类配对的平均值。图4.人类可以正确地估计形状，但绝对方向可能会稍微偏离，从而在透视反投影到3D后导致较大的深度误差。法线全局旋转后，深度误差显著下降（从0.07 m降至0.01 m）注释区域中不同类型曲面的数量。我们看到，大多数区域由多个不连通的部分组成，并且在连续性和光滑性方面具有非平凡的几何形状。注释质量我们研究注释的准确性和一致性。为此，我们从NYU Depth [31]和Tanks and Temples [16]中随机抽取了50张图像，并让20名工作人员对每张图像进行注释。选项卡. 1报告了人类注释之间、人类注释与传感器地面实况之间以及最先进的ConvNets预测与传感器地面实况之间深度差通过两个点云中的对应点之间的平均欧几里得距离（EDist）来测量，在通过全局平移和缩放（用于人类注释和CNN预测的表面缩放）将一个点与另一个点正常差异以平均角误差（MAE）测量。我们在Tab中看到。1，人类注释彼此之间以及与传感器地面实况高度一致，并且优于ConvNet预测，特别是当ConvNet没有在同一数据集上训练和测试时。我们观察到，人类通常会正确地估计形状，但整体方向可能会稍微偏离，导致与传感器地面真实值相比存在较大的深度误差（图10）。4）.对于接近于与图像平面正交的平面，该误差可能特别明显。因此，我们还计算与传感器地面真实值旋转对齐后的误差-我们在生成形状之前全局旋转人类注释的法线在考虑了法线的这种全局旋转后，NYU和Tanks和Temples的人类传感器深度差进一步减少了47.96%（相对）和62.44%（相对）;显著在人-人差异中也观察到正常误差的下降。我们还通过评估WKDR指标[5]来衡量人类注释的定性方面，即在查询深度和参考深度之间具有不一致的深度排序的点对的百分比年龄。深度对的采样方式与[5]相同。选项卡. 1再次表明，人类注释是定性准确和高度一致的。值得注意的是，度量3D精度对于许多任务（如导航、对象操作和语义场景理解）来说是不需要的-人类在没有完美的度量精度的情况下也能做得很因此，无论其度量精度如何，人类对深度的感知都可以成为训练和评估视觉系统的黄金标准因此，我们的数据集仍然是有价值的，即使它的度量准确性比目前低。6. 实验为了促进未来的研究，我们使用OASIS来训练和评估一系列单图像3D任务的领先深度学习模型，包括深度估计，法线估计，边界检测，平面分割。定性结果见图。5.所有任务均使用110 K、10 K、20 K的训练-验证-测试分割。对于每个任务，我们估计人类的表现，以提供一个上限占人类注释的方差。我们从测试集中随机抽取了100张图像，并让8名群众工作者对每张图像进行重新注释。也就是说，每个图像现在都有来自8个不同人类的“预测”。我们评估每个预测，并将平均值报告为平均人类的预期性能。685图像深度正常遮挡折叠平面Inst图像深度正常遮挡折叠平面Inst图5.代表性模型的四个任务的定性输出更多的细节和例子在补充材料中6.1. 深度估计我们首先研究单视图深度估计。OASIS提供了野外像素深度测量但是，如第4节所述，由于固有的单图像模糊性，在每个连续表面内独立地恢复OA-SIS中的深度恢复的深度仅在每个连续表面内缩放和连续表面之间排序时才是准确的。鉴于此，在OASIS中，我们提供了公制深度地面实况，其表面精度高达比例因子。这种新的深度形式需要新的评估指标和训练损失。OASIS中的图像具有不同的焦距。这意味着要评估深度估计，我们不能简单地使用预测深度图和地面实况图之间的像素差异这是因为预测的3D形状在很大程度上取决于焦距-给定相同的深度值，减小焦距将使形状沿深度维度变平实际上，测试图像的焦距通常是未知的因此，我们需要一个深度估计器来预测焦距以及深度。因为预测的焦距可能不同于地面实况焦距，所以逐像素深度差是预测的3D形状与地面实况有多接近的不良指示符。一个更合理的度量是预测和地面实况3D点云之间的欧几里得距离。具体地，我们使用f（预投影）将预测深度Z反投影到3D点云P={（Xp，Yp，Zp）}。指定焦距），以及地面实况深度Z至P={（X，Y，Z）}使用f（地面真实焦距）。其中S（p）表示像素p所在的表面。地面实况点云P通过其X坐标的标准偏差σ（X）归一化为规范尺度。在该度量下，只要P在缩放和平移方面是准确的，它将与Pπ完全对准，并且得到0误差。注意，LSIV RMSE忽略两个单独表面之间的排序;它允许漂浮在空中的物体被任意缩放。这通常不是问题，因为在大多数场景中，没有太多物体漂浮在空中。但是我们也测量了深度排序的正确性。我们报告WKDR [5]，这是预测深度中具有不正确深度顺序的点对的百分比。我们以与[5]相同的方式对采样的深度对进行评估，即一半是随机配对，一半来自相同的随机水平线。我们在OASIS上训练和评估两个领先的深度估计网络：沙漏网络[5]和ResNetD [38]，一个基于ResNet50的密集预测网络。每个网络预测一个度量深度图和一个焦距，它们一起用于将像素反向投影到3D点，将其与地面真实值进行比较以计算LSIV RMSE度量，我们在训练期间将其优化为损失函数请注意，我们不监督预测的焦距。我们还评估了在OASIS上估计单图像深度的领先预训练模型，包括在ILSVRC [27]和NYU Depth [31]上训练的 FCRN [17] ，在 MegaDepth [18] 上训练的 Hour-glass[18] ，在 ILSVRC [27] ， Depth in the Wild [5] ，ReDWeb [38]和YouTube 3D [6]等数据集组合上训练的ResNetD [38]对于不产生焦距的网络，我们使用验证集来找到导致最小值的最佳焦距P P P将该焦距用于每个测试图像。然后我们计算P和P之间的距离。度量还需要对表面深度缩放和平移保持不变。因此，我们引入了一个表面尺度因子λ Si 一种是表面上的，平移δSi∈S，以对齐每个预测表面Si∈S以最小二乘法的方式，将P中的点云映射到地面实况点云P最后一个指标，我们称之为局部尺度-不变RMSE（LSIV RMSE）定义为：（X此外，我们还评估了plane，这是一个预测均匀深度图的朴素基线。选项卡. 2报告结果。在度量深度方面，我们发现在OASIS上训练的网络表现最好。这是预期的，因为它们被训练来预测焦距并直接优化LSIV RMSE度量。It is noteworthy that ImageNet pretraining provides asignificant benefit even for this purely geometrical task.现成的模型并没有表现得比天真的基线，proba-LSIV RMSE（Z，Z）= minΛ， Λp（p p pσ（ X）（六）这是因为它们没有在足够多样化的场景上进行训练方面- λS（p）（Xp，Yp，Zp）−（0，0，δS（p）2，相对深度，有趣的是，ResNetD训练了686表2. OASIS上不同网络的深度估计性能（越低越好）。对于不产生焦距的网络，我们使用导致最小误差的最佳焦距。在ImageNet和OASIS上的表现最好，即使训练损失并没有强制执行深度排序。我们还看到，人类的表现和机器的表现之间仍有很大的差距。与此同时，差距并不是大得无可救药，这表明了大训练集的有效性方法训练数据绿洲角距离是说中值%11.25o 内22.5◦t30◦相对正常AUC oAUC p高尔夫球场[7]绿洲23.3418.0831.4459.7972.250.55080.5439高尔夫球场[7]雪[7]30.7426.6514.3340.8456.730.53290.4714高尔夫球场[7]纽约大学[31]34.6928.7614.6538.4952.060.54150.5061[44]第四十四话纽约大学[31]38.0933.0011.9432.5845.290.57290.5227前置-31.2024.7627.3646.6256.940.50000.5000人类（近似值）-17.4313.0843.8975.9484.720.88700.6439表3.OASIS上的表面法线估计方法训练数据Dio美国[35]ETH3D [30]角距离是说%范围内11.25o22.5 ◦t30◦角距离是说%范围内11.25o22.5 ◦t30◦高尔夫球场[7]绿洲34.5713.7135.6949.6534.5123.5252.0462.73高尔夫球场[7]雪[7]40.108.2927.2040.6745.7110.6931.1643.16高尔夫球场[7]纽约大学[31]42.2310.9729.7641.3541.8421.9444.0553.81[44]第四十四话纽约大学[31]42.599.9629.0840.7239.9118.6844.7656.08前置-47.765.6218.7028.0558.9711.8423.7530.19表4.跨数据集泛化。6.2. 表面法线估计我们现在转向单视图表面法线估计。我们评估绝对正常，即。逐像素预测法向值和相对法向，即，在平面表面之间预测的平行和正交关系。绝对正态评估我们使用标准的指标亲-[37]第37话：一个人的幸福，以度为单位测量的最大误差，以及角度误差在γ度内的像素的百分比。我们在OASIS上评估了四个经过训练可直接预测法线的最先进网络：（1）在OASIS上训练的沙漏[7]，（2）在野外表面法线（SNOW）数据集上训练的沙漏[7]，（3）在纽约大学深度上训练的沙漏[31]，以及（4）PBRS，Zhang等人的正态估计网络。[44]第31话，我的天我们还包括正面，一个天真的基线预测所有法线正交的图像平面。选项卡. 3报告结果。正如预期的那样，在OASIS上训练的沙漏网络表现最好。虽然SNOW也是一个野外数据集，但在其上训练的同一个网络的表现并不好，但仍然更好图6.标准度量的局限性：深度网络的平均角度误差很低，但重要的细节是错误的。比在纽约大学接受训练更重要值得注意的是，人机差距在数值上相当小（平均角度误差为17.43对23.34）。然而，我们观察到，幼稚基线可以达到31.20;因此，由于法线在野外的自然分布，该度量的动态范围开始时很小。此外，对结果的仔细检查表明，表面法线的这些标准度量与感知质量不一致。在自然图像中，可能存在主导度量但具有无趣几何形状的大区域，例如背景中的空白墙。例如图6、神经网络可以正确地获得背景，但在很大程度上错过了前景中的重要细节。这就提出了一个关于开发新的评估指标的有趣的研究问题。相对法线评估我们还根据相对关系，特别是正交性和平行性来评估预测法线正确地获得这些关系是很重要的，因为它可以帮助找到消失线和执行自校准。我们首先定义一个度量来评估相对正常。从人的注释，我们首先采样的点对的平行，正交，和既不从表面对的相等数量。给定一个预测的法线贴图，我们观察每个点对上的两条法线，并测量它们之间的角度θ我们认为它们是正交的，如果|cos（Θo），如果|cos（Θ p），其中Θ o、Θ p是阈值。|> cos(Θp), where Θo, Θpare thresholds.然后，我们通过改变Θ o绘制正交的精确度和召回率曲线，并测量其曲线下面积AUCo，使用两者都不是和平行对作为负例。改变Θp，用Neither和Orthogonal作为反例，我们得到了平行的AUCp。选项卡. 3报告相对正常的评价结果。值得注意的是，所有方法的表现相似，并且与人类相比这表明现有的正态估计方法在捕获正交性和并行性方面存在局限性，表明需要进一步研究。跨数据集泛化接下来，我们研究在OASIS上训练的网络如何泛化到其他数据集。表面法线估计对于这样的评估是理想的，因为不像深度，由于尺度模糊和变化的焦距，在新的数据集上评估深度是棘手的，法线估计网络可以直接在新的数据集上评估而无需修改。方法训练数据LSIV RMSEWKDRFCRN [17][31]第27话我的世界0.6739.94%沙漏[5，18][18]第十八话0.6738.37%ResNetD [38，6][27]第二十六话：我的世界[38]第五届中国国际纺织品展览会0.6634.03%ResNetD [38][27]第二十七话0.3732.04%ResNetD [38]绿洲0.4738.79%高尔夫球场[5]绿洲0.4739.64%平面-0.67百分之一百687我们在OASIS和NYU上训练了相同的沙漏网络，并在两个训练中没有看到的基准上报告了它们的性能：[35]和ETH3D [30]。从Tab。4我们看到，在纽约大学的训练在所有基准测试中都表现不佳，这表明在特定场景数据集上训练的网络很难推广到不同的场景。关于OASIS的培训在所有基准中都表现出色，证明了各种注释的有效性。6.3. 折叠和遮挡边界检测遮挡和折叠都是重要的3D提示，因为它们告诉我们物理连接性和曲率：遮挡描绘了表面彼此物理断开的边界，而折叠是几何体突然变化但表面保持连接的地方。我们研究联合边界检测和遮挡与折叠分类：决定像素是否是边界（折叠或遮挡），如果是，则决定它是哪种。以前的工作探讨了类似的主题：Hoiem等人[13]Stein et al.[33]手工制作边缘或运动特征来执行遮挡检测，但我们的任务涉及折叠，而不仅仅是遮挡线。模型度量边缘：全折叠边缘：所有发生HED [40]沙漏[五]《中国日报》人类（近似值）ODS0.1230.5390.5330.5850.810OIS0.1290.5760.5840.6390.815AP0.0200.4400.4660.5470.642表5.OASIS上的边界检测性能我们采用类似于边缘检测中使用的标准度量的度量[1，40]：F-每幅图像的最佳阈值（OIS），固定阈值（ODS）和平均精度（AP）的分数。对于被认为是正确的边界，它必须被正确地标记为遮挡或折叠。Moredetails on the metrics can be found in the sup- plementarymaterial.为了执行折叠和遮挡的联合检测，我们在OASIS上调整和训练了两个网络：沙漏[5]和最先进的边缘检测网络HED [40]。该网络接收图像，并输出每个像素的两个概率：pe是边界像素（遮挡或折叠）的概率，pf是折叠像素的概率。给定阈值τ，其petτ既不折叠也不遮挡的像素。如果pF> 0，则pE> τ的像素是折叠的。5、其他的封闭。作为基线，我们还研究了如何一个通用的边缘去-tector将执行此任务。我们使用在BSDS数据集[1]上训练的HED网络来检测图像边缘，并将所得边缘分类为全遮挡（边缘：全遮挡）或全折叠（边缘：全折叠）。所有结果均报告在表5中。当在OASIS上训练时，Hourglass的表现优于HED，并且显著优于全折叠和全遮挡基线，但仍然大大低于人类，这表明折叠并且遮挡边界检测在野外仍然具有挑战性。6.4. 平面实例分割我们最后一个任务的重点是飞机在野外的实例分割此任务很重要，因为平面在场景中通常具有特殊的功能角色（例如，支撑表面、壁）。先前的工作已经探索了平面的实例分割，但仅限于室内或驾驶环境[21，42，20，41]。感谢OASIS，我们能够在野外首次对这项任务进行评估。我们遵循之前的工作[21，20，42]执行此任务的方式：网络接收图像，并产生平面的实例掩码，以及定义每个3D平面的平面参数的估计。为了衡量性能，我们报告了实例分割文献[19]中使用的指标如果地面实况平面与检测到的平面之一重叠超过重叠阈值，则认为其被正确检测到，并且我们如[8]中那样惩罚多次检测。我们还报告了50%重叠（AP50%）和75%重叠（AP75%）的AP。平面重建Yu et al.[42]是平面实例分割的最新方法。我们在三种数据组合上训练Pla- narReconstruction：（1）仅扫描- Net [9]，如[42]中所做的那样，（2）仅OASIS，以及（3）扫描- Net + OASIS。选项卡. 6比较他们的表现。正如预期的那样，单独在ScanNet上进行训练的效果更差，因为ScanNet只有室内图像。在OASIS上进行训练可以提高性能.利用ScanNet和OASIS是最好的整体。但即使是最好的网络也明显不如人类，这表明有足够的改进空间。方法训练数据APAP50%AP75%ScanNet [9]0.0760.1610.065[42]第四十二话绿洲0.1270.2500.112加拿大[9]0.1390.2640.130人类（近似值）-0.4610.5420.476表6.OASIS上的平面实例分割性能7. 结论我们介绍了OASIS，一个包含丰富人类3D注释的数据集。我们在各种单一图像任务上训练和评估了领先的模型。我们希望OASIS成为3D视觉研究的有用资源。致谢这项工作得到了国家科学基金会赠款的部分支持（第100号）。1617767），谷歌的礼物，和普林斯顿海洋创新补助金。引用[1] 巴勃罗·阿贝莱斯，迈克尔·梅尔，查利斯·福克斯，还有吉坦德拉·马利克.轮廓检测与分层图像分割688心理状态 IEEE Transactions on Pattern Analysis andMachine Intelligence，33（5）：898[2] Jonathan T Barron和Jitendra Malik。颜色恒常性、内在图像和形状估计。欧洲计算机视觉会议，第57-70页。Springer，2012.[3] Sean Bell，Paul Upchurch，Noah Snavely，and KavitaBala. OpenSurfaces：一个有丰富注释的表面外观目录ACM Trans. on Graphics（SIGGRAPH），32（4），2013.[4] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个自然的开放源代码电影光流评估。在A.菲茨吉本等人（编），编辑，欧洲会议关于计算机视觉（ECCV），第IV部分，LNCS 7577，第611-625页。Springer-Verlag，Oct. 2012年。[5] 陈伟峰，赵甫，杨大伟，邓佳。在野外的单一图像深度感知。神经信息处理系统的进展，第730-738页，2016年[6] Weifeng Chen，Shengyi Qian，and Jia Deng.使用质量评估网络从视频中学习单图像深度在IEEE计算机视觉和模式识别会议论文集，第5604-5613页[7] 陈伟峰，向东来，邓佳。在野外的地表正常人。在2017年IEEE国际计算机视觉会议论文集，意大利威尼斯，第22-29页[8] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213[9] Angela Dai，Angel X Chang，Manolis Savva ，MaciejHal- ber，Thomas A Funkhouser，and Matthias Nießner.Scan-net：室内场景的丰富注释3D重建。在CVPR，第2卷，第10页，2017年。[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[11] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统的进展，第2366-2374页，2014年[12] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。 InternationalJournalofRoboticsResearch（IJRR），2013。[13] Derek Hoiem、Alexei A Efros和Martial Hebert。从图像中恢复遮挡边界国际计算机视觉杂志，91（3）：328[14] Eddy Ilg，Tonmoy Saikia，Margret Keuper，and ThomasBrox.遮挡，运动和深度边界与视差，光流或场景流估计的通用网络在欧洲计算机视觉会议（ECCV）的会议记录中，第614-630页[15] Kevin Karsch，Zicheng Liao，Jason Rock，Jonathan T.巴隆，和德里克·霍伊姆。三维物体形状恢复的边界线索。CVPR，2013。689[16] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Koltun.坦克和寺庙：大规模场景重建的基准ACM Transactions on Graphics，36（4），2017。[17] IroLaina、ChristianRupprecht、VasileiosBelagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。2016年第四届3D视觉国际会议（3DV），

下载后可阅读完整内容，剩余1页未读，立即下载