Omnidata：基于3D扫描生成可扩展的多任务中层视觉数据集的流程

95 浏览量更新于2023-10-15 收藏 33.57MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

CouchChairTablePlant…Stool12 3 11 23412 3 11 234This paper introduces a pipeline to parametrically sam-ple and render static multi-task vision datasets from com-prehensive 3D scans from the real-world. In addition toenabling interesting lines of research, we show the toolingand generated data suffice to train robust vision models. Fa-miliar architectures trained on a generated starter datasetreached state-of-the-art performance on multiple commonvision tasks and benchmarks, despite having seen no bench-mark or non-pipeline data. The depth estimation networkoutperforms MiDaS and the surface normal estimation net-work is the first to achieve human-level performance for in-the-wild surface normal estimation—at least according toone metric on the OASIS benchmark.The Dockerized pipeline with CLI, the (mostly python)code, PyTorch dataloaders for the generated data, the gen-erated starter dataset, download scripts and other utilitiesare all available through our project website.107860Omnidata：从3D扫描中制作多任务中层视觉数据集的可扩展流程0Ainaz Eftekhar†� Alexander Sax‡� Jitendra Malik‡ Amir Zamir†0†瑞士联邦理工学院（EPFL）‡加利福尼亚大学伯克利分校0https://omnidata.vision0输入3D扫描0:采样的相机位置0输出图像中的中层线索0碎片（流）0RGB图像0曲率0重新着色0二维关键点0Z-缓冲深度0语义分割0三维关键点0纹理边缘0实例分割0欧几里得深度0类别存在0遮挡边缘02D分割0相机内参02.5D分割0法线0相机外参0消失点0全景分割0点匹配0图1：从现实世界的3D扫描中生成中层线索。（左）所提出的流程在输入空间中生成密集的相机位置和感兴趣点，（右）默认情况下渲染21个不同的图像中线索。在OASIS [12]上，使用这个程序生成的初始数据集训练的模型大致与人类的表面法线估计性能相匹配（见第4节）。0摘要0�平等贡献。01. 引言0本文介绍了一种桥接全面3D扫描和静态视觉数据集之间差距的流程。具体而言，我们实现并提供了一个平台，该平台以以下之一作为输入：0• 一个带纹理的网格，•一个带有来自实际相机/传感器的图像的网格，•一个3D点云和对齐的RGB图像，0并生成一个多任务数据集，其中包含尽可能多的相机和图像，以密集地覆盖空间。对于每个图像，默认情况下有21个不同的中层线索，如图1所示。该软件利用Blender[16]，一个功能强大的基于物理的3D渲染引擎来创建标签，并对采样和生成过程进行完全控制。随着价格合理的3D传感器（如Kinect、Matterport和最新的iPhone）的普及，我们预计这种带有3D注释的数据将会增加。为了确保训练计算机视觉模型的可靠性，我们使用我们的流程对几个现有的3D扫描进行了注释，并生成了一个中等规模的中层线索初始数据集。数据和不同线索的样本如图5所示。在标准模型上进行训练107870这个初始数据集在几个标准计算机视觉任务中达到了最先进的性能。对于表面法线估计，使用这个初始数据集训练的标准UNet [45]模型在野外数据集OASIS[12]上实现了人类级别的表面法线估计性能，即使模型在训练过程中从未见过OASIS数据。对于深度估计，我们的DPT-Hybrid [41]与MiDaS DPT-Hybrid [42,41]等最先进模型相媲美甚至超越。这些网络的定性性能（如图6、7所示）通常比数字所示的要好，尤其是对于细节方面。我们还提供了一个围绕这个平台的工具和文档生态系统。我们的项目网站包含了一个包含注释器和所有必要库的Docker链接，用于高效加载生成的数据的PyTorch[39]数据加载器，预训练模型，生成视频和图像的脚本，以及其他实用工具。我们认为这些结果不应该被狭隘地解释。该平台的核心思想是“环境的部分[光场]阵列不应该与阵列的临时样本混淆”（J.J.吉布森[21]）。也就是说，静态图像只代表了环绕一个代理的整个360度全景光场环境的单个样本。一个代理或模型如何采样和表示这个环境将影响其在下游任务上的性能。本文提出的平台旨在降低研究数据采样实践效果和数据分布、数据表示、模型和训练算法之间相互关系的技术障碍。我们在这里讨论了方向，并在本文的最后一节分析了一些说明性的例子。首先，本文提出的流程提供了理解这种采样效果的可能途径。也就是说，渲染流程对摄像机内参、场景光照、对象中心性[40]、“摄影师偏见”的程度[6]、数据域等（迄今为止）固定的设计选择提供了完全的控制。这使得可以进行干预研究（例如A/B测试），而无需收集和验证新的数据集或依赖事后分析。因此，这为计算机视觉“数据集设计指南”提供了一条途径。其次，视觉远不止于语义识别，但我们的数据集偏向于将其作为核心问题。最广泛研究、最多样化和最大的数据集（>10M张图像）通常包含某种形式的文本/类别标签[18,51]和仅有RGB图像。另一方面，大多数非分类任务的数据集在现代标准下仍然很小。例如，用于训练一些最先进的深度估计模型[62]的室内场景数据集NYU[47]仅包含795个训练图像，全部用单个相机拍摄。该流程提供了一种为非识别任务生成具有可比质量的数据集的方法。0第三，生成的数据允许“匹配对实验设计”，简化了对不同任务之间相互关系的研究，因为该流程为每个样本生成标签。特别是，它有助于避免以下问题：假设在ImageNet上训练的用于目标分类的模型比在NYU上训练的用于深度估计的模型更好地迁移到COCO[32] -这是由于数据领域，训练任务，相机内参的多样性还是其他原因？现有的匹配对数据集通常专注于单个领域（室内场景[64, 47, 3, 50]，驾驶[20,17]，块世界[24]等）并且包含很少的线索[17, 47, 3,50]。提供的起始数据集可能比这些现有数据集更适合这项研究，因为它包含来自不同领域的超过1450万张图像（比完整的ImageNet数据库还多），包含许多不同的线索（例如深度，表面法线，曲率，全景分割等），并且在该数据集上训练的模型在多个任务和现有基准测试中达到了出色的性能。我们在第5.3节中展示了这种匹配对数据的价值。尽管我们的流程旨在促进对数据集设计原则的理解，超越识别的视觉，数据，任务和模型之间的相互关系，但本文并没有深入探讨这些问题本身。它提供了一些分析，但这些仅仅是作为说明性示例。相反，本文介绍了一种旨在促进随着3D数据的广泛可用性和捕捉技术的改进而进行的研究的工具。在我们的网站上，我们提供了一个有文档记录的，开源的，基于Docker的注释器流程，具有方便的CLI，可运行的示例，起始数据集，预训练模型，PyTorch数据加载器和代码（包括注释器和模型）。02. 相关工作0在本节中，我们将研究相关数据集和其他方法。全面的回顾将占用更多的空间，因此我们只关注最相关的分组。静态3D数据集。过去几年见证了基于网格的数据集数量的增加，这主要归功于价格合理的3D扫描仪的可用性。然而，当前批次中的每个数据集通常都包含在受限领域内的场景。室内建筑数据集的著名示例包括斯坦福建筑数据集（S3DIS）[5]，Matterport3D [9]，Taskonomy [64]，Replica[50]，2D-3D-Semantic [4]，Habitat-Matterport[36]和Hypersim[44]。其他数据集主要包含室外场景，通常是驾驶 -例如CARLA [20]，GTA5 [43] -或其他狭窄的领域，如名为Tanks and Temples[28]的数据集。在这种场景级视图上训练的模型通常无法推广………107880II. 泊松盘0相机（）采样0III. 兴趣点（）0采样0IV. 每张图像线索生成03D关键点0曲率0纹理边缘法线0RGB图像02D分割0线索生成流程0I. 输入网格0（带纹理或RGB）0图2：生成流程概述。（I）给定纹理网格（或第3.1节讨论的其他选项），我们的流程（II）生成密集的相机位置，（III）生成符合多视角约束的兴趣点，（IV）为每个兴趣点生成21种不同的中层线索（如图1所示）。0转向以物体为中心的视图（参见图7），但是现有的具有高分辨率物体网格的数据集不包括2D图像样本[1, 8]。0其他最近的数据集旨在将不同的单眼2D图像和相应的3D网格联系起来，但采用了与本文相反的方法，即使用手动注释从单视角野外RGB样本创建网格[12,13]。这种标注过程既昂贵又耗时，并且关键是不允许重新生成图像数据集。在第4.3节中，我们将我们的流程与OASIS进行比较，OASIS是这些基准中最大且最多样化的之一，并且证明在我们的起始数据集上训练的模型已经达到了OASIS上的人类水平性能 -超过了在OASIS本身上训练的相同架构模型。0以视觉为重点的模拟器。与我们的平台类似，模拟器通常以纹理网格作为场景的表示，并旨在产生逼真的感官输入[36，59]。虽然在精神上与本文提出的管道相似，但当前一代模拟器的设计首要目标是训练具有实体的代理。它们优先考虑渲染速度和实时机制，而牺牲了逼真度和线索多样性[25，38]。将这些模拟器扩展到处理其他线索或参数化渲染视觉数据集通常需要编写模拟器代码库的新组件（通常使用C++、CUDA或OpenGL），这是一个可以克服但不愉快的入门障碍。相比之下，我们的平台扩展了Blender，它“支持整个3D管道”[15]，并提供了对大多数视觉研究人员来说直观的Python绑定，我们实现了许多这些线索和采样方法。简而言之，我们提供了模拟器和静态视觉数据集之间的桥梁。0多任务数据集。基于视觉的多任务学习（MTL），就像计算机视觉一样，对识别显示出一般偏见。MTL数据集通常将不同的分类问题作为核心问题[30，57，35]。特别是，MTL文献经常关注专门领域的二元属性分类。0主要是Caltech-UCSD Birds [58]或CelebA[34]等数据集。包含非识别任务的视觉多任务学习数据集通常只包含单个领域或少数任务（如NYU [47]，CityScapes[17]或Taskonomy[64]）。有时，MTL论文会将混合数据集视为“单个”任务，并将每个数据集视为不同的任务[33，42，31，41]。0总的来说，多任务学习文献对于设置或数据集的标准化定义尚未达成一致。最近的研究表明，基于现有数据集开发的MTL方法似乎专门针对其各自的开发集进行了优化，并且在大型、逼真的数据集或其他任务上表现不佳[55，56，65]。这凸显了开发逼真的训练环境和能够推广到真实世界场景的数据集的重要性。0数据增强 +领域随机化。数据增强是一种修改数据或训练规则的方法，使得训练模型表现出期望的不变性（或等变性）。具体来说，任何传感器输入的变换，只要能够在标签上产生相应的（可能是恒等的）变换，都可以用作“增强”数据。简单的2D增强，如2D仿射变换、裁剪和颜色变化，在计算机视觉中是最常见的[10，22]，因为即使数据集缺乏3D几何信息，它们也可以使用。在机器人学和强化学习中，3D模拟器更为常见，数据增强被引入为“领域随机化”[53]，常见的增强包括对场景网格进行纹理和背景随机化。最近，[19]提出了一种基于Blender的方法，用于进行领域随机化，并从SunCG[52]创建RGB、深度和表面法线的静态数据集。0我们的管道使所有这些增强方法都适用于静态计算机视觉数据集：不仅包括翻转/裁剪/纹理随机化，还包括密集视点、多视图一致性、欧几里德变换、镜头光晕等）。我们在第5.1节中实现并检验了景深增强。3D MeshMeshPrincipalCurvatureReshadingDepthEuclideanDepthZ-Buffer3D KeypointsOcclusion Edges2.5D Segm.Surface NormalsRGBPanoptic Segm.2D Keypoints2D Segm.Texture EdgesFragments(Optical Flow)1078903. 管道概述0我们将我们的管道称为Omnidata，因为它致力于在生成的“数据”中封装全面的场景信息（“omni”）。在此处尝试一个实时示例，以熟悉该管道。该示例使用CLI和类似YAML的配置文件从Replica[50]中的纹理网格生成图像。输入：注释器操作以下输入：•未纹理网格（.obj或.ply）•要么：网格纹理或对齐的RGB图像•可选：预生成的相机姿势文件也可以使用3D点云：只需使用标准的点云网格化器（如COLMAP[46]）对点云进行网格化。有关使用注释器进行网格化和使用3D点云的示例，以及有关输入的更完整描述，请参见补充材料。输出：该管道在初始版本中生成21个中级线索。所有标签都适用于所有生成的图像（或视频）。图1提供了不同类型输出的视觉摘要。有关Omnidata注释器提供的默认中级线索和其他输出的详细描述，请参见补充材料。03.1. 采样和生成0在本节中，我们提供了生成和渲染过程的高级概述（参见图2），将完整细节推迟到补充部分。首先，标注员生成相机位置（图2 II）和感兴趣点（图2 III）沿着网格。0其次，对于每个相机和每个感兴趣的点，它创建一个从该相机固定在该点上的视图（图3下部显示了三个固定视图）。0第三，对于每个空间-点-视图三元组，标注员渲染（图4）所有中级提示（图2 IV）。下面详细介绍每个步骤。0平滑轨迹采样0宽基线多视图0图3：宽基线和窄基线密集视图采样。每个感兴趣点可以由保证的最小数量的相机查看。我们还提供了创建更密集视图的选项，具有更窄的基线（例如类似于连续的视频帧），这对于反向渲染方法至关重要。0图4：处理流程的DAG。流程使用一些中级提示来生成其他提示。DAG显示了此过程的顺序（对于图像类似的提示）。0相机和点采样：可以提供相机位置（如果网格带有对齐的RGB），或者如图2II所示，标注员在每个空间中生成相机，使得相机不在网格内部或重叠（默认情况下：通过泊松盘采样生成相机以覆盖空间）。然后，从网格中使用用户指定的采样策略对感兴趣的点进行采样（默认情况下：对每个网格面进行均匀采样，然后在该面上进行均匀采样）。然后过滤相机和点，以便每个相机至少看到一个点，并且每个点至少被一些用户指定的最小数量的相机看到（默认情况下：3）。视图采样：标注员提供了两种默认方法来生成每个点的视图。第一种方法（宽基线）生成图像，而第二种方法（平滑轨迹模式）生成视频。0•宽基线多视图：为每个空间-相机-点组合保存一个视图，其中相机中心和感兴趣点之间存在无阻挡的视线。相机固定在感兴趣点上，如图3底部所示。0•平滑轨迹采样：对于每个感兴趣的点，选择一组具有固定视角的相机，并在这些相机之间插值出平滑的三次样条轨迹。沿着该轨迹的规则间隔生成点的视图（参见图3，顶部）。0渲染中级提示：由于没有单一的软件能够提供所有中级提示，我们创建了一个相互连接的流水线，连接了几个不同的免费和开源软件。我们尽量主要使用Blender（一个3D创作套件），因为它有一个活跃的用户和维护社区，出色的文档和几乎所有功能的Python绑定。它被专业动画师和艺术家使用，通常经过良好优化。整个流水线相当复杂，所以107900RGB0ReplicaCLEVRGSO+ReplicaHypersimTaskonomy0语义法线重着色 Z-深度 2D关键点 3D关键点 2D边缘 3D边缘 2D分割 2.5D分割相机姿态欧几里得深度0图5：起始集合提供的中级提示。起始集合中每个组件数据集可视化的21个中级提示中的12个，其中包含场景和对象。带有红色边框的图像表示原始数据中未包含的提示。图1可视化了所有21个提示。0我们将完整的描述推迟到补充部分。提示生成的顺序如图4所示。完整的代码可在我们的网站上找到。性能：标注员可以以任何分辨率生成标签。起始数据集（512×512）中的每个空间+点+视图+提示标签通常在服务器或台式机CPU上花费1-4秒，并且可以在多台机器上并行处理。03.2. 生态系统工具0为了简化采用，我们的网站和相关的GitHub存储库提供了以下工具：0流水线代码和文档。包含注释器和正确链接的软件（Blender [15]，兼容的Python版本，MeshLab[14]等）的Docker。0PyTorch中的数据加载器，用于正确高效地加载生成的数据集0包含每个任务的14.5百万图像的起始数据集及其关联标签0方便的实用工具，用于下载和操作数据，并自动过滤不对齐的网格（在补充说明中进行了描述和敏感性分析）。0预训练模型和代码，包括MiDaS[42]训练代码的首个公开实现。04. 起始数据集概述0我们提供了一个相对较大的起始数据集，其中包含使用Omnidata注释器注释的数据。该数据集大约包含了1450万个来自场景和物体中心的图像。图5显示了起始数据集中的示例图像以及提供的21个中层线索中的12个。原始数据集中不存在的线索用红色边框标示。我们在第4.3节中对现有基准测试中的数据集进行了评估。0请参阅第4.3节中关于在现有基准测试中使用此起始数据集的方便性。请注意，该数据集可以直接扩展到其他现有的室外和驾驶数据集，如GTA5 [43]，CARLA[20]或Tanks and Temples [29]。4.1. 包含的数据集0起始数据是从7个基于网格的数据集创建的：室内场景数据集：Replica [50]，HyperSim [44]，Taskonomy[64]，Habitat-Matterport（HM3D）航拍/室外数据集：BlendedMVG [61]诊断/结构化数据集：CLEVR[24]以物体为中心的数据集：为了提供除场景为中心的视图之外的物体为中心的视图，我们创建了一个由Google扫描的对象[1]组成的数据集，这些对象散布在来自Replica[50]数据集的建筑物周围（类似于ObjectNet[7]为图像分类多样化图像）。我们使用Habitat[36]环境生成物理上可行的场景，并生成不同密度的对象。图5显示了图像示例，完整的生成过程描述在补充说明中。0图像空间点0数据集训练验证测试训练验证测试0CLEVR 60,000 6,000 6,000 1 0 0 72,0000Replica 56,783 23,725 23,889 10 4 4 4,1500Replica + GSO 107,404 43,450 42,665 10 4 4 31,1670Hypersim 59,543 7,386 7,690 365 46 46 74,6190Taskonomy 3,416,314 538,567 629,581 379 75 79 684,0520BlendedMVG 79,023 16,787 16,766 341 74 73 112,5760Habitat-Matterport 8,470,855 1,061,021 - 800 100 - 564,3280总计（不包括CLEVR）12,189,922 1,690,936 720,591 1,905 303 206 1,434,8920表1：组件数据集统计。起始数据集中每个组件的训练/验证/测试集大小的详细分解。4.2. 数据集统计0起始数据集包含来自2,414个空间的14,601,449个图像。视图既是场景中心的，也是物体中心的，并且用图1中列出的每种模态进行标记。相机视场角从30°到125°之间的截断正态分布中进行采样，平均值为77.5°，相机MethodTest DataL1 Error (↓)δ > 1.25 (↓)δ > 1.252 (↓)δ > 1.253 (↓)XTC [63]1.18085.2871.8660.22MiDaSv3 [41]OASIS [12]0.805782.0367.2555.35Omnidata0.790181.0065.2252.93XTC [63]0.527970.4149.9036.28MiDaSv3 [41]NYU [47]0.383863.8441.6528.97Omnidata0.287851.7330.9820.86MethodTraining DataMeanMedian11.25◦22.5◦30◦AUCoAUCp107910输入0Raftl等人0TPAI2000（MiDaS）0更好的细节更准确的深度更好的曲率0Raftl等人0TPAI2000（MiDaS）0图6：与MiDaS在零样本OASIS深度估计上的定性比较。最后2行显示从深度预测中提取的表面法线。我们的模型预测更准确的深度（左），并且在恢复细节方面也表现优于MiDaS模型（中）。如最后3列（右）所示的提取的表面法线，我们的深度预测更好地反映了物体的曲率和真实形状，而MiDaS模型的预测中相同区域呈现平坦。红色矩形突出显示用于比较的区域[最佳放大查看]。0在[-10°，10°]范围内，滚动是均匀的。表1包含了细分数据集的数据。04.3. 对现有计算机视觉的合理性0我们证明了生成的数据集能够训练标准的、现代的视觉系统达到现有基准的最先进性能。一旦我们建立了模型的可信度，我们进一步提供了一些转移实验来量化不同组件数据集之间的相关性。我们展示了在起始数据集的5个数据集部分（400万张图像）上训练的深度和表面法线估计模型在野外OASIS基准测试上具有最先进的性能。为了证明管道在语义任务中的有效性，我们展示了在较小的3个数据集部分（100万张图像）上训练的用于全景分割的网络的预测与在COCO[32]上训练的模型的质量相似。有关完整的实验细节和更多结果，请参阅补充材料。0表2：零样本深度估计。在NYU和OASIS上，使用在Omnidata起始数据集上训练的DPT-Hybrid与在现有深度数据集上训练的相同模型相比，性能相当或更好。0角度误差◦% 在t◦内的相对法线0Hourglass [11] OASIS [12] 23.91 18.16 31.23 59.45 71.77 0.5913 0.57860Hourglass [11] SNOW [13] 31.35 26.97 13.98 40.20 56.03 0.5329 0.50160Hourglass [11] NYU [48] 35.32 29.21 14.23 37.72 51.31 0.5467 0.51320PBRS [66] NYU [48] 38.29 33.16 11.59 32.14 45.00 0.5669 0.52530UNet [45] SunCG [49] 35.42 28.70 12.31 38.51 52.15 0.5871 0.53180UNet [45] Omnidata 24.87 18.04 31.02 59.53 71.37 0.6692 0.67580人类（近似）- 17.27 12.92 44.36 76.16 85.24 0.8826 0.65140表3：OASIS上的零样本表面法线估计。在Omnidata起始数据集上训练的UNet与在OASIS本身上训练的模型相匹配或超过，并且与人类水平的AUCp相匹配。请注意，第一行不是零样本，因为它是在OASIS上训练的。0单目深度估计：目前最好的深度估计方法是聚合多个较小的0数据集并使用尺度和平移不变损失[42,41]进行训练，以处理不同的未知深度范围和尺度。截至本文撰写时，“MiDaS v3.0”[41]中的基于DPT的模型在NYU [47]上表现出色。我们采用了与MiDaSv3.0类似的设置，但是在我们的起始数据集的5个数据集部分上进行训练，而不是他们的10个数据集混合1。与[41]一样，我们在尺度和平移对齐的逆深度空间中评估零样本跨数据集转移的测试预测和GT。表2显示，我们的起始数据集上训练的DPT-Hybrid在NYU[47]的测试集和OASIS的验证集（测试GT不可用）上优于MiDaSDPT-Hybrid。误差度量使用δ = max(d0d ) 其中 d 和 d �对齐的深度和地面真实值。我们的模型更好地恢复了物体的细节和真实形状，这在从预测中提取的表面法线中尤为明显（图6的最后2行）。有关详细信息、代码和更多定性结果，请访问我们的网站。表面法线估计：与OASIS表面法线轨迹上的现有模型类似，我们使用了一个基本的UNet[45]架构（6个下采样/6个上采样，类似于[63]），采用角度和L1损失、轻量级的2D数据增强和输入分辨率在256到512之间。我们使用Adam[26]进行训练，学习率为10^-4，权重衰减为2×10^-6。表3中的结果表明，我们的模型在OASIS AUCp上达到了人类水平的性能。在大多数其他指标上，它超过了在其他数据集上训练的相关模型（包括OASIS本身）和专门设计用于法线估计的架构（PBRS）。图7显示，我们的模型在选定的图像上的定性表现要比数字所示的好得多，这可能是因为标准指标与感知质量不一致，因为“无趣”的区域（墙壁、地板）占主导地位。01 MiDaS v3.0还使用MTAN[33]进行数据集平衡，尽管在第5.3节中我们研究了MTAN（它确实在我们的数据集上有帮助），但我们在这里使用了一种简单的采样策略，以保持与本文中大多数其他模型的一致性。Surface normal estimation: L1 Error (↓)Panoptic Quality (PQ) (↑)Train/TestTaskonomy Replica Hypersim Replica+GSO BlendedMVG h. mean Taskonomy* Replica Hypersim h. meanTaskonomy*4.857.768.6913.8915.558.538.393.9511.676.55Replica9.363.9811.7810.2815.028.241.0141.974.502.43Hypersim7.287.576.7211.3412.948.569.3514.0825.3913.80Replica+GSO13.884.9415.055.1714.038.26----BlendedMVG17.114.2316.9314.878.8513.58----Omnidata5.324.246.536.4511.536.119.1441.2430.1617.98107920输入GT0Chen等人0P220（OASIS）0OASIS Taskonomy GSO+Replica 外部查询0Zamir等人0CVPR20200（Taskonomy）0图7：零样本表面法线估计的定性结果。这3个模型分别是在OASIS [12]、Full Taskonomy [63,64]和我们的起始集上训练的。查询来自3个不同的数据集（OASIS、Taskonomy、GSO+Replica），还有最后2列的一些外部查询（没有可用的真实值），展示了模型对外部数据的泛化能力[放大查看最佳]。0得分[12]。更多细节和结果请参见补充材料。全景分割：为了展示该流水线训练非几何任务的模型的能力，我们在我们的起始数据集的一个3个数据集子集上训练了一个PanopticFPN[27]。图8显示，在野外的室内建筑图像上，得到的模型与在COCO[32]上训练的模型（一个广泛手动标注的数据集）的质量相似。定量结果、完整的实验细节和代码可以在我们的网站上找到。0Replica、Hypersim）输入Kirillov等人'190图8：PanopticFPNs [27]在COCO[32]和Omnidata上训练的全景分割的定性结果。在没有人的室内场景上，Taskonomy、Replica和Hypersim共同训练的Omnidata模型表现出良好的超出分布的性能。04.3.1 数据集相关性为了估计起始数据集的组成部分之间的关系，我们使用了在不同组件上训练的表面法线和全景分割模型的零样本跨数据集转移性能。表4显示，每个单独的模型在其对应的测试集上表现良好，但通常泛化能力较差。在更大的拆分上训练的模型总体上表现更好（见补充材料）。在最大的数据集上训练的模型取得了最佳的平均性能（调和平均数比表面法线估计和全景分割的最佳单数据集模型分别提高了25.8%和30.3%）。0fers取决于任务，这可能是由于Taskonomy上稀疏的全景标签（来自后续论文[2]），但我们相信这种依赖性在一般情况下是成立的。0表4：表面法线估计和全景分割的跨数据集域转移性能。在每个单独的数据集和Omnidata上训练的模型在起始集的测试拆分上进行评估。最后一列显示了跨数据集的调和平均数。（*PQ仅适用于things类，因为Taskonomy没有stuff标签。）05. 以数据为中心的说明性分析现在我们已经确定了标注者生成的数据集能够训练可靠的模型，那么我们可以用这些数据集做哪些分析呢？我们在这里列举了一些例子，但并不打算全面（第1节）。05.1. 新的3D数据增强数据增强用于解决模型性能和鲁棒性的不足之处。例如，仅在使用窄光圈拍摄的图像（例如NYU或Taskonomy）上训练的模型在使用宽光圈（即大景深）拍摄的图像上表现较差，而使用2D高斯模糊进行增强可以提高模型在图像的非焦点部分的性能。这种方法很常见，2D模糊被包含在CommonCorruptions基准测试中[23]。由于我们的起始数据集提供了完整的场景几何信息，因此可以进行3D的数据增强（图像重焦）而不是2D的平面模糊。图9显示了我们的数据集上3D“图像重焦”增强的示例。在补充材料中，我们展示了模型的MTAN [33]83.00291.11162.8343.830.042610.43Cross-stitch [37]80.69490.33465.1244.020.042720.504107930仅使用3D增强进行表面法线估计的训练比使用2D增强进行训练的模型对2D模糊和3D重点放大都更加稳健。0查询图像浅焦点中焦点远焦点0图9：Taskonomy上的图像重点放大增强。焦点在图像中的部分以红色突出显示[最佳放大查看]。05.2. 中层线索作为输入：它们有用吗？0使用多个传感器或环境的非RGB表示是否有优势？除了将中层线索预测作为下游任务（即多任务学习）外，还可以将多个线索用作输入（如果有相关传感器可用）或指定为中间表示（仅在训练期间使用标签作为监督）。表5表明，以这两种方式使用这些额外线索可以提高原始测试集和未见数据上的性能。在这个实验中，我们使用单一组件数据集（来自Replica的10个空间）训练了HRNet-18[52]主干网络进行语义分割，并在Replica、Hypersim和Taskonomy（tinysplit）上进行了评估。与仅使用RGB输入和语义分割标签相比，当将线索视为传感器（分别提高23％、34％和30％）或将其用作中间表示（分别提高13％、17％和19％）时，交叉熵性能在各个方面都有所提高。增加更多线索似乎有所帮助。完整的实验设置请参见补充材料。未来的工作可以进一步分析这些不同方法的有效性如何随着数据集大小的变化而变化，应该使用哪些线索，一个中层线索值得多少额外图像，以及从同一场景获取更多数据与添加来自新场景的数据的相对重要性。0GT 中层线索预测中层线索0输入/监督领域交叉熵（↓）交叉熵（↓）0Repl. H.Sim Task. Repl. H.Sim Task.0RGB 0.61 5.87 7.55 0.61 5.87 7.550（以上全部）+ 法线 0.47 4.47 6.12 0.61 5.44 7.120（以上全部）+ 3D边缘 0.46 4.47 6.75 0.54 5.06 6.490（以上全部）+（2D边缘、Z-深度、3D关键点）0.46 3.86 6.04 0.53 4.9 6.130表5：中层线索的效用。该表显示使用在Replica上训练的模型进行语义分割的结果。这些模型（除了“RGB”）在输入中除了RGB之外还接收到（预测或GT的）中层线索。结果表明，它们明显受益于中层线索。05.3. 多任务学习的系统评估0最近的工作[55]表明，现有的计算机视觉多任务学习技术似乎专门针对其开发环境进行了优化，总体而言并没有超越单任务学习。0在新的数据集或任务上，单任务或共享编码器方法的性能如何？我们扩展了这些结果，针对其他任务（3D关键点）进行了训练，并在我们的数据集上添加了一些比较数据。具体而言，我们遵循[55]的方法，使用不同的多任务学习方法（表6）训练了一组固定任务（语义分割、3D关键点、深度z-buffer和遮挡边缘）的模型。在初始数据集的3个数据集划分上，有些方法表现得更好，有些方法表现得更差。人们可能希望这些方法在不同任务（语义分割与3D关键点）上的排序是相同的，或者至少在使用不同数据集（NYU[47]，CityScapes [17]或Taskonomy[64]）训练这些相同任务时是相同的。然而，表6显示，无论哪种情况，多任务学习方法都没有明显的排名（即Spearman'sρ始终无法与0区分开）。忽略了缺乏显著性的问题，跨数据集的相关性仍然很弱（ρ <0.45），而且方法的性能在任务之间实际上是负相关的（ρ=-0.4），这表明模型确实专门针对特定任务进行了优化。即使在控制数据集的情况下，这种负相关性仍然存在。鉴于当前的多任务学习方法并没有超越单任务基准，预测不同的中层线索对于多任务学习来说是一个具有挑战性的设置。Omnidata管道提供了一个创建大型和多样化的多任务中层基准的途径，可以更系统地和可靠地评估多任务学习的进展。0语义分割 3D关键点0方法我们的 NYU [ 47 ] CityScapes. [ 54 ] Taskonomy [ 54 ] 我们的 Taskonomy [ 54 ]0IoU ( ↑ ) 排名 IoU ( ↑ ) 排名 IoU ( ↑ ) 排名 IoU ( ↑ ) 排名 L1 ( ↓ ) 排名 L1 ( ↓ ) 排名0单任务 85.12 1 90.69 2 65.2 1 43.5 4 0.0439 4 0.23 10MTL基线 81.82 3 90.63 3 61.5 4 47.8 1 0.0429 3 0.34 20Spearman相关系数 ρ 任务内部: ρ = 0.43. 分割-3D关键点之间: ρ = -0.4 任务内部: ρ = 0.2.0表6:多任务训练方法没有显示出明确的排序。在任务内部，不同方法之间的排名与随机排序无法区分（即 ρ =0）。在任务之间，语义分割的排名与3D关键点的排名呈反相关（ ρ =-0.4）。在控制训练设置后，这两个结论得到了加强。06. 结论0本文介绍了一个名为Omnidata的流程，用于弥合现实世界的3D扫描和静态视觉数据

下载后可阅读完整内容，剩余1页未读，立即下载