Kubric：一个可扩展的数据集生成器

130 浏览量更新于2023-10-25 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3749Kubric：一个可扩展的数据集生成器Klaus Greff1 Francois Belletti1 Lucas Beyer1 Carl Doersch6 Yilun Du5 Daniel Duckworth1David J Fleet1，2 Dan Gnanapragasam1 Florian Golemo4，91、刘学迪2、苗以树1、诺鲁泽扎赫莱3、岑吉兹·厄兹蒂雷利1、艾蒂安·波特1、诺哈·拉德万1、丹尼尔·雷贝恩1、萨拉·萨布尔1、迈赫迪·S.M. 萨贾迪1马坦塞拉1文森特西茨曼5奥斯汀斯通1德庆孙1苏哈尼沃拉1王梓玉10吴天豪8邝茂义7方城中8安德烈塔利亚萨奇1，2，111谷歌2多伦多大学3麦吉尔大学4米拉5麻省理工6DeepMind7UBC 8剑桥大学9ServiceNow10海珀11西蒙弗雷泽大学摘要数据是机器学习的驱动力，训练数据的数量和质量通常比架构和训练细节对系统性能更但是，大规模收集、处理和注释真实数据是困难的、昂贵的，而且经常会引起额外的隐私、公平和法律问题。合成数据是一种强大的工具，有可能解决这些缺点：1）它很便宜，2）支持丰富的地面实况注释，3）提供对数据的完全控制，4）可以消除或减轻有关偏见，隐私和许可的问题。不幸的是，用于有效数据生成的软件工具不如用于架构设计和培训的软件工具成熟，这导致了零散的生成工作。为了解决这些问题，我们引入了Kubric，这是一个开源的Python框架，它与PyBullet和Blender接口，可以生成照片般逼真的场景，具有丰富的注释，并无缝扩展到分布在数千台机器上的大型作业，并生成TB的数据。我们通过展示一系列13种不同的生成数据集来证明Kubric的有效性，这些数据集用于从研究3D NeRF模型到光流估计的任务。我们发布Kubric，使用的资产，所有的生成代码，以及渲染的数据集，以供重用和修改。光流曲面法线对象坐标图1.使用Kubric创建和渲染的示例场景以及一些自动生成的注释。1. 介绍大规模的高质量数据可以说，它与许多架构和培训细节一样重要，甚至更重要。然而，即使对于许多直接的视觉任务，收集和管理足够的量，深度分割3750仍然是一个艰巨的挑战。一些关键障碍包括高质量、详细注释、数据多样性、对任务域复杂性的控制以及对隐私、公平性和许可的担忧[4]。本文提倡使用合成数据来规避其中的许多问题，为此我们引入了Kubric，这是一种开源管道，用于生成逼真的图像和视频数据，并为无数视觉任务提供丰富的地面实况注释。合成数据长期以来一直用于基准评估（例如光流[6，7]），因为它支持丰富的地面实况注释和对数据复杂性的细粒度控制。它还可以在违反模型假设（例如刚性）的情况下进行系统的模型评估。合成数据也被有效地用于培训。这包括RGBD [85]中关于3D人体姿态估计的开创性工作，以及最近关于无数任务的开创性工作，包括面部标志检测[103]，视频中的人体姿态[24]和语义分割[116]。照片现实主义通常被认为是缩小泛化差距的关键，但即使没有完美的现实主义，合成数据也可以显著有效（例如，飞椅[26]，MPI-Sintel [13]和最近的AutoFlow [89]）。不幸的是，用于数据生成的有效软件工具不如用于架构设计和训练的软件工具成熟。因此，毫不奇怪，大多数发电努力虽然费用高昂，但都是一次性的，而且是针对具体任务尽管设计和开发具有挑战性，但我们需要的是一个用于照片级真实感生成的通用框架，该框架支持重用、复制和共享资产，所有这些都是大规模的，能够在数千台机器上同时实现具有大型作业的工作流Kubric通过连贯的框架、简单的Python API和一整套用于大规模生成的工具解决了这些问题，集成了来自多个来源的资产，使用通用的导出数据格式将数据移植到训练管道中，并为无数视觉任务提供了丰富的注释。总而言之，我们的主要贡献是：• 我们介绍Kubric1，这是一个用于为无数视觉任务生成照片般逼真的合成数据集的框架，可以对数据复杂性进行细粒度控制，并提供丰富的地面实况注释。• Kubric支持大规模生成，在数千台机器上无缝运行大型作业，以标准导出数据格式生成• Kubric的多功能性通过为新的视觉挑战问题创建13个数据集来证明，包括3D NeRF模型到光流估计以及基准测试结果。2. 相关工作合成数据为许多图像任务提供了高质量的标签，例如语义[16]和实例[102]分割，文本定位[37]，对象检测[40]和分类[32]。有许多大型合成数据集，如CLEVR[44]，ScanNet [21]，SceneNet RGB-D [65]，NYUv2 [67]，SYNTHIA [80]，虚拟KITTI [33]和飞行物体3D [64]用于特定任务。然而，这些数据集很少包含所有图像任务的所有可能注释，缺乏关键信号，例如相机姿态、实例或语义分割掩模或光流。这对于多任务问题尤其具有挑战性，例如共同训练神经场景模型与语义分割[118]。此外，固定的数据集可能会引入偏差[94，95]，例如以对象为中心的偏差[71]和摄影师相比之下，Kubric自动为每帧生成图像提示，并轻松支持各种视角和照明条件。专用合成数据管道。有许多手工制作的合成数据生成管道[37，49，66]建立在Blender [9]和Unity3D [11]等渲染引擎的基础上。虽然这些管道减轻了视角和照明方面的偏差，但它们通常专门用于特定任务。这使得在不深入了解底层渲染引擎的情况下调整它们以提供额外的注释变得很有挑战性Real World to sim管道通过3D扫描捕获真实世界的数据，然后将其转换为合成数据格式。[56]创建高质量的房间场景，但有许多手动步骤，包括姿势对齐和材质分配。[27]还利用3D扫描，并提供对各种场景参数的控制虽然这些方法为特定的捕获场景产生高质量的数据，但流水线仍然依赖于整个场景的3D扫描，这对缩放造成了瓶颈。名称渲染GI物理缩放DL[78]第78话（游戏）×（游戏）××UnrealCV [75]UE4×UE4✓×[34]第三十四话团结×PhysX✓×[第106话]PyRender×PyBullet✓×[第91话]Magnum×子弹✓×开放式客房[56]Optix✓–××[第27话]搅拌机✓–×✓[23]第二十三话搅拌机✓子弹××库布里奇搅拌机✓PyBullet✓✓表1.渲染：Blender任何OptiX都是光线跟踪引擎，所有其他引擎都基于光栅化; GI：支持全局照明; Physics：物理模拟引擎;Scaling：易于扩展到非常大的数据集。DL：数据加载器与机器学习框架（PyTorch/TF）的集成。1源代码和数据集可在https://github.com/ google-research/kubric上获得。3751通用数据集创建管道。通用合成数据管道（如Kubric）旨在通过支持网格、纹理、预先存在的场景等的任意随机组合来解决这些从3D资产的集合这减轻了现实世界到sim管道的一些扩展考虑，并且更容易支持来自不同数据集的资产这些管道在不同的维度上有所不同1）。一个重要的区别是渲染引擎的使用，其中光线跟踪引擎支持全局照明和其他高级照明效果，这允许以更高的计算需求为代价比光栅化引擎更高程度的真实感。大多数通用合成数据生成管道（如[53，83，84，93，106]）都是基于光栅化构建的，这使得它们非常快，通常可以在单个GPU机器上生成整个数据集。ThreeDMorld [34]是这样一个引擎的一个很好的例子，它具有灵活的Python API，全面的导出功能，可以导出到基于Unity3D的光栅化引擎，NVidia Flex [61]物理模拟器，甚至可以通过PyImpact [96]生成声音。与Kubric范围最接近的框架是BlenderProc [23]：基于Blender的光线跟踪管道，支持生成高质量渲染和全面的注释以及刚体物理模拟。主要区别在于Kubric3. 基础设施Kubric是一个高级Python库，充当渲染引擎、物理模拟器和数据导出基础设施之间的粘合剂;参见图2。它的主要贡献是简化流程，减少希望生成和共享合成数据的研究人员的障碍和摩擦3.1. 设计原则开放尺度的数据生成代码应可供学术界和工业界的研究人员自由使用。Kubric通过使用Apache 2许可证开源，并且只使用具有类似许可证的软件来再加上使用免费的3D资源和纹理，这使得研究人员不仅可以共享数据，还可以让其他人复制和修改数据。使用方便。计算机图形的碎片化，约定和接口是建立和重用数据生成代码的主要痛点。Kubric通过提供一个简单的面向对象的API接口，在幕后使用PyBullet和Blender，隐藏了设置，数据传输的复杂性，并保持它们同步，从而最大限度地减少了这种摩擦。我们还提供来自各种数据源的预处理3D资产，可以以最小的努力使用现实主义。为了最大限度地发挥作用，数据生成器应该工人层场景资产源createsimulate（）对象灯光材质....render（）元数据资产搅拌机PyBullet相机图2. 概述能够尽可能多地模拟真实数据的结构和复杂性。Blender的Cycles光线跟踪引擎支持高水平的真实感，可以模拟复杂的视觉现象，如反射，折射，间接照明，次表面散射，运动模糊，景深等。研究这些效果很重要，它们也有助于减少泛化差距。可扩展性。数据生成工作负载的范围可以从简单的玩具数据原型到生成大量高分辨率视频数据。为了支持这一系列的用例，Kubric被设计为从本地工作流无缝扩展到在云中的数千台机器上运行大型作业便携式和可复制。为了促进数据生成代码的重用，重要的是管道易于设置并产生相同的结果-即使在不同的机器上执行。这一点尤其重要，因为安装BlenderPython模块[31]非常困难，而且不同版本之间的差异也很大。通过分发Kubric Docker镜像，我们确保了可移植性并消除了大部分安装痛苦。数据导出。Kubric默认导出一组丰富的地面实况注释，从分割，光流，表面法线和深度图，到对象轨迹，碰撞事件和相机参数。我们还介绍了Sunds（见第二节）。3.4），一个统一的多任务前端，用于丰富注释的基于场景的数据。3.2. Kubric Worker典型的Kubric工作流包括编写创建、模拟和渲染单个随机场景的工作脚本。然后通过多次运行此worker来生成完整的数据集，然后收集生成的这种划分成独立场景的做法反映了i.i. d。它支持大多数数据集的结构，并支持将生成过程从本地原型扩展到大量并行作业;例如，使用Google Cloud Platform（GCP），我们为此提供了方便的启动器脚本。我们还计划支持Apache Beam管道，该管道将数据集的生成，收集和后处理结合到一个方便的（但最终更难调试）工作流中。3752importnumpy asnpimport kubric askbasset_source = kb.AssetSource.from_manifest（“KuBasic.json”）scene = kb.Scene（resolution=（640，640））renderer = kb.renderer.Blender（scene）simulator = kb.simulator.PyBullet（scene）# ---填充场景scene.camera = kb.PerspectiveCamera（position=（0，5，5），look_at=（0，0，0））scene += kb.Cube（name=“floor”，scale=（10，10，.1），position=（0，0，-0.1），static=True）scene += kb.PointLight（position=（-2.5，-1，5），intensity=300）rng = np.random.RandomState（seed=42）foriin range（8）：#在一个区域mat = kb. PrincipledBSDF材料（颜色=kb.random_hue_color（rng=rng），metallic=rng.choice（[0.0，1.0]），transmission=rng.choice（[0.0，1.0]））obj = asset_source.create（rng.choice（asset_source.all_asset_ids），材料=垫，速度=rng.normal（size=3））场景+=对象kb.move_until_no_overlap（obj，simulator，rng=rng，spawn_region=[[-1，-1，0]，[1，1，1]]）# -执行模拟、渲染并将数据保存到文件simulator.run（）241234567891011121314图3。榜样工人-15、地板、点光源、透视图1617个摄像头和8个KuBasic对象放置在-18出重叠（通过拒绝抽样）和随机速度19PyBullet然后模拟物理，2021Blender渲染视频。无限随机场景的22种变化可以通过变化来生成-随机种子（rng），结果可以是25个在渲染前在Blender中检查（顶部26右）。导出的数据包括注释27例如分段、深度、流动和法线。场景结构。每个工作器设置场景对象，其跟踪全局设置（例如，分辨率、要渲染的帧数、重力）、摄影机和所有对象，包括灯光、材质、动画等，我们统称为资产。它们是Kubric中用于控制场景内容的主要抽象，并且它们每个都公开一组属性，例如位置，速度或颜色。将资源添加到场景时，将在每个视图中创建相应的对象。目前这包括PyBullet模拟器和Blender渲染器，但Kubric可以扩展到支持其他视图（例如，最近开源的MuJoCo）。Kubric还维护与结果数据结构的链接，并自动将资产的所有更改传达给连接的视图。这样，用户只需使用Kubric提供的抽象，而不必担心接口或约定的差异。模拟器对于物理模拟，我们与广泛用于机器人的开源PyBullet物理引擎[18][43、46、107]）。它可用于填充场景中的非重叠对象，或运行（刚体）模拟，并将生成的轨迹转换为关键帧和碰撞事件。Bullet还可以处理Kubric尚不支持的装配模型、软体模拟和各种渲染器。Kubric使用bpy模块作为接口Blender是一个强大的开源3D计算机图形套件，广泛用于游戏开发和视觉效果。Blender提供了一个强大的UI，可用于交互式调试和调整场景，以及创建和导出新资源。对于渲染，我们依赖于循环光栅化渲染引擎，支持全局照明，准确捕捉效果，如软阴影，反射，折射和次表面散射。这些效果对于视觉现实主义至关重要，再加上Blender的大量其他功能，它们使艺术家能够创建照片般逼真的3D场景。缺点是周期比光栅化渲染引擎慢两个数量级，但对于Kubric，我们认为这种计算成本是一种明智的权衡，以换取增加的真实感和系统研究复杂视觉效果的能力。注释。Blender的另一个重要特性是使用专门的渲染通道来计算辅助的地面实况信息。我们利用此功能导出（除了RGB图像之外）101深度图、102实例分割、103光学流、104表面法线，5.5物体坐标（见图1） 1）。除了这些图像空间注释外，Kubric还自动收集以对象为中心的元数据，例如2D/3D轨迹、2D/3D边界框、速度、质量、摩擦力、相机参数、碰撞事件以及自定义元数据。3.3. 资产创建合成场景的一个限制因素是高质量3D资源的可用性。存在几个资产集合，但它们的使用通常需要大量的清理和转换，以使它们与给定的管道兼容。Kubric在公共Google Cloud存储桶中提供了多个预处理的资产集合使用这些资产非常简单，只需使用kb.AssetSource（path）更改资产源的路径即可。在核心级别，每个数据集源都与存储高级聚合信息的manifest.json文件相关联，而不需要3753(a) 碰撞（b）清洁（c）原始图4. (top)KuBasic资产集合。（中）默认情况下，ShapeNet对象在Blender（c）中的渲染效果不佳，这是由于自动平滑和缺乏循环中的背面剔除的问题（b）我们处理了所有ShapeNet对象以解决这些问题，并（a）通过首先使模型不透水，然后使用VHACD执行近似凸分解来生成碰撞网格（底部）来自Google扫描对象（GSO）数据集的示例资源以及生成的碰撞网格。遍历整个文件夹结构。清单中每个条目的“id”属性与包含资产数据的归档文件一一对应每个归档文件都包含一个JSON文件，其中包含元数据，包括用于渲染和碰撞检测的子资源的路径，以及PyBullet使用的统一机器人描述格式（URDF）中的物理属性定义对于纹理模型，我们采用GLTF标准[79]。KuBasic。对于简单的原型设计，我们提供了一个小集合，其中包含11个简单的资产，如图1的顶行所示。4.第一章ShapeNetCore.v2.该数据集是完整ShapeNet数据集[14]的一个子集，其中包含51，300个独特的3D模型，来自55个具有规范对齐和共同对象类别的模型。egories注释（均手动验证）。进行了广泛的预处理以简化Kubric中这些资产的集成，其中包括使用[41]使模型防水，使用VHAC-D生成碰撞几何[62]，以及修复由于自动平滑和相交面而导致的光线跟踪伪影（详细信息请参见附录BGoogle Scanned Objects（GSO）[77].是一个已被3D扫描用于机器人模拟和合成感知研究的常见家用物体的数据集。它是在CC-BY 4.0许可证下许可的，包含100000个文件。高质量纹理网片;见图4。我们以Kubric格式发布此数据集的预处理版本，其中再次包括生成的碰撞网格。[115]第115话.是一个公共（CC0许可）库，我们从中收集和预处理HDRI图像，用作背景和照明，以及用于高质量材料的纹理。3.4. 场景理解数据集（SUND）为了便于将数据输入机器学习模型，我们与Kubric一起引入了Sunds（场景下数据集）数据集前端 2。Sunds是一个访问公共场景理解数据集的API。字段名称和结构，形状，dtype是跨数据集标准化的。这允许在数据集之间进行简单的切换（例如从合成数据切换到真实数据）。所有Sunds数据集由两个子数据集组成：• 场景数据集包含高级场景元数据（例如，场景边界、整个场景的网格等）。• 帧数据集包含场景内的各个示例（例如，RGB图像、边界框等）。Sunds抽象出特定于磁盘的文件格式（json，npz，文件夹结构，. . .），并返回可由机器学习模型（TF，Jax，Torch）直接消化的张量。间通常，Sunds是围绕TFDS的包装器，其允许扩展到巨大的数据集（100TB），以提供与分布式云文件系统（例如GCS、S3）的本机兼容，并利用tf.data管道功能（预取、多线程、自动缓存、转换等）。为了进一步简化数据摄取，Sunds在TFDS之上引入了任务的概念。每个Sunds数据集都可以为不同的任务加载。任务控制：• 使用/解码数据集的哪些特征。实际上，场景理解数据集通常具有许多领域（激光雷达、光流、. . .），但只有一个小的子集用于任何给定的任务。选择使用哪些字段避免了解码不必要特征的成本。• 将哪个转换应用于管道。例如，NeRF任务将从数据集中包含的相机内部/外部动态生成光线原点/方向4. Kubric数据集和挑战为了展示Kubric的强大功能和多功能性，我们接下来描述一系列新的挑战问题，每个问题都有Kubric生成的数据32）。它们涵盖不同尺度的2D和3D任务，数据集大小从2https://github.com/google-research/sunds3可以在https://github.com/google-research/kubric上找到所呈现的数据集以及相应的worker脚本。GSOShapeNetKuBasic3754部分4.4姿态估计2D × ×××✓ ×✓ ✓ ✓ ✓ × ✓ ×✓ GB4.5公斤预训练2D × ××××××× ✓ ✓ × ✓ ×✓ GBC.1鲁棒NeRF3D × ××✓ ×××× ✓ ×✓ × ✓ × MBC.2多视角SOD2D × ✓ ×××××✓ ×✓ × ✓ ✓ ×GBC.3复合BRDF3D × ××✓ ×××× ✓ ✓ ✓ × ✓ ×GBC.43D重建3D × ✓ ×✓ ✓ ××× ××✓ × ××GBC. 5个强大的3D重建。3DC.6二维点跟踪C.7ToyBox 3DC.8新颖的视图合成3D✓ ✓× × ✓×✓ ✓ ✓ ✓×✓ ✓ ✓ ✓× ××✓ ××✓ ✓ ✓ ✓✓× ✓× ✓× ×✓ ✓ ✓✓× ✓× ✓✓× ✓ ✓✓ × × ×✓× ✓×✓× ✓×MBTBGBGB表2. 数据集/挑战概述秒4（这篇论文）。MB到TB。每个依赖于注释的不同子集物理或操纵动画），并需要控制不同的因素（背景，材质或照明）。任何一个数据集都可能由一个更简单、更专业的代码库生成，但这将是非常低效的。相反，凭借Kubric的多功能性，可以直接创建，扩展和组合数据集，利用通用平台和共享工程工作。这些不同的挑战也突出了合成数据的不同用途。一些作为比较现有和未来方法的基准，而另一些则为真实世界的应用程序提供额外的训练数据（模拟到真实）。有些被设计为经验性地测试特定的假设（例如，在测试中），而有些则专注于可以在没有隐私和法律问题的情况下共享的数据我们在下面的章节中描述了四个挑战，在附录C中又描述了8个挑战。4.1. 从视频对象发现方法的目标是将场景分解成其组成部分，并以最小的监督找到对象实例分割掩码虽然最近的模型，如IODINE [36]，MONet [12]，GENESIS [28]和注意力槽[59]成功地分解了具有均匀纹理的简单场景，但分解动态场景（即，具有高视觉复杂度和复杂动态的视频）仍然是困难的。这项挑战引入了五个多对象视频（MOVi）数据集，MOVi-A到-E（见图5），其视觉和动态复杂性不断增加，旨在测试现有对象发现方法的局限性，从而实现更逼真和多样化的视觉场景。我们测试了两种最先进的视频对象发现方法，SAVi[50]和SIMONE [45]，用于将视频分解为时间上一致的对象掩码的能力（见表1）。（3）第三章。SAVi在训练过程中使用光流，在分解移动对象方面表现更好，特别是表3. 对象发现-我们比较了两个最新的最先进的模型，SAVi[50]（训练使用光流）和SIMONe [45]。SAVi + BBox还接收对象边界框作为第一帧中的提示。MOVi-A MOVi-B MOVi-C MOVi-D MOVi-E图5. 对象发现-增加视觉复杂性的MOVi数据集样本。MOVi-A使用受CLEVR启发的物体[44]。MOVi-B引入了额外的基本对象类型和颜色。MOVi-C引入了真实世界的背景和扫描的3D对象。 MOVi-A到C包含多达10个移动对象的场景（每个视频24帧）。 MOVi-D &MOVi-E场景有多达23个对象，只有一小部分移动对象。在MOVi-E中，摄像机在随机方向上移动当接收所述视频的所述第一帧的边界框时。随着复杂性的增加，这两种方法的性能都会下降，但MOVi-D和-E中的静态对象除外，这些对象部分由SIMONE捕获。这两种方法都不能可靠地分解所有五个数据集中的场景。4.2. 光流光流是指视频中从一帧中的像素到下一帧中的2D运动。它是视频处理和分析的基础。与高级视觉任务不同，我们无法在通用的真实世界视频上获得可靠的地面实况光流，即使有人类注释。光流实际上是计算机视觉中第一个依赖合成数据进行评估的子领域[7]。最近的深度模型，PWC-net [90]，RAFT [92]和VCN[110]，都依赖于合成数据进行预训练，如FlyingChairs[26]。然而，FlyingChairs缺乏照片真实感，使用合成椅子作为唯一的前景对象，并且没有一般的3D运动。AutoFlow [89]学习渲染超参数以生成合成流数据集，从而在Flying- ingChairs [89]上获得较大的性能增益。但AutoFlow采用简单的二维分层模型，缺乏三维运动和渲染的真实感。我们的数据集解决了这些缺点，如图所示。六、我们使用相同的训练协议比较不同数据集上的训练RAFT[88，89，92]。如Ta所示任务域流动分割深度相机3D姿势物体3D姿势物理模拟。操纵的动画控件backgrnd.控制材料控制照明新挑战虚拟现实假设检验PII /法律规模帧流4.1.对象发现二维平面 ✓ ×××✓×✓ ✓ ✓ ✓ × ✓ ×TB4.2.光流二维平面 × ×××✓×✓ ×✓ × ✓ ××TB4.3.NeRF纹理3D× ×✓ ××××× ✓ ×× × ✓ × MB方法MOVi-AMOVi-BMOVi-CMOVi-DMOVi-ESAVi [50]82岁0±0.361岁5±0.3四十七0±0.319号。4±8.0二、7±0.5西蒙[45]61岁8±2.0三十7±3.319号。8±0.5三十四1±0.7三十四9±0.63755KITTI-15战斗机列车数据集COCO + ActiveCOCO + Active + Synth表4. 光流-飞行椅AutoFlow Kubric图6. 光流-频率截止10−0.5100十点五101102PSNR↑28.127.826.723.623.4深度方差↓0.0260.0240.0230.0230.022表5. NeRF中的纹理结构随着纹理的频率变低，颜色预测的精度提高，而表面几何形状的精度降低。图7.具有程序纹理的NeRF数据集允许用频率信息来注释每个像素。这使得能够分析学习的NeRF模型中的频率-结构关系。表4，Kubric比FlyingChairs在使用手动选择的渲染超参数时产生了更精确的结果，证明了使用3D渲染的好处Kubric的表现也与Aut-oFlow相当。请注意，这不是一个苹果对苹果的比较，因为AutoFlow的超参数已经被用来优化Sintel数据集的性能[89]。这些结果表明，学习Kubric的超参数可能会带来显着的性能提升。4.3. NeRF中的纹理结构神经辐射场本质上是体积表示，但通常用于对表6. 姿态估计-图8. 姿态估计-固体物体。这些NeRF表面模型是模型试图满足多视图重建问题的结果：为了从多个视图一致地重建表面细节，这些细节必须位于真实表面周围的体积的薄片中请注意，并非所有表面都鼓励NeRF构建表面模型。具有平坦颜色的表面仍然可以被重建为非实体体积。因此，根据NeRF方法在纹理上与实际表面保持一致的程度来对NeRF方法进行基准测试是一个尚未探索的有趣方面。为了量化这一点，我们创建了包含平坦表面的合成场景，其纹理是用蓝色噪声程序生成的，以具有不同的空间频率。我们用纹理的截止频率来标注每个像素，并分析频率、深度方差和重建误差之间的相关性。然后，我们用这些合成数据训练NeRF模型。如表5所示，我们发现增加的频率与较低的深度方差相关，这表明更好地近似硬表面，同时也增加了重建误差，表明网络不太能够近似复杂的纹理。这将是有趣的，看看未来的体积多视图重建方法将如何处理这种模糊性，并鼓励硬表面边界。数据集参数清洁最终AEPEER%COCO [57]0.5540.557FlyingChairs（2D）手动2.273.767.6338.5%活动[98]0.6500.662Kubric（3D）手动1.893.024.82百分之十六点九瑜伽0.3910.4273756背景对象混淆粘贴标签：摩托车基于web图像的数据的缺点是使用渲染数据。最近，这在人脸识别方面取得了巨大的成功[103]，我们假设合成数据最终也可以取代网络图像，用于预训练一般计算机视觉骨干。为了评估这样一个设置的承诺，我们进行了一个小的试点实验。库布里奇ImageNet7075605050宠物CIFAR-1008060用于在透明背景上以各种随机姿态渲染ShapeNet对象我们预训练ResNet-50，以从以各种方式将对象与随机背景图像组合的图像中预测对象9（顶部）。然后，我们按照[52]中的协议将这个预先训练的模型转移到各种数据集图9（下图）显示，这个简单的试验性实验已经减半图9.在合成Kubric数据上预训练ResNet50（顶部）并将其转移到标准bencharks（底部），将随机预训练（Bkgnd）和ImageNet预训练之间的差距减半。4.4. 姿态估计基于姿势估计的交互式体验（例如，Kinect）通常具有在包括用户生成的图片（例如COCO [57]）的大多数数据集中仍然表现不足的人类姿势，因为值得拍照的姿势存在明显的采样偏差。模拟数据可以用不那么美观的姿势来补充真实数据，但这些姿势在现实生活中的人体运动中很常见。在这里，我们改进了MoveNet[98]，这是一种基于CenterNet [119]的姿势推断CNN，通常在COCO [57]和Active [98]（一种具有更多样化姿势的专有数据集）上进行训练与Simpose [120]一样，训练批次将真实数据和合成数据与80/ 20%混合物。与[120]不同，合成物不提供额外的标签（例如，曲面法线），但仅对更多样的例子。如图8所示，这些样本包含41个被操纵的RenderPeople模型，这些模型被放置在一个随机的室内场景中，其中背景元素和纹理来自BlenderKit和TextureHeaven。人类姿势是从舞蹈和锻炼ActorCore动画中提取的。虽然非CC0资产的许可条款禁止数据发布，但相同网格和动画资产的任何所有者都可以使用我们的开源软件重新生成数据集。合成数据改善了关键点的平均-平均-精度（见表6），在域中（在COCO和Active上）和域外（在Yoga上，包括1000个示例的扭曲姿势测试集）。因此，合成数据现在经常用于我们以人为中心的静态图像和视频训练程序。4.5. 训练前视觉表征自AlexNet [55]以来，整个计算机视觉领域都从重新使用在大量数据上预先训练的“骨干”中受益匪浅然而，最近的工作对继续使用由互联网上大量照片组成的数据集表示怀疑[8，112]。一个潜在的前进方向，完全绕过随机预训练和ImageNet上的预训练之间的差距，表明这是一种很有前途的方法。5. 结论我们介绍了Kubric，一个通用的Python框架，它包含用于大规模生成的工具，集成来自多个来源的资产，丰富的注释和用于将数据直接移植到训练管道中的通用导出数据格式（SunDS）Kubric能够生成高质量的合成数据，解决自然图像数据管理中固有的许多问题，并避免构建特定任务的一次性管道的费用。我们在11个案例研究中证明了我们的框架的有效性，这些案例研究针对一系列不同的视觉任务生成了不同复杂度的数据集。在每种情况下，Kubric都大大减少了生成所需数据的工程工作，并促进了重用和协作。我们希望它能帮助社区降低生成高质量合成数据的障碍，减少碎片化，促进管道和数据集的共享。局限性和今后的工作。虽然Kubric已经非常有用，但它仍然是一项正在开发的工作，还不支持Blender和PyBullet的许多功能值得注意的例子包括体积效果，如雾或火，软体和布料模拟，以及先进的相机效果，如景深和运动模糊。我们还计划预处理和统一来自更多来源的资产，包括ABC数据集[51]或Amazon BerkeleyObjects [17]。目前，Kubric需要大量的计算资源，因为它依赖于路径跟踪渲染器而不是光栅化渲染器。我们希望增加对光栅化后端的支持，允许用户权衡速度和渲染质量。我们在补充材料的A确认这项工作得到了UKRI未来领导者奖学金（资助号G104084）的支持。Bkgnd对象Mixup膏ImgNetBkgnd对象Mixup膏ImgNetBkgnd对象Mixup膏ImgNet3757引用[1]Radhakrishna Achanta ， Sheila Hemami ， FranciscoEstrada，and Sabine Susstrunk. 频率调谐显著区域检测。2009年IEEE计算机视觉和模式识别会议，第1597-1604页。IEEE，2009年。3[2] MykhayloAndriluka ， LeonidPishchulin ， PeterGehler，and Bernt Schiele.2D人体姿势估计：新基准和最新分析。在Proceedings of the IEEE Conference oncomputer Vision and Pattern Recognition ， pages 3686-3693，2014中。6[3]匿名作者TAP-Net：跟踪视频中的任何点。在提交，2022年。五、六[4]YukiMAsano ， ChristianRupprecht ， AndrewZisserman，and Andrea Vedaldi. Pass：imagenet替代了没有人类的自我监督预训练NeurIPS跟踪数据集和基准，2021年。2[5]Aharon Azulay和Yair Weiss。为什么深度卷积网络对小图像变换的泛化能力如此之差？2019. 2[6]S Baker，D Scharstein，JP Lewis，S Roth，MJ Black和R Szeliski 。光流数据库和评价方法。 InternationalJournal of Computer Vision，92：1-31，2011。2[7] J. L. Barron，D. Fleet和S. S. Beauchemin光流技术的性能。国际计算机视觉杂志，12：43-77，1994。二、六[8] Abeba Birhane 和Vinay Uday Prabhu 。大型图像数据集：计算机视觉的得不偿失？在 IEEE WinterConference on Applications of Computer Vision，WACV2021，Waikoloa ，HI， USA， 2021年1 月3-8日，第1536- 1546页中。IEEE，2021。8[9] Blender在线社区。Blender -3D建模和渲染软件包。Blender基金会、Blender研究所、阿姆斯特丹，2021年2[10]Ali Borji、Ming-Ming Cheng、Huaizu Jiang和Jia Li。显著对象检测：一个基准。IEEE transactions on imageprocessing，24（12）：5706-5722，2015。3[11]Steve Borkman、Adam Crespi、Saurav Dhakad、SujoyGanguly 、 Jonathan Hogins 、 You-Cyuan Jhang 、Mohsen Kamalzadeh 、 Bowen Li 、 Steven Leal 、 PeteParisi、Cesar Romero、Wesley Smith、Alex Thaman、Samuel Warren和Nupur Yadav。统一感知：为计算机视觉生成合成数据2[12]Christopher P Burgess 、 Loic Matthey 、 NicholasWatters、Rishabh Kabra、Irina Higgins、Matt Botvinick和Alexan der Lerchner。MONet：无监督场景分解和表示。arXiv预印本arXiv：1901.11390，2019。6[13]D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影。以. Fitzgienic等人（编辑），编辑，欧洲计算机视觉会议（ECCV），第IV部分，LNCS 7577，第611Springer-Verlag，Oct.2012. 2[14]Angel X Chang ， Thomas Funkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing

下载后可阅读完整内容，剩余1页未读，立即下载