没有合适的资源?快使用搜索试试~ 我知道了~
Mike RobertsJason RamapuramAnurag RanjanAtulit KumarMiguel Angel BautistaNathan PaczanRuss WebbJoshua M. SusskindApplehttp://github.com/apple/ml-hypersim109120Hypersim:一个逼真的用于整体室内场景理解的合成数据集0摘要0对于许多基本的场景理解任务,从真实图像中获得每个像素的地面真实标签是困难或不可能的。为了解决这个挑战,我们引入了Hypersim,这是一个用于整体室内场景理解的逼真合成数据集。为了创建我们的数据集,我们利用了由专业艺术家创建的大量合成场景的存储库,并生成了77,400张461个室内场景的图像,具有详细的每像素标签和相应的地面真实几何。我们的数据集:(1)完全依赖公开可用的3D资产;(2)包括每个场景的完整场景几何、材质信息和照明信息;(3)包括每个图像的密集每像素语义实例分割和完整相机信息;(4)将每个图像分解为漫反射、漫反射照明和捕捉视角相关光照效果的非漫反射残差项。我们在场景、对象和像素级别上分析我们的数据集,并以金钱、计算时间和注释工作量为代价进行分析。令人惊讶的是,我们发现,从头开始生成我们的整个数据集的成本大约是训练一种流行的开源自然语言处理模型的一半。我们还评估了在两个真实世界的场景理解任务上的模拟到真实的转移性能-语义分割和3D形状预测,在这些任务中,我们发现在我们的数据集上进行预训练显著提高了两个任务的性能,并在最具挑战性的Pix3D测试集上实现了最先进的性能。我们所有的渲染图像数据以及我们用于生成数据集和进行实验的所有代码都可以在线获取。01.引言对于许多基本的场景理解任务,从真实图像中获得每个像素的地面真实标签是困难或不可能的。为了应对这一挑战,计算机视觉界开发了几个逼真的合成数据集和交互式模拟环境,这些数据集和环境推动了整体室内场景理解目标的快速进展。0图1.Hypersim数据集概述。对于每个彩色图像(a),Hypersim包含以下地面真实图层:深度(b);表面法线(c);实例级语义分割(d,e);漫反射(f);漫反射照明(g);以及捕捉视角相关光照效果(如光泽表面和镜面高光)的非漫反射残差图像(h)。我们的漫反射、漫反射照明和非漫反射残差图层以HDR图像的形式存储,并可以合成在一起以精确重建彩色图像。0逼真的合成数据集和交互式模拟环境已经在整体室内场景理解方面取得了快速进展[ 6 , 7 , 9 , 10 , 14 , 15 , 19 , 22, 24 , 31 , 33 , 36 , 37 , 39 , 43 , 44 , 45 , 46 , 49 ,52 , 61 , 62 , 63 , 65 , 70 , 72 , 75 , 76 , 79 , 83 , 84]。109130数据集/模拟器 图像 3D分割 内部0真实(3D重建)SceneNN [ 33 ] � S+I Stanford 2D-3D-S [9 , 10 , 79 ] � � S+I Matterport3D [ 7 , 15 , 61 , 62 , 79] � � S+I ScanNet [ 19 ] � � S+I Gibson [ 62 , 79 ] � Replica [62 , 72 ] � S+I0合成(由艺术家创建)AI2-THOR [ 39 ] � S+I ARAP [ 14 ] � � I D+RSceneNet-RGBD [ 52 ] � � S+I PBRS [ 70 , 83 ] S+I CGIntrinsics [45 , 70 ] � D InteriorNet [ 43 ] � S+I D Jiang et al. [ 36 ] S+IRobotriX [ 24 ] � � S+I CG-PBR [ 63 , 70 ] S D+R DeepFurniture [49 ] � S D Structured3D [ 84 ] � S+I D TartanAir [ 65 , 76 ] � I Li etal. [ 44 , 70 ] D+R 3D-FUTURE [ 22 ] � � S+I OpenRooms [ 46 ] � �D+R Hypersim(我们的)� � S+I D+R0表1.室内场景理解的先前数据集和模拟器的比较。我们将这些数据集和模拟器广泛分类为“真实”(即基于来自真实传感器的3D三角网格重建)或“合成”(即由艺术家创建),并在每个类别内按时间顺序排序。我们将比较限制在旨在实现照片级真实感的合成数据集和模拟器上。图像和3D列指示图像和3D资产(例如三角网格)是否公开可用。Seg.列指示可用的分割信息类型:S表示语义,I表示实例。Intrinsic列指示图像如何分解为解耦的光照和着色组件:D表示每个图像分解为漫反射反射和漫反射照明;D+R表示每个分解还包括一个非漫反射残差项,捕捉视角相关的光照效果。我们的数据集是第一个包括图像、3D资产、语义实例分割和解耦图像表示的数据集。0然而,现有的合成数据集和模拟器存在重要的局限性(见表1)。首先,大多数合成数据集是从不公开的3D资产派生而来的。这些数据集通常包括渲染图像,但不包括渲染过程中使用的底层3D资产(例如三角网格),因此不适用于需要直接3D监督的几何学习问题(例如[27])。其次,并非所有的合成数据集和模拟器都包括语义分割。虽然合成数据集通常包括某种类型的分割信息,但这些分割可能不包括语义标签,并且可能将像素组合在低级对象部分的粒度上,而不是语义上有意义的对象。第三,大多数数据集和模拟器没有将图像分解为解耦的光照和着色组件。0因此,现有的合成数据集或模拟器都没有解决这些限制,包括那些针对室外场景理解的数据集[8, 20, 23, 34, 38, 41, 55, 56, 58, 60, 65, 76,77]。在这项工作中,我们介绍了Hypersim,一个逼真的综合室内场景理解的合成数据集,解决了上述所有限制(见图1)。为了创建我们的数据集,我们利用了由专业艺术家创建的大量合成场景,并生成了461个室内场景的77,400张图像,具有详细的每像素标签和相应的地面真实几何。我们的数据集:(1)完全依赖公开可用的3D资产;(2)包括每个场景的完整场景几何、材料信息和光照信息;(3)包括每个图像的密集像素级语义实例分割和完整相机信息;(4)将每个图像分解为漫反射反射、漫反射照明和捕捉视角相关光照效果的非漫反射残差项。这些特点使我们的数据集非常适合需要直接3D监督的几何学习问题(例如[27])、需要同时推理多个输入和输出模态的多任务学习问题(例如[71])和反向渲染问题(例如[13,40])。为了生成我们的数据集,我们引入了一种新颖的计算流程,该流程以从在线市场下载的场景集合为输入,并生成具有地面真实标签和相应几何的图像集合(见图2)。我们的流程主要包括三个步骤。首先,我们使用一种新颖的视角采样启发式方法为每个输入场景生成相机视图,该方法不需要对场景进行语义标记。其次,我们使用我们在公共云计算服务之上构建的云渲染系统生成图像。第三,我们使用我们自己构建的交互式网格注释工具从人类注释者那里获取语义分割。我们在场景、对象和像素级别上分析我们的数据集,并以金钱、计算时间和注释工作量的成本进行分析。令人惊讶的是,我们发现从零开始生成整个数据集的成本大约是训练一种流行的开源自然语言处理模型的一半。我们还在两个场景理解任务上评估了从模拟到真实的转移性能-在NYUv2 [68]上的语义分割和在Pix3D[73]上的3D形状预测-在这些任务上,我们发现在我们的数据集上进行预训练显著提高了两个任务的性能,并在最具挑战性的Pix3D测试集上实现了最先进的性能。我们所有的渲染图像数据以及我们用于生成数据集和进行实验的所有代码都可以在线获得。01 http://github.com/apple/ml-hypersim109140渲0渲染0图像0最终0V-Ray场景0相机轨迹0初始0V-Ray场景0未标记0三角网格0占用0体积0导出0场景数据0艺术家定义的相机姿势0补充表示0初始0V-Ray场景0估计自由空间0生成0相机轨迹0修改0V-Ray场景0复制0云0渲染0复制0人在环中0复制0未标记0三角网格0未标记0三角网格0标记0三角网格0注释0网格0图2.我们计算流程的概述。在这个简化的图中,我们的流程以三角网格、艺术家定义的相机姿势和V-Ray场景描述文件作为输入,生成带有地面真实标签和相应几何的图像集合作为输出。我们流程的主要步骤如下。我们估计场景中的自由空间,使用这个估计来生成无碰撞的相机轨迹,修改我们的V-Ray场景以包含轨迹,并调用我们的云渲染系统来渲染图像。与我们流程的其余部分并行进行,我们使用交互式工具对场景的三角网格进行注释。在后处理步骤中,我们将网格注释传播到我们的渲染图像中(未显示)。这种流程设计使我们能够在网格注释完成之前渲染图像,并且还使我们能够重新注释我们的场景(例如,使用不同的标签集)而无需重新渲染图像。02. 相关工作0计算机视觉中的合成数据合成数据在各种计算机视觉应用中起着关键作用。请参阅Nikolenko的最新调查报告[54]。室内场景理解的合成数据我们在第1节中讨论了用于室内场景理解的逼真数据集和仿真环境。非逼真数据集和环境[29,30,70,78]在场景理解研究中也起着重要作用,因为它们可以非常高效地渲染。然而,这些数据集和环境在真实和合成图像之间引入了很大的领域差距,必须小心处理[54]。相比之下,我们的数据集旨在尽可能逼真,从而显著减小了这种领域差距。一些数据集提供了已对齐到实际图像中各个对象的3DCAD模型[19,47,73,80,81]。在这些数据集中,CAD模型可能与每个图像不完全对齐,并且许多在图像中可见的对象没有相应的CAD模型。相比之下,我们的数据集提供了与每个图像完全对齐的分割的3D模型,并且每个图像的每个像素都与3D模型相关联。Shi等人[66]提供了ShapeNet数据集[16]中各个对象的逼真渲染,其中每个图像被分解为漫反射、漫反射照明和非漫反射残差项。我们的图像也以相同的方式分解,但我们渲染整个场景,而不是单个对象。用于合成场景的视图采样方法现有的合成场景的视图采样方法包括:随机均匀采样视图[76,84];使用数据驱动方法生成逼真的相机抖动[43];使用语义分割信息将语义类别的分布与现有数据集匹配[26],优先选择前景语义类别[29,30,70],并在每个视图中保持最少数量的语义实例0[ 52 , 83 ].然而,现有的方法在我们的设置中不直接适用。首先,我们的许多场景都是高度布景的,即它们在场景的某些部分包含逼真的杂乱,但在其他部分则是不真实的空白。因此,对于我们的场景,随机均匀采样视角会产生许多没有前景对象的无信息视角。其次,我们的流水线支持并行渲染图像和注释场景,因此在采样视角时我们无法访问语义分割信息。我们的视角采样方法通过选择显著的视角来解决这些挑战,而不依赖于分割信息,因此在我们的设置中直接适用。0交互式三维场景注释工具。我们的交互式工具与现有的用于注释重建的三角网格[ 19 , 53 , 72]和来自视频游戏的合成图像[ 8 , 55]的工具类似。所有这些工具,包括我们的工具,都利用某种预分割策略来减少注释工作量。用于注释重建网格的工具[19 , 53 , 72 ]通过将无监督的分组方法(例如[ 21])应用于输入网格来获得预分割。因此,从这些工具获得的2D语义标签的质量受到重建输入网格的质量以及无监督分组的限制。另一方面,用于注释视频游戏图像的工具[ 8 , 55]通过分析每像素渲染元数据获得干净的预分割,但不允许在场景中进行自由的三维导航。相比之下,我们的工具利用了艺术家定义的干净网格预分割,从而使得2D语义标签与我们的渲染图像完全对齐,并且我们的工具允许自由的三维导航。03. 数据采集方法0为了组装适合我们数据集的场景集合,我们浏览了在线市场,寻找满足三个主要要求的现成室内场景。首先,我们希望尽可能多的场景。109150图3.从我们的数据集中随机选择的图像。从这些图像中,我们可以看到我们的数据集中的场景在视觉上是多样的,并且我们的视角采样启发式方法可以生成信息丰富的视角,而不需要对我们的场景进行语义标注。0其次,我们希望场景尽可能逼真和视觉多样。因为我们的目标是构建一个静态数据集,而不是一个交互式环境,所以我们愿意牺牲渲染速度来实现更大的规模和更高的逼真度。第三,我们希望场景在文件格式和内部数据表示方面尽可能一致。这个最后的标准是因为如果我们能以一致的方式解析、修改和渲染场景,那么我们的自动计算流水线的实现将更容易。受到这些要求的启发,我们选择了EvermotionArchinteriors Collection [ 3]作为我们的起点2。这个集合包含500多个逼真的室内场景,并且具有几个对我们的目的特别有帮助的特点。首先,每个场景都以独立的资产文件的形式表示,与V-Ray [ 2]兼容。这种表示形式很有帮助,因为V-Ray具有强大的PythonAPI,可以对场景进行编程操作。其次,每个场景都按照度量单位适当缩放,并具有一致的上方向。第三,每个场景都被分组为对象部分,并包含一小组艺术家定义的相机姿势(通常在1到5之间),以美观的方式构图。在我们的流水线中,我们使用对象部分的分组作为预分割,以减少注释工作量,并且我们在几个处理步骤中使用艺术家定义的相机姿势作为一种弱监督形式。第四,几乎每个场景都在允许公开发布渲染图像的宽松许可下分发,例如在学术出版物和公共基准测试中。我们根据以下标准排除了数据集中的场景。首先,我们排除了描绘孤立对象而不是完整环境的场景。其次,我们排除了不在免版税许可下分发的场景。第三,对于每个场景,我们手动渲染了测试图像,尝试从独立资产文件中导出网格数据,并尝试使用我们的视角采样启发式方法生成场景中的相机轨迹。我们排除了任何具有明显渲染问题的场景。02 我们从TurboSquid [4]购买了Evermotion Archinteriors Collection。0去除了包含渲染伪影、无法成功导出网格数据以及视图采样启发式算法无法在场景的预期视图区域内生成视图的场景。应用这些排除标准后,我们剩下了461个场景(EvermotionArchinteriors集合中的568个场景,排除了107个场景,其中21个是因为我们的视图采样启发式算法失败)。在我们的公开代码发布中,我们提供了我们数据集中每个场景的完整列表。04. 计算流程0在获取到场景后,我们应用计算流程生成带有地面真实标签和相应几何形状的图像(见图2)。在本节中,我们描述了我们的计算流程,并且为简单起见,我们假设正在处理单个场景。为了生成我们的完整数据集,我们将相同的流程应用于所有场景。对于任何需要手动数据过滤的流程步骤,我们在我们的公开代码发布中提供了我们过滤决策的完整记录,以便我们的数据集可以被精确地再现。在补充材料中,我们描述了我们估计自由空间的过程,我们修改V-Ray场景的过程以及我们的云渲染系统。预处理我们假设我们的输入是描述场景的独立资产文件。我们通过编程方式从原始资产文件中导出三角网格、所有艺术家定义的相机姿势和V-Ray场景描述文件来开始我们的流程。我们手动从数据集中删除了位于场景预期视图区域之外的艺术家定义的相机姿势。输出。总共,我们导出了784个艺术家定义的相机姿势(最初导出809个,手动删除25个)。生成相机轨迹我们使用一种简单的视图采样启发式算法生成相机轨迹,该算法不需要输入场景进行语义标记,适用于我们的场景,并且以前未出现在文献中。在设计我们的启发式算法时,我们观察到显著对象(例如椅子、沙发、灯)倾向于比非显著对象(例如墙壁、地板、天花板)更细密地细分(见图5)。v(c) = tαpβ(1)109160图4.我们的交互式网格注释工具。我们的工具具有语义实例视图(a,b,c)和语义标签视图(d,e),以及一组选择过滤器,可以根据网格的当前状态限制编辑操作的范围。为了了解这些过滤器如何有用,考虑以下场景。这个场景中的桌子由多个物体部分组成,但最初这些物体部分尚未分组为语义实例(a)。我们的过滤器使用户可以通过绘制一个矩形来涂抹整个桌子,而不会干扰墙壁、地板或其他物体(b,c)。一旦将桌子分组为一个实例,用户就可以通过单击一个按钮应用语义标签(d,e)。在任一视图中未绘制的网格部分为白色(例如,最左边的椅子)。在当前视图中未绘制但在其他视图中已绘制的网格部分为深灰色(例如,(d)中的桌子)。我们的工具使用户能够使用非常粗糙的绘画手势准确地注释输入网格。0图5.典型场景的彩色和线框渲染。在线框渲染中,我们观察到显著对象(例如椅子、沙发、灯)比非显著对象(例如墙壁、地板、天花板)更细密地细分。这个观察结果激发了我们的视图采样启发式算法,该算法考虑了三角形密度,并且不需要输入场景进行语义标记。0图6.我们为每个语义实例包括一个紧密的9自由度边界框,以便我们的数据集可以直接应用于3D物体检测问题(例如,[69])。0基于这一观察,我们定义了一个视觉显著性模型,考虑了三角形密度,并基于该模型对视图进行采样。在我们的模型中,我们还包括一个惩罚视图观察到空白像素的项,即不包含任何场景几何的像素。正式地陈述我们的方法,我们将相机姿态c的视觉显著性v(c)定义如下:0其中t是c观察到的唯一三角形的数量;p是c观察到的非空像素的比例;α、β >0是控制我们的模型对三角形数量和空白像素敏感性的参数。0使用我们的视觉显著性模型,我们通过在自由空间中构建随机行走来生成相机轨迹,这些轨迹从每个艺术家定义的相机姿态开始,并倾向于直立的显著视图。在图3中,我们展示了根据这种采样过程生成的我们数据集中的随机选择的图像。我们在补充材料中提供了我们精确的随机行走公式。我们的轨迹有时可能会漂移到场景的预期视野范围之外,例如通过一个开放的窗户。为了解决这个问题,我们会手动从数据集中删除任何此类轨迹。输出。总共,我们使用我们的随机行走采样方法生成了774个相机轨迹(最初生成了784个,手动删除了10个)。为了在保持可接受的渲染成本的同时实现对场景的合理视觉覆盖,我们将每个轨迹定义为包含100个相机姿态,最终导致必须渲染的总共77,400个不同视图。0交互式网格注释与我们的流程的其他部分并行进行,我们使用自己构建的交互式网格注释工具获得语义分割(见图4)。除了提供以物体部分为粒度的网格绘制界面[8, 19, 53, 55,72]之外,我们的工具还具有两个对于注释场景特别有帮助的独特功能。首先,我们的工具提供了一组选择过滤器,可以根据网格的当前状态限制编辑操作的范围。这些过滤器使用户能够使用非常粗糙的绘画手势准确地注释网格(见图4)。其次,我们的许多网格很大(即数百万个三角形)并且在内存中布局不连贯。即使在现代GPU上,这些网格也无法以交互速率渲染,除非使用先进的加速结构[5, 35,50]。在我们的工具中,我们通过包含一个选项来减少输入网格来解决这个问题,该选项简单地随机删除三角形,直到网格适合用户指定的三角形预算。我们偏向于删除非常小的三角形,并可选地进行三角形的41220103101101Brightness(unitless)0.00.10.2Probability103101101Brightness(unitless)103101101Brightness(unitless)103101101Brightness(unitless)012Cost(USD)(a)01000020000FrequencyHistogram ofrendering costsper image050100Rendering time(vCPU hours)(b)01000020000FrequencyHistogram ofrendering timesper image060120Time(minutes)(c)050100FrequencyHistogram ofannotation timesper scene109170图7.以场景(a)、物体(b、c)和像素(d、e、f、g、h)为粒度的数据集统计。我们将(a、b、d)中的直方图截断以显示最常见的10种场景类型和物体类别。在(a)中,我们为每个相机轨迹分配一个场景类型,并计算属于每个场景类型的轨迹数量。在(b)中,我们计算每个场景中可见于至少一幅图像中的唯一物体数量。在(d)中,�表示没有类别标签的像素。在(g)中,我们计算每个像素到相机光学中心的欧氏距离。在(h)中,我们显示相机空间法线的分布,作为法线的x和y坐标的函数(即法线在相机空间中指向右和上的程度),其中颜色表示对数概率,小插图表示我们从法线值到RGB值的映射(例如,在图1c中)。在(c)和(g)中,水平轴采用对数刻度。0色调-饱和度0颜色轮0最终颜色0漫反射0反射率0漫反射0照明0非漫反射0残差0图8.我们分离图像表示中色调-饱和度值的分布。我们独立地对每个RGB值进行归一化,将其转换为HSV空间,并显示得到的色调-饱和度分布。颜色表示对数概率。0最终颜色0漫反射0反射率0漫反射0照明0非漫反射0残差0图9.我们分离图像表示中亮度值的分布。我们以非归一化的HDR格式存储图像数据,因此观察到亮度值超出了范围[0,1]。这些图中的横轴是对数刻度。0图10.以金钱(图a)、计算时间(图b)和注释工作量(图c)为代价生成我们的数据集。0远离相机的三角形往往对用户影响微乎其微,因此我们的工具保证了对简化网格上的注释隐式地传播到完整分辨率的网格上。使用我们的工具,我们使用实例级别的NYU40标签[28, 68]对我们的整个数据集进行了注释。0后处理最后,我们使用在渲染过程中生成的每像素元数据将网格注释传播到图像中。有关详细信息,请参阅补充材料。我们还为每个语义实例生成一个紧凑的9自由度边界框,以便我们的数据集可以直接应用于3D物体检测问题(例如[69])(见图6)。05. 分析0在本节中,我们从场景、对象和像素的层面对我们的数据集进行分析,并以金钱、计算时间和注释工作量为代价进行分析。我们在图7、8、9中总结了我们数据集的内容,并在图10中总结了代价。0我们的数据集主要由住宅场景(如客厅、厨房、卧室、浴室)组成,但商业场景(如办公室、餐厅)也很常见(图7a)。我们的场景非常杂乱,平均每个场景包含127.3个对象。这种杂乱程度和注释细节与现有的室内场景数据集相比较有优势(例如,ScanNet:每个场景14个对象;Replica:每个场景84个对象)。我们的场景大小从<0.1到1100万个三角形不等。0对象在对象级别上,我们数据集中最常见的语义类别是{其他属性,书籍,椅子}(图7b)。这些类别的普遍性与现有的室内场景数据集大致一致[19, 69,72]。我们对象的边界框体积分布是双峰的,其中两个峰对应于咖啡杯和办公椅的边界框体积(图7c)。0在像素级别上,我们数据集中最常见的语义类别是{墙壁,地板,天花板}(图7d),即使在杂乱的图像中也往往占主导地位(图1e)。我们数据集中有88.3%的像素有语义类别标签,52.0%的像素有语义实例ID。这个注释密度低于GTA5(98.3%),但高于ScanNet(76%)。我们的数据集中的图像平均包含8.9个类别,平均包含49.9个对象,51.5%的图像包含21个或更多的对象(图7e,f)。这种杂乱程度和注释细节与现有的语义分割数据集相比较有优势(例如,NYUv2:每个图像23.5个对象;COCO:每个图像7.2个对象;ADE20K:每个图像19.6个对象),并提供了定量证据,证明我们的视角采样启发式方法成功地生成了场景的信息视角。109180训练过程0预训练 微调 mIoU mIoU(13类别)(40类别)0无 NYUv2(100%)45.2 31.40NYUv2(25%)46.4 29.0Hypersim(我们的数据集)NYUv2(50%)49.1 32.7NYUv2(100%)51.6 36.40表2. 我们的数据集在NYUv2[68]语义分割上的模拟到真实性能。数值越高越好。括号中显示了训练过程中使用的NYUv2训练数据量。对于13类别分割,我们的数据集上进行预训练并在NYUv2训练集的25%上进行微调优于在完整的NYUv2训练集上训练。对于40类别分割,我们的数据集上进行预训练并在NYUv2训练集的50%上进行微调优于在完整的NYUv2训练集上训练。0深度图像我们的深度值服从对数正态分布,平均深度为5.4米(图7g)。这个分布与现有的室内深度数据集[68, 74,82]大致一致,但与室外数据集[17,25]明显不同。表面法线图像我们的表面法线分布偏向于平面表面,例如墙壁、地板和天花板在直立相机下的视角(图7g)。这个分布与流行的SIRFS模型[12]中使用的表面各向同性先验不一致,该模型用于将图像分解为解耦的形状、光照和阴影成分。SIRFS的作者指出,表面各向同性是适用于对象中心任务的先验,但对于场景中心任务来说则不太适用,我们的数据支持了这一观点。解耦的光照和阴影图像我们观察到一些漫反射值比其他值更有可能出现(例如,褪色的橙色比饱和的绿色更有可能出现),我们的漫反射分布呈斑点状,表明存在一种稀疏的特别可能的调色板(图8)。我们的漫反射分布在自然光照条件下特别偏向(图8)。这些分布与逆向渲染文献中关于反射和光照的常见先验大致一致[12,14]。我们非漫反射残差图像和最终彩色图像中色调饱和度值的分布相似(图8)。(如果我们的场景由一半完全漫反射和一半完全镜面反射的表面组成,我们预期这两个分布是相同的。)然而,我们的残差图像更加稀疏,即大部分时间接近零亮度(图1h,图9)。尽管如此,我们观察到我们的残差图像对最终图像贡献了相当数量的能量,这个观察结果验证了我们在数据集中明确表示非漫反射光照的决策。渲染成本总共花费了57K美元来生成我们的数据集(购买461个场景花费6K美元,渲染77400个图像花费51K美元)。尽管生成我们的整个数据集无疑是昂贵的,但它比其他一些流行的学习任务要便宜得多。例如,生成我们的数据集的成本是训练开源的Megatron-LM自然语言处理模型[67]的0.56倍,后者使用公共可用的云计算服务从头开始训练将花费103K美元。每个图像的渲染成本与计算时间成线性关系,并且我们观察到两者都服从对数正态分布(图10a、b)。平均而言,我们的数据集中渲染一个1024×768分辨率的图像的成本为0.67美元,需要26个虚拟CPU小时(在大型计算节点上的墙钟时间为20分钟)。我们在公开的代码发布中包含了渲染每个图像的成本,因此可以在下游应用中共同分析每个图像的边际价值和边际成本[64]。注释成本总共花费了369小时,平均注释速度为每秒39.8K像素。我们的注释速度比Cityscapes[17]中的细粒度注释(每秒0.3K像素)快两个数量级,但比GTA5[55]慢一个数量级(每秒279.5K像素)。然而,我们的注释提供了在这两个数据集中都无法获得的互补信息。例如,我们的网格注释为场景中不可见于任何图像的遮挡部分提供了分割信息,这可以用于非模态分割问题(例如[42])。每个场景的注释时间服从对数正态分布,平均一个场景的注释时间为48分钟(图10c)。我们所有的手动过滤决策都花费不到8小时。0训练过程0预训练 微调 AP mesh AP mask AP box0无 Pix3D 28.8 63.9 72.2 Hypersim(我们的数据集)Pix3D29.6 64.6 72.70表3. 我们的数据集在Pix3D[73]上的模拟到真实性能,进行了3D形状预测。按照[27]的方法,我们在S2测试集上报告了AP mesh,AP mask和APbox。数值越高越好。在顶部一行,我们展示了之前的最先进结果,即在Pix3D上训练Mesh R-CNN[27]所取得的结果。在底部一行,我们展示了我们的结果,即在我们的数据集上进行预训练,然后在Pix3D上进行微调所取得的结果。在我们的数据集上进行预训练可以达到最先进的性能。0图像),并花费了231个虚拟CPU年(在一台大型计算节点上的墙钟时间为2.4年)。尽管生成我们的整个数据集无疑是昂贵的,但它比其他一些流行的学习任务要便宜得多。例如,生成我们的数据集的成本是训练开源的Megatron-LM自然语言处理模型[67]的0.56倍,后者使用公共可用的云计算服务从头开始训练将花费103K美元。每个图像的渲染成本与计算时间成线性关系,并且我们观察到两者都服从对数正态分布(图10a、b)。平均而言,我们的数据集中渲染一个1024×768分辨率的图像的成本为0.67美元,需要26个虚拟CPU小时(在大型计算节点上的墙钟时间为20分钟)。我们在公开的代码发布中包含了渲染每个图像的成本,因此可以在下游应用中共同分析每个图像的边际价值和边际成本[64]。注释成本总共花费了369小时,平均注释速度为每秒39.8K像素。我们的注释速度比Cityscapes[17]中的细粒度注释(每秒0.3K像素)快两个数量级,但比GTA5[55]慢一个数量级(每秒279.5K像素)。然而,我们的注释提供了在这两个数据集中都无法获得的互补信息。例如,我们的网格注释为场景中不可见于任何图像的遮挡部分提供了分割信息,这可以用于非模态分割问题(例如[42])。每个场景的注释时间服从对数正态分布,平均一个场景的注释时间为48分钟(图10c)。我们所有的手动过滤决策都花费不到8小时。06. 实验0在本节中,我们评估我们的数据集在语义分割和3D形状预测上的模拟到真实的转移性能。对于这两个任务,我们的方法是在我们的数据集上进行预训练,然后在适当的真实世界数据集上进行微调,并在真实世界数据集上评估性能。[1] http://github.com/facebookresearch/meshrcnn/issues/31. 8[2] Chaos Group V-Ray.http://www.chaosgroup.com. 4109190我们在表2和表3中总结了我们的结果,并在补充材料中提供了额外的细节。0数据划分在我们的公共代码发布中,我们提供了标准的{训练、验证、测试}划分,每个划分包含{59,543,7,386,7,690}个图像。我们按场景划分我们的数据集,即给定场景的每个图像属于同一划分。我们在所有实验中使用这些划分。0语义分割我们在NYUv2数据集[68]上评估语义分割性能,该数据集包含795个训练图像和654个测试图像。我们评估13类[18]和40类[28]分割任务的性能,并报告平均交并比(mIoU)作为评估指标。在我们的所有实验中,我们使用RGB图像进行训练和测试。我们使用标准的U-Net[57]作为我们的模型架构,使用使用ImageNet[59]权重初始化的ResNet-34[32]编码器。在训练过程中,我们始终应用随机裁剪、翻转和调整大小,并以0.5的概率应用颜色抖动。我们在预训练和微调期间使用相同的训练方法,并在512×512分辨率下进行评估。我们发现,在我们的数据集上进行预训练显著提高了在NYUv2上的语义分割性能(见表2)。我们的语义分割结果(+6.2 mIoU 13类;+5.0 mIoU40类)优于PBRS[70, 83](+1.6 mIoU40类)的报告结果,但不及SceneNet-RGBD[52](+8.1mIoU13类)的报告结果,在类似的实验条件下。然而,我们的数据集(77K图像,0.5K场景)比PBRS(568K图像,45K场景)小一个数量级,比SceneNet-RGBD(5,000K图像,16K场景)小两个数量级。尽管规模较小,但我们的数据集的竞争性能归因于图像和场景的增加逼真度。这一发现表明,在固定的渲染预算上,通过更小、更逼真的数据集可以与更大、不太逼真的数据集竞争。确定在给定的下游任务中更逼真和不太逼真图像的最佳组合,以固定的渲染预算为前提,是未来工作的一个激动人心的方向[64]。03D形状预测我们在Pix3D数据集[73]上评估3D形状预测性能,该数据集包含10,069个图像和395个唯一的三角形网格。我们使用[27]中定义的训练、验证和测试的数据划分,并在最具挑战性的Pix3D测试集上进行最终评估。按照[27]的做法,我们报告AP mesh、AP mask和APbox。我们使用MeshR-CNN[27]作为我们的模型架构。我们完全按照作者的训练方法进行训练,只是调整了预训练期间使用的学习率。在选择0对于学习率,我们遵循作者的指南[1]选择超参数。07. 结论0我们利用大量的合成场景库创建了一个新的数据集,用于整体室内场景理解。我们引入了一种新颖的计算流程,以生成我们场景的显著视图,并在云端渲染逼真的图像,同时还引入了一种新的交互工具,以高效地注释我们的场景。我们使用我们的流程和注释工具创建了第一个计算机视觉数据集,结合了图像、3D资产、语义实例分割和解耦的图像表示。我们分析了生成数据集的成本,发现从头开始生成整个数据集的成本大约是训练一个流行的开源自然语言处理模型的一半。最后,我们证明了在我们的数据集上进行预训练可以提高两个真实世界场景理解任务的性能,并在最具挑战性的Pix3D测试集上实现了最先进的性能。我们相信我们的数据集可以促进在获取真实世界基准数据困难或不可能的各种计算机视觉问题上取得进展。特别是,我们的数据集非常适合需要3D监督的几何学习问题、多任务学习问题和反渲染问题。我们标记的场景可以用于训练自动网格分割系统,以及合成实际场景变化的生成建模系统。在超越我们特定的数据集之后,我们看到了计算机视觉中逼真合成数据的许多潜在应用,并且我们相信有丰富的机会来共同设计渲染算法和学习算法,以更有效地分摊渲染成本。0致谢0我们感谢Evermotion的专业艺术家们提供他们的Archinteriors系列供购买;感谢DannyNahmias帮助我们获取数据;感谢MaxHorton帮助我们原型化我们的标注工具;感谢ChaosGroup的Momchil Lukanov和VladoKoylazov为我们提供的出色的V-Ray支持;感谢DavidAntler、Hanlin Goh和Brady Quist校对本文;感谢AliFarhadi、Zhile Ren、Fred Schaffalitzky和QiShan的有益讨论;感谢JiaZheng在表格1中发现并纠正了一个错误。0参考文献[3] Evermotion Archinteriors Collection.http://www.evermotion.org. 4[4] TurboSquid.http://www.turbosquid.com. 4109200[5] Tomas Akenine-M¨oller, Eric Haines, Naty Hoffman,Angelo Pesce, Michał Iwanicki, , and S`ebastien Hillaire.实时渲染,第四版 . CRC Press, 2018. 50[6] Ibraheem Alhashim and Peter Wonka.通过迁移学习进行高质量的单目深度估计. arXiv 2018. 10[7] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, MarkJohnson, Niko S¨underhauf, Ian Reid, Stephen Gould, andAnton van den Hengel.视觉与语言导航:在真实环境中解释基于视觉的导航指令.在CVPR 2018中. 1 , 20[8] Matt Angus, Mohamed ElBalkini, Samin Khan, AliHarakeh, Oles Andrienko, C
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功