大规模室内场景真实感数据集的创建框架及应用

79 浏览量更新于2024-01-22 收藏 3.6MB PDF 举报

室内场景

多任务学习

身份认证购VIP最低享 7 折!

30元优惠券

7190OpenRooms：一个用于真实感室内场景数据集李正琴1于廷伟1沈桑1王萨拉1宋梦1刘玉涵1叶玉英 1朱瑞1尼泰什·贡达瓦拉普1贾世1赛毕1于红星1徐泽祥2Kalyan Sunkavalli2米洛斯·哈哈什安2拉维·拉马穆尔西1曼莫汉·钱德拉克11加州大学圣地亚哥分校2Adobe研究摘要我们提出了一个新的框架，用于创建大规模的室内场景的真实感数据集，地面真实几何，材料，照明和语义。我们的目标是使数据集创建过程广泛可用，将扫描转换为具有高质量地面真实感的真实数据集，这使得在逆向绘制，场景理解和机器人技术的重要应用。我们表明，在所提出的数据集上训练的深度网络在真实图像上的形状、材料和照明估计方面具有竞争力，从而实现了照片级真实感增强现实应用，例如对象插入和材料编辑。我们还展示了我们的语义标签可用于分割和多任务学习。最后，我们证明了我们的框架也可以与物理引擎集成，以创建具有独特的地面真相（如摩擦系数和与真实场景的对应关系）的虚拟机器人环境。该数据集和创建此类数据集的所有工具将公开提供。11. 介绍室内场景代表了视觉感知和场景理解的重要环境，用于增强现实和机器人等应用。然而，它们的外观是诸如形状、材料和照明的多个因素的复杂函数，并且表现出像显著遮挡、阴影、相互反射和照明中的大空间变化的现象。对这些潜在的、纠缠的因素进行推理需要大规模的高质量的基本事实，而这仍然很难获得。虽然可以使用3D扫描仪捕获地面真实几何形状，但准确获取室内场景的复杂空间变化材料和照明是极其具有挑战性的（如果不是几乎不可能的话）。另一种方法是考虑合成数据集，但大规模的合成数据集，1网页：https://ucsd-openrooms.github.io/具有合理的几何形状、材料和照明的室内场景的模拟数据集的创建也是重要的。本文介绍了OpenRooms，一个用于合成真实感室内场景的框架，它在计算机视觉、图形学和机器人技术方面具有广泛的适用性。它有几个优点比以前的作品，总结在表1。首先，我们不使用艺术家创建的场景和布景，而是将高质量的材料和照明归因于真实室内场景的RGBD扫描。除了数据之外，我们还提供了实现这一目标所需的所有工具，允许任何研究人员以低廉的成本创建此类数据集。虽然先前的工作可以将CAD模型与扫描的点云对齐[5，26，6]，但它们没有探索如何适当地分配材料和照明以构建大规模的照片真实数据集。第二，我们为复杂的光传输提供了广泛的高质量的地面实况，这在以前的作品中是不匹配的。我们的材料由空间变化的微面双向反射分布函数（SVBRDF）表示，我们的照明包括阴影，环境贴图和区域光，以及它们的每像素空间变化效果，以考虑可见性，阴影和相互反射。第三，我们使用我们的数据和工具渲染照片真实感图像，其中包括自定义GPU加速的基于物理的渲染器。我们创建这样一个数据集的实例，现有存储库：ScanNet的3D扫描[16]，CAD模型对齐[5]，反射率[1]和照明[23，24]。结果数据集包含超过100K的HDR图像，具有地面真实深度，法线，空间变化的BRDF和光源，以及每个光源的每像素空间变化的照明和可见性遮罩我们还提供了每像素的语义标签。除了公开可用外，该数据集还可以通过基于我们工具的未来社区努力我们还证明了我们的方法对材料[4]和几何形状[48]的其他选择的适用性。我们相信，我们的努力将大大加快多个领域的研究。反向渲染任务是直接相关的，包括单视图[17]和多视图[55]深度预测、本征分解[33，11]、材料分类[10]和照明估计[20，21，32]。7191Commo$iy）*+en+or;y+i0133y=>1+e$3i9o i0+/e9m en1离/01nne$+21r +e1n$noi+y2oin03o4$5oom31yo4re0on+ r40 ion&C7*mo$e3+13i9 nmen&？1r9e=+013e+y n&=4窗口灯所有100050000 1 2 3>=4窗口灯所有每类对象的像素数（log）每类对象的像素数%（x106，log）&i（%）*im#$%&i（%）*sh#di/$1%（23i4%5di（%）*%/6m#3s10001000000100000图6：我们为照明提供各种类型的监督室内场景分析，包括仅使用直接照明的逐像素环境贴图，或包括间接照明。100101100001000100101在图5中可视化我们的光源注释。我们的光源表示具有明确的物理意义，可以模拟室内场景中图像形成的完整物理过程对于环境地图，我们使用了414个高分辨率的自然户外场景HDR照片，来自[24]和[23]。对于室内灯，与之前随机采样区域光光谱的合成数据集不同[32，59，33]，我们遵循物理上合理的黑体模型，通过其温度确定光源的光谱，选择在4000 K至8000 K之间。图7：场景类别、图像、材料、照明和语义标签的数据集统计（请放大查看）。相反，我们更喜欢覆盖更大区域的视图，符合典型的人类观看条件。为了实现这一点，我们首先沿着墙壁采样不同的视图，面向房间的中心。对于每个视图，我们渲染其深度和法线贴图。设dp和np是pix elp的深度和法线，Grad（np）是三个通道中法线的绝对梯度之和我们根据计算定义为以下的分数来选择视图：此外，与先前的作品[32，33，59]一样，我们将每像素环境贴图和阴影渲染为空间变化的照明表示。但是，我们认为-Σp∈PGrad（np）+0.3Σp∈Plog（dp+1）。（一）直接照明以及直接和间接照明的组合这将有助于分别分析来自光源的直接贡献和来自室内场景的间接反射我们在图6中可视化一个示例。为了理解室内场景中复杂的光传输，我们还提供了每个单独光源的单独贡献及其可见性图。对于每个图像，我们通过仅打开特定光源来渲染每个光源的直接阴影，无论是否考虑遮挡项可见性图可以被计算为两个直接阴影图像的比率。我们在图5和图6中可视化这些注释。这些将允许使用先前的数据集不可能实现的新的chal-challing灯光编辑任务，例如打开和关闭灯光或打开窗口。3.4. 使用基于物理的渲染器进行渲染为了最小化合成和真实数据，我们修改了基于物理的GPU加速渲染器从我们以前的工作[32]，以支持地面实况每光的贡献和快速渲染每像素的环境地图。我们的渲染器模型复杂的光传输多达7个反弹的相互反射。视图选择ScanNet提供每个RGBD图像的相机姿态。然而，它们的分布偏向于接近场景几何体的视图，以优化扫描。分数较高的视图用于创建数据集。我们的视图选择结果的一个例子如图2所示（右下角）。详情载于补充资料。其他渲染器虽然我们的渲染器将公开发布，我们的资产（几何，材质贴图，灯光）是在一个标准的图形格式，可以在其他渲染环境中使用。例如，像Unity或Unreal这样的常见实时光栅化引擎可以用于喜欢实时渲染并且不需要完全精确的全局照明的应用（例如机器人）。此外，我们的每像素空间变化照明图可以用作高质量的预计算照明探针，用于真实感实时渲染[39]。3.5. OpenRooms数据集统计场景、图像、语义标签分布我们从1，506个ScanNet场景中挑选1，287个来实例化我们的数据集，丢弃那些覆盖房间很小部分的场景我们随机选择1,178个场景进行训练，109个场景进行验证。对于每个场景，我们选择视图使用我们的视图选择方法。对于每个渲染的图像，我们用不同的材质和光照渲染另外两个，如图2（左下）所示。我们以480×640的分辨率渲染了118，233张HDR图像，其中108，159张在训练集中，10，074张在验证集中。在OpenRooms中，我们渲染了所有44类CAD模型的语义标签.公寓浴室卧室书店教室壁橱计算机集群会议室警察/邮件室餐厅游戏室健身房走廊厨房LaundryRoom客厅Lobby其他办公室楼梯存放公寓浴室卧室书店教室壁橱计算机集群会议室警察/邮件室餐厅游戏室健身房走廊厨房LaundryRoom客厅Lobby其他办公室楼梯存放袋篮浴缸床凳书架瓶碗橱柜罐头帽子椅子时钟键盘路柜台窗帘书桌洗碗机门龙头文件柜花盆吉他罐子灯笔记本电脑微波监视器钢琴枕台球桌打印机沙发音箱炉灶台式电话垃圾桶洗窗口袋篮浴缸床凳书架瓶碗橱柜罐头帽cei凌椅子时钟键盘路柜台窗帘书桌洗碗机门水龙头文件柜地板花盆吉他jar一种台灯笔记本电脑微波监听钢琴枕台球桌打印机沙发音箱炉平板电话垃圾桶墙洗...白窗0.27195图7总结了场景类别和图像的分布、每个类别的对象数量以及每个类别的像素百分比。请注意，类别分布遵循ScanNet室内场景中的真实扫描。材料分布我们使用来自[1]的1，075个SVBRDF 构建OpenRooms，对应于图3所示的9个类别。每个类别的材料数量及其像素分布总结在图中。7 .第一次会议。照明分布图7显示了两种光源（窗户和灯）。每个图像至少有一个光源“打开”以进行渲染。对于所有的118K图像，我们渲染空间变化的环境地图和阴影，仅使用直接照明和组合的直接和间接照明。此外，我们提供了一个参数化的表示，为每一个可见和不可见的光源，以及绘制其各自的直接着色贡献和可见性地图。与所有先前的工作相同，OpenRooms为复杂的照明提供了明显更广泛和详细的监督，这可以允许新的应用，例如光源检测和编辑。资产成本几乎所有用于创建数据集的资产都是公开的，可免费用于研究。唯一的非免费（但也是公开可用的）资产是Adobe Stock [1]的原始材质贴图，价格不到500美元，而我们的场景注释的材质参数是免费提供的。请注意，使用我们的工具和免费提供的材料也可以实现逼真的外观，例如图中的物质共享[4二、数据集创建时间标注一个场景布局需要30秒，标注一个物体的材质需要1分钟，标注整个数据集需要64小时，这是由具有计算机视觉知识的学生完成的。几乎所有的渲染时间都花在渲染图像和空间变化的每像素环境贴图上，对于我们在单个2080Ti GPU上的定制渲染器，每幅图像分别需要600秒和100秒。原则上，我们可以使用40个GPU在1个月内渲染数据集。4. 应用4.1. 逆渲染我们通过在各种基准上测试在我们的数据集上训练的网络来验证逆渲染的有效性我们使用最先进的网络架构在室内场景中进行逆向渲染，处理空间变化的材料和照明[32]。请参阅补充材料了解更多详情。内禀分解我们比较我们的内在分解结果与3以前的方法。定性比较如图8所示，而定量比较如图8所示。输入[传感器等19][Li. 等20]我们的图8：与先前的本征分解最新技术的比较（所示的是最新预测）。表2：IIW上的固有分解[9]。表3 ：纽约大学数据集的正常和深度预测[46]。试验OpenRoomNYU2在OR/NYU 2是/否否/是是/是bbox segbbox segbbox segAP（0.5：0.95）80.2 70.117.1 15.323.5 21.6AP窗口85.8 63.211.9 12.720.5 20.6AP灯74.7 76.922.2 18.026.6 22.7表4：OpenRooms和NYU 2 [46]上的边界框回归和遮罩AP，用于光源（窗户和灯）检测。结果见表2，与基于艺术家创建的SUNC数据集的现有技术水平相当[49]。深度和正常估计。我们评估了纽约大学数据集上的正常和深度估计。定量评价见表3。我们的表现比李等人略差。的数据集，可能是因为他们基于SUNC G的数据集与我们基于ShapeNet的家具相比具有更多样化和更复杂的几何形状。光源检测我们使用Detectron 2 [51]的ResNeXt101 [54]和FPN [35]预训练模型来训练用于光源检测（窗户和灯）的实例分割网络。我们在OpenRooms和NYUv2上进行评估[46]。如Tab.所示。4和图10，OpenRooms上的训练将NYUv2测试的准确性提高了约5%，无论是边界框回归还是分割。上述网络还预测每个像素的空间变化的照明，图9中示出了定性结果，并且补充了定量结果。请注意，我们还提供了每像素直接照明，阴影和可见性的地面实况，这不是我们的网络预测的，但可能有助于光传输，编辑和增强现实的研究。语义分割我们使用DeepLabV3 [15]和PSPNet（50）[60]来预训练语义分割模型培训WHDR↓我们我们的+IIW16.4[33]第三十三话CGI + IIW17.5第十九条[44]CGP + IIW16.7方法平均值（μ）↓Med.（）↓深度↓我们25.318.00.171锂[32]24.117.30.184第十九条[44]21.116.9–7196操作#$% m（）*）5##p6789：+1234）*）5##p6789：在#$t&l（）*+N+m/l0+$12 n）334）#t25）m/nt673In#$t i（（$）* A-b*/0 10234- 50$67n*））*#t7 8i67tin6图9：真实示例和合成示例的逆渲染结果。最下面一行的插图是地面实况。图10：OpenRooms（OR）和NYUv2上的光源检测[46]。使用OR训练可以更好地检测窗口。图 11：使用PSPNet（50）[60]和DeepLabV3 [15]在OpenRooms和NYUv2 [ 46 ]上进行语义分割。图12：OpenRooms上的多任务估计PSPNet（5（0）[60]DeepLab第三版[15]MiouMACCMiouMACC10K50K10K50K10K50K10K50K在41.141.253.353.441.742.253.654.4或40.841.153.052.542.542.954.555.1表5：在OpenRoom（OR）和InteriorNet（IN）[31]上训练的语义分割，并使用PSP Net（50）和DeepLabV3在NYUv2 [46]上进行微调，使用不同数量的图像。在OpenRooms上，然后在NYUv2 [46]上微调并评估40个标签[22]。我们还将InteriorNet [31]上预训练的结果如Tab.所示5和图11，两个模型的结果相当，并且两个预训练数据集的图像数量更大。！B#$$%&（）#*+13。！/ #$0&（$（）#*+11.！/#$%&（）#*+12。！34（）#*+56。78$9/$%8&0：）$8）;图13：在真实基准数据集上插入对象[21]。我们的数据集产生了与最新技术水平相当的照片级插入结果[32][21]。请放大以了解更多详情。In#$td（t）d图14：真实图像中的材质编辑。请注意，在我们的数据集上训练的网络可以很好地处理镜面反射效果和空间变化的照明。多任务评估OpenRooms的一个优势是可以为一系列反向渲染和语义任务提供基础事实。这可能是有用的学习不同的视觉任务之间的相关性，因此可以在多任务和迁移学习的研究人员的极大兴趣。作为说明，我们将简单的分割头添加到上述逆渲染网络定性结果如图12所示。定量结果见文献。我们希望这样的数据将激励并有助于多任务学习的研究，如[56，57]。4.2. 应用于增强现实对象插入增强现实中的真实感虚拟对象插入需要高质量的几何、材料和光照估计。我们测试我们的逆网络）*+theti/m#OR，在OR NYU上进行微调，在OR NYU上进行微调，在ORRe#$m#（e7197（1）（2）（3）（4）（5）（6）（7）（8）（9）（10）（11）（12）（13）（14）（14）（15）（16）（17）（18）（19）（19&&&&图15：OpenRooms与物理引擎集成，为机器人创建虚拟场景，可能使研究能够在不同的照明和材料中进行导航和重新排列，并可能与真实场景相对应。（）（+n）+%ff（）（%n*/（ff%r%n*m#*%r（#01r（）*（+n）+%ff（）（%n*图16：不同材质的同一场景的真实摩擦系数。镜面反射材质往往具有较低的摩擦系数（颜色较深）。图17：OpenRooms使导航和重排与材料和照明变化的新研究。巴隆13 [8][20]第二十话加龙省[21]锂[32]我们的与88.19%66.16%56.53%54.77%表6：关于对象插入的用户研究，显示了人类注释者认为我们优于替代方法的成对比较的百分比;我们优于所有先前的方法。更多的细节和比较在补充。在来自[21]的数据集上，其包含大约80个地面实况空间变化光探针。如图13所示，我们的网络优于那些不能很好地处理空间变化或高频照明的方法。与在基于SUNC的数据集上训练的[32]相比，它甚至生成更一致的照明，这可能是因为我们的数据集具有更多样化的室外照明，并以物理上有意义的方式处理室内照明。表6中的定量用户研究还表明，在我们的数据集上训练的网络在对象插入方面表现更好。材料编辑我们使用[32]的方法在图14中示出了平面表面的材料的替换。我们注意到，空间变化的照明效果和镜面反射处理得相当好，结果与[32]相当，即使我们的数据集是从用商品传感器获取的噪声扫描创建的。4.3. 机器人和视觉的应用为了促进机器人技术和嵌入式人工智能的研究，OpenRooms支持将丰富的3D室内场景模型转换为交互式环境，并通过PyBullet进行逼真的物理模拟[3]。URDF文件描述CAD模型的物理属性，例如质量和摩擦系数。OpenRooms的这一功能建立了环境的外观和物理属性之间的直接联系，为一系列主题提供学习试验平台，包括从感知的物理理解和作为示例，图15示出了教室场景，其中机器人被插入到场景中并且可以执行导航任务。场景中的家具可以重新排列，而照明和材质属性也可以更改。图17，我们展示了导航和重新排列，其中相同场景的系数的不同摩擦导致不同的推送结果（详见补充说明）。由于我们从扫描中创建场景，因此可以与真实场景进行对应，这对于模拟到真实的转移研究可能很有用[27]。摩擦系数的地面真实值我们使用我们的粗糙度和粗糙度地面真实值通过[58]中采集的虚拟等效物渲染反射盘，然后进行最近邻搜索以计算摩擦系数。每像素摩擦系数的示例在图16中，其中镜面材料具有较低的摩擦系数。更多细节载于补充资料。5. 结论和未来工作我们已经提出了一些方法，可以从现有的3D扫描，形状和材料的公共存储库开始，为复杂的室内场景提供用户生成的真实感数据集。我们在ScanNet的1000多个室内场景上说明了这个过程。与之前的作品相比，我们为复杂材质和空间变化的照明提供高质量的地面实况，包括直接和间接照明、光源、每像素环境地图和可见性。我们证明了反向渲染和分割网络可以在OpenRooms上训练，以增强现实应用程序，如对象插入和材质编辑。我们还表明，我们的数据集可以与物理引擎集成，并提供摩擦系数，这表明在导航，重排和模拟到真实的传输有趣的未来研究。我们的数据集和用于创建它的所有工具将公开发布。请参阅补充材料，了解更多详细信息、广泛的实验结果和视频。鸣谢：我们感谢 NSF CAREER 1751365 ， Google 奖，Adobe ， NSF CHASE-CI ， ONR N 000142012529 ， N000141912293，NSF 1703957，Ronald L.格雷厄姆主席和UCSD视觉计算中心。7198引用[1] Adobe Stock 。 h t t p s ： //stock.土坯。 com/3d-assets.[2] 搅拌机 http://www.blender.org。[3] 子弹实时物理模拟。网址为pybullet.org。[4] 物质共享。https://share.substance3d的网站。com/.[5] Armen Avetisyan ， Manuel Dahnert ， Angela Dai ，Manolis Savva，Angel X Chang，and Matthias Nießner.Scan 2CAD：学习RGB-D扫描中的CAD模型对齐。在Proc. CVPR，2019年。[6] ArmenAvetisyan ， TatianaKhanova ， ChristopherChoy ， Den- ver Dash ， Angela Dai ， and MatthiasNießner.SceneCAD：预测RGB-D扫描中的对象对齐和布局。在Proc. ECCV，2020中。[7] Aayush Bansal，Bryan Russell，and Abhinav Gupta. Marr重访：通过表面法线预测的2D-3D模型对齐。在Proc.CVPR，2016年。[8] Jonathan T Barron和Jitendra Malik。来自单个RGB-D图像的内在场景特性。在Proc. CVPR，2013年。[9] Sean Bell，Kavita Bala，Noah Snavely.在野外的内在形象。ACM Trans.Graphics，33（4）：159，2014。[10] Sean Bell，Paul Upchurch，Noah Snavely，and KavitaBala.在野外用材料识别上下文数据库中的材料在Proc.CVPR，2015年。[11] Sai Bi，Nima Khademi Kalantari，and Ravi Ramamoorthi.深度混合真实和合成训练的内在decomposition。在Proc.EGSR，2018中。[12] 里卡多·卡布拉尔和古川泰孝。从图像中进行分段平面和紧凑的平面图重建。在Proc. CVPR，2014中。[13] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3D：从室内环境中的RGB- D数据中学习2017年。[14] 陈嘉诚，刘晨，吴嘉业，和安丰福川. Floor-SP：通过顺序房间最短路径进行平面布置图的逆向CAD。在Proc.ICCV，2019。[15] Liang-ChiehChen ， GeorgePapandreou ， FlorianSchroff，and Hartwig Adam.重新思考语义图像分割的卷积。arXiv预印本arXiv：1706.05587，2017。[16] 安吉拉戴，天使X。Chang，Manolis Savva，MaciejHal- ber，Thomas Funkhouser，and Matthias Nießner.扫描：室内场景的丰富注释3d重建。在Proc. CVPR，2017年。[17] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面归一化和语义标签InProc. ICCV，2015.[18] Huan Fu ， Rongfei Jia ， Lin Gao ， Mingming Gong ，Binqiang Zhao，Steve Maybank，and Dacheng Tao. 3d未来：3d毛皮-带纹理的毛皮形状。arXiv预印本arXiv：2009.09633，2020。深度参数化室内照明估计。InProc. ICCV，2019.[20] Marc-Andre'Gardner 、 KalyanSunkavalli 、 ErsinYumer、Xi-aohuiShen、EmilianoGambaretto、ChristianGagn e'和Jean-Fran c.Lalonde。学习从单个图像预测室内照明 ACM Trans. Graphics，9（4），2017.[21] Mathieu Garon ， Kalyan Sunkavalli ， Sunil Hadap ，Nathan Car r，andJean-Fran c. 快速空间变化的室内照明估计.在Proc. CVPR，2019年。[22] Saurabh Gupta，Pablo Arbelaez，and Jitendra Malik. rgb-d影像室内场景的知觉组织与辨识。在Proc. CVPR，2013年。[23] HDRI HAVEN。https://hdrihaven.com/网站。[24] 雅尼克·霍尔德-杰弗罗伊，阿沙亚·阿塔瓦莱，让-弗朗·弗朗索瓦·拉隆德。用于单图像室外照明估计的深度sky建模在Proc. CVPR，2019年。[25] Binh-SonHua 、 Quang-HieuPham 、 DucThanhNguyen 、 Minh-Khoi T

下载后可阅读完整内容，剩余1页未读，立即下载