基于单个图像的场景重新照明方法用于自动驾驶视觉任务的数据增强

58 浏览量更新于2023-10-25 收藏 1.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3718SIMBAR：基于单个图像的场景重新照明，用于自动驾驶视觉任务的Xianling Zhang1*，Nathan Tseng2*，Ameerah Syed1，Rohan Bhasin1，NikitaJaipuria11福特格林菲尔德实验室，帕洛阿尔托2密歇根大学{xzhan258，asyed17，rbhasin，njaipuri} @ ford.com，tsnathan@umich.edu摘要真实世界的自动驾驶数据集包括从道路上的不同驾驶聚集的图像。以可控的方式将捕获的场景重新照亮到不可见的照明条件的能力提供了利用更丰富的各种照明条件来增强数据集的机会，类似于在现实世界中会遇到的情况。本文提出了一种新的基于图像的重光照流水线，SIMBAR，它可以工作与一个单一的图像作为输入。据我们所知，目前还没有关于利用来自单个图像的显式几何表示的场景重新照明的我们提出了定性的比较与以前的多视角场景重照明基线。为了进一步验证和有效量化利用SIMBAR进行自动驾驶视觉任务的数据增强的益处，使用最先进的方法进行对象检测和跟踪实验，使用 SIMBAR 增强的 KITTI 上的CenterTrack 实现了 93.3% 的多对象跟踪准确度（MOTA）-与使用原始KITTI上的CenterTrack的85.6%的基线MOTA相比，令人印象深刻的9.0%相对改进，两个模型都是从头开始训练并在Virtual KITTI上测试的。有关更多详细信息和示例relit数据集，请访问我们的项目网站（https://simbarv1.github.io）。1. 介绍照明条件缺乏多样性是手动收集的真实世界自动驾驶数据集的已知问题[1，3，14，18]。例如，KITTI[18]仅在中午捕获视频序列，不同序列之间具有相似的照明和阴影条件更近的数据集[32，37，59]，如BDD 100K [59]，在多样性方面相对更好，并且在一天的多个时间捕获图像。尽管如此，从同一驱动器收集的图像之间，照明条件的变化很小。此外，尝试获取所有类型的照明条件的数据在时间和金钱方面都是难以理解的。这种缺乏多样性的照明条件和前-图1.输入图像（左）与SIMBAR-relit输出（中，右）相对显示。SIMBAR合成了（a）（b）Div2k、（c）BDD 100K和（d）KITTI的两种照明在用于安全关键的自动驾驶应用的感知模型的成功的真实世界部署中，紧张（场景内存在的阴影）经常充当在有限的照明条件下训练的模型无法推广到现实世界中遇到的过多照明条件[26，28]。以可控方式重新照亮现有数据集的能力为开发改进的感知模型提供了机会。然而，在没有深度传感器的情况下，场景重新照明是极其困难的视觉任务。它隐含地包括三个主要的子任务：阴影检测[10，25，53]，去除[23，24，53]和插入[61]。其中，阴影去除和插入是最具挑战性的，因为阴影与源对象几何形状紧密融合[2，15]。这种耦合使得在没有强大的3D几何的情况下难以将阴影与其父对象3719对场景的计量理解[4，8，20]。为了解决这个问题，大多数现有的场景重新照明方法依赖于源照明条件的多个相机视图来估计3D场景几何形状[42，49，62]。相对较少的可以处理单个图像的方法是基于生成对抗网络（GANs）[6]。已知GAN难以训练[31，38]，控制不稳定性有限[52]，并且经常产生与场景几何结构物理上不一致的结果[16]。据我们所知，没有关于使用单个输入图像的可控场景重新照明的先前工作本文提出了一种新的基于单个IM年龄的场景再现流水线（SIMBAR）.它以单个图像作为输入，并为各种各样的太阳位置和天空天顶产生重新照明版本，如图1所示。顶部两行显示了Div2k的重新连接结果[1]。Div2k是一个互联网抓取的数据集，包含各种各样的对象类的图像，SIMBAR能够有效地重新照明。第一行显示了天空颜色、阴影方向以及具有复杂结构的室外场景的一致投射阴影位置和光照强度的真实变化第二排是具有挑战性的低光沙漠场景。SIM-酒吧干净地删除现有的硬投阴影的岩石在前景和现实重铸几何- cally一致的阴影提供太阳角。此外，地平线上的山地景观也得到了有效的再现。第三和第四行还分别显示了BDD 100 K的KITTI道路驾驶场景和隧道/地下通道场景的几何一致性和视觉逼真的重投影版本最值得注意的是BDD 100K示例中隧道和KITTI示例中两辆汽车的硬阴影变化。SIMBAR由两个主要模块组成：（i）几何估计和（ii）图像重照明。几何估计模块负责计算场景网格代理和照明缓冲区。我们受到WorldSheet [22]的启发，使用外部深度网络来获得场景网格。请注意，WorldSheet是一种新颖的视图合成管道，不具有重新照明的目的。图像重新照明模块受到使用几何感知网络[42]的多视图场景重新照明的先前工作的启发第3.1节提供了基于单个图像的场景几何估计和MVR的简短概述，随后在第3.2节中详细描述了SIMBAR 我们的工作是最接近的目标和总体管道结构的MVR。因此，在第3.4节中，我们提供了开箱即用的MVR及其改进版本MVR-I的场景重新照明比较，其中我们针对具有有限视图的自动驾驶数据集改进了MVR。与MVR/MVR-I相比，SIMBAR提供了更加逼真和几何一致的重新点亮图像，即使它需要输入单个图像，也可以提供多个图像作为输入。同一个场景的年龄。所有关于场景重新照明的现有工作的另一个主要限制是缺乏对场景重新照明在增强视觉数据集中的有效性的定量评估。在没有这样一个度量的情况下，任何场景重新照明方法的真实世界的适用性和有用性都无法建立。为了解决这个问题，在第4节中，我们使用最先进的对象检测和跟踪网络CenterTrack [64]执行第4.1节提供了我们实验设置的详细概述。我们训练三个不同的CenterTrack模型：（i）具有在中午捕获的21个真实世界序列的原始KITTI跟踪数据集;（ii）具有MVR-I重新连接序列的增强KITTI;以及（iii）具有SIMBAR重新连接序列的增强KITTI。所有模型均在虚拟KITTI（vKITTI）[17]上进行测试第4.2节显示，使用重新点亮的 KITTI 图像（来自 MVR-I 或 SIMBAR ）增强的CenterTrack模型具体而言，在使用SIMBAR增强的KITTI上训练的CenterTrack模型实现了93.3%的最高多目标跟踪准确度（MOTA）-比基线MOTA 85.6%相对提高了9.0%该模型还实现了94.1%的最高多目标检测准确度（MODA）-再次令人印象深刻的8.9%相对于基线MODA的86.4%。概括起来，本文的主要贡献是：1. 一种新颖的基于单视图图像的场景重照明流水线，称为SIMBAR，其提供照明控制不稳定性而不需要多视角图像。2. 通过适应密集预测Transformer单深度模型和更好地表示远处背景对象，实现基于单个图像的几何估计。3. MVR的改进版本[42]，称为MVR-I，在有限视图的道路驾驶场景中生成的网格中具有更少的伪影和更平滑的表面，从而产生更逼真的重新照明图像。4. 在多个自动驾驶数据集（如 KITTI ）上使用MVR、MVR-I和SIMBAR对场景重新照明结果进行定性评估和比较[18]和BDD100K [59]。5. 定量评估使用SIMBAR和MVR-I增强流行的KITTI2D跟踪数据集的有效性，以便使用CenterTrack同时进行对象检测和跟踪。2. 相关工作我们的工作与新颖视图合成[34，47，54]，3D重建[9，56，57]和基于物理的可微分渲染[29，41]领域密切相关。考虑到重新照明任务和场景几何之间的直接联系[12，60，65]，我们将相关工作分为两大部分3720×分类：（i）隐式方法学习几何先验并将其编码到模型中;以及（ii）显式方法利用输入场景的多个视图来生成3D网格以对其应用渲染和图像处理技术。虽然显式方法提供了更好的可控性和几何一致的阴影，但它们的多视图先决条件限制了它们在大多数自动驾驶数据集上的应用。这是由于前置汽车摄像头的视野有限的独特挑战，加上不断移动的汽车和行人的高场景复杂性我们的工作属于显式类别，同时利用来自隐式方法的见解。2.1. 使用隐式几何表示生成对抗网络（ GANs ） [21] 和神经辐射场（NeRFs）[35]都探索了场景重新照明。作为GAN的典型特征，[6]中的阴影操纵网络难以保持几何一致性并且难以训练，从而导致保守的重新照明效果。这也发生在GAN中，GAN专注于图像到图像的转换，忽略几何先验[11，16]。最近的成功NeRF为基础的新的视图合成的方法，自然导致他们的应用场景重新照明任务以及。NeRF不是查询显式场景几何结构，而是将场景编码到多层感知器（MLP）[33]中，该感知器将观看方向和位置作为输入以输出颜色和密度值，然后用于体积渲染[39，40]。在训练时，将静态场景的许多不同视图提供给网络以学习场景几何形状。在测试时，输入的查看方向和位置用于渲染场景，并提供精确的照明和阴影。最近的工作已经通过对表面材料和反射特性进行建模来重新利用NeRF用于场景重新照明[5，49，62]。然而，这样的方法在其应用于具有动态场景的自动驾驶数据集时面临显著的计算障碍，因为每个场景需要训练不同的模型。2.2. 使用显式几何表示将运动恢复结构与多视图立体相结合（SFM+MVS）是一种常见的场景几何建模方法。它依赖于从单个感兴趣场景的不同视图捕获的图像之间的特征匹配。在应用SFM+MVS之后，光束法平差[51]可用于生成3D点云，在COLMAP [45，46]中。点云允许应用传统的网格重建技术，如Delaunay [7]或Poisson [30]重建，以生成场景的显式几何表示。利用几何先验的视觉任务，如新视图合成，可以利用这种显式场景表示[44，58]。网格也可以应用于场景[42]如图所示在他们的工作中，基于物理的渲染被用来使用生成的网格近似阴影位置，并使用额外的网络进行阴影细化。重新照明的结果是真实的和几何一致的。然而，这种方法在应用于各种数据集时受到严重限制。例如，有限的视图和动态场景会导致网格重建失败[27]。在相对简单和受限的数据集的情况下，例如人类肖像，由于面部数据之间的结构高度相似，使用单个视图的图像重新照明已经成功[36，63]。然而，对于包含更广泛的结构和内容的户外场景数据集来说，情况并非如此[13]。3. 基于单幅图像的场景重照明我们提出的管道，SIMBAR，模型的场景作为一个3D网格显式地表示场景几何。基于物理的渲染，然后使用与阴影细化网络，以产生逼真的阴影地图.原始图像可以与目标阴影贴图合成，以形成最终的重光输出。这样的方法解决了由先前工作对多视图场景重新照明造成的限制，并且可以跨场景进行推广。3.1. 预赛3.1.1基于单幅图像的场景几何估计为了解决基于SFM+ MVS的网格重建的多视图限制，我们受到WorldSheet的启发，[22]使用外部深度进行场景几何估计，以便执行基于单个图像的网格重构。请注意，整体WorldSheet和SIMBAR管道的基本思想是完全不同的。World-Sheet是一个可区分的渲染管道，经过端到端的训练，用于新颖的视图合成，而SIMBAR旨在使用各种阴影投射来操纵现有视图。对于场景网格形成，外部深度预测被视为地面实况，因此不需要预测x和y方向上的网格偏移。令zw，h是对应的片坐标（w，h）处的深度预测，并且xw，h和yw，h是来自[0，1]的归一化设备坐标（NDC）空间中的简单线性间隔样本，其中相机被放置在原点处。给定129 × 129的网格片的固定大小，深度预测是网格采样的，以考虑分辨率的差异。对于FoV角度θF，这给出了用于形成顶点坐标的以下等式zw，hxw，htan（θf/2）Vw，h=zw，hyw，htan（θf/2）（1）zw，h连接相邻顶点的网格边形成网格面[22]。然后使用拉普拉斯函数[48]对最终输出网格的面进行平滑。3721输入：IMonoDepthNetwork：预测深度图：D反射图法线贴图3D场景网格：MSource Shadow Map：SsrcrsrcRelightingNetwork：r-目标阴影贴图：Stgtrtgt阴影细化网络新颖的Relit输出(a)几何估计目标照明变化输入照明参数场景网格重建图2.（a）几何估计组件：单个输入图像I被馈送到单目深度估计网络（m）。预测的深度图D用于使用等式（1）中的顶点坐标来形成场景网格。1.一、得到的顶点和面的集合形成3D网格M。使用M相对于相机姿态渲染一组输入缓冲器IB。（b）图像重新照明组件：利用估计的输入照明参数和所需的目标照明变化，生成源阴影图Ssrc和目标阴影图Stgt。阴影细化网络rsrc和rtgt分别细化阴影图Ssrc和Stgt。最后，重光照网络r_out采用I_B细化阴影图，以生成最终的重光照图像。3.1.2几何感知多视图重新照明编码场景几何先验和场景几何与照明效果之间的关系是为阴影去除和合成网络提供强信号的既定方法[35，42，62]。SIMBAR中的图像重新照明网络遵循MVR[42]，其中除了源图像之外，还利用一组几何先验作为输入。生成一组输入缓冲区IB，其由法线贴图、反射贴图和细化的阴影贴图组成。法线贴图对每个像素处的曲面法线进行编码。反射贴图是曲面法线和日光方向之间的点积。为了获得细化的阴影贴图，一组粗略的RGB阴影贴图被用作两个阴影细化网络的输入-源和目标照明条件各一个。这些粗糙的RGB阴影贴图是从投射到场景的3D网格以生成阴影位置。对于与网格相交并投射阴影的每条射线，让mi表示交点。可以重新投影mi的坐标以找到对应的2D图像像素及其RGB值。后者在阴影贴图中编码对与投射阴影的对象相对应的RGB值进行编码可以帮助阴影细化网络校正由3D网格重建所造成的错误，以便产生最后细化阴影图的重新照明网络。为了完成重新照明过程，第三个网络与阴影细化网络结合使用所有这些都是在合成渲染数据上预先训练的。给定源和目标照明条件的输入图像和RGB阴影贴图，源和目标阴影细化网络尝试细化阴影贴图以纠正网格构造中的错误然后是最终的重新照明网络，该网络采用场景pri- ors和细化的阴影贴图来产生重新照明输出。3.2. 方法描述：SIMBAR大多数现有的场景重新照明方法[42，49，62]需要具有不同视点的多个图像。相比之下，SIMBAR利用单目深度估计来获得几何近似。SIMBAR是模块化的，有两个不同的组件，几何估计和图像重照明.完整的管线在图2中示出。几何形状估计模块（a）将场景表示为3D网格，这允许为图像重新照明模块（b）生成各种信息先验这允许利用显式几何场景表示的单个基于图像的场景重新照明的新颖系统设计。37223.2.1几何估计组件SIMBAR中的几何估计模块从单个输入图像I生成3D场景网格Mi，如图2所示。这与MVR形成直接对比，MVR依赖于SFM+MVS [45，46]进行多视图场景重建。从单个图像I生成网格M所采取的步骤受到WorldSheet的启发（参见第3.1.1节），但具有用于改进网格重建的附加修改在SIMBAR中，使用外部预训练的单目深度估计网络来提供用于生成场景网格的深度信息这是因为当渲染使用外部深度预测而不是预测深度和网格偏移的完整端到端管道的Worldsheet变体时，为户外驾驶场景提供了更高质量的网格这一观察结果是有意义的，因为使用WorldSheet训练的模型，在端到端训练机制中，网格M上没有直接损失替代地，仅经由在最终的重映图像上的渲染损失来获得超视因此，预测的网格偏移在几何上可能不如使用外部深度网络获得的网格偏移准确此外，我们已经适应了新的monodepth骨干改进场景几何估计，用于重新照明的信息。(a) 之前：3D场景网格缺少细节（b）未创建(c)之后：细化的场景网格几何体（d）使用新阴影图3.（a）使用MiDaS v2.1，3D场景网格丢失细节，导致（b）没有创建突出的阴影。(c)我们对DPT Hybrid的改进利用了密集的视觉变换器来捕捉远处的汽车对象，（d）创建逼真的阴影。改进的单目深度估计：虽然WorldSheet使用MiDaSv2.1作为外部深度骨干，但我们已经试验了密集预测转换器（DPT）单深度模型[43]）。图3示出了所生成的网格M在MiDaS v2.1深度预测的情况下错过了远处的汽车对象，从而错过了对可能投射阴影的结构细节进行编码。这在顶行的KITTI场景中尤其明显，其中远处的汽车对象没有很好地重新照明。为了解决这一限制，我们发现在DPT Hybrid-Kitti中使用改进的密集视觉变换器（在KITTI上进行了微调）有助于生成更详细的网格。前景/背景场景分离：如图所2，对于给定的输入图像I，预训练的(a)最小反向阈值= 800（b）在黑暗天空下的阴影结果(c)最小逆阈值= 100（d）晴空时的真实结果图4. (a)对于800的最小逆深度，场景网格在对应的阈值距离处形成平坦的垂直表面这种现象被观察为一个平坦的浅灰色墙壁错误地切断了金字塔几何形状的顶部。(b)这面墙的伪影在标记为“阴影过度”的重新照明图像中投射了一个大的阴影（c）使用100的最小逆深度有效地将墙边界推得更远，这为场景网格提供了更高级别的细节，导致（d）更逼真的清晰阴影结果。单目深度估计网络用于获得逐像素的逆深度值D。这些值然后用于通知平面场景网格的变形。我们观察到，在不同尺度下对逆深度进行阈值化使我们能够专注于不同层次的细节。图4中示出了具有不同水平的逆深度阈值的实验。对于800的高逆深度阈值，生成的墙壁表面相当接近相机和场景内容。这种设置可以用于低深度范围的场景，但在具有各种深度边界的各种户外场景中失败。这将导致阴影覆盖的结果，其中伪曲面将其自身的阴影投射到场景上。我们选择较低的逆深度阈值，因为这对应于更远离相机位置的距离。这允许网格进一步向后延伸并产生更清晰的阴影。天空和在地平线上远离的表面两者在具有较低的逆深度阈值的网格M3.2.2图像重新照明组件如图2所示，给定来自几何估计模块的场景网格M，生成如第3.1.2节所述的先验或输入缓冲器的集合。它们作为输入被馈送到阴影细化网络（rsrc，rtgt）和随后的图像重新照明网络（rout）。我们选择使用MVR此外，获得大量不同的高分辨率合成数据集以用于重新训练重新照明网络是时间和成本密集的。因此，在SIMBAR中，我们专注于对单视图几何感知场景重新照明的新颖适应。37233.3. 改进的MVR方法作为基线：MVR-I开箱即用的MVR方法在单视图收集的自动驾驶数据集上失败。为了让com-具有强大基线的型坯，我们优化道路视野有限的驾驶场景，我们称之为MVR-I。我们使用MVR-I作为所有定性（第3.4节）和定量比较（第4.2节）的基线图5. RGB点云覆盖在为KITTI场景可视化生成的场景网格之上。使用开箱即用的MVR，使天空中的表面产生幻觉（a），从而产生幻影阴影（b），我们使用MVR-I（c）进行改进，从而产生更逼真的图像重新照明结果（d）。消除虚幻的网格表面：首先，我们发现在KITTI场景上运行MVR会导致生成的网格中出现虚幻的天空表面，从而在地面上投射相应的幻影阴影。这是因为SFM+MVS重建对输入图像中的选定3D特征点进行三角测量，跨图像的重新投影误差较低。在图5中，请注意，在（a）中导致天空中的表面重建的三角点。这些幻觉表面在天空中投射出明显的阴影，也在（b）中的重新发光图像的前景角落上。虽然网格中的微小误差可以通过阴影细化网络解决[42]，但所示的主要误差会导致不切实际的场景重新照明效果。为了解决这个问题，我们实现了一个简单而高效的修复。我们排除了（c）中出现在天空中的混淆因素，例如云，以及天空本身，通过在输入多视图图像上使用Detectron 2 [55]进行这解决了天空中的幻觉网格表面和相应的幻影阴影的问题（d）。图6.（a）Delaunay表面重建对噪声敏感(b)泊松重建网格具有更光滑的表面。改进的曲面重建：第二个改进是用泊松曲面代替Delaunay曲面重建算法[7重建算法[30]。图6（左）显示了Delaunay算法产生的噪声网格，特别是对于地面。对同一场景进行泊松曲面重建（右），可以减少倾斜边，并使道路和树木曲面总体上更平滑。这两种修复的自然结果是更真实的重新照明结果，如图5（d）所示。3.4. 场景重新照明结果MVR 和 MVR-I 都需要场景的多个视点来使用SFM+MVS生成近似的3D网格。这种方法在由静止的自我车辆捕获的视频序列中失败，因为在捕获的序列内缺乏这是SFM+MVS的已知限制，其导致在使用MVR-I的KITTI帧重发光中渲染的许多半透明阴影。这可以在图中的顶行中观察到7 .第一次会议。图7. MVR-I（a）（c）和SIMBAR（b）（d）分别在KITTI和BDD 100 K上的重新照明结果。相比之下，SIMBAR提供了明显更真实和几何一致的重新照明结果，如图7（b）和（d）所示。虽然MVR-I无法从KITTI（顶部）和BDD 100 K（底部）逼真地重新照亮道路驾驶场景的图像，但在目标阴影方向和天空颜色方面，SIMBAR然而，有一些强烈的投射阴影残留，不能完全消除。3.5. 限制完全遮挡：通过我们在几何估计模块中提出的改进（参见第3.2.1节），生成的网格有了显著的改进，从而获得了更多的前景物体表面细节和更好的背景物体包含然而，单目深度方法的自然缺点是排除完全遮挡的对象。虽然部分遮挡对象的网格误差可以通过阴影细化网络来校正，但是完全遮挡对象目前存在阴影去除的问题。如果没有包含对象的附加视图，网格就无法表示对象，但在真实的输入图像中，对象仍然可以产生阴影。我们发现这偶尔会导致阴影残留的阴影3724当使用单视图源时，由于缺少对象上的上下文而被移除。场景网格操作：使用低逆阈值生成天空对象作为地平线上更远的墙壁表面（参见图4），并且理想地，我们希望通过场景网格操作移除平坦的墙壁表面以实现更鲁棒的场景网格分离。为了更好地理解场景中各个对象的几何形状，并对场景重新照明和阴影操作进行更精确的控制，KITTI火车组（中午）+CenterTrack网络测试集与看不见的照明（虚拟KITTI早晨，日落）另一种优化可以是利用诸如Mesh R-CNN [19]的神经网络来我们目前使用3D网格作为几何表示，并且不对特定的表面属性进行建模。进一步的建模可以允许考虑镜面反射的逼真的照明效果。4. 基于场景重光照的目标检测跟踪所有关于场景重照明的现有工作的严重限制是缺乏量化的度量来验证场景重照明作为视觉任务的有用数据增强方法的有效性。在没有这样的度量的情况下，不能评估任何场景重新照明管线的真实世界适用性的功效。因此，为了验证场景重新照明作为视觉任务的数据增强策略的有效性，我们通过将最先进的同步对象检测和跟踪模型CenterTrack与SIMBAR增强数据集相结合来展示现实世界的应用结果。我们的目标是评估使用SIMBAR增强数据训练的视觉模型的增强泛化能力。4.1. 实验装置列车测试数据集：KITTI跟踪数据集由21个道路场景序列组成，在白天收集，照明条件变化最小。在如此有限的数据集上训练的视觉模型无法很好地推广到现实世界中可能遇到的各种照明条件。为了近似这个现实世界的泛化挑战，我们在KITTI上训练CenterTrack模型，并在vKITTI上进行测试（仅包含之前的工作也表明，在vKITTI上进行测试是评估数据扩充的有用策略[50]。训练集和测试集之间的域差距的可视化如图所示8. 这样的实验设置在强调在有限数据集上训练的视觉模型在遇到在看不见的照明条件下的可见场景时容易失败方面是重要的使用场景重新照明的数据增强：为了比较SIMBAR与MVR-I的数据增强效果（见第3.3节），我们比较了图8.在中午拍摄的KITTI图像增强了MVR- I/SIMBAR重新定位结果，用于训练CenterTrack模型，vKITTI在两种类型的增强KITTI数据集上训练的CenterTrack模型的管理。两者都使用地面实况KITTI序列的完整训练集，以及序列号的增强版本：0001，0002，0006。这两个增强数据集的不同之处在于图像的重新显示方式，一个使用MVR-I，另一个使用SIMBAR，其中输入参数（如太阳方向和天空天顶）是随机初始化的。对于我们的实验，为3个KITTI序列中的每个帧生成4个不同的relit版本然而，多达120种不同的照明条件可以生成的每帧。我们离线执行此增强。培训过程的其余部分按原样遵循原始的CenterTrack实现。为了简洁起见，我们将在没有任何基于图像重光照的增强的情况下在原始21个KITTI序列上训练的CenterTrack模型称为（K）;（K+M）和（K+S）分别表示用MVR-I重光照序列和SIM-BAR重光照序列增强的KITTI训练的模型为了量化使用场景重新照明进行目标检测和跟踪的数据增强的有效性，我们报告了多目标跟踪精度（MOTA）、MOT精度（MOTP）、多目标检测精度（MODA）、MOD精度（MODP），并补充了精度（P）、召回率（R）、F1评分、假阳性（FP）和假阴性（FN）。4.2. 评价结果定量结果总结见表。1.一、所有模型都是从头开始训练的，每个训练运行的最佳检查点都是基于真实KITTI验证集上的MOTA选择的。在使用来自MVR- I（ K+M ）或 SIMBAR （ K+S ）的 relit KITTI 增强的KITTI上训练的CenterTrack模型在除MODP之外的所有指标上始终优于在 KITTI （ K ）上训练的基线CenterTrack 模型。具体而言，在使用 SIMBAR（K+S）增强的KITTI上训练的CenterTrack模型具有93.3%的最高MOTA-比K的85.6%的基线MOTA相对提高9.0%。同样，K+S也达到了94.1%的最高MODA-再次比K+S相对提高了8.9%，令人印象深刻。重复使用的地面实况Relit结果列车组扩充3725基线MODA为86.4%。此外，K+S具有最少的假阳性和假阴性。KK+MK+SMOTA↑百分之八十五点六百分之九十二百分之九十三点三MOTP↑百分之八十三点一83.5%83.5%MODA↑百分之八十六点四92.7%94.1%MODP↑百分之八十七点六百分之八十七点六87.4%回忆↑94.0%96.5%96.9%精密度↑94.4%97.4%百分之九十八点一F1↑94.2%96.9%97.5%假阳性↓28313395假阴性↓302179157表1.与基线CenterTrack相比，使用MVR-I和SIMBAR增强的数据训练的模型提供了持续更好的性能。图9. CenterTrack模型K（a）、K+M（b）和K+S（c）在vKITTI上的目标检测和跟踪结果。图图9示出了来自vKITTI上的K、K+M和K+S的检测和跟踪结果的定性下游任务性能比较上面的结果显示，在原始KITTI上训练的模型K未能检测和跟踪被密集的阴影遮挡的黑色货车。尽管K是在KITTI的完全相同的场景上训练的，但它在这种情况下失败了，因为训练集仅限于中午拍摄的图像，不包含不同的照明和阴影变化。因此，模型K在具有不可见照明条件的该可见场景中适当地执行。相比之下，K+M和K+S两种型号在具有挑战性的照明条件下的边缘情况下表现良好。为了调查所获得的改进的可靠性，我们为每个模型运行了5个不同的训练实例。3726图10. MOTA（左）和MODA（右）在模型K、K+M和K+S的5个不同训练实例中的方差。三种模型K、K+M和K+S。每个训练实例运行100个epoch，使用8个NVIDIA A100 GPU耗时9小时。图10显示了MOTA和MODA的持续改善，在5次训练运行中平均，K+S实现了最佳的整体性能。注意，与K相比，K+M在看不见的照明条件下也表现得相对较好，不同训练作业之间的差异较小5. 结论我们提出了一种新的基于单图像的场景重光照流水线，SIMBAR，用于实时和成本有效的多样化现实世界的数据集，包括过多的照明条件。SIMBAR由两个主要模块组成。几何估计模块受使用WorldSheet从单个图像进行3D场景几何估计的启发，利用各种逆深度阈值和单目深度网络来改进场景网格。图像重新照明模块重新利用来自现有技术MVR的重新照明网络，并且进一步放宽了对具有不同相机视图的多个输入图像的应用禁止要求。还提供了MVR的改进版本（MVR-I）用于基准测试。MVR-I利用分割预处理来去除混淆类，并针对道路驾驶场景进行了优化。此外，一个全面的定量评估的CenterTrack模型上训练的KITTI增强与relt数据被用来证明场景重照明的有效性，作为一个数据增强策略的对象检测和跟踪。我们的结果显示，在使用SIMBAR增强的KITTI上训练的 CenterTrack 在 vKITTI 数据集上的 MOTA 为93.3%，比在原始KITTI上训练的CenterTrack的基线MOTA 85.6% 相对提高了 9.0% 。这些结果为使用SIMBAR作为自动驾驶中视觉任务的有效数据增强技术提供了强有力的案例。致谢：作者要感谢Ronghang Hu和Deepak Pathak分享WorldSheet源代码，以及Julien Philip对他的MVR重新照明方法的启发性讨论。3727引用[1] Eirikur Agustsson和Radu Timofte。Ntire 2017单图像超分辨率挑战：数据集和研究。在IEEE计算机视觉和模式识别会议上，2017年7月。一、二[2] Nijad Al-Najdawi，Helmut E Bez ， Jyoti Singhai，andEran A Edirisinghe.投影检测算法综述。Pattern Recognition Letters，33（6）：752-764，2012. 1[3] 穆罕默德·阿里城市街道中车道标志的实时检测CoRR，abs/1411.7113，2014年。1[4] 艾罗·阿尔梅尼、萨沙·萨克斯、阿米尔·罗山·扎米尔和西尔维奥·萨瓦雷塞。结合2d-3d语意资料于室内场景理解。CoRR，abs/1702.01105，2017。2[5] 作者： Mark Boss，Raphael Braun， Varun Jampani，Jonathan T.刘策，刘伯龙，刘伯龙.伦施书呆子：神经反射分解从图像收集 . IEEEInternational Conference onComputer Vision（ICCV），2021年。3[6] 亚历山德拉·卡尔森，拉姆·瓦苏德万，马修·约翰逊·罗伯森.阴影转移：城市道路场景的单幅图像重照明. arXiv预印本arXiv：1909.10363，2019。二、三[7] 埃里克·卡扎尔斯和约阿希姆·吉森。基于Delaunay三角剖分曲线和曲面的有效计算几何，第 231-276页。Springer，2006年。三、六[8] 天使 X 放大图片作者： Angela Dai ， Thomas A.Funkhouser，Maciej Halber，Matthias Nießner，ManolisSavva ， Shuran Song ， Andy Zeng ， and Yinda Zhang.Matterport 3d：从室内环境中的RGB-D数据中学习。CoRR，abs/1709.06158，2017。2[9] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE计算机视觉和模式识别会议上，CVPR 2019，长滩，加利福尼亚州，美国，2019年6月16日至20日，第5939计算机视觉基金会/ IEEE，2019。2[10] 村晓东潘志文程实通过双层次聚合网络和阴影抠图GAN实现无重影阴影去除在第三十四届AAAI人工智能会议，AAAI 2020，第三十二届人工智能创新应用会议，IAAI 2020，第十届AAAI人工智能教育进展研讨会，EAAI 2020，纽约，美国，2020年2月7日至12日，第10680-10687页。AAAI Press，2020. 1[11] Sourya Dipta Das，Nisarg A Shah和Saikat Dutta。Msr-net：一对一的多尺度重光照网络。arXiv预印本arXiv：2107.06125，2021。3[12] Paul E. Debevec，Camillo J. Taylor，and Jitendra Malik.从照片建模和渲染架构：一种基于几何和图像的混合方法。在 John Fu-jii ，编辑， Proceedings of the 23rdAnnual Conference on Computer Graphics and InteractiveTechniques ， SIGGRAPH 1996 ， New Orleans ， LA ，USA，1996年8月4-9日，第11- 20页中。ACM，1996年。2[13] Farshad Einabadi ， Jean-Yves Guillemaut ， and AdrianHilton.用于照明估计和重新照明的深度神经模型-ing：调查。在计算机图形学论坛。威利在线图书馆，2021年。3[14] Jannik Fritsch，Tobias Kuehnl，and Andreas Geiger.一种新的道路检测算法性能度量和评价基准在智能交通系统国际会议（ITSC），2013年。1[15] 清虚符、晓光狄、豫章。学习极端低光原始图像处理的自适应模型1[16] 保罗加夫顿和Erick 马拉兹2d 图像通过图像到图像的转换重新照明。 arXiv 预印本 arXiv ：2006.07816，2020。二、三[17] Adrien Gaidon ， Qiao Wang ， Yohann Cabon ， andEleonora Vig.虚拟世界作为多对象跟踪分析的代理。在IEEE计算机视觉和模式识别集，第4340二、七[18] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun. Vision meets robotics：The kitti dataset.The InternationalJournal of Robotics Research ， 32（11）：1231-1237，2013. 一、二[19] Georgia Gkioxari Jitendra Malik和Justin Johnson 网格R-CNN。CoRR，abs/1906.02739，2019。7[20] C le'mentGodard ， OisinMacAodha ， andGabrielJ. 兄弟 -拖。深入研究自我监督的单眼深度估计。CoRR，abs/1806.01260，2018。2[21] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成对抗网络。ACM的通信，63（11）：139-144，2020。3[22] Ronghang Hu ， Nikhila Ravi ， Alexander C Berg ， andDeepak Pathak.Worldsheet：将世界包裹在一张3d图纸中，以便从单个图像合成视图。IEEE/CVF计算机视觉国际会议论文集，第12528-12537页，2021年。二、三[23] 胡晓伟，傅志荣，朱磊，秦静，和Pheng-Ann Heng。用于阴影检测和去除的方向感知空间上下文特征。 IEEETrans. 模式分析马赫内特尔，42（11）：2795-2

下载后可阅读完整内容，剩余1页未读，立即下载