昼夜图像合成用于训练夜间神经ISP

155 浏览量更新于2023-10-25 收藏 2.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10769用于训练夜间神经ISP的昼夜图像合成AbhijithPunnappurath 1AbdullahAbuolaim 2*Abdelrahman Abdelhamed1Alex Levinshtein 1Michael S. 棕11三星人工智能中心{abhijith. p，a. abdelhamed，alex. lev，michael.b1} @ samsung.com，abuolaim@eecs.yorku.ca摘要许多旗舰智能手机相机现在使用专用的神经图像信号处理器（ISP）来渲染噪声原始传感器图像到最终处理的输出。训练夜间模式ISP网络依赖于图像对的大规模数据集，其中：（1）用短曝光和高ISO增益捕获的噪声原始图像;以及（2）已经通过ISP渲染的以长曝光和低ISO捕获的地面真实低噪声原始图像。捕获这样的图像对是乏味且耗时的，需要仔细设置以确保图像对之间的对准。此外，地面实况图像由于长时间曝光而常常易于产生运动模糊。为了解决这个问题，我们提出了一种从白天图像合成夜间图像的方法.白天的图像很容易捕捉，表现出低噪声（即使在智能手机摄像头上），很少受到运动模糊的影响。我们概述了一个处理框架，将白天的原始图像转换为具有不同噪声水平的真实夜间原始图像的外观。我们的程序允许我们很容易地产生对齐的噪声和干净的夜间图像对。我们通过训练用于夜间模式渲染的神经ISP来展示我们的合成框架此外，我们证明，使用我们的合成夜间图像与少量的实际数据（例如，5%到10%）的性能几乎与专门针对真实夜间图像的训练相当。我们的数据集和代码可以在https：//github.com/SamsungLabs/day-to-night网站。1. 介绍在夜间和低光环境中捕获图像由于信号较弱，必须获得图像（即，高ISO），这进一步放大了传感器噪声。这对于智能手机摄像头来说尤其麻烦，因为传感器的小尺寸限制了摄像头*在多伦多三星人工智能中心实习时完成的工作真实白天图像高质量的投入真实夜间图像噪声输入真实夜间图像干净的地面真相从输入的白天图像合成夜间图像白天图像变暗（基线）CycleGAN日夜合成在合成数据上训练的神经夜间模式ISP的输出38.19分贝36.64分贝39.63分贝图1.顶行：高质量的白天图像和嘈杂/干净的夜间图像对。虽然高质量的白天图像很容易捕捉，但训练夜间模式神经ISP所需的配对夜间数据却很难获取。我们提出了一个昼夜图像合成框架，将白天的图像转换为适合训练DNN的嘈杂/干净的成对夜间图像。中间一行：不同的昼夜图像合成方法。底行：由我们的合成夜间图像训练的神经夜间模式ISP产生更准确的结果，与在昏暗的白天图像或CycleGAN合成的夜间图像上训练的模型一致[37]。插图显示了以dB为单位的PSNR。的光每像素感光点，导致在低光和夜间环境中的显着的噪声水平当相机的图像信号处理器（ISP）处理有噪声的一种解决方案是使用长曝光来捕获场景（例如，几秒），但是这通常是不可行的，因为它需要将相机放置在三脚架上以避免相机抖动，并且场景需要保持静止以避免运动模糊。最近的进展，深10770设计用于将嘈杂的原始夜间图像渲染为经处理的sRGB输出的网络已经显示出令人印象深刻的结果。这些网络在低光和夜间环境中捕获的对齐的噪声/干净图像对上进行训练。最近的几项工作已经开始努力捕捉夜间低光场景的高质量地面实况图像，例如[2，8，9，30]。使用两种策略收集这些训练图像。第一种是捕获有噪声的短曝光高ISO增益图像作为输入，以及长曝光低ISO增益图像作为目标地面实况（例如，[8，9]）。必须在三脚架上仔细拍摄图像由于长时间曝光，这种方法容易在地面实况图像中产生模糊，特别是在捕捉户外场景时，在户外场景中更难控制环境中的运动。第二种策略是使用高ISO拍摄多张短曝光图像通过对图像序列求平均以减少噪声来计算地面实况图像（例如，[2]）。该方法在对准和图像序列融合方面有此外，场景中的任何运动将导致平均地面实况图像中的运动模糊。进一步混淆数据收集的事实是每个传感器都需要数据捕获和网络训练，因为原始图像是传感器特定的[3，4]。从实际的角度来看，捕获夜间模式的数据是一个很大的负担。对于智能手机摄像头来说尤其如此，其中传感器正在不断更新，并且许多设备现在每个设备都有多个摄像头，每个设备都有不同的底层传感器[3]。最近的方法试图通过使用深度神经网络（DNN）来合成夜间数据收集的需求，例如[6，15，29，34]。However, such methods require large datasets for trainingand tend to produce arti- facts and sometimes unrealisticimage content.贡献我们提出了一种方法，以减少依赖仔细捕捉配对的夜间图像。具体来说，我们提出了一个过程，处理白天的图像，以产生对高质量和低质量的夜间图像，如图所示。1.一、我们的方法在图像细节和结构上的损失最小，并且不需要大量的夜间图像数据集。与在低光条件下拍摄夜间图像不同，在适当曝光下拍摄白天图像是简单的，不需要仔细的相机或场景设置。我们表明，我们提出的框架是有用的夜间图像处理和增强，通过训练神经ISP渲染嘈杂的夜间原始RGB图像，以其最终的清洁sRGB输出。我们证明了在我们的合成夜间图像上训练与少量真实数据混合（例如，5%至10%）产生的性能几乎与训练，ING专门对真正的夜间图像。我们的方法显著减少了部署神经ISP针对夜间成像所需的时间和精力2. 相关工作在本节中，我们使用标准命名约定，将最低限度处理的传感器图像称为原始RGB图像，并将相机ISP处理的图像我们的论文专注于合成夜间原始RGB图像来训练相机内神经ISP，该ISP将原始RGB图像作为输入并输出处理后的sRGB图像。开发基于DNN的夜间模式神经ISP的一个关键组成部分是以成对的长曝光和短曝光夜间图像的形式准备训练数据。SID数据集[9]包括捕获的长曝光sRGB和短曝光原始RGB图像对，用于训练卷积神经网络（CNN）管道进行夜间和低光图像处理。类似地，[8]中的工作涉及捕获成对的长曝光和短曝光静态原始RGB视频，用于视频处理和增强。[30]集中于图像增强，收集了3000张曝光不足的图像对，其中包含许多夜间图像，由专业摄影师处理以产生相应的地面真实高质量图像。夜间图像由于低光和高噪声而仍然固有地低质量，这导致低信噪比（SNR）。替代方法涉及使用图像的突发或序列[2，13，14，22]来产生高质量的夜间图像。然而，突发对齐算法可能在极端低光条件下失败，容易模糊，并产生对齐伪影。昼夜图像合成与我们的方法密切相关的是最近的方法，合成夜间图像给出高质量的白天图像。生成对抗网络（ GAN ），如 CycleGAN [37] 和 Enlighten-GAN[16]，在这一类中发挥着主要作用。在[15]中，条件GAN（cGAN）用于从白天到夜间图像的图像到图像DualGAN [34]被提议用于白天到晚上和夜间到白天的图像翻译。[18]中的方法提出编辑户外场景数据集以合成具有“夜晚”，“黄昏”和“雾”等一般属性的户外图像，其可用于训练白天到夜间的[29]中的方法提出了一种夜间图像语义分割框架，使用GAN在夜间和白天图像之间进行转换以改善分割。在[7]中尝试使用GAN进行跨域汽车检测，以进行非监督的日间到夜间图像转换，而[24]则将注释的日间图像转移到夜间，以便可以通过数据增强重用注释。大多数这样的方法不直接针对夜间图像处理，并且它们倾向于产生可能包含幻觉内容的低质量或不真实的夜间图像。此外，大多数这样的方法的目标是合成sRGB图像，而不是原始RGB图像。10771LDDLD∗Σ1∈- -L∈∈LBRLGg夜间到白天的图像合成代替将白天图像转换为夜间图像，一些方法[6，20，36]提出通过将夜间图像转换为白天图像来增强夜间图像，这可以改善针对目标任务（例如，夜间车辆检测、分割、视觉定位等）的模型训练。通常，夜间到白天的图像转换可以作为数据预处理或增强的一种形式很好地工作;然而，由于夜间图像固有的低质量，这种方法不能用于合成高质量的成对夜间图像。域自适应最近的方法执行域自适应，以缩小夜间图像与白天图像上的模型性能之间的差距。[19]中的方法使用物理学进行域自适应，以减少神经网络特征图。在[27]中，通过以下方式执行域自适应：以去除由场景照明引入的色偏。这是一个两步过程，涉及估计对应于场景光源的RGB值，并通过相应的值划分出每个RGB颜色通道以补偿照明。虽然这个过程确保了非彩色的颜色得到校正，但它不能保证所有的颜色都得到了照明补偿。与其他照明相比，在日光下拍摄的图像具有特殊的特性，即在白平衡时，它们在整体颜色校正方面产生的误差最小[10]。为了应用我们的合成模型，我们专门选择在日光照明下在室外捕获的图像。我们通过应用白平衡来去除图像中的日光照明，作为我们管道的下一步。白平衡图像Iw=InLday，其中Lday=diag（1，1，1，1），其中我们使用日il。RGG B从白天到夜晚的在线图像到图像翻译。夜间图像的特殊处理另一种工作在处理夜间图像时需要特别注意。例如，[5]中的方法通过对通常存在于夜间图像中的多个局部人造光源的特殊处理来类似地，[26]处理可能存在于夜间图像中的空间变化的大气光。述方法还在[35]中，在执行交通灯检测时特别注意夜间条件与所有讨论的方法不同，我们的方法的目标是从白天图像合成成对的高质量和低质量原始RGB夜间图像，而不需要大型数据集或训练大型GAN模型。正如我们在实验中所示，我们合成的成对图像更适合于训练夜间模式神经ISP。3. 夜间图像合成将我们的合成程序应用于未经去马赛克的原始Bayer图像（即，每个像素有一我们的过程包括去除白天图像中的照明，降低曝光，用夜间照明重新照亮场景，并添加噪声来模拟真实的夜间图像。我们提出的合成框架的概述如图所示。二、我们假设输入的日光图像是清晰和无噪声的。这通常是一个有效的选择，因为光线充足的户外场景可以用根据相机的自动白平衡（AWB）例程的亮度估计L天中的绿色通道值g通常归一化为1。夜间图像通常具有比白天图像低的平均亮度。此外，夜间图像通常由具有不同光谱特性的多个光源照明。我们的管道的接下来两个阶段旨在对这些影响进行建模。我们预先计算的平均夜间亮度值的dictionary，和dictionary的夜间照明的外观使用一个小的一组真实的夜间图像。我们通过计算每个Bayer图像的归一化平均强度值d来构造。为了建立夜间照明字典，我们在不同常见的夜间照明下对灰卡进行成像. 接下来，我们通过将图像乘以全局比例因子d来降低Iw的曝光。所得到的变暗图像为Ie=Iwd.这个比例因子d是围绕从我们的平均夜间亮度字典构建的分布随机采样的。为了重新照亮场景，我们随机抽取一小组（通常是五到七个）夜间光源。首先，我们在夜间照明数据库周围拟合联合色度值（r和b）的2D多元高斯分布。然后，我们从该分布中随机抽样夜光源y如下：yN（µ，），（1）短曝光和低ISO，以及良好的SNR特性[2]。我们的流水线从相机传感器记录的最低限度处理的让我们把MΣ= Mi=1（[r，Gg]i−µ）|（[g，Bg]i−µ）、（二）HW堆叠RGGB Bayer图像（按I天）R2×2×4，其中H、W表示以像素为单位的图像大小。我们首先调整黑电平和白电平，并对数据进行归一化。归一化图像In=（I天b l）/（w lb1），其中b1和w1表示由相机的元数据给出的黑电平和白电平。相机通常会应用白平衡程序其中μ和μ分别是中标准化色度值的平均值和协方差，M是中夜间照明光源的数量，，y，μR2和R3R2×2。有关示例，请参见补充材料。我们使用这些夜间灯光重新照亮场景，并使用2D高斯函数建模它们在图像中的位置和衰减.Σ10772Σ--Ⓢ∈−=i=1i.（三）输出：输出：夜间嘈杂夜间干净图像渲染图像渲染我日InIwIeIr我晚上夜晚sRGB夜晚sRGBI夜添加噪声输出：夜间噪声原始非正常化输出：夜间清洁原料重新点亮夜间照明样品模型较低曝光移除日光照明正常化输入：白天原始图像图2.概述了我们提出的昼夜图像合成框架。我们的过程包括在白天的原始图像中去除照明对于可视化，原始图像已被去马赛克，并已应用伽玛。具有随机居中和标准偏差。特别地，重新照明图像Ir可以表示为：4. 数据集我们通过使用合成数据来评估我们的算法我的夜晚米岛用来训练夜间神经ISP特别是RNi=1 wiMi更大，我们研究两种情况：（1）输入的夜间原始图像是无噪声的，允许我们检查颜色在这里，我晚上=dia g（ri，gi，gi，bi），其中i=1、. -是的-是的，N，表示夜间照明样本集。标量W1用于控制光源的强度。掩模Mi被建模为2D高斯函数G（xi，yi，σxi，σyi）。我们随机定位光源，其中心（xi，yi）位于图像内，不包括10%的边界。光源的扩展由（σ x i，σ y i）调制，我们随机选择该（σ x i，σ yi）位于[0. [1]图像的大小。相同的高斯核孤立的渲染精度，以及（2）输入的原始RGB数据是有噪声的，这是实际夜间神经ISP的更现实的情况。第一个任务的目的是证明我们的算法的能力，密切模仿illu- mination在一个真正的夜间图像。因此，我们假设一个无噪声的输入，因为我们的重点是单独的颜色渲染。我们表明，经过训练将我们的合成夜间输入原始图像渲染为sRGB的网络几乎与专门在真实环境中训练的渲染网络不相上下。HW适用于所有通道R2×2×4。的运算符表示逐元素乘法。另外，我们选择其中一个发光体i= 1作为环境光，其中M1是全部为1的掩模，并且具有设置在另一个发光体的5%至10%之间的弱强度w1。最后，我们对Ir进行反规范化，以获得我们的合成夜间图像Inight=Ir（wl bl）+bl。我在这个阶段拍摄的图像代表了高质量的长曝光低ISO夜间图像。这个合成的原始图像现在可以通过图像信号处理器渲染，以产生最终的显示参考sRGB图像，该图像通常在训练DNN时用作目标。向修改后的原始图像添加噪声Inight会产生低质量的短曝光高ISO图像，这通常是DNN的输入。我们采用成熟的异方差高斯模型[11，12，21，23]用于噪声。噪声原始图像生成如下：Inight←Inight+N（0，β1Inight+β2），⑷其中β1和β2是激发和读取噪声参数。这张嘈杂的黑白照片在通过ISP渲染时非常类似于一张典型的我们根据实际噪声/干净夜间图像对的噪声测量，经验性地确定不同ISO级别的β1和β2夜间数据我们进一步证明了我们的方法作为数据增强策略的实用性。向我们的合成图像添加少量（5%到10%）真实数据，使我们能够缩小与纯真实数据模型的性能差距。对于第二个任务，我们专注于一个成熟的夜间神经ISP，它将一个有噪声的短曝光高ISO原始图像渲染为其相应的无噪声长曝光低ISO处理的sRGB图像。与第一个任务类似，我们证明了在我们的合成夜间原始图像上训练的网络，该图像具有合成添加的噪声，并使用最少量的真实数据进行增强，其性能接近于仅在真实夜间噪声/干净配对数据上训练所提供的性能。注意，在两种场景中，网络将单个去马赛克线性原始帧作为输入，并在sRGB空间中输出处理后的图像。为了评估我们的方法，我们需要用同一台相机拍摄的白天和夜间场景的原始图像此外，为了定量评估我们的方法，以及为了在纯真实数据上训练基线比较模型，我们要求以配对方式捕获夜间图像，其中具有对齐的短曝光高ISO噪声输入图像和长曝光低ISO无噪声地面实况图像。据我们所知，文献中没有这样的数据集。请注意，我们不能使用SID [9]数据集，因为它不包括日图像。因此，我们-我10773夜间爆发日图像灰卡图像图3.我们数据集中的典型例子我们的数据集包含夜间爆发，白天图像和灰色卡片的图像用我们自己的数据集来评估我们提出的方法。我们使用三星S20 FE智能手机来捕获数据。具体来说，我们使用主 12 MP 后置摄像头拍摄图像，分辨率为4032×3024像素。对于夜间场景，我们捕获一系列图像，如下所示。我们首先在ISO 50下捕获30帧的突发，然后分别在ISO1600和3200下捕获两个10帧的突发。我们使用AndroidCamera2API来自动执行此捕获序列。对于任何给定的ISO，所有帧的曝光时间都是固定的。我们选择曝光输入ISO 3200 ISO 50 #30单帧单帧ISO 50帧图4.为了生成干净的目标，我们平均30张长曝光ISO 50帧。这提供了一个更好的噪音配置文件COM-兼容使用一个单一的长曝光ISO 50帧。还显示了高ISO输入帧以进行比较。时间对应于每个ISO，使图像正确计量0 EV。长曝光ISO 50图像用于生成干净的地面实况目标，而短曝光高ISO帧用作输入。我们对不同照度的室内和室外场景进行成像，这样，对于没有相机抖动的手持成像来说，较高ISO输入帧的曝光时间然而，请注意，我们需要对齐输入和目标帧进行定量评估，并且由于ISO 50帧必然需要更长的曝光时间，因此相机和场景被限制为静态，类似于SID [9]。为了最大限度地减少拍摄过程中的相机运动，相机安装在一个坚固的三脚架上，相机2应用程序是远程触发的，以避免在启动拍摄序列时干扰相机。我们的图像105个夜间场景的捕获序列描述，在我们的数据集中，共有5250个夜间原始图像。我们的数据集包含室内和室外场景的混合，模仿了通常遇到的夜间捕捉场景。特别地，室外场景是在街道照明下捕获的，而室内场景是在常规室内照明下捕获的，例如白炽灯、荧光灯和LED灯。我们还以ISO 50拍摄70天的图像这些图像构成了高-10774×Ni=12ΔE = 1.11ΔE = 0.77ΔE = 0.77ΔE = 1.580天暗淡CycleGAN Ours Supervised Ground truth图5.假设无噪声输入，我们的神经ISP任务的定性结果。插图示出了WEE [28]误差图和平均值。高质量的输入数据，我们的昼夜图像合成算法应用于该数据。此外，我们还在不同的夜间照明条件下拍摄了45幅灰卡的图像。这些图像用于构建夜间照明字典，该字典用于我们的夜间图像合成算法的重新照明步骤。我们数据集中的代表性例子如图所示。3 .第三章。SID数据集[9]使用单个长曝光低ISO图像作为目标。然而，SID数据集使用DSLR相机，而我们的数据是使用智能手机相机收集的，该相机采用较小的传感器，噪声特性较差。因此，我们如下处理数据集中的夜间突发，以生成地面实况图像。对于每个场景，我们平均30个长曝光ISO 50拜耳帧，以产生一个合并的拜耳帧。由于我们的图像是在没有任何运动的情况下仔细捕获的，因此我们发现直接平均而不需要任何进一步的对齐可以得到很好的结果。这个平均拜耳帧具有比任何单个拜耳帧更好的噪声特性。4.1. 培训我们选择标准的UNet [25]作为我们的网络架构。UNet非常适合图像恢复问题，特别是，它作为夜间神经ISP的适用性在SID [9]中得到了证明我们使用L1损失和Adam优化器从头开始训练网络[17]。我们裁剪大小为64 - 64像素的非重叠补丁。我们训练网络500 个epoch ，批量大小为128 ，初始学习率为10−3，400个epoch后衰减到10−4该网络的目标是处理后的sRGB图像，而输入是一个三通道的线性原始图像，已被归一化，去马赛克，和白平衡。标准化步骤涉及简单的黑白电平调整和缩放。去马赛克将单通道原始Bayer帧转换为三通道RGB图像。白平衡操作基于估计的场景照度执行RGB通道的每通道缩放。对于我们的合成夜间数据，我们将从突发帧。参见图4。然后我们将这个AV-白平衡矢量为1NL夜对于两个输入通过软件ISP [2]计算拜耳帧，地面真实无噪声sRGB目标图像。请注意，平均原始帧用作我们初始无噪声神经ISP实验的输入。对于第二个神经ISP任务，其中我们考虑噪声的影响，单个短曝光高ISO原始图像是输入。虽然在这种情况下，ISO 1600和ISO 3200连拍中的10张图像中的任何一张都然而，请注意，剩余的帧作为数据集是有价值的贡献，因为每个图像都是可用于训练和测试的独特的低光图像。在补充材料中，我们还使用这些帧与突发去噪管道进行比较。总之，我们使用105个输入/目标对来训练和评估我们的神经ISP实验，没有和有噪声。在训练中瞄准在测试时，白平衡噪声输入的矢量直接从原始DNG文件在测试时间的地面实况渲染使用对应于ISO 50突发中的第一帧的白平衡矢量。在我们的实验中，我们发现相机ISP的AWB估计值即使在存在强噪声的情况下（例如ISO 3200）也相当稳健。为了定量地验证这一点，我们计算了对应于ISO 3200输入帧的WB矢量和ISO 50地面实况之间的角度误差。我们发现数据集中105个场景的平均角度误差小于1μ m，这被认为是视觉上无法感知的。我们采用这种在将图像馈送到网络之前应用白平衡的策略，因为我们发现它比让网络学习白平衡图像产生更准确的结果。04ΔE = 1.05ΔE = 0.72ΔE = 0.74ΔE = 1.55我10775×↔ISO 1600ISO 320036.82 /0.870636.39 /0.959734.27 /0.9220输入CycleGAN Ours Supervised Ground truth图6.我们的神经ISP任务与真实噪声输入的定性结果插图示出了放大的区域和PSNR（dB）/SSIM值。5. 实验我们比较我们的昼夜图像合成与各种基线。我们的初步基线是直接使用日我们还评估了一个模型，只有调光操作应用于白天的图像，没有任何重新照明。第三个基线是应用调光，然后进行全局重新照明。在这种情况下，使用我们的夜间光源字典随机采样单个illuminant，并且该光源用于全局重新照亮图像。请注意，我们提出的方法适用于本地relighting- ING使用一组采样光源。除了从我们提出的方法中得出的这三个基线之外，我们还使用CycleGAN [37]与未配对的图像转换方法进行了比较，以及使用真实配对数据的类似于SID [9我们首先关注没有噪声的神经ISP任务。为了评估我们提出的方法，我们将70张白天图像划分为60张用于训练的图像和10张用于验证的图像。虽然图像的数量相对较少，但这些都是全分辨率4032 - 3024图像，并为分块训练提供了足够的数据。我们将图像合成我们使用第3节的过程来生成我们的合成夜间图像，并使用105张真实的夜间图像来定量评估我们在这些数据上训练的模型。在表1中报告了在sRGB图像上评估的峰值信噪比（PSNR）和结构相似性指数（SSIM）[31]。我们还报告了EEE值[28]，该值广泛用于测量两种颜色之间的视觉感知变化。更低的价格更好。前面描述的三个合成基线被赋予相同的训练和验证分割，并使用与我们的方法相同的设置进行训练。他们的结果也在表中报告，可以观察到我们的方法优于这些基线。我们还进行了比较，其中我们用成熟的图像到图像转换方法CycleGAN [37]替换了我们的图像合成算法特别是，我们使用我们的70张白天和105张夜间图像的数据集在未配对的白天和夜间任务上训练CycleGAN。我们使用无噪声的平均拜耳帧的夜间数据。对于白天和夜晚的数据，我们使用相机的AWB估计来应用白平衡。我们还将原始Bayer帧演示为线性RGB图像，以匹配CycleGAN使用的三通道输入一个随机的补丁34.07 /0.877410776表1.我们的神经ISP任务的定量结果没有噪音。根据训练数据是仅合成的、合成和真实的混合还是纯粹真实的，对模型进行分区。表2.我们的神经ISP任务与真实噪声输入的定量结果根据训练数据是仅合成的、合成和真实的混合还是纯粹真实的，对模型进行分区。模型PSNRSSIMΔ E模型ISO 1600ISO 3200天41.160.97131.2369PSNR SSIM PSNR SSIM我们的90% +实际10% 46.01 0.9890 0.8559监督我们的95% +实际5% 38.32 0.9419 36.60 0.9206我们的90% +实际10% 39.04 0.9477 37.54 0.9352监督在每个训练时期从每个图像中裁剪。我们使用官方代码和推荐的超参数来训练模型。然后，我们将训练好的模型应用于白天的图像，将它们转换为夜晚的图像。我们使用CycleGAN合成的夜间原始数据作为输入，并使用与我们的方法相同的软件ISP管道[2]然后，我们训练一个UNet模型，使用与训练模型相同的设置进行渲染表1中报告了105个测试图像的结果，可以观察到，即使CycleGAN的训练已经暴露于测试数据，我们的方法还要注意的是，训练CycleGAN需要一个干净的夜间图像数据集，这是我们的方法明确解决的一个限制。我们的最后一个比较是使用真实配对数据的监督训练设置，类似于SID [9]。他们使用一个4通道堆叠RGGB拜耳图像在一半的分辨率作为输入到UNet，并恢复在输出使用子像素层的全分辨率。相反，我们提供一个去马赛克图像作为UNet的输入，这样输入和输出都是全分辨率的3通道图像。我们发现这种方法更准确。我们使用105个真实的夜间配对，并使用三重交叉验证进行评估我们使用60张图像进行训练，10张用于验证，与合成数据模型进行公平比较。每个折叠中有35个测试图像。使用与我们的方法相同的UNet架构和设置来训练模型，结果在表1的最后一行中报告。可以观察到，在使用我们的算法对纯合成数据进行训练和仅在真实图像上进行训练之间，性能几乎有1 dB的差距。为了测试我们的算法具体来说，我们使用相同的三重交叉验证分割，但训练数据由我们算法的95%合成数据和5%真实图像组成。这使我们能够将性能上的1 dB差距缩小到0.2 dB左右我们进一步测试了90%的合成-thetic +10% real mixture，使我们更接近监督模型。我们的方法的定性结果，以及比较，如图所示。五、我们在第二个也是更现实的任务中重复这些实验，即神经ISP将嘈杂的原始输入处理为sRGB。我们使用两个目标ISO，1600和3200进行测试。结果报告于表2中。对于所有合成数据，如第3节所述，合成地添加噪声。可以观察到，我们提出的方法比CycleGAN和其他基线更定性结果如图所示。六、我们注意到，在我们的纯合成模型和最后一行中只在真实数据上训练的模型之间存在性能差距。虽然我们为了简单起见选择了基本的异方差噪声模型，但是复杂的噪声模拟器（例如，[1，32，33]），更逼真地模仿传感器噪声可以弥补这一差距。然而，我们想强调的是，在混合10%真实数据的情况下，性能差异仅略高于0.5 dB，如表2所示。实验验证了该方法6. 总结发言我们已经提出了一个过程，将白天的原始RGB图像转换为对嘈杂/干净的夜间原始sRGB图像。我们的方法大大减少了为针对夜间模式成像的神经ISP准备训练数据所需的时间和精力。我们注意到，我们工作的一个限制是，我们选择的用于渲染目标sRGB图像的软件ISP [2]不包括高级照片处理例程，如局部色调映射。软件ISP的选择此外，我们选择的1600和3200的高ISO对于典型的夜间场景效果很好;然而，我们还没有解决极端低光照的情况（例如，月光），需要更高的ISO。白天变暗42.390.98321.0865天36.100.921533.550.8960全球重新照明43.560.98600.9653白天变暗36.130.925433.470.8969CycleGAN [37]40.010.96751.6335全球重新照明36.840.935335.630.9162我们45.280.98930.8759CycleGAN35.260.896833.580.8760我们的95% +真实的5%45.990.98870.8682我们37.410.936835.700.914210777引用[1] Abdelrahman Abdelhamed ， Marcus A Brubaker ， andMichael S Brown.噪声流：具有条件归一化流的噪声建模。在ICCV，2019年。8[2] Abdelrahman Abdelhamed，Stephen Lin，and Michael S.布朗智能手机摄像头的高质量去噪数据集。在CVPR，2018年。二三六八[3] Abdelrahman Abdelhamed，Abhijith Punnappurath，andMichael S Brown.利用两个摄像头的可用性进行光源估计。在CVPR，2021年。2[4] Mahmoud Afifi和Michael S Brown。DNN模型的传感器独立照明估计。在BMVC，2019。2[5] Cosmin安库蒂，科德鲁塔O安库蒂，ChristopheDe Vleeschouwer，and Alan C Bovik.通过当地空气光估计的白天和夜间去雾。TIP，29：6264-6275，2020。3[6] Asha Anoosheh、Torsten Sattler、Radu Timofte、MarcPolle-feys和Luc Van Gool。用于基于检索的定位的夜间到日常图像翻译。2019年IEEE，2019。二、三[7] ViniciusFArruda，ThiagoMPaixapoulo，RodrigoFBerriel，AlbertoF De Souza，Claudine Badue，Nicu Sebe，and Thiago Oliveira-Santos.使用无监督图像到图像转换的跨域汽车检测：从白天到晚上。2019年国际神经网络联合会议（IJCNN）。IEEE，2019。2[8] Chen Chen ， Qifeng Chen ， Minh N Do ， and VladlenKoltun.在黑暗中看到运动。在ICCV，2019年。2[9] Chen Chen，Qifeng Chen，Jia Xu，and Vladlen Koltun.学会在黑暗中看东西。在CVPR，2018年。二四五六七、八[10] Dongliang Cheng ， Brian Price ， Scott Cohen ， andMichael S.布朗超越白色：用于颜色恒定性校正的地面真实颜色。在ICCV，2015年。3[11] 亚历山德罗·福伊剪切的噪声图像：异方差建模和实用去噪。Signal Processing，89（12）：2609-2629，2009. 4[12] Alessandro Foi、Mejdi Trimeche、Vladimir Katkovnik和Karen Egiazarian。单图像原始数据的实用泊松-高斯噪声建模与拟合。TIP，17（10）：1737-1754，2015。4[13] C le'mentGodard，KevinMatzen，andMattUyttendaele.深度突发去噪。在ECCV，2018。2[14] Samuel W Hasinoff ， Dillon Sharlet ， Ryan Geiss ，Andrew Adams ， Jonathan T Barron ， Florian Kainz ，Jiawen Chen，and Marc Levoy.用于移动相机的高动态范围和低光照成像的连拍ACM Transactions on Graphics（ToG），35（6）：1-12，2016. 2[15] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR，2017年。2[16] Yifan Jiang，Xinyu Gong，Ding Liu，Yu Cheng，ChenFang，Xiaohui Shen，Jianchao Yang，Pan Zhou，andZhangyang Wang. EnlightenGAN：无需配对监督的深度光增强。TIP，30：2340-2349，2021. 210778[17] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。ICLR，2014年。6[18] Pierre-Yves Laffont，Zhile Ren，Xiaofeng Tao，ChaoQian，and James Hays.瞬态属性为高层次的理解和编辑的户外场景。ACM图形交易（TOG），33（4）：1-11，2014年。2[19] Attila Lengyel ， Sourav Garg ， Michael Milford ， andJan C van Gemert.具有物理先验的零拍摄昼夜域适应。在CVPR，2021年。3[20] 林哲宗，黄胜伟，吴燕怡，赖尚宏。基于GAN的昼夜图像风格转换，用于夜间车辆检测。 IEEETransactions on Intelligent Transportation Systems，22（2）：951-963，2020。3[21] Xinhao Liu，Masayuki Tanaka，and Masatoshi Okutomi.从单个噪声图像中进行实用的信号相关噪声参数估计。TIP，23（10）：4361-4371，2014。4[22] ZiweiLiu ， LuYuan ， XiaoouTang ， MattUyttendaele，and Jian Sun.快速突发图像去噪。ACMTransactions on Graphics（TOG），33（6）：1-9，2014。2[23] MarkkuMaükitalo 和 AlessandroFoi. Poisson 广义Anscombe变换的最优变换高斯噪声 TIP，22（1）：91-103，2013. 4[24] 爱德华多·罗梅拉，路易斯·M·贝尔加萨，杨凯伦，何塞·M·阿尔瓦雷斯和拉斐尔·巴雷亚。为语义分割搭建白天和黑夜领域鸿沟的桥梁2019年IEEE智能车辆研讨会（IV）。IEEE，2019。2[25] O. Ronneberger，P.Fischer，and T.布洛克斯U-Net：用于生物医学图像分割的卷积网络医学图像计算和计算机辅助干预（MICCAI），2015年。6[26] Sanchayan Santra和Bhabatosh Chanda。日/夜不受约束的图像去雾。 2016 年第 23 届国际模式识别大会（ICPR）。IEEE，2016. 3[27] Mark Schutera，Mostafa Hussein，Jochen Abhau，RalfMikut，and Markus Reischl.夜间至白天：用于夜间自动驾驶中物体检测的在线图像到图像转换。IEEETransactions on Intelligent Vehicles，2020。3[28] 高拉夫·夏尔马和拉贾·巴拉数字彩色成像手册. CRCPress，2nd edition，2013. 六、七[29] 孙磊，王凯威，杨凯伦，项凯特。 See clearer atnight：Towards robust nightmine semantic segmentationthrough day-night image conversion.在人工智能和机器学习在国防应用中，第11169卷，第111690 A页国际光学与光子学会，2019年2[30] Ruixing Wang，Qing Zhang，Chi-Wing Fu，XiaoyongShen，Wei-Shi Zheng，and Jiaya Jia.使用深度照明估计的曝光不足照片在CVPR，2019年。2[31] 周旺，艾伦·博维克，哈米德·谢赫，埃罗·西蒙-切利。图像质量评估：从错误可见性到结构相似性。TIP，13（4）：600-612，2004. 7[32] 魏凯旋，傅莹，杨蛟龙，黄华。一个

下载后可阅读完整内容，剩余1页未读，立即下载