内容感知元数据学习sRGB到原始RGB解渲染

172 浏览量更新于2023-10-25 收藏 27.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1%1%177040使用内容感知元数据学习sRGB到原始RGB的解渲染0Seonghyeon Nam 1 * Abhijith Punnappurath 2 Marcus A. Brubaker 1 , 2 Michael S. Brown 201 约克大学 2 三星人工智能中心-多伦多0{shnnam,mab}@eecs.yorku.ca, {abhijith.p,michael.b1}@samsung.com0摘要0由于相机的硬件，大多数相机图像都以标准RGB（sRGB）格式进行渲染和保存。由于相机的图像处理器（ISP）应用的相机内部照片完成例程，非线性sRGB图像对于假设像素值与场景辐射之间存在直接关系的计算机视觉任务是不可取的。对于这类应用，更倾向于使用线性原始RGB传感器图像。由于存储要求较大且许多成像应用程序不支持，将图像保存为原始RGB格式仍然不常见。已经提出了几种“原始重建”方法，这些方法利用在捕获时从原始RGB图像中采样的专用元数据，并嵌入到sRGB图像中。当需要时，使用此元数据来参数化映射函数将sRGB图像解渲染回其原始的原始RGB格式。现有的原始重建方法依赖于简单的采样策略和全局映射来执行解渲染。本文展示了如何通过联合学习采样和重建来改善解渲染结果。我们的实验表明，我们学习的采样可以适应图像内容，从而产生比现有方法更好的原始重建结果。我们还描述了一种在线微调策略，以进一步改善结果。01. 引言0对于许多低级计算机视觉任务，访问相机的原始RGB传感器图像是可取的，其像素值与场景辐射呈线性关系[9, 29,39]。此外，当应用于原始RGB图像时，照片编辑操作（如白平衡调整或颜色处理）更加准确[19]。然而，大多数图像仍然以标准RGB（sRGB）格式保存。sRGB图像是由相机的图像信号处理器（ISP）渲染的原始RGB图像。ISP应用的非线性照片完成例程破坏了与场景辐射的良好关系0* 在三星人工智能中心-多伦多实习期间完成的工作。0PSNR：49.43dB0sRGB（输入）原始RGB（GT）SAM [31]0PSNR：57.45dB0PSNR：57.89dB0采样掩码我们的方法我们的方法+微调0图1.我们论文的概述。我们解决了将sRGB图像解渲染为原始RGB图像的问题，使用与sRGB图像一起保存的元数据。在捕获时，我们在采样掩码中的位置上采样原始RGB值，并将其保存为元数据。当需要原始RGB图像时，我们使用元数据从sRGB图像中重建完整的原始RGB图像。我们提出了一个端到端的深度学习框架来实现这一目标。通过我们的方法，可以通过在线微调进一步改善重建结果。0原始的原始RGB图像中存在的采样。恢复原始RGB值的解决方案是将sRGB图像“解渲染”为其原始的原始RGB格式[4]。在各种解渲染方法中，最准确的方法是在捕获时从原始的原始RGB图像中收集样本，并将这些样本作为专用元数据嵌入到sRGB图像中[28,31]。这些先前的方法依赖于对原始的原始RGB图像进行均匀采样和简单映射函数进行解渲染。贡献。我们提出了一个深度学习框架，使用从捕获时的原始RGB中采样的元数据来解决sRGB解渲染任务。特别地，我们177050演示如何在端到端框架中学习采样和重建。采样是基于超像素最大池化的内容感知方式进行的，并且随后由重建网络使用。此外，重建网络还采用在线微调方法来提高推理时的性能。图1显示了一个示例。我们使用保存在元数据中的1.5％原始RGB像素来演示我们的方法在原始重建任务上的有效性，并展示我们可以实现最先进的性能。此外，我们通过将我们的采样/重建框架应用于位深度恢复，展示了我们方法在其他图像恢复任务中的适用性。02. 相关工作0旨在去渲染sRGB图像的算法可以分为两类：一类是在捕捉时保存专门的元数据和sRGB文件的方法，另一类是不需要额外信息的盲方法。我们将更详细地研究基于元数据的方法，因为这些方法与我们的工作更密切相关。我们还简要调查了位深度恢复的算法。盲原始重建。原始重建与辐射校准问题密切相关。早期的数码相机没有提供对传感器原始RGB图像的访问。因此，早期的辐射校准方法并没有试图准确地恢复原始的原始RGB值。相反，它们侧重于线性化sRGB数据，使得数字值与场景辐射之间具有线性关系。辐射校准方法（例如，[12，15，26]）采用简单的模型，如每个颜色通道的简单1D响应函数。随着对原始传感器图像的访问变得更加普遍，辐射校准被原始重建所取代，其目标是恢复原始的原始RGB传感器数据。简单的相机响应函数被更复杂的模型所取代[8，9，14，19]，以描述ISP的各个处理阶段。然而，这些方法是基于必须针对每个相机和有时甚至每个相机设置重复的精确校准过程。即使是最近的深度学习方法（例如，[25，27]），也面临着类似的问题，即必须为每个相机捕获大量的训练数据，并且训练的模型是针对该相机特定的。通用去渲染方法，例如[4，21]，假设一组标准的ISP操作，但由于无法模拟相机特定的操作，所以不太准确。带元数据的原始重建。另一种去渲染的策略是在sRGB中保存附加的元数据以辅助去渲染过程。例如，Yuan和Sun[39]提出将一个小的原始图像作为附加元数据存储。可以使用sRGB作为指南图像，在编辑时将小的原始图像上采样到完整分辨率。Nguyen和Brown[28，29]的工作计算并存储了估计的参数元数据，用于模拟ISP执行的典型操作。这些估计的参数增加了64KB的开销，并且可以从sRGB图像中重建原始图像。然而，它们假设从sRGB到原始的映射是全局的，并忽略了重要的ISP操作，如局部色调映射。Punnappurath和Brown[31]最近提出使用一小组均匀采样的原始值作为元数据。他们提出了一种具有空间感知恢复算法，使其方法对局部色调映射和其他非全局ISP操作具有鲁棒性。然而，他们的原始重建函数是基于使用5D径向基函数进行插值，这在实践中速度较慢。我们的方法与[31]中的工作密切相关，但我们不限制采样为均匀网格。此外，我们以端到端的方式学习采样和重建。位深度恢复。位深度恢复问题与去渲染问题有相似之处，并在此讨论。特别是，相机应用了非线性处理（在本例中为位量化），目标是恢复原始像素值的完整精度。传统的位深度恢复算法（例如，[10，17，23，35，36]）依靠启发式方法来估计基于输入图像结构的缺失位精度。最近，基于深度学习的方法学习如何恢复缺失的位数[7，16，22，24，30，33，37，40]，这是基于位量化之前和之后的训练数据。据我们所知，尚未探索使用元数据进行位深度恢复。作为我们工作的扩展，我们展示了我们提出的去渲染框架可以适应位深度恢复，而无需更改网络架构。0指南图像。Nguyen和Brown[28，29]的工作计算并存储了估计的参数元数据，用于模拟ISP执行的典型操作。这些估计的参数增加了64KB的开销，并且可以从sRGB图像中重建原始图像。然而，它们假设从sRGB到原始的映射是全局的，并忽略了重要的ISP操作，如局部色调映射。Punnappurath和Brown[31]最近提出使用一小组均匀采样的原始值作为元数据。他们提出了一种具有空间感知恢复算法，使其方法对局部色调映射和其他非全局ISP操作具有鲁棒性。然而，他们的原始重建函数是基于使用5D径向基函数进行插值，这在实践中速度较慢。我们的方法与[31]中的工作密切相关，但我们不限制采样为均匀网格。此外，我们以端到端的方式学习采样和重建。位深度恢复。位深度恢复问题与去渲染问题有相似之处，并在此讨论。特别是，相机应用了非线性处理（在本例中为位量化），目标是恢复原始像素值的完整精度。传统的位深度恢复算法（例如，[10，17，23，35，36]）依靠启发式方法来估计基于输入图像结构的缺失位精度。最近，基于深度学习的方法学习如何恢复缺失的位数[7，16，22，24，30，33，37，40]，这是基于位量化之前和之后的训练数据。据我们所知，尚未探索使用元数据进行位深度恢复。作为我们工作的扩展，我们展示了我们提出的去渲染框架可以适应位深度恢复，而无需更改网络架构。03. 解渲染框架0我们首先对我们的框架进行高级描述，然后详细介绍采样和重建组件。让x和y分别表示sRGB图像和原始RGB图像。传统上，原始重建问题主要通过仅使用sRGB图像作为输入来找到映射y =f(x)来进行公式化。对于元数据方法，通过利用从原始RGB图像中采样并保存在sRGB图像的元数据中的少量像素sy，推断出映射y = f(x;sy)。像素通常通过预定义的方法进行采样，例如应用于全局所有图像的均匀采样。我们的目标是同时学习sRGB到原始RGB的映射和采样函数，其形式上描述为ˆy = f(x;ˆsy = g(x,y))，其中g(x,y)是可学习的采样函数。图2显示了我们框架的概述。我们将两个函数f和g建模为基于U-Net[32]的深度神经网络，并以端到端的方式训练它们。在训练时177060将原始RGB样本与其在sRGB图像的元数据中的xy位置一起保存0sRGB图像，原始RGB图像0重建网络（f）输出原始RGB sRGB图像，原始RGB样本，采样掩码0内容感知的元数据采样重建原始RGB样本和采样掩码的2D图像0sRGB图像，原始RGB图像0采样器网络（g）0超像素最大池化0原始RGB样本，采样掩码0重建网络（f）输出原始RGB0sRGB图像，原始RGB样本，采样掩码0训练时间0测试时间0内容感知的元数据采样0超像素损失（L S ）0捕获时间处理0反向传播路径0重建损失（L R ）0在线损失（L O ）0图2.我们的sRGB到原始解渲染框架概述。在训练时，我们以端到端的方式训练采样器网络g和重建网络f。g预测用于采样原始RGB值的二进制采样掩码，而f从具有采样的原始RGB值的完整sRGB图像中恢复完整的原始RGB图像。特别地，我们的采样掩码是通过基于超像素的最大池化生成的。在测试时，使用g将内容感知的元数据与sRGB图像一起保存。在需要时，完整的原始RGB图像通过f进行重建。我们通过在元数据中使用稀疏的原始RGB样本进行即时微调来进一步提高性能。0超像素最大池化0#细胞数 = 原始RGB像素的k%0图3.超像素最大池化的示意图。对于蓝色框中的所有像素，它们与红色单元的关联是通过超像素损失进行学习的。超像素最大池化是从蓝色框中的像素中采样最高的关联分数。尽管我们从一个常规框中采样一个像素，但采样严重依赖于通过超像素损失学习到的关联分数。0训练时，我们首先从原始RGB图像中采样k%的像素。具体而言，采样器网络g将原始RGB图像和sRGB图像作为输入，并预测一个二进制采样映射s，其中采样的像素被分配为1。为了有效地计算样本，采样器网络还学习将原始RGB图像划分为超像素，并通过每个超像素的最大池化选择样本。在重建网络中，将sRGB图像和采样的原始RGB像素及其相应的掩码输入到网络中0通过最小化输出原始RGB图像与真实值之间的像素距离，联合训练这两个网络以恢复完整的原始RGB图像。推理时间场景由两个阶段组成。在捕获时，我们使用采样器网络g对原始RGB图像进行采样。这些样本以注释的形式存储在sRGB图像的元数据中。为了节省内存，我们只保存采样的RGB值及其在元数据中的像素位置。在需要时，使用sRGB图像中保存的元数据通过重建网络f重新构建原始RGB图像。尽管预训练的重建网络可以产生高质量的原始RGB图像，但通过稀疏的原始RGB样本进行微调可以进一步提高在测试数据上的性能。03.1. 内容感知的元数据采样0我们内容感知的元数据采样的目标是根据图像的内容找到最佳的原始RGB样本。为此，我们的关键思想是将原始RGB图像分割成超像素，并选择每个超像素中最好的像素作为元数据的样本。我们发现，对于重建网络来说，选择在原始RGB图像空间中分布良好的原始RGB样本是有益的。因此，我们使用超像素分割将原始RGB图像的xy-RGB空间分成多个子空间。LS = α+ (1 − α)+ m2S2�p∥p − ˆp∥22,(1)uc =�-||1-||1LR =p∥ˆy(p) − y(p)∥1,(5)177070并收集代表性像素。具体而言，受[38]启发，我们的采样器网络首先直接从输入中计算超像素。如图3所示，我们将原始RGB图像分成均匀的网格单元。网络预测每个像素p的关联分数qc(p)，表示像素p属于网格单元c的可能性有多大。为了计算效率，只考虑蓝色框中的九个相邻单元与红色突出显示的单元的关联。关联映射通过优化以下超像素分割损失来学习：0p ∥ x(p) − ˆ x(p) ∥ 2 20p ∥ y(p) − ˆ y(p) ∥ 2 20其中ˆx(p)是由以下方程计算的x(p)的重建RGB值：0p c (0p ∈N c qc(p), ˆx(p) = �0c u c ∙ q c (p) .(2)0在方程中，uc是超像素c的中心的特征向量，Nc是单元c的九个周围单元中的所有像素的集合。与SLIC[2]类似，方程（1）中的损失强制要求每个超像素中的像素与中心uc的偏差不大。ˆy(p)和ˆp由相同的方程计算。在方程（1）中，m和S是[38]中的权重参数。与[38]中使用语义分割标签的损失不同，我们的损失优化了sRGB和原始RGB图像中的RGB颜色距离。我们的损失迫使网络考虑如何联合采样sRGB和原始RGB图像。我们添加一个超参数α来平衡sRGB和原始RGB项。为了选择k%的样本，我们将均匀网格单元的数量设置为原始RGB像素数的k%。然后我们选择每个网格单元的代表性像素，该像素在九个相邻单元的像素中提供最大的q。每个单元的最大池化表示为：0p�c = arg max p ∈N c q c (p) . (3)0我们计算一个二进制采样掩码m，以2D图像的形式将样本馈送到重建网络，形式上描述为：0m(p) =0� 1，如果p ∈ {p�0，p�1，...，p�c}0，否则。 (4)0样本映射sy简单地通过将m和y相乘计算得到，即sy = m �y，其中�是一个0重建0网络（f）输出原始RGB0输入0在线微调损失（LO）0元数据中的GT0更新0网络（f）输出原始RGB0输入0完整GT0元损失（LM）0图4.在线微调损失LO和元损失LM的示意图。LO仅在元数据中具有真实RGB样本的位置计算。要计算LM，首先通过LO更新f，然后计算完整输出图像的损失。0Hadamard乘积。梯度仅通过 q ( p ) 向后传播，以使 m (p ) = 1 ，使用直通估计器 [ 3]。请注意，我们的方法不能保证样本数量等于像素数量的k % ，因为多个单元可能在最大池化后选择相同的像素。03.2. 使用元数据进行sRGB到原始RGB解渲染0sRGB到原始RGB解渲染任务被定义为由重建网络 f学习的图像到图像的转换。为了利用元数据中的稀疏原始RGB样本进行重建，我们将 x ， s y 和 m连接起来，然后将它们输入到 f中。通过这些输入，网络可以基于稀疏的sRGB-原始RGB对和完整的sRGB图像推断出所有像素的sRGB到原始RGB映射。采样器和重建网络都通过像素距离损失进行联合训练，形式上描述为0其中 ˆ y = f ( x , s y , m ) 。03.3. 推理时的在线微调0将原始RGB样本存储在元数据中的另一个好处是，它们可以用于即时对测试图像的预训练重建网络进行微调，以进一步提高性能。如图 2 和图 4所示，我们仅对具有相应真实值的像素最小化像素距离损失LO =�pm(p) · ∥ˆy(p) − y(p)∥1.(6)LM =�p∥˜yθ′ (p) − y(p)∥1.(7)LT otal = LR + λSLS + λMLM,(8)177080时间，形式上描述为0元学习用于优化微调。我们的重建网络可以在训练时进一步优化，以便在测试时的微调中得到泛化。直观地说，我们期望在网络经过微调以适应稀疏样本后，整体误差最小化。我们可以通过在训练时添加另一个损失项来鼓励我们的网络对微调具有接受性。具体而言，我们首先使用元数据样本 ˜ s和 ˜ m 计算重建输出，描述为 ˜ y θ = f θ ( x , ˜ s y , ˜m ) ，其中 θ 是 f的参数。然后，我们使用以下更新规则通过几个梯度下降步骤更新方程中的 L O ： θ ′ = θ − β � θ L O ( ˜ m , ˜ y θ) ，其中 β是学习率。最后，我们计算图中所示的输出模型与所有像素的真实值之间的像素距离损失，形式上描述为0我们发现将采样器网络学习到的样本馈送到该损失中会降低性能。原因是两个损失的目标冲突：主要损失 L R优化以过拟合训练批次，而 L M寻求泛化。因此，我们使用不同的数据来计算损失。具体而言，我们对 ˜ s 和 ˜ m使用随机样本。这种策略在优化两个损失并迫使网络处理各种采样映射时减轻了性能下降，这对于泛化也是有帮助的。我们的公式与元学习方法MAML [ 13]有相似的精神，两者都是为了找到能够在微调中获得更好性能的可泛化参数。我们的目标是在将网络过拟合到像素的 k% 后仍然提高整体图像质量。我们使用FOMAML [ 13]来计算元损失的梯度的一阶近似。03.4. 训练目标0在训练时的最终训练目标由重建损失、超像素损失和元损失组成，形式上描述为0其中 λ S 和 λ M 是超参数。在测试时，通过优化方程（6 ）中的在线优化损失进行在线微调。04. 实验04.1. 实验设置0数据集。为了测试我们方法的有效性，我们使用了NUS数据集[11]，其中包含来自几个不同相机的原始图像。对于我们的实验，我们使用了三个相机——三星NX2000、奥林巴斯E-PL6和索尼SLT-A57，分别包含202、208和268张原始图像。我们使用标准的双线性插值对原始Bayer图像进行解析，得到一个3通道的原始RGB图像。然后，我们使用软件ISP模拟器[18]处理原始RGB图像，以生成相应的sRGB图像。这种渲染模拟了相机应用的照片后期处理。我们随机将每个相机的图像分为训练、验证和测试集。此外，我们将所有图像裁剪成重叠的128×128的块。除了原始图像，NUS数据集还包含由每个单独相机的ISP渲染的sRGB-JPEG图像。我们还进行了实验，使用这些sRGB图像代替软件ISP模拟器[18]。这些结果在我们的补充材料中报告。基线方法。我们将我们的方法与两种基于元数据的原始重建方法进行比较：RIR[28]和SAM[31]。RIR方法将ISP的全局操作参数存储为元数据。SAM方法与我们的方法最相似，它保存了均匀采样的原始RGB值和一个sRGB图像。由于这些方法的源代码不公开，我们实现了它们以重现结果。对于SAM，我们使用了与我们方法相同的采样比率。实现细节。我们使用U-Net[32]架构作为采样器和重建网络的骨干。我们使用Adam优化器[20]训练我们的网络，学习率为0.001，批大小为128，训练120个epoch。在超像素损失中，我们分别使用0.2和10作为α和m的值。在元损失中，我们使用五个梯度下降步骤进行内部更新，学习率为0.001。对于除索尼外的所有相机，我们将λS和λM设置为0.0001和0.01；对于索尼相机，我们将λM设置为0.001。在测试时，我们使用学习率为0.0001对网络进行十次微调。在所有实验中，我们从原始RGB图像中采样1.5%的像素，即128×128块中的256个像素。由于原始图像处于传感器相关的颜色空间中，我们为每个相机训练一个模型。我们的代码和预训练模型可在https://github.com/SamsungLabs/content- aware-metadata找到。04.2. 实验结果0表1显示了NUS数据集中三个相机的定量比较。为了公平比较，我们在完全重建的原始RGB图像上评估了我们方法的性能。可以看出，我们的方法优于1%1%1%1%1%1%177090方法微调三星NX2000 奥林巴斯E-PL6 索尼SLT-A570PSNR SSIM PSNR SSIM PSNR SSIM0RIR [28] 不适用 45.66 0.9939 48.42 0.9924 51.26 0.9982 SAM [31] 不适用 47.03 0.9962 49.35 0.9978 50.440.99820我们的方法否 48.08 0.9968 50.71 0.9975 50.49 0.9973 我们的方法是 49.57 0.9975 51.54 0.9980 53.110.99850表1. 原始重建的定量评估。0输入RIR [ 28 ] SAM [ 31 ] 我们的方法我们的方法+微调真实值0图5. 定性比较。每两行分别显示了三星NX2000、奥林巴斯E-PL6和索尼SLT-A57的结果。0经过微调后，我们的方法在基线方法上取得了很大的优势。即使在没有微调的情况下，我们的方法的PSNR也高于三星和奥林巴斯数据的基线方法。RIR在索尼数据上取得了很高的性能，而在三星和奥林巴斯数据上是最差的。我们推测索尼相机的原始RGB到sRGB的映射对局部处理影响较小。因此，全局方法能够很好地建模去渲染。尽管如此，我们的方法在微调后取得了最好的结果。即使微调在很大程度上依赖于0在非常小的原始RGB像素子集上进行训练，训练通常是有效的。我们将这归因于CNN中的自相似归纳偏差[34]。由于卷积滤波器在所有空间位置上共享，稀疏位置的训练信号可以传播到邻近像素。图5显示了定性比较。从上到下，我们分别显示了三星NX2000、奥林巴斯E-PL6和索尼SLT-A57的两个结果。基准结果具有较高的误差，主要集中在边缘上，因为它们的模型不够复杂。RIR依赖于全局运算符1%sRGB49.100.9927RAW49.720.9933sRGB + RAW50.150.99431%177100方法微调 PSNR SSIM0无元数据 N/A 47.67 0.9913049.58 0.9940 随机 49.68 0.9940我们的方法 50.64 0.9942052.59 0.9960 随机 52.55 0.9957我们的方法 53.32 0.99610表2. 不同采样方法的比较。所有方法共享相同的重建网络。0输入均匀随机我们的方法0图6. 不同采样方法的比较。上下两行分别显示了误差图和采样图。0一个ISP，但边缘通常会通过局部色调映射进一步处理。尽管SAM可以模拟空间变化的颜色映射，但其均匀采样不足以存储边缘周围的复杂信息。相反，我们的方法根据场景结构自适应地采样原始RGB值，提高了整体性能。04.3. 讨论0均匀 vs. 随机 vs.内容感知采样。在表2中，我们比较了不同的采样方法，包括均匀采样和随机采样。我们还与没有采样的基准进行了比较，即重建网络没有额外的元数据。我们对来自三个相机的补丁的PSNR和SSIM结果进行了平均。均匀采样从图像的2D网格中选择样本，而随机采样在图像中随机选择k%的像素。这两种采样都与图像内容无关。如表中所示，利用元数据显著提高了原始重建的质量，无论采样方法如何，这表明在sRGB图像的元数据中保存少量原始RGB像素值是有益的。均匀和随机采样是简单但有效的方法，因为它们在图像的整个像素空间中均匀选择样本。然而，如图6所示，0方法 PSNR SSIM0自由形式的最大池化 47.75 0.9911超像素最大池化 50.15 0.99430无元损失 50.15 0.9943 无元损失 + 微调 53.070.9959 有元损失 50.64 0.9942 有元损失 + 微调53.32 0.99610表3.关于我们方法的消融研究。我们比较了不同输入输入到采样过程中以及不使用元损失的不同池化方法。我们还分析了元损失的有效性。0输入自由形式超像素0图7.关于超像素最大池化的消融研究。两行分别显示了误差图和采样掩码。0性能受限，因为它们无法选择对重建特别有用的样本。另一方面，我们的内容感知采样在效果上大大优于简单的方法，因为我们的方法不仅均匀采样像素，还考虑了它们对重建的有效性。采样率k的消融研究在补充材料中提供。0消融研究。为了展示我们方法中的各个组成部分，我们进行了消融研究，如表3所示。我们首先尝试了不同的输入到采样网络和超像素损失函数中：sRGB图像、原始RGB图像以及两个图像。可以看到，使用原始RGB图像作为输入，然后使用sRGB图像从原始RGB图像中找到样本是有益的。然而，当同时使用两个图像时，网络达到了最高的得分，这表明当同时使用两个图像时，sRGB图像仍然提供了有用的信息以获得更好的采样。我们还将基于超像素的采样与一种简单的采样方法进行了比较。对于自由形式的最大池化177110方法 PSNR SSIM0CA [35] 34.74 0.9317 ACDC [36]34.68 0.9152 IPAD [23] 34.91 0.9345BitNet [7] 38.48 0.9657 BE-CALF [24]38.94 0.96800我们的方法 39.57 0.9719我们的方法+微调 39.73 0.97210表4. Kodak数据集[1]上位深度恢复（4到8位）方法的定量比较。0如表中所示，我们训练了一个具有单通道sigmoid输出的采样器网络，并提取具有较大sigmoid值的前k%像素。如表所示，与基于超像素的采样相比，自由形式的采样性能显著下降。图7显示了定性比较。由于自由形式的采样是无约束的，大多数样本聚集在同一区域。相反，我们基于超像素的采样使得网络能够在各个位置采样像素，同时覆盖图像的完整空间范围。最后，我们对元损失进行了消融研究。如表3所示，元损失在微调后和网络的直接结果上都提高了性能，这表明该损失迫使重建网络学习其权重对未见过的测试案例具有泛化能力。通过使用稀疏的原始RGB样本，网络可以比没有损失的直接网络输出提高3dB的性能。0局限性。与均匀和随机采样不同，我们的方法需要在捕获时运行深度神经网络来采样像素，这是设备上的额外计算成本。我们没有测试高压缩、非常嘈杂的低光图像或原始图像的欠曝光/过曝光问题等边缘情况。由于卷积神经网络通常很适合空间平滑的自然图像，我们的重建网络能够处理稀疏采样掩模的能力仍然不清楚。在未来的研究中，研究高效的深度架构来处理稀疏样本是一个有趣的方向。04.4. 其他应用：位深度恢复0如前所述，我们的采样和重建框架也可以应用于位深度恢复问题。为了测试这个任务，我们使用两个公开可用的数据集进行训练：MIT-Adobe 5K [6]和Sintel[5]。我们合成了一对4位和8位图像来训练4到8位恢复任务。我们使用8位图像的1.5%像素作为我们方法的元数据，并运行更新。0输入 CA [35] ACDC [36] IPAD [23]0BitNet [7] BE-CALF [24] 我们+微调真实值0输入 CA [35] ACDC [36] IPAD [23]0BitNet [7] BE-CALF [24] 我们+微调真实值0图8.Kodak数据集[1]上位深度恢复算法的定性比较。放大以获得更好的可见性。0微调步骤。表4和图8展示了与盲目位深度恢复方法的定量和定性比较。我们在Kodak数据集[1]上评估了所有方法。如预期的那样，我们的方法在元数据中使用少量像素的情况下优于基线方法。请注意，我们的方法并不是专门为位深度恢复而设计的。我们的重建网络是一个通用的U-Net，而BitNet[7]和BE-CALF[24]使用专门为该任务设计的网络。这个实验证明了我们的元数据框架在其他图像处理任务中的适用性。05. 结论0我们提出了一种sRGB图像去渲染的方法，通过在捕获时从原始RGB图像中采样出少量的元数据来恢复原始的原始RGB图像。我们的方法以端到端的方式学习采样和重建网络。此外，我们训练重建网络以便从稀疏的元数据样本中进行进一步的微调。我们展示了与现有的使用元数据的最先进方法相比的显著改进。最后，我们使用我们的框架进行相关的位深度恢复任务，并展示了令人信服的结果。0致谢0这项工作是在加拿大多伦多三星人工智能中心实习期间完成的.Seonghyeon的实习资助来自Mitacs Accelerate.Seonghyeon的研究员资助部分来自于加拿大首个研究卓越基金的Vision:Science to Appli- cations (VISTA)计划和NSERC Discovery Grant.177120参考文献0[1] Kodak无损真彩色图像套件. http://r0k.us/ graphics/kodak,1999. 80[2] Radhakrishna Achanta, Appu Shaji, Kevin Smith, AurelienLucchi, Pascal Fua, and Sabine S¨usstrunk.SLIC超像素与最先进的超像素方法相比. IEEE TPAMI,34(11):2274–2282, 2012. 40[3] Yoshua Bengio, Nicholas L´eonard, and Aaron Courville.通过随机神经元估计或传播梯度进行条件计算. arXiv, 2013. 40[4] Tim Brooks, Ben Mildenhall, Tianfan Xue, Jiawen Chen,Dillon Sharlet, and Jonathan T. Barron.用于学习的原始去噪图像的取消处理. 在CVPR, 2019. 1, 20[5] Daniel J Butler, Jonas Wulff, Garrett B Stanley, andMichael J Black. 用于光流评估的自然开源电影. 在ECCV, 2012. 80[6] Vladimir Bychkovsky, Sylvain Paris, Eric Chan, and Fr´edoDurand. 使用输入/输出图像对的数据库学习全局调整. 在CVPR,2011. 80[7] Junyoung Byun, Kyujin Shim, and Changick Kim. BitNet:基于学习的位深度扩展. 在ACCV, 2018. 2, 80[8] Ayan Chakrabarti, Daniel Scharstein, and Todd E. Zickler.用于互联网彩色视觉的经验相机模型. 在BMVC, 2009. 20[9] Ayan Chakrabarti, Ying Xiong, Baochen Sun, Trevor Dar-rell, Daniel Scharstein, Todd Zickler, and Kate Saenko.用于具有色调映射彩色图像的视觉辐射度不确定性建模. IEEETPAMI, 36(11):2185–2198, 2014. 1, 20[10] Cheuk Cheng, Oscar Au, Chun Hung Liu, and Ka Yip.通过轮廓区域重建进行位深度扩展.在IEEE国际电路与系统研讨会上, 2009. 20[11] Dongliang Cheng, Dilip K Prasad, and Michael S Brown.用于颜色恒常性的光源估计:空间域方法的工作原理及颜色分布的作用. JOSA A,31(5):1049–1058, 2014. 50[12] Paul E. Debevec and Jitendra Malik.从照片中恢复高动态范围辐射度图. 在ACM SIG- GRAPH, 2008. 20[13] Chelsea Finn, Pieter Abbeel, and Sergey Levine.用于快速调整深度网络的模型无关元学习. 在ICML, 2017. 50[14] Han Gong, Graham D Finlayson, Maryam M Darrodi, andRobert B Fisher. 基于排名的辐射度校准. 在Color ImagingConference, 2018. 20[15] Michael D. Grossberg and Shree K. Nayar.从图像中确定相机响应: 可知性如何? IEEE TPAMI,25(11):1455–1467, 2003. 20[16] Xianxu Hou and Guoping Qiu.使用深度卷积神经网络进行图像压缩和逆半调. arXiv, 2017. 20[17] Masayuki Ikebe and Akira Mizuno.自然图像中噪声轮廓减少的位深度扩展. 在ICASSP, 2016. 20[18] Hakki Can Karaimer and Michael S Brown.用于操作相机成像流水线的软件平台. 在ECCV, 2016. 50[19] Seon Joo Kim, Hai Ting Lin, Zheng Lu, Sabine S¨usstrunk,Stephen Lin, and Michael S. Brown.一种新的相机成像模型用于彩色计算机视觉及其应用. IEEE TPAMI,34(12):2289–2302, 2012. 1, 20[20] Diederik P Kingma and Jimmy Ba. Adam:一种用于随机优化的方法. arXiv, 2014. 50[21] Samu Koskinen, Dan Yang, and Joni-KristianK¨am¨ar¨ainen. 反向成像流水线用于原始RGB图像增强. 在ICIP,2019. 20[22] 刘静，孙万宁和刘宇涛. 通过卷积神经网络进行位深度增强.在Digital TV and Wireless Multimedia Communication, 2018.20[23] 刘静，翟广涛，刘安安，杨晓康，赵希斌和陈春文. IPAD:强度潜力自适应去量化. IEEE TIP, 27(10):4860–4872, 2018. 2, 80[24] 刘万宁，刘静，孙万宁，景培光和杨晓康. BE-CALF:通过连接DNN的所有层特征进行位深度增强. IEEE TIP,28(10):4926–4940, 2019. 2, 80[25] 刘宇伦，赖伟胜，陈宇胜，高一龙，杨明轩，庄永裕和黄家斌.通过学习反转相机流水线进行单图像HDR重建. 在CVPR, 2020. 20[26] Tomoo Mitsunaga和Shree K. Nayar. 辐射自校准. 在CVPR,1999. 20[27] 南成贤和金善柱. 用深度神经网络建模场景相关成像. 在ICCV,2017. 20[28] Rang M. H. Nguyen和Michael S. Brown. 使用只有64KB开销的自包含sRGB-JPEG图像进行RAW图像重建. 在CVPR,2016. 1, 2, 5, 60[29] Rang M. H. Nguyen和Michael S. Brown.使用自包含的sRGB-JPEG图像进行RAW图像重建，内存开销小.在IJCV, 126(6):637–650, 2018. 1, 20[30] Abhijith Punnappurath和Michael S. Brown. 一点点更多:逐位平面位深度恢复. TPAMI, 2021. 20[31] Abhijith Punnappurath和Michael S. Brown.用于RAW重建的空间感知元数据. 在WACV, 2021. 1, 2, 5, 60[32] Olaf Ronneberger，Philipp Fischer和Thomas Brox. U-net:用于生物医学图像分割的卷积网络. 在MICCAI, 2015. 2, 50[33] 苏雨婷，孙万宁，刘静，翟广涛和景培光.通过残差转置卷积神经网络实现逼真的图像位深度增强.在Neurocomputing, 2019. 20[34] Dmitry Ulyanov，Andrea Veda

下载后可阅读完整内容，剩余1页未读，立即下载