AdaInt：学习适应性间隔以用于实时图像增强的3D查找表

21 浏览量更新于2023-10-25 收藏 17.05MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

175220AdaInt：学习适应性间隔以用于实时图像增强的3D查找表0杨灿谦1,4*，金美光2*，贾旭3，徐毅1,4†，陈颖201 人工智能MOE重点实验室，上海交通大学人工智能学院 2 阿里巴巴集团 3 大连理工大学 4上海交通大学重庆研究院0{charles.young, xuyi}@sjtu.edu.cn0xjia@dlut.edu.cn { meiguang.jmg, chenying.ailab } @alibaba-inc.com0摘要03D查找表（3DLUT）是一种用于实时图像增强任务的高效工具，通过将非线性的3D颜色变换稀疏采样到离散化的3D格点中来建模。以前的工作努力学习LUT的图像自适应输出颜色值以实现灵活的增强，但忽视了采样策略的重要性。它们采用次优的均匀采样点分配，限制了学习到的LUT的表达能力，因为LUT变换中均匀采样点之间的（三）线性插值可能无法建模颜色变换的局部非线性。针对这个问题，我们提出了AdaInt（自适应间隔学习），一种通过自适应学习3D颜色空间中的非均匀采样间隔来实现更灵活的采样点分配的新机制。这样，3D查找表可以通过在需要高度非线性变换的颜色范围内进行密集采样和在近线性变换中进行稀疏采样来增加其能力。所提出的AdaInt可以作为基于3D查找表的方法的紧凑高效的即插即用模块实现。为了实现AdaInt的端到端学习，我们设计了一种新颖的可微分算子，称为AiLUT-Transform（自适应间隔LUT变换），用于定位非均匀3D查找表中的输入颜色并为采样间隔提供梯度。实验证明，配备AdaInt的方法在两个公共基准数据集上可以实现最先进的性能，并且增加的开销可以忽略不计。我们的源代码可在https://github.com/ImCharlesY/AdaInt上获得。01. 引言0最近的机器学习技术的进展显著提升了自动照片增强的性能0* 平等贡献 † 通讯作者 C. Yang在阿里巴巴集团实习期间完成部分工作。0自适应间隔采样ü0均匀间隔采样û0v0RMSE：0.01200v0RMSE：0.00450曲线逼近输入空间划分0原始1D函数曲线0近似曲线采样脉冲采样点0输入强度直方图0无像素0图1.均匀和非均匀采样在曲线逼近和空间划分上的比较。该示例给出了1D的情况，但可以轻松扩展到3D。0通过采用一系列优化方法[5, 6, 9, 19, 21,48]，旨在替代相机成像流水线[20]中一系列精心设计的操作[2, 24, 25, 33, 43,50]，以提高视觉质量。然而，这些方法由于复杂的优化过程[10, 13, 19, 21, 49]或神经网络架构设计[5, 6, 9,47]而导致计算负担较重。事实上，大多数常用的增强操作是像素独立的，如[17]中所述。它们的总效果大致相当于一个3D颜色变换函数（R3→R3），将输入颜色点映射到颜色空间内或跨颜色空间的另一个颜色点。可以采用多层感知器（MLP）来设计这样的变换[17]，但需要级联多个线性和非线性子操作以增加模型的能力。为了克服变换中一系列子操作的计算复杂性，3D查找表（LUT）是一种有前途的数据结构，用于进行高效的映射175230通过稀疏采样一系列输入值，并将相应的输出值存储在3D格子中，可以近似表示变换中的非线性。变换中的非线性通常由分布在格子单元中的一组（三次）线性插值函数来近似。由于LUT只需要内存访问和插值操作就能对图像进行变换，因此具有高效率和实用性的优势。0之前的研究[45,51]致力于学习图像自适应LUT，模仿底层的最优颜色转换，并根据广泛变化的图像内容进行自适应。这些方法仅在输出颜色值中体现了3DLUT的图像自适应性，这些颜色值是由神经网络自动学习得到的[45,51]。然而，它们进行的采样是等间隔的，没有考虑采样点密度对图像内容的自适应。这导致了次优的采样点分配，限制了LUT模型对局部非线性的建模能力。具体而言，具有相似颜色值但需要高度非线性对比度拉伸（例如，对低光纹理区域的增强）的输入像素可能被压缩到同一个格子中，从而产生线性缩放的结果。原因在于采样点有限以及LUT变换中的（三次）线性插值。如图1的左侧所示，均匀间距会对变换中曲率较高的颜色范围进行欠采样，导致变换中的非线性失真。理想情况下，增加采样点的数量可能会缓解这些问题，但会显著增加3DLUT的开销。此外，它还会加重颜色空间中少数像素所占比例过高的问题，导致LUT容量的浪费，如图1的右侧所示。0为了在给定有限采样点的情况下在效果和效率之间取得更好的平衡，我们开发了一种新颖的基于深度学习的方法，通过动态学习非均匀采样间隔来调整3D格子的布局。这个想法被封装成一个紧凑的网络模块，称为AdaInt，它可以根据需要高度非线性变换的颜色范围自适应地分配更多的采样点，并减少强线性范围的冗余采样点配额。如图2所示，通过引入AdaInt，一个轻量级的卷积神经网络（CNN）以降采样的图像作为输入，同时预测一个专用3D LUT的两个组成部分 -非均匀采样坐标和相应的输出颜色值。这两个组成部分结合起来组成一个图像自适应的3DLUT，通过一种称为AiLUT-Transform的新型可微运算符对原始图像进行变换，该运算符可以为AdaInt提供梯度进行端到端学习。这个运算符对于通过引入低复杂度的二分搜索来定位非均匀3D格子中的输入颜色至关重要，以实现LUT变换的查找过程。因此，我们的0该方法可以作为3DLUT的即插即用模块，并且具有高效率。本文的主要贡献有三个方面：（1）我们从采样的角度来看待3DLUT的学习，并指出采样策略对于建模具有更高非线性能力的颜色转换的重要性。（2）我们提出了一种新颖的AdaInt模块和相应的AiLUT-Transform运算符，以实现对非均匀布局的3DLUT的自适应学习。（3）我们在两个大规模公开数据集上展示了我们方法的有效性和效率。02. 相关工作02.1. 照片增强方法0基于学习的图像增强方法的最新进展可以大致分为两类。第一类范式[5, 6, 9, 37, 47,52]通过完全卷积网络直接学习密集的端到端映射。虽然这一类方法可以取得有希望的结果，但通常会带来沉重的计算和内存负担，限制了它们的实用性。第二类范式同时利用深度学习的强拟合能力和传统物理模型的高效性。这一类研究通常将繁重的CNN密集推理转化为轻量级的物理模型参数预测。然后使用这些物理模型来高效地增强原始图像。常用的物理模型包括仿射颜色变换[3, 14, 31,44]、映射曲线（可以看作是1D LUT）[16, 22, 23, 28, 38,39, 42]、多层感知机（MLPs）[17]和3D颜色LUTs[45,51]。其中，3DLUT是最有前景的一种，因为它比MLPs速度更快，同时比仿射变换和映射曲线具有更强的能力。与我们的工作最相关的是[45,51]，它们也学习了用于实时图像增强的图像自适应3DLUT。然而，它们在均匀布局中学习3DLUT，没有考虑采样策略的图像自适应性，这限制了它们建模非线性颜色转换的能力。02.2. 非均匀采样0非均匀采样策略在3D形状识别中得到了广泛研究，例如网格[15]、点云[41]和隐式函数场[35]，由于它们相对于规则网格具有更高的效率和表达能力。对于2D图像分析，虽然主导范式是在规则的2D网格上进行计算，但最近的工作尝试对输入图像[34]、输出图像[27]、特征图[7]和卷积滤波器[11]进行非均匀采样。这些工作表明，自适应采样策略能够使用更少的采样点实现高质量的表示。非均匀布局已经RGBRGB175240输出颜色值T0轻量级CNN骨干0输入低质量图像X0AdaInt0权重预测器0双线性0降采样0非均匀格点P0采样坐标P0格点创建0非均匀的3D LUT渲染0采样间隔Q0基础LUT融合0操作中间输出神经网络模块0AiLUT变换0增强图像Y0真实高质量图像Y0重构损失0256×2560采样的3D LUT0基础的3D LUTs0图2. 所提出方法的框架。我们的方法在输入图像的降采样版本上使用CNN模型同时预测图像自适应3DLUT的两个基本组成部分——采样坐标和输出值。这两个组成部分通过格点创建和渲染过程在非均匀布局中构建了一个专用的3DLUT。原始分辨率的输入图像可以通过设计的新型AiLUT-Transform高效地通过预测的3DLUT进行转换。整体框架可以在地面真实图像的监督下以端到端的方式进行训练。最佳效果请以彩色查看。0传统的LUT实现中也出现了非均匀布局[4, 30,36]。然而，这些工作关注的是另一个任务，即格点回归[12]，旨在将已知的颜色变换拟合到静态的3DLUT中，并在推断过程中重复应用变换。非均匀布局被引入作为减少估计误差的另一种选择。然而，这些方法不如我们的工作灵活和智能，因为估计的LUT是固定的，不能适应新的样本。相反，我们的工作基于每个单独图像的内容学习非均匀的3D LUT，以实现更智能的增强。03. 方法03.1. 初步：3D查找表0在本文中，我们将3DLUT视为完整的3D颜色变换函数的离散采样。采样结果存储在一个输出颜色值的3D格点中，可以通过一组输入颜色坐标查询，其中Ns是每个维度上的采样坐标数量，INs-10表示{0, 1, ...,Ns-1}的集合。这样的格点定义了完整的3D颜色变换函数上的N3s个采样点。一旦采样了3D格点，输入像素根据其颜色查找最近的采样点，并通过插值（通常是三线性插值）计算其变换后的输出。由于3DLUT的高效性和稳定性，先前的方法[45,51]尝试创建自动的0通过学习图像自适应的3DLUTs来增强图像的工具。它们通过学习多个基础的3DLUTs并使用图像相关的权重来融合它们，从而预测图像自适应的输出值T ∈ [0,1]3×Ns×Ns×Ns。这些权重是由CNN模型从降采样的输入图像中预测得到的，这显著节省了计算成本（见图2左侧）。然而，这些方法均匀地离散化了3D色彩空间，没有考虑采样坐标P ∈ [0,1]3×Ns×Ns×Ns的图像自适应性，使得它们在采样点分配和LUT能力上受到了限制。在本文中，我们通过同时以图像自适应的方式学习采样坐标和相应的输出颜色值来解决上述问题。图2展示了所提出框架的概述。我们直接遵循[51]中的做法，预测一组候选输出颜色值T，因为它已被证明是有效的。假设每个维度上有Ns个采样坐标和一个输入图像X ∈[0, 1]3×H×W。LUT的输出颜色值可以表示为0T = h(f(X)), (1)0其中f是将输入图像映射为紧凑向量表示E ∈RF的函数。函数h以E为输入，并预测T中的所有输出颜色值。请注意，我们将学习M个与图像无关的基础3DLUT和M个图像自适应权重[51]的思想封装到两个映射的级联中，表示为h: RF h0−→ RM h1−→ [0, 1]3 × N_s × N_s ×N_s，通过使用秩分解来节省参数。基础3DLUT被编码为h1的参数。更多细节请参见补充材料。在下一节中，我们将更多关注采样坐标P的学习。tion to save parameters. The basis 3D LUTs are encoded asthe parameters of h1. Please refer to the supplementary ma-terials for more details. In the following section, we focusmore on the learning of the sampling coordinates P.1752503.2. 自适应区间学习（AdaInt）0预测采样颜色坐标等价于学习在3D颜色空间中放置采样点。尽管完全自由的采样点放置提供了很高的灵活性，但它复杂化了查找过程并显著增加了开销。为此，我们提出了一种简单而有效的方法来实现所谓的约束采样点放置。首先，我们假设在查找过程中三个格点维度相互独立。这样，我们可以分别预测每个格点维度上的采样坐标。其次，我们通过每对相邻采样点之间的区间来重新参数化采样坐标。因此，通过将学习目标从采样坐标转换为采样区间，我们提出了一种新颖的图像自适应约束采样点放置方法，称为AdaInt，我们在以下四个步骤中进行了说明。0非归一化区间预测我们的方法首先预测了三个格点维度的N_s−1个非归一化采样区间集合，从而产生了3 × (N_s−1)个区间值：0ˆQ ∈ R^3 × (N_s−1) = g(f(X)). (2)0在这项工作中，我们共享了采样点预测和输出值预测之间的映射f。g表示R^F到R^3 ×(N_s−1)的映射。更多实现细节请参见第4.2节。0区间归一化由于输入和输出空间已经归一化，给定维度的区间也应该在[0,1]范围内分布。在这项工作中，我们选择softmax函数来获得归一化的区间Q ∈ [0, 1]3 × (N_s−1) = softmax(ˆQ,axis=1)，其中“axis=1”表示归一化是在每个颜色维度上分别进行的。0区间到坐标的转换通过对Q进行累积求和并在每个格点维度前添加一个原点，可以得到采样坐标ˆP ∈ [0, 1]3 × N_s，可以表示为：ˆP =[0T3; cumsum(Q,axis=1)]，其中0_3是一个三维零向量，符号[∙;∙]表示连接操作。上述操作保证了有界性（0 ≤ ˆP_c,i ≤ 1，对于�c = r, g,b和�i ∈ IN_s−10）和单调递增性（ˆP_c,i ≤ ˆP_c,j，对于�c =r, g, b，�i ∈ IN_s−10）。0查找0在LUT中查询8个相邻点0三线性插值0图3.所提出的AiLUT-Transform的过程，由查找和插值两个操作实现。最佳观看颜色。0and �i, j ∈ IN_s−10, i ≤ j) of the predicted sampling coordinatesalong each dimension, which significantly simplifies the lookupprocedure to be presented in Section 3.3.0非均匀3D格点构造上述ˆP矩阵确实为每个格点维度提供了三个N_s维坐标向量。我们可以通过计算这三个坐标向量的n元笛卡尔积(�)，即P= ˆP_r � ˆP_g � ˆP_b = {(ˆP_r,i, ˆP_g,j, ˆP_b,k) | i, j, k ∈IN_s−10}，得到N_3s个采样点的3D坐标P ∈ [0, 1]3 × N_s× N_s ×N_s。这些坐标确定了非均匀3D格点的顶点位置。最终的3DLUT通过将T中的每个输出颜色值分配给P中定义的相应顶点来轻松构造。这个过程可以生动地类比为渲染过程，如图2所示。03.3.可微分自适应区间查找表变换（AiLUT-Transform）0在AdaInt的参与下，LUT变换应同时考虑输出值T和LUT的采样坐标P，以及输入图像X，以产生变换后的输出图像ˆY。在标准的LUT变换中，通常省略P，因为假设采样坐标是均匀的。因此，尚未探索P的梯度，这阻碍了AdaInt的端到端学习。为此，我们引入了一种称为AiLUT-Transform的新型变换操作：0ˆ Y = AiLUT-Transform(X, T, P)。0AiLUT-Transform对X、T和P具有（子）微分性。这使得可以通过端到端学习AdaInt模块。给定由三个颜色分量{x r，xg，xb}组成的输入查询像素x，AiLUT-Transform通过两个基本步骤计算其变换后的颜色。(5)175260基本步骤：查找和插值。请参见图3的图形说明。0查找步骤我们的AiLUT-Transform首先执行查找操作，以定位查询像素在3DLUT中的位置。如图3的顶部所示，此操作旨在找到查询像素在每个维度上的左右邻居x 0 c，x 1 c ∈ P（c =r，g，b）。由于我们学习的采样坐标具有有界和单调递增的特性（见第3.2节），可以通过二分搜索轻松实现此目标。因此，可以使用P中定位的邻居的索引查询LUT中的8个相邻点。对于对应于x i r，x j g，x k b的采样点，其中i，j，k∈{0，1}，我们将这8个邻居的输出颜色值简写为˜T：，i，j，k。0插值步骤在查询8个相邻点之后，进行三线性插值以计算查询像素的变换输出颜色。如图3的底部所示，变换输出ˆy是8个角点的值乘以对角线相对角点的归一化偏体积之和，可以表示为：0ˆ y 0i，j，k ∈{0，1} V i，j，k ∙˜T：，i，j，k，（4）0其中 V i,j,k = ( x d r ) i (1 − x d r ) 1 − i ( x d g ) j (1 − xd g ) 1 − j ( x d b ) k (1 − x d b ) 1 − k ，而 x d c = ( x c0反向传播为了通过反向传播学习AdaInt，我们推导出了相对于x 0c，x 1 c和P的梯度。x 0 c的偏导数为：0∂ ˆ y ∂�0i，j，k ∈{0，1} ˜T：，i，j，k ∂Vi，j，k0∂x d c0∂x d c0∂x 0 c0对于x 1c，类似于方程（5）。详细推导请参阅补充材料。此外，相对于˜T：，i，j，k的梯度更简洁：∂ˆy/∂˜T：，i，j，k = Vi，j，k。由于所提出的AiLUT-Transform独立地应用于每个像素，因此可以通过CUDA高效实现。我们将查找和插值操作合并为一个单一的CUDA内核，以最大程度地提高并行性。由于我们的查找操作是通过对数时间复杂度（O（log 2 Ns））的二分搜索算法实现的，其计算成本在我们的情况下可以忽略不计，其中N s 的值相对较小（通常为33）。03.4. 损失函数0整体框架可以以端到端的方式进行训练。我们的损失函数包括MSE损失作为重建损失（L r ）和一些正则化项。0图4. 在不同数量（Ns）的采样坐标下对AdaInt进行消融研究。绘制了FiveK数据集（480p）[1]上的色调映射结果。0采样策略 PSNR ↑ SSIM ↑0Shared-AdaInt 25.13 0.921 AdaInt25.28 0.9250表1.AdaInt中不同采样策略的消融研究结果。列出了在FiveK数据集（480p）[1]上进行色调映射的结果。“↑”表示较大值更好。0从[51]中采用的约束输出值T的AdaInt的方法，包括平滑项（Ls）和单调性项（Lm）。我们在AdaInt的学习中没有引入任何其他约束或损失函数，希望它可以对网络进行图像自适应。根据[51]，我们的最终损失函数写为：0L = Lr + 0.0001 × Ls + 10 × Lm. (6)04. 实验04.1. 数据集和应用设置0我们在两个公开可用的数据集上评估我们的方法：MIT-Adobe FiveK [1]和PPR10K [29]。MIT-AdobeFiveK是一个常用的照片修饰数据集，包含5000张RAW图像。我们遵循最近的研究中的常见做法[17，22，51]，仅采用由专家C修饰的版本作为基准，并将数据集分为4500对图像用于训练和500对图像用于测试。为了加快训练阶段，图像被降采样到480p分辨率（短边调整为480像素），而在测试期间使用480p和原始4K分辨率的图像。PPR10K是一个新发布的人像照片修饰数据集，包含11161张高质量的RAW人像照片。在三个单独的实验中，我们使用了所有三个修饰版本作为基准。根据官方划分[29]，我们将数据集分为8875对用于训练和2286对用于测试。由于磁盘空间不足，实验在数据集的360p版本上进行。更多细节请参阅补充材料。175270方法 #参数 480p 全分辨率（4K）0PSNR SSIM ∆ E ab 运行时间 PSNR SSIM ∆ E ab 运行时间0UPE [44] 927.1K 21.88 0.853 10.80 4.27 21.65 0.859 11.09 56.88 DPE [6] 3.4M 23.75 0.908 9.34 7.21 - - - -HDRNet [14] 483.1K 24.66 0.915 8.06 3.49 24.52 0.921 8.20 56.07 DeepLPF [37] 1.7M 24.73 0.916 7.9932.12 - - - - CSRNet [17] 36.4K 25.17 0.924 7.75 3.09 24.82 0.926 7.94 77.10 SA-3DLUT [45]* 4.5M 25.50 / /2.27 / / / 4.3903D-LUT [51] 593.5K 25.29 0.923 7.55 1.17 25.25 0.932 7.59 1.4903D-LUT + AdaInt 619.7K 25.49 0.926 7.47 1.29 25.48 0.934 7.45 1.590表2.在FiveK数据集[1]上进行照片修饰的定量比较。运行时间以毫秒为单位测量。“-”表示由于GPU内存不足而无法获得结果。“*”符号表示结果是从原始论文中采用的（由于源代码不可用，有些结果缺失（“/”））。最佳结果和第二结果分别用红色和蓝色突出显示。0方法 480p0PSNR SSIM ∆ E ab0UPE [44] 21.56 0.837 12.29 DPE [6]22.93 0.894 11.09 HDRNet [14] 24.520.915 8.14 CSRNet [17] 25.19 0.921 7.6303D-LUT [51] 25.07 0.920 7.5503D-LUT + AdaInt 25.28 0.925 7.480表3.在FiveK数据集（480p）[1]上进行色调映射应用的定量比较。最佳结果和第二结果分别用红色和蓝色突出显示。0我们按照[51]的方法，在两个典型应用上进行实验：照片修饰和色调映射。两个应用中的目标图像都采用相同的8位sRGB格式。两个任务之间的区别在于输入格式。在照片修饰任务中，输入图像也是sRGB格式（FiveK上为8位，PPR10K上为16位），而在色调映射任务中，输入图像采用16位CIEXYZ格式。因此，色调映射任务需要进行颜色空间转换的能力。我们在FiveK数据集上进行了两个任务，但只在PPR10K上进行了修饰任务，就像[29]中所做的那样。04.2. 实现细节0由于我们的工作重点是提出学习图像自适应采样间隔的思想，我们不深入研究复杂的架构工程。相反，为了实例化我们方法中的映射f，我们直接采用了Zeng的[29,51]在FiveK数据集上采用的[51]中的5层主干网络，以及在PPR10K数据集上采用了ResNet-18[18]（使用ImageNet预训练[8]的权重进行初始化）。方程（1）中的映射h是由两个级联的全连接层实现的，实际上是对[51]中的实现进行了改进。对于AdaInt（方程（2）中的映射g）的实例化，0方法 E PSNR ∆ E ab PSNR HC ∆ E HC ab0HDRNet [14] a 23.93 8.70 27.21 5.65 CSRNet [17] a22.72 9.75 25.90 6.33 3D-LUT [51] a 25.64 6.97 28.894.53 3D-LUT + HRP [29] a 25.99 6.76 28.29 4.3803D-LUT + AdaInt a 26.33 6.56 29.57 4.260HDRNet [14] b 23.96 8.84 27.21 5.74 CSRNet [17] b23.76 8.77 27.01 5.68 3D-LUT [51] b 24.70 7.7127.99 4.99 3D-LUT + HRP [29] b 25.06 7.51 28.36403D-LUT + AdaInt b 25.40 7.33 28.65 4.750HDRNet [14] c 24.08 8.87 27.32 5.76 CSRNet [17] c23.17 9.45 26.47 6.12 3D-LUT [51] c 25.18 7.58 28.494.92 3D-LUT + HRP [29] c 25.46 7.43 28.80 4.8203D-LUT + AdaInt c 25.68 7.31 28.93 4.760表4.在PPR10K数据集[29]上进行人像照片修饰的定量比较，其中“E”表示“专家”，a、b、c表示三个专家修饰的基准。0使用了一个单独的全连接层。g的权重和偏置被初始化为0和1，这使得预测的采样间隔从一个均匀状态开始。更多细节请参考补充材料。我们使用标准的Adam优化器[26]来最小化方程（6）中的损失函数。在FiveK和PPR10K上，小批量大小分别设置为1和16。我们的模型都是以固定的学习率1×10-4进行400个epoch的训练。我们将g的学习率衰减因子设置为0.1，并在前5个训练epoch中冻结其参数，以使AdaInt的学习更加稳定。我们的方法是基于PyTorch[40]实现的。所有实验都在NVIDIA Tesla V100 GPU上进行。N s和M的设置根据数据集和实验目的进行。我们将在下面的章节中提供它们。We also compare state-of-the-art real-time photo en-hancement methods. Ns is set to 33 as done in other 3DLUT-based approaches [45,51] for fair comparisons. M isset to 3 and 5 for the FiveK and PPR10K datasets, respec-tively, as done in [29].Quantitative ComparisonsWe compare the selectedmethods on PSNR, SSIM [46], the L2-distance in CIE LAB175280（a）（b）0图5. 在PPR10K数据集（360p）[29]上进行照片修饰的学习采样坐标和相应的3DLUTs的示意图。底部行显示了所谓的每个颜色通道的累积误差直方图（AEH）上的学习采样坐标。在AEH中呈现高曲率的区域表示需要更多采样点的地方。最好在屏幕上查看。04.3. 消融研究0在这个部分中，选择了来自FiveK数据集（480p）的图像的色调映射任务，进行了几个消融研究，以验证提出的AdaInt的能力。我们期望色调映射任务中输入图像的更高动态范围（16位）能更好地检验我们的AdaInt学习图像自适应采样点的能力。在所有消融研究中，超参数M被设置为3。0每个维度上的坐标数量我们评估了基准3D-LUT[51]和我们的方法在不同Ns（每个颜色维度上的采样坐标数量）设置下的效果，以验证提出的AdaInt的有效性。如图4所示，随着采用较小的Ns，基准和我们的方法的性能都会下降。我们的AdaInt在所有N s设置下都能改进基准。进一步增加Ns（从33增加到65）只能带来与我们的AdaInt相比基准的较小改进（0.05dB）。值得注意的是，与基准相比，我们的方法在相对较小的LUT大小（Ns）下实现了可比甚至更好的性能。这是因为AdaInt使得3DLUT能够充分利用有限的采样点，以更好地对底层的最优颜色变换进行建模。0采样策略我们的AdaInt为每个颜色维度分别生成一组采样间隔，使得我们的方法在不同的颜色维度上采用不同的采样策略。它将整个三维颜色空间划分为各种立方体。在这里，我们将这样的默认设置与另一种采用相同策略的设置进行比较，该策略将三维空间划分为立方体。我们通过让AdaInt仅生成一组采样间隔并将其复制到三个颜色维度来实现。如表1所示，共享的AdaInt策略表现不如默认设置，这符合我们的预期，因为共享机制限制了AdaInt在三维空间中分配采样点的灵活性。0图5的上半部分显示了PPR10K数据集上的两张不同照片，它们的颜色直方图以及来自我们模型的相应学习的三维LUT。可以观察到，3D晶格的颜色和布局随着不同的图像内容而变化，表明我们学习到的3DLUT具有图像自适应性质。为了更好地分析我们的AdaInt的行为，我们引入了输入图像和真实图像之间的每个颜色通道的累积误差直方图（AEH）[30]。在AEH中具有高曲率的区域在一定程度上表明了底层3D颜色变换的复杂性/局部非线性性，因此需要更多的采样点。如图5的下半部分所示，我们的AdaInt根据各种图像和颜色通道上的变换复杂性非均匀地和自适应地分布到不同的区域。关于AEH的详细描述和更多学习间隔的可视化可以在补充材料中找到。04.4. 自适应采样间隔的属性0我们还将与最先进的实时照片增强方法进行比较。为了公平比较，将N_s设置为33，与其他基于3DLUT的方法[45，51]相同。M在FiveK和PPR10K数据集上分别设置为3和5，与[29]中的设置相同。定量比较我们在PSNR、SSIM[46]、CIELAB颜色空间中的L2距离（∆Eab）和推理速度上比较所选方法。在PPR10K上，我们还包括人为中心的度量[29]（用“HC”上标表示）。我们使用现有方法的发布代码和默认配置获得结果。所有方法都在NVIDIA Tesla V100GPU上执行。为了进行速度比较，我们测量100张图像的GPU推理时间并报告平均值。表2列出了在FiveK上进行照片修饰的比较。我们的方法在两种分辨率上相对较少的参数下优于其他方法。类似的结论适用于FiveK上的色调映射和PPR10K上的肖像照片修饰的表3和表4。特别是，我们的AdaInt在所有数据集上相对于3D-LUT[51]都带来了一致的改进，计算成本几乎没有增加，证明了其效率和有效性。值得注意的是，同时进行的研究SA-3DLUT[45]通过构建像素级LUT以显著增加模型大小（约为7倍）和速度降低（约为3倍）来推广3DLUT。我们相信SA-3DLUT配备我们的AdaInt可以进一步改进，尽管源代码尚未公开。定性比较图6显示了我们的方法产生比其他方法更令人满意的结果。例如，在第一行中，我们的方法更好地处理了图像的过曝。在第二行中，其他方法在蓝天的饱和度较低，导致照片模糊。相反，我们的AdaInt成功地产生了正确的蓝色，并提供了更清晰的结果。此外，在增强亮度时，我们的方法保留了更多的岩石纹理。更多比较请参考补充材料。04.5. 与现有技术的比较color space (∆Eab), and the inference speed. On PPR10K,we also include the human-centered measures [29] (denotedby the ”HC” superscript). We obtain the results of existingmethods using their published codes and default configu-rations. All approaches are executed on an NVIDIA TeslaV100 GPU. For speed comparison, we measure the GPUinference time on 100 images and report the average. Ta-ble 2 lists the comparison on the FiveK for photo retouch-ing. Our method outperforms others with relatively fewerparameters on both resolutions. Similar conclusions applyto Tables 3 and 4 on the FiveK for tone mapping and thePPR10K for portrait photo retouching, respectively. Espe-cially, our AdaInt brings consistent improvement over 3D-LUT [51] on all datasets with a negligible computationalcost increase, demonstrating its efficiency and effectiveness.It is worth noting that the concurrent study SA-3DLUT [45]promotes 3D LUTs by constructing pixel-wise LUTs at thecost of a significant model size increase (about 7 times) anda speed decrease (about 3 times). We believe SA-3DLUTequipped with our AdaInt can be further improved, thoughthe source code is not yet publicly available.Qualitative ComparisonsFigure 6 shows that ourmethod produces more visually pleasing results than othermethods. For example, our method better handles the over-exposure of the image in the first row. In the second row,other methods suffer from poor saturation in the blue sky,resulting in hazy photos. Our AdaInt instead successfullyproduces the correct blue color and thus provides a cleanerresult. Besides, when enhancing the brightness in the thirdrow, our method preserves more rock texture. Please referto the supplementary materials for more comparisons.175290图6. 在FiveK数据集[1]上进行照片修饰的对应误差图的定性比较。最好在屏幕上查看。05. 限制和结论0虽然我们的AdaInt通过提供图像自适应采样策略来提升3DLUTs的表达能力，但是0仍然缺乏空间建模和噪声鲁棒性。3DLUTs假设每个像素根据其颜色独立变换，而不考虑局部性。因此，它更适用于全局增强，在需要局部色调映射的区域可能产生不太令人满意的结果。[45]提供了一种可能的解决方案，即构建像素级LUTs。我们的方法与之正交，也可能带来改进。此外，由于我们的方法基于像素级映射，严重的噪声也可能影响我们的结果。请参考补充材料中的一些视觉示例。在本文中，我们提出了AdaInt，一种用于实时图像增强的新型学习机制。其核心思想是引入图像自适应采样间隔来学习非均匀的3DLUT布局。我们将AdaInt开发为一种即插即用的神经网络模块，并提出了一个可微分的AiLUT-Transform运算符，封装了二分搜索和三线性插值。在两个数据集上的实验结果表明，我们的方法在性能和效率方面优于其他最先进的方法。此外，我们认为在复杂的底层变换函数或表示上进行非均匀采样的观点不仅限于3DLUTs，还可以促进其他应用，这是我们未来的工作。0致谢0YiXu部分受到中国国家自然科学基金（62171282，111项目BP0719010，STCSM18DZ2270700）的支持，上海市科技重大专项（2021SHZDZX0102）的支持，以及重庆市重点研究与

下载后可阅读完整内容，剩余1页未读，立即下载