V-DESIRR：高速深度嵌入单图像反射去除

36 浏览量更新于2023-10-16 收藏 33.41MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

23900V-DESIRR：非常快速的深度嵌入单图像反射去除0B H Pawan Prasad 1 Green Rosh K S 1 Lokesh R B 1 Kaushik Mitra 20Sanjoy Chowdhury 101 三星研发院，班加罗尔，印度 2 印度理工学院马德拉斯分校，钦奈，印度0pawan.prasad,greenrosh.ks,lokesh.rb,s5.chowdhury@samsung.com, kmitra@ee.iitm.ac.in0摘要0现实世界中的图像经常因不需要的反射而受到破坏，消除这些反射是非常有必要的。这类图像中的大部分来自能够进行非常高分辨率捕捉的智能手机相机。大多数现有方法要么侧重于通过牺牲处理速度和内存需求来提高恢复质量，要么侧重于在非常低分辨率下消除反射，从而限制了它们的实际可部署性。我们提出了一种轻量级的深度学习模型，用于使用新颖的尺度空间架构进行反射去除。我们的方法分为两个阶段处理受损图像，一个低尺度子网络（LSSNet）用于处理最低尺度，一个渐进推理（PI）阶段用于处理所有较高尺度。为了降低计算复杂度，PI阶段中的子网络设计得比LSSNet要浅得多。此外，我们在PI阶段内的各个尺度之间采用权重共享以限制模型大小。这也使得我们的方法能够在不进行显式重新训练的情况下推广到非常高的分辨率。我们的方法在质量和数量上都优于现有方法，与最新的最先进算法RAGNet相比，速度提高了20倍，参数数量减少了50倍。我们在安卓智能手机上实现了我们的方法，在不到5秒的时间内恢复了一张高分辨率的12 MP图像。01. 引言0在玻璃窗等反射表面附近进行图像捕捉非常具有挑战性，因为会产生不良的反射伪影。这些伪影不仅影响图像的感知质量，还影响图像识别和目标检测等高级任务。因此，消除反射非常有必要，并且是图像处理和计算机视觉领域的一个活跃研究领域。过去已经提出了几种方法来解决反射问题。0输入0输入放大0BDN [33]0ERRNet [28] 张等 [34]0BeyLin [29]0IBCLN [12] RAGNet [16]0图1：高分辨率性能和复杂性分析。（a）与当前最先进方法在高分辨率12MP输入图像上的比较。（b）在NVIDIA GTX1080Ti上对大小为540x400的图像块进行复杂性评估。0解决反射问题的最早方法是在问题定义上施加额外的手工约束，例如自然场景统计[10]，稀疏先验[11]，梯度平滑[32]和幽灵线索[22]。然而，已经观察到基于手工先验的解决方案在现实生活中经常观察到的复杂反射模式上适应性不佳。为了模拟现实生活中的反射模式，最近提出了几种使用深度神经网络的数据驱动方法。即使这些方法取得了最先进的结果，并能够高效地建模强大而复杂的反射，但它们存在两个主要缺点：a）高计算需求：反射去除需要一个大的感受野，以有效地收集恢复传输层所需的语义信息。传统方法通过堆叠大量卷积滤波器来增加感受野，这极大地增加了计算和内存需求。例如，最近提出的RAGNet方法[16]由1.31亿个参数组成，消耗峰值内存为2.9 GB，需要2023910在NVIDIA 1080Ti GPU上处理12MP图像需要几秒钟。这使得在计算能力和内存有限的智能手机设备上部署这种方法变得不可能，使得它们在现实生活中的适用性极为有限。b)无法从高分辨率图像中去除反射：几家当代智能手机厂商提供分辨率从8百万像素到108百万像素不等的多个摄像头。因此，可部署的解决方案应能够从各种图像分辨率中去除反射。然而，大多数最先进的方法使用固定的网络架构，使其感受野静态化。此外，这些方法大多是在小于百万像素的低分辨率数据集上进行训练的。由于图像在固定感受野中的语义内容随分辨率而变化，这些方法不是“尺度不变”的，因此无法去除高分辨率图像上的反射。因此，这些方法需要针对每个分辨率进行重新训练，以有效去除反射，这非常繁琐。在本文中，我们提出了一种新颖的方法来解决上述挑战，同时保持输出图像质量。受到图像去模糊中尺度空间方法的最近成功启发[19][25]，我们提出了一种尺度空间反射去除方法，以最小的计算开销增加感受野。损坏的输入图像被转换为其尺度空间表示，并在除最低尺度外的每个尺度上由相同的、共享权重的深度CNN进行处理。为了使我们的方法更高效，我们在最低尺度上使用更深的网络（低尺度网络-LSSNet），而在较高尺度上使用更浅的网络（高尺度网络-HSSNet）。每个尺度上的输出使用卷积引导滤波器（CGF）[30]进行上采样，并附加到更高级别的输入，以帮助每个尺度上的反射去除过程。正如[25]所观察到的，每个尺度上都解决了同样的问题，因此在尺度空间中，所有HSSNet和CGF块之间的权重可以共享，从而使内存占用非常低。这也使我们能够通过增加尺度的数量来轻松地在推理过程中动态增加有效的感受野。因此，所提出的方法可以在不进行任何显式重新训练的情况下从高分辨率图像中去除反射，使其易于适应智能手机。所提出方法的示例输出如图1所示。输入给网络的图像具有非常高的分辨率（12MP），而最先进的方法则在分辨率较低的图像上进行训练，具有固定的感受野，因此无法去除图像中的反射。而我们的方法能够在没有对此类图像进行训练的情况下很好地适应高分辨率图像。图1还显示了三个图表，以演示性能相对于执行时间、内存和网络复杂性与最先进方法的比较。我们在后面的章节中将展示，我们的方法能够在比RAGNet [16]在NVIDIA 1080TiGPU上快20倍的情况下实现更好的性能，同时计算效率更高。此外，我们的方法仅使用了260万可学习参数，比RAGNet[16]少了50倍。我们还在一部配备8 GB RAM和QualcommSnapdragon888处理器的移动安卓设备上实现了我们的方法。我们观察到，所提出的方法可以在不到5秒的时间内处理12百万像素的输入数据，因此可以轻松地适应智能手机设备，以在合理的时间内处理高分辨率图像。我们的工作的贡献如下：（1）我们提出了一种快速的尺度空间方法来去除反射，可以轻松部署在资源有限的设备上，如智能手机。（2）为了使我们的方法在计算上更高效，我们只在最低尺度上使用更深的网络，而较高尺度则使用更浅的网络进行处理。这使得我们的方法比最新的最先进方法RAGNet快20倍。（3）所提出的算法可扩展处理高分辨率输入图像（测试最高达64MP），无需进行显式重新训练。（4）所提出的算法可以在配备Qualcomm Snapdragon 888芯片组和8 GBRAM的智能手机上在不到5秒的时间内处理12MP图像。据我们所知，这是基于深度学习的去除反射的最快方法，具有最先进的结果。（5）我们构建了一个使用最新智能手机捕获的具有真实世界反射的高分辨率数据集，可用于未来的评估。该数据集将在...0稍后提供。0https://www.github.com/ee19d005/vdesirr。02. 相关工作0现有的去反射方法可分为以下三类 [26]，根据用于生成无反射输出的输入类型，即(a) 单图像 [11] [3] [15] [22] [5] [27] [34] [16] [12] [28] (b) 多图像 [6] [7] [14] [1][17] [31] [24] (c) 多模态反射去除 [20] [2][13]。本节仅提供单图像方法的详细信息。过去探索的几种方法使用传统的基于优化的方法或最近的深度学习方法。传统方法依赖于先验知识，如基于边缘的梯度稀疏性先验 [11]、基于角点的先验[3]、使用梯度信息对反射和传输层进行边缘分类的层平滑先验[32]、使用不同概率分布对传输和反射层进行建模[15]。[22]中使用了基于高斯混合模型 (GMM)的基于补丁的先验，其中包括反射及其空间位移的图像形成模型和用于建模分布的GMM。最近，单图像深度学习方法取得了很大的进展。[5]中提出了一种端到端的单图像深度学习架构。后来在[34]中引入了感知损失，并在[27]中提出了一种多尺度引导的并发神经网络。[29]中使用了非线性混合模型来模拟逼真的反射。[33]中提出了一种双向方法，其中估计的反射层用于改进传输层。[28]中引入了一种对齐不变的损失函数，通过放宽对数据获取的挑战来减少网络训练中地面真实无反射图像和输入退化图像需要完全对齐的约束。最近，提出了一种级联的两阶段架构，利用反射感知引导进一步改善单图像去反射 [16]。CGF – Convolutional Guided Filter UpsamplingLSSNet – Low Scale SubnetworkHSSNet – High Scale Subnetwork- Progressive Inference (PI) block- ConcatenateINDEX++𝑰𝟏𝑶𝟏𝑰𝒔𝑶𝒔′𝑰𝒔−𝟏𝑶𝒔−𝟏𝑶𝒔′𝑰𝒔Append𝑶𝒔23920确定尺度的数量(N)0生成 N 尺度空间0LSSNet CGF HSS 网络 c CGF HSS 网络 c0CGF HSS c 网络……0高分辨率输入0高分辨率输出0权重共享0c0输入(尺度 1)0输入 (尺度 2- N)0� � � � � � � �0� � � � � �0� �0图2：用于高分辨率图像的非常快速的深度嵌入式单图像去反射方法的概述0[22]中使用了基于高斯混合模型 (GMM)的基于补丁的先验，其中包括反射及其空间位移的图像形成模型和用于建模分布的GMM。单图像深度学习方法在最近取得了很大的进展。[5]中提出了一种端到端的单图像深度学习架构。后来在[34]中引入了感知损失，并在[27]中提出了一种多尺度引导的并发神经网络。[29]中使用了非线性混合模型来模拟逼真的反射。[33]中提出了一种双向方法，其中估计的反射层用于改进传输层。[28]中引入了一种对齐不变的损失函数，通过放宽对数据获取的挑战来减少网络训练中地面真实无反射图像和输入退化图像需要完全对齐的约束。最近，提出了一种级联的两阶段架构，利用反射感知引导进一步改善单图像去反射[16]。03. 提出的尺度空间架构0下面的子章节描述了所提方法的不同组成部分。03.1. 流程0图中提供了所提方法的概述。02. 给定一个分辨率为 H × W 的损坏输入图像(I)，该方法确定尺度的数量 N 为0N = max(1, ceil(1 + log2(min(H,0k ))) (1)0其中 k必须大于流水线中所有子网络的感受野，并且选择为所提方法的300。接下来，使用高斯金字塔构建输入图像的 N尺度空间表示。最终的无反射输出图像从尺度空间中生成0卷积0批归一化0卷积0批归一化0DCRB0卷积 + BN + ReLU ConvS2+ BN + ReLU DeconvS2 +BN + ReLU0卷积 + ReLU + 扩张卷积0逐点卷积双线性上采样08个DCRBs0(a) LSSNet0(c) HSSNet0(c) 卷积引导滤波器(CGF)0CGF0图3：两个提出的子网络低尺度空间网络(LSSNet)和高尺度空间网络(HSSNet)以及卷积引导滤波器(CGF)的网络架构。0两个阶段：a) 低尺度子网络(LSSNet)和b)使用卷积引导滤波器上采样(CGF)和高尺度子网络(HSSNet)的渐进推理(PI)。下面详细介绍了这些组件。03.1.1 低尺度子网络 - LSSNet0最低尺度的输入图像传递给LSSNet，生成尺度1的输出图像O 1 。LSSNet的网络架构如下所示。23930如图3所示，该设计类似于U-net[21]，并进行了额外的增强。编码器块由2个步长为1的卷积块和3个步长为2的卷积块组成。每个卷积块都遵循Conv-Batchnorm-ReLU模式。编码器后面是8个双卷积残差块(DCRB)。DCRB在最低级别引入，以最小化计算复杂性。每个DCRB由两个卷积层和跳跃连接组成。然后是解码器块，将特征上采样回原始分辨率。解码器块由3个步长为2的反卷积层和2个步长为1的卷积层组成。编码器和解码器块之间提供跳跃连接，以在相应的空间维度的特征图之间传递信息。所有跳跃连接都使用逐元素相加来实现，从而降低计算复杂性。03.1.2 渐进推理0我们引入了一种迭代的渐进推理(PI)方案，用于在估计O 1后，为尺度{2，..，N}估计O s。任何尺度s的输出图像可以通过迭代地使用PI函数来估计，即O s = PI(I s，I s − 1，O s − 1)。0PI函数使用两个级联块实现：卷积引导滤波器(CGF)用于上采样O s − 1。0使用高分辨率图像I s作为引导，通过CGF块对低分辨率输入I s −1、低分辨率输出O s − 1和高分辨率输入I s进行上采样，生成高分辨率输出O s′。与使用反卷积滤波器的方法相比，CGF块生成的输出图像更加清晰。此外，CGF块轻量且计算开销较小。高分辨率子网络(HSSNet)：由CGF块生成的高分辨率输出O s ′需要进一步优化，生成尺度s的输出图像Os。我们使用HSSNet来实现这一目的。HSSNet与LSSNet类似，采用编码器-解码器结构。然而，由于HSSNet在更高的尺度上操作，为了减少计算复杂性，不使用DCRB块。需要注意的是，CGF和HSSNet的权重在所有尺度上共享。权重共享使得可以在多个尺度上迭代地重复使用PI块，带来的好处是双重的。首先，权重共享大大减少了N尺度空间金字塔解决方案所需的参数数量，从而减少了解决方案的内存占用。其次，由于PI块可以在不同尺度上重复使用，所以所提出的解决方案可以在不需要重新训练的情况下，实现对各种输入分辨率的反射去除，只需简单地改变N的值。此外，所提出的解决方案可以将感受野增加2的N次方倍，而计算时间仅增加4倍。0当N较大时，减少了N尺度空间金字塔所需的参数数量，从而减少了解决方案的内存占用。其次，由于PI块可以在不同尺度上重复使用，所以所提出的解决方案可以在不需要重新训练的情况下，实现对各种输入分辨率的反射去除，只需简单地改变N的值。此外，所提出的解决方案可以将感受野增加2的N次方倍，而计算时间仅增加4倍。04N)其中N是尺度的数量。这使得能够从非常高分辨率的图像中高效去除反射，同时保持计算和内存约束，因此可以轻松部署在嵌入式设备上。所提出的尺度空间方法在计算和性能上都比[28]中提出的传统金字塔方法具有优势。首先，[28]中的方法对于任何给定的输入分辨率，每像素的MACs/pixel（9.48M）是固定的。然而，在我们的方法中，MACs/pixel是尺度级别N的函数。复杂度不会随着输入分辨率的增加而呈指数级增长。通过简化PI阶段还可以获得计算上的优势。其次，[28]使用大小为224x224的图像提取金字塔特征。我们发现，[28]的反射去除性能在1MP之前是令人满意的，之后会显著恶化。我们的方法（LSSNet）虽然使用了类似分辨率（256x256）的训练，但LSSNet操作的尺度空间级别是动态选择的，因此确保网络对输入图像有全面的视野。03.2. 损失函数0子网络LSSNet和HSSNet都是使用像素和特征损失的组合进行训练的。像素级的强度差异使用如方程3所示的三个组件损失进行惩罚。0Lp = α ||ˆO - O||2 2 + β ||ˆO - O||10+ γ (||▽xˆO - ▽xO||1 + ||▽yˆO - ▽yO||1). (3)0其中，▽x和▽y分别是沿x和y方向的梯度算子，ˆO和O分别是估计的透射输出和真实值。我们还使用如下所示的上下文损失[18]。0Lc = -log(CX(φl(ˆO), φl(O))) (4)0其中，φl(.)和φl(.)是从感知网络的第l层提取的特征图，我们的情况下是VGG19网络[23]。函数CX定义了如[18]所述的上下文相似性。上下文损失有助于在训练过程中最小化颜色伪影。460 image pairs split across 3 categories namely solid ob-jects, post card and wild scenes. This dataset is exclusivelyused for testing purpose. The solid object and post carddatasets consists of images taken in indoor controlled envi-ronment while wild scenes consists of real life scenes in un-constrained scenarios. We also capture a set of high resolu-tion images (12MP and 64MP) using a smart-phone camerafor the purpose of evaluation of our method against lateststate of the art methods. Among these, several of them arecaptured using a portable glass to introduce reﬂection whilethe remaining sets consists of reﬂections in the wild such asglass walls in malls, museums, coffee shops, etc. A polar-izer is used to obtain a reference ground truth image withoutreﬂection similar to [9].23940（a）输入（b）BDN[33]（c）Zhang.et.al[34]（d）IBCLN[12]（e）ERRNet[28]（f）RAGNet[16]（g）我们的方法（h）真实图像0图4：公共数据集上的定性比较：列（b）到（f）是最新技术方法的结果。列（g）显示了所提出方法的结果，列（h）包含相应的真实图像。最后两行显示了在伯克利real45数据集[34]上的比较，该数据集没有参考的真实图像。我们的方法要么优于最新技术方法，要么与之相当，但复杂度显著较低-请参见表3。0对齐的数据并在训练过程中提供稳定性。总损失是像素损失和上下文损失的组合。L = Lp + δLc (5)0在我们的实验中，我们经验性地设置 α = 0.2，β = 0.2，γ= 0.4和δ = 0.8。04. 实验结果04.1. 数据集0我们使用PASCAL-VOC数据集[4]中的合成反射生成了7400张图像，使用[28]中提出的方法进行预训练。这个数据集用于预训练子网络LSSNet和HSSNet。我们还使用了伯克利真实数据集[34]，其中包含使用佳能600D相机和便携玻璃拍摄的110对真实图像，以引入反射。我们从这个数据集中使用90张图像进行训练，而使用20张图像进行评估，选择这些图像的策略与[28]中的策略类似。我们还使用了SIRR2基准数据集[26]，该数据集包含了...04.2. 训练细节0所提出的方法在运行于一台配备有Intel Xeon E5-2620v3、128GB RAM和NVIDIA GTX 1080TiGPU（12GB内存）的PC上的Pytorch上实现用于训练目的。首先，LSSNet在460个图像对上进行初始训练，分为实体对象、明信片和野外场景3个类别。该数据集仅用于测试目的。实体对象和明信片数据集包括在室内受控环境中拍摄的图像，而野外场景数据集包括在不受限制的场景中拍摄的真实场景。我们还使用智能手机相机拍摄了一组高分辨率图像（12MP和64MP），以评估我们的方法与最新的现有技术方法进行比较。其中，其中几个使用便携式玻璃拍摄以引入反射，而其余的集合包括野外的反射，如商场、博物馆、咖啡店等的玻璃墙。使用偏振器获取没有反射的参考地面真实图像，类似于[9]。23950（a）输入（12MP）图像。（b）输入放大（c）ERRNet [28]（d）RAGNet [16]（e）我们的方法（g）地面真实值。0图5：高分辨率12MP图像的定性比较：列（a），（b）包含显示整个高分辨率视野及其放大版本的输入。列（c），（d）显示最佳表现的现有技术方法[28]和[16]的结果。列（e）显示我们的结果。前4行包含使用和不使用玻璃拍摄的图像集，最后一行的地面真实值使用偏振器拍摄，参见第4.1节。使用偏振器拍摄的地面真实值仅用于视觉参考。0使用Adam优化器，在PASCALVOC合成数据集上进行了大约200个epoch的训练，批量大小为8。初始学习率设置为0.0001。然后生成LSSNet的输出来训练HSSNet和CGF模块。两个子网络的所有卷积层都使用Xavier权重进行初始化。训练时，使用大小为256x256的随机裁剪补丁，并进行随机水平和垂直翻转。最后，对伯克利真实数据集[34]进行了1000个epoch的LSSNet微调，以实现模型收敛。我们用于训练的图像ID与[28][34]中使用的图像ID相同。在训练过程中，根据训练图像所属的比例级别N（公式1）调整图像大小。04.3. 定性评估0首先，我们在图4中提供了我们的方法与现有最先进方法的图像比较研究。0可用数据集。本次比较使用了BDN [33]，Zhang[34]，IBCLN [12]，ERRNet [28]和RAGNet[16]提出的方法。在图4中，使用了公开可用的数据集，包括SIR Solid Object，Wild Scene，Postcard和BerkeleyReal 20和Real 45数据集。需要注意的是，对于Real45数据集，没有提供真实值。我们的方法使用公式1选择了推理所需的级别数量。0接下来，我们对高分辨率图像进行了定性评估。图5显示了我们的方法与最新现有技术方法在高分辨率12MP图像上的比较。尽管现有最先进的方法在较小的图像分辨率上表现得非常好，但在更高的分辨率上无法去除反射，并且其性能随着图像分辨率的增加而显著下降。我们的方法通过在尺度空间中动态选择级别的帮助，能够解决这个问题。Sl NoMethodSolid ObjectPost CardWild SceneReal20AveragePSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIM1CEILNet23.370.87520.090.78618.870.80521.540.69221.410.8222Zhang.et.al22.680.87916.810.79721.520.83222.550.78820.100.8363BDN22.730.85320.710.85722.340.82118.810.73721.680.8464ERRNet24.850.89421.990.87424.160.84723.190.81723.510.8775IBCLN24.880.89323.390.87524.710.88622.040.77224.120.886RAGNet26.030.90323.660.87925.520.8821.260.76624.790.8855LSSNet + LSSNet + CGF26.450.899239607 我们的方法 26.78 0.906 26.26 0.906 26.41 0.885 25.06 0.816 26.45 0.8990表1：公共数据集上的定量比较：我们的方法在计算复杂度明显较低的情况下，相对于最先进的RAGNet[16]实现了1.5dB的整体改进，见表3。最佳结果以粗体显示，次佳结果以下划线显示。0(a) 输入 (b) N = 1 (c) N = 2 (d) N = 3 (e) N = 4 (f) N = 50图6：对于一个6400万像素的超高分辨率图像的尺度空间评估。列(b) - (f)显示了尺度空间中不同级别数量的结果。当N =1时，模型推理仅包括LSSNet，当N = 2时，包括LSSNet和HSSNet，当N =3时，包括LSSNet和两个HSSNet，依此类推。我们的所有实验都使用了CGF块。0处理不同的图像分辨率，而不会影响速度和内存需求。04.4. 定量评估0我们在表1中对所提出的方法与最先进的方法进行了定量比较研究。该研究是在选择的与定性研究相同的方法和数据集上进行的。我们使用PSNR和SSIM作为研究的客观指标。从表1中可以明显看出，所提出的方法能够在所有考虑的数据集上生成具有最佳PSNR分数的输出图像。此外，所提出的方法能够在所有四个数据集上平均提高1.5dB的PSNR。所提出的尺度空间方法通过其大的感受野提供了输入图像的全景视图，从而使我们能够在公共测试集中的低分辨率图像上实现卓越的性能。04.5. 消融研究0在本节中，我们对实际数据集[26]、[34]和[5]上的方法进行了消融研究，这些数据集是公开可用的。首先，我们提供了网络组件分析，描述了不同设计策略的优点和缺点。其次，进行了尺度空间分析，评估了在尺度空间的不同级别选择下所实现的渐进改进。0序号网络 PSNR SSIM01 仅LSSNet 24.789 0.878 2 LSSNet + HSSNet25.069 0.897 3 LSSNet + LSSNet 25.412 0.895 4LSSNet + HSSNet + CGF 26.323 0.8980表2：我们网络架构的消融研究：第一行实验仅使用LSSNet，明确设置N =1。第二行对于任何N的选择，使用LSSNet用于最低尺度和HSSNet用于更高尺度。04.5.1 网络组件分析0我们通过评估5种不同的设计策略来评估所提出的网络架构，如表2所示。首先，我们评估仅使用LSSNet时的性能。在随后的实验中，我们引入了不同选择的网络用于更高的尺度。最后，我们评估了CGF块的影响。我们的方法在与LSSNet一起用于尺度空间的较低和较高级别时产生了最佳结果，然而使用HSSNet仅在PSNR方面有轻微的降级，但在处理速度和内存需求方面提供了2.5倍的改进。从表2中还可以明显看出，CGF块的存在有助于进一步提高模型的整体性能。Input 12 MP Input ZoomedRegular QuantizerEnhanced QuantizerNon-Quantized23970序号方法参数数量（百万） MAC操作处理时间（秒）峰值内存（GB）模型大小（MB）01 张等人 77.6 601K 0.41 2.46 381 2 BDN 75.2 3.91M 0.62 1.69 299 3 IBCLN 21.6 4.81M 0.42 1.42 8304 ERRNet 18.9 9.46M 0.524 4.23 331 5 RAGNet 130.9 758K 0.331 2.87 560 6 我们的方法 2.6 49K 0.0149 0.74 3207 我们的方法（智能手机）2.6 49K 0.097 0.27 90表3：模型复杂性分析：将所提出方法与最新的技术水平进行了不同实际考虑的比较。前6行显示了在NVIDIA GTX 1080TiGPU上的评估结果，最后一行显示了在嵌入式智能手机设备上的评估结果。最佳结果以粗体显示，次佳结果以下划线显示。04.5.2 尺度空间分析0我们对不同N的高分辨率输入图像（64MP）进行了所提出方法的评估。选择N =1会导致反射去除质量显著降低，如图6所示。随着N的增加，整体质量逐渐提高，并在N =5时达到饱和。根据公式1，对于给定的输入图像分辨率，智能选择N可以得到最佳结果。04.6. 提出方法的复杂性评估0表3详细比较了不同实际考虑因素与最新技术方法之间的差异。我们评估了处理时间、峰值内存消耗、乘加（MAC）操作数量以及可学习参数数量等几个方面。从表3可以清楚地看出，我们的方法在处理时间方面至少快20倍，这是通过使用具有最少可学习参数和MAC操作的模型实现的。所提出的方法具有轻量级特性，也适用于在低内存设备上部署以实现实时性能。04.7. 嵌入式设备部署0为了在智能手机等低功耗设备上部署所提出的方法，我们首先使用公开可用的高通神经处理SDK对两个子网络的模型进行量化。然后，将量化模型部署在具有支持系统芯片的智能手机上。在我们的实验中，我们使用了高通的最新可用SDK版本，并在Android智能手机上进行了部署。量化模型显示出轻微的质量降低，与非量化模型输出在视觉上非常相似，如图7所示。我们使用了高通的增强量化器，该量化器使用专有算法确定最佳范围，对于被量化的数据具有长尾分布的模型特别有用。量化模型能够0对于 N = 2 级别的尺寸为 540x400的瓦片，我们实现了令人瞩目的97毫秒的性能。在智能手机设备上，处理一张高分辨率图像（例如12MP）大约需要5秒的处理时间。0图7：在智能手机上生成的量化模型输出的定性评估。增强量化器显示出与非量化输出相当的图像质量。05. 结论0在本文中，我们提出了一种新颖的轻量级尺度空间架构用于单幅图像反射去除。为了减少计算量，我们仅在最低尺度使用更深的架构，而较高的尺度使用较浅的网络进行处理。我们使用卷积引导滤波器将较低尺度的输出上采样，以作为较高尺度的引导。我们还在较高级别使用的子网络之间共享权重，有助于减少内存占用。尺度空间架构以及共享权重使我们能够在推理过程中增加有效感受野，从而使我们的方法能够很好地适用于高分辨率图像。我们已经证明，即使网络是在较小分辨率上训练的，我们的方法也可以去除非常高分辨率的图像上的反射（甚至64MP）。此外，我们的方法在定性和定量上都优于最新的技术方法，并且比最近的最新技术算法RAGNet[16]运行速度快20倍，参数数量少50倍。我们还在搭载高通骁龙888芯片组和8GB内存的Android智能手机上实现了我们的解决方案的量化版本，可以在不到5秒的时间内恢复高分辨率的12MP图像。23980参考文献0[1] Jean-Baptiste Alayrac，Joao Carreira和AndrewZisserman。视觉离心机：无模型分层视频表示。在IEEE计算机视觉和模式识别会议论文集中，页码2457-2466，2019年2月0[2] Paramanand Chandramouli，Mehdi Noroozi和PaoloFavaro。基于Convnet的深度估计，反射分离和去模糊的光场图像。在亚洲计算机视觉会议上，页码129-144。斯普林格，2016年2月0[3]钟云中，张祥丽，王荣明和陈世旺。从单个图像中分离干涉反射。在2009年计算机视觉应用研讨会（WACV）上，页码1-6。IEEE，2009年2月0[4] Mark Everingham，Luc Van Gool，Christopher KIWilliams，John Winn和AndrewZisserman。Pascal视觉对象类（VOC）挑战。国际计算机视觉杂志，88（2）：303-338，2010年5月0[5] 范庆南，杨交龙，华刚，陈宝权和DavidWipf。用于单图像反射去除和图像平滑的通用深度架构。在IEEE国际计算机视觉会议论文集中，页码3238-3247，2017年2月3日，7日0[6]盖坤，石振伟和张长水。使用图像统计量盲分离叠加移动图像。IEEE模式分析与机器智能交易，34（1）：19-32，2011年2月0[7]郭晓杰，曹晓春和马毅。从多个图像中稳健地分离反射。在IEEE计算机视觉和模式识别会议论文集中，页码2187-2194，2014年2月0[8]何凯明，孙剑和唐晓欧。引导图像滤波。IEEE模式分析与机器智能交易，35（6）：1397-1409，2012年4月0[9]雷晨阳，黄旭华，张孟迪，严琼，孙文秀和陈启峰。在野外进行极化反射去除并实现完美对齐。在IEEE /CVF计算机视觉和模式识别会议论文集中，页码1750-1758，2020年5月0[10] Anat Levin，Assaf Zomet和YairWeiss。从自然场景的统计数据中学习透明度。在神经信息处理系统进展中，页码1271-1278，2003年1月0[11] Anat Levin，Assaf Zomet和YairWeiss。使用局部特征从单个图像中分离反射。在2004年IEEE计算机学会计算机视觉和模式识别会议论文集中，卷1，页码I-I。IEEE，2004年1月2日0[12]李超，杨一笑，何坤，史蒂芬林和约翰E霍普克罗夫特。通过级联细化进行单图像反射去除。在IEEE /CVF计算机视觉和模式识别会议论文集中，页码3565-3574，2020年1月2日，5日，6日0[13] 李廷天，丹尼尔PKLun，陈旭熙等。基于光场成像的稳健反射去除。IEEE图像处理交易，28（4）：1798-1812，2018年2月0[14]于立和迈克尔S布朗。利用反射变化进行自动反射去除。在IEEE国际计算机视觉会议论文集中，页码2432-2439，2013年2月0[15]于立和迈克尔S布朗。使用相对平滑度进行单图像层分离。在IEEE计算机视觉和模式识别会议论文集中，页码2752-2759，2014年2月0[16]于立，刘明，易亚玲，李勤策，任东伟，左旺盟。具有反射感知引导的两阶段单图像反射去除。arXiv预印本arXiv:2012.00945，2020年1月2日，3日，5日，6日，7日，8日0[17]刘玉伦，赖伟胜，杨明轩，庄永裕和黄嘉斌。学习透过障碍物。在IEEE /CVF计算机视觉和模式识别会议论文集中，页码14215-14224，2020年2月0[18] Roey Mechrez, Itamar Talmi, and Lihi Zelnik-Manor.非对齐数据的图像转换的上下文损失。在欧洲计算机视觉大会(ECCV)论文集中，页码768-783，2018年。40[19] Seungjun Nah, Tae Hyun Kim, and Kyoung Mu Lee.动态场景去模糊的深度多尺度卷积神经网络。在IEEE计算机视觉与模式识别会议论文集中，页码3883-3891，2017年。20[20] Abhijith Punnappurath and Michael S Brown.利用双像素传感器进行反射去除。在IEEE计算机视觉与模式识别会议论文集中，页码1556-1565，2019年。20[21] Olaf Ronneberger, Philipp Fischer, and Thomas Brox.U-net:用于生物医学图像分割的卷积网络。在国际医学图像计算和计算辅助干预会议上，页码234-241，2015年。40[22] YiChang Shih, Dilip Krishnan, Fredo Durand, and WilliamT Freeman.利用幽灵线索进行反射去除。在IEEE计算机视觉与模式识别会议论文集中，页码3193-3201，2015年。1, 2, 30[23] Karen Simonyan and Andrew Zisserman.用于大规模图像识别的非常深的卷积网络。arXiv预印本arXiv:1409.1556，2014年。40[24] Chao Sun, Shuaicheng Liu, Taotao Yang, Bing Zeng,Zhengning Wang, and Guanghui Liu.利用梯度强度和运动线索进行自动去除反射。在第24届ACM多媒体国际会议论文集中，页码466-470，2016年。20[25] Xin Tao, Hongyun Gao, Xiaoyong Shen, Jue Wang, and Ji-aya Jia.用于深度图像去模糊的尺度递归网络。在IEEE计算机视觉与模式识别会议论文集中，页码8174-8182，2018年。20[26] Renjie Wan, Boxin Shi, Ling-Yu Duan, Ah-Hwee Tan, andAlex C Kot.单幅图像去除反射算法的基准测试。在IEEE国际计算机视觉会议论文集中，页码

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

V-DESIRR：高速深度嵌入单图像反射去除

image-hide:ImageHide 是使用数字图像文件的简单隐写术工具

id3-image：将图像嵌入mp3文件的工具

image-api:用于渲染可嵌入图像的简单API

v-slot:[name]

box-shadow: 0px 0px 20px 1px #000000;

background-image: url()里面怎么使用Data的数据

HTTP头部中如何添加X-Frame-Options: ALLOW-FROM *

X-Frame-Options: DENY X-Content-Type-Options: nosniff

jsp页面header('X-Frame-Options: GOFORIT');

rmarkdown 日程安排

unicode-bidi: normal|embed|bidi-override|initial|inherit

transformer的结构组成

Content-Type: jsp

html vedio

具体如何将深度嵌入图像聚类运用

iframe sandbox

python中数据处理和数据可视化的包

导航条nav的样式: 高度30px,背景色为#09C。文字颜色为#fff,字号为20px,字体为微软雅黑,水平居中显示,字符间距2px。超链接文字无下划线,文字颜色为白色,只有鼠标悬停时文字颜色变为黄色

帮我写一个视频点播的前端页面代码

最新资源