基于耦合深度图像先验的无监督图像分解

6 浏览量更新于2023-10-19 收藏 2.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1“Double-DIP”基于耦合深度图像先验的无监督图像分解Yossi Gandelsman Assaf Shocher Michal Irani部门以色列魏茨曼科学研究所计算机科学与应用数学系项目网址：www.wisdom.weizmann.ac.il/图1：图像分解的统一框架。图像可以被看作是“更简单”层的混合。将图像分解成这样的层为许多看似不相关的视觉任务（例如，分割、去雾、透明度分离）。这样的分解可以使用“双DIP”来实现摘要许多看似不相关的计算机视觉任务可以被视为图像分解为不同层的特殊情况。例如，图像分割（分离成前景层和背景层）;透明层分离（分为反射层和透射层）;图像去雾（分为清晰图像和雾度图）等等。在本文中，我们提出了一个统一的框架，一个单一的图像的无监督层分解，耦合的“深度图像先验”（DIP）网络的基础上。研究表明[38]，单个DIP生成器网络的结构足以捕获单个图像的低级统计数据。我们表明，耦合多个这样的DIP提供了一个强大的工具，用于将图像分解为它们的基本组成部分，用于各种各样的应用。这种能力源于这样一个事实，即混合层的内部统计比其每个单独组件的统计更复杂我们展示了这种方法在图像去雾，Fg/Bg分割，水印去除，图像和视频中的透明度分离等方面的强大功能。这些功能是以完全无监督的方式实现的，除了输入图像/视频本身之外没有训练示例11. 介绍各种计算机视觉任务的目标是将图像分解成其各个组成部分。在图像/视频片段中-1欧洲研究理事会（ERC）在地平线2020研究创新计划下资助的项目（批准号：（邮编：788535）1102611027图 2 ：双 DIP 框架。两个深度图像先验网络（ DIP1&DIP2 ）共同将输入图像 I 分解成其层（y1&y2）。根据学习到的掩模m混合这些层，重建图像I_m_I。站，任务是将图像分解成有意义的子区域，如前景和背景[1，5，17，24，31]。在透明分离中，任务是将图像分离为其叠加的反射和透射[37，32，26，14]。这种透明度可能是意外物理反射的结果，或者由于有意的透明覆盖（例如，水印）。在图像去雾中[6，23，18，30，8]，目标是将有雾/有雾图像分离为其基础无雾图像和模糊的雾/有雾层（空气光和透射图）。图1显示了如何将所有这些非常不同的任务转换为一个统一的层分解框架。所有这些分解的共同之处在于，每个单独层内的小块分布小图像块（例如，5x5，7x7）已被证明在单个自然图像中大量重复[19，41]。这种强大的内部补丁复发被用于解决各种计算机视觉任务[9，13，16，15，19、36、29、7、11]。还表明，单个图像内的补丁的经验熵远小于图像集合中的熵[41]。由[5]进一步观察到，组成片段的小图像区域的经验熵小于跨不同片段的区域的经验交叉熵，相同的图像。该观察结果已成功用于无监督图像分割[5，17]。最后，观察到[6]，模糊图像中的斑块分布往往比其底层无模糊图像中的斑块分布更多样化（内部斑块相似性较弱）[6]利用该观察结果进行盲图像去雾。在本文中，我们将内部补丁递归的力量（它在解决无监督任务方面的力量）与深度学习的力量相结合。我们提出了一个无监督的深度框架，用于将单个图像分解成其层，使得每个层内的“图像元素”的分布我们建立在Ulyanov等人的“深度成像先验”（DIP）工作之上[38]第30段。他们表明，单个DIP生成器网络的结构足以捕获单个自然图像的低级统计数据。DIP网络的输入是随机噪声，它训练重建单个图像（作为其唯一的输出训练示例）。该网络被证明是非常强大的解决逆问题，如去噪，超分辨率和修复，以一种无监督的方式。我们观察到，当采用多个DIP的组合来重建图像时，这些DIP倾向于因此，我们的无监督多任务层分解方法是基于多个（两个或更多个）DIP的组合，我们称之为“双DIP”。我们证明了这种方法的适用性，以广泛的计算机视觉任务，包括图像去雾，Fg/Bg分割的图像和视频，水印去除，并在图像和视频中的透明度分离。双DIP是通用的，并迎合了许多不同的应用。为特定任务设计的专用方法可能在其自身的挑战中优于双DIP然而，据我们所知，这是第一个能够很好地处理各种各样的图像分解任务的框架。此外，在一些任务（例如，图像去雾），Double-DIP实现了可比的，甚至比领先的方法更好的结果。2. 方法概述观察图中的示例3a. 两种不同的纹理，X和Y，混合形成一个更复杂的图像Z，表现出层的透明度。每个纯纹理内部的小块和颜色的分布比组合图像中的块和颜色的分布更简单此外，跨两个纹理的补丁的相似性非常弱。众所周知[12]，如果X和Y是两个独立的随机变量，则它们的和Z=X+Y的熵大于它们各自的熵：max{H（X），H（Y）} ≤H（Z）。我们利用这一事实将图像分离成其自然的11028图3：层与层的混合物的复杂性单个组件的简单性（见说明文本）。2.1. 单DIP与偶联DIP让我们看看使用DIP网络时会发生什么来学习纯图像和混合图像。图中的图表 3.c显示了单个DIP网络的MSE重建损失，作为时间的函数（训练迭代），对于图3中的3个图像中的每一个。3.a：（i）橙色图是训练为重建纹理图像X的DIP的损失，（ii）蓝色图-训练为重建纹理Y的DIP，以及(iii)绿色图-一个DIP训练重建他们的超叠加混合（图像透明度）。请注意，混合图像的损失更大，收敛时间更长，这与其单个分量的损失相一致。实际上，混合图像的损失大于两个单独损失之和我们将这种行为归因于这样一个事实，即混合图像中的补丁分布比其任何单独的组件都更复杂和多样（更大的熵;更小的内部虽然这些都是纯纹理，但同样的行为也适用于自然图像的混合。单个自然图像内的补丁的内部自相似性往往比不同图像之间的补丁相似性强得多[41]。我们对大量自然图像重复了上述实验：我们从BSD100数据集随机采样了100对图像[27]，并混合了每对图像。对于每个图像对，我们训练DIP来学习混合图像和每个单独图像。在图1的曲线图中展示了相同的行为。3.c在自然图像的情况下也重复了-有趣的是，混合图像与其单个组成部分的损失之间的差距甚至更大（见项目网站上的图表）。我们对不重叠的图像片段进行了类似的实验观察到[5]，组成图像片段的小区域的经验熵小于其跨同一图像中不同片段的经验交叉熵。我们从BSD100数据集中随机抽取了100对图像。对于每一对我们生成一个新的图像，其左侧是一个图像，并且其右侧是第二图像的右侧。我们训练DIP来学习混合图像和每个单独的组件。图的图形行为。3.c在本案例中也重复了（见项目网站）。我们进一步观察到，当多个DIP训练以联合重建单个输入图像时，它们倾向于在也就是说，图像内部的类似小块倾向于全部由单个DIP网络生成换句话说，每个DIP捕获图像的内部统计的不同分量我们解释这种行为的事实，一个单一的DIP网络是完全卷积的，因此其滤波器权重在整个空间范围的图像共享这促进了每个DIP的输出中的补丁的自相似性。[38]中报告的去噪实验进一步支持了单个DIP输出中补丁分布的简单性。当DIP被训练来重建噪声图像（高补丁多样性/熵）时，它被证明在过拟合噪声之前生成图像的中间干净干净的图像具有更高的内部块相似性（更小的块多样性/熵），因此对于DIP重建更简单基于这些观察，我们建议通过组合多个（两个或更多个）DIP（我们称之为“双DIP”）来将图像分解为它的层。图3.a、b示出了当训练2个DIP网络以联合恢复混合纹理透明图像（作为它们的输出），每个DIP输出其自身的相干层。2.2. 统一多任务分解架构什么是好的图像分解？有许多可能的分解图像层。然而，我们建议有意义的分解满足以下标准：（i）当重新组合时，恢复的层应当产生输入图像。(ii)每一层都应该尽可能“简单”，即它应该具有“图像元素”的强内部自相似性。（三）恢复层应独立11029尽可能地彼此（不相关）。这些标准形成了我们的通用双DIP架构的基础，如图所示。二、第一个cri-criterion是强制通过“重建损失”，这measures- sures之间的误差构造图像和输入图像（见图。2）的情况。第二个标准是通过采用多个DIP（每层一个）。第三个标准由不同DIP的输出之间的“排除损失”（最小化它们的相关性）来实施每个DIP网络（DIPi）重建输入图像I的不同层yi。每个DIPi的输入是随机采样的均匀噪声zi。DIP输出yi=DIPi（zi）使用权重掩码m混合，以形成重构图像I=m·y1+（1−m）·y2，它应该与输入图像I。在某些任务中，权重掩码m是简单且已知的，在其他情况下，它需要学习（使用额外的DIP）。学习的掩模m可以是均匀的或空间变化的、连续的或二进制的。对m的这些约束是任务相关的，并且使用任务特定的“正则化损失”来强制执行因此，优化损失为：Loss=LossReconst+α·LossExcl+β·LossReg（1）图4：前景/背景图像分割。（请在项目网站上查看更多结果）产生不同的混合物。每一层的统计数据灭失重新建立=I−I，损失不包括（Exclusion）然而，在整个视频中保持不变（尽管其动态）[34，33]。这意味着一个DIP就足够了损失）最小化梯度（1）（2）（3）（4）（5）（6）（7）（8）（9）（10）LossReg是特定于任务的掩码正则化（例如，在分割任务中，掩模M必须尽可能接近二进制图像，而在去雾任务中，T图是连续和平滑的）。我们进一步对学习的掩码m应用引导滤波[22]以获得细化的掩码。固有层模糊性：分离2个纯粹不相关纹理的叠加是相对简单的（见图3.a）。除了一个骗局之外，没有什么真正的含糊之处-恒定全局颜色模糊度c：I=（y1+c）+（y2−c）。类似地，纯非重叠纹理相对容易分割。但是，当单个图层包含多个独立的区域，如图。3.b，分离变得模糊（注意图3的恢复输出层中的切换纹理）。3.b）。不幸的是，这种模糊性存在于几乎任何自然的室内/室外图像中。为了克服这个问题，通常需要初始“提示”来引导双DIP。这些提示以非常粗略的图像显著性的形式自动提供[20]。也就是说，在前几次迭代中，鼓励DIP1在显著图像区域上训练更多，而引导DIP2在非显著图像区域上训练更多。经过几次迭代后，该指导将被放宽。当有多个图像可用时，这种模糊性通常会自行解决，而不需要任何初始提示。例如，在视频透明中，2个视频层的叠加逐帧改变，以表示单个视频层的所有帧。因此，Double-DIP可用于将视频序列分成2个动态层，并且通常可以在没有初始提示的情况下这样做。最佳化：各个DIP的架构与[ 38 ]中使用的架构相似。在基本DIP中，我们发现，增加额外的非恒定噪声扰动的输入噪声增加重建的稳定性。我们通过迭代逐渐增加噪声扰动。我们通过使用8次变换（4次旋转乘以90°，结合2次镜面反射-垂直和水平）变换输入图像I这种增强在[35]的无监督内部学习中也很有用。优化过程使用ADAM优化器[25]完成，并且在Tesla V100 GPU上每个图像需要几分钟。在视频的情况下，运行时间随着帧的数量次线性地增长，因为所有帧都用于训练相同的DIP。3. 分割Fg/Bg分割可以被视为将图像I分解为前景层y1和背景层y2，在每个像素x处通过二进制掩码m（x）组合：I（x）=m（x）y1（x）+（1−m（x））y2（x）（2）这个公式自然符合我们的框架，和y2符合自然图像先验，并且每个11030MMMM图5：使用双DIP的视频分解。‘simpler’此要求由以下人员验证：[5]它将“好的图像片段”定义图中顶行的斑马图像。1演示了Eq的分解。二、很明显，层y1和y2可以是相同的。图6：通过双DIP实现视频层分离。Double-DIP利用了单个动态视频层的所有帧共享相同补丁的事实。这有助于：(a)视频透明度分离，和（b）Fg/Bg视频分段。(See项目网站上的完整视频）。y（1），.，y（n）都由DIP1生成，y（1），.，y（n）是由DIP1和DIP2产生的y2，每个都符合11（一）2 2（个）定义[5]，因此也允许获得良好的分割掩模m。请注意，DIP1和DIP2会自动填充每个输出层中的为了鼓励学习的分割掩码m（x）是二进制的，我们使用以下正则化损失：由DIP2生成，m、...、M都是由屏蔽DIP。在每个分离的视频层中跨帧的相似性加强了单个DIP生成一致的分段序列的趋势图6.b显示了来自2个不同分段视频的示例帧（完整视频可以在项目网站中找到）。损失RegΣ−1（m）=（ |m（x）− 0。5|）（3）X我们隐式地在分段掩码中强制时间一致性，通过将时间一致性强加于虽然Double-DIP不捕获任何语义，但它连续输入到掩模DIP的随机噪声能够获得高质量的分割仅仅基于无监督分层，如图所示。4.第一章请帧：zm（i+1）（x）=zm㈠（x）+z（i+1）（x）（5）在项目网站上查看更多结果。分割的其他方法，例如语义分割（例如，[21]）可能优于Double-DIP，但这些都是在许多标记示例上进行监督和训练的。视频分割：通过利用顺序视频帧共享内部补丁统计的事实，相同的方法可以用于Fg/Bg视频分割[34，33]。视频分割被转换为2层分离，如下所示：I（ i ）（x ）=m（ i ）（x ）y（ i ）（x）+（1−m（ i ）（x））y（i）（x）<$i（4）其中z（i）是在帧i处输入到产生掩模的DIP的噪声。这些噪声从帧到帧逐渐变化Δz（i）（其是具有显著低于z（i）的方差的随机均匀噪声）。4. 透明层分离在图像反射的情况下，图像I（x）中的每个像素值是来自透射层y1（x）的像素和反射层中的对应像素的凸组合。层y2（x）。这又可以用公式表示为Eq. 二、其中i是帧编号。图5描绘了单个DIP如何被分离的视频层的所有帧共享;11031其中m（x）是反射掩模。在大多数实际情况下，可以安全地假设m（x）<$m是一个均匀掩码（其中1103211模糊性可以通过外部培训来解决，如[40]。然而，由于Double-DIP是无监督的，因此当相同层的2种不同混合物可用时，我们这就产生了耦合方程：.I（1）（x）= m（1）y（x）+（1 − m（1））y（x）十二（六）I（2）（x）=m（2）y1（x）+（1 −m（2））y2（x）由于层y1、y2由两种混合物共享，因此一个双DIP足以同时使用I（1）、I（2）生成这些层不同的系数m（1）、m（2）为：由相同DIP使用2个随机噪声z（1），z（2）生成M m见图中的一个例子。8（真正的透明图像）。图7：从单个图像中移除水印。模糊性主要通过在水印周围设置一个粗糙的边界框来解决。在网球图像（由[14]提供的强硬图像）中，“CVPR”的“V”的一部分图8：当两个不同的混合物相同的层是可用的，层的模糊性得到解决。未知常数0

下载后可阅读完整内容，剩余1页未读，立即下载