可逆神经网络的通用可逆图像转换方法

121 浏览量更新于2023-10-14 收藏 25.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19910IICNet：可逆图像转换的通用框架0Ka Leong Cheng*，Yueqi Xie*，QifengChen香港科技大学0{klchengad，yxieay}@connect.ust.hk，cqf@ust.hk0放大0合成（参考）背景前景0揭示10正常（参考）0揭示2-50嵌入嵌入0嵌入0低分辨率0嵌入0嵌入0恢复0帧1 帧2 帧3（参考）帧4 帧50（a）时空视频嵌入0嵌入0（c）嵌入双视图图像（b）单目化双目图像0(d)合成和分解 (e)将图像隐藏在图像中0高分辨率0输入0高分辨率0恢复的0恢复0恢复恢复0恢复0图1：(a)我们的IICNet可以将高分辨率序列嵌入到一个低分辨率的嵌入图像中，当需要时可以用来恢复原始内容。(b-e)我们的IICNet是第一个可以在各种可逆图像转换（RIC）任务中推广的方法。我们在(a)中展示了整个IICNet的过程，但只展示了(b-e)中的恢复过程。0摘要0可逆图像转换（RIC）旨在建立特定视觉内容（例如，短视频）和嵌入图像之间的可逆转换，以便在必要时可以从嵌入中恢复原始内容。本研究开发了可逆图像转换网络（IICNet）作为各种RIC任务的通用解决方案，因为它具有强大的容量和任务无关的设计。与以前的基于编码器-解码器的方法不同，IICNet基于可逆神经网络（INNs）维持了一个高度可逆的结构。0*共同第一作者0使用可逆神经网络（INNs）来更好地保留转换过程中的信息。我们使用关系模块和通道压缩层来改善INN的非线性，以提取跨图像关系和网络的灵活性。实验结果表明，IICNet在现有的RIC任务上优于专门设计的方法，并且可以很好地推广到各种新的任务。通过我们的通用IICNet，我们不再需要为快速出现的视觉内容手工设计任务特定的嵌入网络。我们的源代码可在以下网址找到：https://github.com/felixcheng97/IICNet。199201.引言0视觉媒体可以分为不同类型，包括实时照片[3]、双目图像或视频[14]和双视图图像或视频[1]。通常，需要特定的设备或平台来查看视觉媒体内容。例如，双目内容可能只适用于3D设备，因此我们可能需要生成相应的单目内容，以使其与普通设备兼容[14]。与简单地丢弃原始内容的做法不同，更好的选择是构建一种可逆的转换，其中嵌入与普通设备兼容，并且在必要时可以恢复原始内容。此外，单一嵌入图像可以帮助节省存储成本和传输带宽。因此，许多研究人员被激发去研究几个可逆图像转换（RIC）任务[14, 33,40]，以建立视觉内容和嵌入图像之间的可逆转换。图1显示了一些示例。RIC任务具有挑战性，因为我们通常需要在一个单一图像中隐含地嵌入更丰富的信息，这可能导致不可避免的信息损失。以前的工作[14, 33,40]通常采用基于编码器-解码器的框架，该框架学习信息瓶颈表示，但在捕捉丢失信息方面能力有限[29,34]。例如，Zhu等人[40]将视频预览嵌入到单一图像中，并使用级联编码器和解码器恢复原始内容，在此过程中，他们牺牲了嵌入图像的质量以嵌入更多信息，但由于信息损失问题，他们恢复的帧仍然不够准确。因此，RIC任务中的一个关键目标是减轻这种信息损失。另一个问题是，尽管RIC任务共享高质量嵌入和恢复图像的相同嵌入-恢复过程，但以前的方法通常具有任务特定的设计（例如，[40]中的光流），这使得它们难以推广到其他类型的视觉内容。因此，随着媒体格式的快速增长以及对RIC任务的日益增长的兴趣，开发一个用于解决所有类型RIC任务的通用框架是可取的。考虑到这些方面，我们提出了可逆图像转换网络（IICNet）作为RIC任务的通用框架。为了减轻信息损失问题，我们利用可逆神经网络（INNs）[12,13]作为严格可逆的嵌入模块。我们使用通道压缩层[35]将其集成到INNs中，以灵活地减少维度，只引入非常小的偏差到可逆架构中。此外，我们引入了一个关系模块来增强INNs[12]的有限非线性表示能力，以更好地捕捉跨图像关系，其中使用独立的跨图像卷积层，并使用残差连接来更好地保持高度可逆的结构。通过强大的嵌入能力和通用性，IICNet可以解决各种新的RIC任务，并在现有RIC任务上优于专门设计的方法。使用我们的通用IICNet，我们不再需要为快速出现的视觉内容手工设计任务特定的嵌入网络。我们的源代码可在以下网址找到：https://github.com/felixcheng97/IICNet。0IICNet的模块设计不依赖于任何任务特定的技术，使其能够处理不同类型的内容。我们还允许较低分辨率的嵌入以实现更高的压缩率。图1（a）给出了一个具体的示例以进行说明。给定一个视频帧序列，我们的IICNet可以将序列的时空信息嵌入到一个低分辨率的图像中，该图像在视觉上与下采样的中间参考帧相似。这有一些有前途的应用。首先，我们可以将一个短视频剪辑或实时照片嵌入到一张图像中。其次，我们可以将高分辨率高帧率的视频嵌入到低分辨率低帧率的视频中。通过这种方式，我们可以为不同的设备提供灵活的适应性并节省存储空间。图1（b-e）展示了其他潜在的应用，包括将双目图像单色化、嵌入双视图图像或多层图像，甚至进行一般的图像隐藏隐写术任务。本文提出了第一个用于不同RIC任务的通用框架IICNet，并通过对五个任务进行了大量实验来支持这一框架，其中包括两个新探索的任务：（1）将双视图图像嵌入到单视图图像中；（2）多层图像与单个图像之间的可逆转换。定量和定性结果都表明我们的方法在所研究的任务上优于现有方法。我们还对网络模块和损失函数进行了消融研究。更多信息和演示结果请参阅补充材料。02. 相关工作02.1. 可逆图像转换0我们的工作解决了嵌入和恢复问题，属于可逆图像转换（RIC）的范畴。Xia等人[33]首次提出将原始颜色信息编码到合成的灰度图像中，然后可以从中解码出彩色图像。最近，Zhu等人[40]尝试将一系列视频帧嵌入到一张图像中，以进行单张图像的运动扩展。Hu等人[14]进一步尝试在双目和单目视图之间建立可逆变换。尽管这些方法在各自的任务中使用不同的技术设计表现良好，但由于任务特定的设计，它们都不能推广到解决上述所有任务。此外，这些方法通常基于编码器-解码器框架，对于处理信息丢失问题的能力有限。可逆属性也在隐写术中得到了探索，其中隐藏和恢复隐藏信息可以被视为可逆任务。它旨在将信息隐藏在不同的信息载体（如图像）中。最近，一些基于学习的方法[9，25，30，31，38，39]利用编码器和解码器对不同类型的信息进行隐藏。然而，一些方法的隐藏容量有限并带有一些伪影。在本工作中，我们主要关注与图像载体相关的RIC任务。…Q. . . . . . ………………⊕⊕19930样本块序列：0（以中间帧为参考）0嵌入0恢复0输入0恢复0嵌入0可逆嵌入模块关系模块0像素重排/HAAR0可逆耦合层0可逆耦合层0可逆1 x1卷积0通道压缩0平均0复制0可逆耦合层0量化0卷积：连接：0图2：所提出网络的概述。IICNet顺序包含一个关系模块，一个可逆嵌入模块（一个可选的降采样模块加上几个耦合层），一个通道压缩层和一个量化层。02.2. 可逆神经网络0可逆神经网络（INNs）[12, 13,16]通过精心设计的网络架构和几个可逆操作来保证可逆性质。一般来说，INN架构的前向过程可以学习源域 x 到目标域y 之间的双射映射，其中前向过程 f θ ( x ) = y，逆过程 f −1 θ ( y ) =x。可计算的雅可比矩阵是INNs的另一个重要特性，可以明确计算双射映射的后验概率。基于归一化流的方法[17,22]使用INNs将复杂分布 x 映射到潜在分布z（例如，高斯分布），通常通过最小化无监督负对数似然损失进行训练。与基于归一化流的方法不同，IRN[34]通过利用额外的潜在输出变量将高分辨率图像映射到低分辨率图像，以捕捉丢失的高频信息[24]，在图像缩放任务中使用交叉熵损失。然而，在其他通用RIC任务中，信息损失或残差通常更加复杂，这对IRN的泛化能力构成了很大的挑战。最近的研究还探索了INNs在不同任务上的应用，例如条件图像超分辨率[19]、图像生成[6,32]、点云生成[21]、分割任务[32]和图像信号处理流水线[36]。03. 方法0提出的IICNet用于通用可逆图像转换（RIC）任务，旨在将一系列输入图像编码为一个可逆图像（嵌入图像），该图像可以具有相同或较低的分辨率。嵌入图像可以通过网络反向传递解码回原始输入。关键是使用可逆神经网络（INNs）来建模这种双射映射。我们通用框架的概述如图2所示。03.1. 模型公式0形式上，IICNet的输入是一系列 K 个输入图像 { i k } K k=1，其中 i k ∈ R C × H ×W，C、H和W分别是图像的通道数、高度和宽度。IICNet可以将输入图像前向编码为嵌入图像e，该图像在视觉上与参考图像 e ref ∈ R C e × H e × W e不可区分。注意，嵌入 C e、H e 和 W e 可能与 C、H 和W 不同。然后，IICNet可以反向解码量化的嵌入图像 ˆe并恢复输入图像 { ˆ i k } K k =1。注意，在实际实现中，K个输入图像沿通道维度堆叠，输入通道大小为 N =CK，表示为 x 1: N ∈ R N × H ×W。关系模块。INN具有强大的架构约束，限制了非线性表示能力[12]。因此，我们提出了一个关系模块，以添加一些非线性变换来帮助捕捉跨图像的关系。为了最小化信息损失，我们添加了残差连接以极大地保留网络的可逆性。关系模块的详细信息如图2中的橙色部分所示。K个并行的卷积头独立地将 K个图像转换为它们的特征空间。然后将 K个图像特征的串联通过 K个独立的卷积尾部加上残差连接，提取出具有关系信息的相应图像。这里使用的卷积块基于Dense Block[15]。我们可以将第 k 个图像 x (kC − C +1): kC的前向过程 f k rel 表示如下：0r (kC − C +1): kC = f k rel (x 1: N) + x (kC − C +1): kC. (1)0然后我们获得 r 1: N ∈ R N × H ×W。对于逆过程，我们应用对称关系模块。可逆降采样模块。如果我们选择激活可逆降采样模块，IICNet可以将输入图像嵌入到低分辨率的嵌入图像中。Embeddingu1:M = fdown(r1:N).(2)ul+1t= ult + h2(ulb),(3)ul+1b= ulb ⊙ exp(σc(g(ul+1t))) + h1(ul+1t).(4)ulb = (ul+1b− h1(ul+1t)) ⊙ exp(−σc(g(ul+1t))),(5)ult = ul+1th2(ulb).(6)v1:M = finn(u1:M).(7)e = fcs(v1:M) = average({ek}Kek=1).(8)19940（量化的）0复制0嵌入0初步嵌入0平均0图3：通道挤压层的示意图0复制的量化嵌入0这个模块由像素重排层（挤压操作）[13]或Haar小波变换层[27]组成，后面是一个可逆的 1 × 1卷积[16]。这个模块提供了一个可逆的操作，将输入图像的分辨率减半，将输入张量的大小从 ( N,H, W ) 变换为 (4 N, 10如果禁用下采样， f down 简单地是一个相同的函数，得到 u 1: M = r 1: N。耦合层。根据[5，12，13]的设计，我们使用两个互补的仿射耦合层来构建一个深度INN架构，每个耦合层包含几个基本的可逆构建块。考虑第l个块，相应的输入张量 u 1: M 被分成顶部部分 u l t = u l 1: ˜ m和底部部分 u l b = u l ( ˜ m +1): M ，位置为 ˜ m 。两个相应的仿射变换如下所示，其中元素级乘法 ⊙，指数函数 exp ( ∙ ) ，中心化sigmoid函数 σ c ( ∙ ) = 2 σ ( ∙ ) − 1 ：012 , 13]，我们使用两个互补的仿射耦合层来构建一个深度INN架构，每个耦合层包含几个基本的可逆构建块。考虑第l个块，相应的输入张量 u 1: M 被分成顶部部分 u l t = u l 1: ˜ m和底部部分 u l b = u l ( ˜ m +1): M ，位置为 ˜ m。两个相应的仿射变换如下所示，其中元素级乘法 ⊙，指数函数 exp ( ∙ ) ，中心化sigmoid函数 σ c ( ∙ ) = 2 σ ( ∙) − 1 ：0然后将 u l +1 t 和 u l +1 b 连接起来得到 u l +1 1: M。我们可以证明这两个变换是可逆的：0令 f inn 为我们的INN架构的前向传递，输出张量 v 1: M可以表示如下：0通道挤压层。类似于[35]，我们使用一个通道挤压层但没有注意力来减少通道维度，以获得嵌入图像 e。通道挤压层将其输入张量 v 1: M正向处理为一堆初步嵌入图像 { e k } K e k =1 ，其中 K e= M/C e 。嵌入图像 e 通过平均初步嵌入图像计算得到：0对于反向传递，通道挤压层将量化的嵌入图像 ˆe多次复制为 { ˆe k } K e k =1，并沿通道维度连接它们以匹配通道大小。注意，我们的网络是作为一个整体进行联合训练的，具有INN的内在逆函数，并且逆传递采用复制的（相同的）量化嵌入图像 { ˆe k } Ke k =1 作为输入。这隐含地引导了嵌入图像 e和所有初步嵌入图像 { e k } K e k =1之间的相似性。因此，在前向传递过程中，只引入了轻微的噪声，并且不需要对 { e k } K e k =1施加任何显式约束。图3显示了训练过程中初步嵌入图像的一些视觉补丁，其中所有初步嵌入图像彼此相似。此外，我们发现这种对初步嵌入图像的隐式引导有助于稳定整个训练过程。在实验中，我们尝试在 { e k } K e k =1 和 e之间施加显式的 L 2约束，或者通过简单的CNN对通道挤压层的信息损失进行建模。但是这样的设计会导致性能更差或训练不稳定。量化层。当使用每个通道每个像素只有8位的常见PNG格式保存嵌入图像时，不可避免地会产生量化损失。有许多提出的方法，如[7，10，26]来解决这个问题。在本文中，我们选择使用[8]中的方法，在训练过程中添加均匀噪声，在测试过程中进行整数舍入，以获得量化的嵌入图像 ˆe。量化的嵌入图像还需要被夹紧在 0 和 255之间。逆过程。为了恢复原始输入图像，我们可以加载量化的嵌入图像 ˆe ，并让它依次经过IICNet的逆传递：0ˆx1:N = (f' rel ◦ f-1 down ◦ f-1 inn ◦ f' cs)(ˆe),0其中f' rel，f-1 down，f-1 inn，f'cs是相应模块的逆传函数。然后我们可以得到恢复的图像{ˆik}Kk=1。03.2. 损失函数0如同在通道压缩层中讨论的那样，我们只需要在两端使用损失函数：嵌入图像和恢复图像。嵌入图像。我们使用L2损失来指导嵌入图像e在视觉上与参考图像eref相似。在缩小尺寸的情况下，我们使用双线性方法对参考图像进行降采样：0Lemb = ||e ref - e||22. (10)0在我们的实验中，我们发现仅使用L2损失，嵌入图像通常包含许多高频模式。因此，我们进一步对嵌入图像和参考图像进行单向傅里叶变换(FT)[11]，得到它们的频域，并添加一个频率损失Lfreq，以L2距离衡量：125.2770.560837.9080.941234.3560.936336.6980.9519324.5610.521437.0680.925233.0990.922736.3020.9490524.2460.505636.7390.919032.6080.917036.0740.9475K19950步骤0嵌入恢复0朱等人[40] 我们朱等人[40] 我们0PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM0表1：在时间视频嵌入测试集上，使用嵌入范围为9和时间步长为1进行比较。0频率损失Lfreq，以L2距离衡量：0Lfreq = ||FT(e ref) - FT(e)||22. (11)0恢复图像。恢复图像{ˆik}Kk=1应该与原始图像{ik}Kk=1匹配，因此我们有另一个基本的恢复损失Lres，以最小化恢复图像和原始图像之间的平均L1距离：0Lres = 10K0k=1 ||ik - ˆik||1. (12)0总损失。总之，我们提出的IICNet通过最小化紧凑损失Ltotal进行优化，对应的权重因子为λ1、λ2、λ3：0Ltotal = λ1Lemb + λ2Lfreq + λ3Lres. (13)04. 实验0我们首先报告在第4.1节和4.2节中进行的研究RIC任务的实验结果，然后在第4.3节和4.4节中报告两个新探索任务的结果。在第4.5节中，我们尝试使用隐写术在一张图像中隐藏几张图像。主要论文报告了多对单的RIC任务，建立了多个图像和单个图像之间的转换。我们的补充材料提供了更多单对单的RIC任务的结果，如可逆图像缩放和可逆灰度。请还查看我们的补充材料以获取详细的实验设置。04.1. 空间-时间视频嵌入0[40]提出的方法旨在将一系列视频帧嵌入到具有相同分辨率的嵌入图像中，可以转换回原始视频序列。我们提出的IICNet不仅表现更好，而且还可以将视频帧时空地嵌入到较低分辨率的嵌入图像中。数据集和处理。我们在这个任务中使用高质量的DAVIS2017视频数据集[20]。为了使我们的模型对不同运动水平的视频输入更具鲁棒性，对于训练集中的每个视频样本，我们在连续帧之间以时间步长为5进行所有可能的视频子采样，其中选择中间帧作为参考图像。0朱等人[40] 我们0图4：嵌入图像的可视化结果比较。0结果比较。表1仅报告了在测试集上使用嵌入范围N =9的比较结果，因为基准方法[40]只提供了预训练的N =9模型。我们研究了1、3、5个不同时间步级别的性能，以测试模型处理小运动和大运动的能力。统计数据显示，我们的方法在所有时间步级别上都显著优于基准方法，差距很大。我们的方法不依赖光流，随着时间步长的增加，性能下降较小。我们还提供了灰度PSNR和SSIM的比较供参考。图4和图5分别显示了嵌入图像和恢复帧的可视化结果。基准结果中存在明显的伪影，尤其是嵌入图像。相比之下，我们的嵌入和恢复图像几乎没有伪影，证明了在RIC任务中采用的INN架构的有效性。嵌入范围和分辨率。为了研究我们的方法的嵌入能力，我们在表2中使用不同的嵌入范围（5、7、9个输入图像）进行实验。同样，我们使用时间步长为5的训练视频进行子采样，并在时间步级别为1进行测试。直观上，更多的输入图像意味着更多的挑战，因为通常有更多的运动信息要嵌入到嵌入图像中。表2进一步显示了我们的方法在空间和时间上将输入视频序列嵌入到较低分辨率的嵌入图像中的实验结果。据我们所知，之前没有任何工作尝试过这样做。538.9000.952241.7290.9807738.1570.943738.7850.9660937.9080.941236.6980.951919960朱等人[40]我们的GT0帧1 帧3 帧5（参考）帧7 帧90图5：恢复帧的视觉结果比较。0范围嵌入恢复（分辨率） PSNR SSIM PSNR SSIM03（×2） 37.585 0.9584 36.914 0.9540 5（×2）36.692 0.9477 33.977 0.92050表2：在不同嵌入范围和分辨率下的空时视频嵌入测试集上的结果。0进行空时嵌入任务。我们报告了在嵌入N =3、5到分辨率降低2倍的图像上的结果，训练和测试的时间步长分别为5和1。我们可以看到，即使我们将输入帧压缩到小于原始大小的20倍，模型仍然可以生成良好的预览图像和恢复帧。04.2. 单视角化双目图像0我们还在另一个研究的单视角化双目图像任务[14]上进行了实验，该任务旨在将双目图像或视频转换为单目图像，并隐含编码立体信息。通过这种方式，单目设备可以处理立体数据，并在需要时恢复原始的立体内容。我们证明了我们的框架优于最先进的方法。与[14]一样，我们使用Flickr1024数据集[28]的官方训练和测试集进行训练。定量结果显示在表3中。我们在恢复图像方面取得了最佳性能，左视图提高了6.6dB，右视图提高了1.1dB。尽管Mono3D已经取得了良好的性能，但我们仍然可以看到一些结构性伪影，如放大的恢复补丁中的街灯和电塔。0单视角左双视角右0PSNR SSIM PSNR SSIM PSNR SSIM0Baluja [9] 26.1 0.81 - - 27.9 0.88 Xia等人 [33] 28.0 0.8928.7 0.92 30.7 0.92 胡等人 [14] 37.8 0.97 38.3 0.9937.3 0.98 我们的 37.5 0.95 44.9 0.99 38.4 0.980表3：在单视角化双目图像测试集上的结果。0如图6所示。相比之下，我们的方法可以恢复几乎无伪影的双目视图。尽管我们只在图像上训练网络，但结果显示，当我们以逐帧方式将我们的模型应用于视频时，具有很强的时间一致性。一些演示视频在补充材料中。04.3. 嵌入双视角图像0双视角相机模式是智能手机相机领域的先进技术，首次在华为P30 Pro[1]上推出。用户可以使用主摄像头在左侧捕捉正常视角的图像或视频，使用变焦镜头在右侧捕捉缩放视角（×4）的图像或视频。同样，并非所有设备都支持双视角图像。我们的方法可以作为向后兼容的解决方案，将双视角图像嵌入到一个正常视角图像中。我们使用从DIV2K数据集[4]生成的缩放视角（×2、×4、×8）和正常视角图像对我们的方法进行训练和测试，其中正常视角图像作为参考。一些设置细节在补充材料中。表4中的定量结果显示，我们的方法在嵌入双视角图像方面在PSNR和SSIM方面都取得了很好的性能。我们还在图7中展示了一些视觉结果，可以看到嵌入和恢复的图像都几乎完美。19970左双视角右0GT 胡等人 [14] 我们的0图6：恢复的双目图像的视觉比较结果。我们在旁边显示了相应的误差图。请注意，为了更好地可视化，我们将误差图放大了10倍。0模式嵌入正常缩放0×2 38.248 50.171 43.461 ×4 38.438 49.11643.662 ×8 38.356 48.854 43.5780表4：嵌入双视图图像的PSNR。0真值0我们的方法0嵌入正常视图缩放视图0图7：嵌入双视图图像的示例结果。04.4. 合成和分解0Photoshop[2]是一款流行的图像编辑软件，用户可以使用多个图层将多个图像合成为一个图像。通常，合成过程是不可逆的，因此我们无法恢复合成图像中背景的遮挡部分。然而，使用我们的方法，我们可以允许“合成图像”嵌入所有图层图像。这样，虽然我们仍然只存储和传输一个“合成图像”，但用户可以通过我们的方法获取原始图层进行进一步使用。0嵌入合成前景背景0Adobe 45.305 52.709 44.586 44.921 Real 47.35060.234 - 43.7180表5：合成和分解的PSNR。0真值0我们的方法0嵌入合成的前景背景0图8：合成和分解的示例结果。0由于目前没有公开可用的用于合成和分解的数据集，我们在两个抠图数据集上进行训练和测试：Adobe DeepMatting数据集[37]和RealMatting数据集[23]。请注意，RealMatting数据集没有前景的真值。详细设置请参见补充材料。表5显示了我们的方法在这两个数据集上的定量性能。我们还在图8中包含了一些视觉结果。我们可以看到我们的方法表现良好，并且被验证适用于合成和分解图像的任务。238.5860.940348.5990.9945337.0380.916642.8840.9852436.1840.904139.8830.9745535.6410.891337.9350.963819980方法视频嵌入单目图像二目图像在图像中隐藏图像0嵌入恢复 #参数嵌入恢复 #参数嵌入恢复 #参数0AE [33] 37.925 37.242 7.43M 35.387 38.239 4.55M 34.248 31.721 7.43M INNs [34] 34.029 38.452 6.57M 34.46538.171 4.49M 29.953 33.843 6.57M 我们的方法（无关系模块） 38.752 41.159 6.57M 36.684 39.667 4.49M 35.53336.698 6.57M 我们的方法（无频率损失） 32.914 42.353 6.81M 31.469 41.161 4.40M 28.780 37.623 6.81M我们的方法 38.900 41.729 6.81M 37.540 41.649 4.40M 35.641 37.935 6.81M0表6：三个代表性任务的消融研究。0#嵌入嵌入恢复0PSNR SSIM PSNR SSIM0表7：在图像中隐藏图像的PSNR。04.5. 在图像中隐藏图像0为了展示我们提出的模型的普适性，我们尝试使用我们的模型隐藏几个不相关的图像，这可以看作是一种隐写术。我们从Flicker2W数据集[18]中获取一般图像。我们进行了将2、3、4、5个图像嵌入到一个图像中的实验，并将数值结果列在表7中。从结果可以看出，即使将5个图像嵌入到一个图像中，我们的方法也能取得相对较好的性能，证明了我们方法的强大普适性。从图9中展示的视觉结果中，尽管图像的颜色和结构各不相同，但我们可以恢复它们而没有可见的伪影。05. 消融研究0为了消融我们的网络组件和应用的频率损失，我们在表6中报告了三个代表性任务的一些消融结果。对于AE，我们使用Xia等人提出的网络架构[33]来表示通用的编码器-解码器方法；对于INNs，我们采用Xiao等人介绍的网络设计和训练策略[34]来表示具有辅助映射的常见INN方法。我们还呈现了我们的方法没有关系模块或频率损失的结果。为了公平比较，所有模型（除非另有说明）都是使用第3节中讨论的应用频率损失进行训练的，并且我们调整了不同方法的可逆块或CNN层数以获得相似数量的参数。实验结果表明，我们的方法优于通用的编码器-解码器风格网络和常见的INNs。0GT0Ours0嵌入。Rev. 1 Rev. 2 Rev. 3 Rev. 4 Rev. 50图9：图像中隐藏图像的示例结果0具有辅助地图。直观地，我们知道嵌入质量和恢复质量之间存在权衡关系。从报告的统计数据可以得出结论，频率损失对于无伪迹嵌入的贡献很大，可以显著提高质量，同时保持可比较的恢复质量。此外，所提出的关系模块与INNs的集成效果良好，可以提取跨图像关系并提高性能。06. 结论和讨论0我们提出了一个通用的IICNet框架，用于各种可逆图像转换（RIC）任务。IICNet基于可逆神经网络（INNs）构建了一个与任务无关且高度可逆的架构，可以在转换过程中极大地减小信息损失。由于严格的可逆性，INNs在非线性表示能力和维度灵活性方面存在局限性。引入的关系模块和应用的通道压缩层可以极大地缓解这些限制，以更好地提取跨图像关系并保留INNs的信息保留能力。IICNet在一些研究的RIC任务上取得了最先进的性能，例如时空视频嵌入和单色化双目图像。我们还将我们的IICNet引入并应用于一些未开发的任务，包括双视图图像的嵌入和组合与分解。隐写术任务的成功进一步显示了我们的IICNet的泛化能力。我们希望所提出的框架的泛化能力和高性能能在更多实际应用中发挥作用。19990参考文献0[1] 华为p30和华为p30 pro的双视图相机模式现已上市.https://consumer.huawei.com/sg/press/news/2019/news-1906132/. 2, 60[2] 照片、图像和设计编辑软件。https://www.adobe.com/products/photoshop.html.70[3] 拍摄和编辑实况照片.https://support.apple.com/en-us/HT207310. 20[4] Eirikur Agustsson和Radu Timofte. Ntire2017单幅图像超分辨率挑战：数据集和研究. In IEEE Conferenceon Computer Vision and Pattern Recognition Workshops,2017. 60[5] Lynton Ardizzone, Jakob Kruse, Sebastian Wirkert, DanielRahner, Eric W. Pellegrini, Ralf S. Klessen, Lena Maier-Hein,Carsten Rother和Ullrich K¨othe. 用可逆神经网络分析逆问题.arXiv预印本arXiv:1808.04730, 2018. 40[6] Lynton Ardizzone, Carsten L¨uth, J. Kruse, C. Rother和U.K¨othe. 有条件可逆神经网络引导图像生成.arXiv预印本arXiv:1907.02392, 2019. 30[7] Johannes Ball´e, Valero Laparra和Eero P. Simoncelli.面向感知质量的非线性变换码的端到端优化. In Proceedings ofPicture Coding Symposium, pages 1–5, 2016. 40[8] Johannes Ball´e, Valero Laparra和Eero P. Simoncelli.端到端优化的图像压缩. arXiv预印本arXiv:1611.01704, 2016. 40[9] Shumeet Baluja. 隐藏图像于明处：深度隐写术. In NeuralInformation Processing Systems, 2017. 2, 60[10] Yoshua Bengio, Nicholas L´eonard和Aaron Courville.通过随机神经元估计或传播梯度以进行条件计算.arXiv预印本arXiv:1308.3432, 2013. 40[11] E. Oran Brigham和R. E. Morrow. 快速傅里叶变换. IEEESpectrum, 4(12):63–70, 1967. 40[12] Laurent Dinh, David Krueger和Yoshua Bengio. Nice:非线性独立成分估计. arXiv预印本arXiv:1410.8516, 2015. 2, 3, 40[13] Laurent Dinh, Jascha Sohl-Dickstein, and Samy Ben- gio.使用Real NVP进行密度估计. arXiv预印本arXiv:1605.08803, 2017,2, 3, 40[14] Wenbo Hu, Menghan Xia, Chi-Wing Fu, and Tien-TsinWong. 单目化双目视频. ACM Transactions on Graphics(SIGGRAPH Asia), 39(6):228:1–228:16, 2020, 2, 6, 70[15] Gao Huang, Zhuang Liu, Laurens van der Maaten, and Kil-ian Q. Weinberger. 密集连接卷积网络.在IEEE/CVF计算机视觉与模式识别会议论文集中, 2017, 30[16] Durk P. Kingma and Prafulla Dhariwal. Glow:使用可逆的1x1卷积的生成流.在神经信息处理系统进展会议论文集中, 卷31, 2018, 3, 40[17] Ivan Kobyzev, Simon J.D. Prince, and Marcus A. Brubaker.归一化流: 介绍和当前方法的综述0方法. IEEE模式分析与机器智能交易, 2020, 30[18] Jiaheng Liu, Guo Lu, Zhihao Hu, and Dong Xu.一种用于高效深度图像压缩的统一端到端框架.arXiv预印本arXiv:2002.03370, 2020, 80[19] Andreas Lugmayr, Martin Danelljan, Luc Van Gool, andRadu Timofte. Sr�ow: 使用归一化流学习超分辨率空间.在欧洲计算机视觉会议论文集中, 2020, 30[20] Jordi Pont-Tuset, Federico Perazzi, Sergi Caelles, PabloAr- bel´aez, Alex Sorkine-Hornung, and Luc Van Gool.2017年视频对象分割的DAVIS挑战. arXiv预印本arXiv:1704.00675,2018, 50[21] Albert Pumarola, Stefan Popov, FrancescMoreno-Noguer, and Vittorio Ferrari. C-�ow:条件生成流模型用于图像和3D点云.在IEEE/CVF计算机视觉与模式识别会议论文集中, 2020, 30[22] Danilo Rezende and Shakir Mohamed.使用归一化流进行变分推断. 在机器学习国际会议上的论文集中,2015, 30[23] Soumyadip Sengupta, Vivek Jayaram, Brian Curless, SteveSeitz, and Ira Kemelmacher-Shlizerman. 背景抠图:世界是你的绿幕. 在IEEE/CVF计算机视觉与模式识别会议论文集中,2020, 70[24] Claude E. Shannon. 在噪声存在的情况下的通信.在无线电工程学会会议记录中, 卷37, 1949, 30[25] Matthew Tancik, Ben Mildenhall, and Ren Ng.Stegastamp: 物理照片中的隐形超链接.arXiv预印本arXiv:1904.05343, 2020, 20[26] Lucas Theis, Wenzhe Shi, Andrew Cunningham, andFerenc Husz´ar. 使用压缩自编码器进行有损图像压缩.arXiv预印本arXiv:1703.00395, 2017, 40[27] Paul Viola and Michael Jones.使用增强的级联简单特征进行快速目标检测.在IEEE计算机学会计算机视觉与模式识别会议论文集中, 卷1, 2001,40[28] Yingqian Wang, Longguang Wang, Jungang Yang, WeiAn, and Yulan Guo. Flickr1024:用于立体图像超分辨率的大规模数据集.在国际计算机视觉会议研讨会上, 2019, 60[29] Yaolong Wang, Mingqing Xiao, Chang Liu, Shuxin Zheng,and Tie-Yan Liu. 在有损图像压缩中建模丢失的信息.arXiv预印本arXiv:2006.11999, 2020, 20[30] Zihan Wang, Neng Gao, Xin Wang, Ji Xiang, Daren Zha,and Linghui Li. Hidinggan:使用生成对抗网络进行高容量信息隐藏.计算机图形学论坛, 2019, 20[31] Eric Wengrowski and Kristin Dana.

下载后可阅读完整内容，剩余1页未读，立即下载