具有交叉注意力特征对齐的图像压缩

132 浏览量更新于2023-10-16 收藏 14.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Nitish Mital1,∗, Ezgi ¨Ozyılkan1,†, Ali Garjani1,‡, and Deniz G¨und¨uz∗24980具有交叉注意力特征对齐的神经分布式图像压缩0� 伦敦帝国理工学院电气与电子工程系，† 纽约大学电气与计算机工程系，‡EPFL数学部，{ n.mital, d.gunduz } @imperial.ac.uk, eo2135@nyu.edu,ali.garjani@epfl.ch0摘要0我们考虑在解码器端仅有相关信息可用的情况下压缩信息源的问题，这是信息论中分布式源编码问题的一个特殊情况。特别地，我们考虑一对具有重叠视场的立体图像，由同步和校准的一对摄像机捕获为相关图像源。在先前提出的方法中，编码器使用深度神经网络将输入图像转换为潜在表示，并使用熵编码无损地压缩量化的潜在表示。解码器解码熵编码的量化潜在表示，并使用该表示和可用的辅助信息重建输入图像。在所提出的方法中，解码器采用交叉注意力模块来对齐从接收到的输入图像的潜在表示和辅助信息的特征图。我们认为对齐特征图中的相关补丁可以更好地利用辅助信息。我们通过实验证明了所提算法在KITTI和Cityscape立体图像对数据集上的竞争性。我们的实验结果表明，与先前的方法相比，所提出的架构能够更有效地利用仅解码器的辅助信息。01. 引言0图像压缩是图像处理中的一项基本任务，旨在在减少存储或传输所需的比特率的同时保留视觉图像内容。压缩可以是无损的，即当多个01 对本文的贡献相同。0信息源的样本被联合压缩，以便可以以错误概率消失的方式重建源，或者是有损的，即在重建中允许非零的失真以实现更高的压缩率。香农证明了源的熵是无损压缩的比特率的基本限制。在有损情况下，连续值数据（如图像像素强度的向量）必须首先量化为有限的离散值集，这必然引入了一定程度的误差。因此，对于有损压缩，必须在两个竞争成本之间进行权衡：离散化潜在表示的熵（比特率）和由量化步骤引起的误差（失真）。传统的图像压缩方案，如JPEG2000[30]和BPG[6]，通常由将图像分割成小的预定块，通过离散小波变换（DWT）等线性变换进行处理，以去相关像素值，并获得图像的潜在表示，然后通过块内预测（运动搜索）和残差编码来利用图像内容的重复性和自相似性，从而降低其表示的熵。然后，对潜在表示进行量化，并使用熵编码器以最高效的方式存储/发送结果的量化表示。另一方面，最近提出的基于机器学习的压缩算法[3,5,16,23,26,32,33]，采用深度神经网络（DNNs），通过使用参数化为DNN的非线性变换来去相关图像值，以获得潜在表示，然后使用学习的概率分布对其进行量化和熵编码。在这项工作中，我们对DNN辅助的分布式立体图像压缩感兴趣，其中立体图像对（x，y）的一侧信息仅作为辅助信息提供。ˆx(Reconstruction ofimage 1)24990x（图像1）编码器解码器0y（图像2）0比特流0辅助信息0图1：系统模型0解码器端（见图1）。例如，当存在多个分布式无人机、自动驾驶车辆或仅有多个静态相机捕捉具有重叠视野的图像时，就会出现这种情况。请注意，由于视野重叠，这些捕捉到的图像高度相关。假设其中一个相机将其图像（以无损方式）传输到目标地点，例如中央存储或处理单元。另一个相机，而不是使用标准的单图像压缩算法，应该能够从第一个相机获得的高度相关图像的存在中受益，即使在编码器端没有直接访问这个辅助信息图像。这是分布式源编码（DSC）问题的一个特例，其中两个分布式编码器将其源传输给解码器，其特征是可实现的速率对（��,��），其中��和��分别表示重构源x和y的失真。我们在这里考情况是可实现速率区域的一个角点，对应于�� =0（无损压缩），意味着�� =�(y)。解码器端辅助信息在压缩中的好处首先由Slepian和Wolf在[31]中对无损压缩情况进行了描述，并由Wyner和Ziv在[39]中对有损压缩情况进行了描述。01.1. 相关工作01.1.1 单图像压缩0近年来，对于图像压缩，DNN模型引起了广泛的兴趣，尤其是在[3,5,16,23,26,32,33]中提出的模型。[3]中提出了一个基于自编码器的模型，其先验为参数化分布，并通过固定目标比特率的失真率进行训练。[5]提出了一个扩展模型，引入了超先验来捕捉潜在表示元素之间的空间依赖关系，通过估计它们的标准差，从而使熵编码器更好地压缩潜在表示。[16]引入了上下文自适应熵模型，而[23]使用自回归网络作为非因子化条件熵模型。[16,23]都将[5]中的超先验推广到估计潜在表示的高斯先验的均值和方差。还有许多其他的0最近提出了一些新的方法和架构，如显著性驱动压缩[26]，密集块和内容加权[18]，非局部注意力[7, 8,15]和生成对抗网络（GANs）[1, 20]。01.1.2 注意力0视觉应用中的自注意力首次在[12]中引入，其中图像被切分成一系列扁平化的块，并对这些块序列应用注意力。在[27]中，注意力机制被限制在局部邻域中，以完全替代卷积层。特别地，对于矫正的立体图像，引入了立体注意力模块（SAM）[40]用于立体图像超分辨率，其中左（或右）图像中某个位置的注意力仅限于另一幅图像中的对应极线。01.1.3 集中立体压缩0在DSIC模型[19]和HESIC模型[10]中首次考虑了集中立体图像压缩，其中编码器同时拥有左右两幅图像并对其进行联合压缩。在DSIC中，通过估计两幅图像之间的视差来得到密集的视差场，并将左图的特征通过编码器和解码器传递给右图。在HESIC中，通过估计一个齐次变换对右图进行变换，并仅对其相对于第一幅图像的残差进行编码。后续的工作包括SASIC模型[38]，以及双向上下文变换模块（Bi-CTM）和双向条件熵模型（Bi-CEM）[17]。SASIC方法计算每个通道的潜在表示的最佳水平偏移以匹配第二幅图像，然后仅对偏移通道相对于第二幅图像的相应通道的残差进行编码。SASIC还使用立体注意力模块[40]连接了两幅图像的编码器-解码器流水线。在[17]中，主要思想是通过引入“视图间上下文依赖”机制来避免对两幅立体图像进行顺序编码的限制。01.1.4 分布式立体压缩0在当前文献中，明确处理分布式（立体）图像压缩的基于DNN的方法有：（1）[11]中的DRASIC模型，（2）[2]中的DSIN模型，（3）[24]中的NDIC模型，以及（4）[36]中基于矢量量化变分自编码器的方法。在[2]中，作者利用具有显著重叠视场的成对立体图像之间的高空间相关性。通过找到中间重建图像和辅助信息图像之间的对应补丁，并计算它们的相关性，然后使用这些补丁来改进解码器中的重建图像。找到对应补丁的过程是不可微分的，因为它使用了argmax(∙)函数，这可能阻止网络以最佳方式学习图像之间的相互依赖关系。[24]中的论文采用了一种不同的方法，通过明确建模两个立体图像之间的相关性。更具体地说，[24]将这两个图像建模为由一组共同特征和两组独立特征生成的图像，这两组特征分别捕捉了与共同特征集不相关的各自图像中的信息。为了最小化传输的冗余信息，编码器仅发送与输入图像对应的独立信息，而输入图像和辅助信息之间的共同特征集仅从后者本地恢复。[36]中使用的是矢量量化变分自编码器（VQ-VAE），与大多数现有的基于DNN的图像压缩方案使用均匀量化不同，该模型学习量化码本，即采用非均匀量化。[11]中，作者提出了一种分布式相关源压缩的框架，随后进行联合解码，通过在多次重复迭代中处理残差内容的递归自编码器架构，以实现更好的重建性能。25000在当前文献中，明确处理分布式（立体）图像压缩的基于DNN的方法有：（1）[11]中的DRASIC模型，（2）[2]中的DSIN模型，（3）[24]中的NDIC模型，以及（4）[36]中基于矢量量化变分自编码器的方法。在[2]中，作者利用具有显著重叠视场的成对立体图像之间的高空间相关性。通过找到中间重建图像和辅助信息图像之间的对应补丁，并计算它们的相关性，然后使用这些补丁来改进解码器中的重建图像。找到对应补丁的过程是不可微分的，因为它使用了argmax(∙)函数，这可能阻止网络以最佳方式学习图像之间的相互依赖关系。[24]中的论文采用了一种不同的方法，通过明确建模两个立体图像之间的相关性。更具体地说，[24]将这两个图像建模为由一组共同特征和两组独立特征生成的图像，这两组特征分别捕捉了与共同特征集不相关的各自图像中的信息。为了最小化传输的冗余信息，编码器仅发送与输入图像对应的独立信息，而输入图像和辅助信息之间的共同特征集仅从后者本地恢复。[36]中使用的是矢量量化变分自编码器（VQ-VAE），与大多数现有的基于DNN的图像压缩方案使用均匀量化不同，该模型学习量化码本，即采用非均匀量化。[11]中，作者提出了一种分布式相关源压缩的框架，随后进行联合解码，通过在多次重复迭代中处理残差内容的递归自编码器架构，以实现更好的重建性能。02. 提出的方法02.1. 主要贡献0在本文中，我们使用NDIC模型[24]作为“骨干”，该模型本身是建立在[3]模型的基础上的。原则上，任何其他单一图像压缩算法也可以用作NDIC的骨干，因此也可以用于我们的模型。此外，我们通过在输入图像和辅助信息的解码器的不同阶段的中间潜在表示之间引入一些基于transformer的块，特别是交叉注意力模块（CAMs），来增强这个骨干，其目的是对齐相应的补丁。这类似于[2]中提出的“patch-matching”思想，但我们的方法提供了一种可微分的替代方案，而不是[2]中使用的基于搜索的算法。与也用于SASIC[38]的SAM方法[40]不同，我们引入的CAM技术在所有通道上计算潜在表示的补丁之间的全局注意力，类似于[12,34]。我们展示了我们的方法优于[24]中提供的解决方案。我们还展示了我们的方法在非同步和未校准的立体相机情况下表现良好，即在相关图像在不同时间步生成的情况下。02.2. 架构0在本节中，我们描述了我们在压缩方案中使用的自编码器架构。按照[24]中提出的方法，我们将图像x和y建模为由随机变量w、v�和v�生成。变量w旨在捕捉两个图像之间的共同特征，而变量v�和v�被称为各自图像x和y的私有信息变量，用于捕捉x和y的私有方面，这些方面不被共同变量w捕捉。解码器不仅从w和v�重建所需的图像，还从w和v�重建辅助信息图像，以确保仅从y中提取的共同特征w与两个图像相关。这里的共同信息w是根据Witsenhausen、Gacs和Korner [13,37]的定义，它对应于两个信息源的确定性函数w = �(y)（= �′(x)），即x和y的两个独立观察者能够以概率1一致地确定w的值。有关使用CAM的分布式压缩算法的示意图，请参见图2。编码器通过应用由权重��参数化的变换g��，将图像x映射到潜在表示v�。然后，将潜在表示v�量化为Z�中的ˆv�，其中其元素四舍五入为最接近的整数值。由于量化步骤是一个不可微分的操作，阻止了端到端训练，因此在训练过程中，它被替换为在[−0.5,0.5]范围内的加性均匀随机噪声（参见[3]中的类似推理）。因此，在训练过程中，通过均匀噪声扰动v�以获得近似量化的潜在表示˜v�。与[24]类似，解码器通过将非线性变换f应用于图像y来提取w = f(y;��)，其中��是相应DNN的权重。在训练过程中，变换f学习从SI中提取估计立体图像之间的共同信息的特征。在解码器中，w与接收到的潜在变量ˆv�连接，并作为输入提供给主图像的解码器网络的第一层，即由权重�(1)�参数化的g(1)��。同时，辅助信息图像的解码器使用变换g��将相关图像y映射到潜在表示v�，该变换由权重��参数化。然后，将共同变量w与v�连接，然后将其输入到解码器网络g��的第一层，即由权重�(1)�参数化的g(1)��。为了克服卷积层的局部特征交互限制，允许两个图像之间仅进行局部特征交互，我们在两个图像的解码器流水线之间引入了CAM，用于捕捉解码器架构中的中间潜在表示之间的全局相关性。然后从两个图像的解码器架构中的中间潜在表示中输出QBitstreamAEAD GDNCONV 192x5x5/s2 CONV 192x5x5/s2 GDNGDNCONV 192x5x5/s2 CONV 192x5x5/s2 IGDNCONV 192x5x5/s2 IGDNCONV 192x5x5/s2 IGDNCONV 192x5x5/s2 IGDNCONV 192x5x5/s2 IGDNCONV 192x5x5/s2 IGDNCONV 192x5x5/s2 CONV 3x5x5/s2 CONV 3x5x5/s2 ,(2)25010CAM0CAM0CAM0图2：提出的模型架构0g ( 1 ) ��和g ( 1 )��作为输入传递给CAM（在第2.3节中详细描述），CAM将g( 1 ) ��的输出特征图（表示为v ( 1 ) �）与g ( 1 )��的输出特征图（表示为ˆ v ( 1 )�）进行变形和对齐。然后，CAM的输出，即v ( 1 ) � ��，与ˆ v( 1 ) �连接，并输入到第二层g ( 2 )��。如图2所示，这个过程在接下来的两个连续层中重复进行。通常，解码器网络的� ��层的输出ˆ v ( � ) �和v ( � )�被输入到CAM中，其输出v ( � ) � ��与ˆ v ( � )�连接，以便输入到g ��的( � + 1 ) ��层。重构的输入图像ˆx和重构的辅助信息图像ˆ y分别作为解码器块g ��和g��的输出获得。请注意，潜在表示v�既不被量化也不受均匀噪声干扰，不同于v�。这是因为图像y的编码和解码发生在解码器一侧，而不是通过信道传输。在训练过程中，我们最小化以下损失函数0� = � � + �� + � ( � � + �� ) + �� ，(1)0其中� �，� �和� �是v �，v �和w的熵估计，� �和��是输入图像和辅助信息重构的失真项。特别地，��表示输入图像x的传输速率。与之前的工作[3,24]类似，变量w，v �和v�的概率分布使用单变量非参数化、完全因子化的密度函数建模，用于计算相关的熵项。在公式（1）中，超参数�控制解码器提取共同信息的复杂度的重要性，�确定侧信息重构损失的重要性。由于我们的主要目标仅是重构x，我们认为� � + ��和� �作为主要目标的正则化项，即速率失真比0主图像x的性能02.3.交叉注意力模块（CAM）0CAM以张量v ( � ) � , v ( � ) � ∈ R � × � ×�作为输入，其中�是通道数，�是高度，�是宽度。输入张量被平铺成� = ��0� � � � � � 3D尺寸为� � × � � × � �的补丁，其中� �是通道数，� �是高度，��是每个补丁的宽度。使用线性层，将补丁集合转换为补丁嵌入集合，表示为P � = � p 1 � , . . . , p � � � ∈ R � 1 × � 和 P � = � p1 � , . . . , p � � � ∈ R � 1 × �，其中� 1是每个补丁嵌入的长度。我们定义三个可学习的权重矩阵，即查询（W � � ∈ R � 1 × � 2），键（W � � ∈ R � 1 × �2）和值（W � � ∈ R � 1 × � 2），其中� 2是每个补丁嵌入对应的查询、键和值的长度。将补丁嵌入投影到这些权重矩阵上，得到Q � = ( P � ) � W � �，K � = ( P � ) � W ��和V � = ( P � ) � W � �。最后，CAM的输出计算为0v ( � ) � �� = 解包嵌入0空0Softmax0空格 Q � K� √ � 20V �0空格0其中“解包嵌入”操作将嵌入操作在补丁上进行了反向操作。有关CAM架构的总体摘要，请参见图3。在代码中，我们采用了多头注意力机制，即并行计算多个注意力权重，类似于[34]。03. 实验03.1. 实验设置0为了评估我们提出的方法与现有的DSC模型以及点对点神经压缩的速率失真性能2https://github.com/ipc-lab/NDIC,https://github.com/ayziksha/DSIN.3We did not conduct experiments with [36] since the source code ofthe revised version of this work is not publicly available. Furthermore,the authors mention that the exact number of channels they employ withintheir autoencoder network varies for different rate-distortion points, whichis not provided in [36].25020Patch0嵌入0Patch0嵌入0Matmul0Softmax Matmul0Unpack0嵌入0图3：交叉注意力模块架构。Matmul操作指的是矩阵乘法（参见公式（2））。0基于[3,5]的基线，我们使用PyTorch框架[25]进行了一系列实验。我们的代码公开可用[1]。请参见图2中的提议的DNN架构。非线性变换gAA和gAA的结构与[3]中提出的相同。更具体地说，这些变换由卷积层组成，后面跟随线性（即修正线性单元）或非线性函数（即广义除法归一化[GDN]和逆广义除法归一化[IGDN]）。在[3]中，已经证明GDN和IGDN在神经图像压缩的密度建模方面特别适用。此外，我们引入了f变换，如[24]中所提出的，以及如2.3节所述的CAMs。对于实验的第一部分，我们从KITTI 2012 [14]和KITTI 2015[21,22]构建了我们的数据集，以模拟校准和同步以及未校准和未同步的相机阵列使用情况。对于校准和同步的相机阵列使用情况，我们从KITTI立体数据集中构建了我们的数据集（即由不同相机同时拍摄的一对图像），包含了1578对由一对立体相机拍摄的唯一立体图像对。我们将这个数据集称为KITTIStereo。通过交换图像对中的图像，从而获得总共1578×2=3156对图像，我们在增强的数据集上对每个模型进行了1576对图像的训练，并在两个不同的集合上对每个模型进行了790对图像的验证和测试。对于实验的第二部分，我们使用了Cityscape数据集[9]，包含5000对立体图像，其中2975对图像用于训练，500对图像用于验证，01我们的代码可在https://github.com/ipc-lab/NDIC-CAM获得。0验证集和测试集分别使用了1525对图像对。与KITTI立体视觉相似，该数据集旨在展示经过校准和同步的相机阵列的使用情况。在实验的第三部分中，我们模拟了未校准和未同步的相机阵列的一般情况。我们从每个789个场景中顺序获取了21对立体图像，构建了这个数据集。我们将这个数据集命名为KITTIGeneral。我们从图像对中构建了这个数据集，其中一张图像来自左相机，第二张图像来自右相机，但是现在，这些图像是在不同的时间步骤（不同步）中拍摄的，在我们的情况下，相隔1到3个时间步骤。此外，这些图像的拍摄距离相差约9米（未校准），这导致两个图像之间的对象在尺度和位置上有所不同，甚至有时在其中一张图像中根本不出现。对于这个数据集，我们分别使用了174936、912和3607对图像进行了模型的训练、验证和测试。我们使用多尺度结构相似性指数测量（MS-SSIM）评估了模型的图像质量性能，这被广泛认为是对图像质量的人类感知的更真实的度量标准，与均方误差失真相比。请参考补充材料以查看所有数据集的样本图像对。03.2. 训练0对于KITTI立体和KITTIGeneral数据集，我们将每个375×1242的图像中心裁剪为370×740的图像，然后将其降采样为128×256。对于Cityscape数据集，我们直接将图像降采样为128×256。我们使用不同的�值训练基准模型和提出的方法，以获得速率失真曲线上的不同点，使用MS-SSIM指标作为重建损失。我们使用随机初始化的网络权重对所有模型进行500K次迭代训练。我们使用AMS-Grad优化器[28]进行训练，学习率为1×10-4，当损失函数降至1×10-7时，将学习率降低10倍。与[24]类似，考虑到所考虑数据集的相对较小尺寸，我们选择批量大小为1。为了比较，我们还使用[24]和[2]中提出的模型进行训练，分别称为NDIC和DSIN，使用提供的代码23。对于NDIC，我们使用了“Ball´e2017”骨干网络，并保持模型超参数不变。对于KITTI立体数据集，我们0.050.100.250.300.900.910.920.930.940.950.960.970.98MS-SSIMATN (= 0,= 0)ATN (= 1,= 103)NDIC [23] (= 1,= 103)NDIC [23] (= 1,= 1)DSIN [2]Ballé2018Ballé2017BPG0.050.10200.250.300.950.960.970.980.99MS-SSIMATN (= 1,= 103)ATN (= 0,= 0)NDIC [23] (= 1,= 1)DSIN [2]Ballé2018Ballé2017BPG(b) Cityscape0.075 0.100 0.12500 0.225 0.2500.930.940.950.960.97MS-SSIMATN [= 0,= 0]NDIC [23] (= 1,= 1)25030每像素比特数 [bpp]0(a) KITTI立体0每像素比特数 [bpp]0图4：根据MS-SSIM指标比较不同模型。“Ball´e2017”和“Ball´e2018”模型分别指的是[3]和[5]。“ATN”指的是我们提出的方法。0使用参数 ( � = 1, � = 10-3 ) 进行损失函数和参数 ( � = 1, � = 1) 进行其余实验设置。这是因为在消融研究中，参数 ( � = 1, �= 10-3 )被证明是在KITTI立体数据集上表现最佳的，但我们观察到这组参数在训练过程中引起了进一步的不稳定性。我们怀疑这是因为减少了控制提取共同信息复杂性的正则化项的权重（参见公式（1））。03.3. 实验结果0在本节中，我们评估了所提出的模型（我们称之为“ATN”）的性能，并将其与NDIC模型[24]和DSIN模型[2]进行比较（参见图4）。除了DSIN和NDIC模型（在第1.1.4节中讨论），我们还评估了BPG以及[3]和[5]中引入的基于DNN辅助的压缩方案，分别称为“Ball´e2017”和“Ball´e2018”。根据[29]，我们选择了4:4:4色度格式的BPG。重要的是要注意，点对点方案（如BPG）和数据驱动方案（如[3,5]）在解码器端不利用辅助信息。从图4中可以看出，与NDIC模型相比，我们提出的模型在KITTI立体和Cityscape数据集上的性能有显著改善。注意，在一般情况下，ATN在KITTI立体数据集上的超参数 ( � = 0, � = 0 ) 的性能优于 ( � = 1, � = 10-3)，在Cityscape数据集上与 ( � = 1, � = 10-3 )的性能相当。我们认为为了使CAMs进行特征对齐，CAM的输入 ˆ v ( � ) � 和 v ( � ) �必须具有相关性。注意，这种相关性由变量 w 提供。通过对 w应用更明显的正则化，减少了提取的共同信息 w 的数量，使得 ˆ v ( � ) � 和 v ( � ) �的相关性降低，从而降低了CAMs的效率。我们还注意到，与[2]中的辅助信息（SI）查找块采用的“基于搜索”的补丁匹配算法相比，所提出的解决方案在两个图像中对应补丁的可微对齐方面显著改善了性能。我们还在图5中报告了在KITTIGeneral数据集上的结果。在KITTIGeneral上，分布式压缩模型的增益明显较小，因为该数据集中来自不同时间步的图像之间的相关性较小。即使在这种更一般的设置中，图像仅在空间或时间上松散地共位，我们的方法在低比特率范围内的性能也优于NDIC。0每像素比特数 [bpp]0图5：KITTIGeneral数据集上提出的方法与NDIC在MS-SSIM指标上的比较。0总的来说，超参数 ( � = 0, � = 0 )的ATN在KITTI立体数据集上的性能优于 ( � = 1, � = 10-3)，在Cityscape数据集上与 ( � = 1, � = 10-3 )的性能相当。我们认为为了使CAMs进行特征对齐，CAM的输入 ˆ v ( � ) � 和 v ( � ) �必须具有相关性。注意，这种相关性由变量 w提供。通过对 w应用更明显的正则化，减少了提取的共同信息 w的数量，使得 ˆ v ( � ) � 和 v ( � ) �的相关性降低，从而降低了CAMs的效率。我们还注意到，与DSIN相比，所提出的解决方案在两个数据集上的实验中显著提高了性能，这表明所提出的在两个图像中对应补丁的可微对齐方式优于[2]中的“基于搜索”的补丁匹配算法。我们还在图5中报告了在KITTIGeneral数据集上的结果。在KITTIGeneral上，分布式压缩模型的增益明显较小，因为该数据集中来自不同时间步的图像之间的相关性较小。即使在这种更一般的设置中，图像仅在空间或时间上松散地共位，我们的方法在低比特率范围内的性能也优于NDIC。0我们还在图6和7中提供了NDIC和我们模型的重建的可视比较。观察到我们的方法比NDIC更好地捕捉细节，并且得分更低的比特率。我们的模型特别成功地捕捉了纹理和颜色细节，这要归功于CAM组件以优越的方式利用边缘信息图像，通过对中间潜在特征中的相应补丁进行对齐和变形。我们知道，离摄像机更近的物体在两个立体图像之间经历了更大的位移，我们可以观察到使用CAM进行的补丁对齐所带来的视觉质量改善在离立体摄像机更近的物体和特征中最为明显。25040原始图像 NDIC ATN (我们的)0(a) Cityscape0(b) bpp = 0.14440(c) bpp = 0.13110(d) KITTI立体0(e) bpp = 0.10650(f) bpp = 0.08470(g) KITTI通用0(h) bpp = 0.11340(i) bpp = 0.10710图6：用于MS-SSIM度量的不同模型的可视比较。“NDIC”指的是[24]中提出的模型。0原始图像 NDIC ATN (我们的)0(a) Cityscape0(b) bpp = 0.15630(c) bpp = 0.14400(d) KITTI立体0(e) bpp = 0.09120(f) bpp = 0.07250(g) KITTI通用0(h) bpp = 0.09230(i) bpp = 0.07080图7：用于MS-SSIM度量的不同模型的可视比较的附加示例。03.3.1 特征对齐0在图8中，展示了解码器第二层 g �� 的潜在特征表示 ˆ v ( 2 ) �中的一个样本通道，以及CAM输出的相应通道。观察到原始左右图像左下角的道路边缘位于不同位置，但是在将CAM应用于 ˆ v ( 2 ) � 和 v ( 2 ) � 后，CAM输出 v ( 2 ) � �� 中与 ˆ v () �中的道路边缘对应的特征与之对齐。这表明CAM层学习如何将SI的潜在表示中的特征与输入图像的潜在表示中的特征对齐，从而更有效地利用SI中可用的特征。0(a) 原始左图0(b) 原始右图0(c) 通道 ˆ v ( 2 ) �0(d) 通道 v ( 2 ) � ��0图8：特征图的对齐。0NDIC ATN (我们的)0(a) bpp = 0.09110(b) bpp = 0.07290图9：在KITTI立体数据集中实现相似重建质量的情况下，NDIC和我们提出的方法的公共信息（2��行）和私有信息（3��行）的分解。03.3.2 私有和公共信息的可视化0在图9中，我们提供了NDIC和我们模型获得的私有和公共信息组件的可视化。我们通过将解码器的输出替换为一个固定的 0.5数组来生成私有信息可视化，以阻止解码器从SI中提取任何相关信息。我们还通过将输入图像替换为一个固定的 0.5数组来生成公共信息可视化，以阻止来自输入图像的所有信息。与[24]一致，我们观察到公共信息主要捕捉全局的颜色和纹理细节，而私有信息捕捉结构内容（例如，物体和边缘）。观察到在相似的重建质量下，我们的方法产生了更丰富和更明确的公共信息，并且具有更低的比特率。0.0250.0500.07500.1750.2000.2250.910.920.930.940.950.960.9725050每像素比特数 [bpp]0MS-SSIM0ATN w/ 3 CAM ( = 0, = 0)0ATN w/ 2 CAM ( = 0, = 0)0ATN w/ 1 CAM ( = 0, = 0)0NDIC [23] ( = 1, = 10 3 )0NDIC [23] ( = 1, = 1)0图10：在KITTI立体数据集上使用MS-SSIM度量对所提出架构的“CAM”层数量进行消融研究实验。0与NDIC相比，我们的模型能够捕捉到更精细的细节。这解释了为什么我们的模型能够捕捉到比NDIC更细的细节，同时得分更低的比特率，这取决于编码器发送的私有信息的保真度。通过从解码器端的辅助信息图像中提取更多的公共信息，所提出的方法在实现类似重建质量的情况下对来自编码器的传输信息的依赖较小。03.3.3 消融研究0解码器的每个层的输出捕捉到不同尺度的特征，其中初始层捕捉到大尺度特征，后面的层捕捉到小尺度特征。因此，应用于初始层输出的CAM组件进行大尺度对齐，而应用于后面层的CAM组件进行小尺度特征对齐。为了研究我们方法中每个CAM组件的影响（参见图2的基线架构），我们对CAM组件的数量进行了消融研究，并在图10中比较了性能。我们从最后一个卷积层开始删除CAM层，向第一层移动。从图中可以看出，删除1个CAM层不会对性能产生显著影响。然而，删除第二个CAM层会导致性能显著降低。请参见图11，对比具有1个CAM和3个CAM组件的模型之间的性能差异。03.3.4 缺点0我们讨论了这项工作的一些缺点和限制。与大多数基于深度学习的图像压缩方法一样，我们的方法是依赖于数据集的，即它在训练的数据分布上表现良好，但不能保证在来自另一个分布的图像上有良好的性能。另一个限制是所提出的模型的参数数量几乎是[24]的两倍，因此推理时间比其他方法更慢。0原始图像 ATN w/ 1 CAM ATN w/ 3 CAM0(a) bpp = 0.13690(b) bpp = 0.12750(c) bpp = 0.12650(d) bpp = 0.11570(e) bpp = 0.14510(f) bpp = 0.13560图11：仅具有1个CAM和3个CAM组件的模型获得的重建图像。拥有更多的CAM层可以帮助模型保留更精细的细节，同时得分更低的比特率。0有关模型参数数量和推理时间的讨论，请参阅补充材料。04. 结论0我们提出了一种新的分布式立体图像压缩方法，该方法利用交叉注意力机制来对解码阶段中间层的特征图进行对齐。与[24]中提供的解决方案相比，该方法在利用解码器仅有的辅助信息图像和待重建图像之间的相关性方面取得了卓越的性能。我们已经证明了该方法在非常低的比特率下实现了良好的重建质量，明显优于单图像压缩模型，并超过了具有辅助信息的分布式图像压缩的先前工作。即使对于具有非校准和非同步图像的更一般的相机阵列使用情况，我们已经证明了所提出的方法在性能上与[24]中的方法相当或更优。消融研究表明，随着解码流水线中使用的CAM组件数量的增加，边际效益逐渐减小，这提供了解码复杂度和性能之间的权衡。05. 致谢0本研究得到了欧洲研究理事会（ERC）通过起始资助项目BEACON（编号677854）和英国EPSRC（项目CONNECT，资助号EP/T023600/1和项目SONATA，资助号EP/W035960/1）的资助.25060参考文献0[1] E. Agustsson, M. Tschannen, F. Mentzer, R. Timofte, andL. V. Gool. 用于极端学习图像压缩的生成对抗网络.在IEEE国际计算机视觉会议上, 第221-231页, 2019年.0[2] S. Ayzik and S. Avidan. 使用解码器侧信息的深度图像压缩.在欧洲计算机视觉会议ECCV上, 2020年.0[3] J. Ball´e, V. Laparra, and E. P. Simoncelli.端到端优化的图像压缩. 在国际学习表征会议ICLR上, 2017年.0[4] J. Ball´e, V. Laparra, and E. P. Simoncelli.使用广义归一化变换对图像进行密度建模.在国际学习表征会议ICLR上, 2016年.0[5] J. Ball´e, D. Minnen, S. Singh, S. J. Hwang, and N.Johnston. 具有尺度超先验的变分图像压缩.在国际学习表征会议ICLR上, 2018年.0[6] F. Bellard. BPG图像格式. https://bellard. org/bpg/ ,2014年.0[7] T. Chen, H. Liu, Zhan Ma, Q. Shen, X. Cao, and Y. Wang.通过非局部注意力优化和改进的上下文建模进行端到端学习图像压缩. IEEE图像处理交易, 30:3179–3191, 2021年.0[8] Z. Cheng, H. Sun, M. Takeuchi, and J. Katto.使用离散高斯混合似然和注意模块的学习图像压缩.在计算机视觉和模式识别（CVPR）IEEE/CVF会议论文集中,第7936-7945页, 2020年.0[9] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler,R. Benenson, U. Franke, S. Roth, and B. Schiele.用于语义城市场景理解的Cityscapes数据集.在计算机视觉和模式识别（CVPR）IEEE会议论文集中, 2016年.0[10] X. Deng, W. Yang, R. Yang, M. Xu, E. Liu, Q. Feng, and R.Timofte. 用于高效立体图像压缩的深度单应性.在计算机视觉和模式识别（CVPR）IEEE/CVF会议论文集中,第1492-1501页, 2021年.0[11] E. Diao, J. Ding, and V. Tarokh. Drasic:分布式循环自编码器用于可扩展图像压缩. 在数据压缩会议DCC上,2020年.0[12] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X.Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S.Gelly, J. Uszkoreit, and N. Houlsby.一张图片价值16x16个单词：大规模图像识别的Transformer.在第9届国际学习表征会议ICLR 2021, 奥地利虚拟会议,2021年5月3-7日. OpenReview.net, 2021年.0[13] Peter Gacs and J. Korner. 共同信息远小于互信息.控制与信息理论问题, 2, 1973年01月.0[14] A. Geiger, P. Lenz, and R. Urtasun.我们准备好自动驾驶了吗？kitti视觉基准套件. 在0计算机视觉和

下载后可阅读完整内容，剩余1页未读，立即下载