具有潜在位移和立体注意力的立体图像压缩

19 浏览量更新于2023-10-25 收藏 1002KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

661具有潜在位移和立体注意力的立体图像压缩MatthiasW？dlingerTU Wien，维也纳，奥地利mwoedlinger@cvl.tuwien.ac.atJanKoteraTU Wien徐扬Deep Render，伦敦，英国Robert SablatnigTU Wien摘要我们提出了一种立体图像压缩的学习方法，该方法利用了立体对中左右图像的相似性，这是由于重叠的视场。左图像的压缩学习的压缩方法的基础上的自动编码器与超先验熵模型。右图像在编码和解码阶段都使用来自预编码左图像特别地，对于右图像，我们仅将其潜在表示的残差编码为左图像的最佳移位的潜在表示。最重要的是，我们还采用了立体声注意模块，在解码过程中连接左，右图像。在两个基准立体图像数据集（Cityscapes和InStereo2K）上对所提出的方法的性能进行了评估，并且在模型尺寸显著较小的情况下优于先前的立体图像压缩方法1. 介绍有损图像压缩是图像处理中的一项基本任务这是一个长期研究的问题，在传统的手工制作方法和新兴的学习方法中都是一个非常活跃的研究领域。传统的图像编码和解码流水线（“编解码器”）通常包括将图像分割成要单独处理的小块、用于对图像值进行去相关的线性变换、用于利用图像内容的重复和自相似性并降低其表示的熵的块内预测（运动搜索）和残差编码。量化以获得要编码的符号的有限集合，以及熵编码器以最有效地存储所得到的表示。解码流水线执行反向的类似操作。相比之下，现代学习压缩方法通常基于变分自编码器通过模型将图像作为整体处理，而不进行分区，其中潜在表示被量化并利用学习的概率分布进行熵编码。这个的参数化在这种情况下，熵模型与自动编码器一起被训练以相对于真实潜在分布最小化交叉熵，使得整个编解码器可以通过优化加权速率/失真损失来训练。在立体图像压缩中，主要目标是相同的，具有通过利用由左图像和右图像的重叠视场（尽管从稍微不同的视点）引起的左图像和右图像之间的互信息来实现更好的性能的附加可能性。在传统方法中，这可以通过可用于帧间或运动预测的同一组工具来实现运动矢量搜索在学习压缩方法是远远不够明确，并将其扩展到立体声压缩，因此矛盾的是更困难。在当前的文献中，存在两种现有的基于深度学习的方法明确地针对立体图像压缩[21]和邓等人的HESIC模型[13]第10段。在DSIC中，估计密集扭曲场，并且将来自左图像的扭曲特征在HESIC中，使用图像空间中的刚性单应性变换。在这两种情况下，通过用于联合熵建模和图像增强的附加模块来增强模型，因此，它们相当大，并且它们的训练远非简单。相比之下，所提出的模型是非常轻量级的（4%和10% 的 DSIC 和 HESIC 的大小，分别在数量上的参数），概念上简单，不需要任何特殊的训练过程，而不牺牲性能。我们的方法的左侧图像正常编码。在右图像由编码器处理之后，我们找到其潜在表示的每个通道到左图像潜在的对应通道的最佳水平移位（最小化均方误差），并减去两个移位通道，使得仅对残差进行编码以用于右潜在。这是由于观察到立体对中的矫正图像之间的主要刚性变换是水平移位，并且由于下采样，在潜在空间中工作导致更大的有效视差范围。以考虑662∈DR由于深度变化引起的较小的局部位移，我们还通过最初针对立体图像超分辨率提出的立体注意模块[40]连接两个图像表示。该方法的完整描述见第2节。3.第三章。总而言之，我们提出了一种立体图像压缩方法，具有以下亮点：• 该方法的原理模仿了传统编解码器中用于立体声压缩的相同技术，但仍然完全是端到端可学习的。• 该方法优于现有的立体图像压缩国家的最先进的两个标准的测试数据集。• 该方法非常轻量级，易于训练，其代码是公开的。1在本文的其余部分，我们总结了相关的大量工作，给出了一个完整的描述的方法，并提出和讨论的实验结果。2. 相关工作图像压缩文献可以广泛地分为传统方法和学习方法。传统的方法使用图像分割（平铺），手工制作的变换，并通过显式帧内预测消除冗余。在学习方法中，通常将图像作为一个整体进行处理，并且通过最小化率失真损失来从训练数据LRD=R+λD，（1）其中，表示在学习的熵模型下的潜在代码的失真度量和交叉熵，并且λR+是权衡参数。这两种方法都依赖于变换表示的量化和随后的熵编码来获得最终比特流。传统压缩最初在 [36] 中提出的联合图像专家组（JPEG）方法基于固定的8x8块拼接、色度子采样、离散余弦变换和下一块帧内预测。它的继任者JPEG2000 [31]使用离散小波变换和多分辨率处理。现代图像压缩方法通常是为视频编解码器开发的帧内压缩的包装器，例如BPG [7]（基于HEVC [32]），AVIF（基于AV1）或VVC帧内[9]。VVC帧内，特别是，有非常缓慢的编码时间，但可以说是最好的压缩性能，迄今为止在传统的方法。学习压缩端到端学习图像压缩的最初工作始于Toderici等人的开创性工作。[33]其中，提出了用于可变速率图像压缩的递归神经网络另一条线1https://github.com/mwoedlinger/sasicBalle等人提出了学习图像压缩的研究。[4]其中，针对固定目标比特率，利用率失真损失来训练具有参数化分布作为潜在先验的基于自动编码器的模型。自动编码器使用广义除法归一化[3]作为熵模型的非线性和通道分段线性函数。然而，后者不允许空间自适应，后来被每像素完全因子分解的零均值高斯所取代，其尺度由超先验确定[5]。在随后的工作中，该模型被进一步扩展，允许非零均值的高斯[25]或高斯混合[11]。Mentzer等人提出了使用自回归网络作为非因子化条件熵模型[22]和Minnen等人。[25]，其以解码复杂度为代价显著地改进了性能。一个更快的基于通道的版本出现在[26]中。提出了许多不同的方法和架构，例如多尺度处理[28]，密集块和内容加权[20]，非局部注意力模块[10，11，15]或非对称编码器-解码器设置[39]。更详细的概述见[17]。一个单独的研究途径是在解码器中采用生成模型，特别是这样的方法能够在非常低的比特率下实现高感知质量，但是重建的图像可能会失去对原始图像的语义保真度。注意自Vaswani et al.[35]在引入了Transformer（机器翻译的基于自注意力的模型）的地方，已经提出了在视觉中使用自注意力的几个想法。由于复杂性的二次增长，对图像数据的朴素应用通常是禁止的。在[30]中，这是通过将注意力限制在局部邻域来规避的，而在[14]中，自我注意力被应用于图像块之间。对于校正的立体图像，特别地，视差立体注意力已经在[37，40]中提出，其中在左（或右）图像中的某个位置处的注意力限于另一图像中的对应核线。立体图像压缩立体图像对的压缩方法通过利用左右图像之间的互信息来节省比特率。从传统方法来看，MV-HEVC [24]是HEVC视频编解码器的扩展，其在帧内预测之上，还利用多个视图之间的预测它的性能非常好，但官方的实现缺乏对几个重要功能的支持，例如在更高的比特深度或4：4：4色度模式下的操作，因此，MV-HEVC与最先进的单图像压缩方法相比不是很有竞争力。可学习的无损立体声压缩最近由663×≈×EE××EED×DS21.−Σres2c1Huang等人[18]，包括多尺度变换，视差估计和翘曲。Ayzik和Avidan [2]以及最近Mital等人提出了一种“分布式”压缩方法，该方法假设立体声对的一个图像可用于解码器。[27]第10段。学习的有损立体声压缩方法的列表相当短，据我们所知，包括Liu等人的DSIC模型。[21]从2019年和HESIC模型邓等人。[13] 2021年。DSIC方法使用跳过模块，该跳过模块将来自经编码的第一图像的压缩变形特征馈送到第二和条件熵模型以捕获图像代码的依赖性。视差图被隐式地使用，并且不在比特流中传输。在HESIC模型中，通过估计的单应性来扭曲第二图像此外，还采用了基于上下文的熵模型和最终质量增强模块来降低码率，提高质量。据报道，这两种方法都比单图像压缩方法好得多。然而，这些方法非常庞大，难以训练。3. 该方法图1显示了所提出的方法的概述我们的方法将立体图像对压缩在两个流中，这两个流在潜在的熵模型和解码器中连接。我们使用超先验模型来估计我们的潜在熵模型的参数对于给定的立体图像对x1，x2，在第一步骤中，左图像独立于右图像被编码。然后，右图像由编码器模块E处理，并且计算量化的左潜在y 1的最佳逐通道水平移位，使得到右潜在y2的MSE最小。对于潜在表示y2中的每个通道c，我们找到最佳移位sc=argmin MSEy（c）移位s（y（c））其中，shifts（y）被定义为与y大小相同的张量但是水平地（相对于原始图像）移位S个像素（在必要时补零）。而不是y2然后，我们仅将为每个通道定义的残差编码为y（c）=y（c）-shift（y（c））。的搜索范围量化剩余y值，以获得正确的潜在y∈2：=y∈res+shif t（y∈1）。（三）在最后的步骤中，在解码器模块D1、D2中联合地处理y_n 1和y_n2。应用逐信道移位在计算上是便宜的，并且几乎不需要附加的边信息。因为编码器执行4次下采样，所以潜像中64个像素的最大移位对应于原始图像中256个像素的移位。这等于72位的边信息（6位乘以12个潜在通道），对于512 × 512的输入图像，这仅对应于0。00027比特/PP开销。此外，简单的移位在理论上也是由以下事实激发的：对于经校正的立体图像对，移位是两个图像平面之间的变换。3.1. 编码模块和量化编码器/解码器架构松散地基于[38]中提出的单个图像压缩方法编码器模块E和超先验编码器h1和hres各自由四个卷积层组成，其中参数化重构线性单元（PReLU）[16]作为非线性。编码器模块的结构在图2的顶行中示出在这两种情况下，我们都在第二和第三卷积中进行了下采样，这导致与输入x1，x2的大小相比，对latent进行了4次下采样，对hyperlatent进行了16次下采样。我们对左图像和右图像使用相同的编码器模块E（即共享权重），对h1和hres使用相同的架构（具有单独的权重）。受[29]中的讨论的启发，在训练期间，我们使用量化的噪声近似[4]用于速率损失，并使用直通估计（STE）量化用于失真损失。3.2. 解码超先验解码器的架构遵循具有PReLU作为非线性的四个卷积层的相同一般结构;见图的底行。2.左图像h1的超先验解码器得到quan-在我们的实验中，Sc被限制为64像素（在下图中，采样的潜在表示）仅在一个方向上（立体差异只有一个极性）。可以使用水平方向的卷积（通过相应的填充实现）和逐元素操作来计算MSE，从而有效地找到最佳移位。因此，它并不比CNN中的其他常见操作要求更高。右潜伏期和左移位量化潜伏期之间的残差yres：=E（x2）-shift（y≠1）（2）然后进行编码。在解码期间，我们首先解码左潜在，并将移位的左量化潜在移位（y=1）添加到D将h_yperlatent_z_l作为输入，并执行最近邻在第二和第三卷积层之后进行上采样。用于残差h_res的超先验解码器得到4上采样的量化的hyper1和移位的hyper1都作为输入。在hres中的卷积层之后没有额外的上采样。最终解码器模块D1和D2再次由四个卷积层组成，其具有PReLU激活函数，并且在第二和第三卷积之后进行上采样，但是在连接左和右解码器流的前三个卷积层之前具有来自[40]的立体声注意模块（SAM）;参见图1中的概述。3. SAM通过计算左输入和右输入之间的注意力掩码来664图1.我们提出的方法的完整架构。子模块的层次结构如图所示。图2和图3。算术编码器AE和算术解码器AD在训练期间是不相关比特流被描绘成棋盘图案。虚线是在训练期间不相关的连接，虚线显示左侧和右侧之间的连接图2.顶行示出了编码器E和超编码器hE的架构。底部行示出了超先验的解码器，其中左图像的解码器在左下方，右图像的解码器在右下方。设N= 192，M= 12然后用于从左到右翘曲，反之亦然。然后，输入与通道维度中的扭曲图像堆叠，并由下一个卷积层处理。注意力仅在同一对极线上的位置之间计算（我们假设图像是rec化的），这避免了注意力机制的序列长度中的二次复杂性的问题。3.3. 熵估计最佳熵估计对于训练期间的速率损失项和测试期间的正确比特率分配至关重要。对于立体图像压缩，其中共同压缩具有互信息H（x1，x2）>0的一对图像，在残差的熵模型中使用左潜像作为边信息，原则上允许重新估计残差。编码器E超编码器heHyper-decoder left hd已经结束left超解码器右高分辨率上采样4x右输入左输入Conv Mx3x3/1共享权重输入图像PReLUConv Nx3x3/1Conv Nx3x3/1PReLU上采样2xConv Nx3x3/2PReLUPReLUQConv Nx3x3/1QConv Nx3x3/2上采样2xAEAEPReLUPReLUConv Mx3x3/1Conv 2Mx3x3/1ADADQQAE移Conv Nx3x3/1AEPReLUConv 2Mx3x3/1ADADConv Nx3x3/2PReLUPReLUConv Nx3x3/1Conv Nx3x3/2PReLUPReLUConv Nx3x3/1Conv Mx3x3/1PReLU右输出Conv 2Mx3x3/1左输出665U −联系我们联系我们|∈∈研发Dnn12进一步降低比特率如3.1节所述，在训练过程中，我们使用噪声版本y=y+ 和 z=z+ 模拟潜在和超潜在的量化，其中（0。5，0。（五）。在测试过程中，我们用它们的整数量化方程y和z代替y和z。与 [5] 类似，我们将边信息作为超先验 zn ， n1，2，以减少潜在项y=n，n的条目y一，二。我们首先讨论了hyperpriors zn的entro p y模型。根据[5]中的讨论，我们将h超先验zn的概率建模为参数概率函数qzn和均匀分布的卷积。pz（zn|θz<$）=（qz<$中国（4）图3. 解码器架构。 SAM块包含[40]中提出的立体声注意模块。设N= 192其中θz<$n表示qz<$n 且u（τ）=1[−0. 5，0。5]（τ）。pzn（znθz<$n）可以通过q z <$n的累积密度函数Fz<$n表示：总速率则是以下各项的交叉熵之和：z1，y1，zres，yres：pzn （zn| θz˜n ）=∞qz~n（τ|θz~n）1[−0.5，0。五、（zn-τ）dτR=Ex1，x2px−lo g2p（y1，z1|θz<$1，θy<$1）−∞=Fz<$n（z<$n+0. 5|θz<$n）−Fz<$n（z<$n−0. 5|θz<$n）我们将qzn的概率密度函数建模为完全分解的拉普拉斯分布Lap（z）=Y1exp.− |zn;i−µn;i|Σ，（5）我-lo g2p（yres，zres|y=1，θz=es，θy=es），（十）其中px表示输入数据的真实分布。3.4. 培训我们用率失真损失µn，b nn2bn;ibn;iL=R+λD，（11）其中i表示像素索引，参数µ n;iR，bn;iR+在通道中的所有位置之间共享。 W e用θ z <$n表示参数（µn，bn）的集合。我们对潜在分布进行类似的处理，将它们建模为参数概率其中表示来自等式的速率项。(10)和表示失真度量，在我们的计算中，它是输入x1、x2和预测x1、x2之间的左图像和右图像的MSE值之和，函数qy联合，其中n∈ {1，res}，并且是均匀分布的D=Ex，xpΣ∥x1−xˆ1∥2+∥x2−xˆ2∥2Σ.（十二）py1（y1|z<$1，θ y<$1）=（qy<$1<$u）（y<$1）（6）pyres（yres|y1，zre s，θyres）=（qyresu）（yre s）（7）该分布取决于h超先验z<$n和h超先验解码器的参数θy<$n。对于剩余的潜在y-1，我们通过使用移位的y-1作为超先验h-1的解码器的附加输入来附加地调节y-1上的概率分布。我们使用完全因子化的拉普拉斯分布，并且与其中我们为每个通道具有单独的一组学习参数的超潜伏相反，我们为每个位置和通道预测不同的一组参数，其中已经D对山姆Conv Nx（3x3）/1Conv Nx3x3/1PReLUPReLU山姆Conv Nx3x3/1Conv Nx3x3/1上采样2x上采样2xPReLUPReLU山姆Conv Nx3x3/1Conv Nx3x3/1上采样2x上采样2xPReLUPReLUConv 3x3x3/1Conv 3x3x3/1输出左输出右nnX666DD4. 实验我们将从数据集的简要概述开始，然后是实施和基准的详细信息，最后是对结果和消融研究的讨论4.1. 数据集我们在两个数据集上评估了我们的方法，Cityscapes[12]用于远景和室外场景，InStereo2K [6]用于近景和室内场景。这些数据集也被选择来匹配立体图像压缩的最新作品θy1θyes=h1（z<$1）（8）=hre s（zre s，shif t（y1））。（九）CityscapesCityscapes数据集[12]包含5000个大小为20481024的立体图像对，最大视差约为128像素。集合分为2975个训练，667SASIC（我们的）BackboneHEVCBPGMV-HEVCDSIC（报告）××D∈联系我们城市景观（PSNR）InStereo2K（PSNR）404439423837403638353436330.1 0.2 0.3 0.4 0.5 0.60.7比特率[bpp]0.1 0.2 0.3 0.4 0.5 0.6 0.7比特率[bpp]图4.针对Cityscapes（左列）和InStereo2K（右列）的各种压缩基线，通过PSNR500个验证和1525个测试对。这些照片展示了德国50个城市的街景，这些照片是在开车时从汽车上拍摄的。对于每一张图像，我们分别裁剪64、256和128像素，顶部、底部和侧面，以去除汽车罩（在每个图像中重复）和校正伪影。这与[21]中使用的变换相匹配。InStereo2K数据集[6]包含大小为1080 860的室内场景的2060个立体图像对，最大视差约为1080 860。256像素。该集合被分成2010个图像对用于训练，50个用于测试。图像被最小化地裁剪，使得高度和宽度是16的倍数。4.2. 实现细节我们为不同的λ值训练我们的方法1e 3，. . .，4e 1，以实现不同的期望目标双稳态。对于每个比特率，我们从头开始在Cityscapes上训练我们的模型300个epoch，在InStereo2K上训练400个我们将初始学习率设置为10- 4，并在400k步之后将学习率降低10倍我们用亚当优化器[19]和所有运行的批处理大小为1。我们在大小为256 256的随机作物上训练。测试是在完整的图像上进行的，但城市景观的裁剪除外在Sec.4.1和最小所需的裁剪，使得输入图像大小可被16整除。我们使用均方误差作为等式中的失真度量进行训练。(11)并根据PSNR度量报告结果。4.3. 基准方法我们将我们的方法直接与单独的主干（即，主干压缩方法用于独立地压缩左图像和右图像）以突出由于立体处理而引起的改进。除此之外，我们展示了几种最先进的传统或学习压缩方法的结果，这些方法既可以用于压缩方法参数数骨干2.8MSASIC（拟议）6.6MHESIC 66.2MDSIC 159.6M表1.概述了学习的立体声压缩方法的参数数量的大小立体对的图像一起或其每个图像独立，这取决于各个方法的能力使用HEVC[32]，我们禁用色度子采样并将立体声对压缩为两帧视频序列（左帧是I帧，右帧是P帧，具有相应的预测）。MV-HEVC[24]在其用于立体声压缩（双视图帧内模式）的默认配置中使用，但不幸的是仅支持4：2：0色度模式，这在较高比特率中引起巨大的损失（我们使用双三次上采样用于色度通道）。BPG[7]在没有色度子采样的情况下使用，并且每个图像被独立地压缩（基本上等同于HEVC帧内，没有立体声预测）。对于DSIC[21]和HESIC[13]，我们引用了他们在各自数据集上的报告结果。我们指出，所提出的方法与其他单图像学习方法（类似大小）的比较并不重要，因为任何一种方法都可以潜在地用作所提出的方法的主干并继承其性能。4.4. 结果我们的方法以及测试数据集上的基准测试的实验结果如图所示 4 ，左边是 Cityscapes 的结果，右边是InStereo2K的结果。Cityscapes数据集及其许多同质区域非常适合传统压缩，SASIC（我们的）BackboneHEVCBPGMV-HEVCHESIC（报告）峰值信噪比[dB]峰值信噪比[dB]668SASIC（拟议）主干（BB）BB +移位（病例1）BB+ D中SA（病例2）D和HD中的BB + SA（病例3）D城市景观（消融）InStereo2K（消融）4044394342384137403639353837340.1 0.2 0.3 0.4 0.5 0.60.7比特率[bpp]0.1 0.2 0.3 0.4 0.5 0.6 0.7比特率[bpp]图5.消融研究：潜在移位残差编码（绿色）和立体声注意子模块（SA）对率失真性能的影响的比较。SA仅用于图像解码器（红色）或超先验解码器（紫色）。完整的建议方法（蓝色）和原始主干（橙色）供参考。在PSNR上击败传统方法是出了名的困难。HEVC表现最好，所提出的方法（SASIC）在低比特率中仅略微落后。我们的方法显着，cantly优于DSIC方法，并显示出一个consis- tent改善骨干的整个比特率范围。InStereo2K数据集提供的图像内容变化比Cityscapes更大在更高的比特率下，学习的方法工作得更好，而在非常低的比特率下，传统方法保持其优势。所提出的方法（SASIC）显然是在大多数比特率范围的顶部。HESIC在PSNR上的性能相当差。我们无法重现HESIC论文中的结果，即使使用他们官方代码库2中的模型，这就是为什么我们报告他们论文中所述的分数MV-HEVC在两个数据集上的相对差的结果是由于颜色子采样，其在客观评估中没有竞争力。所提出的方法（SASIC）和其骨干之间的差异说明了由于立体声处理的增益这种增益对于低比特率和中等比特率是最显著的，在中间bpp = 0处，Cityscapes和InStereo2K的第二图像分别实现了大约15%和18%的比特率降低。4.第一章对于更高的比特率，（绝对）减少增益减小，这可以直观地解释如下：如果以更高的比特率为代价要求高的重建质量，则最佳的是减少对预测的依赖并支付比特率，而不是冒损害质量的风险。然而，通过查看BPG和HEVC的结果（类似的压缩方法对，一个用于单个图像，另一个用于立体），我们可以看到HEVC保持其优势2https://github.com/ywz978020607/HESIC.网站上的链接。作者没有发布任何训练代码.该模型收敛，但我们无法达到比图中所述更好的结果。4在整个比特率范围内，这表明比特率降低的进一步改进是可能的。 InStereo2K测试集图像的定性比较如图所示。6.补充材料中提供了其他示例。从Tab中可以看出。1我们的模型明显小于现有的学习立体图像压缩方法，我们的SASIC模型的模型大小分别仅为运行时的比较和讨论可以在补充材料中找到。4.5. 消融研究在本段中，我们将比较我们方法中的模块以及它们如何影响整体率失真曲线。这些案例的比较可以在图中看到。5.此外，我们在表2中提供了Bjøntegaard DeltaPSNR（BD- PSNR）[8]和BD速率值。BD-PSNR近似相等比特率的质量增加（越高越好），并且BD-Rate近似相等质量的比特率节省百分比（负且越低越好）。骨干：对于骨干网络，两个图像彼此独立地压缩，其中模型用于压缩SASIC模型中的左图像。骨干+移位（情况1）：对于这种情况，我们删除了图1中连接D1和D2的立体声注意模块。 1之间的连接，并且只保持y_1和y_2之间以及hres之间的连接。训练后，我们可以从图中的RD曲线中看到。图5中，该模型的性能明显差于完整模型，这表明解码器中的立体声注意力有助于进一步降低比特率。表中的BD率。2表示，与SASIC（拟议）主干（BB）BB +移位（病例1）BB + D中SA（病例2）D和HD中的BB + SA（病例3）峰值信噪比[dB]峰值信噪比[dB]669原始BPGbpp = 0.277，PSNR = 32.30HEVCbpp = 0.277，PSNR = 32.98MV-HEVCbpp = 0.262，PSNR = 32.59SASICbpp = 0.253，PSNR = 33.08图6. InStereo2K测试集图像的定性比较。不存在这种连接的骨干模型对于InStereo2K，改进较小。解码器中的骨干+立体声注意（情况2）：在这如果我们去掉y和y之间的联系，以及1 2阿斯雷斯hD. 我们还将右图像的超先验模型的解码器替换为左模型的解码器（图2）。2左下角）。我们保持D1和D2之间的立体注意力连接。由此产生的模型性能明显更好比骨干;然而仍然比完整的SASIC模型更差解码器和超先验解码器中的骨干+立体声注意（情况3）：为了显示潜在连接的有效性，而不存在于案例2中，我们还研究了一种仅基于立体注意连接的架构。对于这种情况，我们在情况2中的超先验解码器之间添加三个连接，类似于解码器连接。从Tab。[2]我们看到，实际上，单是立体声注意力在表现上不如我们的完整SASIC模型。事实上，结果模型的性能甚至比更简单的情况2模型更差。SASIC模型结合了所有改进，即解码器和超优先解码器中的骨干+移位+立体声注意。它与图1中的SASIC模型相同。4.5. 结论本文提出了一种新的立体图像压缩方法SASIC。该方法通过两个添加来扩展一般的单个图像压缩主干模型：潜在域中的全局移位和减法，使得对于右图像仅对残差进行编码，以及解码器中的立体注意模块，以考虑图像之间的更精细的局部位移。我们在消融研究中表明由此产生的模型非常InStereo2K方法BD-Rate BD-PSNRSASIC-11.28 0.38D和HD中BB + SA-8.97 0.28表2.骨干模型和每种情况之间的BD速率（越低越好）和BD-PSNR（越高越好）的立体图像压缩与传统方法的比较表明，这些方法在低比特率下表现稍好;在中高比特率下，所提出的方法与之相当或更好，并且编码速度要快得多。实验结果进一步表明，由于立体声处理的性能增益降低更高的比特率。这是可以理解的，但显然不是不可避免的，因为与传统压缩的比较表明，因此在未来的工作中仍有改进的空间。我们的模型代码是公开的3.6. 确认该项目已收到欧盟地平线2020研究和创新计划的资助，我们感谢Christian Besen- bruch和Deep Render团队进行了宝贵的讨论。引用[1] EirikurAgustsson ， MichaelTschannen ， FabianMentzer，Radu Timofte，and Luc Van Gool. 用于极端学习图像压缩的生成对抗网络。在重量轻，训练速度快，在编码和解码过程中，但在学习方面3https://github.com/mwoedlinger/sasic方法CityscapesBD价格BD-PSNRSASIC-23.421.05BB + Shift-14.580.67BB + SA在D-19.700.80D和HD中的BB + SA-17.780.73BB + Shift-2.280.07BB + SA在D-10.60.31670IEEE/CVF计算机视觉国际会议论文集，第221-231页，2019年。2[2] Sharon Ayzik和Shai Avidan使用解码器侧信息的深度图像压缩。欧洲计算机视觉会议，第 699-714 页。Springer，2020年。3[3] JohannesBal le´、ValeroLaparra和EeroP. 西蒙切利使用广义归一化变换的图像密度建模。 CoRR ，abs/1511.06281，2016。2[4] JohannesBall e' ， ValeroLaparra ， andEeroPSimoncelli. 端到端优化的图像压缩。第五届国际学习表征会议，ICLR 2017，2017。二、三[5] JohannesBalle´ ， DavidMinnen ， SaurabhSingh ，SungJinHwang，and Nick Johnston.变分图像压缩与尺度超先验。在2018年国际学习代表会议上。二、五[6] Wei Bao ， Wei Wang ，Yuhua Xu， Yulan Guo ， SiyuHong，and Xiaohu Zhang.Instereo2k：一个大型真实数据集，用于室内场景中的立体匹配。Science ChinaInformation Sciences，63（11）：1-11，2020.五、六[7] Fabrice Bellard BPG图像格式。bellard.org/bpg。2021-09-24访问。二、六[8] 吉赛尔·比昂特加德rd曲线之间的平均psnr差异的计算。VCEG-M33，2001年。7[9] Benjamin Bross，Ye-Kui Wang，Yan Ye，Shan Liu，Jianle Chen，Gary J. Sullivan，and Jens-Rainer Ohm.概述了通用视频编码（VVC）标准及其应用。 IEEETransactionsonCircuitsandSystemsforVideoTechnology，第1-1页，2021年。2[10] 陈彤、刘豪杰、马占、沈秋、曹勋、王尧。通过非局部注意力优化和改进的上下文模型进行端到端学习图像压缩。IEEE Transactions on Image Processing，30：3179-3191，2021。2[11] 郑学成、孙鹤鸣、Masaru Takeuchi和Jiro Katto。学习了用离散高斯混合似然和注意力模块进行图像压缩。2020年IEEE/CVF计算机视觉和模式识别会议（CVPR），第7936-7945页，2020年。2[12] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 32135[13] Xin Deng，Wenzhe Yang，Ren Yang，Mai Xu，EnpengLiu，Qianhan Feng，and Radu Jingfte.用于高效立体图像压缩的深度单应性。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第1492-1501页，2021年6月。一、三、六[14] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。2[15] Zongyu Guo，Zhizheng Zhang，Runsen Feng，and ZhiboChen. 学习图像压缩的因果上下文预测。 IEEETransactionsonCircuitsandSystemsforVideoTechnology，第1-1页，2021年。2[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在IEEE计算机视觉国际会议论文集，第1026-1034页，2015年。3[17] 胡跃宇，杨文汉，马占，刘嘉颖学习端到端有损图像压缩：基准。IEEE Transactions on Pattern Analysis andMachine Inteligence，第1-1页，2021年。2[18] 黄子豪，孙哲，段峰，齐齐基，阮培英，李超.L3 c-stereo：立体图像的无损压缩。arXiv预印本arXiv：2108.09422，2021。3[19] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[20] 慕丽、左望梦、古书航、尤简、张大卫。学习内容加权深度图像压缩。IEEE Transactions on Pattern Analysisand Machine Intelligence ， 43 （ 10 ）： 3446-3461 ，2021。2[21] Jerry Liu，Shenlong Wang，and R.乌塔松深度立体图像压缩。2019 IEEE/CVF计算机视觉国际会议（ICCV），第3136-3145页，2019年。一、三、六[22] Fabian Mentzer，E. Agustsson，M.查嫩河Timofte和L.好极了深度图像压缩的条件概率模型。2018 IEEE/CVF计算机视觉和模式识别，第4394-4402页，2018年。2[23] FabianMentzer ， GeorgeDToderici ， MichaelTschannen，and Eirikur Agustsson.高保真生成图像压缩。In H. Larochelle，M.兰扎托河哈德塞尔M. F. Bal-can和H.林，编辑，神经信息处理系统的进展，第33卷，第11913-11924页。Cur-ran Associates，Inc. 2020. 2[24] Philipp Merkle，Karsten Muller，Aljoscha Smolic，andThomas Wiegand.基于h的视点间依赖性的多视点视频高效压缩264/mpeg4- avc。在2006年IEEE多媒体和博览会国际会议上，第1717-1720页。IEEE，2006年。二、六[25] D a vidMinnen，JohannesBal le'，andGeo r geDToderici. 联合自回归和分层先验的学习图像压缩。神经信息处理系统的进展，31：10771-10780，2018。2[26] 大卫·明嫩和索拉布·辛格用于学习图像压缩的逐层自回归熵模型在2020年IEEE国际图像处理会议（ICIP）上，第3339-3343页2[27] 尼蒂什·米塔尔，埃兹吉·奥兹尔坎，阿里·加贾尼，和德尼兹·冈杜兹.使用公共信息的神经分布式图像压缩，2021。3[28] 肯·M. Nakanishi，Shin-ichi Maeda，Takeru Miyato，andDaisuke Okanohara. 神经多尺度图像压缩。在 C. V.Jawahar，Hongdong Li，Greg Mori和Kon- rad Schindler编辑，计算机视觉施普林格国际出版社. 2671[29] 石攀，克里斯·芬利，克里斯·贝森布鲁赫，威廉·诺特-滕贝尔.学习图

下载后可阅读完整内容，剩余1页未读，立即下载