深度立体图像压缩方法中的共享信息和参数跳过函数对比其他方法的效果的研究

85 浏览量更新于2023-10-13 收藏 1.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3136深度立体图像压缩Jerry Liu‡，Shenlong Wang，and RaquelUrtasun Uber ATG网址：jerryl@uber.com，slwang@uber.com，网址：www.example.com，urtasun@uber.com摘要在本文中，我们解决了立体图像压缩的问题，并利用这两个图像有重叠的视野，以进一步压缩表示的事实。我们的方法利用了最先进的单图像压缩自动编码器，并通过新颖的参数跳过函数增强压缩，以将所有级别的完全可微的、扭曲的特征馈送到第二图像的编码器/解码器。此外，我们使用条件熵模型的图像代码之间的概率依赖性建模。我们的实验表明，与深度单图像压缩相比，在低比特率下第二图像比特率降低了30 - 50%，在较高比特率下降低了10 - 20%1. 介绍诸如自主车辆和3D电影的许多应用涉及立体相机对的使用。这些相机阵列通常每天捕获和存储大量数据，这需要良好的图像压缩算法来确保空间的有效利用。一种简单的图像压缩方法是分别压缩来自每个相机的图像流。然而，这忽略了由相机之间的重叠视场给出的共享信息。因此，需要能够通过利用共享信息来进一步有效地压缩立体图像对的压缩方法立体图像压缩可以被看作是介于图像和视频压缩之间的工作。虽然我们虽然我们不能利用两个图像之间的共享信息，但是我们不能利用紧密耦合的图像序列内的时空冗余。在传统的多视图和立体压缩[12，14]以及基于深度学习的图像和视频压缩[5，33，36，49]方面已经有了大量的工作。然而，深度多视图压缩的空间相对未被探索。‡作为Uber AI Residency计划的一部分完成的工作。在这项工作中，我们提出了一种新颖的端到端的深度架构为立体图像压缩我们的贡献围绕着试图从第一张图像中提取尽可能多的信息，以降低第二张图像的比特率。为了实现这一目标，我们利用最先进的单图像压缩自动编码器，并增强他们与新的参数跳过功能，以饲料完全可微，差异扭曲的功能，在所有级别的第二个图像的编码器/解码器。这允许我们为第二图像代码存储更少的比特，因为多级信息正从第一图像的编码器/解码器传递。此外，我们使用条件熵模型的图像代码之间的概率依赖性建模。由于立体声对的代码彼此高度相关，因此可以捕获这种依赖性的模型将有助于降低两个潜在代码的联合熵，并因此降低联合比特率我们证明了第二个减少30 - 50%，与深度单比特率图像压缩，以及在更高的比特率下减少10 - 20%，当在内部自动驾驶数据集（北美）以及来自Cityscapes的立体图像上进行评估时。我们的实验还证明，我们在MS-SSIM上优于所有图像编解码器和运动补偿+残差编码基线，MS-SSIM是捕获图像的结构质量的感知度量。2. 背景及相关工作我们从深度图像压缩算法的简要概述开始本节然后，我们讨论了深度视频压缩，多视图压缩和立体声估计，分别相关的工作。2.1. 深度图像压缩技术已经有过多的工作学习，单图像，有损图像压缩[44，45，4，5，43，31，35，33，24]。这些工作一般使用通过卷积神经网络（CNN）层的非线性变换将图像编码到潜在空间中，然后对其进行量化3137量化器代码Q输出1跳过函数量化器代码输出2y2Qy1y输入1输入2编码器1解码器1编码器2解码器2图1：左图：端到端立体声压缩架构;右：提出的深度参数化跳跃函数。离散的符号。然后应用使用学习的熵模型的熵编码函数来无损地产生最终比特流。更正式地说，给定输入x，深度图像压缩学习编码+量化函数E（·），将输入映射到离散值向量表示y（=E（x））以及解码器函数D（·），该解码器函数从潜在代码重建图像：x（=D（y（））。编码器和解码器都经过训练，在最小化潜在码的预期码长和最大化重构质量之间取得平衡;这也被称为率失真折衷其中，是输入与解码输出之间的重构误差，通常通过MSE（均方误差）或诸如MS-SSIM的可微分图像质量度量来测量[46];R是通过比特率测量的用于将潜在表示编码到比特流的成本。比特率通常通过测量潜在代码分布和学习的先验之间的交叉熵以可微分的方式近似R（ y ）Eyp[logp （ y;θ）]（2）为了实现这些目标，研究人员设计了各种方法来使离散二进制编码操作适合端到端学习，例如直通估计[44，43]，软量化[2，31]和噪声采样[4，5]。此外，复杂的先验模型已被设计用于量化表示，以最小化与代码分布的交叉熵。对先验进行建模的不同方法包括自回归模型[33，31，45]、超先验模型[5，33]和分解模型[43，4，5]。2.2. 深度视频压缩传统的视频压缩技术通过对独立帧（I帧）进行编码，然后使用运动补偿/残差编码来对相邻帧（P帧、B帧）进行编码来利用时间冗余[41，47]。最近，已经开发了几种基于深度学习的视频压缩框架[49，36，15，25]。Wu等[49]采用基于传统视频压缩方法的技术，而Rippel等（2005）采用基于传统视频压缩方法的技术。[35]使用端到端学习方法，与传统视频编解码器（包括HEVC/H.265和AVC/H.264）相比，可实现最先进的结果。视频压缩技术可能不一定直接转换为立体声设置，因为它们通常依赖于较大图像块之间的时间冗余以节省大多数比特率。我们进去我们的实验表明，运动/残差编码确实可以争取立体声。2.3. 多视图压缩在设计和分析多视图压缩技术方面已经有很多先前的工作，通常是在视频压缩设置中[12，11，32，27，30，23]。在该设置中，多视图视频流被重新组织为捕获一个视图中的连续帧之间的时间相似性和相邻相机视图之间的视图间相似性的图片矩阵。许多技术[32，27]使用视差补偿预测来对给定参考视图的每个视图进行编码，类似于单视图视频中的运动补偿预测。为H.264/AVC开发的多视图视频编码（MVC）扩展使用这种方法[32]。其他技术涉及使用密集深度图来合成用于压缩的更精确的视图预测[30，23]。存在立体声特定的压缩技术，并且范围从使用马尔可夫随机场（MRF）用于参数跳过功能特征特征全局上下文映射1映射2（来自y1）Concat+Conv密集翘曲成本量特征量视差扭曲特征图1（输入到解码器2）Conv，IGDN，↑2xConv，IGDN，↑2xConv，GDN，↓2xConv，IGDN，↑2xConv，GDN，↓2xConv，GDN，↓2xConv，GDN，↓2xConv，GDN，↓2xConv，GDN，↓2xConv，GDN，↓2xConv，GDN，↓2xConv，IGDN，↑2xConv，IGDN，↑2xConv，IGDN，↑2xConv，IGDN，↑2xConv，IGDN，↑2x31381211视差预测以分离残差图像的变换[40，14，48，3，34，42]。同样密切相关的是光场图像压缩，其中使用基于学习的视图合成技术来利用子孔径图像之间的大量冗余[20，21]。相比之下，我们使用端到端深度架构进行立体图像压缩。隐式深度估计和压缩在我们的模型中联合执行。2.4. 立体匹配传统的立体匹配方法的范围从局部相似性估计[8，37，16]，粒子传播方法，如PatchMatch [7]，到变分推理，如条件随机场[38]和半全局匹配（SGM）[17]。深度可学习立体匹配已经取得了进展，利用监督损失（针对地面真实差异的训练）[52，28，9，22]以及无监督损失（使用光度/一致性损失）[53]。立体匹配可以被视为立体图像压缩设置的视差补偿预测的特定情况。尽管如此，基于监督学习的立体匹配方法需要地面实况（GT）来训练，并且获取用于立体的GT是困难且昂贵的。3. 深度立体图像压缩在本文中，我们解决的问题，压缩一对立体图像。直观地说，如果立体对之间的重叠视场很高，则组合潜码的比特率应该低于如果我们单独压缩图像的比特率之和;至少不能再高了。更正式地，让我们将x1，x2表示为一对校正的立体图像，并且让H（x1，x2）是立体对的熵。考虑到两个图像的内容高度相关的事实，互信息I（x1，x2）=H（x1）+H（x2）−H（x1，x2）≥0这一观察激发了我们的一般方法：我们提出了联合压缩两个立体图像的单个压缩模型。为了实现这一目标，我们专注于从一个图像中提取尽可能多的信息，以降低第二个图像的比特率，使得总比特率低于独立的单个图像压缩的结果。我们的方法是一个双流深度编码器-解码器网络，如图所示。1.立体对中的每个图像被传递到单独的编码器/量化器以得到离散化的潜码;然后利用解码器从潜码重构图像。与以前的工作相比，我们有两个主要的贡献：1）我们从第一幅图像的特征映射中加入了多级参数化的跳跃函数2）利用条件熵模型对两幅图像的潜码之间的相关性进行建模。接下来，我们将详细描述每个组件。3.1. 编码/解码和量化我们的编码器、解码器和量化器功能借用了Balle等人的单图像压缩模型的架构。[5]的文件。如图1，每个编码器都是用一系列4个下采样卷积（2x）和广义除法归一化（GDN）层来实现的[6]。每个解码器都是用一系列4个上采样反卷积（2x）和逆GDN层来实现的。每个量化器Q将舍入函数应用于编码器的浮点输出Q（E（x））=Q（y）=y（以输出离散代码表示。3.2. 参数跳过功能为了降低立体声对的联合比特率，我们设计了一个称为参数跳过函数的网络模块，用于将信息从第一图像的编码器/解码器传播到第二图像。我们推测，对于对于给定的立体对，在编码器和解码器中的所有级别上，两个图像的特征图之间存在相关性。而且，如果我们估计每对特征图之间的视差，我们就可以将一个特征扭曲到另一个特征上，从而提高两个特征图之间的像素级对齐;这又允许我们将信息从一个特征图准确地传递到另一个的相应空间位置。具体地，为了计算第二图像在级别t处的特征图，每个跳过函数取其先前层一个ht-1和第一个图像的代码y作为输入。每个跳过功能模块由四部分组成首先，一个完全卷积全局上下文编码模块f（y=1;w）将第一图像的潜码编码全局上下文特征在所有不同级别之间共享。第二，立体声音响成本量模块估计成本量ct-1，输入所述第一特征图、第二特征图和所述全局上下文。成本体积应用softmax层以确保成本沿着视差每像素的尺寸。成本量中的每个值可以被视为该坐标处的正确视差的概率/置信度度量。然后，我们使用此成本体积将特征从第一个图像密集地扭曲到第二个图像。特别地，对于每个像素i，通过特征向量3139G=c·h（3）2月22在视差范围中的所有视差值上：左输入右输入t−12，iΣCd=0t−1d，i1，（i，d）其中cd，i表示像素i处的视差d的成本。（i，d）表示像素右边的d个像素的像素索引I.体积扭曲给我们一个扭曲的特征图gt-1，它与第二幅图像的特征图更好地对齐;这也可以被看作是对第一图像的特征图中的每个像素i的关注机制视差范围。这种设计在概念上类似于以前的图像合成工作[13，51]。与回归单个视差图和使用双线性采样的扭曲[19]相比，我们的设计允许目标像素和源图像的像素范围之间更灵活的最后，我们使用一个聚合函数来预测特征图，作为参数跳过函数的最终输出ht=a（gt−1，ht−1）（4）2 2 2gt−1从第一个到第二个iamge和ht-1来自第二幅图像的前一层我们参考补充材料（第二节）。C）对于上下文编码、立体声成本量和聚合的架构细节3.3. 条件熵模型准确地对量化代码的熵进行建模对于导航率失真权衡至关重要，因为熵是比特率的严格下限[39]。给定高度相关的图像内容，在两个图像的潜码之间存在相关性。为了利用这些关系，我们开发了一个联合熵模型与神经网络估计的联合分布左侧重建右侧重建图2：通过在每个特征像素的视差维度上采用模式，在编码器/解码器中的每个分辨率级别处的视差体积的可视化平铺效应本质上是由于对作物的无监督训练。第一个图像。θy<$2，θy<$1，θz<$2，θz<$1是每个单变量分布的完整参数集在完全独立性和条件独立性假设下，所有模型都被分解为每个单独代码的分布的乘积：Y的代码。为了在模拟量化期间舍入误差的影响的同时保持可微性，我们考虑y的噪声版本作为输入：y¯=y+，其中ǫ∼ U(−0. 5，0。（五）。p（z<$1;θz<$1）=p（z<$2;θz<$2）=p1，i（z<$1，i;θz<$1）（6）我Yp2，i（z<$2，i;θz<$2）（7）我我们的目标是对联合分布p（y¯1，y¯2;θ）建模，其中考虑了y¯2对y¯1 的依赖性。受[5，33]的启发，我们还想包括边p（y¯1|z¯1;θy¯1Yi）=p1，i我Y（y）1，i|z¯1;θy¯1）（8）信息作为hyperpriors，z<$1，z<$2，其唯一目的是p（y¯2|y¯1，z¯2;θy¯2）=p2，i（y<$2，i|y<$1，z<$2;θy<$2）（9）以减少y<$，y<$的输入。注意z¯，z¯是由i1 2 1 2在编码期间分别从y′1、y′ 2中计算，并且还必须在比特流中计数。因此，我们将y<$1，y<$2，z<$1，z<$2的联合概率分解如下：用深度参数函数直接建模概率密度函数（PDF）可能不适合于具有不连续形状的PDF，例如，在[-0.5，0.5]之间的均匀分布。这限制了p（y<$1，y<$2，z<$1，z<$2;θ）=p（y¯2|y¯1，z¯2;θy¯2）p（y¯1|z<$1;θy<$1）p（z<$2;θz<$2）p（z<$1;θz<$1）（五）熵模型在[5]之后，我们通过将概率建模为累积密度函数（CDF）下的区域而不是PDF上的点来其中p（y¯1|z¯1;θy¯1）表示第一个图像编码和p（y<$2|y<$1，z<$2;θy<$2）表示第二图像码的概率，其条件为我们首先设计我们的高优先级模式lspi（z¯i;θz¯）如下：pi（z<$i;θz<$i）=（qi<$u）（z<$i）（10）X 1/2X 1/4X 1/8X1/16X 1/8X 1/4X 1/2代码解码器编码器解码器编码器31401.000.980.960.940.920.900.88MS-SSIM（北美）PSNR（北美）4038363432302826MS-SSIM dB（北美）24222018161412100.0 0.2 0.4 0.6 0.81.0比特率0.0 0.2 0.4 0.6 0.81.0比特率0.0 0.2 0.4 0.6 0.8 1.0比特率0.990.980.970.960.950.94MS-SSIM（城市景观）PSNR（城市景观）4644424038363432MS-SSIM dB（城市景观）242220181614120.0 0.2 0.4 0.6 0.81.0比特率0.0 0.2 0.4 0.6 0.81.0比特率0.0 0.2 0.4 0.6 0.8 1.0比特率图3：我们的立体声模型与各种压缩基线的关系图，适用于北美和城市景观。其中u（τ）=1，如果|τ |0<的情况。5否则u（τ）=0，并且τ是两个函数之间的卷积。因此，我们有：∫∞在大多数计算框架中，GMM的CDF通常是数值计算的，而导数是解析的。因此，我们只需要学习一个函数，p（z¯;θ）=q（τ;θ）u（z<$−τ）dτ预测参数wik，µik，σ2giv eny¯1，z¯2，其中θy¯2为我我子−∞∫z¯i+0。5=z′ i −0。5子qi（τ;θz<$）dτ（十一）ik可学习的参数，而不是对CDF值建模直接如在超先验熵模型中我们发现，混合模型的性能略有提高，这要归功于其=ci（z¯i+0. 5;θz¯）−ci（z¯i−0.5;θz<$）与单个高斯相比，更强的容量最后，y′1的模型遵循相同的GMM公式;其中ci（z¯i;θz¯）是某个潜在PDF q的累积iv e密度函数（CDF）。这直观地意味着，由于y1首先被解码，因此我们只能提供z<$1作为输入，而不是y<$2：可以将pi（z<$i;θz<$）定义为CDF下的区域，而不是直接定义为PDF，我们可以使用神经网络来p1，i（y）1，i|z¯1;θ y¯1）=（q月1u）（y¯1，i）（14）直接对ci（z<$i;θz<$i）建模。这种方法具有更好的能力来建模陡峭边缘PDF，因为即使对于陡峭边缘PDF，CDF仍然是连续的。我们遵循类似的方法来为y¯1，y¯2的条件因子化概率建模-我们首先强调y¯2的模型：p2，i（y<$2，i|y¯1，z¯2;θy¯2）=（q2，i*u）（y¯2，i）（12）我们的hype r编码器（从y ¯ 1，y ¯ 2推导z¯1，z¯2）以及每个入门型号的架构细节可以在补充材料（第C.3节）中找到。3.4. 学习我们的模型是端到端训练的，以最小化以下目标函数：与超先验模型不同，我们将每个单独的像素PDFq2，i建模为高斯混合模型（GMM）：+βR=Ex1，x2的||x1−x1||2个以上||x2−x2||2]+`x2`x2失真（图像）1）失真（Img. （二）JPEG 2000BPGHEVC/H.265 MV-HEVCBallé（Hyperprior）立体声残差编码JPEG 2000BPGHEVC/H.265 MV-HEVCBallé（Hyperprior）立体声残差编码JPEG 2000BPGHEVC/H.265 MV-HEVCBallé（Hyperprior）立体声残差编码JPEG 2000BPGHEVC/H.265 MV-HEVCBallé（Hyperprior）立体声残差编码JPEG 2000BPGHEVC/H.265 MV-HEVCBallé（Hyperprior）立体声残差编码JPEG 2000BPGHEVC/H.265 MV-HEVCBallé（Hyperprior）立体声残差编码MS-SSIMMS-SSIMPSNRPSNRMS-SSIM dBMS-SSIM dB3141ikikΣq2，i（y<$1，z<$2）=wikN（μik，σ2））（13）βEx1，x2<$px[−lo g2p（y<$1，z<$1;θ）−lo g2p（y<$2，z<$2|y¯1;θ）]`x` xk速率（代码1）速率（代码2）（十五）其中wik，μik，σ2是的分布参数其中第一项编码两个取决于y¯1、z¯2和θy¯2。我们还重新编写了第二项是比特率项，其速率卷积作为CDF之间的差异，如等式（十一）、由熵模型预测。此外，我们可以强制执行3142通过将速率函数修改为：R=max（Ex1，x2<$px[−log2p（y<$1，y<$2，z<$1，z<$2;θ）]，Ht）（十六）其中Ht是从目标比特率计算的我们期望的目标熵。4. 实验我们提出了一个定量和定性评估我们的方法和两个不同的数据集上的各种基线。我们现在提供有关我们使用的数据集和指标的更多详细信息。4.1. 数据集、指标和基线北美：我们创建了一个在北美两个不同城市驾驶自动驾驶汽车捕获的数据集。该数据集由100k对无损校正立体图像组成。我们使用2.5k对进行验证，18k用于最终测试，其余用于训练。该数据集中的图像为480×300。Cityscapes：我们还在Cityscapes原始序列上进行训练[10]，由89k个训练对和45k个测试对组成。对于每个2048×1024的图像，作为预处理步骤，我们从顶部裁剪64个像素，从左侧裁剪128个像素。消除校正伪影。我们还裁剪出底部的240个像素，以去除自我车辆，以便专注于场景图像。我们报告了峰值信噪比（PSNR）和多尺度结构相似性（MS-SSIM）的结果[46]作为比特率的函数。MS-SSIM和PSNR都是常用的感知质量指标，我们测量两者来测试我们模型的鲁棒性。PSNR被定义为-10 log10（MSE），其中MSE是均方误差，并且更好地测量压缩图像。另一方面，MS-SSIM更好地衡量整体结构信息的保存情况。对于MS-SSIM曲线，我们以原始尺度以及对数尺度报告，即从[5]，定义为-10 log10（1-MS-SSIM）。基线：我们的完整算法包括单图像超先验Balle模型[5]以及流行的图像编解码器- BPG和JPEG 2000。我们还尝试采用传统的视频压缩技术作为额外的基线。具体来说，我们在立体声对上运行基于HEVC/H.265标准[41]的编解码器;我们还尝试HEVC [1]的多视图编码（MVC）扩展。另一种方法是尝试深度学习方法来联合编码第一图像、视差图和视差变形残差图像（称为使用Balle 'hyperprior模型压缩第一幅图像然后，我们在立体对上使用SGM来生成视差估计，并使用第二个Balle模型压缩它们最后，我们使用第三个Balle模型来压缩经过灰度补偿的残差图像。4.2. 实现细节我们创建多个立体声压缩模型，每个模型设置为不同的目标比特率。我们将熵损失的权重β分别设置为0.5到0.001之间的值，用于较对于给定目标比特率的每个模型，我们使用相应比特率的预训练的基于单图像的Balle模型[5]初始化编码器和解码器的层这大大加快了我们的训练和收敛时间。我们对所有模型使用2·10−4的学习率，并使用Adam优化参数。我们使用总批量进行4个，跨4个GPU。对于北美，我们在完整的480×300图像上训练，并将C（最大视差）设置为32，而对于Cityscapes，我们在384×240作物上训练，并将C=64。4.3. 实验结果与基线的比较：在北美，我们的立体声模型由我们的跳跃函数和条件熵组成，优于所有这些压缩基线，如图所示。3.注意，我们的立体模型的报告的假设我们的立体声对在我们的模型下和在单个图像设置下一样被压缩，这意味着我们的剩余比特率节省，第二图像的比特率节省，是我们的联合比特率节省的两倍。对于北美，Balle模型的比特率为0.0946，我们的模型平均达到29。0%的联合比特率降低，具有更高的MS-SSIM/PSNR，这意味着58. 0%的剩余减少。在更高的Balle '比特率0.734下，我们的模型达到了17。在较高的MS-SSIM/PSNR下，残差减少8%对于Cityscapes，我们的模型在MS-SSIM中优于所有竞争基线;其在PSNR方面优于除BPG/MV-HEVC之外的所有基线。在相等的PSNR/MS-SSIM下，相对于Balle '的剩余节省范围从较低比特率的30%到较高比特率的10%。我们的深度残差编码基线在北美的所有比特率下的性能都比单图像压缩差，而在Cityscapes的更高比特率下。即使它在数字上接近我们的模型在较低比特率的性能，存在显着的边界/扭曲文物，我们证明在补充材料。我们的基线表现不佳与[49]和[14]的发现一致，后者指出残差图像表现出与完整图像不同的相关性，可能需要以不同的方式建模。3143巴莱（IE）Ballé（Hyperprior）CE0DispSkipDispSkip + CE0DispSkip + CE0 + Hyp.巴莱（IE）Ballé（Hyperprior）CE0DispSkipDispSkip + CE0DispSkip + CE0 + Hyp.输入JPEG2000 BPGBalle 'Ours图4：我们的方法与各种单一图像基线。为每个条目指定了索引1.00北美消融研究（MS-SSIM）北美消融研究（PSNR）42北美消融研究（MS-SSIM dB）280.990.980.970.960.0 0.2 0.4 0.6 0.81.0比特率4038363432300.0 0.2 0.4 0.6 0.81.0比特率262422201816140.0 0.5 1.0 1.5比特率城市景观消融研究（MS-SSIM）城市景观消融研究（PSNR）城市景观消融研究（MS-SSIM dB）0.99524420.9900.9850.9800.9750.9700.9650.2 0.4 0.60.8比特率403836340.2 0.4 0.60.8比特率222018160.2 0.4 0.6 0.8比特率图5：消融研究。对于这两个数据集，我们分析了我们的跳过函数（DispSkip），无超先验条件熵（CE0）和超先验的独立和组合效应消融术研究：我们在北美和Cityscapes进行了消融研究，见图。12、隔离hyperprior）和hyperprior。我们从两个完全因式分解的、独立的单图像压缩模型开始立体声模型中每个组件的影响：跳过（巴勒[5]，表示为IE），没有跳过功能。我们函数（DispSkip）、条件熵（与IE分离），然后分析添加DispSkip对IE城市景观（凸轮2）城市景观（凸轮1）码率：0.200，PSNR：33.24码率：0.322，PSNR：33.00码率：0.281，PSNR：32.14码率：0.2838，PSNR：30.43北美（Cam 2）码率：0.321，PSNR：33.71码率：0.319，PSNR：33.17码率：0.278，PSNR：32.24码率：0.2825，PSNR：30.64北美（Cam 1）码率：0.0295，PSNR：35.05码率：0.0792，PSNR：34.16码率：0.0649，PSNR：34.38码率：0.0643，PSNR：32.71码率：0.0982，PSNR：36.23码率：0.0770，PSNR：34.62码率：0.0651，PSNR：34.59码率：0.0648，PSNR：33.11巴莱（IE）Ballé（Hyperprior）CE0DispSkipDispSkip + CE0DispSkip + CE0 + Hyp.巴莱（IE）Ballé（Hyperprior）CE0DispSkipDispSkip + CE0DispSkip + CE0 + Hyp.巴莱（IE）Ballé（Hyperprior）CE0DispSkipDispSkip + CE0DispSkip + CE0 + Hyp.巴莱（IE）Ballé（Hyperprior）CE0DispSkipDispSkip + CE0DispSkip + CE0 + Hyp.MS-SSIMMS-SSIMPSNRPSNRMS-SSIM dBMS-SSIM dB3144480 x 300分辨率1920 x 720 Res.巴勒36 GFlops345 GFlops我们141 GFlops2700 GFlops表1：我们对来自北美的不同相机基线宽度/分辨率的立体压缩性能的分析。表2：我们的方法与Bal le'相比的FLOP分析。不同基线宽度的影响为了更具体地分析基线宽度对立体声压缩模型的影响，我们以不同的分辨率重新创建了北美的副本 960×480、480×300和240×基线宽度分别为0.175 m、0.088 m、0.044 m模型，以将DispSkip的影响与我们的全条件熵模型隔离。然后，我们定义了一个剥离的条件熵模型（表示为CE0），该模型去除了m分别。我们用C=64训练最高分辨率，用C=32训练其他分辨率。见表1，我们实现比特率降低，同时增加感知所有hyperprior：y1现在由完全因子化的北美所有分辨率级别的指标entro py，y¯2由仅依赖于y¯1 的 GMM 建模。我们对CE0进行了列车试验，包括有无DispSkip，当没有超先验边信息时，在编码时使用。我们最终的立体模型由DispSkip、CE0和hyperprior组成，我们也展示了这条曲线。如图12，DispSkip本身在较低比特率下提供了比纯IE模型更大的增益，并在较高比特率下收敛到单图像压缩。与此同时，CE 0在所有比特率上始终提供优于IE的性能增益;这种改进大致相当于为两种图像编码拟合Balle超先验熵模型的改进。当与DispSkip（DispSkip+ CE0 ）相结合时，该模型的性能略优于 Balle'hyperprior模型。最后，DispSkip+ CE0 + hyperprior（形成我们的完整立体声模型）在所有比特率上提供最大的度量增益。当结合DispSkip、CE0和hyperprior时，我们观察到一些额外增益的蚕食。当我们结合DispSkip + CE0时，增益的减少具有直观的意义：我们的视差变形跳跃连接集中于重复使用冗余信息，从而降低图像代码之间的相关性，而当两个图像代码中的相关性较高时，我们的CE0模型的熵较低。此外，拟合已经可以帮助减少单个图像的熵的超先验辅助信息可以稍微减少CE 0可以提供的附加熵减少。定性结果：我们的模型在立体对上的定性演示在图中给出。 4.我们表明与Balle模型和其他编解码器相比，我们的方法在较低的比特率下具有更好的更具体地说，我们的立体模型更好地保留了整体的边缘和颜色，而不会引入文物。虽然BPG与我们的模型在Cityscapes上具有竞争力，但我们观察到BPG放大了某些高频细节，同时扭曲了低频区域。我们把更多的定性分析留给补充材料。答：在GTX 1080-Ti上，我们的立体声模型对于480x300北美对需要130 ms，对于1920 x720 Cityscapes对需要2246 ms。此外，FLOPS显示在Tab中。2.时间复杂度为O（N）和O（Nlogn），其中N是#个符号，并且n是#个唯一符号。我们的复杂性主要由成本量的计算。我们注意到，我们可以尝试稀疏近似的成本量，或不同的分布参数化，而不是一个密集的softmax，以节省计算/内存为未来的工作。视差体积：为了解释在我们的DispSkip连接中学习到的信息，Fig.图2示出了对于Cityscapes立体声对，在一个特定比特率水平（比特率0.442）下的编码器/解码器中的视差体积的可视化。这些可视化是通过对每个体积中的每个视差维度的概率向量采用模式来生成的。学习的视差图在每个级别捕获不同的信息，有助于支持我们在编码器和解码器的每个级别预测单独的视差量的理由。5. 结论我们提出了一种新的深度立体图像压缩算法，它利用立体对之间的内容冗余，以减少联合比特率。为了实现这个目标，我们提出了参数跳过函数和条件熵模型来模拟图像之间的依赖关系。我们在两个大规模数据集上验证了我们的方法的有效性，并证明我们的立体模型与单图像深度压缩模型相比，从高到低的比特率将第二图像的比特率降低了10-50%。此外，我们证明了我们的跳跃函数和条件熵都有助于提高比特率和感知质量。在未来，我们计划将我们的方法扩展到多视图图像和视频压缩设置。决议960 x 300480 x 300240 x 150比特率（我们的）0.3610.4060.437MS-SSIM（我们的）0.99360.99350.9915峰值信噪比（我们的）40.1238.2235.61比特率（Balle´）0.4140.4790.5183145引用[1] MV-HEVC实施.可在https://github.com/listenlink/3D-HEVC上获得。[2] EirikurAgustsson，FabianMentzer，MichaelTschannen ， Lukas Cavigelli ， Radu Mrs. fte ， LucaBenini，and Luc V Gool.用于端到端学习可压缩表示的软到硬矢量量化。NeurIPS，2017。[3] Haluk Aydinoglu和Monson H.海耶斯立体图像编码：一种投射方法。IEEE Transactions on Image Processing，1998。[4] JohannesBal le´、ValeroLaparra和EeroP. 西蒙切利端到端优化的图像压缩。在ICLR，2017。[5] JohannesBalle´ ， DavidMinnen ， SaurabhSingh ，SungJinHwang，and Nick Johnston.基于尺度超先验的变分图像压缩。在ICLR，2018年。[6] JohannesBal le´、ValeroLaparra和EeroP. 西蒙切利使用广义归一化变换的图像密度建模。InArXiv，2015.[7] 康奈利·巴恩斯，伊莱·谢赫特曼，亚当Finkelstein，and Dan B Goldman. PatchMatch：一种用于结构图像编辑的随机对应算法。SIGGRAPH，2009年。[8] 斯坦·伯奇菲尔德和卡洛·托马西。像素到像素立体的深度不连续性。载于ICCV，1998年。[9] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR，2018年。[10] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。[11] Markus Flierl和Bernd Girod多视图视频压缩。IEEE信号处理杂志，2007年。[12] Markus Flierl，Aditya Mavlankar，and Bernd Girod.用于多视点视频的运动和视差补偿编码IEEE Transactions onCircuits and Systems for Video Technology，2007。[13] John Flynn，Ivan Neulander，James Philbin，and NoahSnavely. Deepstereo：学习从世界图像中预测新视图。在CVPR，2016年。[14] 塔马斯·弗拉卡和肯尼斯·泽格用于立体图像压缩的残差图像编码载于ICIP，2002年。[15] Jun Han，Salvator Lombardo，Christopher Schroers，andStephan Mandt.深度概率视频压缩。InArXiv，2018.[16] 玛莎·乔·汉娜立体图像中区域的计算机匹配。博士论文，斯坦福大学，加利福尼亚州，美国，1974年[17] 海科·赫希穆勒利用半全局匹配和互信息进行立体处理。IEEE Transactions on Pattern Analysis and MachineIntelligence，2008。[18] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML ，2015。[19] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu.空间Transformer网络。2015年，在NIPS[20] Chuanmin Jia ，Xinfeng Zhang，Shanshe Wang ，ShiqiWang，Shiliang Pu，and Siwei Ma.使用基于生成对抗网络的视图合成的光场图像压缩。 IEEE Journal onEmerging and Selected Topics in Circuits and Systems，2018。[21] Xiaoran Jiang ， Mikael Le Pendu ， and ChristineGuillemot.使用基于深度图像的视图合成的光场压缩。在ICMEW，2017年。[22] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习InICCV，2017.[23] Masaki Kitahara 、 Hideaki Kimata 、 Shinya Shimizu 、KazutoKamikura 、 YoshiyukiYashima 、 KenjiYamamoto、Tomohiro Yendo、Toshiaki Fujii和MasayukiTanimoto。使用视图内插及参考图片选择的多视图视频译码。ICME，2006年。[24] Jooyoung Lee，Seunghyun Cho，and Seung-Kwon Beack.用于端到端优化图像压缩的上下文自适应熵模型。2019年，在ICLR[25] 刘豪杰

下载后可阅读完整内容，剩余1页未读，立即下载