学习图像压缩和生成对抗网络在传统编解码器中的应用

139 浏览量更新于2024-01-22 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16165如何开发学习图像压缩到传统编解码器国立台湾大学kloppjp@gmail.com台湾人工智能实验室calvin89029@gmail.com国立台湾大学lgchen@ntu.edu.twsychien@ntu.edu.tw摘要有损图像压缩通常受到所选损失度量的简单性的限制。最近的研究表明，生成对抗网络有能力克服这一限制，并作为多模态损失，特别是对于纹理。再加上学习的图像压缩，这两种技术可以用来很大的效果时，放松常用的紧张措施的失真。然而，基于卷积神经网络的算法具有较大的计算占用空间。理想情况下，现有的传统编解码器应该保持不变，确保更快地采用并遵守平衡的计算包络。作为实现这一目标的可能途径，我们提出并研究了如何学习图像编码可以作为一个替代品来优化图像编码。一个学习过的过滤器会改变图像，以优化不同的性能指标或特定的任务。通过生成式对抗网络扩展这一想法，我们展示了整个纹理如何被编码成本较低但保留细节感的纹理所取代。我们的方法可以改造一个传统的编解码器ad-just为MS-SSIM失真与超过20%的速率改进，而没有任何解码开销。在任务感知的图像压缩，我们表现良好，对一个类似的，但编解码器特定的方法。1. 介绍形成视频压缩的基础，图像压缩大多数压缩算法是有损的，即，它们不再现原始内容，而是允许降低编码速率的偏差有损压缩优化了目标L=R+λD（1）其中R和D分别代表速率和失真，λ控制它们相对于彼此的权重。在实践中，计算效率是另一个约束，因为至少解码器需要在有限的功率包络下实时处理高分辨率，这通常需要专用硬件实现.对编码器的要求更宽松，通常允许甚至离线编码而不要求实时能力。最近的研究沿着两条路线发展：一方面，现有编码技术的演变，如H264 [41]或H265 [35]，最终在最新的AV1编解码器中达到高潮。另一方面，受计算机视觉中深度学习的成功启发，基于可变自动编码器[20]，已经开发了几种学习图像压缩方法。通过对潜在代码的符号概率进行仔细建模这就用工程上的努力换取了复杂性：训练神经网络图像编解码器比设计一个传统的编解码器要简单得多。然而，所得到的神经解码器需要每像素105个操作的数量级，其中传统的编解码器具有至多几百个操作，是几个数量级更有效。考虑到移动设备上消耗的视频和图像数量，这是一个重要因素学习压缩的另一个优点是能够容易地适应不同的分布或失真度量。通过仅仅收集数据并选择适当的失真损失，可以快速训练新的编解码器，而不必手动重新设计编码工具或内部参数。16166在这项工作中，我们采取了一个步骤，利用传统的编解码器的学习编解码器的在这样做的时候，我们-表1.比较不同的编码机制，以确定它们影响有损编码流水线的哪一部分。接近编码器/解码器能够在不接触解码器的情况下实现更高的压缩性能，这意味着现有的端点解码器实现不需要改变。在有损压缩中，适应性有两个方面：丢弃难以编码且不重要的信息，其次，利用数据中昂贵的冗余。后者将需要重新组织数据或改变编解码器可以在编码时应用的编码工具。然而，前者是可行的，因为数据可以在让编码器将其映射到其编码表示之前被改变。去除捕获后我们展示了这个方案的三种可能的应用：1. 我们应用过滤机制虹吸出的信息，将推动编码成本，但只有很少的关注相对于所选择的损失函数。引入学习的编解码器作为替代梯度提供者，常规编解码器可以以超过20%的速率改进被改装到MS-SSIM失真测量。2. 我们将该方法应用于特定任务的压缩，在图像分类上表现良好，而无需专门对目标编解码器进行建模3. 我们将代理诱导过滤器与生成对抗网络配对，以改变图像，使其超出简单失真措施的优化范围。纹理被替换为具有较短代码表示的感知相似的替代品，从而在编码过程中幸存下来并保留原始印象的清晰度。通过简单地操作输入数据，我们改变了固定功能编解码器的行为方式。我们提出了对不同数据集和编解码器的评估，并展示了如何引入GAN可以在低编码速率下产生明显更清晰的图像的例子。2. 学习使用代理编解码器进行过滤目前的编码机制最常见的情况是变换编码的一种，其中数据首先被变换，然后在变换域中被量化，最后使用算术编码的变体进行有损编码。传统的编解码器使用余弦或正弦变换，而学习的编解码器用卷积神经网络代替它们。这具有明显的优点，即神经网络的滤波器可以适于省略具有低边际编码增益的信息，即编码成本高并且只有很少的好处，如通过给定的损失函数所测量的表1显示了不同编码工具调用的功能在具有固定变换的编解码器中，该过程需要手动仿真，这通常通过改变量化粒度来进行，使得高频变换系数比低频变换系数更粗略地量化然后通过同时调整所有系数的粒度来实现不同的率失真权衡。省略信息隐含地发生在量化过程中。然而，这要求变换根据信息的重要性来分离信息，使得变化的量化粒度具有期望的效果。一般的基本思想是，低频内容是最重要的，重要性随着频率的增加而降低虽然这足以区分噪声与某些内容的实际信息，但它通常不成立。因此，需要更多的自适应滤波器，然而难以调整，因为它们对编码行为的影响是未知的。省略不重要的信息有助于显著减小压缩的多媒体数据的大小对于一个最佳的编解码器，这将是可取的，设计的数据滤波过程中，一方面失真的措施和变换和编码过程中的其他考虑。基于机器学习的编解码器可以隐式地做到这一点，因为所需的所有元素都是可区分的。它们的优化过程允许滤波器适应输入数据、失真测量和算术编码过程。对于传统的编解码器，该过程是通过广泛的工程设计和依赖于代码结构的局部优化来实现的，例如，如何将图像划分为变换块或预测模式的选择，这使得难以将编解码器变成可区分的函数并获得相对于输入图像的梯度。在机器学习文献中，这被称为黑盒函数优化，例如通过REINFORCE学习算法[42]或学习到学习方法[15，3，11]。然而，这些方法依赖于待优化的未知函数的近似。可能会过滤不太重要的信息告知。Redund.代码推荐过滤器Conv. 编解码✓✓联系我们学习. 编解码✓✓✓ ✓ ✓去噪✓修复✓✓[12、34]✓✓我们✓16167梯度向前��መ;��መ替代梯度�� ，;��替代编解码器+��መ利率估计或利率估计;利率编码器Reconstrasse ---目标损耗免费WiFi开关滤波器��መ=��;��你好，你好��መDistortionMeas ure测量范围，范围��图像处理Reconstrand的优势��编码器RateEstim ato r��图像处理目标编解码器（无差异）图1.我们方法的结构概述。目标是获得经训练的滤波器fF（I; θF）以优化输入图像I以供目标编解码器编码。这个目标通常是不可微的。替代编解码器被使用。它提供了一个可区分的速率估计。对于重建，有两个选项，如开关所示第一个是获取代理的重构，第二个是在向前传递过程中调用目标。梯度相应地通过代理的重建或直接流回过滤器。目标失真度量DT可以自由选择。替代编解码器是用与目标编解码器的失真度量类似的失真度量来预训练的，以便模仿其行为。在测试时，过滤器在图像被目标编解码器编码之前被应用于图像要求这种近似非常精确，因为施加到输入图像的变化预期在幅度上很在初步实验中，我们发现即使是复杂的深度模型也不能准确地近似编解码器这很可能是具有速率gR（I;θC）的编解码器g和解码的重构gD（I;θC）两者都利用某个参数向量θC。使用此方法，可以通过在λT= arg minLg = arg mingR（I+λ）+λT DT（gD（I+λ），I）ζ ζ由于非平稳误差分布的复杂性（三）编解码器产生的信号，在相邻的个街区.为了解决这个问题，[12]提出了一种预测可以使用基于梯度下降的算法来优化。然后，原始编解码器对修改后的输入图像I =I+I+I进行操作，目的是实现JPEG编解码器的优化量化矩阵。[34个]添加了一个预编辑网络，类似于我们的方法。[37]还建议在编码之前进行图像编辑，. ΣLh>Lh=hRI+λTDT..Σ ΣhD I.（四）编码性能这三种方法都证明了EF-对于选定的目标失真DT。这里的假设是有效性，但依靠建模的JPEG编解码器作为一个不同的，可引用函数因此，它们仅限于这种相当简单的编解码器。在[12]的情况下，它们对量化表的独占使用对校正施加了限制虽然损失不同（Lg=/μ），但它们是相似的：Lg（h）所提供的gra-.（五）他们可以表演。相比之下，我们提出了一种方法，不依赖于直接近似的编解码器，但利用（编解码器，I我们引入一个滤子I<$=fFˆI（I;θF））来预测过滤后的tiable）模型，其优化相同的目标，即Eq. 1.一、这种方法的结构如图1所示。我们的目标是近似梯度图像I直接从原始图像I。其参数θF可以使用损失L的梯度来训练，其中替代编解码器提供速率估计。参数λT控制了速率和失真之间的权衡，Lh=（二）过滤器f F.∂I ∂I ∂I具有速率hR（I）的编解码器h的损失函数Lh，解码重建Ik=hD（I），以及解码图像和原始图像I之间的失真度量D（Ik，I）。我-像[30]这样的年龄压缩模型提供了一个可区分的大多数编解码器被设计用于特定的固有失真测量DI。对于H265或H264等常见编解码器，在标准化期间使用PSNR评估编码工具和机制。这表明编解码器在速率失真权衡161681616当受到不同的失真测量时。因此，用于优化所学习的编解码器g的参数θC的度量应该与h所设计的度量相同。这将通过实验得到证实。我们将用DS表示该测度，因为它是函数滤波器，用于计算预测为了融合这些预测，我们首先应用sigmoid将它们转换为概率，然后计算每个阶段的平均值Σ3来近似。另一方面，当优化等式3时，可以自由地选择失真DT，只要它是可微的。关于我们（I）=13s=1E[sigmoid（ps（I））] （6）利用该框架，我们被设置为针对所选择的特定目标失真DT优化滤波器，同时观察由代理编解码器的速率估计给出的速率约束2.1. 网络架构2.1.1滤波器滤波器需要去除编码成本太高并且对失真DT影响很小的信息。所选择的网络架构如图2所示。第一阶段是相同的编码器和速率估计所选择的替代编解码器。一般的想法是，滤波器首先需要估计图像的哪些区域具有较高的信息浓度。这包含在熵估计H i，j，k中。H i，j，k是维度-其中C是编码张量的通道数，h和w是图像的维度。为从[30]中选择的代理模型，这是C=320。下一步是使用步长为2的四层转置卷积连续地将代码扩展到图像的我们不断减少每层中的过滤器数量，以便每个像素具有16个输出特征在每个像素处不使用单个值背后的想法是，我们希望表示更复杂的分布，因为编码成本到单个像素的分配显然是有挑战性的，并且分布可以被解释为是有条件的。在下一步骤中融合的输入图像上的函数得到的逐像素熵估计Hpixel∈Rh×w×16与输入图像I连接，以用作实际滤波器的输入滤波器本身由四个残差块组成在整个滤波器中，我们使用64个通道和大小为3×3的内核2.1.2鉴别器我们选择一个简单的过滤器，因为它的唯一任务是识别滤波图像I中的伪影和纹理中的简单图案，而不是从零开始生成图像时的较大结构或语义相干对象。如[32]所述，我们的方法有三个连续的阶段来捕获不同尺度的伪影每个阶段由两个残差块组成。Subse-在剩余区组之前，quent阶段应用2×2平均合并每个阶段s后面都有一个卷积，我们注意到，只有在但这确实会导致图像中的模糊等低级伪影，这是Rippel和Bourdev之前的观察结果[32]。与[2]类似，我们使用最小二乘目标来训练器，如之前在[27]中介绍的那样。鉴别器和滤波器交替优化即不使用相同的批次，以保持稳定性。3. 实验3.1. 实验条件3.1.1数据集用于评估的是柯达数据集（24张图像，约0.35MP）和CLIC竞赛的我们的训练数据来自ImageNet数据集和CLIC我们随机调整图像大小，其短边在512和1024px之间，然后采样256×256裁剪。3.1.2代理模型我们使用Minnen等人提出的深度卷积神经网络模型[30]。除了具有广义分裂归一化的4层编码器和解码器[7]之外，它还使用上下文建模来最小化代码符号的熵它已被证明可以很好地用于MS-SSIM以及PSNR失真度量，并在Kodak测试集上实现最先进的性能。此外，还有一个参考实现[5，9]。3.1.3优化我们的模型使用PyTorch [31]实现，并使用Adam [19]优化器进行训练。对于400.000次迭代，使用批量大小为8的学习率为1 e-4，之后对于另外100.000次迭代，学习率降低到1 e-5。3.1.4编解码我们使用JPEG，WebP，BPG（H265/HEVC）[10]和最近发布的AV 1来验证我们的假设和演示编码改进。对于所有编解码器，我们选择最大增益超过编码速度，并在编解码器的原生YCbCr颜色空间中编码16169残余块费率-张量已提交Im age��图像处理编码器像素速率估计器Concatenate滤波器图2. 过滤器组件的体系结构。编码器（灰色）取自替代编解码器。然而，我们不使用它的潜在表示，而只使用它的速率估计，即函数hR。它的重量是固定的。通过四个连续的转置卷积将潜在码的速率估计转换为逐像素速率估计。结果与输入图像连接并馈送到由四个残差块组成的滤波器。23222120191817161514131205101520250.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7速率（位/像素）图3.针对MS-SSIM优化代理诱导滤波并在Kodak数据集上进行测试时，不同编解码器的率失真特性和相对速率节省虚线表示没有滤波的编解码器的速率失真特性，实线表示具有滤波的编解码器的速率失真特性。虚线（青色）是使用在MS-SSIM损失而不是PSNR上训练的替代编解码器创建的。它没有显示出比原始BPG（H265）编解码器的改进，下图显示了不同速率下的速率节省，即过滤后的编解码器相对于原始编解码器所需的速率降低了多少。3.2. 适用于MS SSIM我们训练一个滤波器来最小化速率和对MS-SSIM失真测量的影响。这个想法是，大多数编解码器被设计为最小化MSE，并且在选择最佳表示时也可以在内部进行测量。编码时的声音。MSE不仅可以更快地计算，而且它也因此，我们以不同的率失真权衡λT训练三个模型，以覆盖率范围的不同部分。我们在初步实验中发现，当直接优化替代时，即不训练滤波器fF（I;θF）时，学习的替代编解码器在由λS确定的其操作点附近表现良好，然而，一旦权衡点λ显著改变，则性能迅速下降。对于这组实验，我们选择λ S∈ {0。1、0. 2，0。4}对于MSE优化的代理。当优化Eq.4使用对于替代编解码器，需要适当地选择目标MS-SSIM损耗的速率-失真折衷λT。通过比较针对两种失真中的每一种失真优化的λS、MSE、λS、MS-SSIM替代编解码器对将产生类似的速率，我们发现λT=500λS有限制非常高的比特率作为我们的retargeting- geting过程中取出的信息，因此重建的结构错误不能任意小。这反映在图3中的曲线图中。对于更高的速率，其中误差非常小，滤波效果减弱，滤波后的版本最终具有比原始版本更差的失真。对于更高级的编解码器AV1、BPG和WebP，低速率的速率节省达到峰值。仅对于JPEG，速率节省的动态性要小得多原因可能在于JPEG编解码器的简单性，因为编码和量化过程是静态的，所以用于优化的空间很小有趣的是，对于这两个数据集，BPG编解码器最初的性能比AV1差。然而，它具有更高的自适应编码增益，使得两种编解码器的滤波变体几乎相等。比较图中柯达数据集的速率节省图3中CLIC专业数据集的验证部分的那些4，注意到三个高级编解码器H265（过滤）H265H265（过滤器/MSSSIMsurr.）AV1（过滤）AV1WebP（filtered）WebPJPEG（filtered）JPEGChoi等人（仅JPEG）利率节省（%）Distortion：MSSSSIM（dB）16170HAV1WebPJPEG265. Σ0其中yGANI由Eq定义。六、关于The Eyes损失优化了LGAN的相反目标：5L鉴别器=EIΣ2（1−yGAN（I））Σ+EIΣ Σ2yGAN（fF（I;θF））（九）150.10.20.30.40.50.60.70.80.91.01.1 1.2速率（位/像素）图4.针对MS-SSIM优化代理诱导过滤并在CLIC Professional（验证）数据集上进行测试时，不同编解码器的相对速率节省。在节省差饷方面亦有类似表现。在早期有一个高峰，然后是一个稳定的，平行的下降。这表明，在较高速率下，来自滤波过程的引入误差相对于编码误差太高当仅对数值测量而不是虚拟测量进行优化时，无法克服此限制。这是另一个原因，也可以看看感知损失，如生成对抗网络，如3.3节所讨论的。除此之外，CLICProfessional数据集的更高分辨率图像更难以优化，但仍有高达15%的编码增益。较高的分辨率通常具有较低的信息密度，使得更难过滤掉不相关的部分。最后，我们还测试与代理编解码器优化 DS=MS-SSIM。这在图中显示为青色虚线。3 .第三章。与原始编解码器相比没有任何改进，这表明代理的速率估计需要基于正确的损失函数来对编解码器的速率进行正确分配3.3. 生成对抗网络生成对抗网络在重建高分辨率自然图像的各种任务中取得了显着的成果，例如超分辨率[23]。在编解码器适配的上下文中，GAN用作（附加的）损失度量。在[2]之后，除了GAN损失LGAN之外，我们还采用[40]中提出的MSELMSE和基于VGG的感知损失LVGG，以确保图像内容保持相似并且仅纹理信息发生变化。的滤波器的最终损失函数将这三个失真项添加到代理编解码器的速率项hRL滤波器=γGANL GAN+γ VGGL VGG+γ MSEL MSE+hR（7）其中不同的损耗分量可以根据一个人的目标来加权滤波器的GAN损失L GAN（I θF）以滤波图像I θ F =f F（I ; θ F）为条件，由下式最小二乘目标来自[27]：L鉴别器和L滤波器每隔一次依次优化。在Eq中的权重的选择。7确定GAN传感器应应用哪种灵敏度。较低的权重γGAN仅允许图像中的小变化，使得较小的伪影被校正。然而，纹理将不会被交换为具有较短代码长度但在低速率下编码时看起来很关键的纹理将GAN的权重设置为γ GAN = 5。0和γVGG=0。01，γMSE=0. 001，过滤器强制过滤器替换不可替代的尖锐纹理，更短的代码长度。MSE和基于VGG的损失确保纹理与原始纹理相似。这种转换的示例如表2所示。由于低速率，编解码器在更低的编码速率下，我们的预过滤图像能够在整个编码过程中保留感知细节这样，在不改变传统编解码器用来表示图像的机制的情况下，我们可以通过其输入来操纵编解码器，以优化基于感知的目标。好处是，可以重用每个像素仅进行约100次操作的浅解码器，并且编码器仅被增强，否则保持不变。3.4. 任务感知压缩任务感知压缩在压缩数据时考虑非感知任务在这项工作中，我们遵循[12]并使用ImageNet [17]对象识别任务。为了学习过滤器，我们使用PyTorch提供的预训练ResNet-18 [14]对于这个任务，过滤器接收分类器这需要对我们的算法做两个修改。第一种是以非常低的方差初始化滤波器如果省略这一点，（最初随机的）校正信号仍将被调整以加强某些特征。然而，学习的编解码器显然，其原因在于，存在某些高频信号，这些高频信号对于学习的编解码器来说是便宜的，但是对于传统的编解码器来说是昂贵的，并且滤波器倾向于利用这些高频信号，因为它们更接近于其自身的起始点，即，高方差随机初始化。第二种方法是使用目标编解码器LGAN（I））=EIΣΣ2（1−yGAN（fF（I;θF）（八）- 滤波图像I的编码版本，hD（I），以获得馈送-从分类器返回哪些特征是重要的。利率节省（%）1016171表2.视觉比较，显示我们的算法如何修改图像中的某些纹理，以模仿原始图像原始H265（未过滤）我们的（H265过滤）速率：0.086 bit/pixel速率：0.084 bit/pixel速率：0.045 bit/pixel速率：0.042 bit/pixel速率：0.190 bit/pixel速率：0.192 bit/pixel16172908070605040300.24 0.26 0.28 0.30 0.32 0.34 0.36 0.38 0.40速率（位/像素）图5.我们的工作与Choi等人的比较。（[12]）使用Inception-v3进行ImageNet图像识别任务。[12]的基础。虽然由于在批量大小B的前向传递期间B对传统编解码器的调用，这减慢了训练，但它解决了与前一段中相同的问题。丢失的信息很可能是涉及相当细粒度识别的高频信号。如果直接使用代理编解码器滤波器可能过拟合并利用低成本、高频信号.为了进行测试，根据[12]，我们使用预先训练的Inception-v3架构[36]。我们在训练时使用JPEG以30的质量水平训练单个模型。在测试时，我们对图像进行一次过滤，然后以不同的质量级别对其进行编码。结果示于图五、虽然[12]有一个更复杂的模型，模仿JPEG编解码器，我们的方法表现良好。一个原因可能是[12]只操纵量化表，而我们的方法可以对图像进行任意更改。在这一点上，我们的方法虽然更简单，但更强大。4. 相关工作作品[12，34，37]与我们的相关，因为它们通过改变其输入来改进传统的编解码器。然而，他们的方法仅限于JPEG编解码器的显式建模，这是很难扩展到更复杂的编解码器。在实验部分中，我们表明，我们的方法在将编解码器重定向到另一个度量时与它们的性能相似，并且在特定于任务的压缩上表现良好。我们的工作与采用生成对抗网络来重建任务的其他方法有关对于图像压缩，这些是最近的作品[2，29]。与我们的方法不同，他们的工作从概念的角度看待问题，忽略了复杂性约束或使用现有编码方案的好处，在图像形成过程中使用多层神经网络。与他们的工作类似，我们采用了学习图像压缩的技术。已经提出了递归架构[38，39，18]以及采用具有各种扩展的可变自动编码器[7，24，4，1，32潜在代码模型[6，25，22，30，8，28]。在几年内，这些技术已经缩小了与传统编解码器的差距然而，他们的解码器需要每像素三到四个同样，这是我们方法的一个重要区别，因为我们的目标是现有的编码管道。此外，这些工作已经典型地通过添加和编码光流[26，13，33]而被不必要地扩展到视频编码域其他作品通过添加神经网络作为去噪模块来改进现有的编解码器。预训练的去噪器，如[16，43]是有效的，但与上述方法一样，确实严重增加了解码器的复杂性。使用小型神经网络的在线适应，[21]表明可以显着降低复杂性，同时提供类似于预训练网络的编码增益。不利的是，这些方法需要改变编解码器架构，并且仅以数值损失为目标，即优化等式1，而不是感知损失。5. 结论我们已经演示了如何将基于机器学习的图像压缩算法重新用作替代梯度生成器来训练图像滤波器，以改变传统编解码器的编码特性，而无需明确建模其行为。实验表明，重新定位到MS-SSIM失真测量导致超过20%的编码增益，这是任务感知图像压缩上的编解码器特定优化方法的优势，以及如何添加生成对抗网络，即使在非常低的速率条件下也能我们的方法为未来的研究开辟了一些可能的方向。以更高的精度对现有或即将推出的例如，在智能手机中发现的手动优化的图像信号处理流水线可以从采集到图像形成和编码进行端到端的优化所介绍的概念也扩展到运动图像领域，这可以使编解码器改装超越静止图像。最后，所提出的技术不需要改变编码流水线。编码器和解码器支架到位因此，我们认为，在对比到许多其他图像编码改进，它可以利用现有的传统解码器的有效硬件实现。我们的（前5名）Choi等人（前5名）基线（前5名）我们的（前1名）Choi等人（Top-1）基线（Top-1）准确度（%）16173引用[1] EirikurAgustsson，FabianMentzer，MichaelTschannen ， Lukas Cavigelli ， Radu Pastefte ， LucaBenini，and Luc Van Gool.用于端到端学习可压缩表示的软到硬矢量量化。NIPS，2017年。[2] EirikurAgustsson ， MichaelTschannen ， FabianMentzer，Radu Moofte，and Luc Van Gool.用于极端学习图像压缩的生成对抗网络。2018年[3] 作者： MarcinAndrycho wicz ， MishaDenil ， SergioGo'mezCol-menarejo ， Matthew W.Hoffman ， DavidPfau，Tom Schaul，Brendan Shillingford，and Nando deFreitas.学习通过梯度下降来学习。2016年第30届神经信息处理系统[4] 穆罕默德·哈里斯·拜格，弗拉德伦·科尔通，洛伦佐·托雷萨尼。学习图像压缩的修补。NIPS，2017年。[5] 约翰内斯·鲍尔，宋金宏，尼克·约翰斯顿，和D·a·维德·明嫩。tensorflow/compression：Ten- sorFlow中的数据压缩，2018。[6] 约翰内斯·鲍尔，尼克·约翰斯顿和D·a·维德·明嫩。隐变量模型数据压缩的集成在2019年国际学习代表会议上[7] JohannesBal le'，ValeroLaparra，andEeroP. 西蒙切利端到端优化图像压缩。ICLR，2017年。[8] JohannesBalle' ， DavidMinnen ， SaurabhSingh ，SungJinHwang和Nick Johnston。基于尺度超先验的变分图像压缩。2018年国际学术代表会议[9] JeanBe'gaint，FabienRacape'，SimonFeltman，andAkshayPushparaja.CompressAI：用于端到端压缩研究的PyTorch库和评估平台。第1-19页，2020年。[10] 法布里斯·贝拉德BPG图像格式。[11] 陈宇天Matth e wW. 何福福曼，SergioGo'mezColmenarejo ， MishaDenil ， TimothyP.Lillicrap，Matt Botvinick，and Nando De Freitas.学习用梯度下降来学习无梯度下降. 第34届机器学习国际会议，ICML 2017，2：1252[12] 崔振英和韩宝亨JPEG图像压缩的任务感知在欧洲计算机视觉会议上，2020。[13] 阿米尔侯赛因·哈比安，提斯·范·罗森达尔，雅各布·汤姆扎克，塔可·科恩.视频压缩与率失真自动编码器。在IEEE国际计算机视觉会议论文集，第2019- 2018卷，第7032-7041页[14] 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议（CVPR），2016年。[15] Sepp Hochreiter，A. Steven Younger和Peter R.康威尔学习使用梯度下降。课堂讲稿在计算机科学（包括子系列讲座笔记，人工智能和生物信息学讲义），2130：87 -94，2001。[16] Chuanmin Jia ，Shiqi Wang ，Xinfeng Zhang， ShansheWang，Jiaying Liu，Shiliang Pu，and Siwei Ma.用于高效视频编码中环路滤波的内容感知卷积神经网络IEEE图像处理学报，第1-1页[17] Jia Deng，Wei Dong，R.Socher，Li-Jia Li，Kai Li，andLi Fei-Fei.ImageNet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页[18] Nick Johnston 、 Damien Vincent 、 David Minnen 、Michele Covell、Saurabh Singh、Troy Chinen、Sung JinHwang、Joel Shor和George Toderici。递归网络中具有启动和空间自适应比特率的有损图像压缩的改进。计算机视觉与模式识别，2017年。[19] Diederik P. Kingma和Jimmy Lei Ba。亚当：一种随机优化方法。2015年国际学习代表会议，第1-15页[20] 迪德里克·P·金马和马克斯·威林。自动编码变分贝叶斯。ICLR，第1-14页[21] Jan P. Klopp，Liang-Gee Chen，and Shao-Yi Chien.使用低复杂度 CNN 来提升视频编码中的非局部 IEEETransactions on Image Processing，第1-1页[22] Jan P Klopp ， Yu-chiang Frank Wang ， and Liang-geeChen. 利用图像内相关性学习码空间预测器在英国机器视觉会议上，第1-12页[23] 克里斯·蒂安·莱迪格、卢卡斯·泰斯、费伦茨·胡斯·扎尔、乔斯·卡瓦列罗、安德鲁·坎宁安、亚历杭德罗·阿科斯塔、安德鲁·艾特肯、阿利汗·特贾尼、约翰内斯·托茨、王泽汉和史文哲。使用生成对抗网络实现照片级真实感单幅图像超分辨率。论文集-第30届IEEE计算机视觉和模式识别会议，CVPR 2017，2017。[24] 慕丽、左望梦、古书航、赵德斌、张大卫。用于内容加权图像压缩的学习卷积网络。2017年。[25] 刘豪杰，陈彤，郭佩瑶，沈秋，马占。用于深度图像压缩的嵌入先验的门控上下文模型。2019年2月[26] Guo Lu，Wanli Ouyang，Dong Xu，Xiaoyun Zhang，Chunlei Cai，and Zhiyong Gao.DVC：端到端深度视频压缩框架。在计算机视觉和模式识别，2019年11月。[27] 毛旭东，李庆，谢浩然，Raymond Y.K. Lau ，ZhenWang，and Stephen Paul Smolley.最小二乘生成对抗网络。IEEE计算机视觉国际会议论文集，2017年-EWB：2813[28] FabianMentzer，EirikurAgustsson，MichaelTschannen，Radu Pastefte，and Luc Van Gool.深度图像压缩的条件概率模型。2018年[29] Fabian Mentzer，George Toderici，Michael Tschannen，and Eirikur Agustsson.高保真生成图像压缩。2020年。16174[30] D a vidMinnen，JohannesBal le'，andGeo r geToderici. 联合自回归和分层先验的学习图像压缩。在神经信息处理系统，第10771-10780页[31] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。PyTorch中的自动区分。在2017年的NIPS Autodiff研讨会[32] 奥伦·里佩尔和卢博米尔·布尔德夫。实时自适应图像压缩。ICML，2017.[33] Oren Rippel ， Sanjay Nair ， Carissa Lew ， SteveBranson，Alexander G. Anderson，and Lubomir Bourdev.学习视频压缩。2018年11月。[34] 杨尼克·斯特鲁姆普尔，任阳，拉杜·提莫夫特。学习在不改变标准解码器的情况下改进图像压缩。第16届欧洲计算机视觉研讨会论文集，2020年。[35] Gary J. Sullivan，Jens Rainer Ohm，Woo Jin Han，andThomas Wiegand.高效视频编码（HEVC）标准概述。IEEE Transactions on Circuits and Systems for VideoTechnology，2012。[36] Christian Szegedy，Vincent Vanhoucke，Sergey Ioffe，Jon Shlens和Zbigniew Wojna。重新思考计算机视觉的初始架构。 Proceedings of the IEEE Computer SocietyConference on Computer Vision and Pattern Recognition，2016-Decem：2818[37] Hossein Talebi，Damien Kelly，Xiyang Luo，Mr. GarciaDorado ， Feng Yang ， Peyman Milanfar ， and MichaelElad.更好的压缩与深度预编辑。Arxiv，2020年。[38] 作者：George Toderici ，Sean M. O'Malley ，Sung JinHwang ， Damien Vincent ， David Minnen ， ShumeetBaluja，Michele Covell，and Rahul Sukthankar.用递归神经网络实现可变速率图像压缩。关于学习表征的国际会议，第1-9页[39] George Toderici、Damien Vincent、Nick Johnston、SungJin Hwang、David Minnen、Joel Shor和Michele Covell。基于递归神经网络的全分辨率图像压缩。计算机视觉与模式识别，2016。[40] Ting Chun Wang，Ming Yu Liu，Jun Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.使用条件GAN进行高分辨率图像合成和语义操作。在IEEE计算机协会计算机视觉和模式识别集，2018年。[41] Thomas Wiegand，Gary J. Sullivan，Gisle Bjøntegaard，and Ajay Luthra.H.264/AVC 视频编码标准概述 IEEETransactionsonCircuitsandSystemsforVideoTechnology，2003。[42] 罗纳德·J·威廉姆斯简单的统计梯度跟踪算法用于联结主义强化学习。Machine Learning，8（3-4）：229[43] 张永兵，沈涛，季向阳，张云，熊瑞琴，戴琼海。用于HEVC中的环路滤波的残差公路卷积神经网络。IEEETransactions on Image Processing，27（8），2018。

下载后可阅读完整内容，剩余1页未读，立即下载