没有合适的资源?快使用搜索试试~ 我知道了~
2529通用深度图像压缩通过使用适配器的坪田幸树1AkutsuHiroaki 2 AizawaKiyoharu11东京大学2日立制作所{tsubota,aizawa}@ hal.t.u-tokyo.ac.jp,hiroaki.akutsu.cs.@hitachi.com摘要深度图像压缩在自然图像上的性能优于传统的编解码器,如JPEG。然而,深度图像压缩是基于学习的,并且遇到了一个问题:对于域外图像,压缩性能显著下降。在这项研究中,我们强调了这个问题,并解决了一个新的任务:通用深度图像压缩该任务旨在压缩属于任意域的图像,例如自然图像,线条画和漫画。为了解决这个问题,我们提出了一个内容自适应优化框架;该框架使用预先训练的压缩模型,并使该模型适应于压缩过程中的目标图像。适配器被插入到模型的解码器中。对于每个输入图像,我们的框架优化了编码器提取的潜在表示和适配器参数的率失真。适配器参数还按图像传输。对于实验,构建了包含四个领域(自然图像、线条画、漫画和矢量艺术)的未压缩图像的基准数据集,输入(PSNR/BPP)VVC(38.5/0.108)我们的(39.2/0.112)WACNN[57](38.3/0.109)评估所提出的通用深度压缩。最后,该模型与非自适应和现有的自适应压缩模型进行了比较。比较表明,该模型的性能优于上述模型. 代码和数据集可在https上公开获得//github.com/kktsubota/universal-dic网站。1. 介绍图像压缩是降低存储和网络传输成本压缩图像无处不在-数码相机和智能手机压缩图像。常见的压缩标准是JPEG [51],而JPEG2000 [45]、BPG [8]和VVC [10]是最近基于标准的压缩。深度图像压缩是基于神经网络的图像压缩技术最近的研究[57]第57话图1:BAM数据集中漫画图像的压缩结果示例[52]。一般深度图像压缩(WACNN [57])在自然图像上的性能优于最先进的传统编解码器(VVC [10])然而,它的性能恶化域外图像。通过解决这个问题,我们的框架表现出优越的性能,对域外图像的VVC。在这张图中,我们可以以相对较高的保真度重建深棕色的画笔纹理已经证明,深度图像压缩在自然图像上表现出比传统编解码器更高的性能[19,54,57]。然而,深度图像压缩是基于学习的。因此,我们在压缩域外图像时遇到了性能下降的问题通用COM-2530仅在自然图像上预训练的压缩模型在其他领域的图像上表现出相对较低的性能,如图所示。1.为了研究这个问题,我们提出了一种新的深度图像压缩任务,我们将其命名为uniform deep image compression。通用深度图像压缩的目标是压缩来自任意领域的图像,例如线条画和漫画以及自然图像。我们提出了一个内容自适应的优化框架,以解决压缩域外图像的问题。该框架使预训练的压缩模型适应每个目标图像,并解决预训练和测试之间的域转移我们的框架是有效的,由于在测试过程中的每图像适应所需的参数数量很少。我们的框架比以前在内容自适应压缩中研究的方法有两个优点[13,30,31,48,55,56]:基础网络结构的灵活性和速率失真方面的效率。在内容自适应压缩中,某些研究在测试期间通过改进编码器提取的潜在表示来调整压缩模型其他研究还更新了解码器中的参数并传输了这些参数[30,31,48,55,56]。然而,最先进的潜在细化方法[53]对预训练的压缩模型有限制:它假设超潜在表示遵循高斯分布以执行比特回退编码[22,50]。此外,用于更新解码器中的参数的先前方法更新用于单个图像的过多数量的参数[31,48],插入和训练ad-hoc层[56],或者仅在失真方面优化参数[31,56]。在我们的框架中,我们细化的潜在代表性的简化方法的国家的最先进的细化方法。我们省略了位回编码的过程,并且仅使用梯度下降在率失真方面优化潜在表示因此,我们的潜在细化是有效和灵活的基础网络架构。为了更新解码器,我们将适配器插入到解码器中并训练它们。适配器是具有少量参数的小模块,并且在参数有效的迁移学习中取得了成功[23,33,41,46]。使用适配器,我们可以通过更新相对较少的参数来提高压缩性能。此外,我们优化适配器的率失真与梯度下降。因此,我们的解码器更新在率失真方面是有效的。为了评估我们的框架,我们构建了一个基准数据集,它包括四个领域:自然图像、线条画、漫画和矢量艺术。我们从Kodak数据集[16]和BAM数据集[52]的其他三个域中采集自然图像。我们使用一种最先进的压缩模型(窗口注意力-基于卷积神经网络(WACNN)[57])的基线,并通过插入适配器和优化潜在表示和适配器参数对其进行修改。我们在自然图像数据集上预训练模型,并评估其在域内和域外图像上的性能。本研究的主要贡献如下• 我们解决通用深度图像压缩。据我们所知,这是第一个解决任意领域图像深度压缩的工作,例如线条画和漫画。• 我们提出了一个内容自适应优化框架,其中我们使预训练模型适应每个目标图像。我们的框架通过最先进的方法的简化方法来细化潜在的表示。然后,我们通过率失真方面的优化来训练插入到解码器中的适配器适配器参数被附加地传输。• 实验表明,该方法是有效的,并显着优于国家的最先进的传统编解码器上的四个域。2. 相关工作2.1. 深度图像压缩深度图像压缩通过以端到端的方式优化模块来实现图像压缩[5]。为了获得失真较小的压缩图像,许多研究都致力于改进编码器和解码器[14,54]以及熵模型[34,36,37]等模块。一些研究致力于人类感知的图像压缩,而不是失真[12,35,39,43]。其他研究致力于实现可变速率压缩[15]。深度图像压缩在自然图像上优于传统编解码器[19,54,57]。然而,这些研究仅在自然图像上训练,如CLIC [47]和ImageNet [44],并仅在自然图像上评估,如Kodak [16],CLIC [47],Tecnick [3]和DIV2K [2]。因此,它们在应用于其他领域(如线条画和漫画)时的压缩性能仍然不确定。相比之下,Kimet al. [27]致力于深度图像压缩中的轻量级和快速解码。他们在自然和卡通图像上评估了他们提出的方法。然而,他们的方法需要准备一个数据集来训练卡通图像,这与内容自适应优化框架不同,它不需要每个域的预训练。此外,评估域的数量是有限的。在这项研究中,我们研究了在各个领域,如线条画,漫画和自然图像的图像压缩。2531潜在精炼(第二节)3.2)编码器������公司简介10111ED^���输入图像潜在表示适配器培训(第3.3)潜在比特 流编码101潜在表示(量化)ED解码器压缩的image^适配器参数适配器比特 流适配器参数(量化)图2:拟议方法的概述首先,我们细化潜在表示;随后,我们训练适配器。2.2. 内容自适应压缩内容自适应压缩通过为每个目标图像调整压缩模型来实现高性能。在深度图像压缩中,内容自适应压缩是通过编码器获得的潜在表示的逐图像细化来实现的[13,53]。通过压缩细化的潜在表示可以获得潜在比特流除了潜在的细化,Zouet al. [55]更新了解码器中每个图像的参数。模型比特流可以通过压缩更新的参数来获得。解码器中的参数更新和压缩主要针对多个图像的压缩、视频压缩的后处理和深度视频压缩进行了研究。Rozendaal等人[48]更新解码器和熵模型中的所有参数。他们根据率失真优化参数,最后通过熵编码压缩这些参数。然而,尽管他们针对多个图像进行适配,但这种方法需要相对大量的比特来压缩单个图像。其他研究更新了数量有限的适应参数。Zou等人[55]解决了深度图像压缩,并且仅更新解码器中卷积层的偏置。Lam等人[31]解决了压缩视频的后处理,并且仅更新后处理网络中卷积层的偏差。Zou等人[56]深度视频压缩他们插入了过拟合乘法参数(将卷积层的输出相乘),并更新了这些参数以进行帧内编码。然而,更新参数是以自组织方式选择的,并且仅在失真方面进行优化。不像以前的这些approaches,我们引入适配器和优化这些方面的率失真。适配器在参数有效的迁移学习中表现出优异的性能2.3. 参数有效的迁移学习参数有效的迁移学习旨在适应每个任务在大规模数据集上预训练的模型,减少适应参数的数量与微调预训练模型的所有参数的因此,我们可以减少参数的传输成本,并保存在预训练的知识。这项任务最初是为了获得计算机视觉中多个领域的通用表示而研究的[41,42]。最近,由于出现了一个大型的预训练Transformer模型[49],如BERT [17]和T5[40],这项任务主要是为了在自然图像处理中进行有效的训练而研究[9,23]。我们可以将参数有效的迁移学习算法分为以下两种类型。(1)调整新添加的参数[20,25,33,41,42]和(2)调整模型[9,18,38]中的部分参数。第一种方法引入了一个适配模块,如适配器[41,42],调试器[25]和超性能器[26]。第二种方法适应归一化和轻量级层[38],模型中的层偏差[9],以及模型权重的稀疏差异[18]。在这些方法中,适配器被广泛使用[20,23,33,41,42,46]。适配器是具有少量参数的模块这些被实现为矩阵乘法[42]、矩阵分解[42]、具有激活的两个矩阵的乘法[23]或通道缩放[33]。由于适配器在这个任务中的成功,我们在框架中使用了适配器。3. 方法通用深度图像压缩的目标是压缩来自任意域的图像。为了实现这一目标,我们提出了一个内容自适应优化框架。给定预训练的压缩模型和未压缩的图像,模型适应于每个目标适配器()适配器(插头)���ECAdapter s(^)���适配器2532编码器输入图像拉克里尔解码器压缩图像中文(简体)���量化器���˜(���∗���^(Decodde rCompre se dima g^Ada p ters()Quantize rAda p ters(^)适配器参数适配器参数���←���−���������拉瓜(量化)中文(简-log()���2ℒ一拉瓜量化器→∈∈×������������←L图4:潜在细化的概要。图3:带适配器的主解码器的网络架构。WAM,Conv.,IGDN和RB分别表示窗口注意模块[57]、卷积层、逆可生成可分割归一化层[4]和残差块[21]。测试期间的图像所提出的方法的概要如图所示。2.在编码中,首先,由编码器提取潜在表示,并将适配器插入到解码器中。随后,通过率失真方面的优化来细化潜在表示接下来,通过在率失真方面进行优化来训练适配器。最后,对适配器的潜在表示和参数进行熵编码,并传输潜在比特流和适配器比特流。解码时,对传输的比特流进行熵解码,最终得到压缩图像。我们使用WACNN [57],这是一种最先进的体系结构,作为基础网络体系结构。请注意,我们的框架可以应用于其他网络架构。WACNN具有超先验架构[6]。它传递超潜表征和潜表征。在我们的解释中,我们以一种统一的方式考虑了这两种表征,并称之为潜在表征。接下来,我们将详细介绍我们的框架。我们的框架包括以下三个技术组件。第一个是将适配器插入解码器。第二是对从目标图像中提取的潜在表征进行细化。第三是适应者的培养。我们将在下一小节中详细介绍每个组件。让我们来定义解释的字符设x是输入图像,xb是压缩图像,y是潜在表示,y b是量化潜在表示,yc是细化潜在表示,q是量化器,g是具有适配器的解码器,bl是潜在比特流,ba是潜在比特流。图5:适配器培训的概要。适配器比特流,θ是除了适配器之外的解码器的预训练参数,θ是适配器的参数,并且θ是适配器的更新参数3.1. 插入适配器我们根据经验确定适配器的良好插入位置,并将适配 器 插 入 主 解 码 器 第 二 侧 的 窗 口 atten- tion 模 块(WAM)[57]主解码器与适配器的网络结构如图所示。3.第三章。我们通过[42]中提出的矩阵分解实现了适配器该架构简单但有效,如[33]所示。设适配器的输入为hRC×H×W 适配器为r:RC×H×WRC×H×W。适配器的操作被写为r(h;θ)=AB<$h,(1)其中A,BRC×M是适配器的可学习参数,θ=[A,B]。因此,适配器参数的数量为2MC。适配器参数的数量远小于模型参数的数量。对于WACNN [57],模型参数的数量为6。50 107和C=192。因此,当M=2时,适配器参数的数量为768。这是模型参数的0.0012%。3.2. 潜在精炼潜在改进的轮廓如图所示。4.第一章我们通过Yang等人的简化方法用梯度下降优化了潜在表示y。[53]。损失函数写为Ll(y)=R(q∈(y))+λD(g(q∈(y);λ,θ),x),(2)适配器×++适配器窗块���������������(适配器适配器ℒRBRBRBWAMConvIGDN,Conv.WAMIGDN,Conv.IGDN,RBRBRB1x1转换乙状2533L−∈LLN其中R是比特率,D是失真,λ∈R是超表1:评价数据集。用于调整速率-失真的折衷的参数,以及q是具有随机Gumbel announcement近似的均匀量化[53]。在此优化中,我们没有训练适配器并将参数固定为零。我们省略了位回编码在杨等人。[53]因为它需要修改预先训练的网络结构。我们得到了细化的潜在表示y,其给出如下。y= arg min l(y)。(三)y最后对y进行量化,并对y进行编码,得到b_l。注意,这种潜在的细化可以使用发射机处的本地解码器来完成。3.3. 适配器培训适配器培训的概要如图所示。5.我们优化了适配器的参数作为潜在表示的优化。设w为量化间隔值,θi为量化适配器参数。我们对θ进行了近似量化,并根据率失真对θ进行了优化。我们使用混合量化方法[32]。也就是说,我们使用直通估计器[24]对解码器均匀量化θ,并将均匀噪声U(w/2,w/2)添加到熵模型的θ设θe为加均匀噪声后的适配器参数。优化θ的损失函数写为:La(θ)=−lo g2p(θ)+λD。G.y;,θ,x,(4)其中p是θ的熵模型。 第一项是比特率的损失函数,并计算θ r的熵。我们使用了logistic分布,尺度为sR作为p。在此优化之后,我们获得了适配器的更新参数θθ,如下所示。θ=arg min a(θ)。(五)θ最后,对θ_i进行量化,并对θ_i进行熵编码,得到b_a。4. 实验4.1. 实验装置我们构建了一个基准数据集,其中包含四个领域的未压缩图像:自然图像、漫画、线条画和矢量艺术。我们从柯达数据集[16]收集自然图像,并从BAM数据集[52]收集其他领域的图像。柯达数据集由24幅自然图像组成。我们使用了柯达数据集中的所有图像BAM数据集由艺术图像而不是自然图像组成我们从域测试数据平均分辨率自然图像24576 ×704漫画100606 ×587线描100584 ×577矢量艺术100554 ×580每个域的BAM数据集未被JPEG压缩降级。我们认为标记为“钢笔墨水”、“漫画”和“矢量艺术”的图像分别是线条画、漫画和矢量艺术。构建数据集的统计数据见表1。我们使用WACNN [57]实现Compres-sAI [7]作为基本压缩模型。我们通过将λ设置为0.0018、0.0035、0.0067 、 0.013 、 0.025 和 0.0483 , 预 先 训 练 了 六 个=R+λD的模型。预训练数据包括从OpenImages随机采样的300,000张自然图像 [29]。因此,自然图像的结果指示域内性能,而其他三个域的结果指示域外性能。对于超参数,我们设置w = 0。06,s = 0。05,M=2.我们在预训练中将λ设置为相等的值我们使用均方误差作为失真D。实施详情。在预训练中,我们使用Adam优化器[28]进行多达100个epoch,批量大小为16。 对于第一个,我们将学习率设置为10−3。78个历元,接下来的20个历元为10−4,最后两个历元为10−5在自适应中,我们使用Adam优化器进行多达2,000次迭代以进行潜在细化,并进行500次迭代以进行适配器训练。对于前1,600次迭代,我们将学习率设置为10−3,对于最后400次迭代,我们将学习率设置为10−4对于适配器训练,我们将前400次迭代的学习率设置为10−3,最后100次迭代的学习率设置为10−4θa用高斯噪声(0,0. 022)。有关详细信息,请参阅我们的公开源代码。4.2. 与其他方法率失真性能。首先,我们将所提出的方法与不进行自适应优化的基线方法进行了比较。我们计算了每幅图 像 的 峰 值 信 噪 比 ( PSNR ) 和 每 像 素 比 特 数(BPP),并计算了平均值以绘制率失真曲线。结果如图所示。6.显然,所提出的方法显著优于基线方法。PSNR提高约1- 2dB。这表明自适应优化对于通用深度图像压缩是有效的。接下来,我们将所提出的方法与其他方法进行了比较。2534我们WACNN [57]峰值信噪比4038363432300.2 0.4 0.6 0.8比率(BPP)自然图像42400.2 0.3 0.4 0.5 0.6 0.7比率(BPP)漫画44423840363438323630340.2 0.4 0.6 0.8 1.0比率(BPP)线描0.100.150.200.250.300.35 0.40比率(BPP)矢量艺术图6:与WACNN [57]的比较,WACNN是不执行自适应优化的基线方法表2:与现有自适应压缩方法在BD率(%)到VVC上的比较[10]。JPEG、BPG、VVC和WACNN [57]的BD率值越小越有效。方法自然图像漫画线描矢量艺术平均JPEG184447186676373BPG33.788.028.811466.2VVC0.000.000.000.000.00WACNN [57]-6.3111.614.525.311.3Yang等[五十三]-9.82-0.501.848.47-0.00Lam等人[三十一]151197161367219Rozendaal等人[48个]234317267718384Zou等人[56个]-9.68-2.40-0.134.12-2.02我们-9.79-2.82-0.252.87-2.50适应方法为了进行公平的比较,我们重新实现了Yanget al. [53],Rozendaalet al. [48],Zou et al. [56]和Lamet al. [31]in our framework框架.详细的实验设置请参考补充材料。此外,我们还与基线方法和三种常规编解码器:JPEG [51],BPG [8]和VVC [10]供参考。特别地,我们将VVC用于在VTM [1]中实现的帧内。我们使用VVC计算了Bjøntegaard Delta比特率(BD率)[11]。结果示于表2中。Evi-38我们WACNN [57]36343230[57]第五十七话[57]第五十七话峰值信噪比峰值信噪比峰值信噪比2535自然图像PSNR/BPP29.6/0.242 23.7/0.252 28.7/0.254 29.5/0.254 29.3/0.247漫画PSNR/BPP37.4/0.171 21.9/0.212 32.6/0.177 37.2/0.183 36.7/0.180直线图PSNR/BPP30.9/0.396 19.7/0.459 27.2/0.420 30.2/0.387 29.4/0.391PSNR/BPP33.7/0.07121.3/0.16929.4/0.07433.3/0.06932.4/0.064矢量艺术输入我们JPEGBPGVVCWACNN[57]图7:四个领域的定性结果。我们的重建线,人物头部的阴影显然,所提出的方法取得了性能优越表3:运行时的比较。与其他适应方法相比。 而且所提出的方法优于VVC,VVC是现有技术的常规方法。注意Lamet al. [31]和Rozendaal等人。[48]表现低于基线方法编码解码WACNN [57] 0.16我们的260 0.18法这是因为这些方法传递了许多解码器中的参数。定性结果。所提出的方法、基线方法和传统编解码器的定性结果如图所示。7.我们比较了这些方法在一个类似的BPP。我们的方法实现了更高的视觉质量与传统的编解码器和基线的方法。运行时间。 我们测量了使用GPU(NVIDIA TeslaV100)进行编码和解码的运行时间。我们使用基线和提出的方法对矢量艺术进行了实验。我们在表3中显示了平均运行时间。发现解码时间与基线方法相当。然而,由于自适应优化框架,所提出的方法需要比基线方法更多的时间进行编码。4.3. 消融研究适配器的有效性。为了证明适配器的有效性,我们将所提出的方法与其他更新适配器参数以外的参数的方法进行了比较。在实验中,我们更新了零参数,如[31]中的层偏差,以及如[56]中的过拟合乘法参数(OMP)。更新的参数数分别为0、9283和192表4中列出了关于载体的结果,并揭示了当适配子时获得最高性能。定性结果见图。8.显然,使用适配器减少了文本边界周围的伪影。2536表4:BD率(%)不同参数更新的比较。值越小越有效。方法参数编号BD率(%)↓适配器(我们的)7680.00个零参数06.16偏见928342.1OMPs1920.914240383634320.10 0.15 0.20 0.25 0.30 0.35 0.40比率(BPP)图9:使用Cheng 20 [14]作为基础网络架构的矢量艺术结果PSNR/BPP输入35.4/0.099我们34.5/0.090无适配器[14] 第 20 话 被 人 利 用 在 我 们 的 实 现 中 , 我 们 在CompressAI [7]中使用了cheng 2020-attn。我们使用了在自然图像上预先训练的公开模型。随后,我们在cheng 2020-attn的最终残留块的第一侧的卷积层之后插入适配器。结果示于图9,这表明我们的框架在Cheng20上的表现明显优于基线方法[14]。优化顺序。 我们的框架首先优化的潜在表示,然后优化适配器的参数。在这个实验中,我们交换了优化的顺序。也就是说,我们首先训练适配器,然后使用经过训练的适配器来改进潜在表示。与我们的方法相比,向量艺术的BD率为图8:适配器有效性的定性结果。顶部图像是整个输入图像,而底部图像是裁剪的补丁。我们可以观察到,通过使用适配器,文本周围的伪影减少了。适配器的率失真优化的有效性。在我们的框架中,我们在率失真方面优化了适配器。在这个实验中,我们提出了当适配器仅在失真方面进行优化并压缩为8位时的结果,如Zou等人所述。[56]。在实现中,我们将适配器的参数线性变换到[0,255]的范围内,并将参数量化为整数。这被执行以获得8位的整数值和32位的两个实值,这是线性变换的尺度和偏置。与我们的方法相比,向量艺术的BD率为4.21%。仿真结果表明了适配器率失真优化的有效性适用于其他网络架构。我们的框架可以应用到其他网络架构。在这个实验中,我们展示了我们0.70%。结果表明,我们的优化顺序是有效的。5. 结论在这项研究中,我们提出了一个新的任务,我们称之为通用深度图像压缩。我们观察到一个问题,其中深度图像压缩劣化了其在域外图像上的性能。我们提出了一个内容自适应优化框架来解决这个问题.为了适应每个目标图像的预训练压缩模型,我们改进了编码器提取的潜在表示,并训练了插入解码器的适配器。我们的框架可以应用于所有预训练的压缩模型。我们构建了一个具有四个域的基准数据集我们的研究的局限性是一个昂贵的编码时间,由于在压缩过程中的优化。减少编码时间是我们未来研究的重要工作。谢谢。这项工作部分得到了JSPS KAKENHI资助号22J13735和21H03460的支持。[14]第十四话峰值信噪比(dB)2537引用[1] vvc官方测试模型。https://vcgit.hhi。fraunhofer.de/jvet/VVCSoftware_VTM/-/tags/VTM-14.0.[2] Eirikur Agustsson和Radu Timofte。Ntire 2017挑战单幅图像超分辨率:数据集和研究。在CVPRW,第1122-1131页[3] 尼古拉·阿苏尼和安德烈·吉亚切蒂。Testimages:用于测试视觉设备和基本图像处理算法的大规模存档。在STAG,第63-70页[4] JohannesBal le´、ValeroLaparra和EeroP. 西蒙切利使用广义归一化变换的图像密度建模。在ICLR,美国,2016年5月。[5] JohannesBal le´、ValeroLaparra和EeroP. 西蒙切利端到端优化的图像压缩。2004年4月,在法国ICLR,2017年。[6] JohannesBalle´ , DavidMinnen , SaurabhSingh ,SungJinHwang,and Nick Johnston.基于尺度超先验的变分图像压缩。在加拿大ICLR,Apr. 2018年。[7] JeanBe'gaint,FabienRacape',SimonFeltman,andAkshayPushparaja.Compressai:一个用于端到端压缩研 究 的 pytorch 库 和 评 估 平 台 。 arXiv预 印 本 arXiv :2011.03029,Nov. 2020年。[8] Fabrice Bellard Bpg图像格式。https://bellard. org/bpg/.[9] Elad Ben Zaken Yoav Goldberg和Shauli Ravfogel。Bit-Fit:对基于Transformer的掩码语言模型进行简单的参数高效微调。在ACL中,第1-9页[10] Shan Liu Benjamin Bross,Jianle Chen and Ye-Kui Wang.通用视频编码(草案10)。JVET-T2001,2020年。[11] 吉赛尔·比约恩特加德2001年rd曲线之间的平均pcr差异计算[12] 约柴·布劳和托莫·麦克利。重新思考有损压缩:率失真感 知 权 衡 。 在 KamalikaChaudhuri 和 RuslanSalakhutdinov,编辑,ICML,第97卷,第675-685页[13] JoaquimCampos , SimonMeierhans , AbdelazizDjelouah,and Christopher Schroers.神经图像压缩的内容自适应优化2019年6月在美国CVPRW[14] 郑学成、孙鹤鸣、Masaru Takeuchi和Jiro Katto。学习使用离散高斯混合似然和注意力模块进行图像压缩在CVPR,第7936-7945页[15] Yoojin Choi,Mostafa El-Khamy,and Jungwon Lee.使用条件自动编码器的可变速率深度图像压缩在ICCV,第3146-3154页,韩国,10月。2019年。[16] 伊士曼柯达公司。柯达无损真彩色图像套件(photocdpcd0992)。http://r0k.us/graphics/kodak/,1993年。[17] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:用于语言理解的深度双向变换器的预训练。在JillBurstein , Christy Doran 和 Thursday Solorio , 编 辑 ,NAACL,第4171- 4186页[18] Demi Guo,Alexander Rush,and Yoon Kim.具有差异修剪的参数有效迁移学习。在ACL中,第4884-4896页,虚拟,8月。2021年。[19] Zongyu Guo,Zhizheng Zhang,Runsen Feng,and ZhiboChen.学习图像压缩的因果上下文预测。TCSVT,32(4):2329[20] Junxian He,Chunting Zhou,Xuzhe Ma,Taylor Berg-Kirkpatrick,and Graham Neubig.迈向参数有效迁移学习的统一观点载于ICLR,Virtual,Apr. 2022.[21] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,第770-778页[22] 杰弗里·EHinton和Drew van Camp通过最小化权值的描述长度来保持神经网络的简单性在COLT中,第5-13页[23] Neil Houlsby、Andrei Giurgiu、Stanislaw Jastrzebski、Bruna Morrone 、 Quentin de Laroussilhe 、 AndreaGesmundo、Mona Attariyan和Sylvain Gelly。nlp的参数有效迁移学习。在ICML,第97卷,第2790-2799页[24] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、RanEl-Yaniv 和 Yoshua Bengio 。 二 值 化 神 经 网 络 在NeurIPS,第4107-4115页,西班牙,12月。2016年。[25] Rabeeh Karimi Mahabadi,James Henderson,and Sebas-tian Ruder. Compactor:高效的低秩超复杂适配器层。InM. Ranzato、A. Beygelzimer,Y. 太子P.S. Liang和J.沃特曼·沃恩,编辑,NeuIPS,第34卷,第1022-1035页,虚拟,12月。2021年。[26] Rabeeh Karimi Mahabadi,Sebastian Ruder,Mostafa De-hghani,and James Henderson.通过共享超网络对变压器进行参数高效的在ACL、虚拟、8月2021年。[27] Jun-Hyuk Kim , Jun-Ho Choi , Jaehyuk Chang , andJong-Seok Lee.通过非对称自动编码器和修剪实现基于深度学习的高效有损图像压缩。在ICASSP,第2063-2067页[28] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。在ICLR,美国,2015年5月。[29] 放大图片作者:Alina Kuznetsova,Hassan Rom,NeilAlldrin,Jasper R. R. Uijlings,Ivan Krasin,Jordi Pont-Tuset , Shahab Kamali , Ste- fan Popov , MatteoMalloci,Alexander Kolesnikov,Tom Duerig和VittorioFerrari。打开图像数据集v4。IJCV,128(7):1956[30] YatHongLam , AlirezaZare , C.J.AgglarAytekin ,FrancescoCricri,Jani Lainema,Emre Aksu,and MiskaM.汉努克-塞拉。压缩权值更新的图像伪影去除神经网络。在CVPRW,2019年6月。[31] Yat Hong Lam , Alireza Zare , Francesco Cricri , JaniLainema,and Miska M. Hannuksela。 用于视频压缩的神经网络滤波器的高效自适应。在ACMMM,第358-366页2020年。[32] Jooyoung Lee,Seunghyun Cho,and Seung-Kwon Beack.用于端到端优化图像压缩的上下文自适应熵模型。在ICLR,美国,2019年5月。[33] Wei-Hong Li,Xialei Liu,and Hakan Bilen.跨领域少数镜头学习与特定任务适配器。2022年6月,美国CVPR2538[34] FabianMentzer,EirikurAgustsson,MichaelTschannen,Radu Timofte,and Luc Van Gool.深度图像压缩的条件概率模型。在CVPR,第4394[35] Fabian Mentzer,George Toderici,Michael Tschannen,and Eirikur Agustsson. 高 保 真 生 成 图 像 压 缩 。 在NeurIPS,第33卷,第11913-11924页,虚拟,12月。2020年。[36] D a vidMinnen,JohannesBal le´,andGeo r geToderici. 联合自回归和分层先验的学习图像压缩。在NeurIPS,第10794-10803页,加拿大,12月。2018年。[37] 大卫·明嫩和索拉布·辛格用于学习图像压缩的逐层自回归熵模型在ICIP,第3339-3343页2020年。[38] Pramod Kaushik Mudrakarta,Mark Sandler,Andrey Zh-moginov,and Andrew G.霍华德K为1的价格:参数有效的多任务和迁移学习。在ICLR,美国,2019年5月。[39] Yash Patel、Srikar Appalaraju和R.曼玛塔显著性驱动的感知图像压缩。在WACV,第2272021年。[40] Colin Raffel , NoamShazeer , Adam Roberts ,KatherineLee,Sharan Narang,Michael Matena,YanqiZhou,Wei Li,and Peter J.刘某使用统一的文本到文本Transformer 探 索 迁 移 学 习 的 局 限 性 。 JMLR , 21(140):1[41] Sylvestre-AlviseRebuffi , HakanBilen 和 AndreaVedaldi 。 使 用 残 余 适 配 器 学 习 多 个 视 觉 域 。 在NeurIPS,第506-516页,USA,Dec. 2017年。[42] Sylvestre-AlviseRebuffi , HakanBilen 和 AndreaVedaldi。多域深度神经网络的有效参数化。在CVPR,第8119-8127页[43] 作者:Oren Rippel,Lubomir D.布尔德夫实时自适应图像压缩。在ICML,第70卷,第29222017年。[44] Olga Russakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang,Andrej Karpathy,Aditya Khosla,Michael S.作者 : Bernstein , Alexander C. Berg 和 Fei-Fei Li 。Imagenet大规模视觉识别挑战赛。IJCV,115(3):211[45] A.斯科德拉斯角Christopoulos和T.易卜拉欣jpeg 2000静止图像压缩标准。IEEE信号处理杂志,18(5):36-58,Sep. 2001年[46] Yi-Lin Sung , Jaemin Cho , and Mohit Bansal. Vl-adapter : 视 觉 和 语 言 任 务 的 参 数 高 效 迁 移 学 习 在CVPR,第5227-5237页[47] 乔治·托德里奇、卢卡斯·泰斯、尼克·约翰斯顿、埃里库尔·阿古斯特松、法比安·门策、约翰内斯·鲍尔、温哲·施和拉杜·阿夫特。CLIC 2020:学习图像压缩的挑战。http://compression.cc,2020年。[48] Ties van Rozendaal,Iris AM Huijben和Taco Cohen。为了乐趣和利润而过度拟合:实例自适应数据压缩。在ICLR,虚拟,2021年5月。[49] 作者:Ashish Vaswani,Noam Shazeer,N
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功