JPEG变换域中的深度残差学习

172 浏览量更新于2023-10-12 收藏 607KB PDF 举报

深度残差学习

压缩图像

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3484JPEG变换域中的深度残差学习马克斯·埃利希和拉里·戴维斯maxehr@umiacs.umd.edulsd@umiacs.umd.edu美国马里兰大学帕克分校摘要我们介绍了一种通用的方法，执行残差网络的推理和学习的JPEG变换域，主要允许网络消费压缩图像作为输入。我们的公式利用JPEG变换的线性来重新定义卷积和批量归一化，并为ReLu提供可调的数值近似在ReLu近似精度下，该结果在数学上等价于空间域网络.文中给出了图象分类的公式和空间域网络模型转换算法。我们表明，跳过昂贵的解压缩步骤可以更快地处理图像，而网络精度几乎没有损失。1. 介绍自2012年AlexNet [15]架构以来，深度学习的普及为该领域带来了前所未有的收益。许多曾经是学术性的应用程序现在正在广泛使用机器学习。尽管深度神经网络的性能远远超过经典方法，但从计算的角度来看，这些算法仍然存在一些主要问题。深度网络需要大量的数据来有效地学习此外，深度网络的计算和内存需求意味着，对于许多大型问题，只有拥有GPU集群的大型机构才能从头开始训练，让普通科学家微调预先训练的权重。这个问题在文献中已经讨论过多次。批量归一化[12]在现代网络中无处不在，以加速其收敛。残差学习[11]允许更深的网络学习有效的映射，而不会过度拟合。修剪和权重压缩等技术[9]正变得越来越普遍。随着问题变得更大、更复杂，这些技术越来越多地被用于有效的训练和推理。我们从形象代表的角度来处理这个问题-怨恨JPEG是目前应用最广泛的图像文件格式.传统上，使用JPEG进行机器学习的第一步是对它们进行解码。我们建议跳过这一步，而是重新制定ResNet架构，直接在压缩图像上执行其操作。我们的目标是产生一个新的网络，它在数学上等同于空间域网络，但它通过将压缩变换包括到网络权重中来对压缩图像进行由于ReLu函数是非线性的，我们开发了一种近似技术。这是一个通用的方法，据我们所知，是第一次尝试制定一个分段线性函数的变换域。本工作的贡献如下1. 卷积网络在JPEG域2. 残块分级的混凝土配方3. 预训练空间域网络用于JPEG图像的模型转换算法4. 近似空间掩蔽：分段线性函数在变换域中应用的第一个通用技术通过跳过解压缩步骤并对压缩格式进行操作，我们显示了测试速度的显着增加和训练速度的边际。2. 先前工作我们将之前的工作分为三类：压缩域操作、压缩域中的机器学习和压缩域中的深度学习。2.1. 压缩域操作在80年代末和90年代初，压缩域中常见操作的表达是一个非常活跃的研究领域，其动机是缺乏计算能力，3485. Σ.ΣΣ我快速地对图像和视频进行压缩、处理和重新压缩。对于JPEG，Smith和Rowe [25]制定了快速JPEG兼容算法，用于执行标量和像素加法和乘法。Shen和Sethi [23]将其扩展到一般的块操作，Smith [24]将其扩展到块操作。[24]任意线性映射。Natarajan和Vasudev [19]还制定了一个非常快速的近似算法来缩放JPEG图像。对于MPEG，Changet al.[2] 介绍用于操纵压缩视频的基本算法。 Chang 和Messerschmitt [3]给出了一种在DCT之前对运动补偿进行解码的快速算法，该算法允许执行任意视频合成操作。2.2. 压缩域中的机器学习压缩域机器学习在90年代中期的工作中成长起来。Arman等人[1]给出了压缩图像处理的基本框架。Feng和Jiang [5]展示了如何直接在压缩的JPEG上执行图像检索。He等人[10]用假设检验技术扩展他们的工作。Wu等[30]将DCT域中流行的SIFT特征提取公式化。2.3. 压缩域中的深度学习由于深度网络是非线性映射，因此深度学习在压缩域中的研究有限。Ghosh和Chellappa [7]使用DCT作为他们网络的第一层的一部分，并表明它可以加快训练的收敛速度。Ulicny等人对此进行了扩展。[26]为每个DCT基函数创建单独的滤波器。Wu等[29]制定用于视频动作识别的深度网络，其使用用于I帧和P帧的单独网络由于P帧网络对原始运动矢量和误差残差起作用Wu等显示与传统的3D卷积体系结构相比具有显著的效率优势，它们将其归因于P帧数据是视频运动的最小表示Gueguen等人[8]用公式表示传统的ResNet，它直接对DCT系数而不是像素进行操作，例如，DCT系数被馈送到网络。他们表明，学习收敛速度更快，在这个输入，进一步激励3.1. JPEG压缩JPEG压缩算法被定义为以下步骤。1. 将图像分成8 ×8的块2. 计算每个块3. 线性化的块使用锯齿状秩序，以产生一个64分量矢量4. 按元素将每个向量除以量化系数5. 将向量元素四舍五入到最接近的整数6. 对矢量进行对于每个图像平面独立地重复该过程。在大多数情况下，原始图像从RGB颜色空间转换解压缩算法是逆过程。注意，在解压缩过程中必须跳过舍入步骤（步骤5）.这是JPEG压缩中信息丢失的步骤，也是解压缩JPEG图像中出现伪影的原因。可以使用量化系数来调谐信息损失的幅度。如果在步骤4中应用较大的系数，则结果将更接近于0，这增加了其在舍入期间被完全丢弃的可能性。通过这种方式，JPEG变换在表示上强制稀疏性，这就是为什么它能很好地压缩图像数据的原因。这与DCT将系数的幅度推到左上角（DC系数和最低空间频率）的趋势相结合，导致高空间频率被丢弃。这些高空间频率不仅对人类视觉系统贡献较少的响应，而且它们也是原始图像的最小二乘重建的最佳集合：定理1（DCT 最小二乘逼近定理）。给定信号X={x，0，…XN}，令Y={y0，. yN}是X的DCT系数。然后，对于任何1 ≤ m ≤ N，近似JPEG表示。1pm（t）=√nyo+2mnk=1ykcosk（2t+1）π2N（一）3. 背景X的最小平方误差n我们简要回顾了JPEG压缩/解压缩算法[27]，并介绍了我们用来制定我们的网络的多线性方法[24]。em=（pmi=0时（i）−x）2（2）3486∗∈⊗˜γ˜˜⊗ → ⊗⊗xyk˜˜˜⊗ →⊗.γ0否则x y kHWx′y′k′=B D Z S定理1指出，使用m个最低空间频率的重构相对于m个空间频率的任何其他集合是最优的。定理1的证明在补充材料中给出其中V（u）是归一化比例因子。然后D表示2D离散正向（和逆）DCT。设Z：A*B*→Γ*被定义为3.2. JPEG线性映射Zαβ=.1α，β在锯齿序下位于γ（六）JPEG算法的一个关键观察，以及FON-大多数压缩域处理方法[2，3，19，23，22，21，25，24]的缺点是JPEG压缩算法的步骤1-4是线性映射，因此它们可以被合并。则Z创建Z字形有序向量。最后，设S：Γ→K为与其他线性操作一起构成一条直线-Sγ=1（七）耳映射，其对压缩的表示. 步骤5，舍入步骤，是不可逆的，并且被解压缩忽略。步骤6，熵编码，是一个非线性映射，并且其形式是直接从数据计算的，因此很难用这种表示来工作。我们将JPEG变换域定义为JPEG编码算法中步骤4的输出。这是一个标准的骗局kqk其中Qk是量化系数。这通过量化系数来缩放对于JPEG变换的每一步都有线性映射，我们可以创建本节开头描述的J张量压缩域处理的发明。这里所描述的算法的输入将是在反转JPEG之后的JPEG熵编码hwxykhwmnαβ γ木质素αβγk（八）形式上，我们将单个平面图像建模为（0，2）型张量I H <$W<$，其中H和W是向量空间，表示对偶空间。对于这些向量空间，我们总是使用标准的标准正交基，它允许在不使用度量张量的情况下自由地提高和降低索引。我们将JPEG 变换定义为类型（2，逆映射也作为张量J存在，其可以使用相同的线性映射来定义，除了S.设S是Sk=qk（9）然后3）张量J∈H <$W <$X<$$> Y<$$> K<$$>。J表示线性xykXymnα βγk地图J：HW*X *Y *K，计算为（爱因斯坦记法）Ix′yk=JhwIhw（3）我们说I ′是I在JPEG变换域中的表示。索引h、w给出像素位置，x、y给出块位置，并且k给出到块中的偏移。J的形式是根据上一节中列出的JPEG压缩步骤构造的设线性映射B：Jhw=BhwDmnZαβSγ（10）接下来考虑线性映射C：H <$W <$H <$W <$，其在图像平面I上执行任意像素操作。要将此映射应用于JPEG图像I '，我们首先将图像缩放，将C应用于结果，然后压缩该结果以获得最终的JPEG。由于压缩是J的应用，解压缩是J的应用，我们可以形成一个新的线性映射Ξ：X YK →XYKHW→XYMN定义为：xykxykhw′′'''=JBCh′w′Jhw（十一）HWXymn=1h，w属于块x，y中的偏移m，n0否则（四）其在JPEG变换域中应用C。有有两点需要注意。第一个是，虽然它封装了解压缩，但应用C和则B可以用于将由I表示的图像分解为给定大小的块，使得前两个索引x、y索引块位置，最后两个索引m、n索引块中的偏移。J3487⊗ →⊗接下来，令线性映射D：M * N * A * B *定义为Dmn=1V（α）V（β）cos.（2m+1）απcos。（2n+1）βππ压缩，它使用的操作比这些操作少得多，因为系数被相乘，所以单独处理。第二个是它在数学上等同于对解压缩的图像执行C并压缩结果。这不是一个近似值。4. JPEG域残差网络ResNet架构由四个基本模块组成αβ416 16（五）sic操作：卷积（可能是跨步的）、ReLu、批量归一化和分量加法，其中3488⊗ ⊗⊗^˜˜˜⊗˜∈ ⊗⊗B∈ ⊗ ⊗ ⊗⊗×^^˜˜˜.^ ^您的位置：^在全连接层执行最终分类之前，块以全局平均池化操作[11]终止。我们的目标是开发这五种操作的JPEG域等价物。网络激活作为单个张量给出，该张量持有一批多通道图像，即I∈N<$$>P<$$>H<$$>W <$$>。4.1. 卷积卷积运算直接从3.2节的讨论中得出. 卷积运算是线性映射C：N<$P<$H<$<$W<$N →N<$P <$H<$W <$N的一种简记法.由于同样的操作是ap-应用于批处理中的每个图像，我们可以用类型（3，3）张量表示C。该张量的条目针对每个输出通道中的我们现在开发使用此数据结构表示离散卷积滤波器的算法(a) 原始图像（b）True ReLu一个简单的算法可以简单地将随机初始化的卷积权重复制到这个更大的结构中，然后应用JPEG压缩。(c) 使用直接近似的ReLu(d) 使用ASM近似的ReLu解压缩张量的结果。然而，这难以并行化并且招致额外的存储器开销来存储空间域操作。更有效的算法将直接产生JPEG域操作，并且易于表示为GPU的计算内核。首先考虑JPEG解压缩张量J。注意，由于JXYKH*W * J的最后两个指数在我们的图像模型下形成单通道图像（例如，最后两个指数为H* W*）。如果卷积可以应用于该“图像”，则结果映射将同时解压缩和卷积。我们可以通过重新塑造J并将其视为一批图像1来制定新的张量JN HW。然后，给定随机初始化的滤波器权值，计算KCb=K<$Jb（12）其中，表示卷积运算，J在批处理维度中索引J，为我们提供了所需的映射。在将C重新整形回到J的原始形状以给出C之后，全压缩域操作可以表示为图1：8 8块上的ASM ReLu示例。绿色像素为负，红色像素为正，蓝色像素为零。6个空间频率用于两种近似。注意，直接近似不能保持正像素值。映射可以被预先计算以通过避免卷积的重复应用来加速推断。在训练时，计算压缩和解压缩算子的梯度，并用于找到原始卷积滤波器相对于先前层误差的梯度，然后使用新滤波器更新映射图因此，虽然卷积运算的推理效率大大提高，但训练效率受到更复杂的更新的限制我们在第5.4节中表明，训练吞吐量仍然高于等效的空间域模型。4.2. ReLU在JPEG域中计算ReLu并不那么直接-pxyk pxykhwp′x′y′k′=Cp′hwJx′y′k′（13）其中，p和p′索引输入和输出通道。因为ReLu是非线性函数。记得ReLu函数由下式给出：图像分别。该算法跳过了显式计算空间域映射的开销，仅依赖于可用r（x）=xx >00x ≤0（十四）所有GPU加速的深度学习库。此夕h[1]以32×32图像为例。则J的形状为4×4×64×32×32，所述的再成形给出形状为1024×1×32×32的J^，其可以被视为尺寸为32×32的1024的批次卷积的图像我们首先在DCT域中定义ReLu，并展示如何将其扩展到JPEG变换域。为此，我们开发了一种称为近似空间掩蔽的通用近似技术，该技术可以将任何分段线性函数应用于JPEG压缩3489MN×α′βαβα′β≤图像.为了发展这项技术，我们必须平衡两个似乎相互竞争的标准。首先，我们希望使用JPEG变换域，因为它比空间域具有计算优势。第二个是，我们要计算一个非线性函数，这是不兼容的JPEG变换。我们是否可以通过牺牲第三个标准来平衡这两个约束？考虑仅使用DCT系数的子集的空间域图像的近似。计算这是快速的，因为它不使用完整的系数集，并给我们一个空间域表示，这是兼容的非线性。我们牺牲的是准确性。通过改变系数集的大小，可以针对问题调整精度-速度折衷。通过定理1，我们使用最低的m个频率进行最佳重构。对于JPEG算法中使用的8 × 8DCT，这给出总共15个空间频率（编号为0到14）。然后我们可以确定空间的最大数量，分析见第3.2节。考虑双线性映射H：A B×MN→AB（15）其采用DCT块F和空间掩码G，并通过逐像素乘法产生掩码DCT块。我们的任务是导出H的形式。我们继续建设。这种算法的步骤简单地说是1. 取F的逆DCT：Imn=DαβFαβ2. Pix e l乘：Im′n=ImnGmn3. 对I′进行DCT 变换：Fα′′β′=Dmn′Im′n.由于这三个步骤是线性或双线性映射，因此可以将它们组合起来Fα′′β′=Fαβ[DmnDmn′]Gmn（16）Hαβmn=DαβmnDmn′（17）α′β′α′β频率k，并使用所有系数φ，使得k作为我们的近似。如果我们现在直接在这个近似上计算分段线性函数，有两个主要问题。第一个是，虽然近似的形式是由最小二乘最小化激励的，但它决不保证再现任何的原始值。我们称H为谐波混合张量，因为它给出了我们需要的所有空间频率排列。H可以预先计算以加速计算。要使用此技术计算ReLu函数，请考虑以下替代公式.1 x>0像素第二个是这给出了函数的值在空间域中，并继续使用JPEG域nnm（x）=0x ≤0（十八）网络，我们需要压缩结果，这会增加计算开销。为了解决第一个问题，我们检查线性块落入的区间。这些区间越大，我们就越有可能在我们的近似中产生正确区间2此外，由于最低的k个频率使最小平方误差最小化，因此频率越高，将像素值推出正确范围的可能性越小。有了这个动机，我们可以为函数的每一部分生成一个二进制掩码。然后可以将线性段直接应用于DCT系数，然后乘以它们的掩码并求和以给出最终结果。这将保留所有像素值。唯一的错误将是在面具，这将导致错误的线性件被应用。这是近似空间掩蔽（ASM）技术背后的基本思想最后一个问题是，我们现在在空间域中有一个掩码，但原始图像在DCT域中。存在用于两个DCT图像的逐像素乘法的众所周知的算法[25]，但是其将需要我们称函数nnm（x）为x的非负掩码。这是ASM的二进制掩码。我们将ReLu函数表示为r（x）=nnm（x）x（ 19）这个新函数可以从更少的空间频率以高得多的精度有效地计算，因为仅原始函数的符号需要是正确的。图1给出了该算法在随机块上的示例请注意，在ASM图像中，所有正像素的像素值都被保留，唯一的错误在掩码中。然而，在直接近似中，没有一个像素值被保留，并且它遭受掩蔽误差。误差的大小在第5.3节中进行了测试，ASM算法的伪代码在补充材料中给出。为了将该方法从DCT域扩展到JPEG变换域，可以简单地如下应用丢失的JPEG张量的其余部分：掩码也在DCT域中好在有kmnkγαβmnMNα′β′γ′一个简单的解决方案，这是一个多线性Hk′=ZγS~αβD Dα′β′Sγ′Zk′（20）2例如，如果原始像素值为0.7，近似值为0.5，则近似值处于ReLU的正确区间（≥0），但其值不正确。由于每个块的操作都是相同的，如果块之间没有相互作用，则可以跳过块张量B3490δBN（I）=γ+β（21）ΣΣ182√2×84.3. 批次归一化批量归一化[12]在JPEG域中有一个简单而有效的公式回想一下，批处理规范化定义了两个可学习的参数：γ和β。给定的特征图I首先居中，然后在批次上归一化，然后按γ缩放并按β平移。完整的公式是I −E[I]变量[I]因此，要在JPEG域中定义批量归一化操作，我们需要四个部分：均值、方差、标量乘和标量加。同样，我们首先在DCT域中推导出结果，并平凡地扩展到JPEG变换域。我们从样本均值开始。从DCT的定义来看，第一个DCT系数由下式给出：图2：全球平均池化。每个块的第0个系数可以直接使用而无需计算。块不需要任何比例常数，它精确地存储平均值。因此，为了增加β，我们可以简单地设置N第N个位置到β，而不执行额外的操作。D001=x=0y=0第二十二章其他业务不受影响。4.4. 按组分添加换句话说，（0，0）DCT系数是成比例的到块的平均值。此外，由于DCT基是标准正交的，我们可以肯定，其余的DCT系数不依赖于平均值。这意味着要使图像居中，我们只需要将（0，0）DCT系数设置为0。为了跟踪运行平均值，我们只需读取此值。注意，这是比空间域中的平均值计算有效得多的操作。接下来，为了得到方差，我们使用以下定理：定理2（DCT均值-方差定理）。给定信号X的一组样本，使得E[X]=0，设Y为X的DCT系数。然后Var[X]=E[Y2]（23）直觉上，这是有意义的，因为（0，0）系数表示均值，剩余的DCT系数基本上是围绕均值的空间振荡，这应该定义方差。这个定理的证明在补充材料中给出。为了应用γ和方差，我们使用标量乘法。由于JPEG是线性的，因此这是不变的J（γI）=γJ（I）（24）对于应用β的标量加法，请注意，由于（0，0）系数是平均值，并且将β添加到图像中的每个像素相当于将平均值提高β，因此我们可以简单地将β添加到（0，0）系数。将其扩展到JPEG很简单。（0，0）系数的比例常数为=1。由于这个原因，许多量化矩阵使用8作为（0，0）量化系数。这意味着，分量加法是我们网络中最简单的公式。这是在[2，21，23，25]中详细描述的众所周知的结果。由于JPEG变换J是线性映射，因此对于两个图像F和G，我们有J（F+G）=J（F）+J（G）（25）这意味着我们可以简单地执行JPEG压缩结果的分量方式的添加，而不需要进一步的处理。4.5. 全局平均池化全局平均池化在JPEG域中也有一个简单的公式。回想一下批量归一化的讨论然后，可以从每个块逐通道提取该元素，并且全局平均池化结果是这些元素的逐通道平均值。此外，我们用于分类的网络架构总是将输入图像减少到单个块，然后可以提取其平均值并直接报告为全局平均池化结果。注意这个过程的效率：不是在空间域网络中进行通道平均，而是简单地进行无条件读取操作，每个通道一个。这在图2中示出。4.6. 模型转换前面的部分描述了如何在JPEG域中构建虽然这意味着在JPEG上进行推理和学习的简单算法，但我们也可以转换预先训练的模型DCT系数Tor合并向量平均全球2√2N3491××-××××输入：T X 1 X 32 XRes模块1：16个滤波器，无Res模块2：32个滤波器，降采样降采样输出：（T X 16 X 32 X 32）输出：T X 32 X 16 X 16完全连接：64至10/100输出：T X 10/100全局平均池化输出：T X64Res Block 3：64滤波器，下采样输出：T X 64 X 8 X 8（单个JPEG块）图3：简单的网络架构。T表示批量。JPEG推理。这允许在空间域图像上训练的任何模型在推理时受益于我们的算法考虑等式12。在这个等式中，K保存随机初始化的卷积滤波器。相反，通过使用K的预训练空间权重，卷积将如预期的那样在JPEG上工作。类似地，可以提供用于批量归一化的预训练的α、β、μ、σ通过对预训练网络中的每一层进行此操作，网络将在JPEG上运行。唯一需要注意的是，ReLu近似精度可能会影响网络的最终性能，因为权重没有经过训练来应对它。这在第5.3节中进行了测试。5. 实验我们给出了实验证据，我们的方法的有效性，开始讨论我们使用的架构和数据集。我们使用模型转换作为一个完整性检查，确保JPEG模型与精确的ReLu完全匹配的测试精度的空间域模型。接下来，我们将展示ReLu近似精度如何影响整体网络性能。最后，我们展示了我们的方法的训练和测试时间的优势。5.1. 网络架构和数据集因为我们关心的是再现推理域模型的三个数据集的每一个，并给出他们的平均测试精度。然后使用模型转换将预训练的模型转换到JPEG域，并给出JPEG模型的平均测试精度。图像被无损JPEG压缩以输入到JPEG网络，并且使用精确的（15空间频率）ReLu公式。该测试的结果在表11.由于网络之间的精度差异非常小，因此也包括偏差。数据集空间JPEG偏差MNIST0.9880.9882.999e-06CIFAR100.7250.7259e-06CIFAR1000.3850.3851e-06表1：模型转换精度。空间和JPEG测试精度与浮点误差相同5.3. ReLu近似精度接下来，我们研究ReLu近似的影响。我们首先检查个别8 8块的原始错误。对于该测试，我们在范围[ 1，1]中随机选取4 4个像素块，并使用框式过滤器将它们缩放到8 8。完全随机的8 - 8块不准确地表示真实图像的统计数据，并且已知是DCT变换的最坏情况。4- 4块允许大的随机样本大小，同时仍然近似真实图像统计。我们采取1000万块，并计算我们的ASM技术的平均RMSE，并将其与直接在近似（APX）上计算ReLu进行对于所有1至15个空间频率重复该图4a所示的结果表明，我们的ASM方法在空间频率范围内提供了更好的近似（较低的RMSE）。空间域网络的结果，我们选择MNIST[16]和CIFAR-10/100 [14]数据集，因为它们很容易使用。MNIST图像被填充到32 32以确保偶数个JPEG块。我们的网络体系结构如图3所示。分类网络由三个残差块组成，最后两个残差块执行下采样，使得最终特征图由单个JPEG块组成这种架构的目标不是获得高精度，而是作为空间和JPEG算法的比较点。5.2. 模型转换对于这个第一个实验，我们凭经验证明JPEG公式在数学上等同于空间域网络。为了证明这一点，我们训练了100个空间这项测试为ASM方法，所以我们继续在模型转换设置中测试它。对于该测试，我们再次训练100个空间域模型，然后使用范围为1-15个空间频率的ReLu层执行模型转换。我们再次比较我们的ASM方法与APX方法。结果在图4b中给出。ASM方法再次优于APX方法。作为最后的测试，我们表明，如果模型是在JPEG域中训练的，CNN权重实际上将学会处理近似，并且需要更少的空间频率来获得良好的精度。图4c中的结果表明，ASM方法再次优于APX方法，并且网络权重已经学会处理近似。3492图4：ReLu精度结果。0.4APX ASM（我们的）APX MNISTAPX CIFAR10APX CIFAR1001ASM MNISTASM CIFAR10ASM CIFAR100APX MNISTAPX CIFAR10APX CIFAR1001ASM MNISTASM CIFAR10ASM CIFAR1000.30.80.80.20.10.60.40.20.60.40.201 3 5 7 9111315空间频率01 3 5 7 9111315空间频率01 3 5 7 9111315空间频率(a) ReLu块错误。我们的ASM方法始终给出较低的误差比天真的近似方法。(b) ReLu模型转换精度。ASM再次优于朴素近似。每个数据集的空间域精度用虚线表示。(c) ReLu训练的准确性。网络权重已经学会校正ReLu近似，允许更少的空间频率用于高精度。5.4. 培训和测试的效率最后，我们展示了训练和测试的吞吐量为此，我们通过训练和测试空间模型以及训练和测试JPEG模型并测量所花费的时间来然后将其转换为平均吞吐量测量。实验在具有40个图像的批量大小的NVIDIA PascalGPU上执行。图5所示的结果表明，JPEG模型在所有情况下都能够优于空间模型，但训练性能仍然有限。这是由卷积和ReLu操作创建的更复杂的梯度引起的。但是，在推理时，性能在空间模型上有很大的改进。6. 结论和未来工作在这项工作中，我们展示了如何在JPEG变换域中制定深度残差学习，并且它在每张图像的处理时间方面提供了显着的性能优势。我们的方法将卷积表示为线性映射[24]，并为ReLu引入了一种新的近似技术。我们表明，近似可以实现高性能的结果，对分类精度的影响很小今后的工作应着重于两个要点。第一是代表的效率。我们的线性映射比空域卷积占用更多的空间。这使得很难JPEG训练JPEG测试20151050空间训练空间测试以将网络扩展到具有大图像尺寸的数据集。其次，商品深度学习库中缺乏对该算法所需的一些功能的支持。在撰写本文时，所有PyTorch [20]，TensorFlow[17]和Caffe [13]中都缺少真正的稀疏张量支持，这些张量被表示为已知高度非性能的坐标此外，与CuDNN[4]等库中的卷积速度相比，用于评估多线性表达式的einsum函数在这些库中没有完全优化，尽管我们使用opteinsum[6]工具来部分缓解这一点。MNIST CIFAR10 CIFAR100图5：输出。JPEG模型具有更复杂的梯度，这限制了训练过程中的速度提高然而，推理却能看到相当高的吞吐量.7. 确认这项研究得到了Facebook AI Re-search的部分资助。我们特别感谢博士。感谢Ser-Nam Lim和他在Facebook的团队对我们工作的持续支持。平均RMSE吞吐量（图像/秒）平均准确度（%）平均准确度（%）3493引用[1]Farshid Arman，Arding Hsu，Ming-Yee Chiu.“图像处理压缩数据的大型视频数据库”。第一届ACM多媒体国际会议。ACM。1993，pp. 267-272[2]张世福在：IEEE视觉信号处理和通信研讨会，北卡罗来纳州罗利，9月。一九九二年。1992.[3]作者声明： David G Messerschmitt.“A newapproach to decoding and compositing motion-compensated DCT based images”.在：icassp.美国电气与电子工程师协会。1993，421[4]Sharan Chetlur 等人 In ： arXiv preprint arXiv ：1410.0759（2014）.[5]冯国灿和姜建民。“基于DCT域特征的JPEG图像检索”。在：图像和视频检索国际会议.斯普林格。2002，pp. 120比128[6]Daniel G. A.史密斯和约翰尼·格雷。- 一个Python包，用于优化类insum-like表达式的在：开放源码软件杂志 3.26 （ 2018 年 6 月 29日）， p. 753.ISSN ： 2475-9066 。 DOI ：10.21105/joss.00753. 网址：http：//dx.多伊org/10.21105/joss.00753。[7]Arthita Ghosh 和 Rama Chellappa。 “Deep featureextraction 在：模式识别（ICPR），2016年第23届国际会议上。美国电气与电子工程师协会。2016年，页3536-3541[8]Lionel Gueguen 等人更快的神经网络直接从JPEG。在：学习代表国际会议。2018年。[9]Song Han，Huizi Mao，and William J Dally.“深度压缩：用修剪、训练量化和霍夫曼编码压缩深度神经网络。 In ： arXiv preprint arXiv ：1510.00149（2015）.[10]Daan He，Zhenmei Gu，and Nick Cercone. 图像处理（ICIP），2009年第16届IEEE国际会议。美国电气与电子工程师协会。2009年，第页。225- 228[11]Kaiming He et al.“Deep residual learning for im-age recognition”.在：IEEE计算机视觉和模式识别会议论文集。2016年，页770-778[12]Sergey Ioffe和Christian Szegedy。“批量正常化：通过减少内部协变量变化来加速深度网络训练。 In ： arXiv preprint arXiv ： 1502.03167（2015）.[13]贾阳青等“Caffe：用于快速特征嵌入的卷积架构 ” 。 In ： arXiv preprint arXiv ： 1408.5093（2014）.[14]亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。Tech. Citeseer，2009年。[15]亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。“Imagenet classification with deepconvolu- tional neural networks”。在：神经信息处理系统的进展。2012年，第页1097-1105[16]杨乐存。MNIST手写数字数据库。在：http：//yann. 乐村com/exdb/mnist/（）。[17]Mart´ın Abadi et al. TensorFlow：异构系统上的大规模机器学习。软件可从tensorflow.org获得。2015年。网址：tensorflow.org/。[18]Maryam M Najafabadi 等 . In ： Jour- nal of BigData2.1（2015），p. 1.一、[19]Balas K Natarajan 和 Bhaskaran Vasudev.“DCT 域数字图像压缩的一种快速近似算法”.图像处理，1995年。诉讼程序国际会议。第二卷。美国电气与电子工程师协会。1995，pp. 241-243[20]Adam Paszke等人在：NIPS-W中。2017年。[21]Bo Shen和Ishwar K Sethi。“基于块的变换压缩图像和视频的处理”。参见：Multimedia Systems6.2（1998），pp.113- 124[22]Bo Shen和Ishwar K Sethi。“从压缩图像中直接提取特征”。静态图像和视频数据库的存储和检索。第2670卷。国际光学与光子学学会. 1996，pp. 404-415[23]Bo Shen和Ishwar K Sethi。第三届ACM多媒体国际会议论文集。ACM。1995，pp. 489-498[24]布莱恩·史密斯“Fast software processing of motionJPEG 第二届 ACM 国际多媒体会议论文集。ACM。1994，pp. 七十七比八十八3494[25]Brian C Smith和Lawrence A Rowe。压缩图像处理算法（Algorithms for Manipulating CompressedImages）IEEEComputerGraphicsandApplications13.5（1993），pp. 34-42[26]Matej Ulicny ， Vladimir A Krylov ， and RozennDahyot.“ 谐波网络：将光谱信息集成到 CNN中 ” 。 In ： arXiv preprint arXiv ： 1812.03205（2018）.[27]格雷戈里·华莱士JPEG静态图像压缩标准. In：IEEE transactions on consumer electronics38.1（1992），pp.[28]Stefan Winkler，Murat Kunt，and Christian J vanden Branden Lambrecht.“愿景和视频：模型和应用”。在：视觉模型和应用，图像和视频处理。Springer，2001，pp.201-229[29]Chao-Yuan Wu et al.压缩视频动作识别在：IEEE计算机视觉和模式识别会议论文集。2018年，页6026-6035[30]Zhen Wu等“DCT域图像SIFT特征提取算法”。在：应用机械与材料。第347卷Trans Tech Publ.2013年，第页2963-2967年。

下载后可阅读完整内容，剩余1页未读，立即下载