基于逐像素动态滤波原子的自适应卷积方法及其在神经网络中的应用

51 浏览量更新于2023-10-13 收藏 3.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12302基于逐像素动态滤波原子的自适应卷积王泽1、苗梓晨1、胡军2、邱强1普渡大学1Facebook2{zewang，miaoz，qqiu}@ purdue.edujunhu2@fb.com摘要应用特征相关的网络权重已被证明是有效的，在许多领域。然而，在实践中，受模型参数和存储器占用的巨大尺寸的限制，具有每像素自适应滤波器的可扩展和通用的动态在本文中，我们通过分解过滤器来解决这一挑战，适应每个空间位置，在动态过滤器原子产生的轻量级网络从本地功能。可以通过在预先固定的多尺度基的集合上进一步表示每个滤波器原子来支持自适应感受野。作为卷积层的即插即用替代品，引入的具有每像素动态原子的自适应卷积实现了图像内方差的显式建模，同时避免了繁重的计算、参数和内存成本。我们的方法保留了传统卷积的吸引人的属性是-ING平移等变和参数有效。我们提出的实验表明，所提出的方法提供了相当的，甚至更好的性能跨任务，并特别有效的处理任务与显着的图像内方差。1. 介绍在神经网络的研究中，长期以来一直在研究数据或上下文相关的网络权重的想法。开发了许多概念，如快速权重[2，32，31]和动态塑性[24，25 在[2，32，31]中，这些网络中的参数可以分为两组：通过梯度下降训练学习的慢权重，以及根据慢权重和观察到的数据动态生成的快权重。近年来，类似的思想已经扩展到动态卷积。如图1a中的标准卷积在所有样本和所有空间位置上使用共享滤波器。动态卷积，如图1b所示，允许卷积滤波器适应一次性数据（与通过顺序观察演变相反）。动态文件三阶网络（ DFN ） [16] 、条件参数化卷积（CondConv）[42]、具有注意力的动态卷积（DY-CNN）[6]被引入，以允许卷积滤波器适应当前观察到的输入，并显式地对图像之间的样本间方差进行建模。虽然在某些任务上已经有所改进，但灵活性是以额外的参数和计算为代价的[6，42]，并牺牲了CNN的翻译等效性[16]。更重要的是，由于应用每像素自适应高维滤波器的禁止性存储器占用空间，将这种方法从每图像自适应滤波器扩展到每像素自适应滤波器实际上是不可行的，如我们将在第4.4节中所示。在本文中，我们在任何网络层启用具有每像素自适应卷积的CNN，如图1c所示，我们引入了具有动态原子的自适应卷积（ACDA），这是一种通用且可扩展的卷积层，其允许从跨空间位置的每个局部输入特征块自适应地生成每像素特定的滤波器。为了弥补在高维度中生成和应用每像素自适应滤波器的过高成本自适应滤波器现在可以通过将这些每像素特定动态原子与交叉位置共享的合成系数线性组合来重构，如图2所示。最重要的是，分解实现了自适应卷积的快速两层实现，如图3所示，这减少了将每像素特定卷积应用到与标准卷积匹配的水平的禁止性计算和存储器占用空间，使我们的方法成为任何CNN中跨层标准卷积的通用替代品为了实现自适应感受野，我们进一步decom- pose每个过滤器原子在多尺度预先固定的原子基础的集合，如图4中，两级过滤器分解。现在，代替直接生成原子，仅需要生成每像素的基础系数。多尺度原子基和生成的基系数重构了动态原子，并允许从局部特征中选择性地确定每个空间位置同时，自适应滤波器是有效规则的-12303⇥222我们使用NN{- -}Z[i，j]正则卷积滤波器*逐图像动态卷积滤波器滤波器预测组件逐像素动态卷积滤波器输入要素输出要素输入要素输出要素输入要素输出要素(a) 标准卷积(b) 逐图像自适应卷积(c) 逐像素自适应卷积图1：卷积层。(a)具有在所有样本和空间位置上共享的滤波器的标准卷积。(b)如[6，16，42]中所示，使用每图像特定滤波器的每图像自适应卷积(c)所提出的每像素自适应卷积动态地生成以局部特征补丁为条件的滤波器，并使用每像素特定的滤波器来明确地建模图像内方差。通过前缀原子基来实现，这加速了大尺寸自适应滤波器生成的学习重要的是，我们的方法保持甚至减少了参数和计算，并保留了CNN的吸引人的特性，包括平移等变和权重共享。我们凭经验证明，我们的方法可以作为标准卷积层的即插即用替代品。我们证明了所提出的方法的有效性，使用图像分类，人群计数，和现实世界的图像恢复作为示例任务，需要处理显着的图像内方差。2. 相关工作参数预测。不是直接训练深度网络的参数，而是在各种动机下讨论参数预测。超网络[10]中的参数被公式化为网络的输出，从而实现参数压缩。BasisGAN [39]采用基生成器对参数空间进行建模，并实现随机条件图像生成。给定样本的预测网络权重[27，8]广泛用于少镜头图像分类。动态卷积。放松卷积的空间位置上的严格权重共享的想法已经在局部连接网络[3]和动态滤波器网络[16]等作品中讨论过应用局部特征相关卷积滤波器已经证明了对真实世界图像简化的有效性[4，26，41]，其中退化模型在空间位置上不均匀。然而，由于实际成本的限制，自适应卷积的使用通常被简化为基于cer-[6]通过注意力机制组装多个内核滤波器的固定数量限制了灵活性。可变形卷积[7，48]允许在固定内核中的值的同时适应内核形状，因此与我们的努力正交，并且可以潜在地与所提出的具有动态滤波器原子的自适应卷积的框架一起工作。3. 方法在本节中，我们首先介绍了动态原子上的滤波器分解的每像素自适应滤波器生成，然后展示了一个实用的两层实现，以解决令人望而却步的内存占用并加快速度。然后，我们在预先固定的多尺度基础上分解过滤器原子，以进一步实现动态感受野，同时保持参数大小。我们以说明性玩具示例结束本节，以显示我们的方法在解决图像内方差和保持平移等方差属性方面的优势3.1. 初步我们用小写、粗体小写和粗体大写字母表示标量、向量和张量，例如，n，x，X分别。我们用 Z0Rc0hw和ZRchw表示具有c个输入和c个输出通道的典型卷积层的输入和输出特征，每个通道其具有h的空间分辨率W.相应的卷积滤波器表示为KRcc0ll，其中l是核大小。我们使用[i，j]来表示特征图在第i行和第j列的空间位置，zi，j=Z[i，j]2Rc是Z中位置[i，j]处的特征向量.[34]和假设，例如，动态卷积6Z[i，j]以表示大小为6的邻域解决方案仅应用于图像域[4，26，15]，或者在深度特征[41]中的通道之间共享，这阻止了方法扩展到通用应用。中介绍了带注意力的动态卷积的Z[i，j]，即6= Z[iu，j v]-6u6，-6v6.在以下讨论中，不失一般性，我们假设卷积的步幅为1，并且填充用于一致的输入和输出分辨率。*12304组成系数2Z[i，j]22BCFZ[i，j]66⇥X XZ[i，j]逐像素动态原子将以Z[i，j]为中心的局部区域作为输入，以及卷积原子产生逐像素动态重构滤波器预测局部自适应滤波器Ki、j2Rcc0ll。预-然后，将指定的滤波器Ki，j应用回到以Z[i，j]为中心的局部区域，并输出输出特征Z[i，j]Rc中的位置[i，j]处的向量。注意这里的6是不一定等于6°，即，在每个空间位置处，馈送到Ø的局部邻域区域可以更小或者大于所生成的滤波器被应用回的区域。输入要素输出要素现在的CNN通常具有高维滤波器，考虑到参数和计算的大小，这使得直接生成滤波器是不可行的。此外，由于现在卷积滤波器是每个像素特定的，其图2：具有逐像素动态的原子的原子生成网络与输入卷积以生成每像素动态滤波器原子Di，j，其然后与跨空间共享的合成系数A相乘以跨位置重构全尺寸自适应滤波器Ki，j。然后将预测的滤波器应用回到以每个空间位置为中心的局部区域。3.2. 自适应滤波器生成如图1a所示，传统的卷积层学习跨输入特征图的所有空间位置以及来自不同输入图像的输入特征共享的滤波器。形式上，CNN中特定位置处的典型卷积可以表示为：Z[i，j] =F（N6 ;K）梯度需要被独立地存储以用于向后计算，这将导致极大的内存占用。例如，在典型设置c0=c=h=w=100且l=3的情况下，单层将消耗26。8GB内存用于存储每像素特定的梯度，ents，这是实际上禁止。这也是现实--因此，为什么现有的每样本特定自适应卷积[16，42，6]很难扩展到每像素自适应。过滤原子分解。在[28]中示出了CNN中的卷积滤波器可以被分解为预先固定的碱基的线性组合（在附录图A中可视化）。我们采用如图2所示的滤波器分解，其中卷积滤波器被分解为线性滤波器。m个动态滤波器原子的组合DRmllasK=AD，ARc<$c0<$m为组成系数。每个空间位置处的过滤器原子通过以下方式生成：（一）=X XK[u，v]·Z[i-u，j-v]，Di，j2Rmll=Ø（N60;✓）.（四）u=-6v=-6我们使用以表示卷积运算，并且θ=1/2。卷积滤波器K跨Z0的空间位置共享，并且在训练之后保持固定。我们的目标是自适应地生成每像素卷积滤波器的条件输入特征的相应邻域区域，如图1c所示，以更好地处理图像内方差。形式上，自适应卷积表示为：Z[i，j] =F（N6;Ki，j）（二）=Ki，j[u，v]·Z[i-u，j-v]，u=-6v=-6Z[i，j]我们稍微滥用了符号，现在使用Ø来表示卷积原子生成网络在分解之后，卷积滤波器的空间模式由滤波器原子来确定，与滤波器相比，滤波器原子是非常低维的。两层实现。生成低维度的动态过滤器原子显著地减少了参数和计算。此外，如图3所示，滤波器分解还允许（2）中的前向传递被分解成两个卷积，每个卷积仅涉及中等大小张量之间的乘法具体地，给定生成的动态原子，前向传递现在被分解成两个步骤：- 首先，在原子卷积中，具有c其中，K在这里变成h，w个局部滤波器的集合，其中的每个被表示为K，i，j，并且被生成为通道仅与m个通道中的每一个在空间上卷积生成动态过滤原子，并输出中间具有Z~和c0m通道：Ki，j=Ø（N60 ;✓）.（三）Z~[i，j]2Rc0m=||F（N6;D [b]）||、（五）Ø这里是卷积滤波器生成网络Z[i，j]i、jb={1，…m}通过✓参数化，✓是端到端训练的。Gi表示输入特征Z0，…，O中的特定空间位置[i，j]其中Di，j[b]表示在位置[i，j]处的第b个生成的滤波器原子，并且||·||b={1，. m}在此表示信道方面的661230522⇥⇥S⇥{2 }图3：ACDA的高效两层实现卷积原子生成网络首先与输入特征卷积以在每个空间位置处输出动态原子Di，j，然后将动态原子Di， j与输入特征在空间上卷积图4：具有多尺度傅里叶-贝塞尔基底的原子生成。目标位置处的特征（红点）和邻域特征（黄点）被馈送到卷积原子生成网络Ø中。在所有空间位置，基系数RmSm0 产生了其与多尺度傅立叶的S集合相乘输入特征，用于输出中间原子输出Z~。一使用成分系数的线性变换最后的输出是A原子Di、j2Rmll.特征的串联-第二，在系数卷积中，给定中间特征Z~，可以通过应用高频噪声如图4所示，卷积原子生成网络Ø现在输出表示为i，jRmSm0的基系数，这些基系数与不同尺度的原子基集合相乘，以重新表示。在每个空间位置构造动态滤波器原子组成系数A2Rcc0m和线性组合，Di，j= i，jG. K的有效感受野i、j现在设置中间特征：Z2Rchw=AZ~。（六）在实践中，该步骤可以通过11个卷积来有效地实现，因为A现在是跨空间位置共享的线性变换。由于所有涉及的操作都是线性的，因此图3中的这种两层实现方式完全等于在每个局部位置处应用重构的全尺寸滤波器，如图2所示，但它可以防止禁止的存储器占用，减少计算，并加快速度，如我们将在第4.4节中所示。由预测的基系数i，j决定，它决定了重构动态滤波器原子时不同尺度下原子基G的权重。给定预先固定的原子基的数量m 0，原子基允许具有不同感受野和模式的滤波器被应用于不同的区域空间位置，而不增加参数的成本。同时，由于滤波器在尺度上的图案都是相同的。通过G正则化，我们始终观察到网络即使在大规模下也可以快速学习，例如，自适应地生成和应用滤波器。自适应感受野的多尺度原子基。据我们所知，卷积滤波器中的自适应感受野在以前的工作中很少被讨论。选择性地决定每个空间卷积原子产生✖为组成系数位置可以潜在地有益于具有大量图像内的任务输入要素生成的原子每像素过滤器输出要素尺度方差，例如，人群计数，其中单个图像中的相关对象的大小可以显著变化。然而，生成大尺寸动态原子的成本可以相对于内核尺寸成二次方地增长。为了实现自适应的感受野，而不增加成本，我们建议，pose进一步分解的动态原子多-规模预先固定的基地。具体地，我们现在在S组预先固定的基上分解滤波器原子，联合表示为G=GsRm0lslsS，每组包含在某个空间尺度lsls的m0个基元素。在实践中，我们采用多尺度傅里叶-贝塞尔基，如图1所示。附录图B。正如在[28]中所讨论的，Fourier-Bessel基可以有效地正则化滤波器并防止学习图5：所提出的方法的平移等方差属性。原始位置和平移位置分别由虚线和实线表示。平移等方差。在我们的方法中，卷积原子生成网络Ø和组分系数A都在空间位置上共享。在我们的方法中的权重共享，确保ACDA保持标准卷积的平移等方差如图5所示，空间平移到局部特征补丁导致从卷积核输出的对应动态原子卷积动态原子的产生成分系数输入要素中间特征部输出要素原子卷积系数卷积12306⇥⇥ ⇥ ⇥⇥⇥⇥⇥⇥原子生成网络在共享A的情况下，自适应滤波器以及因此输出特征片都是原始空间位置的精确的空间移位版本3.3. 玩具图案检测示例为了说明所提出的方法的优点在处理图像内方差和从标准卷积中保留的平移等变属性时，我们呈现如图6中可视化的玩具图案检测示例。在图6a中，我们通过在嘈杂的背景图像上随机放置预定义的多尺度图案来合成单个训练样本具体来说，我们将25模式，在三个尺度，3 3，5 5，7 7，在100 100嘈杂的地图。目标是预测如图6a中所示的地面实况二进制检测图，其中仅25个图案的中心位置被标记为1，并且其他为0。我们训练了两个单层网络，一个使用单个标准卷积，表示为Conv，另一个使用单个建议的动态原子自适应卷积层，表示为ACDA。两层的核大小为7 - 7。使用引入的合成输入和地面实况，两个层都用随机梯度进行训练下降（SGD）和均方误差（MSE），使用学习率0。直到汇合。如图6a中所示，单个标准卷积层不能处理这种情况。图像内的图案不同，并导致高错误率。另一方面，我们观察到ACDA可以快速适应不同的模式，并在每个位置产生自适应滤波器进行检测。ACDA的准确检测体现在低误码率和漂亮的预测图上.输入GTConv输出ACDA 输出MSE 2。210-3MSE 2. 310-4(a) 玩具图案检测实验。我们训练一个标准的Conv层和一个ACDA层来检测不同尺度的模式。ACDA层明显优于标准卷积层，因为ACDA的检测误差的幅度低于标准卷积层的检测误差的幅度。然后，我们使用移位输入测试两个层，如图6b所示。图像中的所有图案在空间上向右下方向移位20个像素。如图6b所示，两个层的输出正好是图6a中的输出的移位版本。这清楚地表明，由于卷积原子生成和共享系数，ACDA保留了标准卷积的吸引人的平移等方差属性。这些简单的合成演示显示了ACDA的灵活性和有效性。为了进一步验证有效性，我们在第4节中介绍了真实世界的实验。4. 实验我们提出的实验结果，充分验证了所提出的我们从图像分类实验开始，表明通过即插即用引入的ACDA到CNN中，即使在减少通道数量的情况下也可以获得相当的和改进的性能。结果表明，在卷积层的动态滤波器可以更好地处理图像的方差，从而减轻了学习过滤器的需求与许多通道的穷举特征匹配。然后，我们转移到现实世界中的人群计数和图像恢复，这两者都涉及显着的样本内方差的应用。通过对计算、存储和参数的讨论，进一步说明了ACDA的优点在所有的实验中，如果没有特别说明，我们采用相同的结构的原子发生器中所描述的附录部分A.3，3套傅立叶贝塞尔基地的规模从3 3到7 7。请注意，虽然每层中仅使用三个尺度，但低成本允许ACDA层堆叠并实现具有非常大范围的感受野。例如，在一个示例中，仅堆叠具有三个尺度的两个ACDA层就可以获得从5 5到13 13的有效感受野范围。我们在附录第A.6节中提供了消融研究，以验证超参数的选择。表1：在CIFAR-10和CIFAR-100上的说明性图像分类性能。报告前1个错误率输入GT转换输出ACDA输出4.1. 图像分类在对定制网络进行大规模实验之前，我们先从一个简单的说明性实验开始(b) 平移等方差。当使用移位的输入图像进行测试时，两个层的输出预测都是图6a中的输出预测的精确移位版本。图6：玩具图案检测实验。[19]《易经·系辞下》：“以德为本，以信为本。LeNet是一个只有两个卷积层的微型网络架构我们在表1中示出，通过仅用所提出的自适应卷积层替换LeNet中的两个卷积方法CIFAR-10CIFAR-100LeNet [19] 24.74 56.60LeNet + ACDA 16.27（34.2%#）49.53（12.5%#）12307表2：ImageNet上的图像分类性能。我们报告参数大小以及Top-1和Top- 5错误率。方法参数前5名ResNet-1811.69M30.2410.92ResNet-3421.28M26.708.58ResNet-5025.56M23.857.13[12]第十二话2.9M32.6 13.6[42]第四十二话13.3M22.8-Conv-ResNet-50 [42]-22.3-DY-MobileNetV 3小型[6]4.8M29.7 11.3Ad-ResNet-s3.85M28.819.62Ad-ResNet-m9.83M25.817.92Ad-ResNet-l18.19M23.226.74观察到显著的准确性改进，表明所提出的ACDA实现了额外的表达能力然后，我们通过在 ImageNet 上进行实验来证明ACDA的有效性和可扩展性。在没有大量调整网络结构的情况下，我们构建了一个基于深度残差网络（ResNet）的简单架构[11]。我们根据经验观察到，在CNN的浅层中采用在深层中，我们在[11]中引入的瓶颈块之后构建动态瓶颈块。网络配置的详细信息见附录第A.4节。我们构建了具有不同大小的自适应ResNet的架构，并在表2中显示，在显著降低参数的同时，具有ACDA的网络可以提供与标准CNN相当的性能。与动态卷积[6，42]相比，ACDA在参数上具有明显的优势。尽管构建紧凑型网络不是本文的主要重点，但与最先进的紧凑型网络架构MobileNet-V3 [12]的比较表明，ACDA可以实现与那些经过大量调整的架构相当甚至更好的性能。4.2. 人群计数人群计数，旨在计数的特定对象（通常是行人）的总数，提出了基于学习的方法的挑战，由于显着大的变化的对象 sappearance 。我们通过简单地采用ImageNet训练的ACDA作为特征提取器的网络进行人群计数实验，并将最终的线性层替换为几个标准转置卷积层以恢复分辨率。我们遵循最简单的实践，生成每个对象的地面实况热图，并使用固定大小的高斯内核进行标记，然后直接训练网络，并具有均方误差（MSE）损失。在没有花哨的情况下，具有ACDA的网络在大规模数据集UCF-QNRF [13]和ShanghaiTech[46]子集A上实现了最先进的结果两个数据集表3：大规模人群计数数据集的比较。参数的数量以百万为单位报告。数据集SHTech-AUCF-QNRF度量MAE MSEMAE MSEMCNN [47]110.2173.2277426Switch-CNN [30]90.4135.0228445SCNet [40]71.9117.9--IC-CNN [29]68.5116.2--SANet [5]67.0104.5--CL-CNN [14]--132191PACNN [33]62.4102.0--SFCN [37]（38.60M）64.8107.5102171CAN [22]（18.10M）62.3100.0107183Wan et al. [36个]64.797.1101176BL [23]（21.50M）62.8101.888.7154.8CondConv-s [42]（14.8M）68.44112.96117182CondConv-l [42]（25.5M）63.82104.23109179基线（4.78M）67.73110.12124.77210.05Ad-ResNet-s（4.87M）57.8891.2799.22182.13Ad-ResNet-m（11.87M）56.0489.7696.08176.87从各种源收集，从而包含由视角、图像质量等的大差异所反映的显著变化按照正常协议，我们在表3中报告了具有平均绝对误差（MAE）和均方误差（MSE）的结果，并将结果与采用定制网络架构[47，30，40，5]和损失函数以及训练的各种最先进方法进行了比较战略[29，14，33，22，23]。基线性能是通过仅使用标准卷积层训练与Ad-ResNet相同的网络架构来获得的。在ShanghaiTech-A数据集上，使用ACDA的网络实现了对最先进方法的显着改进。为了进一步证明使用ACDA的每像素特定自适应滤波器优于每图像特定自适应滤波器的优点，我们采用CondConv [42]的官方模型，并通过附加一个轻量级解码器网络在人群计数上对其进行训练。结果表明，每像素的自适应滤波器可以提供更好的性能相比，标准和每图像的自适应滤波器，甚至减少网络规模。我们在图7中呈现了基系数热图的可视化，以验证ACDA在解决尺度方差方面的独特优势。结果表明，在处理图像尺度变化较大的情况下，ACDA算法可以根据目标物体的大小，通过调整多尺度原子基的权重，有选择地确定每个位置的有效感受野。定性结果见图8和附录B节。4.3. 真实世界图像恢复在真实世界的图像恢复中，退化模型在图像的空间位置上可能是高度不均匀的。12308⇥⇥输入3⇥3 5⇥5 7 ⇥7图7：原子基础系数热图的可视化（越高越浅）。我们的每像素自适应卷积倾向于采用大的内核大小，即，当目标区域中的对象具有大的空间尺寸时，即，近的物体。而当靶向具有密集对象的区域时，优选3- 3个输入GT：215预测：213输入GT：1110预测：1196图8：人群计数的定性结果。表4：RealSR真实世界超分辨率数据集的比较。l是内核大小。度量PSNRSSIM鳞片⇥2⇥3⇥4⇥2⇥3⇥4RealSR 2019双三32.6129.3427.990.9070.8410.806VDSR [17]33.6430.1428.630.9170.8560.821[20]第二十话33.6930.1828.670.9190.8590.824RCAN [45]33.8730.4028.880.9220.8620.826KPN，l= 533.7530.2628.740.9200.8600.826KPN，l=19[26]33.8630.3928.900.9240.8640.830LP-KPN，l=5[4]33.9030.4228.920.9270.8680.834ACDA33.9830.6228.970.9290.8710.937RealSR最终版KPN，l= 5[26]33.4130.4728.800.9130.8600.826KPN，l=19[26]33.4530.5728.990.9140.8640.832LP-KPN，l=5[4]33.4930.6029.050.9170.8650.834ACDA33.5430.7329.280.9180.8680.836年龄和局部特征相关。我们采用ACDA以完全非线性的方式重新覆盖现实世界的退化。我们在真实世界的SR数据集RealSR[4]和真实世界的去噪数据集SIDD [1]。低分辨率高分辨率LP-KPN Ours峰值信噪比22.20峰值信噪比27.56图9：与LP-KPN的定性比较。LP-KPN遭受强伪影。ACDA产生更可靠的结果。我们相信在深度特征中操作的自适应卷积有助于更好地捕获图像语义，从而防止具有强烈伪影的过锐利结果。真实世界的单幅图像超分辨率。我们采用了一个非常简单的网络结构，从[4]中使用的网络修改。我们使用两个卷积层和像素重排下采样层来降低特征分辨率，并使用8个连续的动态瓶颈块来处理中间特征。最后，两个卷积层与像素混洗上采样层之后恢复特征分辨率并输出最终预测。尽管是非常简单的，所采用的网络被证明是有效的处理现实世界的SR与空间-ally非均匀的和潜在的功能相关的退化模型。我们展示了RealSR[4]数据集的两个版本RealSR 2019和更大的RealSR final的比较。我们将ACDA与使用标准卷积[17，20，45]和采用简化自适应卷积[4，26]的最先进方法进行比较。我们遵循[4]中的标准实践，并使用随机裁剪的图像块和简单的均方误差（MSE）作为损失函数来训练网络。结果和比较见表4。在[21，4，45]之后，我们使用YCbCr空间中Y通道上的PSNR和SSIM [38]索引虽然基于简化的自适应卷积的方法在恢复非均匀退化方面取得了良好的结果，但它们仅使用我们表明，以完全非线性的方式赋予网络局部自适应滤波器实验结果和我们的方法揭示了未来的现实世界的SR方法，依赖于当地degra- dation的小假设。定性结果和比较见图9和附录C节。真实世界图像去噪。然后，我们使用SIDD [1]数据集执行真实世界的图像去噪。类似于真实世界SR，真实世界去噪旨在恢复具有空间非均匀非i.i.d.真实世界的噪音噪音可以低-12309⇥⇥一⇥·基本上依赖于特征，因此自适应卷积是用于对图像内方差进行建模的自然良好的工具。我们在表5中给出了定量结果。定性比较见附录D节。基线性能是通过使用相同的网络architec，与ACDA与标准的卷积，只取。如表5所示，尽管动态原子生成网络引入了额外的参数，但由于原子碱基分解，与基线相比，ACDA中的整体大小较小。我们通过使用简单的MSE训练损失（ACDA + MSE）和VDNet[43]（ACDA + VDNet）中提出的最先进的变分去噪框架来ACDA提供了比基线模型更少参数的改进。表5：RealSR真实世界超分辨率数据集的比较。表 6 ：标准卷积（ Conv ）和 ACDA 之间的计算（FLOP）和参数（Params）的比较。所有数字都以百万计。ACDA（conv only）仅表示两阶段卷积，并且ACDA（+原子生成）表示原子生成和卷积的整个过程。FLOPsConv5,900.816,386.632,115.2ACDA（仅conv）4,073.04,318.74,687.4+原子产生4,311.24,557.04,925.7ParamsConv0.591.643.12ACDA（仅conv）0.390.390.39+原子产生0.410.430.45表7：训练记忆和时间的比较。4.4. 关于效率的计算和参数。常规卷积需要c0hwc（1+l2）FLOPS，而ACDA需要c0m（1+l2）+c0mc+c0hwd（1+l2） +dhwSm0（1+l2），与标准卷积相比，它可以提高速度，而不会显著增加存储器占用空间。我们进一步通过采用每像素动态滤波器网络（DFN [16]）进行比较，其中使用轻量级网络生成直接应用于特征图的自适应滤波器。在实践中，训练DFN始终会导致内存不足（OOM）错误，并且在使用CondConv [42]和DY-CNN [6]进行每像素自适应滤波器时也会观察到类似的不切实际的成本。结果表明，如果没有建议的两层实现|{z}原子转换|{z|{z系数原子产生}在我们的ACDA框架中，应用逐像素自适应控制因为它涉及乘法，所以它是禁止其中d=64，la=l，并且lb= 3，遵循章节A.4。为了进行更直接的比较，我们在表6标准卷积（表示为Conv）和ACDA之间的参数大小和FLOP比较这些数字是通过在具有典型设置的单层中计算参数和计算获得的：256个输入和输出通道，100100特征分辨率。我们报告的比较与三个内核大小从33到七点七。如表6所示，ACDA在所有设置中的参数大小和计算方面都具有明显的优势。当使用大的内核大小时，其优点是更优越的原因是原子基础。ACDA（conv only）和ACDA（+ atom generation）的数量之间的比较表明，在典型设置下，原子生成仅引入小的开销。记忆和速度。然后，我们对内存和速度进行比较。Ad-ResNet-s，并且通过仅使用标准卷积来构建基线（表示为Conv），因此表7中的Conv和ACDA具有相同的架构。我们使用标准设置在ImageNet上训练网络，并报告一次迭代的训练内存消耗和速度。建议的ACDA达到更高的在非常高维的张量之间。所提出的ACDA通过将禁止乘法分解为两个温和大小的乘法成功地解决了这一挑战，如表7中定量验证的。并且由于减少了计算量，观察到更快的速度。5. 结论在本文中，我们引入了具有动态过滤器原子的自适应卷积，即插即用的卷积层替换，以更好地模拟图像内方差。ACDA中的卷积滤波器是由局部特征自适应生成的。我们分解的自适应滤波器在动态生成的原子显着节省参数和内存。我们进一步分解原子的自适应感受野的多尺度基地。我们经验验证了我们的方法对图像分类，人群计数，和现实世界的图像恢复。6. 确认这项工作得到了DARPA TAMI计划的支持内核大小3⇥3 5 ⇥ 57 ⇥7方法Conv参数存储时间DFN4.60M3.7GB 4.53s232万OOM-ACDA（两层实现）2.28M 4.6GB 4 0.46sB度量PSNRSiddDnCNN-B [44]38.410.909CBDNet [9]38.680.901VDNet [43]与UNet（7.70M）39.280.909基线+ MSE（2.28个月）38.740.902ACDA + MSE（1.97M）38.960.905ACDA + VDNet（1.97M）39.320.91212310引用[1] Abdelrahman Abdelhamed，Stephen Lin，and Michael SBrown.智能手机摄像头的高质量去噪数据集。在IEEE计算机视觉和模式识别会议论文集，第1692-1700页，2018年。7[2] Jimmy Ba，Geoffrey Hinton，Volodymyr Mnih，Joel ZLeibo，and Catalin Ionescu.使用快速砝码来处理最近的过去。神经信息处理系统进展，2016。1[3] Joan Bruna ， Wojciech Zaremba ， Arthur Szlam ， andYann Le- Cun.图上的谱网络和局部连通网络。arXiv预印本arXiv：1312.6203，2013。2[4] Jianrui Cai，Hui Zeng，Hongwei Yong，Zisheng Cao，and Lei Zhang.迈向真实世界的单幅图像超分辨率：新标杆、新模式。在IEEE计算机视觉国际会议论文集，第3086-3095页，2019年。二、七[5] Xinkun Cao，Zhipeng Wang，Yanyun Zhao，and Fei Su.规模聚合网络，用于准确和高效的人群计数。在欧洲计算机视觉会议（ECCV）的会议记录中，第734-750页，2018年。6[6] Yinpeng Chen，Xiyang Dai，Mengchen Liu，DongdongChen，Lu Yuan，and Zicheng Liu.动态卷积：注意卷积核。在IEEE/CVF计算机视觉和模式识别会议论文集，第11030-11039页，2020年。一二三六八[7] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页，2017年。2[8] Jonathan Gordon ， John Bronskill ， Matthias Bauer ，Sebastian Nowozin，and Richard E Turner.预测的元学习arXiv预印本arXiv：1805.09921，2018。2[9] 史国，严子飞，张凯，左王梦，张磊。真实照片的卷积盲去噪。在IEEE计算机视觉和模式识别会议论文集，第1712-1722页，2019年。8[10] David Ha，Andrew Dai，and Quoc V Le. 超网络arXiv预印本arXiv：1609.09106，2016。2[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。六，一[12] Andrew Howard ， Mark Sandler ， Grace Chu ， Liang-Chieh Chen，Bo Chen，Mingxing Tan，Weijun Wang，Yukun Zhu，Ruoming Pang，Vijay Vasudevan，et al.搜索mobilenetv 3.在IEEE计算机视觉国际会议集，第1314-1324页，2019年。6[13] Haroon Idrees 、 Muhmmad Tayyab 、 Kishan Athrey 、Dong Zhang 、 Somaya Al-Maadeed 、 Nasir Rajpoot 和Mubarak Shah。密集人群中计数、密度图估计和定位的成分损失在欧洲计算机视觉会议（ECCV）的会议中，第5326[14] Haroon Idrees 、 Muhmmad Tayyab 、 Kishan Athrey 、Dong Zhang 、 Somaya Al-Maadeed 、 Nasir Rajpoot 和MubarakShah. 密集人群中计数、密度图估计和定位的成分损失在欧洲计算机视觉会议（ECCV）的会议中，第5326[15] 徐佳，洪昌，丁妮·图伊特拉尔斯。深度自适应图像重采样的超分辨率。arXiv预印本arXiv：1712.06463，2017。2[16] Xu Jia，Bert De Brabandere，Tinne Tuytelaars，and LucV Gool.动态过滤网络。神经信息处理系统的进展，第667-675页，2016年。一二三八[17] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.使用非常深的卷积网络实现精确的图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，第1646-1654页，2016年。7[18] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei.用于细粒度分类的3d对象表示。第四届IEEE 3D表示和识别国际研讨会，澳大利亚悉尼，2013年。[19] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278-2324，1998.5[20] Chri s tianLedig ， LucasTheis ， FerencHus za'r ， Jo seCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew Aitken，Alykhan Tejani，Johannes Totz，ZehanWang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，

下载后可阅读完整内容，剩余1页未读，立即下载