偏微分方程凝聚CNN：基于PDE的高效深度网络架构

27 浏览量更新于2023-10-25 收藏 755KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

610- ×−−××----用偏微分方程凝聚CNNAnil Kag，Venkatesh Saligrama波士顿大学{anilkag，srv}@bu.edu摘要卷积神经网络（CNN）依赖于架构的深度来获得复杂的特征。它导致低资源IoT设备的计算昂贵的模型。卷积算子是局部的，并限制在感受野中，其随深度增加。我们探索偏微分方程（PDE），它提供了一个全局的接收域，而不会增加维护大型内核卷积滤波器的开销。我们提出了一个新的功能层，称为全球层，强制PDE约束的功能地图，从而产生丰富的功能。这些约束通过在网络中嵌入迭代格式来解决。所提出的层可以嵌入到任何深度CNN中，将其转换为较浅的网络。因此，导致紧凑和计算效率高的架构，实现与原始网络类似的性能我们的实验评估表明，全球层的架构需要2 - 5计算和存储预算没有任何显着的性能损失。1. 介绍卷积神经网络（CNN）已经成为图像识别[19]，对象检测[33]和其他应用[31]接口图像模态的最新进展的支柱。具有有限感受野的卷积滤波器作用于局部输入区域以生成低级特征。用于决策的特征是这些低级特征的复杂函数，通过顺序应用的许多此类卷积运算符的组合来实现，从而产生具有高推理/训练时间和大模型大小的深度网络。最近的作品[3，5]探索了受常微分方程（ODE）启发的神经网络，提供了比离散对应物更丰富的表示。Resnets [8]可以看作是常微分方程的离散化形式。基于这些连续层的最终架构与其离散对应物相比导致更高的计算成本[2]，即由于昂贵的定点求解器。相比之下，我们探索新的约束特征图，基于偏微分方程（PDE），偏微分方程（PDE）提供类似的丰富表示，但具有较浅的神经网络。此外，我们还提供高效且可扩展的求解器，以节省计算和存储。拟定方法。我们探索了一种混合方法，其中我们通过嵌入一个新的层来修改离散模型，该层具有对输入特征图进行操作的全局感受野，并计算这些低级特征的复杂组成我们将此层称为全局要素层。它近似地解决耦合输入和输出特征图的PDE约束。在典型的离散模型中，在每个输入分辨率下，相同的卷积块重复应用m次。我们通过只保留一个卷积块并将m1块替换为单个全局特征层来修改此结构（参见图1）。因此，将深度神经网络简化为更浅的网络，而不会有任何显着的性能损失。它导致更小的模型，具有较低的计算和存储成本。此外，它还提高了训练和推理时间。通过保持至少一个块从原来的architec- ture，我们正在纳入这个架构的签名。它允许将此通用全局特征层应用于任何体系结构。此外，由于任何迭代求解器的良好开端意味着到达解的步骤更小，因此该原始块有助于初始化PDE解。预计节省。假设用三种分辨率构造的Resnet架构具有m个残差块，并且对于三种分辨率，计算成本分别为c1，c2，c3。运行这个网络的总计算成本是m（c1+c2+c3）.全局残差块仅用一个全局块替换m1个残差块，并且假设该全局块的成本是相似的，即，=c1 ， c2 ， c3 ，则运行修改后的网络的成本为 2（c1+c2+c3）。假定m >2，修改后的网络可以导致比Resnet节省计算。对于存储节省也可以得出类似的结论。动机的例子。为了激励我们的方法，我们将全局特征层应用于Resnet32 [8]架构，其中在每个特征图分辨率下，相同的块重复5次。使用第4节中描述的实验设置，我们在CIFAR-10数据集上训练了三个模型：（a）611≈ ×≈ ×≈ ×图1.用全局层替换给定CNN架构中的重复块，以节省计算和模型Resnet32：与[8]中使用的架构相同，（b）基于ODE的Resnet32，即，修改MDEQ [2]以匹配Resnet 32中的特征图配置，以及（c）ResNet 32-Global：用全局层替换重复块表1显示Resnet32和MDEQ具有相似的性能。注意，MDEQ在浮点乘加运算（MAC）方面是显著昂贵的。相比之下，所提出的Resnet 32-Global导致更小的模型和显著更低的计算占用空间，而不会对性能造成任何该实验清楚地表明，全局层具有以下优点：1. 浅网Resnet 32-Global的深度少了3个。2. 更少的存储。Resnet32-Global少了 3个参数。3. 更少的计算。Resnet32-Global少用5个MAC。4. 易于嵌入任何网络。表 1.CIFAR-10 ：离散 Resnet 32 、基于 ODE 的 Resnet 32（MDEQ [2]）和我们的PDE嵌入式Resnet 32- Global之间的比较我们将深度计算为网络中的块数。训练和推理时间表示在V100 GPU上处理一遍训练和测试数据集的成本补充表16列出了Resnet（m=2）和CIFAR-100数据集的结果。精确度#参数#MAC 火车推理深度时间（s）时间（s）Resnet3292.49%460K70M784.4515MDEQ92.28%1.1M1.5B40923.32-Resnet 32-全球91.93%162K15M241.916捐款.• 提出了一个全局特征层，对输入和输出特征图施加PDE约束。将这一层嵌入深度网络中会导致其较浅的变化，具有较小的足迹，具有相似的性能。• 将所提出的全局层嵌入到许多现有的CNN架构中，并对基准图像识别数据集进行了广泛的实证研究，以显示计算和存储节省。• 提出了一种有效的近似偏微分方程求解器嵌入到神经网络中，其中模型的精度可以为计算预算进行权衡。• 我们为全局层提供了伪代码，可以轻松部署在任何流行的深度学习语言中。我们的 PyTorch实现可在https://github.com/anilkagak2/PDE_GlobalLayer 上获得。2. 相关工作存在与用于对象识别的模型（包括低复杂度模型）相关的大量文献。在这里，我们只包括与我们的方法密切相关的论文。早期跳过 CNN 。 Resnet [8] ， Highway networks[27]，Wide-Resnets [32]，Dense-Nets [12]等提出了具有跳过/剩余连接的网络。这些变化有助于缓解深度神经网络中的梯度消失问题。这些训练的模型更深入，因此比上一代模型（如AlexNet [19]，VGG-Nets [26]等）实现了更好的性能。移动/物联网就绪CNN。许多设计低复杂度模型的初始尝试（ SqueezeNet [14] ， SqueezeNext [6] ，MobileNets [11]）包括手工制作的特征块（具有低秩滤波器，可分离卷积等）。其组合产生具有低浮点运算的小模型。最近，EfficientNets [29]被提出来系统地研究宽度，深度，通道等的影响，以及内存和MAC限制。也有人努力[21，34]寻找优于手工制作架构的神经架构请注意，这些建议是对我们的建议的补充。模型压缩/蒸馏。获得小模型的替代策略需要模型压缩。深度压缩[7]是一项早期工作，其中预训练的网络被修剪，量化和压缩，以产生可以部署在边缘设备上的小型其他工作包括从一个更大的预训练网络中提取[9]知识到一个小型紧凑模型中。我们不追求这些技术来简化我们的阐述。ODE启发了CNN。这门课的相关工作与我们的方法最相似。神经ODE（NODE）[3]在ODE之后引入连续时间层。它使用黑盒ODE求解器以及伴随方法进行反向传播。增强神经ODE [4]将NODE扩展到更丰富的函数类，而ANODE [5]解决了伴随方法中的梯度计算，以允许更准确的梯度匹配离散化。神经ODE及其变体并没有证明它们对Imagenet等任务的可扩展性。612∈∈×−≈以前的作品利用ODE启发的模型进行顺序处理。这些模型中的一些需要架构来实现平衡[15，17]，[1]，其中后者已通过多尺度深度平衡模型（MDEQ）[2]扩展到图像模态。MD-EQ在多个特征尺度上使用隐式层来缩放到大型数据集，如Imagenet。虽然它们在大规模任务上表现出良好的性能，但模型容量仍然需要与离散对应物几乎相同虽然隐式模型提供了低记忆成本的训练，但它们仍然没有为推理提供太多的灵活性。此外，与Resnet等离散变体相比，它们的推理成本要高得多PDE启发了CNN。[24]提出了基于抛物型和双曲型偏微分方程的新架构。这些与偏微分方程的联系使得理论上的合理性成为可能，例如所得网络的稳定性。尽管最终的模型很小，但这些模型在性能上受到了重大打击NeuPDE [28]使用卷积滤波器来近似一般二阶PDE的微分算子。NeuPDE通过许多卷积层将输入图像下采样这种构造有助于减小模型大小，但增益不够。3. 方法在本节中，我们将形式化特征表示上的PDE约束。我们将描述建议的全局层，包括我们的PDE选择，并在神经网络中嵌入近似数值求解器。最后，我们将提供构建块和伪代码来提高对我们架构的理解。记法。为了简单起见，我们将假设输出形状与输入相同，并且我们只处理由XY平面表示的2D 让I（x，y）Rh×w表示具有h w个条目的输入特征图。设H（x，y）Rh× w为输出特征图。我们将把xxy表示为微分算子（包含输入中两个维度之间各种相互作用的偏微分算子）。3.1. PDE约束特征。我们在输出特征图H其中f是应用于输入特征图的函数。上述算子在特征图上全局应用，并且不将其自身限制于诸如单层卷积之类的算子的局部感受域。例证在深入研究有关全局要素层的更多细节（即确切的PDE和数值）之前，cal solver），我们提供了一个直观的MNIST数据集上的例子来证明这种策略的有效性。我们构建了一个网络，其中有一个特征层，然后是平均池化操作和分类器层（见图2）。请注意，特征图层仅构造一个特征图。它通过使用不同的特征层产生了三个网络：（a）CNN-Net：卷积层作为特征映射，(b)残差网络：卷积层之间的残差连接，以及（c）PDE网络：PDE约束层作为特征图。请注意，所有三个网络都有524个参数，以确保公平的比较。因此，这些网络之间的唯一区别在于处理特征的方式我们在MNIST数据集上用相同的设置训练这些网络（优化器，学习率，epochs，没有数据增强，参见第二节）。（4）提供公正的评价。在支持的测试集上，CNN-Net达到了92. 01%的准确率，残差净达到92。53%的准确率，而PDE-Net达到95。03%的准确率。由于除了特征层之外的网络架构是相同的，因此我们可以很容易地分析特征图，以查看两种特征表示之间的对比。图2显示了这些神经网络的中间表示。结果表明，PDE-Net生成的特征图通过平滑噪声背景有效地突出了输入对象，增加物体边缘周围的亮度。3.2. 全局要素图层为了在神经网络层中嵌入PDE，我们需要描述PDE的四个组成部分：（a）它的确切形式，即（b）数值求解器，（c）解的初始猜测，最后（d）自由参数的选择，如函数图2.比较不同主干的玩具示例：卷积、残差和全局。我们展示了字母3的输入图像的网络表示。来自卷积和残差主干的中间特征在边缘周围不显示明亮的相比之下，全局层使其平滑，并在手指周围显示亮点。因此，全局层提供了比其他两个主干更好且明显不同的表示所有三个网络都有524个参数。具有全局层的网络达到95%的准确率，而其他两个达到92。5%的准确度。它在字母3和5之间也有明显较少的混淆参见补充章节中的其他可视化。A.9.613∇·∇·∇δx+1，yx，y+1x−1，yxxx伊于伊F. 我们将这个新层称为全局特征层，并在下面描述这些组件。（a）PDE：全球特征层的核心是以下通用对流扩散PDE1∂tH=它让我们将输入特征图像素视为以速度v运动的粒子，这些粒子通过扩散系数D与它们的邻域相互作用。从时间t= 0开始，对浓度H（t= 0）进行初始猜测，该对流扩散方程的解提供了时间T时的最终颗粒浓度H（t=T）。它是全局要素图层的输出表示。颗粒的运动影响浓度，并通过平流项（vH）进行建模。类似地，术语（D H）描述了扩散现象，其中颗粒在低浓度和高浓度之间移动以达到稳定状态。注意，D和v都可以是粒子位置的函数。最后，f（I）项是粒子浓度的来源。在我们的二维世界中，速度和扩散系数具有两个分量，即v=（u，v）和D=（Dx，Dy），并且等式2归结为以下形式[13]H（x，y，t）+ u（x，y，t）H（x，y，t）n + n. v（x，y，t）H（x，y，t）给定在t= 0处的输出特征图H的适当初始化，等式（1）4提供了一个更新规则，以找到在任何时间t=T的PDE解决方案。我们需要初始化算法，并且我们可以在整个2D地图上进行K步迭代以获得时间T=Kδt 处的解。（c）解的初始猜测对于前一次递归的收敛是至关重要的。更好的初始猜测导致更快的收敛。存在多种策略来初始化输出特征图，即(a)输入特征图I，（b）输入的固定函数，以及（c）输入的可学习函数。我们遵循最后一个选择。给定一个架构，我们使用它的一个构建块作为初始化点，并在训练阶段通过反向传播学习它的参数。因此，对于Resnet这样的架构，在任何分辨率级别，我们都使用第一块作为t= 0时全局特征层的输出。我们运行K步的PDE以获得时间K处的最终特征图。不（d）自由参数的选择有一些方程中的自由参数3 .第三章。为了完成全局特征层的描述，我们列出了这些自由参数的参数化，即（a）函数f（b）粒子速度（u，v）和（c）扩散系数（Dx，Dy）。为了简单起见，我们将f作为输入上的恒等算子，并在初始化上学习其他参数作为深度卷积。我们指出，为了节省计算，可以通过保持同一性来进一步固定这些参数普雷特=0。DxH（x，y，t）D伊H（x，y，t）H+f（I（x，y））操作或将其视为超参数。我们研究的影响，不同的选择自由参数在我们的消融（参见第4.6补充章节A.6）。我们离开（三）（b）迭代求解器：为了有效地实现全局层，我们需要一个简单有效的PDE求解器，它可以嵌入神经网络中，并且可以很容易地获得近似解。为了得到一个有限元格式，在文献中标准的做法是用它们的有限差分元素展开偏微分算子。假设x、y和t的离散步长分别为δx、δy和δt。在[13]之后，我们将等式离散化。三是（见附件）。A.2详细推导），设计选择改进（例如，采用架构搜索以获得更好的组合）用于未来的工作。最后，作为一个顺便的评论，我们指出，我们没有处理的边界条件明确在我们的公式。理想情况下，应该仔细设计PDE在边界处的行为。相反，我们滚动图像，使第一个粒子是最后一个粒子的邻居由于我们的目标只是找到一个近似值，这种修改就足够了。请注意，我们对PDE和数值求解器的选择是出于易于实现的动机，LHk+1=MHk−1−2（ux+vy）δt Hk+ 2δt f（I（x，y））简单的解释。我们把对瓦里的探索-x为ohx为oh+（−Ax+ 2Bx）Hk+（−Ay+ 2By）Hkx为oh+（Ax+ 2Bx）Hk+（Ay+2By）Hkx，y−1（4）其他偏微分方程（拉普拉斯方程，热方程，Navier-Stokes方程等）和更好的解决方案。实施. 算法1显示了全局层的伪代码。这个特性层可以通过适当的初始化轻松集成到任何架构默认情况下其中L=（1 + 2Bx+ 2By），M=（1−2Bx−2By）我们取离散步长为δ t= 0。2、运行x=ux+1，y−ux−1，y2δx;vy=vx，y+1−vx，y−1;2δy递归直到K= 5步，导致在T=Kδt= 1处的输出状态。我们取δx=δy= 1，因为像素值在任何更精细的细节处都不可用我们所有的实验，Ax= uδtδx ;Ay=vδtδy ;Bx=Dxδt2X;By=Dyδt2y方程中的自由参数3是具有与原始块相同的内核大小的去卷积运算符。对于CIFAR-10低预算实验，我们使用恒定扩散，1https://en.wikipedia.org/wiki/Convection-diffusion_equationSion系数，并将1设置为它们的默认值。δδ;614∈×××算法1全局特征块输入：输入特征图IRh×w输入：初始解猜测F（I），函数f输出：输出特征图O初始化：H−1=H0=F（I）计算速度（u，v）、扩散系数（Dx，Dy）对于k= 1至K，计算f（Hk−1，I）对于x=1，y=1到h，w做根据等式1，设置Hk+1[x，y]4端设置输出特征图O=HK端与现有PDE/ODE CNN的区别。现有的基于ODE的CNN [3]专注于显示Resnet类架构和连续时间ODE之间虽然这种连接提供了新的见解，但由于昂贵的固定点求解器和昂贵的残差函数，很少有努力将这种想法用于紧凑的CNN因此，这些架构无法扩展到大型数据集，如Imagenet（见补充章节）。详情见A.8）现有的基于PDE的CNN [24，28]应用通用模板运算符，并且不解决任何特定的PDE。此外，大多数作品使用这样的操作在重度下采样的初始特征图上。相比之下，我们在每个分辨率级别上应用提议的全局层，并消除了对建筑块重复的依赖。我们还指出，我们的更新方程。4不是简单的剩余连接。这是一个离散化对应的PDE方程。3，其中不同的元素在时间和空间维度上相互作用。相反，任何通用卷积的递归更新不一定对应于迭代方案，并且不会收敛。此外，我们在更新方程中没有昂贵的非线性，这会减慢递归。通常在ODE/PDE CNN中，函数f是具有多个全卷积和非线性的残差块，如批量范数和激活函数。具有全局层的架构。图3示出了所提出的全局层的示意图。如前所述，这一层中的自由参数被构造为dependency卷积。此层可以嵌入到任何现有的在SEC中看到的架构。4.第一章4. 实验在本节中，我们将在流行的架构中应用建议的全局层。我们将证明，由此产生的架构具有比原始模型小得多的计算和我们将在各种基准图像识别数据集上评估这些模型。4.1. 数据集我们使用流行的图像分类数据集来展示我们的架构在许多任务中提供了好处。这些数据集是公开的。我们的模型使用可用的训练数据从头开始训练。我们在公开的测试集上报告评估指标。1. MNIST-10[20]：该数据集由10个类别组成，灰度图像为28 28像素。训练集中有60，000张图像，测试集中有10，000张我们将数据归一化为均值0和方差1。2. CIFAR-10/100[18]：该数据集由32 32像素的RGB图像组成。它包含50，000张训练图像和10，000张测试图像。它有两个变体：（a）CIFAR-10图像从10个类中提取，（b）CIFAR-100图像从100个类中提取。除非明确说明，否则我们遵循早期作品[8，12]中使用的标准数据增强技术（mir-移位/移位），然后跨通道归一化为标准高斯。3. Imagenet-1000[23]：它是流行的ILSVRC 2012分类数据集。这个1000路分类数据集由128万张训练图像和50，000张验证图像组成。我们遵循标准的数据增强（mir-缩放，调整大小和作物形状224 224）进行训练和单一作物进行测试。类似于以前的作品，我们报告的验证集的结果。4.2. 实验装置我们使用算法1在PyTorch中实现全局特征层。我们的实验包括强基线，如Resnet [8]，Densenet [12]，Wide Resnet [32]，DARTS [22]。我们在这些架构中嵌入全局特征层，并删除特征块重复，从而生成Resnet-Global 、 Densenet-Global 、 Wide Resnet-Global 和DARTS-Global。对于Imagenet实验，我们对最先进的架构进行了类似的调整，如 MobileNetV3 [10] 和EfficientNet [29]。我们遵循这些作品的指导进行公平的比较。除非原始论文推荐额外的增强或训练技术，否则我们在所有实验中使用带有动量优化器的随机梯度下降来最小化交叉熵损失此外，我们引用文献中的已知结果作为基线参考。图3.使用扩散PDE的全局层示意图。615- ×- ×- ××- ××××--×{−我们主要报告精度，参数数量和浮点乘加操作的数量2。这些指标衡量模型的性能、模型大小和计算占用空间。由于空间有限，我们仅列出了几个实验的深度、推理和训练时间。我们不追求压缩相关的想法（量化，深度压缩，蒸馏等）。或硬件优化在这项工作中，以简化我们的论述的关键。这些可以进一步纳入我们的计划，以提供类似的收益，在早期的作品。4.3. MNIST-10的结果由于ODE基线不能扩展到大规模数据集，因此我们将我们的架构与MNIST-10数据集上的这些基线进行比较。我们在这个实验中使用Resnet架构。类似于[3，28]，我们使用一个Resnet架构，其中我们在对输入进行两次下采样后应用一个全局或一个ODE层或6个残差层。此外，我们使用预算（5M MAC）Resnet架构，其中我们应用一个全局层或残留层，而不进行下采样（参见补充章节<详情请参阅A.3我们使用带有动量的SGD优化器来最小化交叉熵损失。我们遵循类似的实验设置（时期，学习率，调度器等）。作为基线。结果Resnet全球在相同的精度有3 5存储年龄增益（参数数）和2。5 3计算收益. 表2比较了Resnet-Global模型与神经ODE [3]，NeuPDE [28]，Resnet [8]。它表明Resnet-Global实现了与基线相似的性能特别是，与Resnet相比，我们的archi- tectures减少了3 - 4的存储和减少计算2 - 3。另一方面，与Resnet相比，Neural-ODE的计算占用空间更表2.MNIST-10的结果具有全局层的网络比ODE，PDE和离散CNN具有更少的存储和计算需求。架构精度#参数MAC数量神经ODE [3]99.49220K100MNeuPDE [28]99.49180KResnet [3，8]99.59600K30MResnet-Global（我们的）99.51136千14MResNet99.6133.3K5.7MResnet-Global（我们的）99.439.94K1.7M4.4. CIFAR-100的结果建筑。我们在这项任务中评估了流行的残余架构，即 Resnet 、 Wide-Resnets 和 DenseNet 。我们运行了Resnet的两个变体[8]：Resnet322 遵循惯例 [10 ， 29] ，我们利用基准 PyTorch 实用程序https://github.com/Lyken17/pytorch-OpCounter用于MAC。在每个分辨率下重复相同的残差块m= 5次，而Resnet56将重复次数增加到m= 9。我们严格遵守原始论文[8]中描述的配置。我们将这些架构中的重复块替换为全局层，从而得到两个Resnet-Global架构，其中我们保持m= 1和m= 2的重复。我们使用Wide-Resnet[32]，其中40层和4个剩余架构的宽度，通常称为WRN-40-4。其构造类似于上述Resnet，除了宽度为4之外，重复m= 6我们用全局层替换这些重复，得到m= 1的Wide-Resnet-Global。对于DenseNet，我们借用了具有成本效益的变体DenseNet-BC [12]，其增长率为12，三个密集块，每个块为16致密层，也称为Densenet-BC（k=12，L=100）。此外，我们将全局层应用于通过神经架构搜索DARTS [22]找到我们通过用全局层替换单元格重复来培训详情。所有全局架构及其各自的原始基线都使用SGD+动量优化器进行了300个epoch的训练我们将初始学习速率设置为0.1，在历元150和225处衰减10。注意对于每个架构我们使用推荐的超参数设置（批量大小，权重衰减，数据增强等）。当超参数建议缺失时，我们在验证集上对权重衰减3e4，2e4，1e4，5e5，1e5和批量大小32，64，128，256使用网格搜索（参见补充章节A.4为最终超参数）。结果我们在表3中列出了主要评估指标。表4列出了其他评估指标，如训练/推理时间和架构配置。下面我们总结一下主要的发现。(a) 节省计算和存储表3显示启用全局层的架构是紧凑的并且计算高效。与基线架构相比，具有全局层的模型实现了2. 5- 4。5倍浮点数减少和2. 5- 4。2×参数减少。(b) 减少训练和推理时间。从表4中可以明显看出，全局架构具有更好的训练和推理时间，至少减少了2次。请注意，我们可以将许多物联网应用程序中的训练时间作为一次性成本丢弃。相反，推理时间直接影响电池消耗和设备的响应能力。(c) 浅神经网络。从表4中可以推断，全局架构更浅，因为在许多情况下，它们将架构中的单元数量减少了近3个。例如，流行的Resnet 56模型有27个单元，而Resnet-Global只有9个单元。(d) 可集成到许多流行的架构中。表3和表4显示了全局层可以成功地应用于一系列具有上述优点的架构。(e) 在固定的计算预算下进行比较是616−表3.CIFAR-10和CIFAR-100的结果全局层架构需要的计算和存储预算减少2-5倍架构CIFAR-10CIFAR-100精度Params（节余）Macs（节余）精度Params（节余）Macs（节余）[第12话]95.49800K300M77.73800K300MResnet56 [8]93.03850K127M--NeuPDE [28]95.399M76.399M阳极[5，28]94.9611M71.2811M汉密尔顿偏微分方程[24]89.3262K64.9362KMDEQ [2]93.810M8.3B--Resnet32（m=5）92.49460K(1.0×）70M(1.0×）68.57473K(1.0×）70M(1.0×）Resnet-Global（m=1）91.93162K(2.8×）15M(4.7×）68.01168K个(2.8×）15M(4.7×）Resnet56（m=9）93.03850K(1.0×）127M(1.0×）70.48861K(1.0×）127M(1.0×）Resnet-Global（m=2）93.01330K(2.6×）30M(4.2×）70.06336K型(2.6×）30M(4.2×）Densenet95.32769K(1.0×）2.97亿(1.0×）77.21800K(1.0×）2.97亿 (1.0×）Densenet-Global95.01四十六万五千(1.7×）136M(2.2×）75.69481K(1.7×）136M(2.2×）wide-ResNet95.919.0M(1.0×） 1.30B(1.0×）79.119.0M(1.0×） 1.30B(1.0×）Wide-Resnet-Global95.542.8M(3.2×） 425M(3.1×）78.132.8M(3.2×） 427M(3.1×）飞镖97.113.3M(1.0×） 539M(1.0×）82.513.4M(1.0×） 539M(1.0×）DARTS-全球96.83783K(4.2×）213M(2.5×）81.89835K(4.1×）213M(2.5×）ResNet80.7613K3.42M35.2114K3.42MResnet-Global82.5514K3.6M43.6216K3.6Mwide-ResNet83.8322K9.8M39.0123K9.8MWide-Resnet-Global85.5123K8.7M50.2324K8.7M飞镖86.0539K7.7M54.5743K7.7MDARTS-全球88.4434K8.2M60.6841K8.2M值得注意的是，对于物联网设备来说，尽管存储空间可能是大型型号的限制因素，但这种小型设备的主要问题是计算性。用于推理的浮点运算的数量直接影响电池消耗以及任何成功的ML应用程序所考虑到这一点，我们将全局架构与低计算预算下的基线进行比较，即，<10M MAC。在这种情况下，全局模型比基线架构实现了更高的准确性。因此，证明我们的模型更适合物联网应用。4.5. Imagenet-1000上的结果MNIST和CIFAR数据集上的实验表明，具有全局层的架构是紧凑的，浅的，计算效率高。在本节中，我们将展示Global层改进了Imagenet数据集的最新模型文献中已经表明，MobileNet [10，25]和EfficientNet [29]模型比Resnet/Densenet模型更具成本效益。建筑。我们将全局层应用于 MobileNetV2 、MobileNetV3和EfficientNet，并将重复替换为全局层。对于MobileNetV2，我们使用宽度乘数为1的基线。我们获得MobileNetV 2-Global通过在每个特征分辨率下用一个全局层替换所有可逆残差块重复。我们使用MobileNetV3的大型变体，宽度乘数为1。我们创建MobileNetV 3-Global通过用Global层替换构建块（可逆残差+挤压和激发）。最后，对于EfficientNet系列，我们只选择B0变体，因为它的计算要求较低。我们在补充章节中提供了体系结构细节和A.5.培训详情。由于计算限制，我们不重新训练基线，只在表5中报告其公开的性能指标。我们使用来自基线的超参数建议从头开始训练全局层的架构。我们使用具有0.9动量的RMSProp优化器来最小化交叉熵损失以及值为1e5的权重衰减项。其余的超参数可在补充章节中找到。A.5.表4. CIFAR-10：训练推断时间（在V100 GPU上通过训练和测试数据集的一次成本）以及单元数。细胞总数是网络深度的代表。架构准确性火车推断原始全局总数时间（s）时间（s）细胞细胞细胞Resnet5693.031196.7127027Resnet-Global93.01562.33639Densenet95.3213810.2248048Densenet-Global95.01243.424226wide-ResNet95.91344.8818018Wide-Resnet-Global95.54202.71336飞镖97.111266.8620020DARTS-全球96.83613.43639617×××××结果表5报告了top1精度以及参数数和乘加运算数。下面我们总结一下主要的发现。(a) 节省计算和存储表5显示，全局层启用架构是紧凑和计算效率。我们的架构实现了类似的性能作为基线与1。少了5个MAC和2个。5参数节省。此外，在精度略有降低的情况下，我们保存了2个MAC和3个参数。(b) 减少训练和推理时间。全局架构具有更好的训练和推理时间，二是减少（见补充部分）。A.5）。(c) 可集成到许多流行的架构中。表5显示，全局功能层可以成功地应用于一系列的架构。表5. Imagenet的结果架构ImageNetTop-1#参数MAC数量[第11话]70.64.2M575M[6]第六话67.443.23M708M[12]第十二话76.214M3.5BResnet-152 [8]77.860M11BMDEQ-小型[2]75.518M[25]第二十五话72.03.4M1.6M1.2M5.4M3.0M1.8M5.3M2.4M1.8M(1.0×）(2.1×）(2.8×）(1.0×）(1.8×）(3.0×）(1.0×）(2.2×）(2.9×）300M193M150M219M156M110M390M244M201M(1.0×）(1.6×）(2.0×）(1.0×）(1.4×）(2.0×）(1.0×）(1.6×）(1.9×）MobileNetV 2-全球71.63MobileNetV2-Global-s69.03[第10话]75.2MobileNetV 3-全球74.11MobileNetV3-Global-s71.89[29]第二十九话77.1EfficientNet-B0-Global76.12高效Net-B 0-Global-s74.534.6. 消融实验在本节中，我们将探讨所提出的方法的各个方面由于篇幅有限，我们请读者参阅补充章节。A.6用于额外消融。(A) K在迭代求解器中的影响。我们研究了K超参数在迭代求解器中的作用。在CIFAR-10和CIFAR-100数据集上，表6显示了Resnet-Global模型的性能（见第二节）。4.4）当我们改变K.请注意，增加K不会增加我们公式中的参数数量。在这种情况下，对于CIFAR-10，Resnet-Global具有162K参数，而对于CIFAR-100，Resnet-Global具有168K参数。我们的默认选择K= 5是合理的，因为随着计算成本的增加，精度略有提高。(B) 具有相同MAC的基线和全局模型。我们之前的实验表明，全局层改善了任何架构的计算足迹在本实验中，我们通过保持相同的计算预算来比较全局架构与表7显示了这些模型在CIFAR-100数据集上的性能全球模型将基线提高了4%。618- ×表6.更新方程中超参数K的影响。4.第一章架构KCIFAR-10CIFAR-100精度 MAC数量精度MAC数量Resnet-Global190.6914.3M66.8914.3MResnet-Global391.3414.7M67.3714.7MResnet-Global591.9315M68.0115MResnet-Global 1092.0115.5M68.2315.5MResnet-Global 2092.2117M68.2417M表7.全球模型与原始模型的预算相似。架构CIFAR-100精确度#参数#MACResnet5670.48861K127MResnet-Global74.331.32M119MDensenet77.21800K2.97亿Densenet-Global78.91922K247Mwide-ResNet79.119M1.3BWide-Resnet-Global80.539M1.3B飞镖82.513.4M539MDARTS-全球84.192.4M519M(C) 非线性残差块作为f。我们比较了使用标准残差块作为更新等式中的函数f四是身份功能。表8显示了Resnet和WideResnet在CIFAR-10和CIFAR-100上的性能特征。它表明，使用残差块只带来边际精度的提高（<0。5%），计算成本大幅增加。表8.消融实验，研究使用残差块而不是我们当前选择的更新公式的影响。4.第一章在这里，所有架构都使用全局层。全球功能CIFAR-10CIFAR-100架构fAcc. #Params #MAC Acc. #Params #MACResNet身份91.93162K15M68.01168K个15MResNet残余92.28175K27M68.37181千27MWideResnet身份95.542.8M425M78.132.8M427MWideResnet残余95.673M566M78.343.1M567M5. 结论我们提出了一种新的特征层，耦合的输入和输出的PDE约束的特征图建议的全球层是很容易部署在许多现有的架构。我们证明了具有全局层的架构更紧凑，更浅，并且需要更少的计算来进行推理和训练。经验评估表明，建议的层提供2 - 5存储和计算节省。由于我们的工作减少了模型的足迹，我们预计不会产生负面的社会影响。确认这项研究得到了陆军研究办公室拨款W 911 NF2110246 ，国家科学基金会拨款 CCF-2007350 和CCF-1955981，ARM研究公司，以及哈里里数据科学学院和学生奖学金。619引用[1] Shaojie Bai，J.Zico Kolter和Vladlen Koltun。深层均衡模型。神经信息处理系统进展（NeurIPS），2019年。3[2] 白少杰，弗拉德伦·科尔顿，和J.济科·科尔特。多尺度深度均衡模型。2020. 一、二、三、七、八[3] Tian Qi Chen，Yulia Rubanova，Jesse Bettencourt，andDavid K Duvenaud.神经元常微分方程神经信息处理系统进展，第6571-6583页，2018年。一、二、五、六、十二、十三、十五[4] Emilien Dupont，Arnaud Douc

下载后可阅读完整内容，剩余1页未读，立即下载