通过双峰参数扰动搜索的稳健二值神经网络

51 浏览量更新于2023-10-16 收藏 12.08MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

124100通过双峰参数扰动搜索稳健的二值神经网络0Daehyun Ahn *SqueezeBits Inc.0daehyun.ahn@squeezebits.com0Hyungjun Kim *SqueezeBits Inc.0hyungjun.kim@squeezebits.com0Taesu Kim *SqueezeBits Inc.0taesu.kim@squeezebits.com0Eunhyeok Park 韩国浦项科技大学0eh.park@postech.ac.kr0Jae-Joon Kim首尔国立大学0kimjaejoon@snu.ac.kr0摘要0二值神经网络（BNNs）在性能和内存占用方面具有优势，但由于其有限的表达能力，准确性较低。最近的研究尝试通过基于梯度的搜索算法提高BNNs的准确性，并显示出有希望的结果。然而，架构搜索和二值化的混合导致搜索过程的不稳定性，导致收敛到次优点。为了解决这个问题，我们提出了一种具有双峰参数扰动的BNN架构搜索框架。双峰参数扰动可以通过减小权重和架构参数轴上损失曲面的陡峭度来提高基于梯度的架构搜索的稳定性。此外，我们改进了反向瓶颈卷积块，以使其与BNNs具有鲁棒性。改进空间和稳定的搜索过程的协同作用使我们能够在现有的BNNs搜索空间中找到准确的BNNs，并具有高计算效率。实验结果表明，我们的框架在CIFAR-100和ImageNet数据集上找到了最佳架构。我们还在基于反向瓶颈卷积块的另一个搜索空间上测试了我们的框架，并且使用我们的方法选择的BNN模型在两个数据集上的准确性都比以前的工作高，而等效操作数量要小得多。01. 引言0深度神经网络（DNNs）在复杂任务上的出色性能不断提高，但内存和操作成本的增加一直是一个问题[3, 8, 11]。为了0* 本工作在浦项科技大学完成。0为了减少开销，模型压缩技术，包括量化或修剪，已经被广泛研究。作为量化的极端情况，二值神经网络（BNNs）在节省大量内存和计算成本方面具有优势，通过用简单的XNOR操作和popcount替代浮点乘法来表示输入激活和权重[5,20, 21, 22,24]。然而，BNNs的一个主要缺点是其有限的表达能力。因为权重和激活应该被限制在二进制表示中，与实值DNN相比，输出质量显著降低。最近，有关使用神经架构搜索（NAS）算法来缓解BNN限制的研究已经报道[4, 17, 36,38]。特别是，具有可微分架构搜索（DARTS[19]）的BNNs在资源目标内展示了适度的准确性增益，验证了架构搜索在二值化网络中的潜力。DARTS中的一个重要问题是搜索过程的稳健性。传统的DARTS算法存在“坍塌单元”问题，只选择无参数操作。为了缓解这个问题，最近提出了几种先进的技术[4, 6, 18, 17, 34, 36,38]。其中，我们关注架构参数的扰动。如图1a所示，在搜索过程中，架构A�的松弛表示与评估搜索模型的离散架构Adisc不同。扰动架构参数使网络学习向平坦最小值，并通过缩小A�和Adisc之间的损失值差异来帮助找到一个广义模型。此外，先前的研究[1,10]表明，关于权重的损失曲面的平坦性对于减小由量化运算符引起的准确性降低也很重要。如果我们让搜索过程收敛到�� 24110（a）A轴上的损失景观0（b）W轴上的损失景观0图1：在（a）A轴和（b）W轴附近的损失景观示意图。0在图1b所示的权重鲁棒性被认为是最小点的情况下，我们可以改善网络的输出质量和可传递性。然而，在低精度NAS领域中，尚未考虑到沿W轴的损失曲线的陡峭度。基于这个直觉，我们提出了一种具有架构和权重参数扰动的BNN架构搜索框架。在提出的框架中，使用在架构参数上进行随机扰动计算的损失值来训练权重参数，并使用在权重参数上添加随机噪声计算的损失值来更新架构参数。在训练阶段的另一个参数中注入随机噪声可以支持模型在两个参数的平坦最小值上进行训练。另一方面，我们还进行了广泛的研究，以改进BNN的搜索空间。由于BNN的不稳定性，通常会使用过参数化的骨干网络[20, 22, 17]。源自MobileNet-v2[25]的反转瓶颈块在全精度中被优先选择作为高效的骨干，但在低精度中容易受到攻击[23]。我们通过调整详细配置（例如组大小、扩展大小等）来精心调整反转瓶颈，以使其具有与BNN的鲁棒性。通过双峰扰动，我们可以在比以前的工作更少的操作数上搜索最准确的网络。总的来说，我们的贡献如下。•我们提出了一种基于梯度的BNN架构搜索框架，使用双峰参数扰动，使网络沿着W轴和A轴的损失曲线达到平坦最小值。在基于DARTS的BNN搜索空间中，我们的框架在两个参数中都有噪声的情况下搜索了一个细胞架构，该架构在CIFAR-100数据集上实现了最先进的性能。0•我们设计了一种改进的二进制反转的mobilenet卷积（MBConv[25]）块，它对二值化误差具有容忍性。使用改进的二进制MBConv块作为骨干架构，我们建立了一个搜索空间，包括通道数、核大小和扩展，并将其作为架构参数进行放松。•使用基于改进的二进制MBConv块的提出的NAS框架，与以前的基于NAS的BNN相比，我们在CIFAR-100和ImageNet数据集上展示了更高的准确性和更小的操作数。02. 相关工作02.1. 二进制神经网络0BNNs最初是在[16]中使用符号函数和直通估计器（STE）进行梯度计算提出的，显示出在MNIST和CIFAR-10数据集上合理的准确性。[24]中采用的二值化权重的缩放因子使BNNs获得了更多的表示能力，从而在大型ImageNet数据集上取得了显着的准确性改进。几项研究提出了增加表示能力的技术，而参数的大小或操作数的数量几乎没有增加。刘等人[21]通过简单地在每个卷积层中添加实值快捷路径来提高BNNs的性能。Martinez等人[22]通过采用数据驱动的通道缩放因子、知识蒸馏和两阶段训练计划进一步增强了BNNs的表示能力。还引入了激活函数的可训练参数作为增加BNN准确性的方法[20, 33]。02.2. 基于梯度的神经体系结构搜索0基于梯度的NAS [6, 13, 14, 18, 19, 28, 31,34]使用可微分方法搜索最优体系结构，并且比基于进化[7,39]或基于强化[28, 29,30]的NAS具有更快的搜索时间。梯度-basedNAS的一种类型是搜索每个卷积层的组件，包括内核大小或通道维度[13, 14, 28,31]。要搜索的每个卷积层的组件被参数化，并且在该方法中，在超级网络和组件参数的训练过程中找到最优体系结构。DARTS[19]是另一种基于梯度的NAS。在DARTS框架中，超级单元中的操作候选项被表示为体系结构参数，并且通过学习体系结构参数来放松选择单元中最优操作的目标。DARTS存在第1节中提到的不稳定问题，为了解决这个问题，改进的DARTS技术已经得到了积极研究[6, 18,34]。最近基于DARTS框架的二值NAS已经出现，用于搜索优化的二值化minA Lval(B(W ∗(A)), A),s.t. W ∗ = arg minWLtrain((B(W), A),(5)24120体系结构[4, 17, 36,38]，但相同的不稳定问题可能限制搜索算法的性能。03. 预备知识03.1. 二值神经网络0给定一个权重矩阵W∈RCout×Cin×k×k，其中Cin，Cout和k分别表示输入通道数，输出通道数和卷积层的内核大小，W可以使用以下方程进行二值化，0B(W)=αW∙sign(W)（1）0nW∙|W|表示W的L1范数[24]。类似地，卷积层的输入矩阵X∈RCin×w×h，其中w和h是X的宽度和高度，可以被二值化为，0XB=0如果X≥0，则为1，否则为-1（2）0[24]。在二值神经网络中，通过上述二值化的B(W)和XB，估计实值卷积操作�，其中⊕表示具有popcount的二值XNOR卷积操作，与推理中的全精度操作相比，这种操作显著提高了性能。在训练过程中，我们使用直通估计（STE）[16]进行梯度计算，以逐步更新B(W)。03.2. 可微分体系结构搜索（DARTS）0DARTS[19]是一种基于连续松弛离散决策的最先进的体系结构搜索框架。DARTS的目标函数被制定为训练损失Ltrain和验证损失Lval的双层优化问题，如下所示0min ALval(W�(A),A)，s.t. W�=argminW Ltrain(W,A)。0（3）根据公式（3），通过梯度下降法交替更新权重W和体系结构参数矩阵A=[αoi,j]。DARTS的搜索空间受到基于单元的CNN设计[39]的启发；只搜索正常和缩减单元体系结构，然后将整个神经网络组织为一堆搜索到的单元。每个单元由节点和边组成，其中每个节点x表示中间激活值，每个边ei,j表示一组操作候选项，作为有向无环图（DAG）。给定预定义搜索空间O中的操作o，构造混合操作ˆoi,j(x)如下，0ˆoi,j(x)=0o∈O0ex0o′∈O exp(αo′i,j)∙o(x)（4）0其中，αoi,j表示操作o在ei,j处的体系结构参数。在搜索过程中，通过将混合操作替换为每个ei,j上具有最大αoi,j值的操作来确定单元体系结构。04. 通过双峰参数扰动进行二值神经架构搜索04.1. 通过双峰参数扰动搜索BNN朝向平坦损失曲面0在可微分的二值神经网络NAS中 [4, 17, 36,38]，方程（3）重新定义为以下形式：0在搜索空间 OB中，卷积操作被替换为二值卷积操作。然而，这种基于梯度的二值NAS方法也面临与实值DARTS相同的不稳定问题，导致细胞坍塌。为了稳定架构参数的训练，之前的二值NAS方法采用了多种方法，包括带有温度的softmax[4]，gumbel softmax[36]，对无参数操作进行惩罚或基于熵的多样性正则化器[17,36]。DARTS的不稳定问题已经在最近的研究中得到解决 [6,18, 34]，普遍指出这种现象与 � 2 A L val的大小高度相关。标准的DARTS通常被训练为收敛到尖锐的极小值（大 � 2 A L val）。由于在搜索步骤中找到的松弛架构（ A �）与搜索后部署的最终离散单元架构（ A disc）可能不同，因为架构参数选择的离散化，如果DARTS被训练成朝着尖锐的极小值进行搜索，则两个架构之间的验证损失差异可能很大。为了缓解这个问题，提出了提前停止 [18,34] 或扰动架构参数 [6]的方法，这些方法显示出有助于DARTS训练以减小 � 2 A Lval的特征值并避免搜索坍塌的细胞。然而，之前的工作没有考虑决定损失沿 W 轴的最小值的尖锐度的 � 2 W L。有报道称，向模型参数注入对抗性扰动会使模型学习朝着平坦的极小值进行，从而可以获得更广义的模型 [12,37]。此外，之前的研究 [26]表明，当收敛到平坦的极小值时，低精度模型也可以达到高的泛化能力。BNN NAS的主要目标是找到对二值化误差具有鲁棒性的架构（并且在验证/测试集上能够获得高准确率），因此使模型摆脱尖锐的极小值是重要的。minA EδW (Lval(B(W ∗(A) + δW ), A)),s.t. W ∗ = arg minWEδA(Ltrain(B(W), A + δA)).(6)EδW L(B(W + δW ), A) ≈ Eδ′W L(B(W) + δ′W , A)≈ Eδ′W [L(B(W), A) + δ′W ∇W L(B(W), A)+ 12δ′TW ∇2W L(B(W), A)δ′W ]= L(B(W), A) + ϵ2W α2W6Tr{∇2W L(B(W), A)},(7)0.072.3072.4374.3371.330.12574.3073.9874.4771.440.25075.3075.2575.3874.530.37575.1075.0475.0472.57with 2-stage. At stage 1, the models with real-valued weight(bw=32) and binary activation (ba=1) were trained for 400epochs. Adam optimizer with learning rate 0.002, weightdecay 1e-5, and cosine annealing learning rate schedulewere used. The trained model at stage 1 was retrained un-der (bw, ba)=(1,1) condition for 400 epochs with the sametraining condition as the stage 1 except the weight decay0. In both stages, mixup (α=0.2) [35] and cutout [9] wereapplied in addition to the basic data augmentation, and thereal-valued ResNet-34 participated as a teacher model.Searching for the optimal noise scaling To search foran optimal magnitude of (ϵA, ϵW ), we tested our frame-work in BNAS search space under various scales of per-turbation on architecture/weight parameters, and the resultsare shown in Tab. 1. Adding random noise to either archi-tecture parameters or weight parameters helps ﬁnding the24130通过对 W 进行扰动来寻找关于 W的尖锐极小值也可能是BNN搜索的另一个重要目标。受到泛化和参数扰动之间的上述关系的启发，我们提出了一种BNN搜索框架，考虑了架构和权重参数的扰动。我们的框架的目标函数定义如下：0在方程（6）中，权重（ δ W ）和架构参数（ δ A）的扰动是互补注入的。 δ W 和 δ A 遵循随机均匀分布 U( − ϵ W α W , ϵ W α W ) 和 U ( − ϵ A , ϵ A )，分别具有缩放常数 ϵ W 和 ϵ A。接下来，我们解释注入的噪声 δ W 和 δ A 如何规范化 � 2L。通过对方程（6）的上部目标函数应用泰勒展开并进行近似，可以近似表示目标函数如下：03）。在公式（7）中，包含�WL的项被移除，因为Eδ′W（δ′W）=0，包含�2WL的项作为正则化项添加到原始损失项中。因此，最小化公式（6）的上层目标函数的训练过程可以通过减小�2WL的特征值来使模型收敛到损失曲面的W轴上的平坦最小值。同样，公式（6）的下层目标函数也可以通过应用与公式（7）1中使用的类似方法来进行近似。0因此，对架构和权重参数进行双模态扰动有助于模型在搜索过程中收敛到损失曲面的平坦最小值。因此，带有扰动的基于梯度的BNNNAS算法可以在候选模型中找到鲁棒的BNN架构。请注意，随机噪声和通过投影梯度下降（PGD）的对抗噪声都可以正则化Hessian矩阵。在本工作中，我们只测试了随机噪声，因为使用PGD进行BNN搜索需要更长的搜索时间，比随机噪声增加了20％的搜索成本。有关我们提出的框架搜索成本的详细分析，请参阅补充材料。01在[6]中也解释了对架构参数的噪声进行近似的目标函数。0表1：在BNAS搜索空间下不同扰动条件下搜索到的模型在CIFAR-100测试准确率0最大ϵA 0.0 0.1 0.2 0.30最大ϵW04.2. BNAS上的双模态参数扰动0在BNAS[17]中使用的搜索空间包括：1）3×3和5×5的二值卷积；2）3×3和5×5的二值膨胀卷积；3）3×3内核的最大池化和平均池化操作；4）'Zero'操作。与DARTS相比，如果选择了'Zero'操作，将保留该操作，并在普通（降维）细胞中添加跳跃连接（实值卷积）。我们首先进行了网格搜索，以找到扰动的最佳幅度（ϵA，ϵW），并使用调整后的扰动在各种模型大小上评估了CIFAR-100的准确性。架构搜索的实验设置：我们的实验条件与[17]中所述的条件类似。我们通过在CIFAR-10数据集上训练一个网络（权重和激活都是1位）来搜索架构，该网络具有8个细胞和16个初始通道，训练50个时期。训练CIFAR-10数据集的50％用于训练权重，另外50％用作验证集，用于训练架构参数和评估搜索期间放松架构的性能。ϵA和ϵW从最大ϵA和ϵW值的0.1倍线性增加到1倍。评估搜索模型的实验细节：在CIFAR-100上训练搜索到的模型。02. CIFAR-100的训练数据集被分为90%的训练集和10%的验证集。�� To demonstrate the general applicability of the proposedmethod, we adopted the MBConv block, which is widelyused for NAS [7, 15, 29, 30], as a backbone architecture.Networks based on MBConv, however, show large accu-racy drop at low-precision, so we modiﬁed MBConv blocksto binary MBConv blocks as shown in Fig. 3. In the mod-��(a) Normal Block(b) Reduction Block��iﬁed binary MBConv, ReAct Sign and ReAct PReLU withlearnable threshold are used, which are known to increasethe representation capacity of BNN [20]. In addition, short-cut path including average pooling (AvgPool) and a novelpartial activation duplication is added to reduction block(Fig. 3b). It has been empirically accepted that connect-ing the identity connection in an end-to-end manner is ef-fective to maintain the expression capability of BNNs [21].However, the identity path is disconnected in the originalinverted residual structure when the input/output channelsizes are different. In order to connect the identity path ina continuous manner without additional real-valued opera-tions, we propose a partial activation duplication scheme.Given the number of input channels Cin and that of out-put channels Cout in a reduction binary MBConv block, theoutput of AvgPool XAP is partially duplicated and concate-nated as [XAP , XAP [: Cout − Cin, :, :]], then added to theoutput of second 1 × 1 convolution. Without any shortcutpath in the reduction block, BNN models with binary MB-Conv block failed to converge, but shortcut path with partialduplication allows the models to achieve reasonable accu-racy. We tested on the various types of shortcut path, andadopted the type with partial duplication which shows thehighest accuracy on average. Experiments with the modi-ﬁed shortcut candidates are described in the supplementarymaterial. Finally, the depthwise convolution in MBConvblock is replaced with group binary convolution in binaryMBConv block because depthwise convolution is known24140未知数据0Top-1准确率（%）0未知数据0无噪声 w/ � � �0图2：在不同扰动条件下（ϵA = 0.2和ϵW =0.25）的CIFAR-100数据集上的测试准确率与等效操作数量的关系。等效操作数量计算为FLOPs + BinaryOPs / 64[36]。0通过引入扰动，我们的鲁棒BNN架构在CIFAR-100上实现了比无扰动搜索更高的准确性。架构参数的扰动防止所选模型崩溃，而权重参数的扰动有助于搜索算法找到更适应二值化的细胞；这两者都导致具有更高泛化能力的搜索模型。两种扰动的综合效果更加有效，使搜索算法能够发现更适应二值化的模型。在ϵA = 0.2和ϵW =0.25的最佳点上显示了最佳准确性。请注意，过大的扰动会干扰学习，无法找到更好的模型。搜索到的细胞的架构在补充材料中有说明。搜索到的BNAS模型的评估基于最佳点（ϵA = 0.2和ϵW =0.25）的搜索细胞，我们进一步评估了在不同扰动条件下（无噪声，对权重/架构参数施加噪声以及对两个参数施加噪声）下不同大小的搜索模型的性能。如图2所示，具有两种类型噪声的搜索模型在CIFAR-100上的所有方面都显示出最高的准确性。因此，我们基于双模态扰动的NAS框架在BNAS搜索空间中发现了最佳的细胞架构。05. 基于反转瓶颈结构的可微二进制NAS05.1. 修改的二进制反转瓶颈结构0未知数据0未知数据0未知数据0未知数据0未知数据0未知数据0未知数据0未知数据0未知数据0未知数据0未知数据0未知数据0未知数据0图3：修改的二进制（a）正常和（b）降维MBConv块的结构。RSign和RPReLU分别代表ReAct Sign和ReActPReLU。TypeckeslConv[48, 96]3-11BinMBConv[48, 96]{3, 5}[144,576]14BinMBConv[96, 192]{3, 5}[144,576]21BinMBConv[96, 192]{3, 5}[288,1152]13BinMBConv[160, 384]{3, 5}[288,1152]21BinMBConv[160, 384]{3, 5}[480,2304]13BinMBConv[320, 512]{3, 5}[480,2304]21BinMBConv[320, 512]3[960,3072]13AvgPool[320, 512]---1FC100---1TypeckeslConv323-21BinConv643-11BinMBConv[96, 144]{3, 5}[192,384]21BinMBConv[96, 144]{3, 5}[288,864]11BinMBConv[128, 288]{3, 5}[288,864]21BinMBConv[128, 288]{3, 5}[384,1728]11BinMBConv[256, 512]{3, 5}[384,1728]21BinMBConv[256, 512]{3, 5}[768,3072]15BinMBConv[512, 768]{3, 5}[768,3072]21BinMBConv[512, 768]{3, 5}[1536,4608]11AvgPool[512, 768]---1FC1000---124150由于双重近似问题[4]，将某些输入/输出通道数（C）、扩展数（e）和组二进制卷积核大小（k）进行二值化变得困难。基于修改的二进制MBConv块，我们搜索包含在搜索空间中的各种输入/输出通道数（C）、扩展数（e）和组二进制卷积核大小（k）。05.2. 基于二进制MBConv的搜索空间的参数化0(a)核共享（GroupBinConv）0(b) 通道共享0(BinConv1x1)0图4：使用参数化方法搜索最佳二进制MBConv块架构，其中(a)为核共享[27]，(b)为通道（用于输入通道和扩展搜索）共享。0对于基于梯度的BNN搜索，搜索目标（C、e和k）需要进行参数化，我们选择了广泛使用的权重共享方法[13, 14, 27,31, 32]。在核大小（k）的情况下，我们采用了Single-PathNAS[27]中引入的核共享方法。使用核共享方法，组二进制卷积的k∈{3,5}可以通过超级5×5核W5×5、3×3子核W3×3和核门控参数αk进行参数化（如图4a所示）。0W5×5 = W3×3 +01 + exp(-αk)∙W5×5 - 3×3. (8)0在搜索过程中，训练得到的αk的符号决定了组二进制卷积核大小为3或5。接下来，我们将通道数C和扩展数e参数化为单个门控参数αC和αe。如图4b和公式（9）所示，由通道位置x（参数化为p(x)）和αC或αe决定的sigmoid值分别与每个通道的第一个或第二个1×1卷积的输入相乘。0W'[:,x,1,1] =01 + exp(p(x) - α{C,e})∙W[:,x,1,1] (9)0在搜索过程中，通过训练αC和αe，p(αC)和p(αe)决定了每个修改的MBConv块的通道数和扩展数。基于修改的二进制MBConv的BNN架构的搜索空间如表2所示。对于CIFAR-100数据集，搜索空间的大小约为10^45，对于ImageNet数据集，搜索空间的大小约为10^40。0表2：基于二进制MBConv的网络架构和搜索空间，分别适用于(a) CIFAR-100和(b)ImageNet。'c'、'k'、'e'、's'和'l'分别表示输出通道数、核大小（3或5）、扩展通道数、步长和层数。括号中的两个数字表示输出/扩展通道数的最小和最大值，步长为4。0(a) CIFAR-100数据集的搜索空间0(b) ImageNet数据集的搜索空间0ImageNet数据集。为了搜索一个具有目标操作数t OPs的网络，我们使用了正则化项max(log(OPs(αk, αC, αe)/tOPs), 0)，其中OPs(αk, αC,αe)表示使用αk、αC和αe计算的操作数的期望值。05.3. 在二值MBConv块的NAS上进行双模态参数扰动0CIFAR-100的实验设置：超级网络((bw,ba)=(1,1))在搜索过程中训练了80个epoch。在前40个epoch期间，不更新架构参数，但是会对架构参数进行扰动，以便在不同的架构条件下学习表示。训练权重参数时使用Adam优化器，学习率为0.002，权重衰减为0，使用余弦退火学习率调度。训练时使用固定的学习率5e-4和权重衰减0。�24160未知0未知0未知0未知0未知0未知0未知0最佳模型的测试准确率0未知0Top-1准确率（%）0w/o噪声 w/ � � �0w/ � � � w/ � � � 和 � � �0(a) 使用不同扰动条件搜索的模型的测试准确率0最佳模型的测试准确率0未知0未知0未知0未知0未知0未知0未知0未知0未知0未知0Top-1准确率（%）0N组（深度卷积） N/2组0N/4组0(b) 使用不同组数的组二值卷积模型的测试准确率0图5：在CIFAR-100数据集上，使用不同扰动条件（N/2组）搜索的模型的测试准确率与等效操作数的关系，以及使用双模态参数扰动在二值MBConv搜索空间中搜索的具有不同组数的模型的测试准确率。0架构参数。搜索的模型是在CIFAR-100上使用相同的训练计划、超参数和数据增强进行训练的，详见第4.2节。ImageNet的实验设置：我们使用了ImageNet-100进行模型搜索，它的规模是ImageNet的0.1倍，有100个标签，然后使用ImageNet对搜索到的模型进行评估。从ImageNet-100的训练数据集中随机选择了20%作为验证集，按照在ImageNet上广泛使用的NAS设置进行操作[31]。首先训练了一个超级网络((bw,ba)=(32,1))，训练了100个epoch，然后在上一步训练的超级网络的基础上，以(bw,ba)=(1,1)的条件再次训练了100个epoch。在前50个epoch期间，不更新架构参数，但是会对架构参数进行扰动。训练权重参数时使用Adam优化器，学习率为5e-4，权重衰减为0，使用线性学习率调度。训练架构参数时使用固定的学习率5e-4和权重衰减0。搜索到的模型是在此条件下进行训练的。0(bw,ba)=(32,1)条件下进行了128个epoch的训练。训练时使用Adam优化器，学习率为5e-4，权重衰减为1e-5，使用线性学习率调度。在第1阶段的训练中，使用了与第1阶段相同的训练条件，除了权重衰减为0以外，(bw,ba)=(1,1)的条件下进行了128个epoch的再训练。在两个阶段中，只应用了基本的数据增强，并且使用了实值ResNet-34作为教师模型。在二值MBConv块的搜索空间上进行的实验结果：首先找到了最佳扰动尺度点(ϵA,ϵW)=(0.3,0.5)，在该点上，搜索到的模型在CIFAR-100上的性能最佳（74.23%），等效操作数约为1300万。图5a描述了在不同扰动条件下，使用N/2组的组二值卷积在N个输入通道下搜索的CIFAR-100测试准确率。在搜索过程中，对权重和架构参数注入噪声有助于找到更适用于二值化的架构，类似于第4.2节中的BNAS情况。基于二值MBConv块的搜索模型在CIFAR-100上实现了超过75%的准确率，并且与在BNAS上选择的模型相比，等效操作数减少了83.2%。我们进一步使用我们的框架搜索和评估了使用不同组数的组二值卷积的模型，并且图5b的结果显示，在CIFAR数据集上，N/2是最佳的组数，即在相似的操作数下达到了最高的准确率。类似地，我们发现N/4是ImageNet数据集的最佳组数。有趣的是，与BNAS搜索空间中的情况相比，二值MBConv搜索空间中的架构参数扰动效果不如前者显著。这种泛化效果的差异来自于搜索空间和搜索目标的差异。BNAS的目标是在一个单元中搜索最佳操作，而基于二值MBConv块的NAS的目标是在一个固定操作中搜索最佳的核大小或通道数。因为两个搜索空间中的架构组件都是松弛的，所以BNAS和MBConv块的NAS都经历了在搜索过程中松弛的架构表示和其离散表示之间的损失差异(|L(Adisc) -L(A�)|)。但是，在BNAS上，|L(Adisc) -L(A�)|更加显著（由于消除操作而产生的差异），而在基于二值MBConv块的BNN搜索中，|L(Adisc) -L(A�)|更不显著（由于Sigmoid函数而产生的差异），因此在基于DARTS的BNAS中扰动架构参数可以获得更好的泛化效果。与之前的工作进行比较：表3和表4显示了我们方案的最佳模型与之前工作的比较。在更低的FLOPs和等效操作数的情况下，我们的搜索网络实现了比其他手工设计或基于梯度的搜索的BNN模型更高的准确率。Table 3: Top-1 validation accuracy on ImageNet-1K for BNN models searched for with gradient-based NAS. ‘Params’ arecomputed by assuming that 32-bit is required for full-precision parameters and 1-bit for binarized parameters. Params ofBARS [36] cannot be computed because channel dimensions of the searched models are not available. In case of BNAS [17],Ops and Params are calculated including real-valued convolutions at shortcut paths in reduction blocksModelBOPs (G)FLOPs (M)Equiv. Ops (M)Params (MB)Top-1 Acc. (%)BNAS-D [17]1.024303.1319.116.057.7BNAS-E [17]1.156341.4359.517.858.8BNAS-F [17]1.439341.4363.918.159.0BNAS-G [17]1.258403.2422.920.659.8BNAS-H [17]5.4331190127557.663.5BARS-D [36]1.645129.0154.7N/A53.2BARS-E [36]2.848161.0250.5N/A56.2BARS-F [36]5.188254.0335.1N/A60.3BATS [4]1.14980.5098.45N/A60.4BATS (2×) [4]2.157121.0154.7N/A66.1Ours4.34421.6489.525.7868.2Table 4: Top-1 validation accuracy on ImageNet-1K for manually designed BNN modelsModelBOPs (G)FLOPs (M)Equiv. Ops (M)Params (MB)Top-1 Acc. (%)BNN [16]1.695131.4157.94.1842.2XNOR-Net [24]1.695133.3159.84.1851.2Bi-Real-Net [21]1.676154.4180.64.1856.4Real-to-bin [22]1.676156.4182.64.1865.4XNOR++ [5]1.695133.3159.84.1857.1MeliusNet22 [2]4.620135.0162.03.963.6ReActNet-A [20]4.82012.087.317.8969.4Ours4.34421.648

下载后可阅读完整内容，剩余1页未读，立即下载