基于对比学习的神经网络二值化提升性能

5 浏览量更新于2023-11-30 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文arXiv：2207.02970v3 [cs.CV] 2022年7基于对比学习的网络二值化豫章商1，徐丹2，宗子良3，聂立强4，严延1，1伊利诺伊理工学院，美国2香港科技大学，香港3德克萨斯州立大学，美国4哈尔滨工业大学，深圳，中国yshang4@hawk.iit.edu、danxu@cse.ust.hk、ziliang@txstate.edu、nieliqiang@gmail.com和yyan34@iit.edu抽象的。神经网络二值化通过将其权重和激活量化为1位来加速深度模型。然而，二进制神经网络（BNN）与其全精度（FP）对等网络之间仍然存在巨大的性能差距。由于权值二值化引起的量化误差在早期的工作中已经被减小，激活项二值化成为进一步提高精度的主要障碍。BNN表征了一个独特而有趣的结构，其中二进制和潜在的FP激活存在于相同的前向传递中（即Binarize（aF）= aB）。为了减轻从FP到二进制激活的二进制化操作引起的信息退化，我们建立了一个对比学习框架，同时通过互信息（MI）最大化的镜头训练BNN。MI被引入作为度量来测量二进制和FP激活之间共享的信息，这有助于二进制化与对比学习。具体地，通过从相同的输入样本中拉取具有二进制和FP激活的正对，以及从不同的样本中推送负对（负对的数量可以是指数级的大），大大增强了BNN的表示能力。这有利于下游任务，不仅是分类，而且是分段和深度估计等。实验结果表明，我们的方法可以实现为现有的最先进的二值化方法的堆积模块，并可以显着提高他们的性能在CIFAR-10/100和ImageNet，除了在NYUD-v2 强大的泛化能力。该代码可在https://github.com/42Shawn/CMIM上获得。关键词：神经网络压缩，网络二值化，对比学习，互信息最大化1介绍尽管深度学习[27]在各种计算机视觉任务（如图像分类[25]和语义图像分割[5]）中取得了显著的成功，但其过度参数化问题使得其计算成本高昂*Correspondent author.+v：mala2255获取更多论文±×X1f（fZ1Xt1t2比较X2f（X）Z22Y. Shang等人特征(a) 对比实例学习（b）用于训练BNN的CMIM图1.一、（a）：在对比实例学习中，将同一样本的不同变换所产生的特征进行对比。（b）：然而，BNN可以产生二进制激活AB和全精度激活AF（即，图像的两个变换都来自相同的BNN），因此BNN可以充当对比学习文献中的两个图像变换。存储过度。为了在资源受限的情况下推进深度学习的发展，已经提出了几种神经网络压缩范例，例如网络修剪[28，15]，知识蒸馏[19，39]和网络量化[22]。在网络量化方法中，网络二值化方法突出用于将权重和激活（即中间特征映射）量化为1，压缩全精度对应物32，并在BNN中用有效的xnor-bitcount操作替换全精度网络中耗时的内积[22]。然而，严重的精度下降总是存在于全精度模型和二进制模型之间。为了解决这个问题，以前的工作主要集中在减少权重二值化引起的量化误差[38，29]，并精心近似二值化函数以减轻反向传播中的梯度失配问题[31，37]。的确，他们达到了SoTA的性能。然而，缩小量化误差和增强梯度传输达到了它们的瓶颈[4，23]，因为1W32A（仅将权重量化为1位，保留激活32位）模型能够与全精度模型一样执行[18，29]，这意味着激活二进制化成为进一步性能改进的主要问题为了解决由激活二值化引起的准确性降低，提出了一些研究来调节二值激活的分布，例如[10]中的研究人员设计了一个分布损失来显式地正则化激活流;[23]中的研究人员提出移动二值激活函数的阈值来使二值激活的分布他们通过启发式设计低层模式来分析二元激活的分布，如激活的最小值和分布的平衡性。然而，他们忽略了分布的高级指标和BNN的独特特征，其中二进制激活和潜在的全精度激活共存于同一向前传递中。因此，我们认为，AB全精度激活AF签署AFXBNN比较BatchNormAB1-位3x3转换二进制激活+v：mala2255获取更多论文通过对比学习实现网络二值化3应该捕获和利用分布的高级属性，例如二进制和全精度激活之间的相关性和在这项工作中，我们探索引入BNN的互信息，其中互信息作为一个度量来量化BNN中的二进制和潜在的实值激活共享的信息量。与上面提到的专注于学习二进制活动分布的工作相反，互信息自然地捕获变量之间的统计依赖关系，量化依赖程度[11]。在此基础上，我们提出了一种新的方法，称为网络二值化通过C对比学习的互信息最大化（CMIM）。具体来说，我们设计了一个高效的优化策略，使用对比估计的互信息最大化。如图1所示，我们将对比学习中的数据转换模块替换为BNN中的独占结构，其中全精度和二进制激活在同一正向传递中。通过这种方式，对比学习有助于二元激活的类间去相关，并避免崩溃解决方案。换句话说，我们的方法建立在对比学习框架上来学习代表性的二进制激活，其中我们将二进制激活拉得更接近全精度激活，并将二进制激活推得更远离对比空间中的其他二进制激活。此外，通过利用额外的MLP模块来提取激活的表示，我们的方法可以显式地捕获对比空间中的高阶依赖关系。据我们所知，这是第一项旨在最大限度地提高对比学习框架内BNN激活的互信息的工作。总的来说，本文的贡献有三个方面：– 考虑到激活的分布，我们提出了一种新的对比框架来优化BNN，通过最大化二进制激活与其潜在实值对应项之间的互信息– 我们提出了一种有效的对比学习策略来实现BNN的互信息最大化目标，并由此增强了BNN对分类任务和下游CV任务的表示能力;– 实验结果表明，我们的方法可以显着提高前SoTA方法在CIFAR-10/100和ImageNet上的分类任务，例如，在CIFAR-100上提高6.4%，在ImageNet上提高3.0%。此外，我们还证明了所提出的CMIM在其他具有挑战性的CV任务，如深度估计和语义分割的泛化能力。2相关工作在[22]中，研究人员引入符号函数将权重和激活二值化在这项工作中，直通估计（STE）[2]用于近似符号函数的导数继开创性的艺术，大量的研究有助于提高BNN的例如，Rastegari et al. [38]公开了量化+v：mala2255获取更多论文·4岁。Shang等人全精度权值和相应的二值化权值之间的误差是降低BNN表示能力的主要障碍之一因此，减小量化误差成为提高BNN性能的一个研究人员提出XNOR-Net [38]引入通过L1范数计算的权重和激活函数的缩放因子，以最小化量化误差。受XNOR-Net的启发，XNOR++ [3]进一步学习空间和通道缩放因子以提高性能。Bi-Real [31]提出了具有全精度下采样层的双残差连接，以减轻二值化引起的过度梯度消失问题ProxyBNN [18]设计了一个代理矩阵作为潜在参数空间的基础，通过恢复BNN的平滑度来ReActNet [32]使用MobileNet [21]而不是ResNet实现二进制化，并实现SoTA性能。然而，我们认为那些专注于缩小量化误差和增强梯度传输的方法达到了它们的瓶颈（例如，1 W32 A ProxyBNN训练的ResNet-18在ImageNet上达到67.7%的Top-1准确率，而全精度版本仅为68.5%。因为他们忽略了BNN中的激活，特别是二进制和潜在的全精度激活之间的关系。我们把它们当作离散变量，并在互信息度量下研究它们。通过对比学习最大化互信息，进一步提高了BNN的性能实验结果表明，CMIM可以通过直接添加我们的CMIM模块，不断改善上述方法。3基于互信息最大化的对比学习训练BNN3.1预赛我们定义了一个K层多层感知器（MLP）。为了简化，我们去掉了MLP中的偏置项那么网络f（x）可以表示为：f（W1，···，WK;x）=（WK·σ·WK−1····σ·W1）（x），（1）其中x是输入样本，Wk：Rdk−1-→Rdk（k = 1，...，K）代表连接第（k-1）层和第k层的权重矩阵，其中dk-1和dk分别表示第k网络层的输入和输出的大小。σ（）函数对输入特征图执行逐元素激活操作。基于这些预定义的概念，具有前f（x）的k层可以表示为：fk（W1，···，Wk; x）=（Wk·σ···σ·W1）（x）.（2）MLP f可以看作是函数序列{fk}（k ∈{1，···，K}），即 f = f K.+v：mala2255获取更多论文FFBBFBFΣΣΣB-|BFBBF通过对比学习实现网络二值化5二元神经网络在这里，我们回顾了[8，22]中的一般二值化方法，该方法保持了潜在的全精度权重{Wk}（k∈ {1，，K}）对于梯度更新，并且第k个权重矩阵Wk被二进制化为±1，通过二值化函数（normallysgn（·））获得二值加权矩阵Wk即Wk= sgn（Wk）。然后是中间激活图（全精度），第k层由Ak=WkAk−1产生。最后，同样的符号函数F B B用于将全精度激活二进制化为二进制激活，如下：sgn（Ak）（见图1b），并且通过将该过程迭代L次来执行BNN的整个前向传递。互信息与对比学习对于两个离散变量X和Y，它们的互信息（MI）可以定义为[26]：I（X，Y）=PXYx为ohPXY（x，y）（x，y）log，（3）PX（x）PY（y）其中PXY（x，y）是联合分布，PX（x）=yPXY（x，y）且PY（y）=xPXY（x，y）分别是X和Y互信息量化了通过观察一个随机变量获得的另一个随机变量的信息量它是一个无量纲的量，（通常）以比特为单位，并且可以被认为是一个随机变量的不确定性的减少，给定另一个随机变量的知识高互信息表明不确定性大大降低，反之亦然[26]。在二值化的内容中，将二进制和全精度激活看作随机变量，由于二进制激活是从其对应的全精度激活开始的，理论上，这两个变量之间的互信息应该最大化。我们的动机也可以从RBNN的角度得到证明[29]。在RBNN中，Lin等人设计了一种旋转机制，导致大约50%的权重翻转，从而最大化信息增益H（ ak， i ）。由于MI 可以以另一种形式写成 I （ X ， Y ） =H （X ） I（XY），因此二元和FP激活之间的MI可以公式化为：I（ak，i，ak，j）= H（ak，i）− I（ak，i|ak，j），（4）其中最大化右边的第一项可以部分地导致最大化整个MI。在这项工作中，我们的目标是普遍最大限度地提高目标MI。最近，对比学习被证明是MI最大化的有效方法，并且提出了许多基于对比损失的自监督学习方法，例如Deep InfoMax [20]，对比预测编码[34]，MemoryBank [42]，增强多尺度DIM [1]，MoCo [16]和Sim-Saim [7]。这些方法通常植根于NCE [13]和InfoNCE [20]，它们可以优化互信息的下限[36]。直观地说，对比学习的核心思想是在对比空间中拉近正对表征，推开负对表征，因此，诉诸对比损失的主要障碍是定义负对和正对。+v：mala2255获取更多论文k，ik，jBFBBBFFFBFBFBF全精度0.13激活— —0.591.240.40全精度---0.59激活1.24---0.28--0.280.430.91对比空间---0.320.914.473.87---0.85--0.85BNNBNN+--+--++二进制+的激活+---+---+++二进制---激活6岁。Shang等人图二. 将两幅图像送入BNN，得到三对二值和全精度激活。我们的目标是将激活嵌入到对比空间中，然后从等式中的对比学习任务的对相关性中学习13岁3.2互信息最大化的对比学习在本节中，我们形式化了基于噪声对比估计（NCE）构建对比损失的想法，以最大化二进制和全精度激活之间的互信息。特别是，我们推导出一种新的CMIM损失的训练BNN，其中NCE被引入，以避免直接的互信息计算，估计它与它的下限在方程。第九章简单地说，来自样本的二进制和全精度激活可以被拉近，来自不同样本的激活可以被推开，这符合对比学习的核心思想。对于二元网络fB和它的潜在全精度对等网络fF在同一训练迭代中，它们的激活序列{ak}和{ak}（k∈{1，···，K}），其中Ak=（ak，1，···，ak，N）和Ak=（ak，1，···，ak，N）可以被认为是一系列变量。对应的变量（ak，ak）应该共享更多B F信息即同一层输出激活的互信息I（ak，ak）（k∈{1，···，K}）应该被最大化，以使它们相互抵消。悬而未决。为此，我们将对比学习框架引入我们的目标二值化任务。对比学习的基本思想是比较数据的不同视图（通常在不同的数据增强下）以计算相似性得分[34，20，1，16，7]。这个框架适合我们的情况，因为二进制和全精度激活可以被视为两个不同的视图。对于具有N个样本的训练批次，样本可以表示为：{xi}（i ∈ {1，···，N}）。我们将一批样本送入BNN，得到KN2激活对（a，a ），其增加用于辅助任务的数据B F我们定义一对包含来自同一样本的两个激活为阳性对，即如果i=j，则（ak，i，ak，j）+和vi c反之亦然。CONTRASTIVELEARN的核心理念B Fing是区分给定的激活对（ak，i，ak，j）是否为正，或者B F缘时，推断分布P（D|ak，i，ak，j），其中D是变量。可以决定i = j还是i =j。然而，我们不能直接计算分布P（D |ak，i，ak，j）[13]，并引入其变分逼近B Fq（D|ak，i，ak，j），（5）+v：mala2255获取更多论文k，ik，j||≤−−BFBFNBFNBFBFBFBFBFBFBFBFBFP（ak，i，ak，j）BFBFBF通过对比学习实现网络二值化7这可以通过我们的模型来计算直觉，q（D |ak，i，ak，j）可以被处理作为二元分类器，其可以将给定对（ak，i，ak，j）分类为正或负。B F阴性利用贝叶斯q（ak，i，ak，j|D = 1）1q（D= 1 |ak，i，ak，j）=B FN.（六）q（ak，i，ak，j|D = 1）1+ q（ak，i，ak，j|D =1）N−1从负对激活的概率是q（D = 0|ak，i，ak，j）=1− q（D = 1 |ak，i，ak，j）。为了简化NCE导数，一些工作[13，42，41]建立关于变量依赖性的假设，我们也使用as-假设正电子对的激活是依赖的，是独立的，即。 q（ak，i，ak，j|D = 1）= P（a，a）且q（ak，i，ak，j|D=0）=P（ak，i）P（ak，j）。因此，上述等式可以是简化为：k我k，jP（ak，i，ak，j）q（D= 1a，a ）=BF.（七）B F P（ak，i，ak，j）+P（ak，i）P（ak，j）（N−1）对Eq. 7和安排的条款，我们可以实现k我k，jP（ak，i，ak，j）logq（D= 1 a，a ）logBFlog（N1）.（八）B F P（ak，i）P（ak，j）B F取关于P（ak，i，ak，j）的两边的期望，并结合B FEq.中互信息的定义。3、我们可以推导出相互信息如下：目标MI最优下界I（akx`，ak|ak，i，ak，j）n+lo g（N−1），（9）其中I（ak，ak）是二进制和全精度之间的互信息B F我们的目标对象的分布而不是直接最大化共同利益信息，最大限度地提高在方程的下限。九是切实可行。然而，q（D = 1 |ak，i，ak，j）仍然难以估计。因此，我们引入具有参数k的评价函数h（即h（ak，i，ak，j;k））作为先前的对比B F学习工作[34，20，1，41，6]。基本上，评论家函数h需要映射ak，akB F到[0，1]（即，辨别给定对是正的还是负的）。在实践中-因此，我们基于[41]中的评论家函数为我们的BNN案例设计了评论家函数k我k，jBF+v：mala2255获取更多论文τh（a，a ）=exp（B F）/C，（10）B Fτ其中C=exp（BF ）+N/M，M是所有可能对的数量，以及τ是控制分布的浓度水平的温度参数[19]。+v：mala2255获取更多论文k我−Fx`NCEBFNCENCEΣFLBBFFFFF）=的FFBBFq（aB，aF |D=1）BFq（aB，aF |D=0）BFτ8岁。Shang等人BNN的激活具有它们的性质，可以在这里使用，即。sgn（ak，i）=ak，i并且ak，i，ak，i>=ak，i<$1（11）<因此，方程中的临界函数。10可以进一步简化如下：< sgn（ak，i），ak，j>.拉瓜∥1τk我k，j（十二）τexp（）i=j评论家在激活翻转的观点当量12从激活翻转的角度揭示了CMIM的工作具体地说，通过将+激活转化为，批评者中的二元激活可以通过内积将正对中的激活拉近，并将负对中的激活推开。例如，假设k，1=（0. 3，-0。4，-0。6）和ak，2=（0. 6，-0。九，零。（7）然后ak，1=（+1，−1，−1）是一个c ho r。因此，对于位置对，sgn（ak，1），ak，1>=0。3×（+1）+（−0. 4）×（−1）+（−0. 6）×（−1）=ak，1<$1最大化它们的相似性yscore;并且对于所述配对，=0。6×（+1）+（−0.9）×（−1）+B F翻转（0. 6）（1）逐渐最小化分数，其中翻转项作为对负对的惩罚。通过这种方式，二进制锚点将正的全精度激活拉近，并通过翻转全精度激活中的数字将负的全精度激活推开请注意，该过程在训练期间迭代操作，因此所有二进制激活都可以扮演锚点的角色，这最终导致对比空间中更好的表示能力。损失函数我们定义对比损失函数Lk在第k个层Ek，ik，jlogh（ak，i，ak，j）k我k，jlog g（1−h（ak，i，ak，j））（十三）我们将从对比学习的角度对上述损失函数进行评述。正对的第一项被优化用于捕获更多的类内相关性，负对的第二项用于类间去相关。因为对构造是逐实例的，所以负样本的数量理论上可以是整个训练集的大小，例如，ImageNet的120万。有了这些额外的手工设计的对比对的代理优化问题在方程。13，BNN的表示能力可以进一步提高，因为许多对比学习方法证明-[7，34，20，1]结合不同层的NCE损失序列。Lk，（k=1，· · ·，K），则总损耗L可以定义为：KL=λk=1kNCEβK−1−k +Lcls，（14）k我k，jX-ray（）i=j，2）A（A）= A（+v：mala2255获取更多论文LKK−1−kβ通过对比学习实现网络二值化9(a) [38]（b）IR-Net [37]（c）RBNN [29]（d）CMIM（我们的）图三. t-SNE [33]表示CIFAR-100中随机10类激活的可视化。每一种颜色都代表一个不同的阶级。我们可以清楚地看到我们的方法在学习更好的二进制表示方面的改进。其中cls是相对于地面真值的分类损失，λ用于控制NCE损失的程度，β是大于1的系数，并且我们表示CMIM损失为L=100000LNCE.因此，βK−1−k随CMIMk=1βK−1−kKk增加，因此LNCE增加。以这种方式，可以基本上保留后一层的活化，这在实践中导致更好的性能。CMIM的完整训练过程在补充材料的算法1中给出3.3关于CMIM除了从互信息最大化的角度进行理论阐述外，我们还对CMIM进行了直观的解释。如图2所示，我们通过在对比学习框架下设计代理任务来加强二元激活的表征能力（见图3）。通过将激活嵌入到对比空间并推拉成对的嵌入，BNN可以从这个困难但有效的辅助对比学习任务中学习更好的表示。请注意，即使我们只选取两个图像来公式化图。2，实际上负样本的实际数量可能是巨大的（例如，在ImageNet上训练ResNet-18的16，384），受益于MemoryBank [42]技术。有了这个属性，我们推测对比配对作为数据增强，这有助于我们的方法。这种额外的配对为训练BNN提供了更多的信息，因此CMIM可以被视为过拟合缓解模块。我们还在4.2节和4.3节中进行了实验来验证我们的推测。与其他对比学习方法的比较对比学习的核心思想是在一个对比空间中，将正对中的表征拉近，将负对中的表征拉开。几种自监督学习方法植根于互信息最大化的良好思想，例如Deep InfoMax [20]，对比预测编码[34]，MemoryBank [42]，增强多尺度DIM [1]，MoCo [16]和SimSaim [7]。这些都是基于NCE [13]和InfoNCE [20]，可以被视为较低的+v：mala2255获取更多论文10岁。Shang等人互信息的约束[36]。同时，Tian et. al. [41]和Chen et. [6]将对比的思想推广到知识提炼的内容中，以推拉教师和学生的表征。我们的CMIM-BNN公式吸收了现有对比学习方法的核心思想（即为对比损失构造适当的正负对），特别是对比知识提取方法CRD [41]和WCoRD [6]。然而，我们的方法与这些方法有几个首先，我们的工作不能简单地被视为教师和学生框架的应用。在KD中，教师基本上是固定的，以提供额外的监督信号，并且不可优化。但在我们的公式中，我们利用了BNN的专有结构，其中FP和二进制激活存在于同一个前向传递中，即只涉及一个BNN，而不使用另一个网络作为教师。因此，通过我们的方法训练的BNN的准确性提高纯粹受益于对比方式的激活对齐，而不是更准确的教师网络。其次，由于BNN的特殊结构（Eq.11），我们的批评家功能在很大程度上不同于对比学习中的正常批评家（见等式11）。11、Eq。12）。重要的是，CRD和WCoRD的评价函数必须在表示上利用一个全连接层将它们转换到相同的维度上，并在内积之前用L2在二值化的文献中，我们设计的批评函数充当激活翻转，如我们在下面讨论的等式。12个。第三，我们不是只使用最后一层的激活，而是使用超参数逐层对齐激活，以调整每个层的权重，如等式2所示。14，这是一个更适合BNN的设计。总之，使用对比目标作为工具来实现我们的网络二值化的互信息最大化是新的。4实验在本节中，我们首先进行实验，以比较现有的国家的最先进的方法在图像分类。遵循大多数研究中的流行设置，我们使用CIFAR-10/100[24]和ImageNet ILSVRC-2012 [9]来验证我们提出的二值化方法的有效性。除了将我们的方法与SoTA方法进行比较外，我们还在NYUD-v2[40]数据集上设计了语义分割和深度估计任务的实验，以证明我们的方法的泛化能力同时，我们进行了一系列的消融研究，以验证我们提出的技术的有效性，我们经验性地解释CMIM的有效性，从减轻过拟合的角度所有实验都使用PyTorch [35]实现，其中一个NVIDIA RTX6000在CIFAR-10/100和NYUD-v2上训练，四个GPU在ImageNet上训练。实验设置。在CIFAR-10/100上，BNN由CMIM训练400个epoch，批量大小为256，初始学习率为0.1，余弦学习率调度。我们采用SGD优化器，动量为0.9，权重衰减为1 e-4。在ImageNet上，二进制模型被训练了100个epoch，批量大小为256。SGD优化器应用动量为0.9，权重+v：mala2255获取更多论文通过对比学习实现网络二值化11表1. CIFAR上的前1准确度（%）-10（C-10）和CIFAR-100（C-100）测试装置。表2. 前1名和前5名的准确性-越高越好。W/A表示ageNet。†代表的架构，权重/激活的位数不同于标准的ResNet架构-在同一个层次上，但在同一个层次上。拓扑方法位宽依据（%）（%）（W/A）（C-10）（C-100）拓扑方法BW前五名ResNet IR-Net [37]1/1 86.5 65.6[44] 2016年12月18日53.4-全精度32/3273.391.3[30]第三十话1/152.476.5XNOR-网络[38]1/153.176.2BiReal [31]1/162.283.9ResNet-34XNOR++[3]1/157.179.9- 小SLB [43]1/192.0-IR-Net [37]1/162.984.1Proxy-BNN [18]1/191.867.2LNS [14]1/159.481.7IR-Net [37]1/190.467.0[29]第二十九话1/163.184.4[29]第二十九话1/191.367.4IR-Net +CMIM1/164.985.8IR-Net +CMIM1/192.070.0RBNN + CMIM1/165.085.7RBNN+CMIM1/192.271.0衰减为1 e-4，初始学习率为0.1，使用余弦学习率调度器（为了公平比较，我们还在一些ResNet变体设置中使用ADAM优化器4.1实验结果CIFAR-10/100是一个被广泛使用的图像分类数据集，每个数据集由50 K张训练图像和10 K张测试图像组成，大小为32×32，分为10/100个类。随机抽取10K张训练图像进行交叉验证，其余图像用于训练。数据增强策略包括训练期间的随机裁剪和随机翻转[17]。对于ResNet-20，我们与DoReFa [44]，QSQ [12]，SLB [43]，LNS [14]进行比较[37]第29话：适用于ResNet-18、RAD [10]、Proxy-BNN [18]、IR-Net和RBNN被选为基准。对于VGG-small，我们的方法与IR-Net和RBNN等进行了比较。如表1所示，CMIM始终优于其他SOTA方法。在CIFAR-100上，我们的方法在 ResNet-20 、 ResNet-18 和 VGG-small 架构下分别实现了2.5%、6.1%和4.0%的性能提升。为了显示累积特性，我们在不同的基线方法上加入CMIM，我们可以明显地观察到CMIM的精度增益。ImageNet是一个包含120万张训练图像和50k张验证图像的数据集，这些图像平均分为1K个类。ImageNet具有更大的多样性，全精度32/3292.170.7（W/A）（%）（%）[44]第四十四话1/179.3-全精度32/3269.689.2QSQ [12]1/184.1-[30]第三十话1/142.767.6SLB [43]1/185.5-XNOR-网络[38]1/151.273.2-20[29]第二十九话1/187.066.0XNOR++[3]1/157.179.9IR-Net +CMIM1/187.368.1BiReal [31]1/156.479.5RBNN+CMIM1/187.668.2IR-Net [37]1/158.180.0全精度32/3293.072.5[29]第二十九话1/159.981.0RAD [10]1/190.5-BiReal + CMIM1/160.181.3Proxy-BNN [18]1/191.867.2IR-Net + CMIM1/161.283.0ResNetIR-Net [37]1/191.664.5RBNN + CMIM1/162.584.2-18[29]第二十九话1/192.265.3ReActNet [32]†1/169.485.5IR-Net +CMIM1/192.271.2ReActNet + CMIM†1/171.086.3RBNN+CMIM1/192.871.4全精度32/3294.173.0XNOR [38]1/190.5-[44]第四十四话1/190.2-RAD [10]1/190.5-VGGQSQ [12]1/190.0-+v：mala2255获取更多论文12岁。Shang等人： 0个01234567891011121314151617181920212223242526272829300 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31(a) 全网300250200150100500： 0个012345678 60910114012131420151617180192021 202223242526272829300 1 2 3 4 5 67 8 910 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31(b) IR-Net [37]60402002068 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99(c) [29]第二十九话： 0个01234567891011121314151617181920212223242526272829300 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31(d) CMIM（我们的）8006004002000   阴性样本   阴性样本1009080706050403020100培训_MIM培训_wo_MIM测试_MIM测试_wo_MIM050100150200250300350400时代(e) 关于CIFAR-10(f) 关于CIFAR-100(g) [29]第二十九话见图4。对所提出的方法的不同方面进行了深入分析，包括相关图（a-d）、对比互信息最大化中负样本数量的影响（e，f）以及训练和测试曲线（g）。图像大小为469×387（平均）。我们报告了使用224×224中心裁剪图像的单裁剪评估结果。对于ResNet-18，我们将我们的方法与XNOR-Net [38]，ABC-Net [30]，DoReFa [44]，BiReal [31]，XNOR++[3]，IR-Net [37]，RBNN [29]进行比较。对于ResNet-34，并与BiReal、IR-Net、RBNN等方法进行了比较。所有的实验结果都来自他们发表的论文，或者我们自己使用他们的代码复制。如表2所示，我们提出的方法在前1和前5的准确度上都超过了所有方法。特别是，与SoTA RBNN方法相比，CMIM使用ResNet-18架构实现了约1.3%的Top-1精度增益，4.2CMIM中的阴性样本数量负样本数nce是该方法中一个重要的超参数，它保证了Eq.第九章我们用ResNet 18在CIFAR-100上进行了实验，用于nce的参数分析，范围从20到215。如图4（f）和4（e）中所示的结果，准确度随着次数的增加而增加，这也验证了我们在第3.2节中的推测，即对比配对模块，作为训练中的数据增强模块，有助于CMIM的性能改善。92.1792.1891.999291.7991.53CIFAR-10上的ResNet91.3171.23371.0666770.8666770.5666770.3666770.1333369.76667CIFAR-100上的ResNet18准确度（%）准确度（%）99 98 97 96 95 94 93 92 91 90 89 88 87 86 85 84 83 82 81 80 79 78 77 76 75 74 73 72 71 70 69 68正确率（%）+v：mala2255获取更多论文L通过对比学习实现网络二值化134.3缓解过度拟合一个好的训练目标应该始终如一地提高模型在测试集中的性能[42]。我们探讨了训练与测验成绩之间的关系。训练迭代。图4（g）显示：（1）二元ResNet-18在CIFAR-100的训练集上可以达到100%，这意味着它的代表性能力对于这个数据集是足够的;（2）CMIM损失训练的BNN在最后阶段的测试性能要好得多，而训练性能相对较低。这是缓解过度拟合的明显迹象。此外，如表3所示的结果，我们可以观察到CIFAR-100上的精度增益比ImageNet上这种现象也可以从缓解过拟合的角度来解释由于对比配对（代理对比学习任务的数据增强）在提高BNN的性能方面起着重要作用，并且ImageNet上的训练数据比CIFAR上的数据更充足。过拟合问题在ImageNet上并不严重。因此，我们的二值化方法可能更适合相对缺乏数据的任务。4.4消融研究我们在CIFAR-10/100和ImageNet数据集上使用ResNet 18架构对我们提出的方法进行了一系列消融研究通过调整损失函数CMIM中的系数λ（等式2），14），其中λ= 0等于没有CMIM损失作为我们的基线。在消融研究中，我们引入IR-Net [37]作为所有数据集的基线。结果示于表3中。随着λ的增大，性能的提高验证了CMIM损耗的有效性表3.CMIM的消融研究。结果以准确率（%）的形式表示λ=0表示没有增加CMIM损失，作为我们的基线。λ数据集0（基线）0.20.40.81.63.26.4十二点八CIFAR-10087.59 90.92 91.63 92.0692.18 91.89 91.32 91.0164.53 68.21 69.31 70.67 70.8671.09 71.19 71.17ImageNet-1K58.03 59.29 59.9961.22 61.17 61.02 60.64 59.74.5泛化能力为了研究来自同一层的二进制激活的依赖性，我们通过使用颜色的阴影来表示两个激活的余弦相似性来可视化这些激活的相关矩阵。红色表示两个激活相似，蓝色表示相反。如图如图4（a）-4（d）所示，CMIM捕获更多的类内相关性（对角框更红），并放大更多的类间相关性（非对角框更蓝）。这些强化的代表性激活对于微调下游任务是有建设性的。+v：mala2255获取更多论文十四岁。Shang等人24232221201918171615Raw ImageGround Truth IR-Net CMIM-BNN-logrmse(a) 可视化结果(b) 定量结果图五. NYUD-v2上的深度估计和分割结果为了进一步评估学习的二进制特征的泛化能力，我们将学习的二进制主干转移到NYUD-v2数据集上我们遵循标准管道进行微调。一种普遍的做法是在ImageNet上预训练骨干网络，并为下游任务进行微调。因此，我们使用具有二进制ResNet18主干的DeepLab头进行实验。在微调时，学习率被初始化为0.001，并在每10K次迭代后按比例缩小10倍，我们固定二进制骨干权重，只更新特定于任务的头层。结果如图5（b）所示，X轴是深度估计精度（-logrmse，越高越好），Y轴是分割性能（mIoU，越高越好），点的大小表示分类性能（越大越好）。可视化结果如图5（a）所示。我们可以观察到，通过CMIM预训练的骨干模型在分割和深度估计任务上都优于其他方法。5结论在本文中，我们研究了BNN的激活通过引入互信息来衡量二进制和全精度激活之间的分布相似性。我们通过对比学习建立了一个代理任务，以最大限度地提高这些二进制和实值激活之间的目标互信息我们将这种方法命名为CMIM-BNN.由于对比学习中的推拉机制，优化后的BNN具有更好的表示能力，有利于后续的分类、分割等任务。我们在CIFAR、ImageNet（用于分类）和NYUD-v2（用于深度估计和分割的微调）上进行了实验结果表明，CMIM在这些任务上优于几种最先进的二值化方法。致谢。本研究得到了NSF CNS- 1908658（ZZ，YY）、NetTS-2109982（YY）、香港特别行政区研究资助局（RGC）早期职业计划（基金编号26202321（DX））、香港科技大学启动基金编号R9253（DX）和Cisco（YY）捐赠的部分资助。本文仅反映作者的观点和结论，资金代理人。MIM蝙蝠RBNNXNORBiRealIR-Net公司简介0.100.080.060.040

下载后可阅读完整内容，剩余1页未读，立即下载