没有合适的资源?快使用搜索试试~ 我知道了~
9747基于联合分类器学习Dahyun Kim1,2 Jonghyun Choi2,3,†1Upstage AI Research2 NAVER AI Lab.3延世大学kdahyun@upstage.aijc@yonsei.ac.kr摘要自监督学习是一种很有前途的无监督学习框架,在大型浮点网络中取得了成功。但是这样的网络不能被读取地部署到边缘设备。为了加速模型的部署,利用无监督表示学习的优势,将模型部署到资源有限的设备上,以执行各种下游任务,我们提出了一种用于二进制网络的自监督学习特别是,我们建议联合训练一个随机初始化的分类器,附加到一个预先训练的浮点特征提取器,与二进制网络。此外,我们提出了一个特征相似性损失,一个动态的损失平衡和改进的多阶段训练,以进一步提高准确性,并呼吁我们的方法烧伤。我们使用七个数据集对五个下游任务进行的经验验证表明,BURN优于二进制网络的自监督基线,有时优于监督预训练。代码可以在https://github上找到。com/naver-ai/burn.1. 介绍近年来,自监督学习(SSL)在浮点(FP)网络中取得了很大的成功[4,5,7,9,13,14,16,18,20,28,41,42,44,50]。学习的模型通过SSL方法,在许多下游任务中,例如图像分类[1,5],半监督微调[5,7,18]和对象检测[20]中,通过大规模未标记数据的帮助,通过监督预训练学习的方法的性能与通过监督预训练学习的方法相当虽然最近来自足智多谋的研究小组的工作[5,7,18,20]已经表明,来自SSL的增益随着用于预训练的模型大小和/或数据集大小而按比例增加,很少有工作在所得到的预训练模型的大小较小的情况下,即,量子化SSL对于这样的小型模型非常重要,因为它可以加快AI部署,适用于各种应用程序。这项工作是在DK和JC在NAVER AI Lab实习和担任AI技术顾问分别†表示通讯作者。655545352515目标检测是林书评估SS 1% SS 10% FS K=1传输(CUB)下游任务图1. 在 多 个 下 游 任 务 上 比 较 各 种 表 示 学 习 方 法 ( 使 用ImageNet进行预训练)。目标检测指的是物体检测琳“Eval”是指线性评估,“SS 1/10%”是指分别使用1%或10%数据进行半监督微调,“FS K=1”是指使用1次的少次学习,“Transfer(CUB)”是指将学习转移到CUB数据集。‘Tuned MoCov2’and ‘S2-BNN’ are SSL methods from [建议烧伤优于所有可比的方法在各种任务,甚至监督前。在某些任务中。阳离子到模型上,在计算和存储成本以及能耗方面具有高效率[12]。在资源受限的极端情况下,二进制网络表现出优越的效率,并且准确性显著提高[2,3,23,31因此,为二进制网络开发SSL方法可以进一步加速将模型部署到边缘设备以执行各种下游任务,但很少探索。通过使用FP目标网络和二进制网络的分类器的softmax输出之间的KL发散损失,用预训练的FP网络提 供 额 外 的 监 督 信 号 , 我 们 将 其 表 示 为 “监督KLdiv”。,已经成为训练二进制网络的流行和有效的方法[2,3,32,34]。最近,[39]提出了一种基于监督KLdiv的二进制网络的无监督表示学习方法法为了从FP网络中提取有意义的softmax概率,他们对分类器和特征进行了预训练调整MoCov 2S2-BNN烧伤(我们的)监督前。准确度或mAP(%)9748使用SSL的提取器。然后,FP网络在用作目标网络时被完全冻结,这可能导致目标失效[18],或者取决于用于固定FP网络的预训练数据集与用于训练二进制网络的数据集相似。因此,为了避免固定目标的潜在陷阱,我们有动机开发一种用于二进制网络的SSL方法,该方法使用移动FP网络作为目标,类似于其他SSL方法[8,9,18,20],并将我们的方法称为二元非监督表示学习或BURN。具体来说,我们首先通过组合以SSL方式预训练的固定FP特征提取器和随机初始化的FP分类器来然后,我们使用随机初始化的FP分类器的输出作为二进制网络的目标,并使用KL发散损失来联合优化FP分类器和二进制网络,以随时间推移保持更新FP网络。但是由随机初始化的FP分类器提供的梯度可能具有出乎意料的大幅度,特别是在早期训练阶段。为了缓解这个问题,我们还建议在两个精度上强制执行特征相似由于特征相似性损失的相对重要性随着FP分类器被联合训练以提供较少的随机目标而降低,因此我们进一步提出动态平衡损失函数中的KL发散项最后,我们修改了BURN的多阶段训练方案[34],以进一步提高性能。我们对各种下游任务进行了广泛的经验验证,例如Pas- cal VOC上的对象检测,ImageNet上的线性评估,ImageNet上具有1%和10%标记数据的半监督微调,Pascal VOC 07上的SVM分类和少量SVM分类,以及将学 习 转 移 到 各 种 数 据 集 , 例 如 CIFAR 10 , CIFAR100,CUB-200-2011,Birdsnap,地点205在验证中,通过我们的方法训练的二进制网络比其他SSL方法表现更好(见图1和第2节)。4.1)。我们将我们的贡献总结如下:• 我们提出了一种新的二进制网络的SSL方法,使用联合训练的FP分类器来获得可以随时间推移适应当前训练场景的目标。• 我们建议使用特征相似性损失和动态平衡与修改的多阶段训练,以显着提高准确性。• 我们的BURN在广泛的下游任务中大幅优于现有技术。• 我们分析了我们提出的烧伤,在深入的解释。2. 相关工作2.1. 自监督表示学习为了降低表示学习的注释成本,包括[6,7,9,16,20,42-这些方法使用实例区分任务作为借口任务,其目的是将同一图像的实例拉得更近,并将不同图像的实例推得更远[36,48]。与这些方法不同,[1,5,15,18,29,47]使用特征回归,EMA目标[18]、匹配聚类分配[5,29]或匹配相似性分数分布[1,15,47]作为借口任务。我们与BYOL [18]和SWAV [5]进行比较,因为它们显示出高性能,并且与其他SSL方法[7,9,44]具有相似性。然而,尽管这些方法对于大型FP模型显示出有希望的结果,但它们没有考虑更实际的资源受限场景,例如。,量化模型具有较小的复杂性。2.2. 二进制网络在量子化模型的极端,已经提出了许多关于二进制网络的工作[2,3,19,23,24,30-这些包括使用专门的激活函数[32]的二进制网络搜索架构[2,22,23],以及使用信息瓶颈原理[46]的对象检测。请注意,以前的工作主要集中在监督训练设置上。在众多提案中,有两个因其强大的经验性能而脱颖而出,成为最先进的二进制网络骨干:ReActNet [32]和高容量Ex- pert二进制网络(HCEBN)[3]。[32]建议通过RSign和RPReLU激活函数学习二进制化的阈值。[3]使用多个专家进行条件计算,在不增加运算次数的情况下提高二元网络的表示能力。最近,两个“监督KL div。方法和多阶段训练方案[32,34]已经成为训练二进制网络的流行方法。监督KL div。方法使用预先训练的FP网络为KL div提供目标。训练二进制网络的损失。多阶段训练方案在多个阶段中训练二进制网络,其中网络的更多部分被二进制化。最相关的工作是最近发表的S2-BNN [39],它利用了监督KL div。以SSL方式训练它们在训练二进制网络时使用未标记的数据,只有二进制网络与预训练和冻结的FP网络之间的KL散度损失。S2-BNN表现出良好的性能,但作为目标的冻结FP网络可能是有限的,SSL文献中的许多工作表明,改变目标是有效的[8,9,18,20]。我们与S2-BNN进行了广泛的比较9749LD····DLPretrain FP训练二进制ImageNet二进制FPKLCECE标记数据标记数据62.2959.5357.331111方法2 2 23 3461.43(a) 监督KL Div.(b) S2-BNN(c) 烧伤(我们的)(d) ImageNet线性评估Acc.)的方式图2.监督KL div的说明性比较 方法[32,34],S2-BNN [39]和提出的BURN,以及ImageNet上消融模型的线性评估准确性。 f是FP网络,hθ是FP特征提取器,gθ是可训练分类器,kθ,lθ是从二进制网络bθ解耦的二进制特征提取器和分类器。 如虚线箭头所示,用预训练的权重初始化f和h。f和h中的“锁定”图标表示它们未被训练,而gθ中的“解锁”图标表示它已被训练。我们的基线(101)已经达到了相对较高的top-1准确率57。ImageNet上的33%,我们提出的组件提供了显著的收益.有关详细信息,请参阅SEC。第3.1节,适用于第1节3.2对于102,第3.3对于103,和Sec.3.4为10.4。相比之下,我们的目标是为二进制网络开发一种无监督的表示学习方法,该方法使用正在变化的FP网络作为目标。3. 方法监督KL div。方法是训练二进制网络的有效方法[32,34],它利用用标记数据预训练的FP网络。但是,由于我们对自监督学习感兴趣,在训练期间的任何时候都无法访问标记数据,因此监督KL div。不适用。最近,S2-BNN [39]提出使用监督KL div。二进制网络的无监督学习他们对FP网络的分类器和特征提取器进行预训练,以获得有意义的softmax概率,并使用完全固定的FP网络作为目标。与此相反,我们提出了一种无监督的二进制网络表示学习方法,使用一个不断变化的FP网络作为目标,使FP网络可以适应当前的数据集和二进制网络,以提供更多有用的目标随着时间的推移。我们说明了监督KL div。方法[32,34],S2-BNN [39],以及我们在图中的建议二、具体来说,我们建议使用来自随机初始化分类器的softmax输出,而不是使用来自固定预训练FP网络的softmax输出[39],该分类器连接到预训练FP特征提取器,并使用KL发散损失与二进制网络联合训练分类器。由于未经训练的分类器的监督使梯度具有意想不到的高幅度,我们通过提出一个额外的特征相似性损失来抑制梯度。我们建议在损失项之间使用动态平衡方案,以更好地平衡KL发散和特征相似性损失,并采用改进的多阶段训练[34]来提高学习效率。3.1. 运动目标联合分类器训练Grill等[18]表明,即使将随机初始化的指数移动平均(EMA)网络用作改进的一个可能原因是随机初始化的目标网络也在训练期间以EMA方式更新,从而逐渐改进它。受此启发,我们推测是否一个随机初始化的分类器结合预训练的FP特征提取器可以用作训练二进制网络的移动目标网络为了逐步改进目标网络,我们联合训练目标网络和二进制网络的分类器。请注意,仅训练分类器可以改善目标网络,如SSL文献[6,7,9,16,20,42我们讨论其他移动目标,EMA目标[18]或二进制网络的动量编码器[20]。四点二。随机初始化分类器的联合训练在图2-(b)中的图1中描绘。具体地,代替固定FP网络f(·),随机初始化且可训练的分类器gθ(·)和预训练且固定的FP特征提取器hθ(·)被组合以创建目标网络。然后,我们使用gθ(·)的输出作为训练二进制网络bθ(·)的目标。我们的目标是最小化gθ(·)和bθ(·)的输出之间的KL散度,如下:minEx[KL(gθ(hθ(x)),bθ(x))],(1)θ,其中x是来自数据集的样本,KL= D KL(,)是g θ()和b θ()的输出之间的KL散度。然而,来自分类器的softmax输出在早期将接近随机因此,使用随机输出作为二进制网络的唯一目标,特别是在早期训练中,可能会导致噪声梯度。3.2. 通过特征相似度在精度范围为了缓解随机初始化分类器作为唯一目标的不可靠梯度的问题,特别是在训练的早期,我们提出了一个额外的损失项,以加强目标预训练FP改进的多级4训练二进制平衡动态3FP1KL2SSL未标记数据未标记数据预训练FP多级训练二进制FPKLSSL未标记数据未标记数据acc.9750L··LLL·2009年10月12日LLL·····20000150001000050000y KL壮举. SIM.OnlKL +0 1000020000迭代(a) 分类器1007550250y KL壮举. SIM.OnlKL +0 10000 20000迭代(b) 特征提取器9000次迭代。此外,在7500次迭代时,梯度幅度会激增。二进制特征提取器也显示出类似的趋势,其中梯度在大约7500次迭代时突然出现尖峰。开始时非常高的梯度幅度和一些迭代后发生的突然尖峰都会损害训练稳定性[10,51]。然而,如图所示,所提出的 FS(,)的添加显著地降低了二元分类器和特征提取器的梯度幅度。图3. 二元分类器(a)的梯度幅度和二进制特征提取器(b)在早期训练期间使用和不使用FS进行ImageNet上的预训练。在只有KL的情况下,分类器的梯度非常大,并且这延续到特征提取器。此外,我们观察到分类器和特征提取器的中间尖峰。FS的添加显著地降低了分类器以及特征提取器在早期迭代时的梯度幅度。此外,梯度幅度也被抑制。在早期迭代以及整个训练过程中的激增,这导致更好的训练效率和准确性。3.3. λ的动态平衡随着gθ的逐渐更新,它提供了更多有意义的目标,而FS变得不那么重要。因此,我们提出了一种时间动态平衡策略来代替方程中的静态平衡因子λ2通过平滑余弦退火,类似于[18]如何退火动量值:二进制网络。具体来说,gθ()在早期阶段很大程度上是更新的(由于固定的特征提取器λ(t)=λTmax −(λTmax −λ0)·(cos(πt/TMax)+1)/2,(3)联合训练。由于二元分类器使用快速变化的gθ(·)作为传递知识的目标,其中λ0和λTmax 是λ(t)的初始值和最终值,二元分类器可能接收大梯度。为了解决使用随机初始化的分类器作为唯一的目标所造成的潜在的不期望的大梯度,我们提议增加一个额外的损失项,绕过分类器。我们称之为特征相似性损失。具体来说,我们使用FP和二进制特征提取器的特征向量之间的余弦距离作为Tmax是最大训练迭代,t是当前训练迭代因此,λ(t)将从λ0开始,然后逐渐衰减到λTmax,在开始时更多地强调余弦距离,随着学习的进行而减少关于λ(t)的其他选择的讨论见第二节。四点二。最后,我们的优化问题可以重写为:minEx<$D[ ( 1−λ ( t ) ) LKL ( gθ(h<$(x)),l<$(k<$(x)特征相似性损失;LFS(v1,v2)= 1-v1,v2 为平滑和有界的性质,以防止大的梯度。余弦距离(或1-余弦相似度)是广泛的θ,+λ(t)LFS(h<$(x),k<$(x))].(四)用于表示学习[6,18,20,49](关于F S的其他选择的讨论在第二节。4.2)。将余弦距离增加到KL发散损失,我们可以将新的优化问题写为:3.4. 改进的BURN多阶段训练已知多阶段训练[2,32,34]在训练二进制网络中是它在第一阶段只使用二进制化的激活来然后,它使用minEx<$D[(1−λ)LKL(gθ(h<$(x)),l<$(k<$(x)(二)部分二值化网络的训练权重作为初始+λLFS(h<$(x),k<$(x))],其中,二进制网络b()被解耦为二进制特征提取器和分类器k(),λ是静态平衡因子,并且FS()是特征相似性损失。新的损失提供了来自FP网络的特征提取器 由于FP网络的特征提取器是预先训练和固定的,因此与随机初始化的分类器相反,它提供了固定和稳定的目标。从经验上讲,我们观察到图3中有和没有FS的二元分类器和特征提取器的梯度。请注意,只有KL时,二元分类器的gra非常大;它从大约20,000开始,然后在某些迭代中下降到大约3,000,最后下降到大约用于训练完全二值化网络的值,即,在第二阶段,二进制化的权重和激活。不幸的是,我们不能使用这种策略,因为由于在第一阶段[34]中学习到的良好初始值,二进制网络收敛得很快,而随机初始化的FP分类器gθ收敛得不如二进制网络快。二进制网络和FP分类器的收敛速度的这种差异损害了训练效率。为了将多阶段训练应用于BURN,我们对其进行了修改,以便为FP分类器和二进制网络提供良好的初始点。具体地说,我们在第二阶段用第一阶段得到的gθ的权重初始化gθ,类似于二进制网络。因此,gθ从一个良好的初始点开始,并迅速收敛,以提供有用的目标。我们描述了完整的算法的燃烧在Alg。1毕业。幅度θ,9751D←←←←D←D← LL← LL−FSL- −·L −·L·L3:W←{}{θ,θ}2:θ,θ←PreStrain(D,t,h,h,gθ,k,l,STA GE1)算法1二元无监督表示学习(BURN)一曰:函数BURN(D,t,k,hθ,gθ,kθ,lθ)4:θ,θPretrain(,t,W,hθ,gθ,kθ,lθ,STAGE 2)5:返回k第六章: end function第七章: 函数PRETRAIN(,t,W,hθ,gθ,kθ,lθ,F)8:如果F是阶段1,则9:k,l二进制化激活10:hW加载预训练权重11:其他12:k,l二进制化激活和权重13:h, gθ,k,lW加载预训练权重14:如果结束十五:x= RandomSelect()SamplexD16:v1,v2=h(x),k(x)特 征向 量 v1 ,v217:p1,p2=gθ(v1),l(v2)Softmax概率p1,p218:,θ,=AugmentedLoss(v1,v2,p1,p2,t)19:θ优化器(θ,θ,,η)更新θ20:优化器的最佳化(ϕ ,θ ,21:返回θ,θ二十二: end function二十三: 函数AUGMENTEDL OSS(v1,v2,p1,p2,t)二十四:LKL=DKL(p2p1)KL散度表1.预训练后Pascal VOC上的目标检测(mAP,AP50和AP75)BURN优于所有比较方法,包括监督预训练4.1. 下游任务我们在各种下游任务中评估我们的方法以及现有技术。我们在每个表中以粗体表示除了监督预训练之外的最佳结果。物 体 检 测 。 我 们 首 先 对 Pascal VOC 进 行 对 象 检 测(mAP(%)、AP 50(%)和AP 75(%)),并将结果汇总在表1中。一旦特征提取器被预训练,我们就使用预训练的权重作为初始权重来微调检测管道。BURN out-在所有三个指标中执行所有其他方法,包括监督预训练。我们认为BURN性能的原因之一是它利用了以SSL方式训练的FP网络,该网络主要学习了有助于对象检测的低级和中级特征[5225:= 1v1,v22012年1月 2日·2012年2月2日余弦距离线性评价。然后我们进行线性评估二十六:λ(t)=λ T(λ Tλ0)(cos(πt/T)+ 1)/2<$等式 327:=(1λ(t))KL+ λ(t)8月24日Eq. 4二十八:返回二十九: end function4. 实验实验细节。在 [11,21,27,45,49,52]之后,我们使用ImageNet [26]进行预训练。我们使用1)对象检测,2)线性评估,3)半监督微调,4)使用SVM的全镜头和少镜头图像分类,以及5)通过用于下游任务的线性评估的转移学习。我们严格遵循下游任务的SSL评估协议[6,7,17,20]。下游任务和实施细节在补充中。实验部分基于NAVER智能机器学习(NSML)平台[25,40]。代码可以在https://github上找到。com/naver-ai/burn.基线。我们用BYOL [18],SWAV [5],调优的MoCov2[39]和S2预训练ReActNet-A主干,BNN [39]作为我们的SSL基线。我们还显示了监督预训练,即,“监督前”。更多与SimCLRv2 [7]和InfoMin[44]的比较请参见附录。在所有方法中,我们对模型进行了200个方法最大平均接入点(%)AP50(%)AP75(%)预监督38.2268.5337.65SWAV[5]37.2267.4735.91BYOL [18]36.9267.1335.65[39]第三十九话37.4267.3036.37S2-BNN [39]39.5070.0939.15烧伤(我们的)41.0070.9141.459752(top-1)并在表2中总结结果。一旦二进制特征提取器被预训练,它就被冻结,并且只有附加的分类器被训练用于分类。如表中所示,BURN比其他SSL方法的性能高出13倍。04%的top-1准确率,可能是因为它利用了来自FP网络的知识。有趣的是,BURN甚至优于过去通过二进制网络进行的监督ImageNet分类,例如, XNOR-Net(51. 20%)[38]。半监督微调。我们现在进行半监督微调(top-1和top-5),并将结果总结在表2中。我们在ImageNet的标记子集(1%或10%)上微调整个网络。 BURN-在所有指标上均以较大幅度超过其他SSL基线;至少+3。67%top-1准确度和+5。在1%标签设置和+3. 98% top-1准确度和+4。在10%标签设置下,41%的前5名准确度,重复。有趣的是,BURN似乎在这个任务中比线性评估更好地胜过其他SSL方法,这意味着BURN在监督有限的任务中可能更有益,正如[16]所讨论的那样。SVM图像分类我们进行SVM分类(mAP(%)),并 在 表 3 中 总 结 了 VOC 07 的 少 数 拍 摄 和 全 拍 摄(“全”)设置的结果对于少量测试结果,将结果平均5次运行。发射次数k从1变化到96。9753调整MoCov2 69.73S2-BNN 76.49烧伤(我们的)29.20±1.5136.14±2.1548.49±1.0855.12±1.59 62.36±1.0168.10 ± 0.372.1 ± 0.3974.06±0.18 77.49线性评价半监督微调方法1%标签10%标签前1名(%)前1名(%)前5名(%)前1名(%)前5名(%)预监督64.1042.9669.1053.0777.40SWAV49.4124.6646.5733.8357.81BYOL49.2523.0543.9034.6658.78调整MoCov252.5022.9645.1231.1855.64S2-BNN61.5036.0861.8345.9871.11烧伤(我们的)62.2939.7567.1349.9675.52表2.预训练后ImageNet上的线性评估(top-1)和半监督微调(1%标签或10%标签)。BURN在线性评估和半监督微调方面都优于所有其他SSL方法23.45± 0.7628.04±2.40 38.09±1.07 44.69±1.66 51.5±0.90 57.44±0.24 62.07± 0.2864.37±0.1322.12± 0.7427.45 ± 2.06 36.81 ±0.8243.19 ±1.451.93 ±0.8457.95 ± 0.6263.07 ± 0.43 65.15 ±0.0527.00±1.5433.39± 2.7246.31± 2.1154.14 ±1.3261.86 ± 1.1468.01± 0.4171.89± 0.447 3 . 5 5 ±0.29表3.预训练后VOC07上的少拍和全拍设置的SVM分类(mAP)。BURN在很大程度上优于所有其他SSL方法,并且在两种设置上都与监督预训练方法不相上下发射次数(k)从1到10变化96. 我们报告了5次运行的平均性能和标准差。方法以对象为中心以场景为中心表4.预训练后,在以对象为中心或以场景为中心的数据集上进行迁移学习(前1名)。CIFAR 10、CIFAR 100、CUB-200- 2011和Birdsnap被用作以对象为中心的数据集,而Places 205被用作以场景为中心的数据集。BURN在以对象为中心的数据集和Places205上的性能优于所有其他SSL基线。对于少数拍摄设置,BURN优于所有其他SSL方法,大约为+1%至+10%mAP,具体取决于拍摄数量。值得注意的是,BURN的表现非常接近监督预训练,无论拍摄数量如何。这与半监督微调结果一致; BURN在有限监督的任务中表现出强大的性能,例如少数镜头分类[16]。在全拍摄设置中,BURN比其他SSL方法的性能高出多达+8。33%的mAP,表现与监督预训练非常相似。在这两种设置中,BURN使用ImageNet学习的表示在不同的数据集(如VOC07)上仍然有效,这可能是由于BURN使用FP网络来获得通常有用的目标,即,低至中等水平的代表性[52]。迁 移 学 习 。 虽 然 [39] 使 用 VOC07 , 但 我 们 使 用Places205而不是VOC07来显示更多样化的迁移场景,因为我们已经显示了迁移学习结果使用表3中的SVM将VOC 07转化为VOC 07。考虑到我们使用Ima-geNet(以对象为中心)进行预训练,为了评估跨领域学习表示的可转移性,我们使用两种类型的数据集进行可转移性实验,即,以对象为中心和以场景为中心的数据集。具体来说,我们使用CIFAR10,CIFAR 100,CUB-200-2011和Birdsnap作为一旦我们使用ImageNet预训练二进制特征提取器,特征提取器就会被冻结,只有附加的分类器在目标数据集上进行训练如表中所示,BURN在CIFAR 10、CUB-200-2011和Birdsnap中以对象为中心的数据集上的性能优于所有SSL方法。这意味着使用BURN学习的表示可以在多个以对象为中心的数据集之间很好地传输。对于以场景为中心的数据集(Places205),我们观察到方法的迁移学习结果变化较小。方法k = 1K = 2K = 4K = 8K = 16K = 32k = 64K = 96充分预监督29.28±0.9436.46±2.9749.67±1.2056.99±0.6764.68±0.8970.08±0.5873.49±0.5374.96±0.1777.47SWAVBYOL22.97± 1.2127.91±2.3737.91±1.1144.5±1.5152.79±0.8159.15±0.6264.38±0.5966.72±0.1971.2369.16CIFAR10CIFAR100Cub-200-2011鸟爪学生寮205预监督78.3057.8254.6436.9046.38SWAV75.7856.7836.1125.5446.90BYOL76.6858.1838.8027.1144.62调整MoCov278.2957.5633.7923.3744.90S2-BNN82.7061.9047.5034.1046.58烧伤(我们84.6061.9949.6234.4847.229754ImageNet-1K Lin. Eval. Acc.(%)⃝LLLN方法⃝1 随机的Init. Cls.⃝2 壮举. SIM.损失⃝3 动力学 巴尔⃝4 多级前1名(%)⃝ 1101+102101+ 102+ 103✓中国57.33中国59.53中国61.431 +表5.在ImageNet上使用线性评估(top-1)对BURN的拟议组件进行消融研究1是指使用随机初始化的分类器作为目标。2002西姆是指特征相似性损失(等式2)。13巴尔指的是使用动态平衡。第四阶段是指使用改进的多阶段训练。改进BURN的每一步都有助于获得重要的性能增益,因为使用ImageNet数据集进行评估。此外,仅使用SSL1的性能已经优于除S2-BNN之外的所有其他SSL基线[39]。由于ImageNet是以对象为中心,因此将知识转移到以场景为中心数据集可能会受到域间隙的影响,并且不同方法的性能略有不同。4.2. 进一步分析我们进一步研究了我们的方法,使用ImageNet上的线性评估(top-1)进行详细分析。700600500400300培训 时间一个com-64培训内容2000 20 40 60 80 100迭代时间vs. ImageNet上的线性评估如图4所示。如果没有多级比其他基线具有更高的准确性,具有类似或更少的训 练 时 间 。 使 用 MST ,BURN显示出比S2-BNN更高的准确性,但训练时间相当。605652481500 2000 2500 3000 3500培训时间(成本)(分钟)图4.训练时间和线性评估精度。图5. 骨干和目标向量之间的L2距离平均超过10次独立运行。阴影区域表示1 std的区域。在二元情况下,L2距离更大并且具有更高的变异性,这表明EMA目标与主链更不同,作为目标,效果不佳。二进制网络。EMA目标和动量编码器都基于目标网络的动量或EMA更新,并在目标网络和骨干网络之间产生差异。我们推测EMA更新可能不适合二进制网络,因为消融研究。我们消融模型并将结果总结在表5中。我们按照图2中的惯例对每个组件进行编号。我们的基线方法(1)单独达到57。33%的最高准确度,高于除S2-BNN之外的所有其他SSL基线(见表2)。此外,BURN中的每个组件都有助于获得非平凡的增益。特别是,特征相似性损失和动态平衡都提供了显著的改进。我们认为原因是,除了FS稳定的梯度(见第二节。3.2)和动态平衡的FS捕捉变化的重要性,FS稳定梯度甚至更有效,从而提高性能。经过修改的多阶段训练也包括:对精确度的贡献是巨大的二进制网络中移动目标的选择。请注意,BYOL [18]和Tuned MoCov2 [39]的下游任务性能(分别使用EMA目标和动量编码器)比BURN更差(参见第12节)。4.1),其使用联合训练的分类器作为移动目标。除了以上的定量比较,我们还提供了为什么EMA目标或动量编码器作为移动目标可能是不太有效的选择的直觉目标网络和骨干网络与EMA更新的差异可以通过二进制化过程来放大为了阐述我们的直觉,我们设计了一个实验来比较骨干和EMA目标网络的不同之处,其中骨干和EMA目标被简化为分别表示为骨干和目标的100维向量然后,我们模拟训练的主干和目标的EMA更新为:骨干←骨干+η·ηn,(5)目标←τ·目标+(1-τ)·骨干,其中Backbone和Target使用相同的随机值初始化,η是学习率,设置为4。8[18],n是从标准正态分布中得出的随机扰动, (0,1),以模拟梯度更新,τ是EMA更新中使用的动量,设置为0。九十九。我们执行Eq.100次迭代5次。我们在图5中比较了骨干向量和目标向量之间的L2距离。对于二进制情况,骨干和目标之间的L2距离更大,方差更高,这表明EMA目标可能与具有二进制网络的骨干有很大差异不二进制浮点带MST不含MST带MST不含MST烧伤(我们的)S2-BNNSWAV调整||骨干目标||29755KL + L1KL + L2KL +余弦−−LLL∥ −∥×LFS有界前1名(%)L151.46L250.28余弦函数<$62.29表6. 比较L1、 L2和余弦距离。余弦距离是迄今为止三者中最好的选择,这是由我们的直觉支持的,即有界损失项作为特征相似性损失会更好。1 × 106...3210λ(t)顶部-1(%)常数55.83Heaviside步骤:H(t+Tmax/2)55.60当量362.29美元表7.动平衡功能比较。有关比较λ(t)选择的图,请参阅补充资料。 Eq。3(平滑退火)是三种选择中最好的常数函数不捕获平衡 因 子 的 动 态 性 质 , 并 且Heaviside阶跃函数由于不连续性而中断训练中途。400020000动平衡功能的选择最 后探讨了动平衡函数的选择。具体地,我们考虑(1)常数函数,λ(t)=0。(2)平移和水平反射的Heaviside阶跃函数H(t +Tmax/2),以及(3)平滑余弦退火函数(等式7)。3)在我们的BURN中使用,并在表7中比较它们各自的精度。常数函数未能捕捉到FS的重要性可能随着学习的进展而改变,从而导致较差的结果。Heaviside阶梯函数在训练中期突然改变平衡因子这会扰乱训练,导致表现不佳。相比之下,平滑退火(Eq. 3)捕获特征相似性损失的重要性的动态性质,同时平滑地改变平衡因子,从而在选项中产生最佳性能5. 结论我们提出了BURN,一种无监督的表示0 1000020000迭代0 1000020000迭代二进制网络的学习框架,(a) (b)特征提取器图6.(a)二元分类器和(b)二元特征提取器在早期训练期间对于FS的各种选择(诸如余弦、L1和L2距离)的梯度幅度。L1和L2距离在classi- fier的开始处显示非常高的梯度,特别是L2。此外,L1和L2距离在特征提取器中表现出潜在的梯度爆炸。余弦距离没有显示出这些损害训练效果的趋势。只是在二进制情况下,L2距离不随时间减小。这些结果与我们的直觉和经验结果一致,即EMA目标对于二进制网络可能更不同,因此效率较低。特征相似性损失的选择。我们进一步研究了特征相似性损失的选择(LFS在方程。四、在表6中。除了余弦距离,即, 1 −10v1,v2 10 、FP分类器和二进制网络。我们提出了一个特征相似性损失,动态损失平衡,和一个修改的多阶段训练,以提高BURN。我们用五个下游任务和七个数据集进行了广泛的实证验证。在所有下游任务中,BURN的性能始终优于现有的SSL基线,有时甚至优于监督预训练。我们还提供了对烧伤的各个方面的详细分析。局限性。 BURN的一个限制是它需要预训练的FP特征提取器。虽然使用预训练的FP网络是二进制网络的常用方法[2,32,34,39],但设计一个不需要预训练的FP模型的框架会更有效潜在的负面社会影响。我们的目标是提高二进制网络学习的表示能力,这将促进具有视觉传感器的边缘设备上的AI在烧伤中使用,我们比较L1,即,2012年1月2日·2012年2月2日v1−v2因此,人工智能监控系统可能会成为...L2,即, v1v22,距离。 我们认为,L1和L2距离没有边界,它们可能会导致梯度爆炸等问题,导致性能不如余弦距离。余弦距离比L1和L2有较大幅度的提高.在图6中,我们示出了当使用余弦、L1或L2距离作为FS时分类器和特征提取器两者的梯度幅度。L1和L2距离在分类器的早期显示出非常高的梯度,特别是 L2,其中梯度开始于1106。 甚至更重要的是,L1和L2距离显示了特征提取器中梯度爆炸的迹象,即,随着迭代的进行,梯度保持增加,其中L2表现出更严重的趋势。相比之下,余弦距离表现出小而柔和的Gra-的分类器和特征提取器。这可能会导致对大量人口的私人信息和个人属性进行监测虽然提交人无意允许这种后果,但这种负面影响可能会显现出来。防止这种影响的努力包括对代码进行门控,以及在安全和道德筛选背后预先训练模型。谢谢。作者感谢Jung-Woo Ha进行了有价值的讨论。这项工作得到了韩国政府资助的韩国国家研究基金会(NRF)资助(MSIT)(No.2022R1A2C4002300)和韩国政府资助的信息通信技术促进研究所(IITP)资助(MSIT)(No.2020- 0-01361-003和2019-0-01842,人工智能研究生院计划(延世大学,GIST)和No.2021-0-02068人工智能创新中心)的部分支持。KL + L2KL +余弦KL+ L1毕业。幅度9756--引用[1] Soroush Abbasi Koohpayegani 、 Ajinkya Tejankar 和Hamed Pirsiavash。Compress:通过压缩表示进行自我监督学习。在NeurIPS,2020年。一、二[2] AdrianBulat , BraisMart'ınez , andGeorgiosTzimiropoulos.Bats:Binary architecture search.在ECCV,2020年。一、二、四、八[3] Adrian Bulat、Brais Martinez和Georgios Tzimiropoulos。高容量专家二进制网络。ICLR,2021年。一、二[4] 蔡兆伟,阿维纳什·拉维钱德兰,苏布兰苏·玛吉,查尔·莱斯·福克斯,涂卓文,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功