没有合适的资源?快使用搜索试试~ 我知道了~
��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������� ���!�"�"#��$"��!��������!�"�"#���������������������������������������%�&'���(�))�$"���%�&'� ��������122570对比双门:通过对比学习学习稀疏特征0Jian Meng *,Li Yang *,Jinwoo Shin†,Deliang Fan *,Jae-sun Seo *0* 美国亚利桑那州立大学,† 韩国KAIST * { jmeng15,lyang166,dfan,jaesun.seo } @asu.edu † {jinwoos } @kaist.ac.kr0摘要0对比学习(或其变体)最近在自监督学习领域变得越来越有前景,通过最小的微调实现了与监督学习相似的性能。尽管具有标注效率,但为了达到高准确性,需要宽而大的网络,这会导致大量计算,阻碍了自监督学习的实用性。为了有效减少不重要的特征或通道的计算量,最近的一些动态修剪算法在监督学习中使用了辅助显著性预测器。然而,我们发现当这些显著性预测器被朴素地应用于从头开始的对比学习时,很难训练。为了解决这个问题,我们提出了对比双门(CDG),一种新颖的动态修剪算法,在对比学习过程中跳过无信息的特征,而不影响网络的可训练性。我们使用CIFAR-10、CIFAR-100和ImageNet-100数据集的ResNet模型展示了CDG的优越性。与我们实现的最先进的自监督学习动态修剪算法相比,CDG在CIFAR-10数据集上的准确性提高了15%,同时减少了更多的计算量。01. 引言0传统的监督学习的成功依赖于大规模标记数据集来最小化损失并实现高准确性。然而,手动注释数百万个数据样本是劳动密集型和耗时的。这促使自监督学习(SSL)成为一种有吸引力的解决方案,因为训练时使用的是人工标签而不是人工注释的标签。最先进的自监督学习框架,如SimCLR[3]和MoCo[11],利用对比学习(CL)[9]的概念和宽而深的模型,实现了与监督训练相当的性能。图1显示了CIFAR-10推理准确性与浮点操作次数的关系。0图1.使用监督和自监督训练[3]从头开始的各种ResNet模型的推理准确性。在对比预训练后,模型在训练集的50%上进行微调。0通过从头开始训练,SimCLR[3]需要一个比基准模型(使用监督学习训练的ResNet-18(1×))宽4倍的模型才能达到相似的准确性。另一方面,使用紧凑的模型架构(例如ResNet-20)很难达到良好的准确性。非凡的计算成本需要自监督学习的高效计算减少技术。在监督学习的背景下,网络稀疏化已经得到广泛研究。静态权重修剪[10, 21]和动态计算跳过[1, 8, 14, 16,20]通过修剪架构或稀疏特征实现了高准确性。最近的一项工作[2]报道了将彩票票据假设[7]应用于自监督学习以用于下游任务的可转移性。然而,自监督预训练和迭代搜索的要求极大地限制了该算法的实用性。尽管其重要性,对从头开始训练的自监督学习模型进行稀疏化研究仍然很少。为了填补这一研究空白,我们通过自监督方式从头开始训练模型,研究了高效的动态稀疏特征学习。大多数关于动态计算减少的先前工作[1, 8, 16,20]通过使用辅助小型神经网络利用空间稀疏性。****++Base PathOutputCond. PathOutputSparse Mask Sparse MaskSparse FeaturesSparse FeaturesFinal OutputFinal OutputBase PathOutputCond. PathOutput122580对比分支0对比分支0基础路径 条件路径0转换后的图像0转换后的图像0图2. 基于SimCLR[3]框架的提出的对比双门控(CDG)算法概述,该算法在对比分支中学习稀疏特征。0小型神经网络(mini-NN)用于确定特征显著性。除了基于小型神经网络的显著性预测的额外计算成本外,我们发现由于显著性预测的准确性显著降低(详见第5节),在对比学习中使用它存在问题。为了解决这个问题,我们提出了对比双门控(CDG)算法,用于对比自监督学习的动态稀疏特征学习算法。与基于小型神经网络的显著性预测相反,CDG利用空间门控函数来利用空间冗余。与用于监督学习的通道门控网络(CGNet)[14]不同,用于自监督学习的提出的CDG算法利用了对比分支之间显著性差异的空间冗余。如图2所示,CDG在无监督学习过程中同时学习对比分支中的稀疏特征。此外,CDG可以以结构化和非结构化的方式利用稀疏特征。借助高效和优化的稀疏化,CDG实现了高FLOPs减少和高推理准确性,而无需任何辅助预测器。总体而言,本文的主要贡献是:0•与用于监督学习的动态修剪相反,其中基于小型神经网络的显著性预测改善了整体性能,我们表明这种辅助预测方案导致了自监督学习中的较低准确性。•我们提出了CDG,一种新的具有双门控策略的动态修剪算法,专为具有多个最新对比学习框架的对比自监督训练而设计。•我们在多个数据集上评估ResNet模型的CDG,其中CDG分别在CIFAR-10 / -100[15]和ImageNet-100数据集上实现了2.25×和1.65×的计算减少。02. 相关工作02.1. 动态计算减少0可学习的显著性预测。模型大小的膨胀会导致不同输入的通道重要性不同。最近的一些工作提出使用额外的小型神经网络来预测无信息的特征或通道。给定高维输入,显著性预测器生成低维显著性向量,该向量将用于在监督训练期间制定二进制特征掩码。FBS[8]通过使用额外的全连接(FC)层和ReLU激活函数来估计输入通道的重要性。动态组卷积(DGC)[20]扩展了FBS的设计,使用更多的FC层,并在不同的输出通道组中部署单独的显著性预测器。动态双门控(DDG)[16]利用卷积和全连接层来利用空间和通道特征的稀疏性。复杂的显著性预测器设计提高了计算减少的效果,但降低了模型的可训练性。DDG[16]需要预训练的静态模型进行初始化,即使对于CIFAR-10[15]数据集也是如此。目前还没有研究将显著性预测器设计用于自监督学习。基于通道门控的动态修剪。通道门控网络(CGNet)[14]首先在每一层中执行输入通道的子集Wb(基础路径),然后将结果的部分和策略性地门控以确定卷积层Wc(条件路径)的剩余计算。基路径输出与最终和输出之间存在强相关性,这意味着基路径计算的无信息特征也很可能对条件路径不重要。计算的显著性基于归一化的基路径输出进行评估,其中具有较大幅度的特征被视为重要并被选择。具体而言,基路径输出的公式如下:0Ybase = Xbase * Wb (1)0随后,可以计算条件路径Wc的计算决策Mc∈{0, 1}:0Mc = σs(normal(Ybase) - τ),(2)0其中τ表示可学习的门控阈值。为了更好地近似梯度,非线性函数σs由非线性激活函数和统一的阶跃函数组成。具有较小幅度(小于阈值)的特征将被门控,二进制决策掩码Mc将应用于条件路径计算。卷积层的最终输出结合了密集的基本�������������������������������������������������������������������������������������������������������������������� ������!��"��������������������#���$���������������������������������%����������&�������������������� ������!��"���������'���(���)*�+*,+Y a1cond = Xa1cond ∗ Wc · Ma1c ,(4)Y a2cond = Xa2cond ∗ Wc · Ma1c ,(5)122590路径和稀疏条件路径:0如果{Mc}i,j,k = 0,则{Ybase}i,j,k = {Ybase}i,j,k +{Ycond}i,j,k,如果{Mc}i,j,k =1(3)。与利用结构化通道稀疏性的其他方法正交的是,CGNet专注于沿空间轴的细粒度稀疏性。然而,由于细粒度的稀疏索引,在硬件上使用非结构化稀疏性可能很麻烦。因此,还应仔细研究结构化特征稀疏性。02.2. 对比自监督学习0与使用标记数据学习代表性特征相反,对比学习(CL)基于高维特征的潜在对比性训练模型。通过基于相似性的对比损失函数[18],CL最大化相似样本之间的一致性,同时将不匹配的表示互相排斥。对比损失的成功使得最先进的方法能够通过梯度学习来优化模型。作为代表性工作,SimCLR[3]使用单个基本编码器对两组增强输入(例如颜色抖动,高斯模糊)进行编码。这种端到端的训练框架具有较低的复杂性,但在大型模型上表现更好。然而,对于增强特征之间的显著性差异的影响仍不清楚,这可能会在对比学习的动态修剪性能上产生很大影响。03. 使用对比训练学习稀疏特征0在本节中,我们讨论自监督稀疏特征学习的最佳动态门控策略。我们使用ResNet-18架构作为SimCLR[3]对比学习框架的默认基本编码器。03.1. 动态稀疏掩码的不可转移性0CGNet[14]的修剪决策是通过评估基本路径结果的特征显著性来制定的。在有监督学习中,所有中间特征图都源自干净的输入图像。然而,在对比有监督学习方案中,基本编码器的输入是不同对比分支的变换图像。对于SimCLR[3],两个变换的输入是由同一增强家族T的独立变换操作员生成的。因此,问题出现了:给定唯一的编码器网络,两个增强路径之间的基本路径特征显著性是否相似?换句话说,修剪决策是否可以在两个增强特征之间转移?0图3.将计算得到的稀疏掩码Ma1c广播到两个对比路径会导致:(a)降低的对比训练损失,(b)在不成功的有监督线性评估中的缺陷的泛化能力。0为了回答上述问题,我们使用CGNet[14]作为起点,但禁用通道洗牌以避免随机性的扭曲。给定两个对比分支a1和a2,我们首先根据公式2计算Ma1c。0使用基本路径输入Xa1base,然后将Ma1c广播到两个对比分支的条件路径:0其中 M a 1 c = σ s ( normal ( Y a 1 base ) − τ ) (6)0我们从头开始在CIFAR-10数据集上训练了一个ResNet-18编码器。由于低分辨率(32×32),随机高斯模糊被排除在增强操作之外。类似的转换方法在之前的实现中已经得到验证。如图3(a)所示,应用相同的动态修剪掩码导致对比损失大幅降低。然而,低对比度预训练损失无法提升后续的监督线性评估阶段。图3(b)中显示的低准确性意味着特征提取器由于对比学习失败而存在缺陷。在缺少几何变换的情况下,将动态稀疏掩码广播到不同的对比路径可以被认为是在条件路径卷积中揭示相似的空间特征。在与共享的条件路径W c卷积之后,投影到低维向量的结果往往具有较高的相似性,从而导致对比损失减小。总结这些实证结果,我们的主要观察结果如下:A1:一致的数据转换操作T和相同的编码器f不能保证不同增强分支的特征显著性相似。A1的观察结果得出以下动态修剪的结论:C1:由于对比学习的不同特征显著性,修剪决策M c 在对比分支之间不可转移。Ma1c = σs(normal(Xa1base ∗ Wb) − τ)(7)Ma2c = σs(normal(Xa2base ∗ Wb) − τ)(8)Shape-wise cosine similarity ��0.20.40.60.70.10.50.30.20.4���� � �, � �×�×����� � �, � �×�×��� � ��×��122600方法 门控组 条件路径 稀疏度(%)推理准确率(%)0基准线 - - 89.160统一门控 4 52.29 52.530双门控 4 71.88 87.670表1.对比预训练和线性评估后CIFAR-10准确性的不同门控方案比较。应用区分性双门控在对比学习中显著提高了模型性能。03.2. 对比学习的双门控0根据结论C1,我们为两个对比分支分别采用独立的修剪决策。具体而言,给定基路径输出Y a 1 base,Y a 2base,可以基于W b 分别生成动态稀疏掩码:0按照第3.1节相同的训练设置,我们在训练过程中为两个对比分支应用单独的稀疏掩码。在随后的线性评估中,我们只将M a 1 c应用于冻结的骨干模型。如表1所总结的,区分性双门控方案显著提高了推理准确性和条件路径稀疏度。结论C1确认了将不同的稀疏掩码应用于两个对比分支的必要性,而a 1 和a2之间的显著性差异需要进行更多的定量研究。如图4所示,我们计算了M a 1 c 和M a 2 c在通道维度C上的平均形状相似度S c。由于稀疏掩码是二进制的,元素级相似度只能是“0”或“1”。全局平均掩码相似度通过对所有层的S c进行普遍平均计算得到。0二进制掩码: � � � � , �� = �, �0“1”: 稠密0“0”: 跳过0平均0图4. 对比掩码M a 1 c和M a 2 c之间的形状余弦相似度S c。在具有相同基路径W b的ResNet-18的情况下,M a 1 c和M a 2c在训练过程中变得不同。0CIFAR-10数据集。图4显示了整个ResNet-18模型中对比特征掩码M a 1 c和M a 2c之间的平均相似度。在训练开始时,对比分支之间的特征显著性相似(S c >0.6)。随着训练过程中稀疏性的增加,相似度降低到0.34。对比训练中不相似性的放大导致以下结论:C2:在统一的数据转换和相同的基础路径选择W b的情况下,对比训练鼓励网络f突出不同的对比特征以获得更好的学习效果。03.3. 无偏对比分组0为了避免有偏的权重更新,CGNet[14]在均匀划分的输入/输出门控组之间对角选择基础路径。在第3.1节和第3.2节的先前实验中,我们采用了相同的计算策略进行对比学习。结论C2表明,鉴别性特征掩码对于对比训练中学习稀疏特征是有益的。不同空间特征选择的有效性激发我们在训练过程中为不同对比分支引入单独的基础路径。为此,我们研究了重叠的基础路径和两个对比分支之间的不同计算划分的影响。图5显示了四个门控组(G =4)的不同交叉百分比的单独基础路径,其中W a 1 b和W a2 b表示两个对比分支的基础路径权重。我们0输入通道0输出通道0输入通道0输出通道0输入通道0输出通道0输入通道0输出通道0(a) (b)0(c) (d)0� � � � :对比分支的基础路径权重 � �0� � :对比分支的基础路径权重 � �0重叠的基础路径0图5.基于四个门控组的不同重叠百分比的双重门控:(a)100%重叠的统一双重门控,(b) 75%重叠,(b) 50%重叠,(d)0%的不重叠基础路径。100%471.8887.6775%471.0287.59122610重叠的门控组 条件路径稀疏度(%)推理准确性(%)0基准 - - 89.160不重叠(0%) 4 72.48 88.590表2.CIFAR-10准确性在对比预训练和线性评估之后,不同对比基础路径之间的重叠比较。0首先将W a 1 b设置为对角线,然后通过不同的W a 2b选择不同的重叠比例。在监督线性评估中,我们只使用Wa 1b作为基础路径。按照第3.2节的对比训练设置,我们对CIFAR-10的ResNet-18模型进行不同重叠水平的训练,然后评估监督线性评估后的推理准确性。表20总结了通过不同基础路径选择训练的模型性能。值得注意的是,当对比基础路径彼此重叠50%时,预训练模型的推理准确性最低。如图5(c)所示,W a 2 b的前半部分和后半部分覆盖了相同的输入通道组,而剩下的两个输出通道组则被从基础路径计算中忽略掉。由于通道的重要性可能大不相同,50%通道重叠导致的较差模型性能表明了将计算均匀分布到所有通道组的重要性。具体来说,基础路径中的重复通道会使学习过程更频繁地更新相应的权重,而剩余通道中的非活跃权重最终会导致准确性下降。类似的发现也在[14]中报道过。相反,当 W a 1 b 和 W a 2 b完全不重叠时,对比训练模型的推理准确性最高,与密集基准仅有0.5%的降级。通过选择 W a 1 b 和 W a 2 b沿着不重叠的对角线,基础路径计算不会受到任何偏倚的训练,不同通道之间的不同特征被激活以增强对比学习。基于这些实验和分析,我们得出以下结论:C3:给定基础编码器f,均匀激活不同对比路径中的不重叠通道将增强对比训练中的稀疏特征学习。04. 对比双门控0基于上述分析,我们提出了用于对比自监督训练期间高效动态稀疏特征学习的对比双门控(CDG)算法。我们在下面详细介绍CDG的细节:0算法1. 提出的对比双门控(CDG)0要求:编码器f,投影器g,目标稀疏度s,门控组G,特征组大小K1:初始化可学习的显著性阈值τ02:对于采样的小批量Xk执行3:对于对比分支ai ∈ {1,n}执行4:绘制数据增强tai � T5:Xai k =tai(Xk)6:获取基本路径输出:Yaibase = Xaibase *Waib7:计算特征显著性8:如果|K| >1则执行9:Saibase = AvgPool dim(K)(Yaibase,size(K))10:Saibase =Repeat-Extend(Saibase)11:否则执行12:Saibase =Yaibase13:结束如果14:稀疏条件路径卷积:15:Maic = σs(normal(Saibase) - τ)16:Yaicond =(Xaicond * Waic) ∙Maic17:获取最终输出18:Yaitotal = Yaibase +Yaicond19:结束对20:结束对0算法1.在本文中,我们主要关注带有两个对比分支的SimCLR[3]框架,分别称为a1和a2。在对比训练的前向传播过程中,CDG沿着通道组的对角线和逆对角线选择对比基本路径Wa1b和Wa2b。剪枝掩码Ma1c和Ma2c是基于可学习的显著性阈值τ ∈ RC分别生成的,以及门控函数:0Ma1c = σs(normal(Xa1base * Wa1b) - τ) (9)0Ma2c = σs(normal(Xa2base * Wa2b) - τ) (10)0由此产生的逐元素二进制稀疏特征掩码决定了是否跳过条件路径计算的相应3×3卷积。如图5所示,CDG的不相交基本路径使模型能够对称地利用特征冗余。无偏的对比学习策略满足我们在第3.3节中的观察。在前向传播计算之后,我们根据目标稀疏度值s通过L2正则化来优化τ:0˜L = LNT-Xent + λ0i = 1 || s - τ || 2,(11)0其中L表示编码器模型的层数。可调参数λ控制正则化的惩罚水平。在反向传播过程中,我们采用梯度平滑技术[14]来近似非可微门控函数σs的梯度。122620按形状 按元素 按组0�0� �0�0� �0�0� �0准确性0简单性,能量效率0� � � �0图6.结构化CDG算法的粒度K1,K2表示两个不同的具有相同大小的组。04.1. 结构化对比双门控0与监督训练相比,增强对比输入使稀疏索引翻倍。由于Ma1c和Ma2c的大小与输出特征图相同,在实践中存储和处理如此大的细粒度掩码可能会引入大量的内存和计算开销。出于这个原因,我们在CDG算法之上引入了粗粒度稀疏性。具体而言,给定基本路径输出Yaibase,我们首先计算每个预定义组K内的平均显著图Saibase:0Saibase = AvgPool dim(K)(Yaibase, size(K)) (12)0K的大小可以是2D或3D,具体取决于计算的实际需求。由于平均池化操作会导致Saibase的尺寸减小,为了避免维度不匹配,我们将每个平均值重复|K|次。与细粒度的CDG相比,引入结构化剪枝策略简化了稀疏索引,减少了计算复杂度和内存成本。稀疏对比学习模型的性能高度依赖于组大小的选择。较大的剪枝粒度会导致简洁的稀疏卷积,而单位特征也会放大精度下降[17]。为了在目标硬件上平衡模型性能和推理效率,我们将K视为可调参数,并在整个网络中使用统一的组大小|K|。特别地,给定基本路径输出Ybase ∈RC×H×W,我们将组大小设置为K = Cg×1×1,其中1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功