没有合适的资源?快使用搜索试试~ 我知道了~
9841--DATA:领域感知和任务感知的自我监督学习常庆1、3、4、5彭俊然2谢玲希2孙家俊1、3、4、5尹浩然1、3、4、5田琦2张兆祥*1,3,4,5,61中国科学院大学,2华为公司3中国科学4模式识别5智能感知与计算6中科院人工智能与机器人研究中心changqing2020@ia.ac.cn,jrpeng4ever@126.com198808xc@gmail.com,sunjiajun211,mails.ucas.ac.cnhuawei.com,zhaoxiang. ia.ac.cn摘要通过自监督学习(SSL)和对许多下游任务的微调,在海量数据上训练模型而不带标签的范式已成为近年来的一种趋势。然而,由于高训练成本和对下游使用的无意识,大多数自监督学习方法缺乏对应下游场景的能力,因为存在各种数据域、不同的视觉任务和对模型的延迟神经结构搜索(Neural ArchitectureSearch,NAS)是解决上述问题的一种公认的方式,但由于没有提供用于判断模型选择的标签或度量,将NAS应用于SSL上似乎是不可能的在本文中,我们提出了DATA,一个简单而有效的NAS方法,专门为SSL,提供Domain-Aware和Task-Aware预训练。具体来说,我们(i)训练一个超网,它可以被视为一组覆盖广泛的模型规模的数百万个网络,而没有任何标签,(ii)提出了一个灵活的搜索机制与SSL兼容,使不同的计算成本,为各种下游视觉任务和数据域没有明确的度量提供网络。Instan- tiated与MoCo v2,我们的方法实现了有前途的结果在广泛的计算成本的下游任务,包括图像分类,对象检测和语义分割。DATA与大多数现有的SSL方法正交,并赋予它们以下能力:下游需求的定制。对其他SSL方法的大量实验证明了该方法的通用性代码发布于https://github.com/GAIA-vision/GAIA-ssl网站。*通讯作者。……图1.说明数据如何工作。我们首先建立一个由多个神经元组成的超网,并在自监督学习的机制下模拟训练大量的模型。然后,我们提出了一种无监督的搜索方法,使领域感知和任务感知的模型选择没有任何标签。该机制使自监督模型能够适应各种场景,包括点,边缘和云,覆盖不同的视觉任务,如 图 像 分 类 , 对 象 检 测 和 分 割 。 图 中 的 网 络 架 构 由PlotNeuralNet软件绘制[25]。1. 介绍众所周知,深度学习算法是数据饥渴型的,如何利用 来 自 开 源 的 呈 指 数 级 增 长 的 自 我 监 督 学 习(SSL),它利用9842数据的内在关系来制定监督而无需手动注释,在自然语言处理(NLP)[14,18,34,35]和计算机视觉(CV)[10,19,20]领域都取得了显着的进展。尽管它取得了巨大的成功,但要释放SSL的真正力量,需要巨大的数据规模和难以想象的培训预算。这带来了一个副作用,即考虑到大多数场景请求不同规模的模型,并且不同的下游视觉任务可能需要不同的模型架构,训练各种架构的模型以覆盖异构下游需求通常认为,神经结构搜索(NAS)就是为解决上述问题而设计的.然而,在现有的NAS方法中,标签是必不可少的,如果不提供标签或度量,就没有选择模型的线索,因此NAS在SSL中的应用似乎是不可能的这些思考留给我们两个问题:(1) 是否可以在SSL中同时训练具有不同架构的网络令人高兴的是,以前的方法[4,5,8,44]已经证明,在监督学习的机制中,训练一个由数百万个权重共享节点组成的超网是可能的因此,困难在于如何在没有强而稳定的监督的情况下防止不同网络的联合训练出现分歧。最近的一些研究[8,49]将基于siamese的方法的SSL过程解释为一种自我升华的形式因此,只要稳定教师的权威,就能为异质学生提供相对稳定的知识来源。在这项工作中,我们建立了一个基于siamese的SSL的超网训练机制,我们固定的关键分支的最大架构的超网作为老师,只有查询分支的体系结构的变化。实验表明,这样既保证了收敛效率,又大大提高了小子网的特征表示能力更重要的是,这种在SSL中训练超网的设计为我们带来了下面关键问题的答案。(2) 如果没有标签或度量,如何判断网络的质量?人们普遍认为,当数据充足时,越大越好。给定一个覆盖不同规模的超网和SSL的知识蒸馏行为,超网与网络最大值之间的距离自然成为判断网络质量的自监督度量这个指标很好用,尤其是在有预算限制的情况下。关于这一假设的更多讨论将在第6我们进一步扩展我们的探索,使搜索过程中,知道下游任务的类型,不同的任务采用不同类型的功能,测量学生和教师的距离。这大大缩小了转移到下游任务的间隙,同时保持-即插即用的搜索策略如图1所示,我们的方法可以一次性训练各种大小的模型,并搜索专门用于特定下游任务、计算约束和数据域的适当模型。整个管道不需要任何标签来进行训练或模型选择。使用MoCo v2 [11]实例化,我们验证了我们在几个自监督基准测试标准上评估模型的贡献。我们还将我们的方法与其他现有的SSL方法[19,38,49]相结合,以证明其普遍性。2. 相关工作2.1. 自我监督学习自监督学习已经成为无监督学习的主要范式。它的目的是建立一个良好的预文本学习富有成效的特征表示从数据本身.这些借口主要可以分为两类:基于重建的,包括着色[48],空间拼图[39],修复[45]和基于判别式的,包括旋转预测[26],实例级对比[10,19,20]和细粒度控制。transative [38,42].对比学习。对比方法[10,20]第一次使自我监督训练与监督训练具有可比性。他们的方法主要集中在拉表示的不同意见,同一图像(积极对)更接近和推动代表不同的图像(消极对)在同一时间。此外,[7,19]只是使用正对来使网络学习富有成效的特征。上述这些方法在某种程度上对于密集预测任务(对象检测、语义分割等)是次优的。为了解决这个问题,提出了细粒度的借口[2,24,31,38,42]。这些方法中的大多数已经在一些密集预测下游任务中优于2.2. 神经架构搜索神经网络架构搜索的目的是在一定的约束条件下自动化架构设计过程。[50,51]建议使用强化学习与代理数据集上的度量作为解决这个问题的奖励。但是由于无法承受的成本,提出了一级NAS [1,3,6,15,30虽然使用这些方法可以很容易地获得特定的架构,但一旦约束(如延迟,内存成本)发生变化,我们仍然需要此外,研究人员提出了实现训练一个超网的方法[4,5,9,44,46],该超网可以包含一系列的超网。9843我←−A∈A{A A A}一AA我{z,z,z}其中z··一我我我一一←−·A·A我我我我我 我 我我NexpH(g(xs,θs)·g(xt,θt))/τ8:A在南卡{|∈ Z}θ(1),. -是的-是的 θ(k),. -是的-是的θ(K)θ(2)我涵盖了很多场景他们有效的监督训练方法对我们的启发最大。在[29]中,它首先表明网络架构在自监督任务(如旋转预测)上的性能与监督任务的性能线性相关,这启发了我们方法中搜索机制的设计。3. 方法3.1. 预赛作为S。教师分支的权重采用模型的EMA版本-K,即θtλ θ(K)+(1λ)θ(K)。在每次训练迭代中,我们从Φ中随机采样两个网络架构(m),(n)以及最大的一个(K),以形成架构集合(m)、(n)、(K)。为了在基于暹罗的SSL中实现传统的培训制度,我们将x t馈送给教师-分支 并生成 嵌入式 教师特征z t= g(xt,θt,At),我们将xs馈送到学生支部 获取学生功能Zs=我们制定的过程中,共同暹罗基于SSLs(m)s(n)s(K)s(m)我我我我=g(xs,θs(m),A(m)).作为一个动态知识蒸馏的过程[17,49],与[8]相同的概念。为了方便起见,本文将查询分支称为学生分支,将关键分支称为教师分支。 给定N未标记用点积度量相似性,我们应用In-对于(zt,zs)zss上的丢失,反向传播gra-1并更新所有涉及的参数。整个训练过程在算法1样本x1,x2,...,x N,得到两个视图(x s和x t我我通过组合不同的增广T对每个样本进行训练,并将其馈送到分别由θs和θt参数化的学生网络g(,θs)和教师网络g(,θt)中在大多数情况下,教师共享学生的指数移动平均(EMA)权重,即θt<$λθs+(1 −λ)θs。算法1自监督超网训练要求:定义具有最大架构(K)的超网Φ。选择具体的对比学习方法确定标准。初始化神经网络g(·,θs,A(K))和g(·,θt,A(K))我们用zs=g(xs,θs)和zt=g(xt,θt)表示1:对于i =1,...,不iters. 做学生和教师模型的编码特征,活泼地H(zs,zt)用于表示相似性函数。2:获取最小批量数据xi。3:获取x的两个视图。 xs,xt我 我我以MoCo [20]为例,InfoNCE损失[33](等式10)。1)培训模式采用:exp(H(g(xs,θs)·g(xt,θt)/τ)我我4:optimizer.zero grad().5:损失初始化为0。6: z t=g(x t,θ t,A(K)).7:从Φ采样两个模型架构A(m)、A(n)Li= − log Ω。J我J(一)构造集合A ={A(m),A(n),A(K)}。其中τ是温度超参数[41]。9:loss+=criterion(zt,g(xs,θs(k),(k)。10:结束3.2. 自监督超网训练没有一个单一的模型可以完美地匹配异构下游应用程序的需求,因为可能存在不同的延迟约束、数据域和任务间隙。因此,我们的目标是一起训练大量模型,而不是在SSL机制中训练单个模型,我们希望它们覆盖广泛的模型规模。本文将网络的定义从g(x,θ)推广到g(x,θ,),并提出了一种新的维数意义模型结构。具体地说,一个超网Φ,它包含各种架构A(k)的许多权重共享[46]g(k),公式为:11:loss.backward().12:optimizer.step().13:θ tλθ s+(1 λ)θ s。14:结束超网模型空间。我们选择流行的ResNet [22]作为我们工作的基本架构。采用深度1和宽度2与[22]共享相同的概念,每个阶段的输出特征图表示为(C1,C2,C3,C4,C5)以供将来使用。如表1所示,级深从(2,2,5,2)开始到(4,6,29,4),步长为(1,2,2,1),茎和各级的宽度从(32,48,96,.A =.. A(1),. - 是的-是的A(k),. - 是的- 是的A(K)192,384)至(64,80,160,320,640),具有步骤(16,16,32,64,128)。其中,K是总的k。特别地,我们将超网Φ中最大的模型标记为g(,θ(K),(K)),因为它完全包含了所有子图g(,θ(k),(k))的权重,在训练过程中,我们将教师分支的结构固定为模型-K,即At=A(K),并改变学生分支的结构Σ(k)θ=98443.3. 自监督模型选择这一部分揭示了我们在SSL体制下采用超网的核心动机。超越价值1每个阶段中的瓶颈块数量2每级中3×3卷积的通道数9845|D|我K我我 我我1x13x31x1第四阶段阶段3stage2FCC51x13x31x1C41x13x31x1C31x13x31x1C21x1x d4X D3X D2动态体系结构标准分割分类固定架构1x13x3stage13x31x1x d1(子网搜索1x1干C17x7(·)(·)超网训练图2.我们的方法的管道。它包含两个阶段。在第一阶段,我们固定了关键分支的结构作为稳定的老师,并改变了查询分支的结构用于超网训练。在第二阶段,我们提出了一个领域感知和任务感知的子网搜索的自监督度量,基于从目标数据集提取的任务特定的特征之间的相似性的关键分支模型。d{ 1,2,3,4}:此阶段的瓶颈我们用H'表示相似性函数,并选择征服模型以最大化整个下游数据集的相似性maxH′(zt,zs(k))(3)表1.超网模型空间。各级宽度和深度按一定步长范围内采样。同时训练大量模型,为自监督NAS提供了一个可行的度量标准,并为搜索提供了丰富的架构候选众所周知,越大越好主要适用于深度神经网络,最大模型和最大模型之间的距离领域感知这种机制使我们能够在自监督学习期间对下游数据应用NAS,这缩小了域间隙。具体来说,给定一个在计算预算C的约束下,我们将下游数据D送入教师分支,得到了对xi∈D.然后我们随机抽取一组样本,b_udget和收集特征表示的约束z_s(k)=g(xi,θs(k),A(k))。整个过程不涉及任何完全监督的指标,如准确性或精度。任务感知指标。不同的视觉任务之间的差距总是无法弥补的。为了使我们预先训练的超网络能够服务于各种下游视觉任务,必须在任务感知的标准下进行架构搜索。单一的自监督度量下选择的模型不适合不同的任务。例如,图像分类任务的分类器主要处理关注图像全局信息的平均池化特征,而在配备FPN [27]的对象检测中,检测器使用骨干的多级特征进行推理。这些特定于任务的特性类型对于特定的下游任务最为重要。因此,我们通过测量直接用于下游任务头部的特征的距离来搜索不同的模型。我们称之为任务感知度量。我们的方法的流水线如图2所示。对于图像分类任务,我们直接利用z的特征.对于目标检测,我们采用了C5图层名称uv范围W步D范围D步骤干[32、64]16--阶段1[48、80]16[二、四]1阶段2[96、160]32[二、六]2阶段3[192,320]64[5、29]29846∈∈--ΣΣ∼∼KK用于Faster-RCNN-C4和C2-C5的功能用于Faster-RCNN-FPN。对于语义分割,我们采用C4-C5的特征。任务感知度量的影响详见表9。相对关系的相似性。在任务感知搜索过程中,教师的特征图大小可能与教师的特征图大小不一致。 因此,我们转向利用特征的相对关系来评估两个特征图的相似性。我们使用MRC′×HW和M′RC×HW分别表示来自学生和教师的特征,其中H,W表示高度和宽度,C和C′表示通道数,m1,m2,...,m HW表示矩阵M的每一列中的特征。 我们定义r ij来表示向量m j和m i的向量相对关系,如等式(1)所示。4,并且特征图上的相对关系R的相似性可以用公式表示五、我们将其与任务感知度量相结合,并在等式中进行模型选择3 .第三章。在不同的组中的数百个节点,并根据任务感知度量在目标数据集中搜索网络,以找到每组中的最佳网络当在各种下游任务上验证我们的方法时,我们将显示每组的实验结果。4.2.的顺序相关首先,我们验证了预训练的机器人和最大网络之间的任务特定特征的相似性可以作为评估这些机器人性能的可靠指标我们对50个样本进行了均匀采样,并对上述ImageNet-1%(IN-1%)半监督分类,VOC对象检测,COCO实例分割和Cityscapes语义分割进行了实验。我们计算了相似性排名和最终性能排名之间的Spearman [37结果示于表2中。对于语义分割的低等级相关性,我们推断原因是Cityscapes [12]数据集的数据分布存在很大差异r=− logexp(mi·mj/τ)(四)来自自监督的ImageNet [13]数据集ijHW(m·m /τ)训练阶段HW HWR(M,M′)=−ri′j logrij(五)架构数据集特征关联[13]第一届中国国际纺织品展览会I j4. 实验4.1.实验设置数据集。我们使用流行的MoCo v2 [11]实例化我们的方法,并在ImageNet [13]上进行训练,ImageNet拥有1000个类别的128万张图像。为了验证我们在下游任务中搜索的模型的可移植性,我们对ImageNet [13]半监督分类,COCO [28]实例分割,PASCAL VOC [16]对象检测和Cityscapes [12]语义分割进行了实验。在消融研究中,为了验证我们方法的通用性,我们将我们的方法与其他自监督学习方法结合起来[19,38,49],并在ImageNet-10%上进行训练。培训详情。当在Imagenet上训练超网时,我们使用SGD作为优化器。SGD重量衰减为0.000075。我们在16个GPU上使用1024的批量大小和0.12的初始学习率训练了200个epoch。对于在ImageNet-10%上训练的超网,我们都遵循他们的官方默认设置。搜索细节。为了验证我们的方法可以有效地处理各种情况下,我们计算了所有的FLOP为我们根据224x224输入分辨率从1 GFLOPs到 8 GFLOPs,每隔1 GFLOPs分为7组。我们随机抽取一个[36]第三十六话VOC [16] C5 0.84[28]第二十一话:我的世界0.86[12]第十二届全国政协委员C4-C50.63表2.排名相关性。架构:当转移到下游任务时采用的特定的出租架构。功能:用于模型选择的功能。IN-1%:ImageNet-1%。4.3. 各种下游任务的结果ImageNet上的线性评估。我们在BN静态校准后对我们搜索的所有网络的冻结特征训练监督线性分类器(具有softmax的全连接层),遵循[43]中描述的程序我们在ImageNet验证集上报告了1-crop,top-1分类准确度结果如图3所示,我们搜索的网络架构在附录中描述。我们注意到。我们在3G-4G组中搜索的模型的线性评估的前1精度为68。5%,优于ResNet50(3.8G,67.5%)的1%。我们发现相对较小的模型从训练策略中受益最多但搜索到的架构在7G 8G组中的表现略差于R101。我们推断,当一个模型架构优于最大的一个,其输出功能也远离最大的老师。ImageNet上的半监督分类。接下来,在[10]中,我们评估架构的性能我9847††∼模型FLOPs Params深度宽度APB APB50 APB75 APm APm50 APm75R50*[11]R50†[40]3.8G3.8G25.5M25.5M[三、四、六、三][三、四、六、三][64,64,128,256,512][64,64,128,256,512]38.738.659.259.542.342.135.535.256.256.337.937.5组FLOPs Params深度宽度APB APB50 APB75 APm APm50 APm751G至2G1.8G2.7G3.7G4.2G5.9G6.6G13.6M14.7M25.7M33.1M43.4M40.2M[二、二、五、二][二、二、十三、二][3、2、17、3][二、二、二十五、二][4、6、21、4][3、6、27、3][32,48,96,192,512][48,48,96,192,384][32,48,96,192,512][64,64,128,192,384][32,64,96,192,640][64,80,96,192,640]36.238.339.940.441.241.556.658.460.260.961.962.139.541.843.544.345.245.133.434.836.036.537.237.353.955.257.158.058.558.935.437.438.639.339.940.12G/3G3G网络4G网络4G到5G5G/6G6G/7G表3. COCO上的目标检测和实例分割结果。* :通过MoCo v2预训练的模型的结果。:在ImageNet上预训练的模型结果,在train2017上按照1x时间表进行微调,并在val2017上进行评估。模型参数Top-1 Top-570.067.565.062.560.057.555.052.5我们标准R{18,34}标准R{50,101}1 2 3 4 5 6 78触发次数(G)2G/3G3G网络4G 33.5M47.5 63.4 75.1 85.74G网络5G 37.0M 47.8 64.3 75.3 86.45G网络6G 43.4M 49.0 65.1 76.2 86.76G/7G 45.4M 49.3 65.4 76.3 87.07G/8G 45.2M 49.5 65.6 76.5 86.9表4. ImageNet1%和10%部分的半监督分类结果。* :通过MoCo v2预训练的模型的结果。:在ImageNet上预训练的模型的结果。 所有 的模型在相应的子集上进行微调,图3. ImageNet上的线性评估。所有分类器都在ImageNet训练集上训练,具有100个epoch,并在ImageNet验证集上进行评估我们将其与标准的ResNet架构进行了比较,这些架构都是在ImageNet上使用MoCo v2进行了200次训练。我们在ImageNet训练集的1%和10%子集上进行微调后 , 在 ImageNetval 为 了 便 于 描 述 , 我 们 使 用ImageNet-1%和ImageNet-10%来表示这两个子集。培训程序详见补充材料。表4中报告了Top-1对valset的结果。得到+7。在ImageNet上微调时提升6%-1%,增益+1。ImageNet上的7%-10%。对于ImageNet-1%半监督设置,即使是从1G 2G组中选择的模型也比ResNet50基线好很多。COCO实例分割。对于COCO实例分割,我们遵循常见设置[20],对COCOtrain2017split(118 k图像)上的Mask R-CNN检测器(FPN)进行微调,以用于我们搜索的所有架构,COCOval2017标准1×时间表和评估前1位访问(%)百分之一百分之十百分之一百分之十R50*[11]25.5M39.861.868.385.1组Params百分之一百分之十百分之一百分之十9848epoch并在ImageNet验证集上进行评估分裂结果示于表3中。我们的搜索在4 GFLOPs下的预训练架构比标准ResNet50好1。2个AP在检测中,而promotion为0. 6AP用于分段。PASCAL VOC上的目标检测。当转移到VOC [16]对象检测时,遵循[11]:采用更快的R-CNN检测器[36](C4主干)。它在VOCtrainval 07+12集上进行了24K迭代训练,并在VOCtest 2007集上进行了评估。结果列于表5中。 通过我们的框架, FLOP和Params与标准ResNet50相似的模型,比R50基线高出1.2 AP。城市景观语义分割。Cityscapes [12]是一个广泛使用的语义分割基准遵循[38],我们在FCN [32]形式中对训练集(2975张图像)进行了微调,用于批量大小为16的40k次迭代,并在val集(500张图像)上进行了测试。结果见表6。虽然我们的排名策略的解释是公平的,如表2所示,9849††∼特征表示是无用的。CIFAR109897102-花9290CIFAR10085848382DTD70686694929052.550.047.5宠物DMLAB表5. PASCAL VOC上的目标检测结果。* :由MoCo v2预训练的模型。:在Ima-geNet上预训练的模型的结果。卡姆里昂848297.597.096.596.095.5欧洲卫星公司斯莫尔诺布989796模型深度宽度MiouR50†R50*[11][三、四、六、三][三、四、六、三][64,64,128,256,512][64,64,128,256,512]75.576.4组深度宽度Miou1G至2G[二、二、五、二][三、二、九、二][二、二、十七、三][二、六、十九、三][二、四、二十五、三][4、6、23、4][4、6、21、4][48,48,96,192,512][48,48,96,192,512][32,48,96,192,384][32,48,96,192,640][64,64,128,192,640][32,64,128,192,640][32,64,160,192,640]72.775.277.477.078.177.6七十八点二2G/3G3G网络4G网络4G到5G5G/6G6G/7G7G/8G表6. Cityscapes上的语义分割结果。:在ImageNet上预训练的模型。* :通过MoCo v2预训练的模型。我们仍然可以发现网络在我们的有效训练下比基线高出1mIoU。转移到其他分类任务。此外,我们在VTAB [47]中对更多样化的分类数据集评估了我们的框架(详见补充材料)。我们只在3G 4G FLOPs组中找到了与标准ResNet50最相似的预训练架构。我们对这些数据集进行微调,并在图4中报告结果。培训细节在补充材料中有详细说明.与我们的MoCo v2 [20]基线相比,我们可以在这些数据集上获得一致的改进。虽然MoCo v2在分类方面与监督预训练相比处于劣势,但由于我们的训练策略和模型定制的优势,它可以在某些数据集上超过监督预训练的性能。结果表明,在eurasat [23]数据集上的性能引起了我们的注意。该数据集是一个土地覆盖分类数据集,我们发现它的数据分布与Ima-geNet [13]完全不同。因此,当传输到该数据集时,这些模型FLOPsParamsAPAP50 AP75R50†[11]R50*[11]3.8G3.8G25.5M25.5M53.557.281.382.458.863.7组FLOPsParamsAPBAPB50APB751G至2G1.8G2.8G3.7G4.2G5.9G6.9G7.3G12.2M25.0M25.6M33.1M43.4M47.4M45.3M50.958.058.559.160.560.460.479.882.783.083.283.983.583.655.264.565.065.367.167.067.32G/3G3G网络4G网络4G到5G5G/6G6G/7G7G/8G9850图4.可移植到图像分类任务中的其他数据域。IN:在ImageNet上预训练的模型。MoCo:通过MoCo v2预训练的模型。5. 消融研究结合对比学习法。我们提出的管道是正交的大多数对比学习方法。选择MoCo v2作为基线的原因在于它在各种下游任务上的综合性能。为了证明DATA的可推广性,我们使用三种经典的对比自监督学习方法BYOL [19],ReSSL [49]和DenseCL [38]进行了实例化。由于训练自监督模型的计算成本巨大,我们只在ImageNet-10%上进行了这些方法的实验。由于[19,49]最初是为分类任务设计的,[38]主要是如表7所示,可以观察到一致的改善。方法任务性能BYOL(复制)CLS23.7我们的+BYOLCLS24.8ReSSL(复制)CLS23.7我们的+ReSSLCLS26.7DenseCL(复制品)Det49.1我们的+DenseCLDet50.2表7. DATA与其他对比学习方法相结合的消融研究。Cls:ImageNet-1%数据集上的半监督分类结果。采用前1精度作为度量标准。Det:PASCAL VOC上的对象检测结果采用AP作为度量。与教师架构的消融。在这项消融研究中,我们探讨了选择对教师建筑师的影响,9851∼我我是的。我们没有将教师分支的架构固定为最大的网络,而是与使用与学生分支中的采样子网相同的架构的设置进行比较,COCO的检测而在分割任务中,没有领域意识的搜索严重降低了相关性(0。63→ 0。23)和mIoU(77.4→ 76。2)。即y,zt(k)=g(xt,θt(k),A(k)). 我们根据实验在MoCo v2和ImageNet上训练超网-10%。然后,我们从超网中提取标准ResNet50,并在线性分类设置后的值集上对其进行评估。如表8所示,我们看到,修复教师部门的架构至关重要,排名前1的准确率达到42。4%线性评价方案下,3. 比未固定的设置高4%。这传达了一个信息,即一个稳定的老师对于自我监督的超网训练很重要。我们还观察到,该结果优于vanillaMoCo v2 0。9%,这意味着超网蒸馏比自蒸馏更有帮助。固定式教师拱Top-1 Top-541. honeymoon 5%66. 占6%我们的39。0% 64. 百分之二我们的142. 第 六十七章. 百分之二表8.特征对准时的消融此表报告顶部-{1,5} ImageNet上200 epoch线性评估的准确性百分之十具有任务感知指标的消融。在这里,我们探讨了任务感知度量模型选择的有效性。对于每个下游任务,我们分别根据基于z、C5和C2-C5的标准选择模型。如表9所示,任务感知指标的收益率为0。4%,0. 7%和0。当任务和指标匹配时,7%的表9.具有任务感知指标的消融。IN-1%:ImageNet-1%。Semi-cls:半监督分类,使用top-1准确度作为度量。Det:对象检测,使用AP@IoU作为度量。所有模型都与ResNet50共享类似的计算预算。领域感知消融。我们还探讨了领域意识的影响。具体来说,我们将上面搜索的模型与通过不同数据集搜索的模型进行比较。结果报告于表9中。请注意,这些型号都属于3G 4G组。我们发现,ImageNet搜索似乎是一个可以接受的指标对象的性能任务目标源Correlation Performance DetCOCO ImageNet 0.8239.7DetCoco可可0.86 39.9SegCityscapes ImageNet0.2376.2Seg城市景观0.6377.4表10.基于领域感知的架构搜索Det:物体检测。Seg:语义分割。Target:下游任务的目标数据集,其中模型被微调。来源:用于模型选择的源数据集。6. 限制这项工作的主要局限性在于各部门之间的培训具体地说,我们发现超网中较小的三分之二的节点训练得很好,而其余较大的节点则没有。我们推断,学习者可以从知识蒸馏中受益更多,并且无论在训练过程中对哪个子网进行采样,他们的大部分权重总是被覆盖对于我们的假设,它确实不能处理这种情况下,候选人网络接近最大的教师网络。因为当一个模型体系结构超过最大的模型体系结构时,其输出特征也与最大教师的对应特征相差甚远。7. 结论我们已经探索了将NAS与自监督学习相结合,并取得了积极的成果。首先,我们设法在自监督学习的机制下,在超网模拟器中训练大量的权重共享算法更重要的是,这种超网训练机制使得无标签NAS成为可能,因为网络和最大网络之间的特征距离可以完美地作为模型选择的自我监督度量。我们的工作与大多数现有的自监督学习方法是正交的,并赋予它们根据各种下游需求进行定制的能力我们希望我们的方法可以真正有用的在现实世界中的应用程序和我们的冒险NAS在SSL可以激发更多的天才头脑。8. 确认我们感谢Jiawei He,Shuwei Sun,Yuqi Wang,LinZhang和匿名评论者的有益讨论,改进了本文。本研究得到了国家自然科学基金项目新一代人工智能重大专项(No.2018AAA0100400)、国家自然科学基金项目(No.2018AAA0100400)、国家自然科学基金项目(No.2018AAA0100400)、国家自然科学基金项目(No.2018AAA0100400)的部分支持。61836014号U21B2042号62072457号62006231)。.数据集任务架构特征性能[13]第十三话半clsResNet-FCzC5C2-C547.547.347.1VOC [16]DetFasterRCNN-C4zC5C2-C557.858.558.1COCO [28]DetMaskRCNN-FPNzC5C2-C539.239.339.99852引用[1] 秋本佑平、白川真一、吉成野三、内田健人、斋藤正太、西田幸平。自适应随机自然梯度法用于单次神经结构搜索。在ICML,2019。2[2] Amir Bar , Xin Wang , Vadim Kantorov , Colorado JReed , Roei Herzig , Gal Raghik , Anna Rohrbach ,Trevor Darrell和Amir Globerson。Detreg:使用区域先验进行对象检测的无监督预训练。arXiv:2106.04550,2021。2[3] Andrew Brock、Theodore Lim、James M Ritchie和NickWeston。通过超网络的一次性模型架构搜索在ICLR,2018年。2[4] Xingyuan Bu,Junran Peng,Junjie Yan,Tieniu Tan,and Zhaoxiang Zhang.Gaia:一个适合您需求的物体检测迁移学习系统在CVPR,2021年。2[5] Han Cai,Chuang Gan,Tianzhe Wang,Zhekai Zhang,and Song Han.一次性:训练一个网络并使其专业化以实现高效部署。在ICLR,2020年。2[6] 韩才、朱立庚、宋涵。Proxylessnas:在目标任务和硬件上直接搜索神经架构。2019年,在ICLR。2[7] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。在NeurIPS,2020年。2[8] Mathil deCaron , HugoTouvron , IshanMisra , Herve'Je'gou , Julien Mairal , Piotr Bojanowski , and ArmandJoulin.自我监督视觉转换器中的新兴特性。ICCV,2021。二、三[9] Minghao Chen,Houwen Peng,Jianlong Fu,and HaibinLing. Autoformer:搜索变压器的视觉识别。ICCV,2021。2[10] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML,2020。二、五[11] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv:2003.04297,2020。二五六七[12] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR中。五、六[13] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。五七八[14] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:用于语言理解的深度双向变换器的预训练。在NAACL,2019年。2[15] 董轩逸和杨毅。在4个GPU小时内搜索一个强大的神经结构。在CVPR,2019年。2[16] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉对象类(voc)的挑战。IJCV,2010年。五六八9853[17] Zhiyuan Fang , Jianfeng Wang , Lijuan Wang , LeiZhang,Yezhou Yang,and Zicheng Liu.种子:用于视觉表示的自监督蒸馏。ICLR,2021年。3[18] 卢西亚诺·弗洛里迪和马西莫·奇里亚蒂GPT-3:其性质、范围、限制和后果。Minds and Machines,30(4):681-694,2020。2[19] Jean-BastienGrill , FlorianStrub , FlorentAltche' ,CorentinTallec , PierreHRich
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功