没有合适的资源?快使用搜索试试~ 我知道了~
RePre: 基于自监督视觉变换器的重构性预训练方法
+v:mala2277获取更多论文RePre:通过重构性预训练王璐雅1,梁峰2,李阳光3,张洪刚1,欧阳万里4,邵静31北京邮电大学2德克萨斯大学奥斯汀分校3商汤4悉尼大学网址:wangluya@bupt.edu.cn,jeffliang@utexas.edu,网址:www.example.com,liyangguang@sensetime.com摘要近年来,自监督视觉变换器以其令人印象深刻的表征学习能力引起了前所未有的关注。然而,占主导地位的方法,对比学习,主要依赖于一个实例判别借口任务,学习的图像的整体理解。本文通过重构预训练(RePre)将局部特征学习纳入自监督视觉变换器我们的RePre扩展对比框架,通过添加一个分支,用于与现有的对比目标并行地重建原始图像像素。RePre是配备了一个轻量级的卷积为基础的解码器,融合了多层次的特点,从Transformer编码器。多层次的语义特征提供了从低到高语义信息的丰富监督,这对我们的RePre至关重要。我们的RePre对具有不同视觉Transformer架构的各种对比框架进行了适当的改进。下游任务中的迁移性能优于监督预训练和最先进的(SOTA)自我监督同行。1介绍自我监督预训练是一种在没有昂贵的注释数据的情况下学习一般表示的方法,极大地促进了自然语言处理( NLP ) [Radford 和 Narasimhan , 2018;Devlinet al. ,2018;Radfordet al. ,2019]以及计算机视觉(CV)中的类似趋势[Chenetal. ,2020b;Grillet al. ,2020;Li等人,2021]。 NLP中自我监督预训练成功的主要因素之一是使用可扩展的Transformer [Vaswanietal. ,2017],一种基于自我注意力的架构。在CV中,Vision Transformer(ViT)[Dosovitskiyet al. [2020年]自创建以来,已成为卷积神经网络(CNN)的替代方案。尽管其性能卓越,但预训练vanilla ViT需要大量的标记数据(例如,JFT-300M [Sunet al. ,2017]在[Dosovitskiyet al. 2020年)和广泛的计算资源。为了避免昂贵的-图1:我们的RePre通过添加用于重建原始图像像素的分支(顶部)来扩展对比框架(底部灰色部分)。对比框架(MoCo v3[Chen et al. ,2021]在该图中)对嵌入空间中的两个视图之间的图像相似性和相异性进行建模。我们的重建解码器使用来自Transformer编码器的多层次特征来恢复原始图像像素本文研究了预训练自监督视觉变换器。NLP和CV中的自我监督预训练范式之间存在重大差异:语言转换器使用掩蔽/自回归语言模型进行预训练[Devlinet al. ,2018年;Radford和Narasimhan,2018年],而对于视觉转换器,主要方法是基于实例辨别借口任务的对比学习[Chenet al. ,2021;Caronet al. ,2021;Xieetal. ,2021b]。具体地说,对比学习最大限度地提高了从同一图像的不同视图中获得的表示的相似性,从而导致全局视觉理解(见图1的底部)。然而,唯一的全局特征对于图像分类之外的下游任务是不够的,例如对象检测和分割[Wanget al. ,2021;Xieet al. ,2021a]。一个好的视觉表示应该包含全局特征和细粒度的局部特征,出于这种直觉,我们试图回答:我们能实现两个世界的最佳状态吗?为了实现整体视觉表示,本文在对比自监督视觉变换器中引入细粒度局部特征学习。受广泛的多层次特征重构损失重构解码器Transformer编码器投影仪预测器对比EMA相似性损失Transformer编码器投影仪arXiv:2201.06857v2 [cs.CV] 2022年1月+v:mala2277获取更多论文∼在 CV 中 使 用 重 建 预 训 练 [Baoet al. , 2021] , NLP[Devlinet al. ,2018]和演讲[Hsuet al. ,2021],我们选择了一个简单而有效的借口任务:从原始像素重新构建预训练。直观地,像素重建可以让网络捕获低语义以学习细粒度的局部特征[Ahn和Kwak,2018]。我们的RePre通过添加一个分支来扩展对比框架,该分支用于与现有的对比目标并行地重建原始图像像素(见图1)。我们将一幅图像分割成若干块,然后通过一个解码器对这些块进行重建.值得一提的是,我们的纯RePre不需要掩蔽策略[Hsuet al. ,2021;Devlin等人,2018]也不是BEIT中的标记器[Baoet al. ,2021]。我们最初的试验是将最后一个Transformer编码器层的输出然而,事实证明,这种简单的组合只能带来边际改进。我们认为,这种无效性在于最后一层的高语义特征和低语义像素目标之间的差异。深度神经网络通过堆叠层学习分层语义特征[Krizhevskyet al. ,2012;Heet al. ,2016;Dosovitskiyetal. ,2020;Liuet al. ,2021]。随着处理层次的上升,早期层捕获简单的低级视觉信息(浅特征),晚期层可以有效地关注复杂的高级视觉语义(深特征)。在此基础上,我们提出在Transformer编码器中使用我们在Transformer编码器中收集从低到高的语义特征,并将它们作为一个整体来指导重建。重建解码器是我们RePre的另一个重要部分。受U-Net形状的启发[Ronnebergeret al. ,2015],我们的解码器逐渐整合来自多个层次和回归的深到浅特征,以直接用简单的L1损失预测原始RGB像素(参见图2)。为了结合多层次特征,重构解码器由多个融合层组成。有趣的是,我们发现融合层可以非常轻,例如,一个或两个卷积层。由于我们的目标是在保持高级语义特征完整的同时引入自适应局部特征,因此繁重的重构解码器将过多地关注低语义信息,从而损害表示学习。轻量级解码器的另一个有利特性是它的训练过载很小。我们的RePre在各种对比框架中只带来了可忽略不计的平均4%的工作负载。重构解码器仅在预训练期间使用,并且在下游微调阶段中丢弃我们的RePre是通用的,可以插入到任意的对比学习框架中,用于各种视觉翻译器架构。大量的实验证明了该方法的有效性和可移植性。我们在最新的对比学习框架 ( 例 如 , DINO 、 MOCO V3 、 MoBY 、 BYOL 和Simplified)。在ImageNet-1 K上进行标准线性评估后,使用RePre,这些方法将top-1准确率提高了0.5 1.1%。值得注意的是,它还为COCO和城市景观数据集上的密集预测任务的基础方法带来了显着的性能,甚至优于监督方法。总的来说,我们的贡献有三个方面:1. 我们通过添加重建分支将细粒度局部特征学习纳入对比自监督视觉变换器中。我们采用了一个简单而有 效 的 目 标 : 从 原 始 RGB 像 素 重 建 预 训 练(RePre)。2. RePre利用多层次融合来提供来自中间特征的丰富的超视图。我们还发现快速轻量级卷积重构解码器可以带来有利的结果。3. 我 们 的 RePre 是 通 用 的 , 易 于 插 入 。 通 过 视 觉Transformer及其变体,在各种对比框架上观察到了适当的在密集预测传输任务上,RePre也带来了显着的改进,甚至优于监督方法。2相关工作2.1自监督视觉Transformer自监督对比学习在计算机视觉中已得到广泛应用在ViT出现之前,先前的工作主要集中在ResNet [Heet al. ,2016] , 例 如 MoCo [Chenetal. , 2020c] , Simplified[Chenet al. , 2020b] 、 BYOL [Grilletal. , 2020] ,SimSiam [Chen和He,2021]。最近,研究人员将对比学习与ViT结合起来。MoCo v3 [Chenet al. ,2021]提出了一个实证研究,通过培训ViT与MoCo框架。 DINO[Caronet al. ,2021]示出了具有监督ViT的自监督ViT组合的两个新性质。 MoBY [Xieet al. ,2021 b]用ViT变体Swin Trans- former扩展了对比框架[Liuet al. ,2021]。所有这些方法都具有相同的精神:对两个或多个视图之间的图像相似性和相异性(或仅相似性)进行建模,从而实现全局图像理解。它们缺乏对局部和低语义特征的关注,而这些特征对于图像分类之后的下游任务(如对象检测和分割)至关重要我们的RePre通过增强细粒度局部特征学习来补充这些对比方法。2.2重建性预训练重构(或生成)目标对于NLP中的预训练非常成功,例如,BERT中的掩蔽/自回归语言建模[Devlinet al. ,2018]和GPT [Rad-ford和Narasimhan,2018]。这些方法保留一部分输入标记并训练模型来预测丢失的内容。在CV领域,开创性的iGPT [Chenetal. ,2020 a]通过直接预测像素值来学习巨大的自监督Transformer,从而产生与监督对应物竞争的结果。最近,BEiT [Baoetal. ,2021]使用现成的离散VAE(dVAE)令牌化器将图像补丁量化为离散令牌[Rameshetal. ,2021],然后提出预测掩码令牌。Following BEiT,iBoT [Zhouet al. ,2021]介绍了一种在线标记器。并发MAE [Heet al. ,2021]和Sim-MIM[Xieet al. ,2021 c]提出通过掩模图像建模来重建原始像素。因此,我们的RePre结合了重建像素目标以及对比学习框架。它预先训练一般的视觉转换器,+v:mala2277获取更多论文Σ××L类标记:用于对比图像标记:用于重建多层次特征浓缩物熔接层特征流图2:我们的重建分支的细节。我们从Transformer编码器中通过采样从浅到深的Transformer块来获得从低到高的语义(多层次)特征。 我们的解码器逐渐集成深到浅的功能和回归预测原始RGB像素与一个简单的L1损失。在重建解码器中,序列图像令牌被整形为2D形状以用于卷积运算解码器中的融合块很简单:级联后是融合层。值得一提的是,对于具有比例下采样的Transformer变体,例如Swin Transformer,我们需要在级联之前对高级特征进行上采样(详细信息请参见第3.3)。各种下游任务。此外,我们整洁的RePre重建所有图像像素,因此它不需要掩蔽策略或标记器。3方法在本节中,我们首先讨论对比学习框架-对,并且来自不同样本的图像被认为是负对。目标分支输出一个正样本和一组负样本的表示,并且损失扩展器将正样本对拉在一起,同时将负样本对分开。损失函数可以被认为是K+1路softmax:exp(q·k+/τ)工程. 然后,我们在RePre中介绍两个关键组件多层次的功能和一个轻量级的卷积去L对比度w neg=−logKi=0时(一)exp(q·ki/τ)编码器(图2)。最后,我们介绍了整体损失函数的RePre。3.1重新审视对比学习框架对比学习的主要焦点是学习对同一图像的不同增强视图不变的图像嵌入,同时在不同图像之间是有区别的。这通常是通过使用暹罗网络的变体最大化从样本的不同失真版本获得的表示如图1的下半部分所示:连体网络由两个分支组成:在线分支和目标分支,其中目标分支保持指数移动。其中k+是同一图像的另一视图的目标特征;ki是负样本的目标特征;τ是温度项;K是队列或批次的大小。没有阴性样本的方法仅依赖于阳性样本。他们引入了非对称结构来防止崩溃。特别地,它将多层感知作为预测器附加到在线分支的编码器,并且它停止通过目标分支的梯度。在这种情况下,损失显式地将正样本对拉在一起,并且目标函数是两个增强视图之间的负余弦相似性。给定在线预测器p1的输出和目标分支z2的输出,目标函数为:在线分支的平均值(EMA)[Chenet al. ,2021;Xieetal. ,2021b;Caronet al. 2021年]或与p1L对比度w/o neg= −10p,(二)在线分支[Chenet al. ,2020 b;Chen和He,2021]1ǁ2ǁ22(not如图1所示)。特别地,每个分支将增强视图编码为嵌入空间中的单个特征向量,从而产生全局特征的级别。为了更好地证明我们的RePre在任意对比学习框架中的可扩展性和有效性,我们将当前的对比框架大致分为两种类型:其中<,·,·>表示内积算子。3.2多层次特征重构根据ViT的实践,我们对HW3形状的图像进行了分割,分割后的图像块大小为P.通过分片嵌入和线性投影,得到z0∈R(N+1)×C,序列有限元分析使用阴性样品的方法,例如,MoCo v3、Simplified和图像的真实性,其中N=H<$W。附加没有阴性样品的方法,例如,再见,西姆西姆。使用阴性样本的方法将阳性样本与阴性样本进行对比,以防止琐碎的解决方案,即,所有P P1 表示类令牌,C是通道数。顺序功能将覆盖所有LTransformer块在编码器中 我们表示每个输出令牌输出会收缩为常数。具体地,增广块为{z1,z2,.,zL}。 在对比学习中,从相同样本创建的视图被认为是正的全局图像表示。为了简单起见,我们表示输入重塑101损失输入………重构解码器对比学习重建结果Transformer编码器EPatchng姆贝迪Transformer模块Transformer模块Transformer模块Transformer模块重塑1×1转换+v:mala2277获取更多论文∈2×∗∗L--×HW−×·K| ·|KPPz,不包括z0,作为y,代表面片的表示。对于SwinTransformer,由于没有类令牌,我们在补丁嵌入后得到y0RN×CSwin Transformer还具有面片合并图层,可将标记数量减少1,并将要素维度增加2 .最后一级的输出嵌入由全局平均池化层平均,然后发送到线性分类器进行分类,这与ViT使用的类令牌不同。我们的初始试验是将最后一个变换器块yL的输出馈送到重构解码器中。然而,事实证明,这种简单的组合只能带来边际改进(见第二节)。4.3)。我们认为,这种无效性在于最后一层的高语义特征和低语义像素对象之间的差异。受U-Net形状的启发,我们从浅到深的块中收集低到高的语义特征,并逐渐重建原始像素。给定一个具有L个transformer块的vanilla ViT,我们对K(K L)个分层fea进行采样,算法1类PyTorch风格的RePre伪代码1:# reconst dec:卷积重构解码器2:#在线enc,目标enc:基于变换器的编码器3:# online net = online enc + projector + predictor,对于对称方法,4:# target net = target enc +projector5:forx in loader:do6:v1,v2 = aug(x),aug(x)#增强7:#重建预训练#多层次的专长=在线编码器(v1)8:reconst v = reconst dec(多层次专长)# reconst v withshapeH W39:重建损失=1损失(reconst v,v1)第3.3节10:#对比预训练#q1,q2 = online net(v1),online net(v2)# queries:[N,C] each11:k1,k2 = target net(v1),target net(v2)#keys:[N,C] each12:contrast loss =ctr loss(q1,k2)+ctrloss(q2,k1)节中3.113:#结合目标#具有均匀间隔的tures,即, 我们的多层次功能损失=λ1对比度损失+λ2重建损失14:loss.backward()Y={y[L] −1,y[L] − 2−1,.,yL−1},其中[·k]是地板函数。 K = 4是本文中的标准做法。 对于L = 12ViT-S,我们采样Y = y2,y5,y8,y11作为多层次特征。对于Swin Transformer,它已经下降-采样算子,我们也可以得到多层次的特征。我们直接采样每个分辨率阶段的最后一个特征。3.3轻量级重构解码器利用多层次特征,我们的解码器逐渐将深到浅的特征进行整合,并回归以直接预测原始RGB像素,只需简单的L1损失(见图1)。2)的情况。令人惊讶的是,我们发现一个轻量级的卷积解码器工作得很好(见第二节)。4.3),例如,每个解码器块中有一个或两个融合层。融合层由以下组成:33卷积层和ReLU层。为了与卷积算子合作,序列特征15:更新(在线网络,重建12月)#通过EMA或梯度16:结束对深度特征进行双线性插值上采样操作以进行对齐。3.4RePre的总体损失我们的RePre使用对比损失和对比损失进行了优化,同时学习全局特征和细粒度局部特征。对比损失函数与我们使用的对比学习方法一致(详见第二节)。3.1)。重建损失函数计算像素空间中重建图像和原始图像之间的平均绝对误差(详见第2.1节)。3.3)。我们使用这两个损失函数的加权和作为我们的总体损失。为了避免昂贵的计算,N×C××Cy∈R被整形为2D特征x∈RP P。像权重通过网格搜索方法,我们将在U-Net中,通过拼接将浅特征合并到深特征中,得到形状为H×W×2C的特征。不确定性加权方法提出的[肯德尔等人。,2018]。特别地,每个任务由以下函数加权:为了融合多层次的特点,我们的reflecc-在每个K 1块中,融合解码器由融合层组成(细节见图2)。为了在输入图像的全分辨率下预测所有像素值,我们应用1 1卷积层以将解码器的最终输出中的每个特征向量映射回原始分辨率。我们让这个向量负责相应原始像素的预测然后,我们在原始图像和解码器输出之间应用一个简单的L1总之,重建目标是:L重建=|img − decoder(Y)|(三)其中是L1损失,img是归一化之前的增强视图,Y是多层次特征,decoder()返回重建图像。我 们 的 解 码 器 还 兼 容 分 层 视 觉 转 换 器 , 如 SwinTransformer。由于下采样,我们不能直接连接深低分辨率功能与浅高分辨率功能。因此,我们应它的同方差任意不确定性,而不是由一个固定的重量.总损失函数计算如下:L=λ1L对比度+λ 2L重建(4)其中λ1,λ2是可学习的参数。4实验我 们 的RePre是 通 用 的 , 可 以插 入 到 具 有 各 种 视 觉Transformer架构的任意对比学习框架中。我们首先研究了图像识别任务的线性评价。然后,我们将预训练的模型转移到下游的对象检测和语义分割任务中。最后,我们对RePre的关键组成部分进行了详细的消融研究。4.1线性评价ImageNet-1 K数据集上的线性评估是评估学习表示质量的标准评估协议+v:mala2277获取更多论文↑↑×ViT-S方法787876767474727270706868ViT-B方法Swin-T方法787674727068方法带RePre在Sup。 −−× 100 41.5 38.3MoBYC10042.1(0.6)39.2(0.8)300 × 43.6 39.6C30044.8(↑ 1.2)40.3(↑0.7)基本方法基本方法与RePre图3:RePre在使用不同的对比学习框架和网络架构时带来的性能改进表2:在MS COCO上微调的我们使用Mask R-CNN框架和Swin-T作为骨干。我们的RePre模型优于监督图像-基拱Epoch Acc% Acc w/RePre西门子300 69.069.7(↑ 0.7)geNet预训练和自我监督的DINO具有相当的利润率。方法拱mIoU mAcc(%)BYOL 300 71.472.2(↑ 0.8)MOCO v2 300 71.672.1(↑ 0.5)MOCO v2 800 72.773.4(↑ 0.7)MOCO v3 ViT-S 300 72.573.2(↑ 0.7)MOCO v3 600 73.473.9(↑ 0.5)MoBY 300 72.873.9(↑ 1.1)DINO 300 75.976.7(↑ 0.8)DINO 800 77.077.9(↑ 0.9)西门子300 73.974.4(↑ 0.5)BYOL 300 73.974.8(↑ 0.9)MOCO V3 ViT-B 300 76.577.2(↑ 0.7)MOCO V3 600 76.777.5(↑ 0.8)DINO 800 78.279.2(↑ 1.1)MOCO v3 300 75.476.4(↑ 1.0)MoBY Swin-T 100 70.971.8(↑ 0.9)MoBY 300 75.076.1(↑ 1.1)表1:ImageNet基准测试的更多线性评估结果。我们的RePre在不同的方法,架构和培训时代下带来一致的收益。这是我们的重新实现。选项。在预训练之后,我们在网络的顶部添加一个线性层。我们只训练这个线性层,同时修复预训练的网络。图3和表1列出了我们的RePre为基于不同主干架构的不同高级比较学习方法带来的明显性能改进。我们的预训练和微调配方基本上与对比学习方法相同。由于我们的重建解码器是轻量级的,我们的RePre只带来了可忽略不计的平均4%的工作量。所有的实验都在NVIDIAV100 GPU上进行。4.2转移到下游任务我们进一步评估了COCO下游任务的学习表征的转移性能 [Linet al. , 2014]对 象 检 测 / 实 例 分 割 和 城 市 景 观[Cordtset al. ,2016]语义分割。在监督71.33 80.30DINO ViT-S 72.96 81.32DINO w/RePre 73.40 81.95表3:在Cityscapes上微调的语义分割结果我们使用以ViT-S为主干的SETR框架所有的ViT-S模型都预先训练了300个epoch。目标检测和实例分割我们使用Mask R-CNN在COCO上进行对象检测/实例分割实验[Heet al. ,2017]框架。按照标准做法,我们使用AdamW优化器和1调度。输入图像的短边被调整为800,而长边最多为1333。为了与先进的研究成果相一致,我们使用Swin-T作为骨干。如表2所示,MoBY的性能在相同的预训练设置下,RePre的性能提高了1.2%和0.7%。同样,我们的RePre为DINO带来了0.9%和1.3%的有效性能提升。语义分割我们采用SETR [Zhenget al. ,2021]作为Cityscapes上的语义分割策略,并遵循原始SETR的训练配置。为了进行公平的比较,我们使用基于300 epoch的ViT-S预训练模型。如表3所示,具有RePre的DINO实现了最高的mIoU73.40%和mAcc 81.95%。它优于监督和DINO预训练的结果。实验证明,重构预训练提取的局部信息更精细,适合于语义分割任务的转换。4.3消融研究我们的RePre的两个关键组成部分是多层次功能和重建解码器。在这一部分中,我们对这两种成分进行了详细的消融研究。在没有说明的情况下,我们使用MOCO v3作为对比学习框架,预训练时期为300。多层次特征选项卡. 图4显示了多层次特征对我们默认卷积解码器的性能的影响。正如我们ImageNet Top-1准确率迪诺×10042.238.7C10043.1(↑0.9)40.0(↑1.3)+v:mala2277获取更多论文×方法Arch.单个多前1位接入(%)MOCO v3––72.5MOCO v3C 72.8MOCO v3 ViT-SC73.2MoBYMoBYC 73.1MOCO v3C 75.7MOCO v3 Swin-TC76.4MoBYMoBYC 75.4MoBYC76.1表4:多层次特征积极影响的消融研究。‘Single’ and ’Multi’denotes using the last layer output fea- tures or using the fusedmulti-hierarchy features输入单个多单特征多层次特征可以看到,使用“单一”功能(最后一层的输出)只能带来边际改进。我们认为,这种无效性在于最后一层的高语义特征和低语义像素目标之间的差异使用多层次功能(称为RePre还将MoBY基线top-1精度性能在DeiT-S或Swin-T下提高了1.1%。我们推测,多层次特征包含不同层次的语义信息,这是至关重要的重建。我们还通过图4中的注意力图和t-SNE来显示比较。从左边看部分地,当使用多层次特征时,模型可以更准确地识别物体的边缘区域,图4:左侧部分:注意力地图的可视化。第一列是原始图像。第二列和第三列显示了使用最后一层或多层次特征时类标记右图:在ImageNet上的t-SNE可视化。我们在验证集中随机选择20个类。每一个点代表从在线Transformer编码器嵌入。运算符层Arch.前1位接入(%)点亮核心焦点。音素也可以解释前-我们的RePre在转移到检测和分割任务时表现出色。图4中的右边部分显示了t-SNE[Vander Maaten and Hinton,2008]可视化结果。显然,具有多层次特征的学习表示可以更好地划分为不同的类别。重构解码器我们分析了卷积可以在不破坏上下文语义信息的情况下增强细粒度的我们使用相同的基本Transformer层作为骨干来代替解码器融合层中的3 - 3卷积(Conv)来验证它表5显示了积极的影响。卷积带来的影响。“层1”表示融合层的重复次数。使用轻量级卷积解码器,RePre使用ViT-S将基线top-1精度提高了0.7%,使用Swin-T提高了1.0%,这可能是我们假设的有力证明。结果也验证了我们的分析,即重卷积或Transformer重构解码器会过多地关注低语义信息,从而损害表征学习。表5:重建解码器中融合层的消融研究。运算符和层号表示融合层的类型和数量。摩拜C73.9MOCO v3–75.4w/o解码器–Conv173.0Conv273.2Conv4ViT-S73.2Transformer171.8Transformer272.0Transformer471.4w/o解码器–75.4Conv176.1Conv276.4Conv4Swin-T76.2Transformer174.6Transformer275.2Transformer474.5+v:mala2277获取更多论文5结论这项工作提出了一个简单而有效的目标:从原始RGB像素进行重构预训练(RePre),以训练自监督视觉变换器。我们的RePre扩展了对比框架,增加了一个分支,用于与现有的对比目标并行地重建原始图像像素。RePre将本地特征学习与轻量级的基于卷积的解码器相结合,该解码器融合了来自Transformer编码器的多层次特征。我们的RePre是通用的,可以提高任意的对比学习框架,可以忽略不计的额外成本。在过去的几年里,CV中的自监督学习主要是由对比目标主导的,我们希望我们的RePre可以为该领域的重建(生成)目标带来更多的见解。引用[Ahn和Kwak,2018] Jiwoon Ahn和Suha Kwak。学习-ing像素级语义亲和力与图像级超视觉弱监督语义分割。在IEEE计算机视觉和模式识别会议论文集,第4981-4990页[Bao et al. ,2021] Hangbo Bao,Li Dong和Furu Wei。Beit:Bert图像转换器的预训练。arXiv预印本arXiv:2106.08254,2021。[Caronetal.MathildeCaron , HugoTouvron ,IshanMisra , Herve'Je' gou , JulienMairal , PiotrBojanowski,and Armand Joulin.自监督视觉变换器的新兴特性。arXiv预印本arXiv:2104.14294,2021。[陈和何,2021]陈新蕾和何开明。探索简单的连体表征学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第15750-15758页,2021年[Chen et al. ,2020 a] Mark Chen,Alec Radford,RewonChild,Jeffrey Wu,Heewoo Jun,David Luan,andIlya Sutskever.从像素生成预训练。在国际机器学习会议上,第1691- 1703页。PMLR,2020年。[Chen et al. , 2020 b] Ting Chen , Simon Kornblith ,Moham-mad Norouzi,and Geoffrey Hinton.视觉表征对比学习的一个简单框架。国际机器学习会议,第1597- 1607页。PMLR,2020年。[Chen et al. , 2020c] Xinlei Chen , Haoqi Fan , RossGirshick,and Kaiming He.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。[Chen et al. 陈新蕾,谢赛宁,何开明。训练自我监督视觉 转 换 者 之 实 证 研 究 。 arXiv 预 印 本 arXiv :2104.02057,2021。[Cordts et al. Marius Cordts , Mohamed Omran , Se-bastianRamos,TimoBaghenfeld,MarkusEnzweiler, Rodrigo Benenson, Uwe Franke, StefanRoth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年6月[Devlin et al. Jacob Devlin,Ming-Wei Chang,Ken- tonLee,and Kristina Toutanova. Bert:深度双向转换器的 语 言 理 解 预 训 练 。 arXiv 预 印 本 arXiv :1810.04805,2018。[Dosovitskiy et al. Alexey Dosovitskiy , Lucas Beyer ,Alexander Kolesnikov , Dirk Weissenborn , XiaohuaZhai , Thomas Unterthiner , Mostafa Dehghani ,Matthias Min- derer,Georg Heigold,Sylvain Gelly,et al. An image is worth 16x16 words:Transformers forimage recognition at scale. arXiv 预 印 本 arXiv :2010.11929,2020。[Grill et al. , 2020] Jean-Bastien Grill, Florian Strub ,Flo-rentAltche' , CorentinTallec , PierreHRichemond ,ElenaBuchatskaya , Carl Doersch , Bernardo AvilaPires,Zhao- han Daniel Guo,Mohammad GheshlaghiAzar,et al.引导你自己的潜意识:一种新的自我监督学习方法。arXiv预印本arXiv:2006.07733,2020。[He et al. 何开明,张翔宇,任少卿,孙健。用于图像识别的深度残差学习IEEE计算机视觉和模式识别会议论文集,第770-778页,2016年[He et al. Kaiming He,Georgia Gkioxari,Piotr Doll a'r,andRossGirshick.面具r-cnn。在IEEE计算机视觉国际会议的论文集,第2961-2969页,2017年[He et al. , 2021] Kaiming He , Xinlei Chen , SainingXie , YanghaoLi , PiotrDoll a'r , andRossGirshick.Masked自动编码器是可扩展的视觉学习器。arXiv预印本arXiv:2111.06377,2021。[Hsu et al. Wei-Ning Hsu , Benjamin Bolte , Yao-HungHubert Tsai , Kushal Lakhotia , Ruslan Salakhut-dinov,and Abdelrahman Mohamed. Hubert:通过隐藏单元的掩蔽预测进行的自监督语音表示学习。arXiv预印本arXiv:2106.07447,2021。[Kendall et al. Alex Kendall , Yarin Gal 和 RobertoCipolla。使用不确定性来衡量场景几何和语义损失的多任务学习。在IEEE计算机视觉和模式识别会议论文集,第7482-7491页[Krizhevsky et al. Alex Krizhevsky,Ilya Sutskever,andGeoffrey E Hinton.使用深度卷积神经网络进行图像网分类。神经信息处理系统的进展,25:1097[Li et al. Yangguang Li , Feng Liang , Lichen Zhao ,Yufeng Cui , Wanli Ouyang , Jing Shao , FengweiYu,and Junjie Yan.监督无处不在:数据效率对比语言图像预训练范式,2021年。[Lin et al. Tsung-Yi Lin , Michael Maire , Serge Be-longie,James Hays,Pietro Perona,Deva Ramanan,Piotr Doll a'r,andCL a wrenceZitnick. Microsoftcoco:上下文中的通用对象.在欧洲计算机视觉会议上,第740-755页。Springer,2014.+v:mala2277获取更多论文[Liu et al. Ze Liu , Yutong Lin , Yue Cao , Han Hu ,Yixuan Wei,Zheng Zhang,Stephen Lin,and BainingGuo.Swin Transformer :使 用移 动窗口 的分层 视觉Transformer 。 arXiv 预 印 本 arXiv : 2103.14030 ,2021。[Radford 和 Narasimhan , 2018] Alec Radford 和 KarthikNarasimhan。通过生成性预训练提高语言理解能力。2018年[Radford et al. Alec Radford,Jeff Wu,Rewon Child,David Luan,Dario Amodei和Ilya Sutskever。语言模型是无监督的多任务学习者。2019年。[Ramesh et al. Aditya Ramesh,Mikhail Pavlov,GabrielGoh,Scott Gray,Chelsea Voss,Alec Radford,MarkChen,and Ilya Sutskever.零拍摄文本到图像生成。arXiv预印本arXiv:2102.12092,2021。[Ronneberger et al. Olaf Ronneberger,Philipp Fischer,and Thomas Brox. U-net:用于生物医学图像分割的卷积网络。在医学图像计算和计算机辅助干预国际会议上,第234-241页。施普林格,201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功