没有合适的资源?快使用搜索试试~ 我知道了~
LAVA:适应有限数据的多领域视觉迁移学习方法
147LAVA:高效的视觉学习和适应IslamNassar1*,Munaw arHayat1,EhsanAbbasnejad2,HamidRezatofighi1,Mehrtash Harandi1,Gholamreza Haffari11澳大利亚莫纳什大学2澳大利亚阿德莱德大学摘要我们提出了LAVA,一个简单而有效的方法,用于有限数据的多领域视觉迁移学习。LAVA基于最近的一些创新,能够适应具有类别和域变化的部分标记数据集。首先,LAVA在源数据集上学习自监督的视觉表示,并使用类标签语义将其接地,以克服与监督预训练相关的传输崩溃问题。其次,LAVA通过一种新的方法,使用多作物增强,以获得高度鲁棒的伪标签,从未标记的目标数据的收益最大化。通过结合这些元素,LAVA在ImageNet半监督协议上实现了新的最先进技术,并且在元数据集上的多域少镜头学习中的10个数据集中有7个。11. 介绍使用有限的数据来有效地适应新任务,这是现代深度学习系统具有挑战性但必不可少的要求。它能够利用这些系统的功能,同时避免过多的数据注释,这通常是昂贵的,耗时的,并且通常需要领域专业知识[9,17,52]。一个有希望的方向是开发能够在许多任务的集体数据中传输知识的方法。在这项工作中,我们研究了低资源多域视觉传递:给定在源数据集2上预训练的视觉学习器,我们的目标是有效地转移到具有潜在类和/或域转移的目标数据集。我们专注于低资源的情况下,目标数据集非常小,但完全标记(如在少数拍摄学习- FSL);或者它足够大但仅部分标记的情况(如在半监督学习中- SSL)。我们提出了一种传输方法,它同时解决了这种情况,并在多个传输基准上表现出很强的性能。*通讯作者:islam. monash.edu1代码:github.com/islam-nassar/lava.git2我们使用ImageNet [40]作为所有实验的源数据集图1:方法概述。LAVA使用源数据集来学习自监督初始化以及视觉特征和标签语义之间的映射。在迁移过程中,LAVA使用教师-学生设置,通过多作物伪标记未标记的实例,并通过匹配标记的语义来适应。LAVA因此,我们首先研究来源预训练对视觉迁移绩效的影响。 根据最近的研究,我们发现监督预训练导致次优迁移[2,12,30]。使用标签的监督通常过于渴望学习专门的特征,这些特征可以完全区分源类/域,但不能概括它们。我们认为,它的另一个限制是所使用的标签的语义自由的性质。标签是用独热向量表示的,显式地忽略标签语义。例如,鼓励学习者将“公共汽车”和“校车”视为两个不相关的类。在图2中,我们使用DomainNet [33] clipart数据集定性地展示了与监督预训练表示相关的两个伪影:类崩溃,即预先训练的表示崩溃成不正确的源类,只是因为它们与目标类共享表面的相似性;以及域塌陷,其中类语义被保留但视觉域信息被忽略。LAVA投影学生语言模型语言MLP骨干MLP斑马线性+SoftmaxEMA语言MLP骨干MLP线性+Softmax熔岩老师表示投影表示148最近邻(监督)书外套书外套书外套书外套汉堡包三明治吉士汉堡芝士汉堡芝士汉堡芝士汉堡图2:类&域折叠。我们在目标实例上训练之前,在LAVA的表示空间(中)和ImageNet监督的学习器(右)中显示来自clipart目标的两个查询图像(左),以及来自clipart和ImageNet的4个最近邻居。ImageNet实例以蓝色边框。我们观察到监督学习者遭受两种类型的表示崩溃:(i)类崩溃(上部),其中学习者挑选与目标类共享表面模式的不相关源类;或(ii)域折叠(较低),其中学习者挑选相关源类但忽略视觉域。请参阅Sec。5更多详情使用双重方法来解决崩溃问题:1)自监督源预训练以学习任务无关特征,从而导致更好的迁移;以及2)使用语言模态将自监督表示接地到独立的语义空间:在预训练期间,LAVA使用源类标签来学习源实例的视觉表示与其类标签的语言语义表示之间的映射。在传输时,这样的映射被用来推断“看到的”和“看不见的”类之间的关系,(第二节)第3.1节)LAVA为此,我们采用了多作物增强,最初提出这是为了鼓励对自监督对比学习的空间增强不变的学习表示[8]。我们将这个想法扩展到半监督学习,利用图像通常包含多个语义类的观察结果,因此每个图像使用单个标签可能会损害性能。考虑图中的图像。在图3中,由于在训练期间使用的随机裁剪,可以想到的是,教师模型(执行伪标记)接收以与学生不同的对象为中心的视图,导致与图像不兼容的标签。因此,我们基于图像的多个局部和全局视图来计算伪标签,以解释那些包含多个语义概念的图像。我们表明,强制执行一个单一的伪标签,每个图像是次优的。相反,跨多个视图应用成对聚集损失增强了伪标签的质量。(第二节)3.2)LAVA的主要贡献是:1)一个实用的方法,结合并扩展了一些最近的创新,以解决各种迁移学习制度;2)提供了与监督预训练相关的迁移崩溃问题的经验性见解,并提出了一种策略,装饰它们;3)通过伪标签将多作物增强策略扩展到半监督设置;4)在ImageNet [40] SSL基准上设置了新的最先进技术,并在其他具有挑战性的SSL和FSL基准上表现出强大的性能,包括元数据集[49]。2. 相关工作少镜头学习(FSL)现有的FSL方法可以分为学习嵌入空间以比较查询和支持样本的度量学习方法[23,32,43,51],适应基础的元学习方法[23,32,43,51]。学习者到新课程[7,14,20,25,27,37,41],或两者的组合[49]。大多数现有的FSL方法在训练集和测试集来自同一个域e.G. ImageNet 的 子 集 ( mini-ImageNet [51] 和 分 层ImageNet [38])。一旦训练数据和测试数据之间存在分布不匹配,它们就缺乏域外(OOD)泛化。最近引入的元数据集[49]为多域FSL提供了一个具有挑战性的基准。因此,在元数据集上开发的FSL方法旨在解决OOD泛化[12,28]。例如,Transformer模块用于捕获[12,28]中不同域之间的关系。尽管我们的方法在不同的低标签制度中是通用的,但我们在元数据集上的结果表明,我们对最近专门为FSL开发的方法表现良好半监督学习SSL的一种常见方法是用联合损失公式来训练模型,即。标记样本的监督交叉熵损失,以及未标记样本的非监督/自监督正则化项。例如UDA [53]、S4L [55]和[16,29,50]。SSL的另一种方法是使用伪标签,伪标签是通过训练模型生成的,在标记的样本上,并在未标记的数据上修剪置信预测[5,6,24,30,39,44],或者通过我们-最近邻(LAVA)蒙娜丽莎蒙娜丽莎蒙娜丽莎蒙娜丽莎蒙娜丽莎149D←−i=1j=1增茬效应具有多个语义对象的大规模作物小规模作物牙膏钻井平台熊绿色苹果鱼锤子拼图图3:我们展示了视觉训练中常用的裁剪效果(顶部),以突出我们的多裁剪伪标签动机:裁剪可以潜在地将主焦点改变为不同的语义对象。由于在教师-学生设置中,每个网络接收图像的不同视图,如果我们依赖于每个图像的单个伪标签,则具有多个语义对象的图像(底部)3可能会设置教师-学生配置,其中缓慢更新的教师模型用于在未标记样本上生成软预测,其用作学生模型的监督LAVA利用了后者的范例,但使用多作物增强策略改进了伪标签FSL的语义和自我监督。丰富的语义[1,15,36]和自我监督[12,21]已经被探索来帮助FSL。[1]引入了一个辅助任务来产生类级语义描述,并在细粒度任务上显示了另一方面,最近的工作[12,47]认识到自我监督特征的有用性与现有方法不同,LAVA仅使用类级别的标签语义,并将自我监督[9]作为预训练步骤,而不是将其添加到FSL任务中。3. 方法我们考虑的问题,适应分类器预-这样的设置适合SSL和FSL设置。然而,在FSL中,Csrc和Ctgt是严格不相交的,并且少数镜头转移利用完全标记的支持集。LAVA采用师生设置,教师的架构与在线学生相同(见图1)。当每个学生接收到给定图像的不同视图时,学生被训练来匹配教师生成的学生网络和教师网络(分别由θs和θt参数化)交替更新:给定固定的教师,学生首先通过梯度下降更新,以最小化网络损失;随后,教师参数被更新为学生参数的指数移动平均(EMA),即,θtγθt+(1γ)θs,其中γ是动量参数。3.1. 超越领域和类的我们的第一个目标是使用源数据集来预训练我们的教师和学生,使其具有良好的初始表示,以支持分发外传输,同时避免第二节中提到的1.一、自我监督的预训练。我们采用最近提出的DINO [9]方法(未经修改)在丢弃标签后从srcDINO,像其他自我监督的方法[3,10,13,在一组源类C普莱斯src 使用标记的SAM,18,19,26],学习视觉特征,这是不变的COM-变异的主要因素(例如,颜色失真、姿势、比例)通 过 使 用 标 记 实 例 Dtgt={ ( xi , yi ) }n , 将Dsrc,以及未标记的实例Utgt={uj}m,其中u,x表示未标记的,并且belled图像,yi是类标签。注意3.这些图片并非精选。我们在分析中发现了这些问题(见第二节)。5)有不一致的伪标签而不被绑定到特定的类或可视域集合。因此,它们编码更丰富的信息,更好地支持泛化。在传输时,我们使用不带标签的目标实例来进一步微调目标数据集的DINO表示。我们在附录中提供了微调DINO fea的详细程序150不SSui∈ULmulti,其中Lmulti表示聚集多|A我|(ujs,ujt)∈Ai不S(uj,uj)是传递给学生的ui的一对作物,θ在资源不足的情况下,可以使用目标实例我们注意到,我们的方法并不是专门与DINO绑定的。然而,我们选择它是因为它的表现和类似的师生设置,使其与我们的方法无缝集成。我们在实验中消除了这种选择。语义基础。 为了解决类崩溃问题,并帮助推广到看不见的类,我们采用语言语义作为一个独立的模态地面视觉功能。在源预训练期间,我们还学习语义MLP模块ωθ(* 分别表示学生和教师的s和t),将给定标记图像xi的投影qi映射到嵌入3.2. 多作物伪标记当转移到部分标记的数据集时,LAVA通过使用教师迭代地产生伪标签来扩展用于训练学生的标记我们不同于以前类似的SSL方法(例如,MeanTeacher [46])主要是我们生成伪标签的方式:我们鼓励通过多裁剪增强来实现更健壮的伪标签。我们基于给定未标记图像ui的多个大小作物的集合i生成伪标签;类似地,基于另一集合Si5生成学生预测。伪-mi=ω(qi).我们应用铰链损失,∗∗∗标签然后在组合视图上聚合。形式上,LAVA使用骨干fθ 去绘制一幅语义投射Mi4和我我我s钟形图像使用我到z=fθ(u),然后是MLP对应嵌入函数 通过应用预-gθ将zi映射到投影qi=gθ(zi)。最后,类标签上的训练语言模型,按照:使用线性层,随后使用回火器,softmax,qi被归一化为概率分布1pi∈R||Ctgt||. 然后,我们将损失应用为:Lsem=max(0,η−(一)不Sxi∈Dsrc超过目标的损失|ui∈ T i和预测pi|ui∈ Si.其中,η·,·η表示余弦相似度,η >0是标量hinge_mar_ gin,以及hinge_i和hinge_mar_i分别是真类和随机采样的假类的语言嵌入实际上,LAVA学习如何将源实例的视觉表示映射到语言模型表示空间,以便每个实例被映射得更接近其真实的类语言嵌入,而远离所有其他类嵌入(直到一个余量)。在传输时,ωθε被微调(与主链一起)而无需重新初始化。这与必须重新初始化以匹配目标类的分类器头部形成对比设计选择。 综合多种作物损失涉及一些设计备选方案,例如:使用单个伪标签(例如通过投票)或在不同作物之间取平均值;使用硬伪标签(例如,使用argmax或采样)或软伪标签;最后,作物的计数、规模和大小是重要的超参数,因为它们分别影响伪标记的多样性、作物的局部性和训练期间的存储器消耗。我们的实证研究发现,使用软锐化伪标签并对作物对进行平均可以在不同领域中获得最佳性能(更多详细信息请参阅附录)。 更具体地说,我们最终与独热类标签的离散性质不同,我们-将语言嵌入到基础视觉表示中选择:Li为1Σ˜ ˜-pjlogpj,其中充当表示类标签的连续空间 在s tijjjij在这样的空间中,这对于学习视觉语义关系是直观有用的,视觉语义关系增强了对新概念的泛化。然而,它也隐含地假设语言相似性总是视觉相似性的一个很好的代理,这有时是不正确的,例如。 因此,我们探索了语义源的一些替代方案,包括知识图嵌入[30],我们发现,在释义任务上训练的语言模型[45]在我们的设置中提供了最佳性能。我们推测,这是因为它有助于模型统一出现在不同名称下的教师尊重;并且A={(us,ut)|u<$ s∈S,u<$t∈Ti}是所有裁剪对的集合。4. 实验我们在三个方案中根据最新技术水平(SOTA)基线评估LAVA:1)在DomainNet上使用域转移的SSL传输[33]; 2)在ImageNet上没有域移位的SSL [40],以及3)在元数据集上的多域FSL [49]。训练 除非另有说明,否则我们使用批量大小为256,学习率为5e-4,Adam [22] opti- mizer使用余弦调度器。对于我们的多作物伪标记,我们使用6个小规模作物和2个大规模作物(教师与学生不同)遵循[9]中相同的尺度,教师动量γ = 0。九九六我们使用mpnet-base-v2[45]语言模型6来获得标签嵌入。(例如5空间增强(例如,颜色抖动、随机翻转)也应用于所有4我们使用学生语义投射mi来应用损失,而mi仅是庄稼。S在推理过程中使用。t6github.com/UKPLab/sentence-transformers|Dsrc||U|151表1:与DomainNet数据集的四个域的半监督基线的比较。我们报告的平均准确度超过3个运行量的标记实例。所有基线都使用相同的网络骨干在相同的代码库中实现。房2-拍摄4-拍摄8激发剪贴画2-拍摄4-拍摄8激发草图2-拍摄4-拍摄8激发Quickdraw2-拍摄4-拍摄8激发[44]第四十四话23.06 34.6842.1430.2141.2151.2912.7321.6533.0724.5132.9843.91SemCo [30]24.38 40.0351.1328.3946.9655.4815.7128.6241.0626.1734.1744.12[46]第四十六话51.44 66.1668.7746.0252.4363.0925.838.7951.1629.7839.1247.11LAVA(监督初始化)57.4769.5175.4138.4553.0564.7436.1545.1552.1532.6141.6748.44LAVA(无语义丢失)58.57 67.8872.1248.5758.7565.1838.7647.5553.9135.9544.0154.91熔岩58.7968.0472.1948.6559.0565.0839.1247.6354.3936.6644.1254.75我们的语义损失。我们报告的准确性基于在softmax分类器上(见图1),但当相关时,我们将其与基于表示zt的K最近邻(K=20的KNN)准确度和/或通过在语义投影mt上应用余弦分类器获得的语义准确度进行比较。SSL在DomainNet上。 该数据集包括来自 6个视觉领域,跨越345个对象类。我们评估了LAVA从ImageNet转移到4个域的能力,并降低了相似性:real、clipart、sketch和quickdraw。为了确保所有基线的固定设置(例如,标记的分裂、主干、学习速率调度等),我们遵循[31]中的建议,并在我们的代码库中重新实现三个最接近的基线。FixMatch [44]使用基于置信度的伪标签的一致性正则化,SemCo [30]建立在FixMatch上,但利用标签语义(通过知识图)来解释类之间的已知相似性,MeanTeacher [46]使用动量教师进行SSL。我们将其扩展到Mean- Teacher++,其中我们使用相同的空间增强(而不是原始的高斯噪声),并且我们使用与我们相同的骨干(ViT-S/16 [48])。对于所有实验,我们使用预训练的ImageNet权重初始化模型,并遵循SSL标准方法:我们使用标记数据的一部分(以图像/类表示)与所有未标记数据一起适应目标。我们将LAVA 的 训 练 固 定 为 70 个 epochs7 ( w.r.t 未 标 记 的 数据),并使用验证集对所有基线方法使用早期停止。对于4个域中的每一个,我们使用2、4和8张图像/类来检查低拍摄和中等拍摄传输场景。我们探讨了两个自我监督的初始化(即。DINO)和所有基线的监督初始化[48]我们在表中报告了两种基线的最佳结果和LAVA的两种结果。1.最后,为了检查语义丢失对SSL的贡献,我们报告了LAVA关闭时的结果。我们观察到LAVA的表现一直优于基线,有时甚至有很大的利润率。有趣的是,FixMatch和SemCo使用监督源获得了最佳结果70个epoch分为50个epoch的DINO目标预训练和20个epoch的LAVA训练预训练而不是自我监督(参见附录中的自我监督结果)。一种可能的解释是,这是由于与FixMatch和SemCo相比,DINO预训练中使用的增强方法非常不同。如图所示,当视觉域与ImageNet的视觉域不同时,LAVA的自监督初始化的影响变得更加显著。例如,我们观察到一个令人印象深刻的10%的提升,在第二部分2杆设置从38.4%到48.6%,证明自我监督的功能有助于泛化超越域。在基线中,MeanTeacher++最接近LAVA;主要的两个差异是我们的多作物伪标签策略和语义丢失。我们见证了LAVA对MeanTeacher的显著提升,特别是在标记样本较少的情况下。这证实了我们的多作物伪标签策略在低数据制度中的有用性最后,我们在几乎所有实验中使用SSL中的语义丢失时都得到了边际提升。ImageNet上的SSL。为了检查同一域下的SSL传输,我们遵循ImageNet评估协议,使用1%和10%的标签来训练LAVA。由于在ImageNet上运行实验的计算要求很高,我们选择只使用与我们相同的ViT-S主干重新运行SOTAPAWS将自监督学习与基于小标记集生成伪标签的非参数方法相结合。对于所有其他基线,除非原始工作中报告了ViT-S结果,否则我们仅报告Resnet 50结果。然而,我们注意到,与Resnet 50(24 M)相比,ViT-S模型具有较少的参数(21 M),但最近的工作[9,48]显示了有利于ViT-S的约1-2%的改进。我们再看一下(Tab)。2)这是LAVA相对于其他方法的显著提升。有趣的是,与DINO相反,LAVA获得了很大的收益。但是,请注意,DINO报告了冻结特征的线性评估结果,并且没有端到端微调,因此(64.5%和72.2%)与LAVA的(69.3%和76.4%)不具有直接可比性。然而,K-NN结果可以直接比较,以衡量LAVA和DINO之间的差异。元数据集上的FSL。. 我们使用152学生小1小2老师不同意_小不同意_大4540350.50.4假标签top-1(%)表2:ImageNet上的SSL结果,1%& 10%的标签。方法架构时期 百分之十不同的架构:[44]第44 七十一点五MPL [35] RN50 800 七十三点九德国[8]80053.9 70.2SimCLRv2++ [11] RN50 1200 60.0 70.5相同架构:DINO-NN [9]ViT-S30061.3 69.1300.3DINO [9]ViT-S35064.5 72.23 5 7 911 13 15 17 19PAWS-NN[2]ViT-S30063.5 72.3时代图4:多作物伪标记分析。评价元数据集上多域FSL的工具[49]。具体来说,我们使用1000个类中的712个类的图像作为我们的源数据集,通过对158个类进行验证来选择我们的超参数,并使用来自ImageNet的剩余130个类以及其他9个数据集的片段进行评估。元数据集通过评估包括细粒度任务(如鸟类,飞机,真菌,花卉,纹理,交通标志),字符和符号(Omniglot)以及真实和快速绘制的对象(ImageNet,MSCoCO和Quickdraw)的数据集来测量跨域FSL在源预训练期间,我们使用来自712个训练类的所有实例,而不使用它们的标签进行源预训练8。并且,我们使用相同的实例及其标签来训练语义MLP(ωθ)。在传输过程中,我们冻结主干fθs,并使用300个epoch的支持集微调LAVA我们使用标准的元数据集设置,其中每个事件包含不同数量的方式(即,类)和不平衡射击(即,每个类的图像)。按照惯例,我们报告每个数据集平均超过600集的结果。如Tab中所示。3,使用这样一个简单的策略,并且没有诉诸任何元学习技术,LAVA在10个数据集中的7个数据集上表现出最接近的基线[12],并且对于其他3个数据集,它以较大的幅度超过了第二好。重要的是要注意,在FSL基线之间进行直接比较并不简单:主要是因为不同的方法采用不同的训练风格(例如,元训练[12,14,43] vs微调),不同的初始化(自监督[12]vs监督[14,43])和不同的骨干(Resnet18 [42,49] vsResnet34 [12])。然而,我们认为我们的方法与其他方法正交:由于我们使用的是语言语义学,这是其他方法所不具备的,因此我们对直接与它们进行比较持谨慎态度,因此我们报告的结果仅供参考,而不是比较。一个可能的未来方向是探索语义(或其他8与元学习方法不同,我们在训练过程中不使用情节。接地类关系的可能方法)有助于其他强大的方法,如5. 分析和消融我们通过分析以下内容获得关键见解:1)多作物策略动态及其对产生更高质量伪标签的有用性; 2)自监督学习对于域外泛化的重要性; 3)语言语义对类泛化的作用;以及最后4)关键超参数的影响。多作物伪标签。为了研究LAVA我们计算精度的基础上的argmax的软预测ps和pt的学生和教师分别。图4提供了一些有趣的观察结果。首先,基于大作物,教师模型在初始斜升阶段(由于EMA)后表现出比学生更好的性能。这证明了教师-学生设置的有用性,其中学生模型总是由稍微好一点的教师指导。其次,正如预期的那样,我们观察到,与大作物相比,小作物(仅学生看到)的平均准确度较低;但有趣的是,随着训练的进行,与小作物相关的预测之间的不一致性减少,这表明模型正在从图像的不同小视图中学习真正捕获其主要对象的一致表示。接下来,我们对最接近的基线(MeanTeacher++)重复相同的过程,以检查每种方法获得的伪标记质量的差异。请注意,通过我们对MeanTeacher++进行的修改我们在Tab中观察。事实上,多作物战略在三个不同领域带来了巨大的利益,分歧率PAWS [2]VIT-S30068.9 75.2LAVA- NNViT-S30067.2 73.3熔岩ViT-S35069.3 76.415368.75±0.5477.92±0.5081.14±0.4984.88±0.7782.05±0.5068.44±0.5755.02±0.6795.43±0.6669.24±1.0663.75±0.45表3:仅在ImageNet训练分裂上进行预训练时的元数据集结果。平均准确度,95%置信区间报告超过600个测试事件。我们的方法在10个数据集中有7个优于最好的方法。k-NNMatchNetProtoNetFinetunefo-ProtoBOHBProtoNet-L阿尔法-弗普罗托CTX熔岩[49个][49个][49个][49个]MAML [49][第四十二届][49个]MAML[4][12个](我们的)ImageNet41.03±1.0145.00±1.105 0 . 5 0 ±1.0845.78±1.1049.53±1.0551.92±1.0553.69±1.07 52.80±1.11 62.76±0.99Omniglot37.07±1.1552.27±1.285 9 . 9 8 ±1.3560.85±1.5863.37±1.3367.57±1.2168.50±1.27 61.87±1.5182.21±1.00飞机46.81±0.8948.97±0.935 3 . 1 0 ±1.0068.69±1.2655.95±0.9954.12±0.9058.04±0.96 63.43±1.10 79.49±0.89鸟类50.13±1.0062.21±0.956 8 . 7 9 ±1.0157.31±1.2668.66±0.9670.69±0.9074.07±0.92 69.75±1.05 80.63±0.88纹理66.36±0.7564.15±0.856 6 . 5 6 ±0.8369.05±0.9066.49±0.8368.34±0.7668.76±0.77 70.78±0.88 75.57±0.64快速绘图32.06±1.0842.87±1.094 8 . 9 6 ±1.0842.60 ±1.1751.52±1.0050.33±1.0453.30±1.06 59.17±1.1672.68±0.82真菌36.16±1.0233.97±1.003 9 . 7 1 ±1.1138.20±1.0239.96±1.1441.38±1.1240.73±1.15 41.49±1.17 51.58±1.11花83.10±0.6880.13±0.718 5 . 2 7 ±0.7785.51±0.6887.15±0.6987.34±0.5986.96±0.73 85.96±0.7795.34±0.37简体中文44.59±1.1947.80±1.1447.12±1.1066.79±1.3148.83±1.0951.80±1.0458.11±1.05 60.78±1.2982.65±0.76MSCOCO30.38±0.9934.99±1.004 8 . 0 3 ±0.9941.00±1.1034.86±0.9743.74±1.1241.70±1.08 48.11±1.14 59.90±1.02表4:初始化研究。使用不同初始化和不同微调方法时的跨域性能。真正的剪贴画快速绘制2发8发 2-射击8射击 2发8发全监督73.74 76.5571.87 72.7561.22 67.23初始化:辅助核算(ImNet)54.92 64.8122.49 35.3910.68 18.78DINO(ImNet)46.17 59.4215.19 26.978.9816.81DINO(Target)电子邮件50.45 62.5440.35 55.0330.05 43.64微调从* :线性探测49.03 64.8921.5366.0813.9教师++54.26 70.6034.58 60.2216.38 35.75熔岩57.47 75.4138.45 64.7432.61 48.44从 ** 微调:线性探测49.68 64.42 38.86 56.6教师++51.44 68.77 46.02 63.09LAVA58.79 72.1948.65 65.0836.6654.91特别是当较少标记的数据可用时。此外,我们捕获了伪标签的细粒度视图,以检查两种方法中伪标签差异最大的图像是什么正如预期的那样(见图3 -底部),这些图像包含多个语义对象。我们在附录中提供了更多的例子。初始化研究。在这里,我们感兴趣的是检查预训练的效果时,训练LAVA使用几个标签在不同的视觉域。在选项卡中。4,我们报告的结果使用不同的初始化和不同的微调设置跨真实,剪贴画,和quickdraw域。在顶部,我们显示了基于模型表示的KNN精度,初始化时使用1)监督ImageNet特征[48]; 2)DINO ImageNet功能[9];和3)在目标数据集上训练时的DINO特征,没有标签(标准LAVA初始化)。请注意,对于这些结果,标签仅用于获得相应目标数据集的验证集上的KNN准确性,但从不用于微调,因此它们仅用于补偿“现成”预训练特征的质量首先,我们观察到,仅使用ImageNet数据,监督预处理,154在这三个领域中,训练比自我监督更有用,并且当主域 偏离 ImageNet 时 ,性 能 会 下降 请 注 意, 23% 的Domain- Net类也存在于ImageNet中,这解释了为什么类特定功能在这种情况下可能会有帮助。然而,一旦我们访问了目标实例(没有标签),我们观察到自监督目标训练(即,LAVA初始化)显著地改善了表示,使其变得更适合于靶结构域,而没有任何标记费用。即使目标域非常接近ImageNet(例如,real),我们看到在2次发射机制中有4%的增益(46.17到50.45)。这种提升在高度不相似的领域中更为明显,例如。25%和21%的增幅剪贴画和快速绘制,只有2杆每类。另一方面,在Tab的中间和底部部分。4,我们报告基于监督初始化和LAVA初始化的传输结果。我们还报告了使用其他两种转移方法的结果:1)冻结表示上的线性探测[9];和2)MeanTeacher++在第2节中描述。4.最后,作为上限,我们报告了使用整个目标数据集(带标签)以监督方式训练ViT在这里,我们观察到LAVA受益于所有域中的自监督DINO初始化,但是当目标域与ImageNet不同并且可用标签较少时,增益更明显。例如,我们见证了一个令人印象深刻的10% , 和 4% 的提 升 ,在 2 杆 sce- nario 的 剪 贴 画 和quickdraw,分别。此外,为了量化LAVA在DINO初始化基础上带来的效果,我们将LAVA与MeanTeacher++进行了比较,并观察到LAVA在所有情况下都优于它,这要归功于我们的多作物伪标记策略。最后,我们注意到LAVA几乎正在缩小与使用所有目标标签的完全监督训练的差距:通过仅使用8次射击,LAVA在实域上实现了75.4%,而当所有标签都用于训练时获得了76.5%。语言语义学现 在 ,我们来看看拉的作用-155平面总线飞机停车标志路标校车山地自行车自行车边池公园长椅叉车叉床枕霍特河热狗酒瓶酒杯狐松鼠鼠标∈∈语言模型嵌入空间精度每类超过100 MSCOCO集0.80.60.40.2TSNE 10.0图5:左:我们显示了MSCOCO类子集(黑色)及其在ImageNet训练分裂中的最近邻居(红色)的语言模型嵌入的t-SNE可视化。右:我们报告了语义和softmax预测在100个FSL事件中每个类的精度。贝尔语义对泛化到看不见的类,我们调查,如果LAVA确实减轻了“类崩溃”的为了研究标签语义的影响,我们在Meta数据集实验中考虑了MSCOCO的100个FSL集。回想一下,我们首先在ImageNetCsrc的712个类的实例上进行预训练,然后转移到MSCOCOCtgt中的一组不同的类。在图5的左边,我们显示了MSCOCOCCtgt的一个子集,以及它们在Csrc中的最近邻居,当它们被投影到语言模型语义空间中时。这个空间是使用语言预先训练的,因此它捕获了不同句子/单词之间的语言语义相似性。在右边的图中,我们显示了基于softmax分类头和语义投影头9的每个类的平均精度c C。我 们 观 察 到 , 对 于 任 何 给 定 的 MSCOCO 类 , 当ImageNet中最语义相似的类在视觉上也相似时(例如,“相比之下,在最近的邻居在视觉上不相似的情况下(例如, 这表明了学习的语义映射模块ωθ的益处:在测试时间期间并且在没有任何进一步训练的情况下,当模型接收到共享与源类Csrc之一相关联的类似视觉特征的图像时,语义头将其映射到Ctgt中最密切相关的语言概念。崩溃分析。我们遵循类似的设置,[12个]研究LAVA1):我们首先从ImageNetCsrc中的每个类均匀采样100个图像,以及从clipart数据集中采样1000个查询图像。随后,我们计算所有采样图像的表示zt除了LAVA,我们还计算由监督学习者获得的表示;和一个恐龙初始化的学习者。在图2中,我们报告了查询图像的示例,其中所有采样图像中有4个最近邻。给定查询图像的表示被称为是折叠的,如果其最近的9.对于给定的图像,语义预测是通过找到语言嵌入最接近mt的类来获得的。邻居大多属于源类。为了量化这三种方法中的崩溃,我们计算了10个最近邻居的百分比,这些邻居是1000个查询图像中源类的实例。我们发现,这个数字是25%的监督学习,21.7%的DINO,和17%的LAVA。我们在附录中提供了进一步的细节。超参数敏感性。在初步实验期间,我们确定了几个需要调整的重要设计选择:大规模和小规模作物的数量、伪标签聚合损失函数、教师动量更新率(γ)和标签语义嵌入的源。我们在每个实域和剪贴画域上使用了一个保持的验证集来调整超参数(除了标签语义的源,我们在FSL机制中使用了MSCOCO验证),然后,我们获得了一组参数,我们在本文的所有实验中使用了这些参数。我们建议读者参考附录中LAVA超参数的完整列表,以及证明它们对LAVA6. 结论我们介绍了一个统一的策略,多域视觉传输有限的目标数据。LAVA采用标签语义学和自我监督预训练来学习支持泛化的初始表示;并且使用多裁剪增强来经由伪标记使来自未标记数据的增益最大化。我们通过多个基准测试证明了LAVA我们相信我们的方法是通用的,可以扩展到其他视觉学习任务,如对象检测和动作识别。我们把这些探索留给未来的工作。确认这项工作部分得到了DARPA在协议FA 8750 -19-2-0501下的少标签学习(LwLL)计划和澳大利亚政府研究培训计划(RTP)奖学金的支持语文主任分类器头TSNE2精度156引用[1] Mohamed Afham 、 Salman Khan 、 Muhammad HarisKhan、Muzammal Naseer和Fahad Shahbaz Khan。丰富的 语 义 改 善 了 少 量 学 习 。 arXiv 预 印 本 arXiv :2104.12709,2021。[2] Mahmoud Assran,Mathilde Caron,Ishan Misra,PiotrBo-雅诺夫斯基,阿曼德·朱林,尼古拉斯·巴拉斯,迈克尔·拉布-巴特.通过支持样本非参数预测视图分配的视觉特征的半监督学习。arXiv预印本arXiv:2104.13963,2021。[3] PhilipBachman , RDevonHjelm , andWilliamBuchwalter.通过最大化跨视图的互信息来学习表示神经信息处理系统的进展,32,2019。[4] Sungyong Baik , Myungsub Choi , Janghoon Choi ,HeewonKim和Kyoung Mu Lee。自适应超参数元学习。arXiv预印本arXiv:2011.00209,2020。[5] David Berthelot,Nicholas Carlini,Ekin D Cubuk,AlexKurakin,Kihyuk Sohn,Han Zhang,and Colin Raffel.Remixmatch:具有分布对齐和增强锚定的半监督学习。arXiv预印本arXiv:1911.09785,2019。[6] David Berthelot , Nicholas Carlini , Ian Goodfellow ,NicolasPapernot,Avital Oliver,and Colin Raffel. Mixmatch:半 监 督 学 习 的 整 体 方 法 arXiv 预 印 本 arXiv :1905.02249,2019。[7] Luca Bertinetto,Joao F Henriques,Philip HS Torr,andAn-德雷亚·维达尔迪。使用可微封闭形式求解器的元学习。arXiv预印本arXiv:1805.08136,2018。[8] Mathilde Caron,Ishan Misra,Julien Mairal,PriyaGoy
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功