没有合适的资源?快使用搜索试试~ 我知道了~
9265跨领域连续学习Christian Simon1,3,5Masoud Faraki2Yi-Hsuan Tsai6Xiang Yu2Samuel Schulter2Yumin Suh2Mehrtash Harandi3,5Manmohan Chandraker2,41澳大利亚国立大学2NEC Labs America3莫纳什大学4加州大学圣地亚哥分校5Data 616 Phiar Technologiessen. gmail.com,mfaraki@nec-labs.com,wasidennis@gmail.com{xiangyu,samuel,yumin}@ nec-labs.com,mehrtash. monash.edu,manu@nec-labs.com摘要人类有能力在不同的条件下积累新任务的知识,但深度神经网络在学习新任务后会灾难性地忘记以前最近的许多方法都致力于在训练和测试数据遵循相似分布的假设下防止灾难性遗忘。在这项工作中,我们考虑了一个更现实的情况下,不断学习域的变化,模型必须概括其推理到一个看不见的域。为此,我们鼓励学习语义上有意义的功能,装备分类器类相似性度量作为学习参数,这是通过Maha- lanobis相似性计算获得。主干表示和这些额外参数的学习以端到端的方式无缝完成。此外,我们提出了一种基于指数移动平均的参数,更好的知识蒸馏的方法。我们恶魔-班级持续学习训练任务序列C1,C2C3、 C4、C5、C6测试C1,C2C 1,跨领域持续学习连续域自适应可学习的对齐在很大程度上,现有的持续学习算法无法处理多分布下的遗忘问题,而我们提出的方法在域转移下学习新任 务 , 在 具 有 挑 战 性 的 数 据 集 ( 如 DomainNet 和DomainHome)上的准确率提高了10%1. 介绍人类拥有在动态变化的环境中获取新知识的非凡能力,同时保留过去学到的知识。获得的知识可以进一步推广到看不见的情况,而不需要再教育。另一方面,已经有大量的努力来设计基于机器学习的算法,以构建更智能的模型,并从两个角度来应对上述挑战,即持续学习[2,4,26,32]和领域通用。图1.顶部:现有设置1)从单个域(左)持续学习新的视觉类别,2)从新域持续学习,并对相同域进行评估(右)。底部:我们的设置有一系列来自不同领域的视觉类别,并对一个看不见的领域进行评估。所提出的方法采用了一个连续的域对齐策略,称为马氏相似性学习(MSL)。颜色表示域,形状表示类别。化[12,13,20,21]。当在终身学习设置下部署在现实世界中时,这一点尤其重要[18,25,28]。例如,考虑仓库机器人,它们可能会感知新的库存或看不见的房间布局,它们需要适应这些布局才能正常工作观测是在不同的时间帧(例如,白天或夜晚)和不同的位置(例如,通道),使得观察到的域具有不可预测的序列。在这种情况下,成功的关键是要有一定的嵌入式火车C1,C2域序列随机任务序列C3,C4嵌入C5,C6Domain序列Domain序列随机随机对准Ɗ1Ɗ2Ɗ3Ɗ1Ɗ2Ɗ3Ɗ1Ɗ2Ɗ3使用测试Ɗ4C1,C2C1,C1,火车域序列Ɗ1Ɗ2Ɗ3测试Ɗ1Ɗ2Ɗ39266机器人的适应性,以应对挑战,而无需昂贵的重新培训或完全取代他们。为了更好地理解这一讨论,一方面,基于持续学习的方法主要试图处理分类遗忘,这是指当学习新概念时,先前获得的知识的性能另一方面,领域泛化是为了找到一个好的特征表示,它远远超出了训练分布,同时又能区分手头的任务。虽然有效,但在研究中同时为上述两个挑战一个努力是Volpi等人的工作。[35]其提出了连续的域自适应,即,不同的域以连续的方式到达(图右上)。1)。其他类似的努力包括Kundu等人的工作。[19],这表明类持续学习与源目标域适应在开放设置。然而,在这两部作品中,超越所见领域的泛化的主要方面在很大程度上是缺失的,限制了它们在现实世界中的适用性此外,递增地添加训练任务的概念仅限于源和目标域(即,两项任务)。在这项工作中,我们提出了一种跨领域的持续学习方法,它也有能力推广到未知的领域。我们的设置考虑了一系列的任务(即不同的视觉类别),其中每个任务1左下角)。注意,我们的设置没有任何关于域的预先假设(例如,域标识符的可用性或特定排序)。这是一个现实的场景,其中模型被认为是关于训练样本的起源不可知的,例如,保护隐私很重要我们认为域对齐可以通过为我 们的分类器配备特定于类的Mahalanobis相似性度量来以区分的方式进行,如图所示。1(右下)。这里,分类器网络在生成预测时还考虑了类样本的基本分布。这是为了鼓励跨训练域学习语义上有然后,我们以端到端的方式学习骨干表示参数以及这些额外的参数。此外,我们提出了一种基于参数的指数移动平均值的方法,以更好地进行知识蒸馏,防止与先前学习的参数过度发散为了评估我们的方法,我们定义了高度动态的环境,数据来自不同的领域和扩展的视觉类别。我们对四个不同的数据集进行了广泛的实验-结果表明,与基线相比,我们的方法在10个任务上始终导致高达10%的改进[16,23,30,38,40]和5任务协议。此外,我们提出的方法还可以防止灾难性遗忘,平均实现最低的后向传输速率[25],例如,在DomainNet和DomainHome上分别为10%和总而言之,我们的贡献包括1. 我们提供了一个统一的测试平台,跨领域的持续学习与持续学习的方法和技术领域的泛化。2. 我们提出了一个投影技术在一个端到端的计划领域 的 推 广 。 特 别 是 , 我 们 利 用 可 学 习 的Mahalanobis相似性度量对看不见的领域的强大的分类。3. 我们设计了一个指数移动平均框架的知识蒸馏。建议的模块与我们的可学习投影技术相结合,以减轻灾难性遗忘和分布变化的影响,适应历史的旧参数。2. 相关工作持续学习。为了解决持续学习中的遗忘问题,神经网络必须保持对过去视觉类别的理解。旧模型和当前模型之间的知识蒸馏[3,15](KD)标准基线利用Li和Hoiem [23]提出的KD,其中保留了旧模型和当前模型之间的预测。Hou等人[16]提出了一种特征空间的KD方法,以保持旧模型和当前模型的特征。在同一研究路线中,Simonet al. [30]引入平滑属性以从一个任务学习到另一个任务,从而考虑几何方面。另一种持续学习方法考虑记忆的选择和生成,用于记忆重放。一种经典的方法被称为羊群效应[36],即从每个类中样本的平均值中挑选最近的邻居。这类方法中的另一种方法是梯度情景记忆[5,25],它在学习新任务时使用旧的训练数据来Liu等[24]使用双层优化来合成样本,并且期望更优化的存储器重放与存储来自训练数据的样本相一致。尽管生成和选择样本用于持续学习的方法被广泛使用,但它不能保证在训练和测试分布变化下的鲁棒性。域泛化。领域泛化技术的目标是在训练领域之外进行泛化,这与重新调整的领域自适应相比是一个不同的目标引入了源域和目标域之间的分布变化。域泛化的问题也不同于少数或无监督域自适应,9267我我我Q2在这些问题中,测试数据在训练期间是可访问的[11,37]。一个标准的方法是在训练中公开一个具有各种域的模型,如[33]中所建议的,一组新类YN的样本以及一组旧类YO的样本。目的是训练一个模型来分类所有可见的类,即,你是N。的允许的数目我我经验风险最小化这个简单的想法来自YO的训练样本的严格约束(称为监督学习对于领域泛化是有效的,如[13]所示。一个扩展是使用[38]中提出的Meta学习策略为了提高泛化能力,Zhouet al.[40]提出了一种应用于特征统计的平滑风格转换虽然这些技术可以有效地推广到看不见的分布,但它们处理包含多个任务的数据流的能力仍然值得怀疑。学习嵌入。 计算之间一对点,投影矩阵(例如,协方差,正-半正定矩阵)在图像识别中起着至关重要的作用。Bardes等人[1]在样本之间应用协方差进行解相关和去相关以避免崩溃(即,非信息特征向量)。Faraki等人[9]提出了一个跨域三重损失使用协方差域对齐。投影矩阵也已知对于计算两个实体之间的相似性是有效的,排练记忆M)。在我们的跨域持续学习设置中,我们处理识别场景,在训练期间,我们观察m个源域,即,D1,. . .,Dm,每个具有不同的分布。学习序列被定义为通过任务流T1,. . .,Tq,其中来自每个任务的数据由m个源域的序列组成。请注意,在我们的设置中,我们不需要关于域的信息(例如,域标识符),从该域标识符给出每个任务中的样本。当在每个片段中馈送训练数据时,我们感兴趣的是当数据域处于随机顺序并且该过程重复多次(例如,(五)。像标准的持续学习设置一样,从每个新任务中学习一组新类的知识。在测试时,我们遵循域泛化评估-uatioSn协议,其中训练的模型必须预测在[31,39]。 相比之下,我们提出的方法i=1 Yi,来自未见过/目标域的采用判别投影矩阵的学习以Mahalanobis度量和偏差项的形式的特征,以生成鲁棒的预测器。3. 该方法In this section, we present our approach to learning taskssequentially with: 1) constraints on the storage of the previ-ously observed learning samples, and 2) severe distributionshiftswithin the learning tasks,without suffering from the so-called issue of catastrophic forgetting. 我们的学习方案确定的功能和相似性度量学习联合。特别是,我们学习在潜在空间中定义的特定于类的相似性度量这与学习功能本身一起无缝完成。下面,我们首先回顾一下框架中使用的一些基本概念。我们的方法通过合并两个组件来解决域泛化和灾难性遗忘:1)通过学习Maha-lanobis度量和2)基于指数移动平均法知识提取参数,后面会讨论。3.1. 符号和预备在整篇文章中,我们用粗体小写字母表示向量和矩阵(例如,x)和粗体大写字母(例如,X)分别。在x上,[x]i表示位置i处的元素,而<$x<$2= x<$x表示其平方l2范数。我们用S表示一个集合。在形式上,在持续学习中,模型通过几个称为任务的步骤进行训练。每个任务Ti,1≤i≤q,Dm+1。 我们注意到Dm+1有来自未知数的样本,分布我们的设置在图中概念性地呈现。二、像标准的持续学习方法一样,我们也通过将范例存储在内存M中来应用经验回放。在某种程度上,这将有助于防止遗忘问题。存储在存储器中的样本是从每个类和每个域构造的。我们将随机选择的样本存储在内存中,并确保每次运行都使用同一组样本。在下文中,为了简单起见,我们丢弃任务指示符i并假设标签空间的大小为C。3.2. 基于学习相似度的领域泛化在这一部分中,我们提出了我们的方法来学习类相似性度量在跨领域的持续学习设置,重点推广到未知的领域。为此,我们鼓励学习语义上有意义的功能,通过配备类相似性度量,通过Mahalanobis相似性计算获得的分类器在这里,我们认为域对齐是以有区别的方式进行的。在这样做时,我们的想法是一致的,最近的作品,利用在其域对齐推理的特征语义的概念,以避免对齐语义不同的样本从不同的域的不良影响。举几个例子,用于无监督域自适应的对比自适应网络( CAN ) [17] , 用 于 少 量 学 习 的 协 方 差 度 量 网 络(CovaMNet)[22],用于标准域泛化的语义特征的模型不可知学习(MASF)[6]和9268C2CC2R2c cc火车在这里,我们认为分类器网络在生成类预测时也考虑了类样本的潜在分布。为此,我们为分类器网络配备了正半定(PSD)马氏相似性度量作为可学习参数,以鼓励学习跨不同领域的语义上有意义的特征。此外,类别特征被允许通过学习偏置向量bc来移位。我们将这些参数存储在网络中,并在学习新任务时扩展以匹配新类的数量因此,在学习新任务后,我们框架中的预测层包括额外的可学习参数φ={k,b,. . . ,b}。1 1C C图2.跨领域持续学习的整体环境。训练问题被分为几个任务,其中每个任务然后,我们学习主干表示参数θ与φ一起以端到端的方式。利用φ,可以通过下式获得针对通过网络的图像x的关于类别c的所提出的相似性得分:新任务具有来自以下的新颖对象类别的子集:sim(x;θ,φ)=(f(x)−b)(f(x)-b).(一)各种培训领域。 虽然来自旧任务的每次都被丢弃,模型必须依次从θ ccθ c传入任务对来自具有不同分布的看不见的域的输入进行评估。跨域三元组(CDT)损失,用于从未知域进行人脸识别[9]。我们首先介绍整体网络架构。我们的体系结构紧密遵循在持续学习环境中使用的典型图像识别设计设fθ:X →直觉Mahalanobis相似性学习背后的动机是确定f θc,使得通过学习扩展或收缩fθ(x)∈Rn 的轴,在生成(1)时获得某些有用的性质。 为了更好地理解我们的学习算法的行为,令rc=(fθ(x)−bc),并且f θ c的特征分解为f θc= VcΛcVθ。然后,H表示由θ参数化的骨干CNN,rc crc=.Λc2VcΣCΣΛc2Vcc提供从图像输入空间X到潜在空间此外,设fφ:H → Y是一个由φ参数化的分类器网络,它将fθ的输出映射到类别标签值。更具体地说,通过fθ(·)转发图像x输出一个张量,该张量在被展平(即,fθ(x)∈Rn)作为分类器网络fφ(·)的输入。在典型的流水线中,目标是在每个任务Ti,1≤i≤q上训练模型,同时扩展分类器的输出大小以匹配类的数量。请注意,在我们的设置顺序学习协议没有强先验和假设,域标识和重叠类。在大多数连续学习方法[16,23,30]中,分类器网络fφ通常由具有权重W=[w1,. . .,wC]n∈RC×n,其中wi∈ Rn. 当学习一个新任务时,W被扩展为通过容纳k个新任务来覆 盖 k 个新 任 务 类 别 , 即 ,W=[w1,. -是的-是的 ,wC ,wC+1,. -是的-是的 ,wC+k]n. 然后定义了类权重 wc与图像x的特征fθ(x)=h∈Rn之间的=?1V?2,(2)其将rc与由eige n个值加权的rrc的eige n个向量关联。 当rc在rc的前特征向量的方向上时,它的值最大。然后,在相关联的类样本上优化该项会导致数据源的更具区分性的对齐。一个计算效率更高的替代方案。利用这个结构,我们可以进一步分解它,以获得更有效的版本。 相似度量矩阵可分解为L∈ Rr×n,其中r <$n. 这将确保PSD保持不变,并产生有效的相似性分数[7,8]。此外,它可以大大减少存储需求,并增加了我们的方法的可扩展性时,一个大规模的应用程序被认为是。在实践中,这使我们可以方便地将FC层的嵌入实现到任何神经网络中。使用分解,(1)归结为通过投影为?wc,h?=w?h,通过损失函数进行优化(见图2)。3(a))。尽管它被广泛使用,我们认为,这种方法是不健全的分布变化,因为它不是¨simc(x;θ,φ)=?Lc.fθ(x)−bcΣ¨2¨。(三)显式设计用于对齐在以前的类中看到但来自不同分布的样本整体培训管道。最后,更新的分类器参数变为φ={L1,b1,. - 是的- 是的 ,LC,bC}。后来在任务1任务2任务3任务q123随机更新模型213随机更新321随机更新321随机更新测试104评估任务1评价任务1、评估a任务1和3评估a任务1q任务预测11R9269CCC cc图3.我们的方法的管道。(a)为了比较,我们展示了一个标准的持续学习方法,当一个新的类被提出时,扩展参数。(b)我们的方法还使用Mahalanobis度量和偏差作为可学习参数来扩展分类器,以在训练域中学习语义上有意义的特征。(c)扩展我们提出的领域泛化方法与知识蒸馏,允许平滑更新时,学习新的任务。实验中,我们将研究在我们的框架中不同的r值的影响。我们存储了一些例子,从看到的任务和各种领域。在训练期间,小批量中的样本x来自当前任务和内存中的样本因此,我们的目标是最小化和旧任务。然后,给定温度τ,我们根据当前和旧模型ΣCLDis(t,t−1;x)=−pt−1(x)logpt(x),(5)跨域和样本的损失函数。 我们的参数在训练期间结合特征提取器参数θ来更新表示每个类别的φ。我们使用广泛使用的交叉熵损失来训练我们的模型与.C cc=1Σ。Σ经验风险最小化(Empirical RiskMinimization,ERM)[33]pt−1(x)=expsim(x;t−1)/τ. CΣCexpsim′(x;t−1)/τ n,pt(x)=expsim.c(x;τt)/ττexpsim′(x;τt)/τ.Σεexp simc(x;θ,Lc,bc)c′=1cc′=1cLCE=−δy=clog。Σ其中相似性得分sim(·)通过(3)获得。x∈X<$Mc′expsimc′(x;θ,Lc′,bc′)(四)正如在[10]中所观察到的,应用于旧模型的时间建模方法稳定了训练。其中δ是与标签对应的指示函数y.如前所述,我们有来自不同领域的范例的记忆。因此,可学习的参数可以被更新为更一般化的分类器,以尝试改善对看不见的域的分类。我们在图中概念性地展示了我们提出的马氏相似性学习(MSL)方法。3(b)款。3.3. 指数移动这里的想法是,当前模型的输出不能显著偏离旧模型。为此,我们采用平滑参数更新策略,使用指数移动平均(EMA)更新。连接到KD,其想法是平滑地指导当前模型参数的学习,同时考虑旧模型的预测。因此,我们在框架中将EMA更新定义为θt−1=γθt−1+(1−γ)θt,平均值bt−1=γbt−1+(1−γ)bt,(六)C c c在本节中,我们开发了一个有效的知识蒸馏(KD)策略,以利用以前学习的知识,而不需要旧任务虽然许多其他方法专注于仅使用旧模型和当前模型[3,16,23,30]应用KD [ 10 ],但我们利用先前知识的历史来限制与旧模型的分歧。令t={θt,φt}和t−1={θt−1 ,φt−1}是我们框架中当前的Lt−1=γLt−1+(1−γ)Lt,其中γ是正平滑系数超参数。此外,我们将停止梯度算子应用于旧模型。一旦训练完成,旧模型将被丢弃。该过程描述于图1中。3(c)款。 我们的总损失变成LCE+ λLDis,λ表示KD的权重损失在我们的实验中,我们称这种方法为MSL +现款车型旧模式(c)指数均线数据第一���������−1=������������−1+ (1 −���)��� ���������↦������−1特征提取器������−1=���������−1+ 1 −���������������↦������−1分类器������−1=���������−1+ 1 −���������������↦������−1停止梯度蒸馏预测火车(b)我们提出的使用Mahalanobis度量和偏差的方法数据库1���特征提取器马氏度量+偏差(Learnable)预测火车(a)标准继续学习新增班数据库1���特征提取器分类器预测火车ΣC、9270Mov。92714. 实验在本节中,我们将我们的方法与(类)持续学习(CL)和领域泛化(DG)中的现有方法进行我们首先介绍我们的竞争对手的方法和实验细节。基线。为了评估我们提出的方法,我们与CL中的竞争对手方法进行了比较,即LwF [23],LU-CIR [16]和GeoDL [30]。简单地说,LwF [23]对预测应用知识蒸馏,而LUCIR [16]采用旧模型和当前模型的特征保留,GeoDL [30]通过旧模型和当前模型的两个子空间的平滑过渡这些模型是广泛使用的和最近的方法的组合。此外,我们还包括基线经验风险最小化(ERM)[33]以及最近的DG方法MixStyle [40]在标准化层中使用风格转换,插值均值和标准差,其中小批量输入来自不同的域。此外,为了在测试时处理分布偏移,ARM[38]使用上下文网络,该网络通过元学习策略利用额外的域信息。为了公平比较,我们采用所有基线设置,而不作重大修改。数据集。在我们的实验中,我们使用流行的DG基准测试,即DomainNet [29],PLAN Home [34],PACS [21]和NICO [14]。这些数据集是理想的可以-CL,一些样本也存储在存储器中以在未来的迭代中重放。在我们的实验中,DomainNet的内存大小设置为10,所有其他数据集的内存大小设置为5。请注意,样本选择策略不是这项工作的主要重点。因此,我们选择使用随机选择并在我们实验中的所有方法的内存中重放相同的图像。我们用标准的数据扩充(例如,翻转,裁剪和颜色抖动),使用SGD优化器,DomainNet的学习率为1 e−4,其他数据集的学习率为2 e −5。我们使用在ImageNet上预训练的ResNet-34模型作为我们的骨干网络。至于蒸馏损失,我们通过实验观察到,将超参数λ设置为1 e−3,1e−3,1e−2,1e−3分别适用于LwF [23],LUCIR [16],GeoDL [30]和我们的方法。在我们的方法中,指数移动平均超参数被设置为γ=0。九十六。正如[15,23]中所建议的,我们设置τ=2以实现类之间更软的概率最后,我们发现Mahalanobis度量矩阵的最大秩r=64,在所有协议和数据集上都能很好地工作。评价措施。我们使用两个重要的测量来评估跨域CL的基线和方法。在不断学习新任务时,考虑所有任务的平均精度来评估模型的能力。另一个测量是从新任务向后转移到旧任务的能力,这与跨域CL中的遗忘率我们跟着后面-提出了一种在Sn [25]中的Ward传递公式,其中At是训练和评估领域可推广的数据集任务T准确度(即,其中y∈不i=1Yi来自域具有多个区域和大量班DomainNet是一个大规模的数据集,包含来自4个领域的126个类别的图像:Real,Cli- part,Painting和Sketch。家是另一个大型的D1,. -是的-是的 ,Dm)。 让At|j是评估的任务的准确性使用从任务1到j训练的模型,其中j≤t。然后,平均精度和向后传递被定义为:包含15K图像的基准测试,总共跨越65个4个领域的类:真实,剪贴画,艺术和产品。 我们1个月A=A,BW= 1A|- 一|.(七)还考虑PACS数据集,其中包含来自4个领域的图像:艺术,卡通,照片和素描。PACS提供Qtt=1Qt=1特什特塔格具有挑战性的识别场景,如[21]中所述。最后,我们在NICO数据集上进行评估,该数据集具有多个称为上下文的域。我们考虑从数据集的一个分割的四个域(吃,地面,水和草),因为只有这些域包含所有类。相比之下,我们考虑PACS和NICO动物数据集上的较小任务实验,因为类别数量有限。实作详细数据。对于所有数据集,我们遵循提供的分割进行训练和测试。此外,图像的大小调整为224 ×224。 我们采用三个跨域CL协议,其中包括2,5,和10个任务。在我们的实验中,我们排除一个域进行评估,并考虑其余的域进行训练,例如, 对于DomainNet,我们在Paint,Real和Sketch样本上训练时保持Clip域进行测试。按照惯例,一个更好的模型被识别为具有较大的平均精度值和较低的后向传输速率值。4.1. 监督跨域连续学习我们评估我们的跨域CL方法在监督的方式时,从基准的可用类被分成5个任务和10个任务。如表1所示,每一列对应于当从训练中完全排除(认为不可见)单个域的样本时的性能。此外,我们还报告了在我们的补充材料中看到的域上的准确度数的结果。从表中可以看出,我们使用Mahalanobis度量和偏差(MSL和MSL + Mov)的方法在CL和DG中轻松优于所有竞争对手。 这里 ,具 有知 识蒸馏 和指 数移 动平均 的MSL(MSL + Mov)比MSL改进,并实现了Q9272ERMLUCIRGeoDLLwFMSL(我们的)MSL+移动(我们的准确度%方法DomainNet主页10-任务Acc. (% ↑)5-任务Acc. (% ↑)10-任务Acc. (% ↑) 5-任务Acc.(% ↑)夹油漆房草图夹油漆房草图艺术产品剪贴画 房艺术产品剪贴画房ERM [33]60.051.460.353.159.750.257.751.748.852.364.762.449.751.664.961.9LwF [23]61.351.960.053.562.252.162.654.949.453.865.263.249.951.367.563.1LUCIR [16]61.152.159.753.061.352.761.155.449.353.665.762.349.751.667.564.9GeoDL [30]61.050.558.554.162.152.861.155.550.653.067.163.150.552.467.464.2ARM [38]57.049.362.351.255.451.860.247.739.855.054.351.743.656.354.555.4MixStyle [40]58.051.459.552.559.648.556.053.547.354.956.356.048.956.957.759.8MixStyle + LUCIR62.450.059.552.858.247.454.851.851.352.265.162.049.349.565.563.4MSL(我们的)63.251.361.855.663.355.463.657.461.661.471.772.754.363.668.067.3MSL +移动(我们的)63.755.063.156.463.855.364.658.361.263.075.373.157.960.271.470.9表1.跨域持续学习DomainNet [29]和DomainHome [34]数据集上10个任务和5个任务协议的未知域的平均准确率。756575 65706560555012345678910任务(a) 夹605550454012345Tas6ks78910(b) 油漆706560555012345678910任务(c) 房6055504512345Tas6ks78910(d) 草图图4.使用10任务协议的DomainNet数据集[29]的不可见域(剪辑,绘画,真实和草图)上任务的平均准确率857580707565)7060556550 60455582.58580.077.58075.07572.57070.06567.565.0 601234TA5SKS6789101234TA5SKS6789101234TA5SKS6789101234TA5SKS678910(a) 艺术(b) 产品(c) 剪贴画(d) 房图5.使用10-tasks协议,在WITHOome数据集[34最高的准确度。举一个例子,当生成DomainNet-Sketch作为一个看不见的域时,我们的MSL + Mov获得了56.4%,这比GeoDL的10任务协议的54.1%的性能高出2.3%这种改善趋势也出现在所见的领域。此外,在Fig.图4和图5中,我们显示了通过我们的方法获得的任务的平均分类准确率,与之前的CL方法相比,在10任务协议的DomainNet和CashHome数据集上。总的来说,我们的方法优于基线,数据集上的显著性能差距此外,我们还对PACS和NICO-Animal数据集进行了评价。结果示于表2中。在这里,我们的方法的平均精度优于其他竞争对手至少2%的利润率。MSL + Mov清楚地显示了知识蒸馏对模型历史的好处,在最好的情况下,与MSL的差距为2.1%。总的来说,我们观察到标准CL算法在很大程度上无法防止跨域设置中的灾难性遗忘,这由图1中所示的高向后传输速率指示。ERMLUCIRGeoDLLwFMSL(我们的)MSL+Mov(我准确度%9273ERMLwFLUCIRGeoDLMSL(我们的)MSL+移动(我们的)ERMLwFLUCIRGeoDLMSL(我们的)MSL+Mov(我们的)方法NICO-Animal(%↑)PACS(%↑)吃地水草艺术 卡通照片素描74727068666462603264128矩阵秩2567674727068666462603264128矩阵秩256(a) MSL(b)图7.在学习Mahalanobis度量矩阵时改变r对平均准确度的影响,使用的是Anchorhome数据集的未知域[34]和10任务协议。表2.2-tasks supervised learning领域泛化测试8080[14]和PACS [21]数据集。75752027181622141712127065605550艺术产品剪贴画70656055真正的50艺术产品剪贴画房107(a) 10内存大小(%↑)(b) 20内存大小(%↑)8夹油漆艺术草图2艺术产品真实剪贴画图8. 不同内存大小对平均(a) DomainNet(%↓)(b) 中国(%↓)使用数据库数据集的未知域的准确性[34]和10个任务的协议。图6. 10任务协议在DomainNet [29]和DomainHome [34见图6。相比之下,平均而言,我们的指数移动平均方法MSL + Mov可以在DomainNet上实现最低的反向传输率10.1%,在10任务协议的DomainHome数据集上实现最低的反向传输率7.8%。与我们最接近的竞争对手分别为12.8%(LUCIR)和12.3%(GeoDL)。注意,具有较低后向传输速率的方法更好。4.2. 消融研究和分析我们研究了超参数如何影响我们的建议的性能。下面,我们展示了矩阵秩对Mahalanobis相似性学习的影响以及内存大小如何影响性能。改变最大秩的影响。我们的方法采用低秩策略的度量矩阵。我们研究了当四个不同的r值(例如,32,64,128和256)。我们在图中观察7,改变r将改变小于1.5%的精度这些图还表明,为r设置一个较大的值(这意味着有更多的参数)不会直接提高性能。作为经验法则,我们用于所有实验的矩阵最大秩值设置为64。改变内存大小的影响。下面,我们研究了增加内存大小如何影响10个任务协议的平均准确性,其中包含10个和20个样本。图8表明,在内存中有更多的样本,对所有方法都有更高的准确度。我们提出的方法仍然可以受益于更多的范例和优于基线。我们观察到,我们的方法导致超过5%的内存中的10和20个样本大小5. 局限性和结论我们的设置和方法可以从两个方面进行限制。首先,像许多其他持续学习设置一样,我们设置的一个潜在假设是存储一些样例以供重播。这可能会限制其在某些具有严格隐私规定的应用程序中的使用其次,我们的方法中的参数数量随着任务数量线性增长虽然,我们已经提出了一个内存高效的替代方案,以及扩展到许多应用程序,这可能仍然限制了实际使用时,非常大规模的应用程序,严重的内存限制是必要的。我们提出了一种方法,通过Mahalanobis相似性学习和指数移动平均更新的知识蒸馏来概括训练域,同时减轻所谓的灾难性遗忘在我们的评估中,我们遵循所谓的leave-one-domain-out协议,其中在训练期间看不到测试域正如我们的实验评估表明,我们的方法在具有挑战性的数据集上,即DomainNet,NICHOHome,PACS和NICO-Animal,在类持续学习和领域泛化方面都优于现有方法消融研究还表明,我们的方法在各种条件下始终优于基线,并且对超参数的选择具有较低的敏感性。艺术产品剪贴画房艺术产品剪贴画真实反向转移率(%)准确度%准确度(%)ERM [33]88.086.582.384.376.382.984.761.9LwF [23]88.286.283.384.376.482.485.562.4LUCIR [16]88.186.683.384.376.582.184.262.2GeoDL [30]87.986.182.583.372.883.685.460.5ARM [38]86.283.580.883.565.183.384.964.9MixStyle [40]86.184.081.083.473.382.681.163.5MixStyle + LUCIR88.082.681.983.070.382.783.663.6MSL(我们的)89.986.284.485.277.382.187.062.8MSL +移动(我们的)91.387.985.087.277.284.189.064.99274引用[1] Adrien Bardes , Jean Ponce , and Yann LeCun.维 -creg : Variance-Invariance-Covariance Regularization forSelf- Supervised Learning(自监督学习的方差-不变-协方差正则化)。arXiv预印本arXiv:2105.04906,2021。3[2] Eden Belouadah和Adrian Popescu Il2m:具有双重记忆的类增量学习。在IEEE/CVF计算机视觉国际会议论文集,第583-592页,2019年。1[3] Pietro Buzzega 、 Matteo Boschini 、 Angelo Porrello 、Davide Abati和Simone Calderara。黑暗的经验,一般持续学习:2020年一个强有力的简单的基线二、五[4] 弗朗西斯科·M·卡斯特罗、曼努埃尔·J·马林-吉米·内兹、尼科·拉·吉尔、科迪莉亚·施密德和卡尔蒂克·阿拉哈里。端到端渐进式学习。在欧洲计算机视觉会议(ECCV)的会议记录中,第233-248页,2018年。1[5] Arslan Chaudhry,Marc高效的终身学习与a-gem。2019年,在ICLR。2[6] Qi Dou , Daniel Coelho de Castro , KonstantinosKamnitsas,and Ben Glocker.通过语义特征的模型不可知学习的领域泛化在NIPS中,第6450-6461页,2019年。3[7] Masoud Faraki,Mehrtash T Harandi,and Daughh Porikli.Large-scale metric learning: A voyage from shallow todeep.IEEEtransactionsonneuralnetworksandlearningsystems,29(9):4339-4346,2017。4[8] Masoud Faraki,Mehrtash T Harandi,and Daughh Porikli.一个全面的看编码技术的黎曼流形。IEEE transactionson neural networks and learning systems , 29 ( 11 ) :5701-5712,2018。4[9] Masoud Faraki , Xiang Yu , Yi-Hsuan Tsai , YuminSuh,and Manmohan Chandraker.面向未知领域人脸识别的跨领域相似性学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第15292-15301页,2021年。三、四[10] Geoffrey French,Michal Mackiewicz和Mark Fisher。用于视觉域适应的自集成。 在ICLR,2018年。 5[11] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无 监 督 在 Proceedings of the 32 nd InternationalConference on Machine Learning,第37卷,Proceedingsof Machine Learning Research,第11803[12] 放 大 图 片 作 者 : MuhammadGhifary , DavidBalduzzi.Kleijn , and Mengjie Zhang.Scatter componenta
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功