从不充分数据中学习的等变性和不变性归纳偏差

153 浏览量更新于2023-11-30 收藏 2.13MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文从不充分数据中学习的等变性和不变性归纳偏差谭王1孙倩茹2Sugiri Pranata3 Karlekar Jayashree3张汉旺11南洋理工大学2新加坡管理大学3松下研发中心新加坡{tan317，hanwangzhang} @ ntu.edu.sgqianrusun@smu.edu.sg{sugiri.pranata，karlekar.jayashree} @ sg.panasonic.com抽象的。我们感兴趣的是从不充分的数据中学习鲁棒的模型，而不需要任何外部预训练的检查点。首先，与足够的数据相比，我们展示了为什么数据不足会使模型更容易偏向于通常与测试不同的有限训练环境例如，如果所有训练天鹅样本都是“白色”的，则模型可能错误地使用“白色”环境来表示内在类天鹅。然后，我们证明了等变性归纳偏差可以保留类特征，而不变性归纳偏差可以去除环境特征，保留类特征，使其可以推广到测试中的任何环境变化为了将它们应用于学习，对于等方差，我们证明了任何现成的基于对比的自监督特征学习方法都可以部署;对于不变性，我们提出了一种类不变风险最小化（InvariantRisk Minimization，简称VRM），它有效地解决了传统VRM中缺少环境注释的挑战。在真实世界基准测试（VIPriors，ImageNet100和NICO）上的最先进的实验结果验证了数据高效学习中的等变性和不变性的巨大潜力。该代码可在https://github.com/Wangt-CN/EqInv上获得。关键词：归纳偏差，等方差，不变风险最小化1介绍数据永远不会太大。如图1（a）所示，如果我们有足够大的天鹅和狗的训练样本量，例如，狗和猫在任何环境中，如不同的颜色，形状，姿势，和背景，通过使用传统的softmax交叉电子tropy为基础的“天鹅与猫”，狗”类的情况下，我们可以获得丢弃共享环境特征但保留区分类特征的“完美”模型。基本的常识是，如果模型在训练中看到任何“case”，那么测试数据只是一个看到的IID子集，训练数据，产生与训练一样好的测试精度[85]。在本文中，我们有兴趣从不充分的数据中学习。除了收集数据是昂贵的这一共同动机外，我们认为，arXiv：2207.12258v2 [cs.CV] 2022年9+v：mala2255获取更多论文2T. wang等人...…...…(a) 足够的训练样本(b) “天鹅”不足“狗”足(c) 等方差（SSL）(d) 等变性+不变性（我们的）图1：说明所提出的等方差和不变性归纳偏差如何帮助从不充分的数据中学习卡通人物等表示类的特征。加框的词语，如表示环境特征。灰色方框中的数字表示学习模型。为了简单说明，我们省略了作为背景的环境缩小数据不足和数据充足之间的性能差距，解决机器泛化中的非IID挑战的关键-即使训练数据足够，测试仍然可以在训练分布（OOD）之外[35，74，79]。毕竟，我们总是可以框出不符合训练模型的特殊测试样本[40，31]。请注意，与广泛采用大规模训练集[83，80，82]预训练的少次学习不同，我们的任务不允许使用任何外部预训练的检查点和骨干1。图1（b）说明了为什么数据不足会损害泛化。不失一般性，我们进行了一个思想实验，我们只有有限的天鹅在“白色”的颜色环境，而足够的狗在不同的环境。因此，我们可以预期，“狗”特征仍然会被提取来表示狗模型，但“白”特征将被鲁莽地学习来表示天鹅。这是因为通过使用“天鹅”或“白色”特征训练天鹅模型产生类似的训练风险：1）如果是前者，则训练损失最小化，如图1（a）的完美情况; 2）如果是后者，则唯一可能的训练错误将是将“白色狗”误分类为天鹅。但是，在实践中可以很容易地纠正，例如：，通过区分性地训练样本到模型距离，其中z表示特征向量r2。为什么在相同的训练风险下，天鹅模型更喜欢“白”而不是“白”？首先，深网络中的特征提取遵循自下而上，从低级到高级的方式[53]-“简单”特征（如颜色）可以在较低层轻松学习，而“复杂”特征（如对象部分）其次，常用的交叉熵损失鼓励模型在“简单”特征足以最小化损失时停止学习因此，这种机制也被称为1 有关详细信息，请访问https://vipriors.github.io/2 “white dog”样本向量（z white，z dog）和天鹅模型向量（z white，0）之间的距离为：（zwhite，z dog）−（z white，0）=（0，z dog）= z dog;类似地，我们将“white dog”和狗模型之间的距离设为z white。表示自我监督学习“Swan”不变性…白色环境#1环境#2环境编号1…白色白色白色白色天鹅天鹅天鹅……白色白色白色…狗狗…狗狗白色白色黑色黑色黑色黑色环境#2……...+v：mala2255获取更多论文∥ − − ∥ ∥ − −∥从不充分数据的等式因果关系文献中的快捷偏倚[28]或虚假相关[71，87]。我们将在第3.1节中提供正式的理由。通过比较图1（a）和图1（b）之间的差异，我们可以看出，改善不充分数据的泛化的关键是在恢复“白色”电子特征的同时恢复丢失的为此，我们提出了两个归纳偏差来指导学习：类保存的等变性和环境去除的不变性等方差这种先验要求样本的特征表示应该与其语义变化等变，例如，，应用于样品的任何变化都应忠实地反映在特征变化中（数学定义见附录）。因此，如果我们对每个样本特征学习施加对比损失，我们可以鼓励不同的样本映射到不同的特征（详细分析和我们的选择请参见第3.2节）。如图1（c）所示，等方差避免了图1（b）中的退化情况，其中所有“白色”样本都坍缩为相同的“白色”特征。因此，对于一个测试“黑”，保留的“白”特征可以赢得一些天鹅分数，尽管失去了“黑”和“白”之间的相似性。值得注意的是，等方差先验理论上可以揭示最近的发现，即自监督学习特征可以提高模型的鲁棒性[39，75，38，88]。我们将把它作为未来的工作。不变性。虽然等方差保留了所有特征，但由于环境有限，天鹅模型仍可能被“白色”环境混淆，即，测试“黑天鹅”仍可能被错误分类为狗，例如。，when（zblackzwhite，zswanzswan）>（zblack0，z天鹅z狗）。受不变风险最小化[4]（3.3节）的启发，通过施加环境不变性先验（3.3节）来消除环境偏差，如图1（d）所示，如果我们将训练数据分为两个环境：“白天鹅”与“白天鹅”。“白狗”和“白天鹅”与“黑狗”，我们可以学习一个常见的分类器（即，特征选择器），其关注于“天鹅”和“狗”特征，这是跨越两种颜色环境的唯一不变性-一种与“白色”相同，而另一种包含两种颜色。然而，传统的标注需要环境标注，然而这是不切实际的。为此，在第4节中，我们提出了基于对比目标的类间映射，它可以在不需要注释的情况下有效地工作。我们将使用这两个归纳偏置的整体算法称为：，等变性和不变性，如EqI？我们在三个真实世界的视觉分类基准上验证了EqI分类的有效性：1）VIPriors ImageNet分类[14]，其中我们评估每个类10/20/50个样本;2）NICO [35]，其中训练和测试环境分布严重不同; 3）ImageNet 100[84]，表示足够训练数据的情况在所有数据集上，我们观察到比基线学习者有显著的改进。我们的EqI测试仪在测试中实现了新的单型号最先进的水平：VIPriors-50上的52.27%和NICO上的64.14%。+v：mala2255获取更多论文∈||R4吨。wang等人2相关工作视觉感应偏差。对于具有许多可能解的学习问题，归纳偏差是一种启发式先验知识，它可以正则化学习算法以找到更好的解[61]。它在任何现代深度学习模型中都无处不在：从浅层MLP [59]到复杂的深层ResNet [12，3]和Trans-former [89，20]。归纳偏差通常可以分为两个阵营：1）等方差：特征表示应该忠实地保留所有数据语义[21，22，56]。2)不变性：泛化是关于学习对不同的环境保持不变[86，8]。常见的实际例子是CNN中的池化/跨越[47]，dropout [36]，去噪自动编码器[45]，批量归一化[25]和数据增强[13，16]。数据高效学习。大多数现有的作品都重复使用现有的数据集[96，15]并合成人工训练数据[52，24]。我们的工作与那些通过向深度网络添加先验知识来克服数据依赖性的工作更相关[10，30]。请注意，数据高效学习比流行的少量学习设置更普遍[83，80，82]，后者仍然需要外部大型预训练数据作为初始化或元学习。在这项工作中，我们提供了一个理论分析的差异学习不足和充足的数据，提出它在一个面向对象的泛化问题。OOD泛化。传统的机器泛化是基于训练和测试数据的独立和相同分布（IID）假设[85]。然而，这一假设在实践中经常受到挑战-分布外（OOD）问题显著降低了泛化能力[37，93，74]。大多数现有的工作可以被框成稳定的因果效应追求[71，87，46]或找到一个不变的特征子空间 [66 ， 90] 。最近，不变风险最小化（ Invariant RiskMinimization，简称RMM）采用了不同的优化策略，如收敛速度正则化[4，51]和博弈论[1]。我们提出的类智能标注通过放宽对需要环境注释的限制使3两种归纳偏见的合理性正如我们在第1节中所讨论的，给定一个带有标签Y=y的图像X = x，我们的目标是提取不随环境变化z Z而变化的内在类特征（x）。具体地说，Z被定义为感兴趣的任务中的所有类不可知项。例如，空间位置在目标检测任务中是固有的类特征，而在图像分类中是环境特征。这一目标可以通过使用干预性经验风险最小化（ERM）来实现[46]。它用干扰分布P（Y do（X））代替观测分布P（Y X），从而从Y的预测中消除了环境影响，使Y=y仅受X=x的影响[69]。具有分类器f的干预经验风险可写为（详细推导见附录）：R= ExP（X），yP（Y |do（X））L（f（x）），y）=L（f（（x）），y）P（y|x，z）P（z）P（x），（1）Xyz+v：mala2255获取更多论文LRR|||||ImageNet-完整版测试准确度：86.0%ImageNet-50ImageNet-10测试接入：44.0%测试加速度：4.0%Xy从不充分数据的等式训练样本不足[IID-测试][OOD-测试]图2：使用CLIP [ 72 ]预训练特征提取器在不同规模的ImageNet数据集上对类“hen”进行t-SNE [60]数据可视化蓝点和橙色三角形分别代表训练样本和测试样本。测试准确性由ResNet-50 [34]在每个数据集上从头开始训练来详见附录。其中（f（x）），y）是标准交叉熵损失。注意，Eq。由于环境Z通常是不可观测的，因此难以实现（1）当训练数据足够时，X几乎可以在任何环境Z中被观测到，从而导致Z和X的近似独立性，即：，P（Z|（X）P（Z）. R在Eq。（1）采用传统的机构风险管理方法：R<$R<$=R<$L（f（x）），y）P（y|x）P（x）=E（x，y）<$P（X，Y）L（f（<$（x）），y），（2）3.1数据不足的模型缺陷然而，当训练数据不足时，P（Z X）不再近似于P（Z），从而.例如，P（Z=）>P（Z =）。然后，正如我们在第1节中讨论的，一些简单的环境语义Z，例如，Z=，更可能在最小化由于P（y）而引起的R的过程中起主导作用|x）=P（y x，z）P（z x）在等式（2），导致主要捕获主导的环境，但缺乏内在的阶级特征。图2中的实证结果也支持这种分析。我们展示了使用各种训练大小的类hen的ImageNet分类结果。我们可以观察到，随着训练样本的减少，准确率显著下降，从86.0%下降到4.0%。毕竟，当训练规模无限大时，任何测试数据都是训练的子集3.2归纳偏差I：等变特征学习为了赢回丢失的内在类特征，我们采用基于对比的自监督学习（SSL）技术[17，33，65]，而不需要任何外部数据，以实现等方差。在本文中，我们遵循[ 86 ]中的定义和实现，通过使用对比学习来实现样本等变，即不同的样本应该分别映射到不同的特征。给定一个图像x，x的数据增广构成正例x+，而其他图像的增广构成N个增广x-。+v：mala2255获取更多论文∈E2“羊”“牛”“in“on“牛”“羊”6吨。wang等人类上下文类上下文(a) 从零开始(b) 等变学习(c) 等变不变学习图3：学习特征的t-SNE [60]可视化，包括NICO数据集上的类和上下文注释，（a）从头开始训练;（b）等变学习;（c）等变不变学习。对比度损失的关键是在特征空间中将正样本映射得更近，同时将负样本推开Eexp（（x）T（x+））i=1i=1x，x+，{x−i}N-logexp（X）TX（X+））+Nexp（<$（x）T<$（x−i））.（三）请注意，我们对任何SSL选择都持开放态度，这将在第5节中进行研究。我们通过从头开始训练并利用NICO [35]数据集上的等方差归纳偏差来可视化学习的特征，并带有类和上下文注释。在图3（a）中，很明显，在特征空间中没有明确的边界来区分类和上下文的语义，而在图3（b）中，特征对应于类和上下文被很好地聚类。3.3归纳偏倚II：不变风险最小化虽然等方差归纳偏置保留了所有的特征，在下游期间，模型仍可能受到“白色”特征的混淆微调，导致R=R。为了减轻这种错误的偏见，解决方案是使用逆概率加权（IPW）[5，44，57]（也称为作为reweighting [6，64，55]），以减轻天鹅中不堪重负的但是，他们必须遵循积极的假设[42]，即。，所有的环境语义Z都应该存在于每个类中。然而，当训练数据不足时，这种假设不再成立。例如，你如何羽绒重量最近，不变风险最小化（Invariant Risk Minimization）[4，51]通过施加不变性归纳偏差来直接消除环境语义Z的影响，从而解决了非正性问题。具体来说，首先将训练数据分成多个环境e。然后，它正则化在不同的分裂中同样最优，即。，跨环境不变：<$Le（wT<$（x），y）+λ<$$> w=1Le（wT<$（x），y）<$2，（4）e其中λ是权衡超参数，w代表虚拟分类器[4]，用于计算跨分裂的梯度惩罚-尽管不同的环境可能会引起不同的损失，但特征向量必须同时将其正则化为最佳+v：mala2255获取更多论文我我·E--从不充分数据的等式时间（梯度越低越好）以相同的方式（通过使用共同的虚拟分类器）。请注意，每个环境都应该包含一个独特的环境特征分布模式[4，23，2]：假设我们有k个环境，分布为{p1，p2，...，p k}。如果pe1pe2，i = 1到k，在两种环境下的重新配置将删除所有的k个功能-保留任何一个都将被惩罚的第二项方程。（四）、传统的标注需要环境标注，这在实践中通常是不可能的。为此，我们提出了一种新的类明智的正则化每个类内的不变性，而不需要环境监督。我们在图3（c）中展示了施加这种不变性归纳偏差的定性结果。与图3（b）相比，我们可以观察到，在应用之后-使用我们提出的类智能聚类，保留了内部类特征的等方差，同时上下文标签不再响应-环境特征被删除。4我们的EqInv算法图4描述了方程I的计算流程。在下文中，我们将详细阐述其每个组成部分。输入：不足的训练样本，表示为图像x的对（x，y）和它的标签y。输出：具有内在类特征f（x）和无偏分类器f（f（x））的鲁棒分类模型f（x）。步骤1：通过SSL进行等变学习如第3节所介绍的，广泛的SSL借口任务足以编码样本等方差。为了与VIPriors挑战数据集[14]中的其他方法进行公平比较，我们使用MoCo-v2 [33，18]，Simsiam [19]和IP-v2 [86]来学习图4（a）中的mathematics。我们将基于最新MAE [32]的结果留在附录中。步骤2：基于调整后的相似性的环境构建现在，我们准备使用XML删除XML中的环境要素。然而，由于我们没有环境注释，因此传统的注释不适用。所以，这一步的目的是自动构建环境。然而，识别独特的环境模式的组合数量是非常具有挑战性的，不适当的环境分裂可能包含无法去除的共享模式。为此，我们提出了一个有效的类明智的近似，寻求两个环境w.r.t. 每个班级。我们的主要动机是，对于不充分的训练数据，每个类内的环境方差相对简单，因此我们假设它是单模态的。因此，如图所示在图4（b）中，我们建议使用每个类（我们称之为锚类）作为锚环境模式，以将其余类（我们称之为其他类）的样本分成两组：与锚相似或不相似。因此，对于C类，我们将有总共2个C近似唯一的环境。直觉上，这种类明智的策略可以有效地消除严重占主导地位的背景偏见，一门课。例如，如果所有天鹅样本都是“ 白色 ” ，则 “ 白色 ” 特征可以+v：mala2255获取更多论文∈−8 T. wang等人拉近推开图像Image(a) 第1步：等变学习（传统SSL方法）(b) 第2步：调整相似度的聚类（我们的新模块1）(c) 第三步：类式学习（我们的新模块2）图4：我们提出的EqI方法的流程图，有3个步骤。带有阴影的矩形表示特征，并且Ej表示类j的生成的e_n_t。（c）中的x-1k和x-2k分别是子集e1和e2的第k个负样本。我们强调，类式优化优化掩模层m（和额外的MLPg），而梯度不会流回特征提取层。仍然被识别为非歧视性的颜色特征，这要归功于“黑色”和对于包含l个图像的每个锚点类，环境Env#1包含这l个样本作为阳性，来自其他类的“相似”样本作为阴性;环境Env#2包含相同的阳性样本，而来自其他类的“不相似”样本作为阴性。定义两个样本之间的“相似性”的一种直接方法是使用余弦相似性。我们分别计算锚点类和其他类的成对图像之间的余弦相似度。我们得到矩阵SRl×n，其中n是其他类别中的图像的数量。然后，我们沿着锚类的轴平均这个矩阵，如在伪坐标中：s+=mean（S，dim=0）。在对s+进行排序之后，容易得到在Env#1中分组的“最小”样品（对应于s +中的较高半值）和在Env#2中分组的“不相似”样品（对应于s +中的较低值）。这是一个均匀的分裂。图5（a）显示了使用上述简单的余弦相似性在有色MNIST 3 [ 64 ]上锚类0的结果环境。我们可以看到，数字类在Env#1和Env#2中的分布不同，这表明两个环境的差异还包括类信息，这些信息在应用 J a v a S c r i p t 后将被灾难性地删除。为此，我们提出了一种相似性调整方法。它是通过减去类与类之间的相似度来调整每个样本与类之间的相似度，其中样本属于类。首先，我们计算第i个（i=1，...，C1）其他类和锚类：s<$i=mean（s+[ai：bi]），其中我们假设第i个其他类的图像索引范围为[a i：1：bi]。这种相似性可以被看作是一种更纯粹的“阶级效应”，3 它是从MNIST数据集[54]修改的，通过在每个数字（类）上注入颜色偏差无偏比为0。5%，例如，99。0的5%样本为红色，只有0。5%，颜色统一。锚定类其他样品环境环境#1第2话 Eq（6）特别优化聚类环境#2特征环境#1环境#2递减相似性………………调整每隔一个样本相似度是说…+v：mala2255获取更多论文−◦·◦2-logexp（zTz+·w）+Δ从不充分数据的等式数字颜色数字颜色百分百百分百百分之七十五百分之七十五百分之五十百分之五十百分之二十五百分之二十五0%的百分比123456789c0 c1 c2 c3 c4 c5 c6 c7 c8 c9(a) w/o调整后的相似性0%的百分比1234567 8 9 c0 c1 c2 c3 c4 c5 c6 c7 c8 c9(b) w/调整的相似性图5：通过使用（a）香草余弦相似性和（b）我们调整的相似性，在有色MNIST [ 64 ]上获得的示例锚类0的环境E 0。在X轴上，1 - 9是其他数字类别，c 0-c9表示用于创建此颜色偏差数据集的10种颜色。在Y轴上，百分点表示分组到特定环境中的数字（或颜色）从类和环境两者的总效果中移除，然后仅留下“环境效果”。因此，对于来自第i个其他类的任何样本xj，其与锚点类的调整后的相似性为：是的。利用这种相似性，我们获得了新的环境，并在图中显示了统计数据。5（b）. 令人印象深刻的是，锚类0的偏置颜色（即，第0种颜色c0或红色）在Env#1和Env#2之间变化，但是类和其他颜色（红色虚线框）在这两个环境中几乎均匀地这意味着阶级和环境的影响被解开了。步骤3：类不变风险最小化。有了自动构造的环境，我们就可以从XML中删除环境特性了。特别是，我们提出了一个类明智的对比目标的基础上，这是定义如下。如图4（c）所示，给定类i的环境e中的训练图像x，我们使用可学习的向量掩码层m乘以k（x）来选择不变特征。然后，我们按照[17]构建投影层g（）以获得z=g（m（x））用于对比监督，其中g是具有ReLU激活的一个隐藏层MLP，并表示逐元素产生。对于每个锚点类k，我们定义了一个基于环境的监督对比损失[49]。它不同于传统的自监督对比损失具体地说，我们的损失是在每一个节点e+∈Ek内计算的。We将锚类样本的表示（在e中）作为正z，并且将其他类样本（在e中）表示为负数z−，我们有：Σ1ΣΣz∈ez+∈e N+exp（zTz+·w）z−∈e exp（zTz−·w）其中N+表示当前小批量中的正样本数量，w=1是用于计算梯度惩罚项的“虚拟”分类器[ 4 ]。因此，建议的类间互损4为：Lk=0e∈Ek （e，w=1）+λ4 请注意，在实现中，我们采用了一个高级版本的[51]。详情请参阅附录n（e∈ Ek，w=1）=、（五）+v：mala2255获取更多论文Σ◦10吨。wang等人其中λ是权衡超参数。总的训练目标是最小化传统交叉熵Lce和类间正则化Lk的组合：minf、g、m、mLce（f，m，n）+Ck=1Lk（g，m），（7）这里我们使用f（mx（x））进行推理。值得注意的是，每一个亏损列车在类方式的SNR惩罚更新期间，冻结不同的参数集合-SNR。由于SSL预训练仅保证了方差的等变，与训练中昂贵的SSL等变正则化[86]相比，我们的冻结策略更有效地减轻了由不变性偏差引入的对手效应，然而，这可能会丢弃等变特征以实现不变性。我们在5.4节中对这一现象进行了实证研究。5实验5.1数据集和设置VIPrior[14]数据集在VIPrior挑战[ 14 ]中提出，用于数据高效学习。它包含与ImageNet相同的1，000个类[26]，并且遵循相同的train，val和test数据分割。在所有分割中，每个类仅包含50个图像，因此数据集中的样本总数为150k。一些相关的工作[9，58]使用合并的集合（train和val）来训练模型。我们认为，这在某种程度上违反了数据有效学习的协议-使用不充分的训练数据。在这项工作中，我们的EQI模型以及比较模型在标准训练集上进行训练，并在val和测试集上进行评估。此外，我们提出了两个更具挑战性的设置来评估模型：VIPriors-20和VIPriors-10。VIPriors的唯一区别是它们的训练集中每个类分别有20和10个图像。val和测试集没有变化。因此，我们将原始的VIPriors-50称为VIPriors-50。NICO[35]是一个真实世界的图像数据集，用于评估OOD方法。NICO的关键见解是提供图像标签以及上下文标签（带注释人）。在这个数据集上，通过“调整”特定上下文的比例来“改变”类的分布是很方便的。在我们的实验中，我们遵循相关工作中的“调整”设置[ 87 ]。具体而言，这是一个具有挑战性的OOD设置，使用NICO动物集。它混合了三个困难：1）长尾; 2）零发射和3）正交。ImageNet 100[84]是原始ImageNet [26]的一个子集，有100个类，每个类有1k个与以前的OOD数据集不同，ImageNet100是在足够的训练数据设置下评估我们的EqI算法和比较方法5.2实现细节我们分别采用ResNet-50/-18作为VIPriors/ImageNet 100和NICO数据集的模型主干。我们用100个“训练”epoch训练模型+v：mala2255获取更多论文从不充分数据的等式表1：VIPriors-50、-20、-10、NICO和ImageNet- 100（IN-100）数据集上的识别准确率（%）。“八月”代表着增长。注意，由于“随机Aug."的有效性，我们将其设置为从SSL训练的方法的默认配置。我们的结果是突出的。型号VIPriors-50 [14]VIPriors-20 VIPriors-10 NICO [35]IN-100 [84]确认测试确认测试确认测试确认测试确认基线32.3030.6013.13 12.39 5.02 4.59 43.08 40.77增强更强的八月。 [17]36.6034.7216.17 15.21 3.49 3.26随机八月。 [24]41.0939.1816.7116.03 3.88 4.01 45.15[92]第92话32.7513.35 12.692.472.3140.54标签平滑[62]33.7731.87 12.71 12.05 4.76 4.43Debias学习[64]第64话33.2913.26 12.585.204.7941.6242.54Feat. [55]35.4133.433.1242.31 43.2783.88[87 ]第87话34.2414.68 13.994.884.6346.38[18]第十八话46.9830.76 28.8318.40 16.9746.45 45.7086.30[19]第十九话40.7522.09 21.156.846.6841.27[86] 2016年10月31日48.90 38.91 36.26 29.94 27.88 63.60 60.26 86.94+方程式（我们的） 54.58 52.2741.53 39.2132.70 30.36 66.07 64.14 87.78从零开始我们将学习率初始化为0。在第60和80个时期，它减少我们使用SGD优化器，批量大小设置为256。对于等变学习（即，，SSL），我们利用MoCo-v2 [18]，SimSiam [19]和IP-Risk [86]在不使用外部数据的情况下，使用其默认超参数训练模型800个时期我们在ImageNet100数据集上对模型进行了200个epoch的预训练然后对于下游微调，我们使用SGD优化器并将批量大小设置为128。我们将epoch设置为50，初始化学习率为0.05，并在第30和40个epoch时降低它请参阅附录以了解更多实施细节。下面我们介绍我们的基线，包括基于增强的方法，去偏学习方法和域泛化（DG）方法。基于增强的方法是VIPriors挑战中非常简单但有效的技术，我们选择了这一类中四种表现最好的方法进行比较：更强的增强[17]，随机增强[24]，混合[92]和标签平滑[62]。Debias学习方法数据高效学习可以被视为一项任务对于OOD。因此，我们将EqI与三种最先进的（SOTA）进行了比较。去偏学习方法：Lff [64]，Augment Feat.[55][87][88]领域泛化方法域泛化（DG）任务也解决了OOD泛化问题，但需要足够的域样本和完整的ImageNet预训练。在本文中，我们选择了三种SOTADG方法（SD [70]，SelfReg [50]和SagNet [63]）进行比较。这些方法不需要与我们共享相同设置的域标签。+方程式（我们的） 54.21 52.0938.30 36.6626.70 25.2052.55 51.5188.38+EQI（我们的）52.55 50.3637.29 35.6524.74 23.3344.7786.80火车从头开始来自SSL的+v：mala2255获取更多论文+等式52.27 30.36火车票价12 T. wang等人5.3与SOTA表1显示了与VIPriors-50、-20、-10、NICO和ImageNet 100数据集的基线相比的总体结果。我们的EqI测试仪在所有设置下都能实现最佳此外，我们还有另外四点意见。1）通过SSL预训练，vanilla微调可以实现比所有“从头开始训练”的方法这验证了等方差归纳偏差（通过SSL学习）对于解决缺乏训练数据的挑战的效率2）当将VIPrior的训练规模从每类50张图像减少到10张图像时，从头开始训练的比较方法不能带来性能提升，甚至损害性能。这是因为极不充分的数据无法支持建立等变表示，更不用说处理具有更难增强的样本。3)有趣的是，与SSL方法相比，我们可以看到我们的方法在更具挑战性的VIPriors-10中的改进幅度更大，例如。，8. 2%的MoCo-v2和16。7%的SimSiam。它验证了由类明智的学习（在我们的EqI学习）的不变性归纳偏见有助于解开和减轻OOD偏见有效。4）ImageNet100数据集上的结果显示，由于额外的监督对比损失，EqI算法得到了一致的改进，这表明我们的EqI算法在从数据不足到数据充足的各种情况下都具有普遍性。在表2，我们比较表2：DG SOTA方法. V-50/-10表示VIPriors-50/-10。方法V-50 V-10我们的EqI算法与DG方法。我们尝试两种“火车从斯克拉特ch“和“火车从SSL”，以满足预-atch博德莱恩30.60 4.59SLIP-P2P48.90 26.88DG的培训要求。我们SCR[70]第七十话33.91 4.85奥姆斯+SD [70]49.91 28.01可以发现我们的EqI输出-SelfReg [50]23.85 3.64 +SelfReg [50]36.48 22.75SagNet [63]34.92 5.62 +SagNet [63]47.82 26.17执行DG方法，空白处，显示了现有OOD方法在处理数据不足方面的弱点。在表3中，我们将我们的EqI算法与来自挑战中的其他竞争团队的解决方案进行了比较，具有相同的可比设置：没有用于训练的值，单个模型w/o集合，类似的ResNet 50/ResNext 50骨干。我们可以观察到最好的性能是通过我们的方法。值得注意的是，竞争者Zhao等人也使用SSL技术进行预训练。他们把知识蒸馏[41，43]作为他们的下游学习方法。我们的EqI产品比他们的型号性能好得多。5.4消融研究Q1：EqI的不同成分有什么作用？答1：我们通过对我们提出的三个步骤的不同组合来评估其有效性。结果示于表4中。我们可以得出以下观察结果：1）通过关注前三行，我们可以发现，在没有SSL等方差预训练的情况下，改进相对较小这是合理的，因为特征相似度不能反映语义变化火车从+v：mala2255获取更多论文≈从不充分数据的等式Optim.-好的，，-好的0.2Optim.,-Te st42Optim. 你好，你好，你好-Test0.163834-是��的��00.110100 1000（一）0.120.080.040历元1 3 5 7 911131517 19（b）第（2）款图6：（a）VIPriors-20val和测试集上不同优化时间表和λ值的准确度（%）。（b）在训练过程中，来自SSL和我们的EqI的VIPriors-10数据集的训练的类内特征方差。“特征 ” 和 “ 掩蔽特征 ” 分别表示 m （ x ）和 m （ x ）。精确地没有等方差属性，因此影响环境构造（步骤2）和类间相似性调整（步骤3）; 2）第4行到第6行之间的比较很明显，由于不准确的环境构造，香草余弦相似性导致明显的性能下降。表3：在VIPriors-50的valset上与其他竞争团队（单一模型w/o集合）的准确度（%）比较。团队骨干确认访问官方基线ResNet50 33.16 Zhao等人[94]ResNet50 44.60Wang等人 [14]ResNet5050.70Sun等人 [81]51.82下载EQI（Ours）ResNet50 54.58表4：在方程式VIPriors-20中我们的三个步骤的有效性的评估。组件确认测试步骤1步骤2步骤3’’’’’’✓’✓中国40.1537.78Q2：什么是最佳的λ为EqI？为什么类的惩罚项不更新特征主干？A2：回想一下，我们在第4节步骤3中强调了这种精心设计。图6（a），我们评估了冻结的影响，方程。（6）在VIPriors数据集上。首先，我们可以看到，设置λ= 10并冻结，可以获得最佳的验证和测试结果。其次，当λ增加到10以上时，我们可以观察到更新λ的性能急剧下降，甚至下降到随机猜测（1%）。相比之下，当改变λ时，在冻结λ的情况下，性能更加稳健，这表明我们的EqIΛ的不敏感性。这验证了等变性和不变性的对抗效果。用大的λ更新λ会破坏先前学习的等价归纳偏差。问题3：我们的EqI是否与学习的环境E和所提出的类方式（class-wise）分类（即，步骤3）？来自SSL的我们的我们的0.0030.0020.00101 3 5 7 9 11 13 15 17 19累积（%）方差+v：mala2255获取更多论文◦14吨。wang等人大白鲨（GreatWhiteShark）瓢虫（野生）图图7：两个类（即，大白鲨和瓢虫）的VIPriors-10数据集。我们手动标记它们的主上下文标签（即，水和野生）。A3：在图中，6（b），我们计算类内特征与训练的方差从SSL和我们的EqI测试VIPriors-10数据。它代表了班级内的分歧。我们可以发现：1）与我们的EqI训练相比，SSL训练的方差显着增加，表明等变特征仍然很容易偏向没有不变性正则化的环境。2）我们的EqI掩码的掩码特征m（x）实现了连续低于（x）的方差，验证了我们学习的掩码的有效性更多视觉注意可视化见问题4：对于具有建议的相似性调整的真实数据，聚类是什么样子的（即，步骤2）？A4：回想一下，我们已经在图5中显示了玩具着色MNIST数据的聚类结果，并验证了我们的相似性调整的优越性。在这里，我们想知道它如何在具有更全面语义的真实数据上执行？我们在图1中可视化了两个随机选择的类的Env#1和Env#2的前10个图像第七章有趣的是，我们可以发现Env#1的图像主要共享上下文（例如，水）与锚类（例如，大白鲨（Great White Shark）相比之下，Env#2的图像具有完全不同的背景。更重要的是，类在Env#1和#2中几乎均匀分布，这表明我们调整的相似性隔离了类特征的影响。6结论我们指出了为什么从不充分的数据中学习本质上比从充分的数据中学习更具挑战性的理论原因-后者将不可避免地偏向于有限的环境多样性。为了对抗这种“坏”的偏差，我们提出使用两个“好”的归纳偏差：等变性和不变性，这是实现所提出的EQI算法。特别是，我们使用SSL来实现等变特征学习，赢回了“坏”偏见失去的类特征，然后提出了一个类明智的学习，以消除“坏”偏见。对于未来的工作，我们计划通过改进类静音聚类来构建更多独特的环境，从而进一步缩小性能差距。致谢。作者感谢所有评论者提出的建设性建议。本研究部分得到AISG，A*STAR的AME YIRG基金（项目编号A20E6c0101）的支持。环境#2环境#1环境#2环境#1+v：mala2255获取更多论文从不充分数据的等式引用1. Ahuja，K.，Shanmugam，K.，Varshney，K.，Dhurandhar，A.：不变风险最小化博弈。In：ICML.pp. 145-155 PMLR（2020）42. Ahuja，K.，王杰，Dhurandhar，A.，Shanmugam，K.，Varshney，K.R.：经验风险最小化还是不变风险最小化？a sample样本complex复杂perspective透视. arXiv预印本（2020）73. Allen-Zhu，Z.，Li，Y.：除了内核，resnet还能有效地学习什么？NeurIPS32（2019）44. Arjovsky，M.，博图湖古拉贾尼岛洛佩斯-帕斯，D.：不变风险最小

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

从不充分数据中学习的等变性和不变性归纳偏差

“探索小样本学习的不变和等变表示的互补优势.zip

深度学习在主动脉中膜变性病理图像分类中的应用.pdf

卷积神经网络的归纳偏差

海量性、多元性、时变性的解释

CNN和Transformer区别

针刺治疗湿性年龄相关性黄斑变性的可行性

针刺治疗湿性年龄相关性黄斑变性的基础研究

基于机器学习的短视频传输调度算法的研究背景

解释 RDD 的概念和特点，即可并行操作、可容错和可恢复的数据对象强调 RDD 的不可变性和惰性计算特性 介绍 RDD 的转换操作和行动操作，以及它们在数据处理中的应用

rdd和dataframe区别

在开发“一款基于机器学习与临床嗓音学的喉部疾病检测系统”中遇到的痛点问题

傅里叶变化如何区分时变系统和时不变系统

实时数据湖 delta/hudi/iceberg

如何理解面向对象中对象的数据成员和方法成员？ 为什么与函数式语言中的对象如此不同?

String为什么不可变

什么是rdd,通俗理解

Java中有哪些基本数据类型？String是基本类型数据吗？String类是否能够继承？

用SPSS做EFA的话，如果KMO值小于0.6，怎么调整数据？

基于深度学习的OFDM系统信道估计算法

数学模型的时变性怎么体现

最新资源

解释 RDD 的概念和特点，即可并行操作、可容错和可恢复的数据对象强调 RDD 的不可变性和惰性计算特性介绍 RDD 的转换操作和行动操作，以及它们在数据处理中的应用

如何理解面向对象中对象的数据成员和方法成员？为什么与函数式语言中的对象如此不同?