没有合适的资源?快使用搜索试试~ 我知道了~
1从领域适应的角度重新思考长尾视觉识别的类平衡方法Muhammad Abdullah Jamal<$ Matthew Brown杨明宣王立强<$龚伯庆†中佛罗里达大学加州大学默塞德分校Google摘要现实世界中的对象频率通常遵循幂律,导致机器学习模型所看到的具有长尾类分布我们从域适应的角度分析这种不匹配。首先,我们连接现有的类平衡方法长尾分类目标转移,在域适应的一个很好的研究方案。这种联系表明,这些方法隐含地假设训练数据和测试数据共享相同的类条件分布,这通常不成立,特别是对于尾类。虽然头类可以包含丰富多样的训练示例,可以很好地代表推理时的预期数据,但尾类通常缺乏代表性的训练数据。到图1.iNaturalist 2018的训练集呈现出长尾类分布[1]。我们将领域自适应与长尾训练集和我们对训练分类器的期望之间的不匹配联系起来,以便在所有类别中表现得同样好我们还认为,在长尾分类中流行的类平衡方法,为此,我们建议增加经典的类平衡阳离子作为域适应中的目标移位,即,Ps(y)Pt(y)通过用元学习方法显式地估计类条件分布我们用六个基准数据集和三个损失函数来验证我们的方法。Ps(x|y)=Pt(x|y),其中Ps和Pt分别为距离,源域和目标域的分布,x和y分别代表分类器的输入和输出 我们认为,目标转移假设的第二部分不适用于尾类,例如,Ps(x|(King Eider)Pt(x|King Eider),1. 介绍大型策划数据集,深度学习和前所未有的计算能力通常被称为视觉识别最新进展的三大支柱[32,44,37]。然而,随着我们继续构建大数据集支柱,幂律成为一个不可避免的挑战。现实世界中的对象频率通常呈现长尾分布,其中少数类别占主导地位,例如植物和动物[51,1],全球各地的地标[41]以及上下文中常见和不常见的对象[35,23]。在本文中,我们建议调查长尾视觉识别从域适应的角度来看。长尾挑战本质上是机器学习模型所看到的具有长尾类分布的数据集与我们的期望之间的不匹配问题。在M.贾马尔是谷歌的实习生因为有限的King Eider训练图像不能很好地代表推理时的数据。模型在所有类上都表现良好(而不是偏向头类)。传统的视觉识别方法,例如,通过交叉熵损失来训练神经网络,过度拟合主导类,并且在表示不足的尾类中失败,因为它们隐含地假设测试集是独立地绘制的。从与长尾训练集相同的潜在分布中。域适应实验打破了假设[46,45,21]。当机器学习模型从训练数据(源域)学习时,它将推理时间数据或分布(目标域用Ps(x,y)和Pt(x,y)分别表示源域和目标域的分布,其中x和y分别是实例和其类标签。在长尾视觉识别中,源域的边缘类分布Ps(y)是长尾的,然而,7610培训考试王绒鸭通用滑块7611目标域的类分布Pt(y)均匀分布。在通用域适应中,可能存在两个域之间的不匹配的多种原因。协变量移位[46]导致输入的边际差异上的域差异Ps(x)/=Pt(x),但通常在域之间保持相同的预测函数,即,Ps(y|x)=Pt(y|X)。 在目标转移原因[58]下,域仅通过类分布来区分,即, Ps(y)=/Pt(y)和Ps(x|y)=Pt(x|y),部分阐述了设计类平衡砝码的合理性长尾挑战[7,38,13,62,40,8,3,12,39,14]。这些类平衡方法使尾类在确定模型的决策边界时发挥比其大小所建议的更大的作用。类的权重与类的大小成反比[26,40,38]。或者,可以从错误分类一个类到另一个类的示例的成本中导出这些权重[13,62]。Cui等人提出了一个有趣的加权方案,通过计算最后,过/欠采样头/尾类[8,39,3,12,14]有效地属于与类平衡权重相同的家族,尽管它们实际上导致不同的训练算法。第2节审查了应对长尾挑战的其他方法一方面,上面回顾的大量工作表明,目标的转变 , 即 , Ps ( y ) /=Pt ( y ) 和 Ps ( x|y ) =Pt(x|y),通 常 是一个合理的假设,基于此可以设计有效的算法,从具有长尾类分布的训练集中学习无偏模型。然而,另一方面,我们的直觉挑战了目标转移假设的第二部分;换句话说,Ps(x|y)=Pt(x|(D)可能不成立。虽然头类(例如,狗)的训练集可以控制-在推理时获得很好地表示预期数据的丰富且多样的示例,尾类(例如,King Eider)往往缺乏具有代表性的训练实例。因此,从有条件的分布Ps(x|D o g)可能很好地逼近条件分布Pt(x|Do g ) , 但 条 件 分 布 Ps ( x ) 之 间 的 差 异|KingEider)和Pt(x|两个领域的国王Eider)可能很大,因为它很难收集King Eider的训练示例(参见图1)。为此,我们建议通过放松源域和目标域共享相同条件分布Ps(x)的假设来增强类平衡学习|y)和Pt(x|y)。通过解释它们之间的差异,我们得到了一个双组分每个训练示例的权重。第一部分继承了经典的类加权法的优点,并在各种应用中进行了有效性分析。第二部分对应于条件分布,并对其进行了估计通过学习重新加权示例的元学习框架[43]。我们在这个框架上做了两个关键的改进。一个是,我们可以初始化的权重接近最优值,因为我们有大量的先验知识的两个组件的权重作为我们的长尾问题的分析结果另一个是我们从框架中删除了两个约束,使得搜索空间足够大,可以以更大的机会覆盖最优解。我们对几个数据集进行了广泛的实验,包括长尾CIFAR [31],ImageNet [10]和Places-2 [61],它们是人工制作的长尾[7,36],以及iNaturalist 2017和2018[51,1],它们是自然长尾的。我们用三种不同的损失(交叉熵,焦点损失[34]和标签分布感知的边缘损失[4])测试我们的方法。结果验证了我们的两个组件的加权是优于类平衡的方法。2. 相关工作我们的工作与第一节简要回顾的阶级平衡方法密切相关。在本节中,我们将讨论域适应和其他类型的工作,以解决长尾视觉识别。度量学习、铰链损失和头到尾知识转移。铰链损失和度量学习是处理长尾问题的灵活工具[4,26,57,59,24,54]。它们主要包含两个主要步骤。一种是在意识到长尾属性的情况下对数据进行我们的方法是损失不可知的,我们表明它可以在实验中受益于不同的损失函数。另一个研究方向是将知识从头部类转移到尾部类.Yin等人将类内方差从头转移到尾[56],Liu等人。在神经网络中添加记忆模块来传输语义特征[36],Wang等人采用Meta网络来回归不同类别之间的网络权重[53]。硬示例挖掘和加权。 硬示例挖掘在对象检测中是普遍和有效的[14,39,44,34]。虽然它不是专门为长尾识别设计的,但它可以间接地将模型[7,11,16]和我们的实验)。尽管如此,这样的方法可能对离群值敏感,或者不必要地允许少数示例主导训练。最近提出的元学习方法实例加权[43,47]缓解了这些问题。遵循一般的元学习原则[15,28,33],他们留出了一个验证集来指导如何通过梯度下降来权衡训练样本。类似的方案用于从噪声数据中学习[29,9,52]。7612Si=1不不S域适应。在实际应用中,训练样本的分布之间存在着不匹配训练目标函数,1Σn数据和测试数据的各种原因[49,17,60]。 做-主要的自适应方法旨在减轻不匹配,使得学习的模型可以很好地推广到推理-minθni=1wyiL(f(xi;θ),yi),(6)时间数据[46,45,21,20]。有一些方法可以处理领域自适应中的不平衡问题。Zou等人。[63]通过使用归一化的类的置信度来控制伪标签学习和生成来处理类不平衡。 Yan等人。[55]使用加权最大平均差异来处理无监督域自适应中的类不平衡。我们从领域适应的角度理解视觉识别中的长尾挑战。虽然域自适应方法需要访问大量未标记的(有时也是一小部分标记的)目标域数据,但在我们的方法中,我们不访问任何推理时间数据。与域自适应中现有的加权方法不同[5,27,58],我们元学习权重。3. 作为域适应的类平衡其近似于预期的推断误差(等式10)。(五))通过假设P=x , y=0,或者换句话说,通过假设Ps(x|y)=Pt(x|y)对于n y类y。这种假设在域适应中被称为目标转移[58]。我们认为,一个共享条件分布Ps(x)的假设|y)=Pt(x|y),一般不成立,特别是对于尾部类。人们可以很容易地为Dog编译一个有代表性的训练集,但不能为King Eider编译。我们建议显式地模拟源和目标条件分布之间的差异,并在类平衡方法的基础上得到一个改进的算法。4. 条件差异建模为了简单起见,我们引入条件权重x,y:wy表示x,y,并将预期的推理错误重写为误差=EP(x,y)L(f(x;θ),y)(wy+θx,y)(7)在本节中,我们将详细分析类-平衡方法[26,38,7,8,39]从域适应的角度来看长尾视觉识别。1Σn≈ ni=1(wyi+θi)L(f(xi;θ),yi),(8)假设 我们 有 一 培训 设置 (源域){(xi,yi)}n绘制i.i.d.从长尾分布Ps(x,y)-更确切地说,类的边缘分布Ps(y)是重尾的,因为在视觉识别中,通常很难收集稀有类的例子。尽管如此,我们希望学习一个视觉识别模型,以便在所有类上尽可能少地犯错误:误差=EP(x,y)L(f(x;θ),y), (1)其中,我们希望目标域Pt(x,y)的边际类分布Pt(y)更平衡(例如,f(·;θ)是由θ参数化的识别模型,L(·,·)是0-1损失。我们可以稍微使用符号L(·,·),并将其设为可区分的替代损失(即,交叉熵)。接下来,我们应用重要性抽样技巧将预期误差与长尾源域联系起来,误差=EP(x,y)L(f(x;θ),y)(2)=EP(x,y)L(f(x;θ),y)Pt(x,y)/Ps(x,y)(3)其中最后一项是误差的无偏估计。值得注意的是,我们没有假设源域和目标域的条件分布是相同的,即,我们都有Ps(x|y)/=Pt(x|y)和0的情况。因此,每个训练示例的权重由两个组成零件.一个分量是类权重wyi,另一个分量是条件权重wyi。我们需要估计这两个分量,以从等式导出实用算法。(8)因为数据的潜在分布是未知的-尽管我们相信训练集的类分布必须是长尾的。4.1. 估计类权重{wy}我们让类的权重类似于文献中经验上成功的设计特别是,我们通过最近提出的“有效数”来估计它们假设第 y 个 类 有 ny 个 训 练 样 本 , 我 们 有 wy<$ ( 1−β ) /(1−βny),其中β∈[0,1]是一个超参数,推荐值β=(n−1)/n,n是训练样本的数量=EPs(x,y)L(f(x;θ),y)Pt(y)Pt(x|y)7613SPs(y)Ps(x|y)(四)4.2. Meta学习条件权重{{i}}我们通过自定义一个:=EP(x,y)L(f(x;θ),y)wy(1+θ=x,y),(5)其中,wy=Pt(y)/Ps(y),并且y=Pt(x|y)/Ps(x|y)−1。现有的类平衡方法集中在如何确定类的权重{wy},并导致以下结果-元学习框架[43]。我们在下面描述我们的方法,然后讨论与4.3节中原始框架的两个关键差异。主要的想法是保持一个平衡的发展集D,并使用它来指导搜索7614|B||B|LB=在发展集上产生最佳性能识别模型f(·;θ)的条件权重。 用T表示剩余的训练数据。 我们通过解决以下问题来寻求条件权重:算法1用于长尾识别的元学习要求:训练集T,平衡发展集D要求:通过使用[7]的类加权{wy}要求:学习率η和τ,停止步骤t1和t2minǫ1|D|Σi∈DL(f(xi;θi(n)),yi),其中(9)要求:识别网络的初始参数θ1:对于t=1,2,···,t1do2:从训练集T中采样小批量Bθ()←argmin1Σ (wyi+θi)L(f(xi;θ),yi)(十)3:计算损失LB=1i∈BL(f(xi;θ),yi)θ|T|i∈T我们没有在已经平衡的发展集上权衡损失。本质上,上述问题搜索最佳条件权重,使得af-4:更新θ←θ−ηθLB第五章: 端6:对于t=t1+1,···,t1+t2,7:从训练集T中采样小批量B8:设i←0,i∈B,i,记为:={i,i∈B}之后,我们通过最小化误差估计(等式(10)和(8)),该模型执行9:计算LB=1i∈B(wyi+θi)L(f(xi;θ),yi)最好的发展集(eq. (9))。要解决上述问题,10:更新θ()←θ−ηθLB图11: 来自最佳开发集D的样品Bd暴力搜索,例如,迭代所有可能的集合{n}12:计算LBd1|B D|i∈Bd L(f(xi;θi(n)),yi)条件权重。即使我们能做到这一点,在计算上也不允许为每组权重训练识别13:更新←−τLBd14:使用更新的时间计算新的时间损失模型f(·;θ()),然后从所有模型中找出最佳模型˜1|B|i∈B (wyi+θi)L(f(xi;θ),yi)相反,我们修改了元学习框架[43],并以贪婪的方式搜索条件权重。在给定当前时间步长t的情况下,它将对权重θ的搜索与对模型参数θ的更新交织在一起,15:更新θ←θ−ηθLB16:结束Σ(w+θt)L(f(x;θt),y)在长尾训练集上第二阶段(线路θt+1(t)<$θt−ηi∈Tyiii i6-16)通过诉诸一个t+1<$Σ∂θi∈DL(f(xi;θ∈t+1(t)),yi)Σ∂ǫ平衡发展,同时继续上升-识别模型的日期我们在第11-13行突出显示了用于更新条件权重的部分L(f(xi;θt),yi)θ t +1<$θ t − ηi∈Tii。∂θ第一个方程尝试使用由当前条件权重加权的损失对θt进行一步梯度下降t(加上类的权重)。然后,在平衡的发展集合D上仔细检查更新的模型参数θt+1(θt),其通过一步更新条件权重。更新后的权重flt+1比旧的要好,这意味着由最后一个方程返回的模型参数θt+1应该比θt+1对发展集产生更小的识别误差。从θt+1和θt+1开始,我们继续进行下一轮更新。我们将在下一节中介绍我们的整体算法。4.3. 总体算法和讨论我们准备提出算法1长尾视觉识别。前面几节中的讨论考虑了批处理设置中的所有训练示例。Algo-Rithm1将其自定义为随机设置,以便我们可以轻松地将其与深度学习框架集成。算法中有两个学习阶段。在第一阶段(第1-5行=7615讨论值得注意的是,我们的算法与学习重新加权(L2RW)方法之间存在一些看似微小但根本的差异[43]。从概念上讲,虽然我们共享相同的元学习框架, 作为 L2RW, 两 的 按类的 重量, wy=Pt(y)/Ps(y)。条件w=8,nx,y=wynnx ,y=Pt(y)/Ps(y)Pt(x|y)/Ps(x|y)-1,具有原则性的解释,而不是一般的每个示例的权重,L2RW。我们将探索其他机器学习框架(例如,[2,48])在未来的工作中学习条件权重,但它们的解释保持不变。从数学上讲,与L2 RW不同,我们采用两个分量权重,通过不同的方法[7]估计类的分量,不将负权重{fbi}修剪为0,并且不将它们归一化,使得它们在小批量内总和为1。中的裁剪和规范化操作L2RW意外地减少了权重的搜索空间,并且归一化特别麻烦,因为它依赖于小批量大小。因此,如果最优权重实际上位于缩减的搜索空间之外,则没有机会通过L2RW达到最优。In contrast, our algo- rithm searchesfor each conditional weight ǫi in the full real space. 有人可能会问,我们的总体有效性7616权重Wyi+Wi可以变为负值。仔细的计算表明,在我们的实验中,它从来没有低于0,这可能是由于对条件权重的良好初始化(如所解释的那样- low)使得不必通过算法1中的第13行太疯狂地更新权重。在计算上,我们通过使用vanilla交叉熵损失(第1-5行)对网络进行预训练,为条件权重(第8行)和识别网络的模型参数θ提供适当的初始化 作为结果,我们的算法比L2RW(cf.第5.1节)。 注意,0是合理的先验值,条件权重归因于通过现有类平衡方法获得的有希望的结果。这些方法假设,源域和目标域的条件分布,这意味着Pt(x|y)/Ps(x|y)−1接近于0,条件权重{i}也是如此。因此,我们的方法在最坏的情况下应该与类平衡方法[7]相同,将条件权重初始化为0(以及[7]的类权重)。5. 实验数据集。我们在六个不同规模的数据集上评估和消融我们的方法,从手动创建的长尾CIFAR-10和CIFAR-100 [7] , ImageNet- LT 和 Places-LT [36] 到 自 然 长 尾iNaturalist 2017 [51]和2018 [1]。在[7]之后,我们将数据集的不平衡因子(IF)定义为第一个头类的类大小除以最后一个尾类的大小。长 尾 CIFAR ( CIFAR-LT ) : 原 始 CIFAR- 10(CIFAR-100)数据集包含50,000个训练图像和10,000个大小为32 x32的测试图像,这些图像均匀地分为10(100)类[31]。Cui等人[7]通过随机删除训练样本来创建长尾版本。特别地,从第y个类中丢弃的示例的数量是nyµy,其中ny是该类中训练示例的原始数量,(0,1).通过改变μ,我们分别得到六个训练集,不平衡因子(IF)为200,100、50、20、10和1,其中IF=1对应于原始数据集。我们不改变测试集,它是平衡的。我们为每个类随机选择10个训练图像作为我们的开发集D。ImageNet-LT:在精神上类似于长尾CIFAR数据集,Liu et al.[36] 引 入 了 ImageNet-2012 的 长 尾 版 本[10],称为ImageNet-LT。它是通过首先从具有幂值α=6的帕累托分布中采样类大小,然后为每个类采样相应数量的图像来创建的。结果数据集包含115.8K训练图像,1,000个类别,其不平衡因子为1280/5。作者还提供了验证集,每类20幅图像,从中抽取10幅图像构建开发集D。原始的平衡ImageNet-2012验证集被用作测试集(每个类50张图像)。Places-LT:Liu et al.[36]还通过使用与上述相同的策略从Places-2 [61]中采样创建了Places-LT数据集。它包含来自365个类别的62.5K训练图像,不平衡系数 为 4980/5 。 这 个 大 的 不 平 衡 系 数 表 明 它 比ImageNet-LT更具挑战性。Places-LT每类有20我们的开发集D包含从验证集中随机选择的每个类的十个图像。iNaturalist(iNat)2017和2018:iNat 2017 [51]和2018[1]是真实世界的细粒度视觉识别数据集,自然呈现长尾类分布。iNat 2017(2018)由579,184个(435,713)训练图像,其不平衡因子为3919/9(1000/2)。我们使用官方验证集来测试我们的方法。我们从iNat 2017(2018)的训练集中为开发集选择每个类别的五(两)张图像表1给出了以下实验中使用的六个数据集的概述。评估指标。As the test sets are all balanced, we simplyuse the top-k error as the evaluation metric. 我们报道了k=1,3,5的结果.5.1. 使用CIFAR LT进行物体识别我们使用CIFAR-LT-10和CIFAR-LT-100进行了对比实验和消融研究我们在实验中使用ResNet- 32 [25竞争的方法。我们将我们的方法与以下竞争方法进行比较。• 交 叉 熵 训 练 这 是 使 用 vanilla 交 叉 熵 损 失 训 练ResNet-32的基线。• 分类平衡损失[7]。它通过类的权重来衡量传统的损失,根据有效数字。我们将这种类别平衡权重应用于三种不同的损失:交叉熵、焦点损失[34]和最近提出的标签分布感知边缘损失[4]。• 焦点丧失[34]。 焦点损失可以理解为一个平滑的硬示例挖掘版本。 它并不直接解决长尾识别问题。然而,如果网络在训练过程中偏向头类,它可能会对尾类的示例进行比头类更多的惩罚。• 标签分布感知边际损失[4]。它根据类在训练集中的主导程度动态调整类之间的边缘。7617表1.我们实验中使用的六个数据集的概述。(IF代表不平衡系数)数据集#类如果#火车img.尾级大小头班人数# Val. img.#测试img.CIFAR-LT-10101.0-200.050,000-11,203500–255,000–10,000CIFAR-LT-1001001.0-200.050,000-9,502500–2500–10,000iNat 20175,089435.4579,18493,91995,986–iNat 20188,142500.0437,51321,00024,426–ImagNet-LT1,000256.0115,84651,28020,00050,000地点-LT365996.062,50054,9807,30036,500• 分类平衡微调[8]。其主要思想是首先用整个不平衡的训练集训练神经网络,然后在平衡的基础上对其进行微调。训练集的子集。• 学习重新加权(L2RW)[43]。它通过元学习来衡量训练样本。有关L2RW和我们的方法的更多讨论,请参见第4.3• 元权重网[47]。与L2RW类似,它也通过元学习方法对示例进行加权,只是它通过多层感知器回归权重实作详细数据。对于前两个基线,我们使用[7]的代码来设置学习率和其他超参数。我们使用1 e-3的初始学习率来训练L2 RW模型。我们在第160和180个时期将学习率衰减0.01。对于我们的方法,我们使用0.1的初始学习率,然后在第160和第180个epoch将学习率衰减0.01。所有实验的批量均为100。我们使用带有动量的随机梯度下降结果表2显示了ResNet-32在具有不同不平衡因子的长尾CIFAR-10上的分类误差。我们根据它们使用的基本损失(交叉熵,焦点[34]或LDAM [4])将竞争方法分为三个部分我们用三场失利来测试我们的方法。我们可以看到,我们的方法在每个会话中都以显著的幅度优于竞争方法。虽然焦点损失和LDAM损失已经有能力通过惩罚硬示例和分布感知裕度来减轻长尾问题,但我们的方法可以进一步提高它们的性能。在一般情况下,我们的方法的优势,比前的不平衡因素的增加变得更加显着当数据集平衡时(最后一列),与L2RW相比,我们的方法不会损害vanilla损失的性能我们可以从表3中得出与上述长尾CIFAR-100相同的观测结果。我们的方法在哪里起作用? 图2 在CIFAR-LT-10上分别用交叉熵训练模型、L2 RW模型和我们的方法给出了三个混淆矩阵。不平衡系数为200。与交叉熵模型相比,L2RW提高了尾类的准确率相比之下,我们在头类上保持了与交叉熵模型相同的性能,同时显著提高了后五个尾类的精度学习的条件权重是什么?我们感兴趣的是在整个训练过程中检查每个类的条件权重为了可视化的目的,我们在每一个班级中平均它们。图3展示了CIFAR-LT-10的第1、第4、第7和第10类在过去20个历元中的变化两个面板分别对应于100和10的不平衡系数。有趣的是,在大多数时期,尾类的学习条件权重比头类的学习条件权重更突出。此外,两个头类(第1和第4)的条件权重在某些时期甚至低于0。这些结果验证了我们的直觉,即尾类的稀缺训练示例在训练中值得更多关注,以使神经网络在测试阶段以平衡的方式执行消融研究:我们的与L2RW。我们的整体算法与L2RW主要在四个方面不同:1)预训练网络,2)通过先验知识初始化权重,3)两个分量的权重,并通过单独的算法[7]估计类的分量,以及4)没有权重的剪裁或归一化。表5通过将这些组件一个接一个地应用于L2RW来检查这些组件。首先,预训练神经网络提高了性能,香草味L2RW其次,如果我们通过类权重{wy}初始化样本权重,则误差可能会增加一点,因为L2 RW中的裁剪和归一化步骤需要更仔细的初始化,样品重量。第三,如果我们用我们的双分量权重代替样本权重,我们可以使L2RW的性能更接近我们的最后,在我们去除裁剪和归一化之后,我们得到了我们的算法,它在所有变化中产生了最好的结果。消融研究:两个分量的重量。 通过表5,我们还强调了从我们的领域适应角度出发的两个分量权重{wyi+wyi}对长尾视觉识别的重要性。第首先,它们有益于L2RW(在表5中比较此外,它们对我们的方法也至关重要。如果我们放弃类权重,我们的结果将与预训练的L2RW如果我们放弃条件权重并元学习类权重(cf.7618表2.在CIFAR-LT-10上测试ResNet-32在不同不平衡设置下的前1个错误(%)。* 表示[47]中报告的结果。不均衡因数2001005020101交叉熵训练34.3229.6425.1917.7713.617.53/7.11*类平衡交叉熵损失[7]31.1127.6321.9515.6413.237.53/7.11*分类平衡微调[8]类别平衡微调[8]*33.7633.9228.6628.6722.5622.5816.7813.7316.8313.587.086.77L2RW [43]L2RW [43]*33.7533.4927.7725.8423.5521.0718.6516.9017.8814.8111.6010.75[47]第四十七话32.826.4320.915.5512.457.19我们的交叉熵损失29.3423.5919.4913.5411.157.21[34]第三十四话34.7129.6223.2917.2413.346.97分类平衡的焦点损失[7]31.8525.4320.7816.2212.526.97我们的焦点损失25.5721.117.1213.911.637.19LDAM损失[4](论文中报告的结果)-26.65--13.0411.37LDAM-DRW [4](论文中报告的结果)-22.97--11.84-我们的LDAM损失22.7720.017.7715.6312.610.29表3.在不同的不平衡设置下,在CIFAR-LT-100上测试ResNet-32的前1个错误(%)。* 表示[47]中报告的结果。不均衡因数2001005020101交叉熵训练65.1661.6856.1548.8644.2929.50类平衡交叉熵损失[7]64.3061.4455.4548.4742.8829.50分类平衡微调[8]类别平衡微调[8]*61.3461.7858.558.1753.7853.6047.7047.8942.4342.5629.3729.28L2RW [43]L2RW [43]*67.0066.6261.1059.7756.8355.5649.2548.3647.8846.2736.4235.89[47]第四十七话63.3858.3954.3446.9641.0929.9我们的交叉熵损失60.6956.6551.4744.3840.4228.14[34]第三十四话64.3861.5955.6848.0544.2228.85分类平衡的焦点损失[7]63.7760.4054.7947.4142.0128.85我们的有病灶丢失60.6655.349.9244.2740.4129.15LDAM损失[4](结果报告在论文中)-60.40--43.09-LDAM-DRW [4](论文中报告的-57.96--41.29-我们的LDAM损失60.4755.9250.8447.6242.0-表4. iNat 2017和2018上的分类错误。(* 报告结果见文件。CE=交叉熵,CB=类平衡)数据集iNat 2017iNat 2018方法Top-1顶部-3/5Top-1顶部-3/5CE43.4926.60/21.0036.2019.40/15.85CB CE [7]42.5925.92/20.6034.6919.22/15.83我们的,CE40.6223.70/18.4032.4518.02/13.83协调局重点[7]*41.92-/20.9238.88-/18.97[4]*––35.42-/16.48LDAM-drw*––32.00-/14.82cRT [30]*––34.8–cRT+时期 *––32.4–更新wy尽管如此,结果还是好于班级均衡训练(参见。表5中的最后一行),这意味着学习的类权重比基于有效数的类权重产生更好的模型[7]。5.2. 使用iNat 2017和2018进行物体识别我们使用ResNet-50 [25]作为iNat 2017和2018数据集的骨干网络。网络是预先训练好的表5.通过使用CIFAR-LT-10上的交叉熵损失结果为测试前1错误%。不均衡因数1005020L2RW [43]27.7723.5518.65L2RW,培训前25.9622.0415.67L2RW,预训练,初始化。通过WY26.2622.5017.44L2RW,预培训,wyi+i24.5420.4714.38我们23.5919.4913.54我们的更新wy25.4220.1315.62平衡的阶级[7]27.6321.9515.64iNat 2017的ImageNet和iNat 2018的ImageNet plus我们使用64的小批量和0.01的学习率进行实验我们使用带有动量的随机梯度下降来训练所有模型。对于我们方法的元学习阶段,我们切换到较小的学习率,0.001。表4显示了我们应用于交叉熵损失的双分量加权的结果我们缩小了iNat 2018的文本大小,以表明我们提倡使用iNat2017进行实验,因为iNat 2018中每个类只有三个验证/测试图像(参见。表1)。我们的ap-7619图2.通过交叉熵训练的混淆矩阵,L2 RW,以及我们在CIFAR-LT-10上的方法(不平衡因子为200)。图3. M平均每个类内的条件权重{i}与CIFAR-LT-10上的训练时期(左:IF = 100;右:IF = 10)。表6. ImageNet-LT和Places-LT上的分类错误。(* 在文件中。CE=交叉熵,CB=类平衡)数据集ImagNet-LT地点-LT方法Top-1顶部-3/5Top-1顶部-3/5CE74.7461.35/52.1273.0052.05/41.44CB CE [7]73.4159.22/50.4971.1451.58/41.96我们的,CE70.1053.29/45.1869.2047.95/38.00proach比class-balanced weighting [7]提高了交叉熵训练约2%。由于我们已经通过广泛的实验报告了CIFAR-LT上的焦点损失和LDAM损失的类似效果,因此我们没有在大规模iNat数据集上运行它们以节省计算成本。尽管如此,我们还是纳入了文献中报道的病灶丢失、LDAM丢失和分类器重新训练方法[30]的结果,这些结果是在我们将工作提交给CVPR 2020后发表的5.3. ImageNet LT和Places LT的实验根据Liu et al.的实验设置[36],我们使用ResNet-32和ResNet-152分别在ImageNet-LT和Places-LT上进行实验。对于ImageNet- LT,我们采用0.1的初始学习率,并通过每35个时期后为0.1对于Places-LT,初始学习率为0.01,并且每10个epoch衰减0.1。对于我们自己的方法,当学习率发生第一次衰减时,我们从交叉熵训练切换到元学习阶段最小批量大小为64,优化器是带动量的随机梯度下降。结果表6显示类平衡训练改善了vanilla交叉熵结果,并且我们的双分量加权进一步提高了结果。我们预计焦点和LDAM损失的观察结果相同。最后,我们发现通过仅在元学习阶段更新分类层我们在Places-LT上达到62.90%的前1误差(39.86/29.87%的前3/5误差),与OLTR [36]的64.1%或cRT [30]的 63.3%相当,同时注意到我们的双分量加权可以方便地应用于OLTR和cRT。6. 结论在本文中,我们做了两个主要贡献的长尾视觉识别。一个是新的域适应的角度来分析长尾分类中的不匹配问题。虽然现实世界对象的训练集通常是长尾的,只有少数几个类占主导地位,但我们希望学习的分类器在所有类中表现同样出色。通过将这种不匹配分解为类间差异和类条件分布之间的差异,我们揭示了现有类平衡方法背后的隐含假设,即训练集和测试集共享相同的类条件分布。我们的第二个贡献是放松这一假设,明确模型之间的比例两个类条件分布。在六个数据集上的实验验证了该方法的有效性。今后的工作。 我们将探索其他技术[2,48] 用于估计条件权重。除了加权方案之外,其他域自适应方法[22,6],例如学习域不变特征[18,50]和数据采样策略[19,42],也可能有益于长尾视觉识别问题。特别是,域不变特征与Kang等人的“最近的工作解耦表示和分类长尾分类[30]。鸣谢。作者感谢NSF奖项1149783、1741431、1836881和1835539的支持。7620引用[1] iNaturalist2018年竞争数据集。https://github.com/visipedia/inat_comp/tree/master/2018,2018. 一、二、五[2] Ste f fenBic k el,MichaelBr ¨ckne r,andTobiasSche f fe r.协变量转移下的反犯罪学习。《机器学习研究》,2009年9月10日. 四、八[3] 凯 文 ·W 尼 泰 什 ? 鲍 耶 作 者 : Lawrence O.Hall, andWilliam P.凯格尔迈耶SMOTE:合成少数过采样技术。arXiv:1106.1813,2011年。2[4] Kaidi Cao , Colin Wei , Adrien Gaidon , NikosArechiga,and Tengyu Ma.学习具有标签分布感知的边际损失的不平衡数据集。神经信息处理系统的进展,第1565-1576页,2019年二五六七[5] 科琳娜·科尔特斯,梅赫里亚·莫赫里,迈克尔·莱利,和阿夫辛·罗斯塔米扎德.样本选择偏差校正理论。2008年国际算法学习理论会议。3[6] 加布里埃拉·楚卡计算机视觉应用。Springer,2017. 8[7] Yin Cui,Menglin Jia,Tsung-Yi Lin,Yang Song,andSerge J. Belongie. 基 于 有 效 样 本 数 的 类 平 衡 损 耗 。arXiv:1901.05555,2019年。二三四五六七八[8] Yin Cui,Yang Song,Chen Sun,Andrew Howard,andSerge J.贝隆吉大规模细粒度分类和特定领域迁移学习。arXiv:1806.06193,2018。二三六七[9] Mostafa Dehghani, Arash Mehrjou , Stephan Gouws ,Jaap Kamps , andBernhardSch o? l k opf. Fidelity-weightedlearning-ing。在ICLR,2018年。2[10] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。二、五[11] 齐东,龚少刚,朱夏天。班级整改难挖掘深度学习不平衡。arXiv:1712.03162,2017。2[12] 克里斯·德拉蒙德和罗伯特·霍尔特C4.5、类别不平衡和成本敏感性:为什么欠采样胜过过采样。ICML'03研讨会关于从不平衡数据集中学习的会议记录2[13] 查尔斯·埃尔坎成本敏感学习的基础在IJCAI,2001年。2[14] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功