时间输出偏差下的半监督主动学习方法

136 浏览量更新于2023-10-15 收藏 809KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3447具有时间输出偏差的半监督主动学习黄思宇1王天阳2熊浩毅1 君欢3窦德静1百度研究2奥斯汀皮伊州立大学3造型AI{huangsiyu，xionghaoyi，doudejing}@ baidu.comwangt@apsu.edulukehuan@shenshangtech.com摘要虽然深度学习在广泛的任务中取得了成功，但它高度依赖于大量注释数据的收集，这是昂贵且耗时的。为了降低数据注释的成本，已经提出了主动学习来交互地查询oracle以注释未标记数据集中的一小部分信息样本。受损失较高的样本通常比损失较低的样本对模型的信息量更大这一事实的启发，在本文中，我们提出了一种新的深度主动学习方法，当未标记的样本被认为包含高损失时，该方法会查询oracle的数据注释。我们的方法的核心是一个测量时间输出差异（TOD），估计样本损失，通过评估模型在不同的优化步骤的输出的差异。我们的理论研究表明，TOD下限的累积样本损失，因此，它可以用来选择信息的未标记的样本。在TOD的基础上，我们进一步开发了一种有效的未标记数据采样策略以及一种无监督学习标准，通过合并未标记数据来提高模型性能。由于TOD的简单性，我们的主动学习方法是高效，灵活和任务不可知的。大量的实验结果表明，我们的方法比国家的最先进的主动学习方法的图像分类和语义分割任务取得了优异的性能1. 介绍大规模带注释的数据集对于现代深度学习模型的成功是不可或缺的，也是至关重要的。由于注释数据的获取通常非常昂贵，因此已经广泛探索了包括无监督学习[6]，半监督学习[59]和弱监督学习[44]在内的学习技术来缓解困境。在本文中，我们关注主动学习[4]，其目的是选择性地用lim注释未标记的数据1代码可在https://github.com/siyuhuang/TOD有限的预算，同时产生高性能模型。在现有的主动学习文献中，两个主要的-已经研究了流方法，即分集感知方法和不确定性感知方法。多样性感知方法[15]旨在挑选出不同的样本来表示数据集的分布。它适用于低维数据和具有少量类的分类器[40]。不确定性感知方法[52]旨在根据当前模型挑选出最不确定的样本。然而，不确定性启发式算法，例如到决策边界的距离[2]和后验概率的熵[41]，通常是特定于任务的，并且需要专门针对各个任务进行设计，例如图像分类[19]，对象检测[50]和语义分割[8]。在本文中，我们认为，具有较高的损失的样本将比具有较低的损失的信息。特别是在监督学习设置中，当样本被正确标记时，所有样本的平均损失函数应该在学习过程中逐渐最小化。此外，在每次迭代中，训练模型将根据每个样本的损失向后传播误差[28]，而具有高损失的样本通常会为训练模型的参数带来信息更新[16]。在这项工作中，我们将这些证据推广到主动学习问题，并提出了一个简单而有效的损失估计器时间输出离散性（TOD），它可以测量样本的潜在损失仅依赖于训练模型，当地面真实标签的样本是不可用的。具体而言，TOD计算由模型在不同优化步骤给出的输出的差异我们的理论研究表明，TOD很好地测量样本损失。在TOD的基础上，我们提出了一个深度主动学习框架，该框架利用一种新的未标记数据采样策略进行数据标注，并结合半监督训练方案来提高未标记数据的任务模型性能。具体地，主动学习过程可以被分成以少量标记样本开始的训练周期序列。由3448在每个训练周期结束时，我们的数据采样策略为未标记池中的每个样本估计循环输出差异（COD），这是TOD的变体，并选择具有最大COD的未标记样本用于数据注释。新注释的样本被添加到标记池中，用于下一个循环中的模型训练。此外，在未标记样本的帮助下，我们用来自TOD的正则化项来增强任务学习目标，从而以半监督的方式提高主动学习的性能。与现有的深度主动学习算法相比，我们的方法更有效，更灵活，更容易实现，因为它不引入额外的可学习模型，如损失预测模块[54]或对抗网络[43，57]用于不确定性估计。在实验中，我们的主动学习方法与各种图像分类和语义分割数据集上的最新基线相比显示出卓越的性能。进一步的消融研究表明，我们提出的TOD可以很好地估计样本损失，有利于主动数据采样和任务模型学习。本文的主要贡献如下：1. 本文提出了一种简单而有效的损耗测量TOD。理论和实证研究都证实了TOD的有效性。2. 本文提出了一种新的深度主动学习框架，通过将TOD纳入主动采样策略和半监督学习方案。3. 广泛的主动学习实验图像分类和语义分割任务的有效性进行评估所提出的方法。2. 相关工作主动学习。主动学习旨在增量注释样本，从而获得高模型性能和低注释成本[4]。主动学习已经被研究了几十年，并且现有的方法通常可以分为两类：查询合成方法和查询获取方法。查询合成方法[60，32]采用生成模型来合成新的信息样本。例如，ASAL[33]使用生成对抗网络（GANs）[14]来生成高熵样本。在本文中，我们专注于查询获取主动学习，开发有效的数据采样策略，挑选出最具信息性的样本从未标记的数据池。查询获取方法可以分为多样性感知方法和不确定性感知方法。的多样性感知方法[36，15]选择最佳地表示数据集分布的一组多样性典型的多样性感知方法是基于中间特征的核心集距离的核心集选择[40]。理论上和经验上都证明，它可以很好地处理小规模的类和数据维度。不确定性感知方法[21，52，12，13，9]在训练模型的上下文中主动选择最不确定的样本已经提出了各种各样的相关方法，例如预期误差减少的蒙特卡罗估计[39]，到决策边界的距离[47，2]，后验概率之间的裕度[38]和后验概率的熵[41，19，31]。多样性感知和不确定性感知方法是彼此互补的，因此已经针对特定任务提出了许多混合方法[29，51，53，58，30，26]在最近的文献中，引入了对抗性主动学习[7，43，57]来学习对抗性判别器以区分标记和未标记的数据。与现有的主动学习方法相比，该方法直接利用任务模型进行不确定性估计，属于不确定性感知主动学习的范畴。相关工作包括利用预期梯度长度[42]或输入扰动[11，20]的输出变化进行不确定性估计。在损失估计的领域中，Yooet al.[54]建议学习损失预测模块来估计未标记样本的损失。与需要额外深度模型（如损失预测网络[54]或对抗网络[43，57]）进行不确定性估计的现有方法不同，我们通过评估不同主动学习周期的模型输出差异，提出了一种有效主动学习的免学习原理。除了它的效率和任务不可知的性质，我们证明了它是一个下限的累积样本损失，确保数据样本的损失较高的下限可以挑选出来。半监督学习这项工作也与半监督学习有关，半监督学习旨在从标记和未标记的数据中学习，因为我们还开发了提出的损失估计方法来改善使用未标记数据的任务模型已经有各种各样的半监督学习方法，例如转换模型[18]，基于图形的方法[56]和生成模型[23]。我们参考[48]以获得最新的概述。最近，包括Π模型[27]和虚拟对抗训练[34]在内的几种半监督方法将一致性正则化应用于扰动输入的后验分布。进一步的改进包括Mean Teacher [46]和TemporalEnsembling [27]在不同的时间步长对模型应用然而，一致性正则化很少被用于主动学习。与现有的半监督3449||wf（x）||2ǁ∇ǁǁ∇ǁǁ∇ǁ不Σ。√不不ǁ∇ǁǁ∇ǁǁ∇ǁ不ǁ ǁǁ∇ǁǁ∇ǁ不不2E∈R--不不ǁ· ǁ ǁ· ǁ−不D{T}定义ǁ∇ǁ不学习的神经网络，我们提出的损失度量TOD可以被认为是一致性正则化的替代解决方案。TOD可以很好地适应主动学习，通过开发一种新的主动采样方法COD。COD仅依赖于在每个活动学习周期之后学习的模型。相反，现有的时间Cifar-1032101 2 3 4 5 6 7主动学习周期Cifar-1002101 2 3 4 5 6 7主动学习周期基于一致性的不确定性测量通常需要访问多个先前的模型状态。例如，平均教师[46]和时间建模[27]的计算分别需要历史模型参数和历史模型输出。另一方面，一致性规则化的成功与否，至今还没有足够Athiwaratkun等人[1]揭示了扰动输入的一致性正则化是网络雅可比矩阵范数然而，仍然缺乏对时间一致性正则化的解释。在本文中，我们表明，时间的con-图1. wf2，vs.，积极的学习周期。黑线表示在训练上平均的wf2（即，标记的和未标记的）池。蓝线表示每个主动学习周期后的平均值wf2。定理1的证明和下列推论可以在补充材料中找到根据定理1，T步输出偏差D{T}（x）可以很容易地推断出来。推论1通过适当地设置学习速率η，一致性正则化可以连接到累积样本损失的下限。因此，时间一致性正则化是理论上有效的解决方案。D{T}（x）≤√2ηt+T−1Lτ（x）wf（x;wτ）2τ=t.（三）损失估计以及半监督学习。3. 时间输出差异当样本的标签不可用时，测量给定神经网络f上的样本损失是许多学习问题的关键挑战，包括主动学习[38，31，13]，持续学习[9]和自监督学习[46，27]。在这项工作中，我们提出了时间输出差异（TOD），它基于神经网络在不同时间的输出差异来估计样本损失ent学习迭代。给定样本x∈Rd，我们有TOD D{T}：Rd → Rt（x）= f（x; w t+T）− f（x; wt）。（一）D{T}（x）用在学习期间的第（t + T）和第t个梯度下降步骤中获得的参数wt + T和wt来表征模型f的输出之间的距离2（例如，T>0）。在下文中，我们表明较大的D{T}（x）指示较大的样本损失3Lt（x）=l（yf（x;wt ）） 2，其中y是对应于样本x的标签。我们首先给出一步输出偏差的上界D{1}（x）。推论1初步将T步输出偏差D{T}（x）与样本损失L（x）联系起来.然而，计算它几乎是不可行的。wf（x;wτ）在所有τ上。幸运的是WF近似为常数神经网络的上下文，如[45，49]中所讨论的。注1对于具有ReLU激活的线性层φ（x; W），Lipschitz常数L（W）≤x。由于样本x是从分布X中提取的，我们假设x的上限是一个常数，因此f在w上是Lipschitz连续的。因此，我们让wf2由常数C上界。包括Cifar-10和Cifar-100在内的图像分类基准测试的实证结果如图1，黑线是训练集上的平均wf2。蓝线表示每个主动学习周期后的平均wf2Wf2在样本上具有小的方差，并且它在每个主动学习周期上几乎是恒定的当wf2≤C时，我们重写推论1以连接D{T}（x）与样本x的累积损失。推论2通过适当设置学习率η以及常数C，√t+ΣT−1定理1通过适当地设置学习速率η，D{T}（x）≤2T ηC， τ=tL τ（x）。（四）D{1}（x）≤η√2Lt（x）wf（x;wt）2.（二）2为简洁起见，表示本文中的L2范数23这里我们以欧几里得损失为例。交叉熵损失具有类似的结果。推论2表明，f（x;wt+T）f（x;wt）是T梯度下降过程中累积损失L的平方根的下界. 因此，当T固定时，例如，通过一定次数的神经网络迭代训练，TOD可以有效地估计样本x的损失.注意||wf（x）||2Σ3450转|||距离图2.基于COD的主动学习无标记数据采样策略。从未标记池中收集具有最大COD的数据样本。所收集的样品由oracle注释并添加到标记的池中。定理1及其推论的前提假设限制了学习率η不能太大而不满足我们证明中使用的泰勒展开。在实证研究中，我们发现常用的学习率，例如η=0.1或更小，工作良好。4. 半监督主动学习1.00.5CIFAR-10123456七个主动学习周期SVHN0.80.60.40.20.01.21.00.8CIFAR-100123456七个主动学习周期加州理工1013.02.52.01.54.1. 问题公式化我们首先将标准的主动学习任务表述为1.00.30.21.251.000.751.251.000.75如下令（xS，yS）表示从一个采样点提取的样本对0.50.10.500.50标记数据集（XS，YS），其中XS是数据点，YS是标签。设xU表示未标记样本123456七个主动学习周期0.251二个三个四个五个六个七个主动学习周期0.25从较大的未标记数据池XU中提取，即，不能观察到对应于XU的标签YU。在主动学习周期c中，主动学习算法从未标记池Xu中选择固定预算的样本，并且所选择的样本将由oracle注释。预算大小b通常比未标记池的大小XU小得多。主动学习的目标是选择信息量最大的未标记样本进行标注，从而最小化一个任务模型f：XY的预期损失。接下来，我们将在半监督交流中使用TOD学习框架。主动学习算法一般由两个部分组成：（a）未标记的数据采样策略和（b）任务模型的学习。我们适应TOD这两个组件，分别。对于组分（a），我们提出了循环输出差异（COD），一种选择具有最大估计损失的未标记样本用于注释的新标准。对于组件（b），我们开发了基于TOD的无监督损失项以提高任务模型的性能。在下文中，我们制定了主动学习问题，并讨论了这两个组件的细节。4.2. 循环输出差异由方程式4，我们提出的TOD表征了监督学习的损失函数的下限。这里我们介绍TOD的一个变体，即，循环输出差异（COD），用于主动选择未标记的样品。COD通过测量两个连续主动学习周期之间的模型输出D循环（x|w c，w c−1）= f（x; w c）− f（x;w c−1），（5）图3.循环输出差异（COD）与实际任务损失的一致性。我们显示COD和实际损失平均超过未标记的样品，与。在主动学习设置下，标记图像的百分比。其中，模型参数wc和wc−1是在第c个和第（c-1）个主动学习周期。图2示出了基于COD的未标记数据采样的过程。给定未标记池XU中每个样品的COD，我们的策略从XU中选择具有最大COD的b个样品。然后，该策略查询人类预言机以注释所选择的样本。新注释的数据被添加到标记的池中，用于下一次访问。学习周期。在第一循环（即，c=l），用标记数据的随机子集训练模型f，并且基于初始模型和在第一循环之后学习的模型来计算COD。对于c≥2，我们可以puteCODcyclic（x wc，wc−1）用于主动样本选择系统地COD的极大极小优化如推论2所讨论的，基于COD的数据采样策略可以在未标记池中找到损失较大的样本，从而通过在下一个周期中进一步训练任务模型来最小化模型f的预期损失。图3初步验证了COD与实际损耗之间的一致性，其中COD显示出与实际损耗相似的趋势，并且它们都随着主动学习的进展而减小。代替直接最小化TOD（即，min-min优化，这可能不是好的），COD开发TOD作为主动学习中的样本选择的标准，其中拾取具有最大TOD的样本（例如，max-min策略）。当标记池Top-b样本预算Oracle未标记样本池任务模型（循环c-1）任务模型（循环c）CodCod损失Cod损失损失CodCod损失损失3451US|XC|SSSS总体SUSS无监督损失任务丢失1.51.00.50.0CIFAR-101 2 3 4 5 67主动学习周期1.51.00.50.0SVHN0-5%5%-10%10%-20%20%-50%50%-100%1 2 3 4 5 67主动学习周期图4.半监督任务学习方案。对于标记的数据，任务模型用任务损失来训练对于未标记的数据，训练任务模型以最小化图5.未标记样品的平均实际损失按COD值的降序排列。例如，任务模型和基线模型。将具有潜在损失的样本的标签视为信息增益，我们的策略实际上使主动学习中的最小增益最大化。4.3. 半监督任务学习CIFAR-10402000 2 4 6 8 10%采样图像SVHN60402000 2 4 6 8 10%采样图像无监督损失如推论2所建议的，TOD测量累积的样本损失，并且因此自然地采用TOD作为无监督准则以使用未标记的数据来改进模型f然而，直接将TOD应用于无监督训练图6.使用学习的损失预测模型（LL4AL）[54]和提出的COD方法进行损失估计的性能。我们示出了具有最高实际损失的采样图像的比例，采样图像的比例。请注意，标记池（Xc，Yc）将根据在最后一个周期c-1获得的基线模型可能导致归因于以下方面：1）当前模型和基线模型之间的迭代间隔（即，推论2）中的T在模型训练期间不再是固定的，因此损失测量将是不准确的; 2）基线模型仅取决于单个历史模型状态，使得其可能遭受损失测量的大的变化为了解决上述问题，我们受到Mean Teacher [46]的启发，通过对历史参数应用指数移动平均（EMA）来构建基线模型，如下所示w~←α·w~+（1−α）·w。（六）其中w~和w分别是基线模型和电流模型的参数，α是EMA衰减率。我们的无监督损失最小化了当前模型和基线模型之间的距离。在第c个循环中，对于未标记池Xc，无监督损失为Lc（w）=1 Σf（x;w）−f（x;w~）2。（七）UUU积极的学习周期。在主动学习周期内，标记池保持不变。总体目标。我们的半监督任务学习方案如图所示。4.第一章通过整合任务和无监督损失，我们最小化了随着周期c演化的总体学习对象，如下所示Lc（w）=Lc（w）+λ·Lc（w），（9）其中λ是平衡任务和未监督损失项的权衡权重。在我们的实验中，λ设置为0.05，EMA衰减率α设置为0.999。更多详情请参见补充材料。5. 实验我们进行了广泛的实验研究，以评估所提出的主动学习方法的两个计算机视觉任务，图像分类和语义分割，与五个基准数据集。在具有不同初始网络权重的3次运行中报告结果并标记|X C|U UxU∈Xc池. 我们使用PyTorch框架实现了这些方法-工作[37]。更多详情请参见补充材料。任务丢失。对于标记的数据，我们优化了一个有监督的任务目标。在这里，我们以图像分类的交叉熵（CE）损失在第c个循环中，给定循环中的标记集（Xc，Yc），监督损失为L c（w）=1ΣCE [f（x;w），y].（八）S（xS，yS）∈（Xc，Yc）未标记样本池标记池任务模型基线模型真阳性率（%）CodLL4AL损失真阳性率（%）损失SS34525.1. TOD作为损失度量本工作提出了TOD来估计未标记样本的损失。图3评估了如定理1和推论2中所讨论的TOD和样品损失之间的关系，表明平均COD和平均损失具有与积极学习周期一致的趋势到3453我们的半核集我们的任务随机VAAL全面培训LL4AL平均准确度（%）×个CIFAR-10949290888684828010 15 20 25 3035标记图像CIFAR-10075706560555045403510 15 20 25 30 35标记图像SVHN Caltech-10195.5 9095.08594.58094.093.57593.07010 15 20 25 3035标记图像10 15 20 25 30 35标记图像图7.在四个基准数据集上的图像分类的主动学习结果为了进一步验证TOD方法的有效性，我们通过对未标记样本的COD值进行排序，研究了未标记样本的平均损失。图5示出了样本的较大COD值指示样本的较高损失，并且该观察结果在所有主动学习周期中是一致的。在图 6 中，我们比较了学习损失预测模型（LL4AL）[54]和COD的损失估计性能。我们调查了有多少样本的最高损失可以挑选出使用不同的方法。图6示出了C0D的表现明显好于LL4AL，因为C0D能够在所有采样设置下挑选出更多的高损耗样品。图图3、5和6表明COD是有效的损失度量以及用于主动数据采样的可行准则。5.2. 主动学习的图像分类实验装置。我们在四个基准图像分类数据集上评估了主动学习方法，包括Cifar-10 [25]，Cifar-100 [25]，SVHN [35]和Caltech-101 [10]。遵循深度主动学习的传统做法[54，43]，我们采用ResNet-18 [17]作为图像分类模型。我们将我们的主动学习方法与最先进的方法进行比较，包括CoreGCN [3]，UncertainGCN [3]，SRAAL [57]，TA-VAAL [22]、VAAL [43]、LL4AL [54]、核心集[40]和MC-Dropout [12].此外，未标记数据的随机选择（训练集（“Ours-Semi” indicates our approach trained withthe semi- supervised loss and “Ours-Task” is our approachtrained with only the task结果图7示出了不同主动学习方法的图像分类性能。我们的方法优于所有其他方法的基准数据集。此外，我们还有以下观察结果。(i)我们的方法始终比其他方法更好地执行与方面的周期。这是成功的主动学习方法的期望属性，因为标记预算可以针对现实世界应用中的不同任务而变化。例如，可能只能注释所有数据的20%而不是40%。(ii)我们的方法在Cifar-100和Caltech等困难数据集上显示出强大的101.这两个数据集都包括比Cifar- 10多得多的类，并且Caltech-101包括分辨率高得多的图像（即300 200）。这些困难的数据集给主动学习带来了更多的挑战，这些数据集上的优异表现证明了我们的方法的鲁棒性(iii)与其他方法相比，我们的方法的性能曲线相对平滑。平滑的曲线意味着从一个周期到另一个周期有一致的性能改进(iv)Ours-Semi的性能优于Ours-Task，这表明我们的半监督训练成功地利用了未标记的数据。（v）我们的方法使用40%的训练样本来Ours-Semi VAAL我们的任务LL4ALCoreGCN核心集不确定性GCN MC-脱落SRAAL随机TA-VAAL完整培训我们的半LL4ALOurs-Task核心集SRAAL MC-辍学TA-VAAL随机VAAL全面培训我们的半核集我们的任务MC-DropoutSRAAL随机VAAL全面培训LL4AL平均准确度（%）平均准确度（%）平均准确度（%）3454我们的半核集我们的任务MC-DropoutSRAAL随机VAAL完全训练QBC任务+CyclicOD任务+ EMAOD任务+LL4AL任务平均准确度（%）平均准确度（%）×个表1.在40%标记数据上的主动学习性能 “主动”：所提出的主动数据选择策略。数据集核心集LL4AL瓦尔SRAAL基地基础+半碱+活性基础+半+活性CIFAR1091.894.192.092.591.892.2（+0.4）94.2（+2.4）94.5（+2.7）CIFAR10065.065.265.466.262.366.1（+3.8）67.3（+5.0）68.5（+6.2）城市景观62605855CIFAR-10929088858280CIFAR-100656055504540五二十1520253035四十个标记图像的百分比101520253035四十个标记图像的百分比50图9.主动数据采样消融。48Cifar-10CIFAR-10045906010 15 20 25 30 35标记图像的百分比8550图8. CityScapes数据集上语义分割的主动学习结果。在Cifar-10和SVHN上的表现优于全部训练，例如，8075标记图像的百分比4030101520253035四十个标记图像的百分比94.5%vs. Cifar-10上的93.1%。这一有趣的发现与之前文献[24]中讨论的观察结果一致，即原始数据集中的一些数据可能对模型训练是不必要的或有害的。表1比较了不同的主动学习方法，最先进的算法和所提出的方法，用于40%训练标记数据的图像分类。半监督任务学习和主动数据选择策略都我们还注意到，所提出的方法可以在没有半监督任务学习的情况下优于现有算法（参见5.3. 语义分割实验装置。为了验证在更复杂和大规模场景中的主动学习性能，我们使用Cityscapes数据集[ 5 ]研究了语义分割任务，Cityscapes数据集[5]是从城市街道场景中收集的大规模驾驶视频数据集。语义分割解决了像素级分类任务，其标注成本要高得多。根据[43，57]中的设置，我们采用22层扩张残差网络（DRN-D-22）[55]作为语义分割模型。我们在Cityscapes的验证集上报告了平均交集（mIoU）。我们将我们的方法与SRAAL [57]，VAAL [43]，QBC [26]，Core-set [40]，MC-Dropout [12]和随机选择进行比较。结果图8示出了Cityscapes上的不同主动学习方法的语义分割性能。图10.半监督任务学习的消融。Ours-Semi和Ours-Task在mIoU方面均优于其他基线。结果证明了我们的方法在具有挑战性的语义分割任务上的竞争力。请注意，在我们的方法中，任务模型训练和数据采样都不需要利用额外的领域知识。因此，我们的方法独立于任务。此外，Cityscapes的图像大小（即，2048 1024）比分类基准大得多，表明我们的方法对数据复杂度不敏感。这些优势使我们的方法成为复杂的现实世界的应用程序的竞争对手。5.4. 消融研究主动数据采样策略。图9比较了Cifar-10和Cifar-100上的不同主动数据采样策略。CyclicOD和EMAOD是TOD的两个变体，其中CyclicOD采用上一个周期结束时的模型作为基线模型，而EMAOD采用先前模型的指数移动平均值作为基线模型。LL4AL [54]使用学习的损失预测模块对未标记的数据进行采样。图9示出了所提出的采样策略，即，EMAOD和CyclicOD在两个数据集上的表现优于随机抽样和LL4AL抽样CyclicOD在Cifar-100上的表现优于EMAOD，因此我们在其余实验中采用COD作为我们的采样策略。半监督任务学习。为了评估半监督任务学习在主动学习中的必要性，Fig. 十个CyclicOD采样EMAOD采样LL4AL采样随机抽样CyclicOD采样EMAOD采样LL4AL采样随机采样任务+CyclicOD任务+ EMAOD任务+LL4AL任务Miou平均准确度（%）平均准确度（%）101520253035四十个3455表2. Cityscapes上的类性能，其中40%的标记数据用于训练。“比例”表示像素级的类的比例。“T”是仅使用任务损失训练的模型。‘T + U’ is the model trained using both the task loss and the proposed TOD-based unsupervised类ID12345678910111213141516171819Ave比例（%）37.45.422.30.80.81.50.20.717.30.83.31.30.26.50.30.40.10.10.7-T（mIoU）9267821627535363874284714386193420316954.7T + U（mIoU）957287242856597290498477529024428397358.9100908070第1类第二类第三类第四类第五类分类#67级8级第九课10级1 2 3 4 5 6 7主动学习周期表3.使用NVIDIA GTX 1080Ti GPU进行一次活动采样迭代所需的时间（秒）显示了每个数据集的采样图像数量和图像大小方法CIFAR-102.5K，322SVHN3.6K，322加州理工1010.4K，2242额外模特？科雷塞特[40]VAAL [43][54]第91.413.07.7168.717.210.848.232.639.6√×√货到付款（我方）7.210.126.9×个图11.使用所提出的主动学习方法在Cifar-10上的每类准确度。比较了Cifar-10和Cifar-10上的不同损失函数100. CyclicOD损失和EMAOD损失是两种基于TOD的无监督学习标准。它们在未标记数据上被最小化，并且它们的基线模型的设置与上面讨论的抽样策略研究中的设置相同。LL4AL损失[54]最小化预测损失和实际任务损失之间的距离，并且它需要数据标签。所有辅助损失与任务损失组合使用完整的流水线和仅具有任务丢失的训练也被包括在比较中。我们观察到，EMAOD损失或CyclicOD损失可以帮助提高性能，并且它们中的任一个显示出比LL4AL损失更大的性能提高。EMAOD损失比CyclicOD损失表现出更稳定的性能，表明直接将COD应用于无监督训练可能导致不稳定的模型训练。先前模型状态的移动平均值我们在其余的实验中使用EMAOD作为我们的无监督损失。表2显示了Cityscapes上标准任务模型训练的每类性能表2中的“比例”行我们比较了没有（即，‘T’) andwith (“T + U”）无监督损失。半监督学习在19个类中的18个上产生了更好的结果。更重要的是，半监督学习在少数类上显示出比多数类更显著的性能改进，表明无监督损失赋予任务模型鲁棒性以处理类不平衡问题。每级性能。图11示出了每类accu.Cifar-10上的活动与所提出的主动学习方法。在大多数情况下，类的准确性随着主动学习周期的增加而提高，使得性能提高不偏向于某些类。类别#3和类别#4的准确度从第6个循环到第7个循环降低，这主要是由于过拟合。5.5. 时间效率本文提出用COD进行主动数据采样。表3评估了使用不同主动学习方法的一次主动采样迭代所花费的时间。在所有三个不同数量和大小的采样图像的图像分类数据集，COD是快于现有的主动学习方法。COD是任务不可知的并且更有效，因为它只依赖于任务模型本身，并且它不引入额外的可学习模型，例如对抗网络（VAAL）[43]或损失预测模块（LL4AL）[54]。6. 结论在本文中，我们提出了一种简单而有效的深度主动学习方法。我们的方法的核心是一个测量时间输出差异（TOD），估计损失的未标记的样本，通过评估的差异，由模型给出的输出在不同的梯度下降步骤。我们已经从理论上表明，TOD下限的累积样本损失。在TOD的基础上，我们开发了一种无标记的数据采样策略和一种半监督的主动学习训练方案。由于TOD的简单性，我们的主动学习方法是有效的，灵活的，易于实施。大量的实验表明，我们的方法在图像分类和语义分割任务的有效性在未来的工作中，我们计划将TOD应用于其他机器学习任务和场景，因为它是一种有效的损失度量。每类准确度（%）3456引用[1] 本·阿西沃拉特昆，马克·芬齐，帕维尔·伊兹梅洛夫，还有安德鲁·戈登·威尔逊.对未标记数据有许多一致的解释：为什么要平均。2019年，在ICLR。三个[2] 克劳斯·布林克将多样性与支持向量机结合在主动学习中ICML，第59-66页，2003年。一、二[3] Razvan Caramalau、Binod Bhattarai和Tae-Kyun Kim。用于主动学习的序列图卷积网络。在CVPR中，第9583-9592页，2021年。六个[4] David A Cohn、Zoubin Ghahramani和Michael I Jordan。使用统计模型进行主动学习。JAIR，4：129-145，1996.一、二[5] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。七个[6] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在ICCV，第1422-1430页，2015中。一个[7] 梅勒妮·杜柯菲和弗雷德里克·普雷西奥索深度网络的对抗性主动学习：基于边际的方法。arXiv预印本arXiv：1802.09841，2018。二个[8] Suyog Dutt Jain和Kristen Grauman。活动图像分段传播。在CVPR，第2864-2873页，2016年。1[9] Sayna Ebrahimi，Mohamed Elhoseiny，Trevor Darrell，Marcus Rohrbach.贝叶斯神经网络不确定性引导的连续学习。在ICLR，2020年。二、三[10] 李飞飞，罗伯·费格斯，皮埃特罗·裴罗纳。对象类别的一次性IEEE TPAMI，28（4）：594-611，2006. 六个[11] Alexander Freytag，Erik Rodner，and Joachim Denzler.选择有影响力的示例：具有预期模型输出变化的主动学习。在ECCV，第562-577页，2014中。二个[12] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为贝叶斯近似：在深度学习中表示模型的不确定性。在ICML，第1050-1059页，2016中。二六七[13] Yarin Gal、Riashat Islam和Zoubin Ghahramani。基于图像数据的深度贝叶斯主动学习。arXiv预印本arXiv：1703.02910，2017。二、三[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，第2672-2680页二个[15] 郭玉红。通过矩阵划分的活动实例采样。在NIPS，第802-810页，2010中。一、二[16] 何航峰和苏伟杰。神经网络的局部弹性。在ICLR，2020年。一个[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。六个[18] 托尔斯滕·约阿希姆通过谱图划分的直推学习。在ICML，第290-297页，2003中。二个[19] Ajay J Joshi，Fatih Porikli，and Nikolaos Papanikolopou-los.图像分类的多类主动学习。在CVPR中，第2372-2379页，2009年。一、二3457[20] ChristophK¨ding ， ErikRodner ， Ale xanderFre ytag ，andJoachim Denzler.通过深度神经网络和预期的模型输出变化进行主动和持续的探索。arXiv预印本arXiv：1612.06129，2016。二个[21] Ashish Kapoor ， Kristen Grauman ， Raquel Urtasun ，and Trevor Darrell.用高斯过程进行主动学习的物体分类。ICCV，第1-8页，2007年。二个[22] Kwanyoung Kim，Dongwon Park，Kwang In Kim，andSe Young Chun.任务感知变分对抗主动学习。在CVPR中，第8166-8175页，2021年。六个[23] Durk P Kingma ， Shakir Mohamed ， Danilo JimenezRezende，and Max Welling.深度生成模型的半监督学习。在NIPS，第3581-3589页，2014中。二个[24] Pang Wei Koh和Percy Liang。通过影响函数理解黑盒预测。ICML，2017。七个[25] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。技术报告，2009年。6[26] 郭伟成、克里斯蒂安·哈恩、埃斯特·尤、普拉蒂克·穆克吉和吉滕德拉·马利克。颅内出血检测的成本敏感主动学习。在MICCAI，第715- 723页，2018年。二、七[27] Samuli Laine和Timo Aila用于半监督学习的时间集成在ICLR，2017。二、三[28] Yann LeCun、D Touresky、G Hinton和T Sejnowski。反向传播的理论框架。1988年联结模型暑期学校会议录，第1卷，第21-28页，1988年一个[29] 李欣和

下载后可阅读完整内容，剩余1页未读，立即下载