深度神经网络的主动学习方法及其在任务中的优势

186 浏览量更新于2023-10-18 收藏 738KB PDF 举报

主动学习

深度神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1主动学习Donggeun Yoo1，2和In So Kweon21Lunit Inc.，韩国首尔2韩国大田KAIST。dgyoo@lunit.ioiskweon77@kaist.ac.kr摘要深度神经网络的性能随着更多注释数据的增加而提高问题是注释的预算是有限的。一个解决方案是主动学习，其中模型要求人类注释它认为不确定的数据。最近已经提出了各种将主动学习应用于深度网络的方法，但其中大多数方法要么是针对其目标任务而设计的，要么是针对大型网络的计算效率低下。在本文中，我们提出了一种新的主动学习方法，该方法简单但与任务无关，输入目标预测损失预测(a) 带有损失预测模块人类预言家注释了顶级数据点深层网络我们将一个名为“损失预测模块”的小参数模块附加未标记样本池预计损失标记训练集学习它来预测未标记输入的目标损失。然后，该模块可以建议目标模型可能产生错误预测的这种方法是任务不可知的，因为网络是从单个损失中学习的，而不管目标任务是什么。我们严格验证我们的方法，通过图像分类，对象检测和人体姿态估计，与最近的网络架构。结果表明，我们的方法始终优于传统的方法的任务。1. 介绍数据正在涌入，但深度神经网络仍然是数据饥渴型的。[33，20]的实证分析表明，最近的深度网络的性能在训练数据的大小方面尚未饱和。为因此，从半监督学习[42，39，33，20]到无监督学习[1，7，58，38]的学习方法与弱标记或未标记的大规模数据一起吸引了人们的注意。然而，给定固定量的数据，半监督或无监督学习的性能仍然与全监督学习的性能相关联。实验-(b) 具有损失预测模块的图1.一种新的带有损失预测模块的主动学习方法。(a)附加到目标模型的损失预测模块从没有其标签的输入预测损失值（b）未标记池中的所有具有前K个预测损失的数据点被标记并添加到标记的训练集。[42，45]中半监督学习的总体结果表明，注释数据的较高部分确保了卓越的性能。这就是为什么我们遭受着巨大的劳动力和时间成本。注释的成本因目标任务的不同而有很大的不同.在自然图像域中，为分类标注类别标签相对对于分割，绘制像素级掩模的成本更高。当我们考虑生物医学图像域时，情况变得更糟。它需要经过多年培训的委员会认可的专家（放射科医生用于放射摄影图像[35]，病理学家用于载玻片图像[24]）才能获得注释。注释的预算是有限的。那么，怎样才能最有效地利用预算呢？[326]第一次提出的AC-93损失预测模块模型⋯94主动学习，其中模型主动选择模型不确定的数据点。对于二进制分类的示例[26]，选择后验概率最大为0.5的数据点，注释并添加到训练集。主动学习的核心思想是，信息量最大的数据点比随机选择的数据点更有利于模型给定未标记数据池，根据选择标准有三种主要方法：基于不确定性的方法、基于多样性的方法和预期的模型变化。不确定性方法[26，19，55，52，49，4]定义并测量不确定性的数量以选择不确定的数据点，而多样性方法[45，37，15，5]选择代表未标记池的整个分布的多样性数据点。预期模型变化[44，48，12]选择会导致当前模型参数或输出发生最大变化的数据点（如果我们知道它们的标签）。读者可以在[46]中重新审视这些方法的大多数经典研究。不确定性方法的最简单方法是利用类后验概率来定义不确定性。预测类的概率[26]或类后验概率的熵[19，55]定义了数据点的不确定性。尽管它很简单，但这种方法在各种情况下都表现得非常好。对于更复杂的识别任务，需要重新定义任务特定的不确定性，例如对象检测[54]，语义分割[29]和人体姿势估计[8]。作为一种与任务无关的不确定性方法，[49，4]训练多个模型来构建一个委员会，并测量来自委员会的多个预测之间的共识。然而，构建一个委员会对于当前使用大数据学习的深度网络来说过于昂贵。最近，Gal等人 [14]通过Monte Carlo Dropout [13]的多次前向传递从深度网络获得不确定性估计。它被证明对小数据集的分类是有效的，但根据[45]，它不能扩展到更大的数据集。分布方法可以是任务不可知的，因为它取决于特征空间，而不是预测。然而，额外的工程将是必要的，以设计一个位置不变的特征空间的定位任务，如对象检测和分割。预期模型改变的方法对于小模型是成功的，但对于最近的深度网络在计算上是不切实际的。以往研究的大多数实证结果表明，主动学习实际上降低了标注成本。问题是大多数方法需要特定于任务的设计，或者在最近的深度网络中效率不高，导致另一个工程成本。在本文中，我们的目标是提出一种新的主动学习方法，该方法简单但与任务无关，并且在深度网络上表现良好。深度网络是通过最小化单个损失来学习的，无论任务是什么，有多少任务，以及架构有多复杂。这一事实激发了我们主动学习的任务不可知论设计。如果我们可以预测数据点的损失，则可以选择预期具有高损失的数据点。选定的数据点将对当前模型提供更多信息为了实现这种场景，我们将“损失预测模块”附加该模块如图1-（a）所示。一旦模块被学习，它可以被用于主动学习，如图1-（b）所示。我们可以应用这种方法适用于任何使用深度网络的任务。我们通过图像分类，人体姿态估计，目标检测验证所提出的方法。人体姿态估计是一个典型的回归问题，而目标检测是一个更加复杂的回归和分类相结合的问题实验结果表明，所提出的方法始终优于以往的方法与当前的网络架构的每个识别任务。据我们所知，这是第一个使用最先进的深度网络模型验证三种不同识别任务的工作1.1. 贡献概括地说，我们的主要贡献是1. 提出了一种简单但有效的主动学习方法，该方法具有损失预测模块，可直接应用于最近深度网络的任何任务。2. 评估所提出的方法与三个学习任务，包括分类，回归，和他们的混合，通过使用当前的网络架构。2. 相关研究主动学习已经发展了几十年。首先，我们介绍了使用小规模模型的经典主动学习方法[46]。在不确定性方法中，定义不确定性的一种简单方法是使用预测类的后验概率[26，25]，或者预测类和第二预测类的后验概率之间的类后验概率的熵[47，31，19]推广了前面的定义。对于SVM，到决策边界的距离[52，53，27]可以用于定义不确定性。另一种方法是按委员会查询[49，34，18]。该方法构建了一个由多个独立模型组成的委员会，并测量它们之间的分歧以定义不确定性。分布方法选择代表未标记样本池分布直觉是，在代表性子集上学习将在整个池中竞争为此，[37]应用聚类95KN−KK目标损失N−KK2K目标2K算法的池，和[57，9，15]制定子集选择作为一个离散的优化问题。[5，16，32]考虑数据点与周围数据点的接近程度，以选择可以很好地传播知识的数据点期望模型改变的方法是一个更复杂的和决策理论的模型改进的方法。它利用当前模型来估计所有可能标签的预期梯度长度[48]，预期未来误差[44]或预期输出变化[12，21]。这些方法，先进的小模型和数据，以及扩展到大型深度网络[23，17]和数据？幸运的是，分类任务的不确定性方法[28，55]尽管简单，但仍然表现良好。然而，特定于任务的设计对于其他任务是必要的，因为它利用了网络输出。作为一种更广义的不确定性方法，[14]通过Monte Carlo Dropout的多次向前传递获得不确定性估计，但对于最近的大规模学习来说，它在计算上效率低下，因为它需要密集的dropout层，这大大降低了收敛速度。这种方法已被验证，只有小规模的分类任务。[4]构建包括5个深度网络的委员会，以将不一致性作为不确定性来测量。它已经显示出最先进的分类性能，但它也是低效的内存和大规模问题的计算。Sener等人 [45]提出了一种在深度网络的中间特征空间上的分布方法。该方法3.1. 概述在本节中，我们使用所提出的损失预测模块正式定义了主动学习场景。在该场景中，我们具有由目标模型Θtarget和损失预测模块Θloss组成的一组模型。如图1-（a）所示，损失预测模块连接到目标模型。目标模型按照y=Θtaget（x）进行目标任务，而损失预测模块预测损失εl=Θlos s（h）。这里，h是x的特征集从Θ目标的几个隐藏层中提取。在大多数现实世界的学习问题中，我们可以一次收集大量未标记的数据UN。下标N表示数据点的数量。然后，我们从未标记的池中随机均匀地采样K个数据点，并要求人类预言机对它们进行注释以构建初始标记数据集L0。下标0表示这是初始阶段。此过程将未标记池的大小减小为U0。一旦获得初始标记的数据集L0，我们就联合学习初始目标模型Θ0和初始损失预测模块Θ0。在初始训练之后，我们通过损失预测模块来评估未标记池中的所有数据点，以获得数据损失对{（x，l）|x∈U0{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 然后，人类预言家注释K-最高损失的数据点。标记的数据集L0用它们更新并变为L1. 在那之后，我们学习模型，直接适用于任何任务和网络架构，得到{Θ11损失 {\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 这个循环，如图所示因为它依赖于中间特征，而不是特定于任务的输出。然而，它仍然是值得怀疑的中间特征表示是否是有效的本地化任务，如检测和分割。该方法也仅通过分类任务进行了验证。基于不确定性和离散性的两种方法动机不同，因此它们是互补的。因此，已经提出了各种各样的混合策略[29，59，41，56]用于其特定任务。我们的方法可以归类为不确定性方法，但不同之处在于，它预测它类似于各种困难的例子挖掘[50，11]，因为它们认为具有高损失的训练数据点然而，我们的与他们的不同之处在于，我们没有数据的符号。3. 方法在本节中，我们将介绍所提出的主动学习方法。我们在第3.1节中概述了整个主动学习系统，并在第3.2节中深入描述了损失预测模块，并在第3.3节中提供了学习此模块的方法。重复步骤1-（b），直到我们满足满意的性能或者直到我们耗尽注释的预算。3.2. 损失预测模块损失预测模块是我们与任务无关的主动学习的核心，因为它学习模仿目标模型中定义的损失。本节介绍我们如何设计它。损失预测模块旨在最小化为主动学习定义任务特定不确定性的工程成本。此外，我们还希望最大限度地减少学习损失预测模块的计算成本，因为我们已经受到学习非常深的网络的计算成本的影响。为此，我们设计了一个损失预测模块，它（1）比目标模型小得多，（2）与目标模型联合学习。没有单独的阶段来学习这个模块。图2说明了我们的损失预测模块的架构。它将多层特征图h作为在目标模型的中级块之间提取的输入。这些多个连接让损失预测模块选择对损失预测有用的层之间的必要信息。每个特征图通过全局平均池（GAP）层和全连接层简化为固定维的特征向量然后，所有的特征都连接起来，并通过另一个完全-L、Θ96中间嵌段中间嵌段目标预测目标模型康卡特输出块中间嵌段K·（s+1）K·（s+1）损失S间隙FCReLU损失输入目标预测损失预测目标GT目标损耗预测图2.损失预测模块的架构。该模块连接到目标模型的几个层，以考虑多层次的知识进行损失预测。多层次特征被融合并映射到标量值作为损失预测。连接的层，以标量值表示作为预测损失。学习这个两层模块需要的内存和计算量比目标模型少得多。我们试图使这个模块更深入和更广泛，但性能-损失预测损失图3.方法来学习损失。给定输入，目标模型输出目标预测，损失预测模块输出预测损失。目标预测和目标注释用于计算目标损失以学习目标模型。然后，目标损失被视为损失预测模块的地面实况损失，并用于计算损失预测损失。损失预测损失函数需要舍弃l的总标度。我们的解决方案是比较一对样本。让我们考虑一个具有曼斯变化不大。小批量生产.在大小为3.3. 学习损失在本节中，我们将详细描述如何学习之前定义的损失预测模块。让我们假设我们开始第s个主动学习阶段。我们有B ，我们可以做 B/2 个数据对，如{xp= （ xi ，xj）}。下标p表示它是一对，而迷你-批量大小B应该是偶数。然后，我们可以通过考虑一对损失预测之间的差异来学习损失预测模块，这完全使得标记数据集Ls以及由以下各项组成的模型集：损失预测模块丢弃整体比例变化。到目标模型Θtarget和损失预测模块Θloss。我们目标是学习该阶段的模型集，以获得为此，损失预测模块的损失函数被定义为：S目标损失}。.Σ给定一个训练数据点x，我们得到一个目标预Lloss（lp，lp）=max0，−<$（li，lj）·（l<$i−l<$j）+<$通过tarr get模型的措辞，=Θtarget（x），以及通过损失预测模块的预测损失也为+1，如果li> ljθ1=Θ损失（h）。对于x的目标注释y，目标S.T. （li，lj）=-1，否则（二）损失可以被计算为l=Ltaget（y），以学习taget。得到模型。因为这个损失l是h的一个真实目标，对于损失预测模块，我们还可以将损失预测模块的损失计算为L_los_s（l，l）。然后，最终的损失函数联合学习目标模型和损失预测模块被定义为Ltar get（y，y）+λ·Lloss（l，l）（1）其中λ是缩放常数。定义最终损耗的过程如图3所示。其中ξ是预定义的正裕度，并且下标p也表示（i，j）对。例如，当li> lj时，该函数规定，只有当li大于lj+l j时，模块才没有损失，否则，模块会有损失，以迫使其增加li并减少lj。给定处于主动学习阶段s的小批次Bs，我们最终损失函数，以共同学习目标模型和损失预测模块1Σ2Σ也许定义损失预测的最简单方法Ltar get（y，y）+λ·Lloss（lp，lp）损失函数是均方误差（MSE）Llos s（l，l）=（l−l）2。然而，由于实际损失l的规模改变（减小），所以MSE不是用于该问题的合适选择B（x，y）∈BsB（xp，yp）∈Bsy=Θtar get（x）总的来说）随着目标模型的学习进展。最小化MSE将使损失预测模块粗略地适应损失l的尺度变化，而不是拟合S.T.lp=Θloss（hp）lp= Lta r ge t（yp，yp）.（三）精确到值。我们试图将MSE降至最最小化这个最终损失，我们得到Θs以及ΘsFC损失预测模块模型GAPFCReLU{Θ、Θ间隙FCReLU97目标损失但没能学会一个好的损失预测模块，而且这个模块的学习实际上展示了perfor-没有任何单独的学习过程，也没有任何任务，具体假设。学习过程是高效的，比以前的方法更糟糕。损失预测模块被设计用来容纳98K目标S少量的参数，但是利用目标模型的丰富的中级表示H。这个损失预测模块将挑选信息量最大的数据点，并要求人类预言机为下一个主动学习阶段s+1注释它们。4. 评价在本节中，我们通过三个视觉识别任务严格评估我们的方法。为了验证我们的方法是否有效地工作，无论任务，我们选择不同的目标任务，包括图像分类作为分类任务，对象检测作为分类和回归的混合任务，以及人体姿态估计作为典型的这三个任务确实是计算机视觉中视觉识别的重要研究课题，并且对于许多现实世界的应用非常有用。我们已经用PyTorch实现了我们的方法和所有的识别任务[40]。对于所有任务，我们通过随机采样K= 1，000个数据来初始化标记数据集L从整个数据集UN点。在每一个积极的学习-在循环中，我们继续训练当前模型，K= 1，000个标记数据点。在损失函数（等式2）中定义的裕度ξ被设置为1。我们设计了图2中的全连接层（FC），除了最后一个以产生128维特征。对于每一种主动学习方法，我们重复相同的实验多次，子集大小为M= 10，000。作为评价指标，我们使用分类准确度。目标模型我们采用18层残差网络（ResNet-18）[17]，因为我们的目标是用当前的深度架构来验证我们的方法。我们已经利用了一个开源的1，其中该模型指定为CIFAR显示93.02%的准确性实现。CIFAR的ResNet-18与原始ResNet-18相同，除了第一个卷积和池化层。改变第一个卷积层包含3×3的内核，步长为1，填充为1，最大池化层被丢弃，以适应CIFAR的小尺寸图像损失预测模块ResNet-18由4个基本块{conv i1，convi2|i = 2，3，4，5}在第一卷积层之后。每个块包括两个卷积，离子层。我们简单地将损失预测模块连接到每个基本块，以利用来自块的4个丰富特征来估计损失。学习对于训练，我们应用标准的增强方案，包括从36×36零填充图像和随机水平翻转中随机裁剪32×32大小，以及nor-使用在训练集上估计的通道均值和标准偏差向量来中的每不同的初始标记数据集，并报告性能主动学习周期，我们学习模型集{Θs损失}平均值和标准差。对于每次试验，我们的方法并且被比较的方法共享相同的随机种子以进行公平比较。每个任务的其他实现细节、数据集和实验结果在以下章节4.1、4.2、4.3中描述。4.1. 图像分类图像分类是一个普遍存在的问题，已经被大多数先前的主动学习方法所验证在这个问题中，目标模型从输入图像中识别主要对象的类别，因此监督学习需要对象类别数据集我们选择CIFAR-10数据集[22]，因为它已用于最近的主动学习方法[45，4]。CIFAR-10由60，000张32×32×3大小的图像组成，分配了10个物体类别中的一个。训练集和测试集包括-分别提取50，000和10，000个图像。我们把对于200个epoch，小批量大小为128，学习率为0.1。在160个epoch之后，我们将学习率降低到0.01。动量和重量衰减分别为0.9和0.0005。在120个历元之后，我们停止从损失预测模块传播到目标模型的梯度。我们设置λ，其将等式3中的损失预测损失缩放为1。比较目标我们将我们的方法与随机抽样，基于熵的抽样[47，31]和核心集抽样[45]进行比较，这是一种最近的分布方法。对于基于熵的方法，我们从softmax输出向量计算熵。对于核心集，我们在[45]中实现了K-Center-Greedy算法，因为它易于实现，但比混合整数规划略差。我们还在分类层之前的最后一个特征空间上运行算法，正如[45]所做的那样。请注意，我们使用完全相同的超参数来训练训练集作为初始未标记池U50,000 . 为研究所有方法的目标模型，包括我们的方法。结果如图4所示每一点都是一个断言，在[45，46]中，从这样的样本中选择K个最不确定的样本，因为K个样本中的图像内容重叠，所以大的池U50，000通常不能很好地工作为了解决这个问题，[4]获得每个活动的随机子集SMUN使用不同初始标记数据集的5年期试验。我们的实现表明，基于熵和核心集的方法都比随机基线有更好的结果。在最后一个主动学习周期，熵和核集学习阶段，并选择K-最不确定的样本，的作案我们采用了这个简单而有效的方案，并将1https://github.com/kuangliu/pytorch-cifar、Θ990.90.80.71.00.80.60.40.20.0CIFAR-10（mse）PASCAL VOC 2007+2012MPII1k 2k 3k 4k 5k 6k 7k 8k 9k 10k 标记的图像或姿势图5.损失预测模块的损失预测精度。0.60.51k2k3k 4k5k6k7k8k9k 10kfor category类recognition识别.它需要对象边界框和类别标签进行监督学习。标记图像图4. CIFAR-10图像分类的主动学习结果。方法分别显示 0.9059 和 0.9010 ，而随机基线显示0.8764。这些方法之间的性能差距类似于[4]。特别地，简单的基于熵的方法非常有效地与分类一起工作，该分类通常被学习以最小化预测和目标标签之间的交叉熵。我们的方法被称为在过去的一年里-cle，我们的方法达到了0.9101的准确度。这比熵方法高0.42%，比核心集方法高0.91%。虽然性能差距，以熵为基础的方法是边缘的分类，我们的方法可以有效地应用于更复杂和多样化的目标任务。我们定义了一个评估指标来衡量损失预测模块的性能。对于一对数据点，如果预测的排名为真，我们给出分数1，否则给出分数0。将来自每对测试集的这些二进制分数平均为一个名为“排名准确度”的值。图5显示了损失预测模块在测试集上的排名准确性。随着我们添加更多的标记数据，损失预测模块变得更加准确，最终达到0.9074。使用MSE学习λ=0.1的损失预测模块（由“learn loss mse”表示4.2. 对象检测对象检测定位语义对象的边界框并识别对象的类别是数据集我们在PASCAL VOC 2007和2012 [10]上评估了我们的方法，这些方法提供了20个对象类别的完整边界框。VOC 2007包括trainvalVOC 2012提供了11，540张图像作为trainval在最近使用VOC进行对象检测之后，我们通过组合两者来制作超集trainval 主动学习方法的评价超过测试用于对象检测的标准度量。我们不创建随机子集SM，因为池U16，551的大小与CIFAR-10相比不是很大。目标模型我们采用单发多箱检测技术，tor（SSD）[30]，因为它是用于最近对象检测的流行模型之一。它是一个大型网络，主干为VGG-16 [51]。我们利用了一个开源2，它显示0.7743（mAP）略高于原始文件。损失预测模块SSD从提取的6级特征图中估计边界框及其类，{conv i|i = 4 3，7，8 2，9 2，10 2，11 2}[30]。因此，我们还将损失预测模块连接到它们中的每一个，以利用6个丰富的特征来估计损失。学习我们使用完全相同的超参数值和[30]中描述的数据增强方案，除了迭代次数，因为我们为每个活动学习周期使用较小的训练集。我们学习了300个epochs的模型，小批量大小为32。在240个epoch之后，我们将学习率从0.001降低到0.0001。我们将等式3中的缩放常数λ设置为1。一个典型的混合任务，因为它结合了回归问题，用于边界框估计和分类问题2https://github.com/amdegroot/ssd.pytorch随机平均随机均值±标准熵均值熵平均值±标准差核心集平均核心组平均值±标准差学习损失MSE平均值学习损失mse平均值±标准学习损失平均值学准确度（5次试验的平均值）排名准确度（平均值）1000.700.650.600.551k 2k 3k 4k 5k 6k 7k 8k 9k 10k标记图像图6.通过PASCAL VOC 2007+2012的对象检测的主动学习结果对于基于熵的方法，我们通过对来自对应于检测框的softmax输出的所有熵值进行平均来计算图像的熵。对于核心集，我们还在conv 7 上运行K-Center-Greedy（即，FC 7在VGG-16）的特点后，应用空间平均池。注意，我们使用完全相同的超参数来训练所有方法的SSD，包括我们的方法。图6显示了结果。每个点是具有不同初始标记数据集的3次试验的平均值。在最后一个主动学习周期中，我们的方法达到了0.7338 mAP，比随机基线的0.7117高出2.21%。熵和核心集方法，分别显示0.7222和0.7171，也比随机基线表现得更好。然而，我们的方法优于这些方法的利润率为1.15%和1.63%。熵方法不能捕捉边界盒回归的不确定性，而边界盒回归是目标检测的重要元素，因此需要设计另一种回归不确定性度量。核心集方法还需要设计一个特征空间，该特征空间能够很好地编码以对象为中心的信息，同时不随对象位置而变化。相比之下，我们的基于学习的方法不需要特定的设计，因为它预测最终的损失值，而不管任务。即使很难预测回归和分类的最终损失，我们的损失预测模块也能产生大约70%的排名准确率，如图5所示。4.3. 人体姿态估计人体姿态估计就是从一幅图像中定位出人体的各个部位。监督学习需要所有身体部位的点注释。由于目标是一组点，因此经常通过回归问题来处理。数据集我们选择MPII数据集[2]，它通常用于大多数近期作品。我们遵循[36]中使用的相同分割，其中训练集由来自14，679张图像的22，246个姿势组成，测试集由来自2，729张图像的2，958个姿势组成。我们使用训练集作为初始未标记池U22，246。对于每个周期，我们得到一个随机子池S5，000从U22，246，以下类似在CIFAR-10中，将子池的一部分转换为整个池的用于该问题的标准评估度量是正确关键点百分比在[36]之后，我们使用PCKh@0.5，其中距离由头部大小的一小部分归一化，阈值为0.5。我们采用的目标模式堆叠沙漏网络[36]，其中沙漏网络由下尺度池化和随后的上采样过程组成，以允许跨尺度自下而上、自上而下的推理。该网络产生对应于身体部位的热图，并通过应用MSE损失将它们与地面实况热图进行比较。我们使用了开源3，收益率为88.78%（PCK@0.5），这与使用8个沙漏网络的[36]相似。由于在单个GPU上学习8个沙漏网络，原始小批量大小为6对于我们的主动学习实验来说太慢了，我们已经尝试了更大小批量的多GPU学习。然而，即使没有损失预测模块，随着小批量大小的增加，性能也显著下降。因此，我们不可避免地堆叠了两个沙漏网络，显示86.95%。对于每个沙漏网络，身体部位热图从（H，W，C）=（64，64，256）的最后一个特征图驱动。我们选择这个特征图来估计损失。当我们堆叠两个沙漏网络时，这两个特征图被提供给我们的损失预测模块。学习我们使用与[36]中描述的完全相同的超参数值和数据增强方案，除了训练迭代次数我们学习了125个epoch的模型，小批量大小为6。在100个epoch之后，我们将学习率从0.00025降低到0.000025。在75个时期之后，来自损失预测模块的梯度不被传播到目标模型。我们将等式3中的缩放常数λ设置为0.0001，因为MSE的尺度非常小（在几个时期之后约为0.001）。堆叠沙漏网络不生成softmax输出，但生成身体部位热图。因此，我们将softmax应用于每个热图并估计熵3https://github.com/bearpaw/pytorch-pose网站随机平均随机均值±标准熵均值熵平均值±标准差核心集平均核心集平均值±标准学习损失平均值学习损失平均值±标准差mAP（3次试验的平均值）101随机平均随机均值±标准熵均值熵平均值±标准差核心集平均核心集平均值±标准学习损失平均值学习损失平均值±标准差预计损失相关系数= 0.680.80100.750.7050.650.0001 0.001实际损失（对数标度）+8.317相关系数= 0.450.00081k 2k 3k 4k 5k 6k 7k 8k 9k 10k已标记姿势图7.基于MPII的人体姿态估计的主动学习结果。每个身体部位。然后，我们对所有熵值进行平均。对于核心集，我们在应用空间平均池化后对最后一个特征图注意，我们使用完全相同的超参数来训练所有方法的目标模型，包括我们的方法。实验结果在图7中给出。每个点也是使用不同初始标记数据集的3次试验的平均值。结果表明，我们的方法优于其他方法作为主动学习周期的进展。在循环结束时，我们的方法达到0.8046PCKh@0.5，而熵和核心集方法分别达到0.7899和0.7985。这两种方法的性能差距分别为1.47%和0.61%。随机基线显示最低值0.7862。在人体姿态估计中，熵方法不如分类问题有效。虽然该方法有利于其中交叉熵损失被直接最小化的分类，但该任务最小化MSE以估计身体部位热图。核心集方法还需要一种新的特征空间，该特征空间对身体部位位置是不变的，同时保留局部身体部位特征。我们的损失预测模块以大约75%的排名准确度预测回归损失（图5），这使得在这个问题中能够进行有效的主动学习我们在图8中可视化预测损失与实际损失的相关性。在图的顶部，MPII测试集的数据点分散到预测损失和实际损失的轴上。总的来说，两个值是相关的，并且相关系数[6]（0表示没有关系，1表示强关系）为0.68。在图的底部，数据点分散在熵和实际损失的轴上。相关系数为0.45，远低于我们的预测0.00060.00040.0001 0.001实际损失（对数标度）图8.数据可视化的（顶部）我们的方法和（底部）基于熵的方法。我们使用来自最后一个主动学习周期的模型集来获得人体姿势的损失、预测损失和熵示出了从MPII测试集随机选择的2，000个姿势损失蓝色表示根据预测的损失或熵从总体中选择的20%数据点。我们的方法选择的点实际上具有高损失值，而熵方法选择了许多具有低损失值的点这种可视化表明，我们的方法是有效的选择信息数据点。5. 局限性和未来工作我们介绍了一种新的主动学习方法，适用于当前具有广泛任务的深度网络。该方法已被验证与流行的网络架构的三个主要的虽然该方法提供的不确定度评分是有效的，但没有考虑数据的多样性或密度。此外，损失预测精度相对较低的复杂任务，如对象检测和人体姿态估计。我们将继续这项研究，考虑到数据分布，并设计一个更好的架构和目标函数，以提高损失预测模块的准确性。未拾取线管件已拾取PCKh@0.5（3次试验的平均值）未拾取线管件已拾取熵102引用[1] P. Agrawal，J. Carreira和J.马利克学习通过移动来观察。IEEE International Conference on Computer Vision，第37-45页，2015年[2] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。在Proceedings ofthe IEEE Conference on computer Vision and PatternRecognition，pages 3686[3] L. E.阿特拉斯D. A. Cohn和R. E.拉德纳用查询和选择性抽样训练连接网络。神经信息处理系统的进展，第566-573页，1990年[4] W. H. Beluch，T. Gen e wein，A. Nürnbe r ge r和J. M. 科勒河集成在图像分类中的主动学习能力在IEEE计算机视觉和模式识别会议论文集，第9368-9377页[5] M. Bilgic和L.去吧基于链接的主动学习。在NIPS研讨会上分析网络和学习与图形，2009年。[6] R.博迪和G。史密斯实际统计方法：为科学家和技术人员。John Wiley Sons，2009年。[7] C.多尔施A. Gupta和A. A.埃夫罗斯通过上下文预测的无监督视觉表示学习。在IEEE计算机视觉国际会议的Proceedings，第1422-1430页[8] S. Dutt Jain和K.格劳曼活动图像分割传播。在IEEE计算机视觉和模式识别会议论文集，第2864- 2873页[9] E. Elhamifar湾Sapiro，A. Yang和S.尚卡尔·萨斯蒂主动学习的凸优化框架。在IEEE计算机视觉国际会议的Proceedings，第209-216页[10] M. 埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I. 威廉斯，J.Winn和A. 齐瑟曼。 pascal 视觉对象类（ voc ）的挑战。International Journal of Computer Vision，88（2）：303[11] P. F. 费尔岑斯瓦尔布河B. Girshick，D.McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。IEEE Transactions on Pattern Analysis and MachineIntelligence，32（9）：1627[12] A. Freytag，E. Rod，和J.登茨勒选择有影响力的示例：主动学习与预期的模型输出变化.欧洲计算机视觉会议，第562-577页。Springer，2014.[13] Y. Gal和Z. Ghahramani脱落作为一种有效近似：在深度学习中表示模型的不确定性。在机器学习国际会议上，第1050- 1059页[14] Y.加尔河Islam和Z. Ghahramani基于图像数据的深度贝叶斯主动学习。在国际机器学习会议上，第1183-1192页[15] Y.小郭。通过矩阵划分的活动实例采样。神经信息处理系统进展，第802-810页，2010年[16] M. Hasan和A. K.罗伊·乔杜里活动识别模型的情境感知主动学习在IEEE计算机视觉国际会议论文集，第4543-4551页[17] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770[18] J. E. Iglesias、E. Konukoglu，A.蒙蒂略Tu，和A. 克里-米尼西。通过主动学习结合生成和判别模型在医学成像信息处理两年一次的国际会议上，第25-36页Springer，2011.[19] A.乔希图像分类的多类主动学习。在Proceedings of theIEEE Computer Society Conference on Computer Visionand Pattern Recognition（CVPR），第2372-2379页[20] A.茹林湖vanderMaaten，A. Jabri和N.瓦西拉凯从大型弱监督数据中学习视觉特征。欧洲计算机视觉会议，第67-84页。施普林格，2016年。[21] C. Kading，E. Rodne r，A. Fr e ytag和J. 丹泽尔河通过深度神经网络和预期的模型输出变化进行主动和持续的探索。arXiv预印本arXiv：1612.06129，2016。[22] A.克里热夫斯基从微小的图像中学习多层特征。技术报告，Citeseer，2009年。[23] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097-1105页[24] B. Lee和K.彭一种稳健有效的方法，用于乳腺癌中准确的转移检测和pn分期。在2018年医学图像计算计算机辅助干预（MICCAI）国际会议[25] D. D. Lewis和J.卡特莱特监督学习中的异质不确定性采样在Machine Learning Proceedings 1994中，第148-156页Elsevier，1994年。[26] D. D. Lewis和W. A.盖尔训练文本分类器的顺序算法。在第17届年度国际ACM SIGIR信息检索研究和发展会议的会议记录中，第3-12页。Springer-Verlag New York，Inc. 一九九四年[27] X. Li和Y.小郭。场景分类的多级自适应主动学习。欧洲计算机视觉会议，第234-249页。Springer，2014.[28] L. Lin，K. Wang，中国山杨D.孟，W. zuo和L.张某积极的自定进度学习，实现经济高效的渐进式人脸识别。IEEEtransactionsonpatternanalysisandmachineintelligence，40（1）：7[29] B. Liu和V.法拉利人体姿态估计的主动学习在IEEE计算机视觉国际会议论文集，第4363-4372页[30] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。里德角，澳-地Y. Fu和A. C.伯格。Ssd：单发多盒探测器。欧洲计算机视觉会议，第21-37页。施普林格，2016年。103[31] W. Luo，中国茶条A. Schwing和R.乌塔松潜在结构化主动学习。神经信息处理系统的进展，第728-736页，2013年[32] O. Mac Aodha，N.坎贝尔，J。Kautz和G. J·布罗斯托图上主动学习的分层子查询评估。计算机视觉与模式识别国际会议（CVPR）巴斯大学，2014年。[33] D.马哈詹河Girshick，V. Ramanathan，K.他，M。帕鲁里Y. Li，长穗条锈菌A. Bharambe和L.范德马滕。探索弱监督预训练的

下载后可阅读完整内容，剩余1页未读，立即下载