有偏数据集深度主动学习中基于Fisher核的自监督方法

68 浏览量更新于2023-10-25 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9041基于Fisher核自监督的有偏数据集深度主动学习Denis Gudovskiy松下βAI实验室denis. us.panasonic.com山口拓哉松下人工智能解决方案中心jp.panasonic.comAlec HodgkinsonPanasonicβ AI Labalec. us.panasonic.com松下人工智能解决方案中心tsukizawa. jp.panasonic.com摘要主动学习（AL）旨在通过选择最具代表性的数据点进行注释，最大限度地减少数据需求的深度神经网络（DNN）的标记工作。然而，目前使用的方法是装备不良，以处理有偏见的数据。本文的主要动机是考虑基于池的半监督AL的现实设置，其中训练数据的未标记集合是有偏的。我们从理论上推导出一个最佳的收购功能AL在这种情况下。它可以表示为未标记训练数据和弱标记验证数据之间的分布移位最小化。为了实现这样的采集功能，我们提出了一种低复杂度的方法，使用自监督Fisher核（FK）以及几个新的伪标签估计的特征密度匹配我们基于FK的方法在MNIST、SVHN和ImageNet分类上的性能优于最先进的方法，而只需要十分之一的处理。所进行的实验表明，与现有方法相比，对于有偏见的类不平衡数据，标记工作至少下降了40%。1. 介绍主动学习（AL）算法旨在通过从大量未标记的数据集合中选择相关示例的子集来最大限度地减少深度神经网络（DNN）监督训练的昂贵标签数量[20]，如图2所示。该子集由半监督设置中的oracle注释，并在单个池中添加到训练数据集，或者更常见的是以迭代方式添加到训练数据集。目标是最大化预测准确性，同时最小化池大小和迭代次数。现有的AL方法假设收集的训练样本的分布与测试用例有点相似，1我们的代码可在github.com/gudovskiy/al-fk-self-supervision潜在空间列车数据测试数据分类器图1.有偏倚数据的AL问题声明：未标记的训练数据的分布不与测试数据对齐。因此，先前的方法从另一个分布中选择示例，并且学习的分类器f（x，θ）错过了代表性不足的实例。因此，只有通过访问训练数据才能找到相关数据点。这种假设很少适用于未标记的数据，其中非常罕见的示例必须被识别，如图1所示。现有的AL方法选择的训练数据上学习的分类器可以在代表性不足的情况下具有较高的错误率。例如，在训练数据中，数字“1”的分布此外，考虑到自动驾驶车辆仅被训练为在最常见的条件下表现良好，而不是在罕见的关键情况下，如车祸。为了克服这一限制，我们提出了一个新的采集功能AL。它基于验证数据集和AL选择的训练数据之间的分布匹配在这种情况下，验证数据集涵盖了分布长尾中的重要病例，这些病例可以在田间试验后不断识别和添加。我们通过从任务分类器模型中汇集多尺度低维判别特征来实现分布匹配。我们的主要贡献是使用Fisher核（FK）找到最重要的例子与改进的伪标签估计使用几种新的metrics。最后，我们结合了最近的无监督预训练方法[8]来加速任务模型的表示学习。我们的框架非常适合大规模数据，因为它的复杂性只是一个单一的前向和9042每个数据点向后传递我们展示了我们的方法在MNIST，SVHN和ImageNet分类上的有效性，包括具有长尾分布的有偏训练数据，与现有方法相比，所提出的方法能够将标记效率降低至少40%。2. 相关工作AL是一种经过充分研究的方法，可以减少传统机器学习管道中的注释工作[27]。最近，AL已被应用于具有预言标记的半监督设置或具有伪标记的弱监督设置中的基于DNN的模型。虽然我们的方法可以应用于这两种类型，但我们主要关注更强大的基于半监督池的AL的先前Gal等人[7]引入了近似贝叶斯推理的不确定性度量，可以使用通过具有丢弃层的DNN的随机前向传递来估计。他们的AL采集功能选择具有最高不确定性的数据点，这些数据点在分类器的softmax层的输出处使用几个度量进行测量Beluchet al的最新研究。[5]通过使用用于不确定性估计的网络集合改进了该方法Sener和Savarese [26]将AL的训练数据集选择公式化为几何核心集聚类方法，其性能优于贪婪k中心聚类。虽然他们的核心集聚类可以补充我们的方法，我们erature与此同时，最近的方法[8，11，13]显着改善了以前的最先进的。因此，我们将无监督预训练纳入我们的AL方法中，以加快潜在表示学习。现有的方法难以处理如图1所示的有偏差的数据。受此启发，我们开发了我们的框架，并做出了以下贡献：• 我们为有偏数据集设计了一个最佳采集函数Ropt（·），它被公式化为一个任务，最大化• 我们提出了一种低复杂度的非参数AL方法，通过自监督FK使用一组伪标签估计，并推导出其连接到Ropt（·）。• 我们通过最近使用图像旋转的无监督预训练方法来补充我们的方法[8]。• 我们的方法优于以前的方法在图像分类。特别是，具有长尾偏置训练数据的数据集导致至少少40%的标记。3. 偏倚数据集的问题陈述令（x，y）是输入-标签对，其中标签y=1d∈RD是独热向量，对于分类任务只有第d个有一个相对较小的valida-数据集Dv={（xv，yv）}i∈M，大小为M，我我都集中在一个有区别的低维特征提取后进行廉价的聚类。核心集聚类的计算复杂度是一个潜在的瓶颈，在我们的方法中，与贪婪聚类相比，需要多两个数量级的最近，Sinhaet al. [28]提出使用变分自动编码器（VAE）[18]来学习潜在空间，然后使用对抗网络[21]来区分标记和未标记的数据。他们的AL采集功能训练对的集合D={（xi，yi）}i∈N，大小为N最初，所有标签都是未知的。验证数据集可以被弱标记，如下所述。在每第b次迭代时，AL采集函数R（·）选择P个新标签的池以被注释并添加到训练数据，这创建了由子集Nb索引的训练数据集。使用监督学习框架通过最小化目标函数来关于参数向量θ优化前馈DNN模型f（x，θ是P2P的输出，它隐式地学习了最有可能被标记为例子。这种变分对抗主动学习（VAAL）方法声称取得了优于以往所有作品的结果。然而，在这方面，L（θ）=1NbΣi∈NbL（y，y）=1i i NbΣi∈NbL（yi，f（xi，θ）），（一）VAAL具有大量的超参数和高复杂性，因为VAE和SVM必须在每个AL迭代的所有未标记和标记的训练数据上重新训练最接近我们的方法，工作线[19，17]采用影响函数和Fisher内核作为数据集子采样和分析的特征重要性Khanna等人[17]证明了FK和对数似然损失函数的影响函数的等价性类似的在线重要性抽样工作使用Fisher评分相似性[25]在小批量中对样本其中，L（yi，yi）是损失函数，yi是输出预测。第损失函数是分类任务离散y的负对数概率这等效于具有密度q（x，y）的联合训练数据分布Qx，y与具有对应的学习模型分布Px，y（θ）之间的近似KL发散DKL的最小化密度p（x，y|θ）。由于q（x，y）=q（y|x）q（x）和p（x，y|θ）=p（y|x，θ）q（x），KL目标只学习给定x的y的连续分布，如下所示：DKL（Qx，y<$Px，y（θ））=全监督训练。然而，这些方法重新-获取全标记数据以估计FK。另一个相关领域是无监督表示∫∫q（x）q（y|x）log q（y|x）q（x）p（y|x，θ）q（x）dydx=（二）不幸的是，这一点并没有在AL LIT中得到应用EQx[DKL（Q y|xPy|x（θ））]。9043XXz我我XX..验证数据集：✓ 弱标记✓ 近似✓ 持续更新DNN DeepAL未标记的列车集合：✓ 阶级不平衡✓ 类内偏倚✓ 罕见的情况✓ 对抗样本..火车数据..啊....桩号图2.我们的半监督AL的一般设置：验证数据集被选择来近似测试数据，并且可以通过新发现的错误分类示例不断未标记的训练数据集合会受到指定失真的影响。AL算法通过每第b次迭代最大化获取函数R（·）来由于密度q（x）未知，对Qx的期望在（2）中，通常用经验分布Qx代替，E Qx[DKL（Q y|xPy|x（θ））]=1|D|Σ（x，y）∈D[D、K、L（Qy|XPy|X （θ））]。（三）用（3）中的DKL改写（1）中的损失L（·），可将目标函数L（θ）改写为条件概率的负对数图3.传统的多尺度特征提取和提出的FK扩展（虚线）。描述子zi和Fisher得分向量gi被用于我们的AL方法的密度匹配。L（θ）=−1NbΣi∈Nblogp（yi|xi，θ）。（四）4. 该方法然而，实际的任务是最小化目标（2），检验数据D检验，期望值大于Q检验分布。在人工智能文献中，通常通过假定Q检验和Qx相等来解决这个矛盾在实践中，部署的系统很难处理列车分布Qx.这些例子包括罕见交通情况下的自动驾驶汽车或具有性别和种族偏见的面部识别系统[6]。这在图1中示意性地示出。我们认为，有效的AL在野外的关键要求是收集一个验证数据集Dv的分布Qv，近似于Q检验。具体来说，我们将...4.1. 用于AL的常规特征描述符输入x的高维性导致最小化（5）的计算困难。然后，x通常在图像检索中被低维特征描述符替换[30]。这些描述符从DNN中间表示z中汇集，发现其是有效的[3]。然后，（5）可以重新表示为Pv和Pz之间的经验分布匹配。这可以使用各种方法[10]来完成，但是，实际上，使用相似性度量的贪婪kx x是大训练数据集大小N最常用的方法。测试用例代表性集合的配对分布并通过新发现错误分类数据不断更新它。这可以在对部署的系统进行现场试验之后迭代地完成关于Dv和D的假设总结在图2中。从（2）可以得出，令Zj∈RC×H×W是输入图像xi的任务DNN模型的第j层的输出，如图3所示，图像分类，其中C、H和W分别是通道数、高度和宽度。然后，长度为L的特征向量或描述符可以被定义为：R选择（·）对于AL，最小化D之间的分布移位测试zi=φ（Zi）∈RL，其中函数φ（·）是一个常数平均池化操作。在多尺度情况下，描述符和D，其中前者近似为经验Dv。这可以用KL散度表示为：zi是多个特征向量zj的列表。验证数据集的描述符矩阵Zv∈Ropt（b，P）= arg minDKL（Qtest）RL×M 训练数据集Z∈RL×N 可以有效地R（b，P）argminDKL（Qv<$Qx），R（b，P）（五）使用DNN正向传递计算。实际上，为了存储效率的原因，可以使用PCA、量化等进一步压缩描述符。Pearson相关其中，在实践中，对于每次迭代b = 1，（5）可以由局部最优步骤代替。- 是的- 是的 B和池大小P。PCC是一种常见的匹配核，它是线性相关性的精确度量。通过预处理向量zisoftmax.9044Pzv我我我我zz为了具有零均值和单位方差，多尺度情况下的相似性（互协方差）矩阵简单地Σ其中I = E g（θ）g（θ）T是Fisher信息矩阵，g（θ）= log p（z|θ）/θ是相对于θ的Fisher评分。详细推导见附录。Rz=（Zj）TZj.（六）J利用（9）中的结果，Jaakkola和Hauusler [15]提出使用信息论[9]，该框架假设表示z具有以下关于任务的属性：最小性（minI （z;x ））和充分性（ I（y;z）=I（y;x）），其中I（）是互信息量。事实上， Rehleet al. [1] 分析表明，通过随机梯度下降（SGD）训练的DNN丢弃了非信息特征，只保留了最小化目标函数的特征（2）。然而，这些属性仅适用于训练数据中没有偏差的完全训练模型。另一种方法是使用自动编码器[12]，或者类似于VAAL [28]，概率VAE [18]将x压缩到z。这些替代方案需要训练另一个模型流行的Fisher核表示为Rz，g（zm，zn）=gm（θ）TI−1gn（θ）.（10）为了使（10）在计算上易于处理，我们使用实际的FK（PFK）其中I−1被单位矩阵代替。这种常见的方法降低了二次存储要求。接下来，我们使用一个更大的紧凑形式gi（θ）= vec（gizT），其中gi是关于特征计算的，如gi=<$L（yi，y<$i）/<$z<$i，L（yi，y<$i）是来自（4）的log-lik损失函数，z<$i是应用非线性σ（·）之前的向量。在计算DNN层的损失函数时，后者遵循链式法则使用一组新的超参数和重建损失ers（zj =θTzj=θTσ（z<$j−1）），如附录中所述。而不是特定任务目标（2）。然而，所学习的表示z受到示出的有偏训练数据陷阱的影响。在图1中幸运的是，这个陷阱可以解决，然后，可处理的PFK可以为DNN重写为Rz，g（zm，zn）=gm（θ）Tgn（θ）=zTzngTgn.（十一）M m任务模型由AL本身，如果它最小化分布偏移在（5）中。因此，我们选择在我们的框架中从任务模型中池化特征z，以避免数据偏差、额外的复杂性和超参数搜索问题。我们通过使用无监督预训练以及更强大的匹配内核来解决上面讨论的充分性4.2. 自监督Fisher核最近的工作[19，17]恢复了对影响函数和前DNN时代使用的Fisher内核的兴趣它们能够识别给定测试数据的最有影响力的训练点。虽然这些方法很有吸引力，但对于大规模数据和DNN模型来说，计算成本很高，因为FK通常是相对于高维参数向量θ计算的。利用充分性[1]，我们近似我们的最佳采集函数（5），使用（11）中的Fisher评分也与视觉解释相关国家方法[22]。如果在g（θ）计算中将z替换为x，则结果估计输入空间中的流行重要性热图。在我们的例子中，kernel（11）显示了模型对分布偏移DKL（Pv<$Pz）引起的参数变化的敏感性。然后，PFK矩阵Rz ，g∈RM×N可以使用一系列前向-后向的方法有效地计算向后传球。通过与特征相似性（6）类似，图像的Fisher分数gi是关于张量Zi计算的，并且由相同的φ（·）合并，使得gi=φ（<$Li/<$Zi）∈RL. 最后，我们最小化分布通过使PFK最大化，将（7）中的移位为Ropt（b，P）= arg maxRz，g，（12）R（b，P）Σ其中R z，g=R z<$R g=（Zj）TZj<$（Gj）TGj。我们jv v学习表示z作为PFK矩阵Rz，g是fea的元素乘法，R（b，P）= argminD（PvP），（7）来自（6）的真实相似性和梯度相似性矩阵。optR（b，P）KLZZ4.3. 伪标号估计量然后，关于θ中的小扰动，可以通过Fisher信息导出主任务（2）和（7）中的DKL（Pv<$Pz）最小化之间的联系。假设任务模型最小化分布偏移（2）每一次向后传递，pv（z|θ）=p（z|θ）+p，（8）其中p=θ p（z|θ）/θ，θ→ 0。通过替换（8），（7）的扩展形式可以是简单的。使用自然对数的泰勒级数简化为9045Ropt（b，P）{\displaystyleR op T（b，P）}{\displaystyleR op t（b，P）}{\displaystyle R opt（b，P）}R（b，P）（12）的主要缺点是在训练数据的未标记集合中缺少标记y 公共伪标记（1argmaxdS）度量S（·）将硬标记分配给具有最大预测概率的第d个类别：S=yx d。导致第一次AL迭代期间的错误估计，特别是对于罕见的例子。为了克服这一限制，我们提出了几个新的指标来估计伪标签。首先，我们介绍使用蒙特卡罗（MC）抽样的估计指标考虑DNN输入x在其局部邻域附近被采样。这会产生输入xk、特征样本zk和相应的每类Fisher得分gk（d）=L（1d，yk）/zk，其中类d=1。-是的-是的 D.9046我θi∈Nbii我采样可以包括图像输入的小旋转，平移或颜色失真[4]。最简单的MC标签估计最大化fea之间的线性相关性，算法1具有弱监督Dv的变体。一曰：初始化：N0={}，θ0随机或由[8]2：对于b = 1，2。- 是的- 是的 B好图和Fisher评分为S= tr（Cz，g），其中Cz，g3：找到错误分类的子集{1argmaxyv/=yv}´是特征描述符和Fisher得分之间的互协方差矩阵。从理论上讲，一个更好的度量是最大化-Di4：池矩阵（Zv，Gv）∈RL×M′5：如果M′>P，则ii∈M互信息I（z;g）的作用，以捕获非线性的解。悬垂性经典结果[9]表明，对于随机向量，6：使用k-中心聚类在M'中找到P个中心7：子样本矩阵（Zv，Gv）∈RL×Pz和g遵循高斯概率模型，平均互信息可以估计为S=I（z;g）=8：池矩阵（Z，G）∈RL×N′ b ，N'b=N−Nb−10的情况。5 log（|C z，z||C g，g|//下一页|C zg，zg|），在哪里|C|是互协方差矩阵的决定因素。这可以有效使用现代ML框架中实现的LU或Cholesky分解计算[23]。的二提出度量显式估计9：计算PFK矩阵Rz，g=Rz<$Rg10：将P点添加到Nb作为arg maxpRz，g11：更新θb=argminL（y，y）/Nb表1. 每个AL迭代的复杂性估计。假设p（y，z）=p（y|z）p（z），对于它，必须有一个v eN′ b>>M，我们的方法在以下方面具有最低的复杂性：一个可信的注释数据集，以获得p{\displaystylep}（y|z）。在我们的例子中，它可以是验证数据集Dv或它的子集。由于p（y|z）=在AL阶段期间向前和向后DNN通过。方法AL列车pv（y|z），估计p（y，z）可以从可信的条件密度pv（y|z）和边际p（z）。我们支持-不确定。[7]K-N′ b2INb提出重用上述框架来找到少尉不确定。[5]EKN′ b2EINbD中最相似的数据点D中的例子使用RVAAL [28]N′ b+2NIVAE，D2INbvz′b b内核然后，我们从pv（z）中分配给定的可信标签yvPCC（6）：Rz M+N2在从p（z）训练标签，其中Rz最大化。这导致低复杂度的非参数方法。总而言之，我们使用以下标签估计指标进行实验：a）具有真实标签的消融研究的S = y，b）常见S=y，以及拟定的c）MCS=tr（Cz，g），d）MCS=I（z;g）和e）S=p（y，z）。4.4. 弱监督算法虽然FK使用区分表示找到最相似的数据点，但我们的AL需要使用（12）识别分布匹配的验证点。然而，在这方面，即使是廉价的贪婪k-中心聚类对于相对小的Dv也可能是禁止的（O（PM））。为了解决这个问题，我们建议使用弱监督（正确或不正确预测）以找到错误分类的验证检查的子集-PFK（12）：Rz，g（ours） 2（M+N'b）2INbPFKMC （12）：Rz ， g（我们的）KD（M+N′ b ）2INb方法是EK/2倍的复杂性比不确定性方法[7，5]与K随机通行证和E合奏。VAAL[28]由采样阶段组成，N′ b用于Ward通过和再训练阶段的VAE和使用IVAE，Depoch的训练假设VAE，θ和任务模型f（x，θ）具有大致相同的复杂度，我们的方法比VAAL简单IVAE，D使用PCC核的方法（6）比我们使用PFK的方法简单2倍我们的方法与MC的变体伪标记（S= tr（C z，g）或I（z;g））比具有廉价度量的PFK（S=tr（Cz，g）或I（z ; g））复杂KD/2倍。ples{1arg maxd 于夫yv}i∈M′，其中M′5时，随机抽样的准确性仅低3%，因为几乎均匀的列车分布。VAAL [28]结果与随机抽样相似。图4（b）中说明了具有100×类不平衡的实际情况我们的基于FK的方法从（12）超过了形式PCC特征的方法从（6）随着增加描述符大小L和使用更好的标签估计度量：S=p（y，z）vs. 公共S=y 最好的FK和最好的不确定度方法之间的差距达到14%，或等效地，40%的标签是需要相同的准确度。此外，我们的方法需要EK/2 = 64×根据表1的较少处理。作为消融研究的一部分，我们在图4（a，b）中绘制了具有全真标签（S=y）的FK设置。它显示了FK的理论极限：在没有类别不平衡的情况下无法获得准确性，而与使用S=p（y，z）的伪标记相比，使用数据偏差实现了显着（3-10%）的改善。事实上，这种设置在第二次AL迭代时超过了完整训练数据集精度的性能。通过旋转方法预训练的任务模型能够在没有监督的情况下分离数字因此，需要单个AL迭代来实现基线结果。一组消融研究如图4（c）所示首先，与随机权重初始化（θ0）相比，使用旋转[8]的无监督预训练在L=20时增加了7%的准确性，在L= 80时增加了3.5%。其次，我们比较了4.3节中提出的伪标签估计度量。常见的 S=y度量仅比 MC 度量（ S= tr （ Cz ， g ）和 S=I（z;g））低1%的性能当b >4时，所需加工量减少KD/2倍。在我们的设置中，MC度量采用均匀±5μ m图像旋转和高斯加性噪声进行采样。他们可能会-要求更大的K，其他采样或超越高斯假设，以实现更好的结果。例如，Kayet al. [16]示出了椭圆对称概率模型和Bachman等人易于处理的解。[4]建议跨多个尺度的特征来测量互信息。我们的最佳度量S=p（y，z）优于其他度量，百分之三二、百分之五（一）所有火车随机VAALvarR，E1，K128 varR，E4，K 32 RZ，L 20 Rz，g，S =y，L 20R z，g，S=y，L20Rz，g，S=p（y，z），Rz，g，S=p（y，z），L80（orrs）-40%（b）第（1）款所有火车随机VAALvarR，E1，K128 varR，E4，K 32 RZ，L 20 Rz，g，S =y，L 20R z，g，S=y，L20Rz，g，S=p（y，z），Rz，g，S=p（y，z），L80（orrs）3 .第三章。百分之五占7%所有火车Rz，g，S=y，L20Rz，g，S= tr（C z，g），L20，K128R z，g，S=I（z;g），L20，K128Rz，g，S=p（y，z），L20Rz，g，S=p（y，z），L20，θ0rnd（c）第（1）款Rz，g，S=p（y，z），L80，θ0rnd前1位准确度，%前1位准确度，%百分之十百分之三前1位准确度，%90493 .第三章。百分之五1 .一、百分之五所有火车随机VAALvarR，E1，K64varR，E4，K（一）Rz，L256Rz，g，S=y，L256Rz，g，S=y，L256Rz，g，S=p（y，z），L256（orrs）（c）第（1）款百分之五1 .一、百分之五所有火车随机变量R，E1，K32varR，E4，K8Rz，Rz，g，S=y，L512Rz，g，S=y，L768Rz，g，S=p（y，z），L512（orrs）Rz，g，S=p（y，z），L768前1位准确度，%95 86.5939189878583817977电话：+86-510 - 8888888传真：+86-510 - 8888888完整训练数据集的分数，%83.079.576.072.569.065.562.058.555.00.25电话：+86-510 - 8888888传真：+86-510 - 8888888完整训练数据集的分数，%69 39.566 38.063 36.560 35.057 33.554 32.051 30.548 29.045 27.5425 101520253035404550完整训练数据集的分数，%26.051015202530354045 50完整训练数据集的分数，%图5. SVHN测试（顶部）和ImageNet val（底部）准确度：（a，c）无类别不平衡和（b，d）100×类别不平衡。百分之六到七因此，我们得出结论，Rz ， g，其中S=p<$（y，z）是一种较好的方法。5.2. SVHN数据集拆分|D|、|Dv|和|D试验|分别包含500、104和2.6万张图像。训练数据集是从具有总共604，388个图像的原始训练数据集和额外训练数据集的连接获得。使用以下超参数：SGD，时期=35，批量大小=128，lr=0.1，每15个时期lr衰减=0.1。描述符长度L对于单尺度（resblock3输出）为256，对于双尺度描述符（resblock3，4输出）为768。所选池大小P为1，250个图像或0.25% |D|.随机抽样和我们的方法之间的差距是3.5%的原始和16%的偏差SVHN与相同数量的训练数据在图5（a，b）。不确定性varR方法在第一次AL迭代期间与我们的方法相比，准确度分别为1.5%和10%，当b>4.第一章因此，对于有偏差的训练数据，可以避免大约40%的标记此外，不确定性方法的计算复杂度高出32倍图5（b）中使用PCC（Rz）的方法实现了 2%与具有最简单的伪标签估计度量（S=y，z）和我们的最佳度量S=p，z（y，z）的PFK（R z，g）相比，准确度低4%。较大的描述符大小L不显着提高，证明在此设置的准确性。这说明了多尺度提取，例如，空间-局部特征可能比全局特征更相关，反之亦然。特征层次的参数化聚合可以得到更好的结果[2，14]。不像我们的非参数方法，后者在没有标记数据的情况下并不是微不足道的。5.3. ImageNet原始数据集拆分|D|和|Dv|分别有1,200和5万张图片。以下hyperparam-使用的参数： SGD ， epochs=60 ， batch-size=128 ，lr=0.1，lr-衰减=0.1，在[30，50，57] epoch。描述符描述与SVHN相同。所选池大小P为64，000个图像或|D|.图5（c，d）显示了大规模ImageNet的结果。不确定性varR方法在没有类别不平衡的情况下表现不佳，并且仅比具有100×类别不平衡的随机抽样好百分之几。与设置相比，这可能与样本数量K较低有关在[5]中，辍学设置的学生或大量的类。不幸的是，增加K几乎是不可行的，varR的复杂度高，在AL阶段比我们的方法高16倍，在再训练阶段比我们的方法高E倍。例如，ImageNet实验花了2.5天的时间，我们的方法和12天的varR在一个单一的V100 GPU。我们最好的方法（Rz，g，S=p（y，z），L768）提高精度相比，以前的作品1.5%，类不平衡和2%，100×类不平衡。具有最简单的伪标签估计度量（S=y）的配置或没有FK监督的配置仅获得1%-40%（b）第（1）款所有火车随机VAALvarR，E1，K64 varR，E4，K 16 RZ，L 256 R z，g，S= y，L 256 Rz，g，S=y，L256Rz，g，S=p（y，z），L256（orrs）（d）其他事项1 .一、百分之五−42%百分之所有火车随机变量R，E1，K32varR，E4，K8Rz，Rz，g，S=y，L512Rz，g，S=y，L768Rz，g，S=p（y，z），L512（orrs）Rz，g，S=p（y，z），L768前1位准确度，%前1位准确度，%前1位准确度，%百分之十百分之十9050（一）50050（b）第（1）款50050（c）第（1）款5005001234567890123456789预测标签，（a）80600123456789预测标签，（b）0123456789预测标签，（c）98740620504203402601800图6. AL迭代b = 3时MNIST测试数据的混淆矩阵（顶部）和t-SNE（底部），100 ×类别不平衡：（a）varR，E1，K128，（b）Rz，g，S=p∈（y，z），L80（我们的s），（c）Rz，g，S=y，L80. 点和球表示用于t-SNE可视化的相应正确和错误分类的图像。代表性不足的类{5，8，9}对于先前的工作（a）平均具有36%的准确度，而我们的方法（b）将其准确度提高到75%。烧蚀配置（c）显示了我们方法的89%理论极限准确性。与图4（a，b）中相对小规模的10类MNIST和图5（a，b）中的SVHN相比，具有真实标签（S=y）的理论上可能的ImageNet结果与具有估计的伪标签的我们的方法之间的差距正在增加。这表明更准确的伪标签度量可以进一步改善结果。虽然我们的绝对准确度提高了2%，但在相同的准确度下，注释减少了42%。5.4. 定性可视化为了证明AL行为的改善，我们计算了混淆矩阵和t-SNE [29]集群。我们使用与图4（b）中相同的实验设置，类不平衡比为100，并在第三次AL迭代（b= 3）后分析MNIST测试数据集。图6显示了以下配置的结果：（a）varR（E1，K128）和建议的（RZ ，g，L80）与（b）伪标记（S=p（y，z））和（c）真标记（S=y）用于消融研究。类不平衡数字{5. . . 9}在图6（a）中被严重错误分类它直观地证实了5.1节的结果表明，不确定性方法无法识别相关的训练数据簇。这些方法只能捕获所谓的认知不确定性，即DNN参数的不确定性，而不是数据的不确定性。图6（b，c）示出了具有估计的伪标签和真标签的FK监督方法的结果。与图6（a）相比，如果-icantly更好地分类，具体地，聚类“5”、“8”和“9”的中心，其平均准确率从仅36%增加到75%。该结果表明自监督FK使用我们的采集函数（12）找到分布的长尾的能力。与其他数字集群相交的不平衡集群的远边由于不完善的伪标记而仍然经历图6（b）中的误分类示例的一些不规则密度图6（c）中使用全真标签的t-SNE设置在这些边缘上进行了改进，并实现了89%的准确度。显然，将非常相似的交叉示例从不同的类中分离出来是最困难的。作为一个潜在的未来方向，这个问题可能会通过更好的特征分离或使用对抗训练来解决。6. 结论我们制定了AL的最佳采集函数，并对数据偏差和现场试验后的连续更新进行了我们引入了低复杂度的非参数AL方法，该方法使用自监督FK和几种新型的伪标签估计器来最大限度地减少训练和验证数据集之间的分布根据消融研究，无监督预训练进一步改进了我们的方法。进行的图像分类实验表明，我们的方法的结果在至少40%的标签有偏见的数据相比，以前的作品，同时要求10少处理的一个因素。0.960.000.030.010.000.000.000.000.00零点0.001.000.000.000.000.000.000.000.00零点0.000.000.980.020.000.000.000.000.00零点0.000.000.010.980.000.000.000.000.00零点0.000.000.010.000.990.000.000.000.00零点0.030.010.000.760.030.060.050.000.01零点零四分0.090.010.020.000.030.000.850.000.00零点0.010.010.090.060.010.000.000.800.00 0.010.090.100.050.230.030.000.040.010.44零点零二0.010.010.010.050.320.000.000.030.010.571.000.000.000.000.000.000.000.000.00零点0.001.000.000.000.000.000.000.000.00零点0.000.000.980.010.000.000.000.000.00零点0.000.000.010.990.000.000.000.000.00零点0.000.000.010.000.990.000.000.000.00零点0.010.000.000.210.020.730.010.000.01零点0.040.010.010.000.020.010.910.000.01零点0.000.020.060.060.030.000.000.830.00 0.010.020.020.020.070.030.010.000.010.780.030.010.010.010.030.140.000.000.040.020.730.990.000.000.000.000.000.000.000.00零点0.000.990.000.

下载后可阅读完整内容，剩余1页未读，立即下载