基于神经网络的鲁棒可重复主动学习

66 浏览量更新于2023-10-25 收藏 1.16MB PDF 举报

神经网络

性能指标

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

223≈≈基于神经网络的鲁棒可重复主动学习Prateek Munjal*Nasir Hayat<$ Munawar Hayat Jamshid Sourati§ Shadab Khan*摘要主动学习（AL）是一种很有前途的ML范式，它有潜力解析大的未标记数据，并有助于在标记数据可能令人望而却步的领域中降低注释成本。最近提出的基于神经网络的AL方法使用不同的启发式来实现这一目标。在这项研究中，我们证明，在相同的实验设置下，不同类型的AL算法（基于不确定性，基于多样性，基于委员会）产生不一致的增益随机采样基线。通过各种实验，控制源的随机性，我们表明，AL算法实现的性能指标的方差可能导致的结果，与以前报道的结果不一致。我们还发现，在强正则化下，AL方法在各种实验条件下显示出与随机抽样基线相比的边际优势或没有优势。最后，我们总结了一组建议如何评估的结果，使用一个新的AL算法，以确保结果是可重复的和鲁棒的变化下，实验条件。我们分享我们的代码，以促进AL评估。我们相信，我们的发现和建议将有助于推进使用神经网络在AL的可重复研究。缩略语：主动学习（AL）、随机采样基线（RSB）、委员会查询（QBC）、变分对抗主动学习（VAAL）、基于不确定性的采样（UC）、深度贝叶斯主动学习（DBAL）、贝叶斯不一致主动学习（BALD）、随机增强（RA）、随机加权平均（SWA）、摇动正则化（SS）。约定：使用RA、SWA和SS中的一个或组合正则化的模型已经用后缀-SR添加到缩写中，SR表示没有这样一个后缀的模型也是正则化的，但是使用标准方法，例如使用随机翻转和水平裁剪的权重衰减*G42 Healthcare，阿布扎比，阿联酋†纽约大学，阿联酋澳大利亚莫纳什大学1. 介绍主动学习（AL）是一种机器学习范式，通过从大量未标记的数据中智能地选择信息样本的子集来帮助减轻数据注释的负担。在AL中，使用少量标记的种子数据训练的模型用于解析未标记的数据，以选择应该发送到oracle（注释器）的子集。为了选择这样的子集，AL方法依赖于利用所学习的潜在空间、模型不确定性或其他算法。降低注释成本的承诺带来了对AL研究的兴趣激增[2，3，7，14，16，25，27，28，32]，以及一些突出的问题。首先，随机抽样基线RSB的结果在研究之间存在显著例如，使用CIFAR10的20%标记数据，在相同设置下，[32]和[28]报告的RSB性能之间的差异为13%。第二，相同AL方法报告的结果可能因研究而异：使用CIFAR100 [ 17 ]上的VGG16 [ 26 ]，40%的标记数据，Coreset [25]报告了55%的分类准确度，而VAAL [27]报告了47。01%，使用[25]中报道的方法。第三，近年来的AL研究相互矛盾例如，[25]和[6]指出，基于多样性的AL方法始终优于基于不确定性的方法，后者被发现比RSB更差。相反，最近的发展不确定性为基础的研究[32]表明，否则。除了这些问题，使用新的AL方法经常在简单的实验条件下报道-（i）正则化没有充分地探索超出通常的方法（例如，权重衰减），（ii）随着AL迭代的增加，训练数据分布改变，然而，训练超参数是预先固定的。AL结果中的这种不确定性激发了最近对AL方法基准化的兴趣，并且最近的NLP和计算机视觉研究提出了许多有趣的问题[20，22，24]。为了提高AL方法的可重复性和鲁棒性，在这项研究中，我们评估了这些方法在图像分类任务中的性能贡献：通过一组全面的实验，在一个共同的代码库（基于PyTorch1）下使用一致的设置执行，我们比较了不同的§芝加哥大学，芝加哥，IL，美国通信地址：Shadab Khan 1https://github.com/PrateekMunjal/TorchAL224|∀∈∈--∈−0i=10i=100∈--后角为y，P（y|xi）=T1P（y|xi，nj）。entAL方法，包括最先进的基于多样性，基于不确定性和基于委员会的方法[2，7，25，27]和良好调整的RSB。我们证明：1）通过使用Au- toML调整的强正则化和超参数，RSB执行了与文献中先前报道的结果相反的方法。2）没有任何一种人工智能方法能够始终如一地优于其他方法，并且结论会随着不同的实验设置而变化（例如，对分类器使用不同的体系结构或具有不同数量的AL迭代）。（3）AL法与RSB法在精度上的差异4）对于强正则化模型，使用AL方法实现的准确度的方差在一致的重复训练运行中显著较低，这表明这样的训练方案不太可能在AL实验中产生误导性结果。5）最后，我们提供了一套新的AL方法的实验评估指南。2. 基于池的主动学习方法当代基于池的AL方法可以大致分为：（i）基于不确定性[7，16，27]，（ii）基于多样性[6，25]和（iii）基于委员会[2]。AL方法在其他方面也不同，例如，一些AL方法使用任务模型（例如，模型训练的图像分类）在他们的采样函数[7，25]，而其他人使用不同的模型任务和采样函数[2，27]。下面将详细讨论这些方法符号：从标记数据的初始集合L0={（ x i， yi）}NL和未标记数据的大池U0=xiNU开始，基于池的AL方法训练模型Φ0。然后，采样函数<$0（L0，U0，Φ0）估计xiU0，并且选择k个（预算大小）样本以由或小提琴然后将带有oracle注释标签的选定样本添加到L0，从而得到扩展的L1标签从后方。对于我们的实验，我们使用了两个最多报道的收购，即。贝叶斯不一致主动学习（Bayesian ActiveLearning by Disagreement，BALD）最大熵方法选择具有最大熵的前k个数据点最小输入p y作为参数maxiH[P（y|xi）];<$xi∈U0，其中j=1T这里T 表示通过模型，Φ. BALD选择增加模型参数信息增益的前k个样本I.E. arg maxi[P（y，Φxi，L0）];xiU0我们如[ 7 ]中所述实现DBAL，其中信息增益中的概率项使用前面的等式来评估。2.3. CoresetSener等人[25]利用数据点的几何形状，并选择覆盖所有数据点的样本。本质上，他们的算法试图找到一组点（覆盖点），使得任何数据点与其最近覆盖点的距离最小化。他们提出了两个次优但有效的解决方案来解决这个 NP 难题： coreset-greedy 和 coreset-MIP（Mixed Programming ），coreset-greedy用于初始化coreset-MIP。对于我们的实验，在[32]之后，我们实现了coreset- greedy，因为它实现了相当的性能，同时具有显着的计算效率。2.4. 变分对抗主动学习辛哈等人[27]结合VAE [15]和判别器[9]来学习AL采样的度量。VAE编码器在L和U上进行训练，而VAE编码器在L和U的潜在空间表示上进行训练，以区分可见（L）和不可见（U）图像。采样功能选择样本从U与最低的置信度（要看到）作为衡量的输出判别器的softmax。实际上，最有可能0 0set，然后用于重新训练Φ。样本-注释-训练的这个循环被重复，直到采样预算被耗尽或实现令人满意的度量。本研究中评估的AL采样函数概述如下。2.1. 模型输出不确定性（UC）[19]根据maxjΦ（xi）给出的分数，以降序排列未标记数据xiU;j1 .一、. . C 其中C是类的数量，并选择前k个样本。通常，这种方法侧重于相同的-U中softmax分类器最不可信的样本最近，Huang等人[11]提出通过测量在不同AL周期训练的模型的输出差异来测量不确定性。2.2. 深度贝叶斯主动学习（DBAL）Gal等人。[7]用dropout层训练模型Φ，并使用蒙特卡洛dropout来近似采样根据用户的输出选择不可见由于VAAL不考虑最终任务，最近的方法如SRAAL[35]，TAVAAL [14]也包含了任务意识。2.5. 方差比学习由[2]提出，这是一种委员会查询（QBC）方法，使用方差比计算为v=1f m/N。该方差比选择具有最大离散度（v）的样本集，其中N是委员会成员（CNN）的数量，并且f m是模态类别类别中的预测数量。方差比为0我们注意到，它是可能的，制定几个AL策略，使用合奏，例如。BALD、最大熵等。本研究选择方差比，因为作者表明它可以获得更好的结果。为了训练CNN集合，我们用VGG16架构训练了5个模型，225D0B0联系我们01234不同的随机初始化。此外，在[2]之后，集成仅用于样本集选择，以完全监督的方式训练单独的任务分类器来进行图像分类。3. 规则化与主动学习在包括数据模型度量和训练技巧的ML训练管道在神经网络中，正则化通常使用参数范数惩罚（度量），dropout（模型）或使用标准数据增强技术（如水平翻转和随机裁剪（数据））来应用。然而，参数范数惩罚系数不易调整，丢弃有效地降低了模型容量，减少了训练数据上的过拟合程度，并要求丢弃概率可调。另一方面，最近的几项研究表明，有希望的新方法可以正则化神经网络，以实现令人印象深刻的收益。虽然这些正则化技术有助于减少泛化错误并不奇怪，但大多数AL研究都忽略了我们认为这是因为一个合理的假设，即如果AL方法比随机采样更好，那么当使用更新的正则化技术和训练技巧时，应该保持其相对优势。由于正则化对于AL的低数据训练机制是至关重要的，在AL中，过度参数化的模型很容易过拟合到有限的训练数据，因此我们通过将正则化技术应用于神经网络训练的整个数据模型度量链来研究这些假设的有效性具体来说，我们采用参数范数惩罚，随机增强（ RA ） [5] ，随机加权平均（ SWA ） [13] 和摇 - 摇（SS）[8]。在RA中，n个随机选择的图像变换的序列被顺序地应用于训练数据，其中随机选择的失真幅度（m）在两个极端之间选取值。对于用于每个增强选择的极值的细节，我们建议读者参考[4]的工作。通过首先在优化的时间过程期间保存模型的快照，然后将快照平均作为后处理步骤，将SWA应用于模型所使用的正则化技术的作用模式影响神经网络训练管道的不同组件：对数据采用RA，对模型采用SWA和SS，参数范数惩罚影响度量。在我们的实验中，使用这种额外的正则化训练的模型被称为强正则化模型（SR模型）。与这些正则化技术相关的超参数以及应用于使用AL选择的样本集进行神经网络训练6.44. 调整超参数深度神经网络的性能对超参数的选择很敏感（例如，学习率、优化器、权重衰减等）并且不存在找到产生最佳结果的组合的确定性大多数AL方法执行网格搜索以在初始标记集上找到一组超参数，并且这些超参数对于AL迭代是固定的[25，27]。在AL迭代中固定超参数是有问题的-随着AL迭代的增加，训练数据的大小增加，并且分布变化，因为AL算法用于绘制要由oracle标记的新集合。因此，发现在一次AL迭代中工作良好的超参数可能在进一步的AL迭代中工作不好。为了解决这个问题，我们在我们的实现中的每次为了进一步说明这一点，在任何给定的AL方法的4次AL迭代中，其中10%的初始数据增加到40%，预算大小为10%，我们总共训练了200个模型，并选择最好的4个（每个AL迭代1个）来报告性能。对于每个标记的集合分区重复该过程：L0，L0，L 0，L0，L0. 为了报告在标记分区的AL迭代处的准确度的变化，比如L0，我们重新使用L0建立的最佳超参数并在Li上运行，其中i1，2，3，4。关于超参数列表及其选择范围的进一步细节在补充部分中共享。5. 实现细节我们在主动学习中最常用的数据集上进行了实验：CIFAR10，CIFAR100，ImageNet上报告了有限的额外结果。有关我们培训时间表的详细信息，请读者参阅补充资料。给定一个数据集，我们将其分为训练集（Tr）、验证集（V）和测试集（Ts）。训练集进一步分为初始标记集（L0）和未标记集（U0首先训练一个基类，然后使用各种AL方法迭代样本注释训练过程。模型选择是通过在验证集上选择性能最佳的模型来完成的为了进行公平的比较，在所有方法中使用了一组一致的实验设置。超参数如学习率（lr）和权重衰减（wd）使用AutoML通过随机搜索50次试验进行调整。我们利用Optuna库[1]来促进这些实验。对于ImageNet实验，我们依赖于之前发表的使用Au- toML发现的超参数[34]。对于使用CIFAR 10和CIFAR 100数据集的实验，在每次AL迭代中从随机初始化训练模型在ImageNet的情况下，使用随机抽取的种子批次训练的初始模型使用随机初始化进行训练，并且AL迭代中的后续模型使用来自先前的最终权重进行初始化。226···××--×--图1. CIFAR10（上图）和CIFAR100（下图）上不同初始标记集L0、L1、L4的AL方法比较。基础模型的平均准确度（10%标记数据）在每个子图的底部注明。该模型针对不同的随机初始化种子进行了5次训练，其中对于第一个种子，我们使用AutoML来调整超参数，并将这些超参数重新用于其他4个种子。25次运行的平均值（最右列）表明，没有任何AL方法始终优于其他方法。迭代ImageNet训练细节：我们使用Resnext-50 [29]作为分类器，并遵循[ 34 ]的设置，即优化器=SGD，wd=3 10−4。我们在L 0上训练基础分类器200个epoch（当我们将SWA和RA包括到训练管道时为300个epoch），其中lr=0。1，具有线性预热时间表（对于前5个时期），然后根据时期编号将lr衰减10倍：140160180对于AL迭代，我们从先前的迭代中微调最佳模型（通过验证集准确度选择），其中lr =0。01，它在epoch编号上衰减了10倍：355580此外，我们选择最好的模型的基础上，一个现实的小验证集（即。12811张图片），随后[34]。使用大小调整为224x224的随机裁剪预处理输入，然后进行水平翻转（概率=0.5），并使用初始随机抽取的标记集分区的统计数据归一化为零均值和一个标准差架构&超参数：除非另有说明，否则所有实验均使用具有批规范[ 12 ]的VGG16架构[26]进行。对于可转移性实验（参见第6.5），我们使用两个目标体系结构I.E. 18层ResNet [10]和28层2头宽ResNet（WRN-28-2）[33]。这两个目标架构都来自公开可用的github存储库[18]，[21]。对于CIFAR 10/100模型，我们将VGG 16的倒数第二个全连接层中的神经元数量设置为512，如[18]所示RA参数：N=反式-构造和M=震级指数，使用AutoML。我们根据经验选择SWA超参数为：CIFAR10/100 ：SWA LR ： 5 10−4 ，频率：50 块Imagenet ：SWA LR：110 −5频率50AL方法的实现：我们开发了一个基于PyTorch的工具包来评估统一实现中的AL方法。根据AL采样是否依赖于任务模型（分类器网络），AL方法可以分为两类。例如，Coreset使用任务模型学习的潜在空间表示来选择样本集，而VAAL依赖于一个单独的VAE-SVM网络来选择样本，独立于任务模型。在我们的实现中，我们在一个采样函数中抽象了这两种方法，如果AL方法需要，该函数可能会使用任务模型。每个AL方法都使用单独的采样函数实现，如果可用，则通过引用作者提供的代码实现。使用命令行参数，该工具包允许用户配置训练的各个方面，例如用于任务模型的架构、AL方法、初始标记集的大小、采集批次的大小、AL迭代次数、任务模型训练和AL采样的超参数以及重复次数。计算：所有实验均使用2个可用的nVidia DGX-1服务器进行，每个实验使用每个服务器上可用的8个GPU中的1所有代码都是使用PyTorch和其他库以及第三方代码库用Python编写的模型经过数月的训练，AutoML大大增加了完成每个实验的时间。6. 实验和结果6.1. 评价差异训练神经网络涉及到许多随机因素，包括参数初始化、数据扩充、小批量选择和batchnorm，其参数随小批量统计量的变化而变化。这些元素可能导致不同的最优值，从而导致同一实验的不同运行中性能的变化。为了评估由不同初始标记数据引起的分类精度的差异，我们随机抽取了五个初始标记集（L0。. . 4）更换。这五个集合中的每一个都被用来训练基础模型，用随机权重初始化，5次;共训练了25个模型227实验>RSB

下载后可阅读完整内容，剩余1页未读，立即下载