神经网络的主动混合算法：从黑盒模型中高效提取知识

65 浏览量更新于2023-10-23 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1神经网络是比人类更有效率的教师：基于黑盒模型的数据有效知识提取的主动混合算法王东东1李延东1王立强1龚伯庆21中佛罗里达大学2Google{daniel.wang，liyandong}@ Knights.ucf.edulwang@cs.ucf.edubgong@google.com摘要我们研究如何通过以数据高效的方式从黑盒教师模型中提取知识来训练学生深度神经网络进行视觉识别在这个问题上的进展可以显着减少对大规模数据集的依赖，以学习高性能的视觉识别模型。有两大挑战。一个是应该最小化对教师模型的查询的数量以节省计算和/或财务成本。二是用于知识提取的图像数量要少;否则，它违背了我们减少对大规模数据集依赖的期望。为了应对这些挑战，我们提出了一种融合混合和主动学习的方法。前者通过从原始图像的凸包中采样的大量合成图像有效地增加了少数未标记的图像，后者主动地从学生神经网络的池中选择硬示例我们验证我们的方法与广泛的实验。1. 介绍数据策展是学习高性能视觉识别模型的最重要步骤之一。然而，收集足够覆盖推理时间场景的大规模相关数据通常是乏味的，有时令人生畏。此外，标记收集的数据是耗时且昂贵的。给定一个新任务，我们如何以更有效的数据方式学习高质量的机器学习模型？我们相信答案因具体应用场景而异在本文中，我们关注的情况下，存在一个黑箱教师模型，其能力涵盖我们感兴趣的任务。事实上，有许多高性能的通用视觉识别模型，*同等缴款。图1.数据高效的黑盒知识蒸馏。给定一个黑盒教师模型和一小组未标记的图像，我们建议采用mixup [49]和主动学习[28]以数据高效的方式训练高性能的学生神经网络(b)这样我们就不需要重新进行用于训练教师模型（a）的繁重而昂贵的数据管理。API，在我们的智能设备中，甚至作为一个过时的模型由我们自己建立了一段时间前。然而，挑战在于，我们往往对它们的具体情况了解有限不知道确切的网络结构或权重。此外，对于大规模数据集，查询模型并读出其输出可能在计算上和/或经济上是昂贵的。为此，我们研究如何以数据高效的方式将用于视觉识别的黑盒教师模型提取到学生神经网络中。我们的目标有三个方面。首先，我们希望经过提炼的学生网络在推理时尽可能地表现出教师模型。此外，我们尽量减少对黑盒教师模型的查询次数，以节省成本。最后，我们还将使用尽可能少的例子，以节省1498花孩子 …数百万个标签（一）评分员Web供应商ML模型用户Blackbox（b）第（1）款混淆主动学习学生模型10K标签10K查询图像100K合成图像100图像…百万图像1499数据收集工作。很难为稀有类或隐私关键型应用程序收集大量数据我们建议混合主动学习[44，28]和图像混合[49]，以解决来自黑盒教师模型的数据有效知识提取。其主要思想是通过mixup从少量的训练样本中合成一个大的图像池，然后使用主动学习从池中选择最有帮助的子集来查询教师模型。在读出教师模型的输出后图像混合[49，13，1]最初被提出用于数据增强，以提高神经识别网络的泛化性能它通过两个训练图像的凸组合来虽然所得到的图像可能变得混乱和语义上无意义，但它位于自然图像的流形附近-不像白噪声图像。给定1000幅图像，我们可以构造O（105）对，其中每一个可以进一步生成数万到数千个虚拟图像，这取决于凸组合中的系数。我们推测，大池的mixup图像提供了良好的覆盖自然图像的流形因此，我们期望在混合图像上模仿黑盒教师的学生网络可以像教师模型那样在测试图像上产生类似的预测我们采用主动学习的方法来提高查询效率，而不是通过所有的混合图像来查询黑盒教师模型。我们首先从黑盒教师模型中获取少量原始图像的标签，并将其用于训练学生网络。然后，我们将学生网络应用于所有混合图像，以确定当前学生网络最不确定的子集。值得注意的是，如果两个混合图像是从同一对原始图像合成的，我们只保留不确定性较高的图像。我们查询这个子集的标签，将其合并到先前标记的数据中，然后重新训练学生网络。我们重复这个子集选择的过程，查询黑盒教师模型，并多次训练学生神经网络，直到达到停止标准。据我们所知，我们是第一个从黑盒教师模型中提取知识的人，同时也是第一个理解数据效率和查询效率的人。我们经验验证我们的方法，通过对比它的香草和几个/零杆知识蒸馏方法。实验表明，尽管在我们的工作中的黑盒教师，我们的方法执行的标准或优于从白盒教师学习的计算方法。请注意，混淆的图像通常在语义上没有意义，这使得人类评分员几乎不可能给它们贴上标签。然而，黑盒教师模型返回的预测结果与预测结果无关，学生网络仍然会获得收益从这些假的图像标签对中。从这个意义上说，我们说黑盒教师模型在教授学生网络方面比人类评分员更有成效。2. 相关工作知识蒸馏。[16]中提出了知识蒸馏来解决模型压缩问题，从而减轻集成学习的负担。该工作表明，类概率作为这种方法非常有用，并且已经证明可以解决各种复杂的应用问题，例如姿态估计[37，46，33]，车道检测[17]，实时流[31]，对象检测[6]，视频表示[41，10，11]等。此外，这种方法能够提高深度神经网络的性能，提高效率[35]和准确性[25]。因此，从训练策略[45，20]、蒸馏方案[15，4]或网络特性[34]等角度进行了大量研究以增强其性能然而，有一个重要的问题。传统的知识提取需要大量的原始训练数据，而这些数据的获取是非常困难的.为了缓解这种数据需求，提出了少量知识蒸馏，以保留教师模型的性能，并使用以对抗方式生成的伪采样器[21]。另一种称为无数据知识蒸馏的方法利用来自教师模型的额外激活记录来重建原始数据集，从而恢复教师模型[30]。最近，通过将教师网络的梯度信息与数据合成，开发了一种零知识蒸馏方法[32]。然而，这些方法需要教师网络的梯度信息，这使得它们在现实世界中易于处理。黑盒优化。黑盒优化是基于对查询模型梯度信息的零知识而发展起来的一种优化方法，广泛应用于实际问题的求解。最近，这项工作被广泛应用于深度学习，特别是模型攻击。通过访问分类器的输入-输出对，探索了丰富的黑盒攻击方法[3，18，36，2，29]，其中大多数都集中在访问数据引起的攻击上。[8]相反，研究发现对手能够通过模型反演恢复然而，没有黑盒知识蒸馏的工作。主动学习。主动学习是一种通过学习者Agent和学习者Agent之间的交互进行学习的过程。这种策略被广泛用于解决学习问题，1500昂贵的数据标记，因为它可以利用现有的数据信息来有效地改进所获得的模型，从而减少查询的数量。提出了许多有效的方法来优化这个过程，例如基于不确定性的方法[28，48，9]和基于边缘的方法[7，38]。从[12]的综述来看，基于不确定性的方法尽管简单，但能够获得良好的性能。搞混了Zhang等人首先提出了mixup来提高深度神经网络的泛化能力[49]。类间学习[42]（BC学习）被提出用于深度声音识别，然后，他们将这种方法扩展到图像分类[43]。在他们之后，配对样本[19]被提出作为一种数据增强方法，通过对每个像素取两个图像的平均值。最近，一种名为AutoAugment [5]的方法探索通过自动搜索来改进数据增强策略。3. 方法我们在本节中详细介绍了从黑盒教师模型中提取数据高效知识的方法给定黑盒教师模型和少量未标记图像，该方法迭代以下三个步骤：1）从少量未标记图像中构造合成图像的大的候选池，2）从池中主动选择当前学生网络最不确定的子集，3）查询黑盒教师模型以获取该子集的标记并重新训练学生网络。3.1. 构建候选人库在现实世界的应用中，由于各种原因，例如隐私问题、稀有类、数据质量等，数据收集可能会花费大量时间。我们不依赖于真实图像的大数据集，而是从少量未标记的图像开始，并使用最近提出的mixup [49]来增强这个初始图像池。给定两个自然图像xi和xj，mixup通过具有不同系数的两个自然图像的凸组合来生成多个合成图像，x<$ij（λ）=λxi+（1−λ）xj，（1）其中系数λ∈[0，1]。请注意，当λ= 1时，此表示法还包括原始未标记数据xi和xj事实上，这个池可以被看作是我们收集的自然图像的凸包的密集采样。如果所收集的图像是多样的和有代表性的，则测试图像可能落入或接近于该凸包因此，我们希望学生神经网络通过强制它在混合图像上模仿黑盒教师模型来很好地推广到推理时间数据。3.2. 主动选择子集对教师模型的令{x<$ij（λ），λ∈[0，1]，ij}表示图像的扩充池。向老师提问很直接模型来获得这些合成图像的（软）标签，然后用它们训练学生网络然而，这种暴力策略会产生很高的计算和财务成本。相反，我们采用主动学习来降低成本。我们将学生神经网络对输入x的置信度定义C1（x）：= max P S（y|（x）、（2）y其中P S（y|x）是输入图像x属于由当前学生网络预测的类别y的概率，工作直观地说，学生网络对输入x的信心越小，学生网络从教师模型的输入标签中获得的信息因此，我们可以根据学生网络对它们的置信度对候选池中的所有合成图像进行排名，然后选择排名靠前的图像作为查询子集。然而，这种简单的策略导致接近重复的图像，例如， x=0. 5 ）和 x∈ij （ λ=0.55）。我们通过从任何一对图像中选择最多一个图像来避免这种情况。特别是，我们不是对合成图像进行排名我们将学生网络在图像对xi和xj上的置信度定义如下，C2（xi，xj）：=minC1（x<$ij（λ））， λ∈[0，1]，（3）λ其取决于图像对的系数λn因此，我们获得了一个置信度得分和其相应的系数为任何一对原始图像。如果置信度满足，则将合成图像xij（ λ）选择到查询集中。得分C2（x，x）在最低k个中。我们研究，λ= 0。I j这种技术对我们的工作很方便和有效。它可以指数级地扩展初始图像池的大小。假设我们已经收集了1000幅自然图像，并且我们通过改变系数λ为每个图像对生成10幅混合图像。然后，我们总共得到了大约106张图片。此外，该合成图像池还提供了对自然图像的流形的良好覆盖。实验中查询集的大小3.3. 训练学生网络通过主动选择的图像查询集，我们查询黑盒教师模型，并读出其软预测作为图像的标签。然后我们将它们与之前的训练集合并，如果有的话，以训练学生网络150101i=1不不0不不t−1不tt算法1数据高效的黑盒知识蒸馏输入：预培训教师模型MTINPUT：一小组未标记的图像X={x i}nINPUT：超参数（学习率、子集大小等）输出：学生网络MS1：查询MT并获取X中所有图像的标签Y02：训练初始学生网络MS，其中（X，Y0）3：通过使用未标记的图像X用等式构建合成图像池P={x∈ij（λ）}。（一）4：初始化Ps= X，Y1= Y0。5：对于t= 1，2.，没做6：从P中选择具有最低置信度的子集数据是出感兴趣的主要任务的分布在实践中，在所有实验中，我们选择λ∈ {0。3，0。7}（具有0.04的间隔）来生成合成图像以产生更多样化的混合图像。4.1. 对比实验由于我们的主要目标是探索如何以数据高效的方式从黑盒教师模型训练高性能的学生神经网络，因此值得将我们的方法与现有的知识蒸馏方法进行比较，尽管它们是为其他设置开发的。比较可以帮助审查如何数据效率，我们的ap-给出了黑盒教师模型。学生Mt-1返回的分数{C2（xi，xj）}7：查询MT，获取所有图像的标签M Yt8：Ps← PsPs，Yt←Y tYt4.1.1实验设置t t t9：训练一个新的学生网络MS，其中（Ps，Yt）10：更新P ← P-更新Ps11：结束使用交叉熵损失。教师模型返回的软概率标签比硬标签产生的结果稍好，因此我们将在下面的实验中使用软标签。3.4.总体算法算法1给出了数据有效的黑盒知识提取的全过程。从教师模型MT和一些未标记图像X={x1，x2，...，xn}，我们首先用（X，Y0）训练初始学习网络MS，其中Y0包含X中图像的标签，并通过查询教师模型然后，我们用mixup [49]（等式2）构建一个大的合成图像池P（1）促进主动学习阶段。我们重复以下步骤，直到学生网络的精度收敛。1）主动地选择具有最低的置信度得分，C2（xi，xj），由当前学生网络，使得所得到的子集RNPs包含当前学生网络MS的硬样本。2）获取合成图像的所选子集的标签通过查询教师模型来实现。（3）培养新学生网络MS与迄今为止的所有标记图像（Ps，Yt）。数据集。我们在MNIST [26]，Fashion-MNIST [47]，CIFAR-10 [22]和Places 365-Standard [50]上运行实验，这些数据集是图像分类的流行基准数据集MNIST数据集包含60K训练图像和10K关于十个手写数字的测试图像图像分辨率为28×28。Fashion-MNIST由60 K训练和10 K测试时装产品图像组成，尺寸为28×28。CIFAR-10包含60 K（50 K训练图像和10K测试图像）10类32×32RGB图像每类6K图像除了评估除了在上述低分辨率图像上提出的方法之外，我们还在Places 365-Standard 上测试了我们的方法， Places365-Standard是用于自然场景识别的具有挑战性的数据集。它拥有180万张训练图像和18，250张验证图像。365个班级在下面的实验中，我们使用 Places 365-Standard的256×256分辨率。评估指标。我们主要使用分类准确率作为评价指标。此外，我们还提出了一个简单的度量标准来衡量学生网络从教师模型中提取了多少“知识”。这个指标被计算为学生网络的分类准确度和教师准确度之间的比率Blackbox教师模型对于除Places 365-Standard之外的每个任务，我们通过以下方式准备教师模型：t t注意，在算法1的第6行中，对于任何一对（xi，xj）原始图像，我们仅保留一个合成图像以减少冗余。4. 实验We design various experiments to test our approach, in-cluding both comparison experiments with state-of-the-artknowledge distillation methods and ablation studies. 此外，我们还在可用时挑战我们的方法以下的培训设置提供在 [32 ]第32段。为Places 365-Standard，目前还没有用于知识蒸馏研究的训练设置参考，因此我们使用来自数据集存储库[50]的预训练模型作为我们的教师模型。在MNIST和Fashion-MNIST上，我们使用LeNet-5架构[27]作为教师模型，并对其进行优化，分别达到99.29%和90.80%的top-1在CIFAR-10上，我们有一个AlexNet [24]作为教师模型，并训练它获得83.07%的最佳成绩。1精度。如表1所示，上述教师1502图2.混淆其置信度得分（参见当量（3））在第三次迭代中的所有候选中是最低的。对于每个mixup图像，我们显示了黑盒教师模型返回的前三个标签和概率。图3.通过改变混合系数λ，从同一对原始图像中得到不同的混合图像。我们展示了教师模型为每个人预测的前三个标签和概率。这是有趣的，看看如何顶级1标签的变化，从曲棍球竞技场，棒球场，高尔夫球场。模型与[32]中的教师模型相当83岁03%对83. CIFAR-10，99. 34%对99。29%在90.第90章. 84%对90。87%在时尚MNIST。对于Places365-Standard ，教师模型是 ResNet-18 [14] ，并产生53.68%的top-1准确率。竞争方法。我们确定了三个现有的相关方法进行比较。• 一种是零触发知识蒸馏（ zero-shot knowledgedistillation，缩写为ZKD）[32]，它从白盒教师模型中提取具有零训练样本的学生神经网络它合成-通过白盒教师网络将梯度反向传播到输入来调整数据大小。• 第二种方法是少量知识蒸馏（FSKD）[21]，它通过生成对抗性示例来增强训练图像。它是最相关的我们的工作，但它依赖于计算昂贵的对抗性示例[40]，并且根本没有主动学习方案来降低查询成本。最初的工作假设一个白盒教师神经网络，以便直接产生广告，sarial的例子，而存在黑盒攻击方法[29，3]。• 第三个是香草知识蒸馏[16]，它访问教师模型的整个训练集，并且在某种程度上是我们方法的上限4.1.2定量结果表1示出了比较结果。为了简单起见，我们只运行一个步骤的主动学习阶段（即，算法1中T= 1）。第4.2节介绍了运行多个步骤的结果。精度我们的方法在所有数据集上都显着优于FSKD。在CIFAR-10、MNIST和Fashion-MNIST上，我们的成功率分别比FSKD提高了41%、18%和14%。在Places365- Standard上，其图像是关于自然场景的高分辨率，我们的成功率也超过了FSKD 14%。与依赖于白盒教师网络的WIKD相比，除了MNIST之外，我们的方法还显示出更高的准确率和成功率我们无法重新-1503表1.Places 365-Standard、CIFAR-10、MNIST和Fashion-MNIST的比较结果“教师”列报告教师模型在测试集上的准确度，“KD准确度”是学生网络的测试准确度，“成功”代表蒸馏成功率，“黑/白”表示教师模型是否是黑盒，“黑”列出了教师模型的查询数量，“未标记数据”显示了（* 原始论文中报告的结果）任务（模型）老师KD准确度成功黑/白查询未标记数据美国（公告牌成人另类歌曲榜）[32]–––––0Places 365-标准（FSKD [21]）53.6938.1871.11白色480,00080,000Places 365-标准（KD）53.6949.0190.35黑色1,800,0001,800,000Places 365-标准（我们的）53.6945.7185.14黑色480,00080,000CIFAR-10（英语：CIFAR-10）83.03米69.56磅83.78白色>200万0CIFAR-10（FSKD [21]）83.0740.5848.85白色40,0002,000CIFAR-10（KD）83.0780.0196.31黑色50,00050,000CIFAR-10（我们的）83.0774.6089.87黑色40,0002,000[32]第三十二话99.34磅98.77美元99.42白色>120万0MNIST（FSKD [21]）99.2980.4381.01白色24,0002,000MNIST（KD）99.2999.0599.76黑色60,00060,000MNIST（我们的）99.2998.7499.45黑色24,0002,000美国（公告牌）[32]90.84磅79.62分87.65白色>240万0Fashion-MNIST（FSKD [21]）90.8068.6475.60白色48,0002,000Fashion-MNIST（KD）90.8087.7996.69黑色60,00060,000Fashion-MNIST（我们的）90.8080.9089.10黑色48,0002,000在Places 365-Standard上生成WIKD，因为它的图像都是高分辨率的，这使得在计算上不可能生成大量基于梯度的输入。类似地，我们在CIFAR- 10上的优势比其他MNIST或Fashion-MNIST更大，可能是因为CIFAR-10图像具有更高的分辨率。相比之下，我们的主动混合方法的计算成本不依赖于输入分辨率。总的来说，结果表明，主动混合具有更高的潜力，以解决更大规模的知识蒸馏的数据有效的方式。查询。我们的方法将查询的顺序保存到教师模型中，而不是将查询的顺序保存到教师模型中。例如，对于CIFAR-10，我们只查询黑盒教师模型多达40 K次。相比之下，ECOKD需要超过2M的查询，但准确率比我们低。这种巨大的差异并不令人惊讶，因为与我们的mixup图像相比，WIKD中基于梯度的输入不如测试图像自然或代表测试图像。除此之外，EQUKD在每次产生输入时都会引发对白盒教师模型的额外查询。4.1.3定性中间结果我们在图2和图3中显示了一些混合图像。这些图像是从使用Places 365-Standard训练集中的自然图像构建的候选池中选择的图2显示了一些置信度分数较低的混淆图像。他们可以潜在地使学生受益如果我们使用它们来查询教师模型，则网络比其他候选图像更多。图3展示了通过改变混合系数λ从同一对自然图像合成的一些混合图像。有趣的是，“曲棍球竞技场”和“高尔夫球场”的混合导致λ = 0处的“棒球场”。46.黑箱教师模型预测。这表明，我们的主动混合方法不仅可以引入新的合成图像，而且可以全面覆盖类，从而有效地增加原来较小的训练集4.2. 消融研究我们选择CIFAR-10和Places 365-Standard来详细研究我们的方法，因为它们分别代表了小规模和大规模的设置。对于CIFAR-10，我们切换到VGG-16 [39]作为黑盒教师模型，它产生了93.31%的top-1准确度。4.2.1数据效率和查询效率我们研究了当我们改变未标记的真实图像的总数（数据效率）和由主动学习方案选择的合成图像的数量（查询效率）时，我们的主动混合方法的结果如何这里我们只运行主动学习阶段的一步（算法1中T=1），以节省计算成本。表2和表3分别显示了CIFAR-10和Places 365- Standard的结果。表中的每个条目都是测试集上的分类准确度，它是通过1504学生网络，我们通过使用相应数量的未标记的真实图像（Real images）和选定的合成图像（Selected Syn.）的数量来提取。表2.在CIFAR-10上对不同数目的实际图像和选定的合成图像的分类精度真实图像选择Syn.0.5K1K2K4K8K16K044.7256.8768.0976.5983.6186.895K66.9771.6777.7681.7685.7687.0510K73.6077.2781.2783.2786.5688.7920K77.4481.1884.1986.2988.0789.0140K82.2884.2586.0687.7189.0090.4980K85.1886.5387.8988.7189.6190.96160K86.5688.9489.4290.2690.8791.51表3. Places 365-Standard上的分类精度，具有不同数量的真实图像和选定的合成图像。真实图像选择Syn.20K40K80K100K40.7241.9543.52200K41.1542.8644.77400K41.9443.4245.71我们可以看到，我们通过置信度得分选择的合成图像越多（参见当量（3）），提取的学生网络质量越高。实验结果表明，混合图像可以有效地提高算法的性能.同时，我们拥有的未标记的真实图像的数量越多，我们可以实现的蒸馏成功率越高更有趣的是，当合成图像的数量很高时（例如，160K），增益是diminishing，因为我们增加了真实图像的数量。因此，根据应用场景，我们可以灵活地权衡真实图像和合成图像，以实现一定的蒸馏成功率。我们可以仔细查看表2和表3，以了解所选合成图像的“市场价值”。在表2中，10 K选择的合成图像和8 K未标记的真实图像产生86.56%的准确度; 20 K合成图像和4K真实图像产生86.29%的准确度;并且具有2K真实示例的40 K合成图像产生86.06%的准确度。准确度是一样的。表3中的非对角线条目也有类似的趋势，这意味着如果我们将真实图像的数量减少一半，我们可以通过将合成图像的大小加倍来补充它，以保持大致相同的蒸馏成功率。4.2.2主动混淆与随机搜索我们设计了另一个实验来比较主动混淆和随机搜索，以了解我们的主动学习计划。我们为CIFAR-10保留了500张真实图像，为Places 365-Standard保留了20 K。然后，我们使用它们分别构建100K和300K的合成图像。为了公平比较，我们让随机搜索和主动混合共享相同的自然图像集。由于我们的主动学习方案避免了选择冗余的图像，通过使用改进的置信度得分在方程。（3）通过引入一个λ = 0的混合系数，使随机搜索具有这种能力。5构建合成图像。这保证了，像我们的方法，没有两个合成图像选择的随机搜索是从同一对真实的图像。图4.测试学生网络与在CIFAR-10（左）和Places 365-Standard（右）上对黑盒教师模型的查询数量。我们分别为两个数据集使用500和20K自然图像。CIFAR-10的曲线图从第一个主动学习阶段（算法1中t= 1）开始，Places 365的曲线图从自然图像的初始学生网络训练开始。使用自然图像训练的CIFAR-10的初始学生网络仅产生43.67%的准确率。图4显示了我们的主动mixup和随机搜索的比较结果。在CIFAR-10上，我们每次选择10 K个合成图像，并运行10个步骤的主动学习阶段（算法1中T= 10在Places 365- Standard上，我们运行六步，每步选择50 K合成图像。可以看出，在整个知识提取过程中，主动混合算法的性能明显优于随机搜索算法，验证了主动混合算法在提高查询效率方面的有效性。更具体地，80K主动选择的合成图像产生86。76%的准确率，这与CIFAR-10上160 K随机选择的合成图像可以实现同样，40K的合成图像通过主动混合导致84。2%的准确率，与85。通过80K随机选择的合成图像获得18%的准确率。4.2.3主动混淆与香草主动学习我们的主动学习计划（EQ。（3））改进了基于香草分数的主动学习（eq.（2）通过从任何一对真实图像中最多只选择一个合成图像。这一变化是必要的，因为两个几乎重复-1505根据等式，所选的合成图像都可以具有非常低的分数（二）、为了定量地比较这两种主动学习方法，我们运行了另一个实验，将我们的主动学习方案替换为vanilla版本。候选人库和我们的一样，即，混合图像生成改变λ∈ {0. 3，0。7}，间隔为0. 04。图4显示了CIFAR-10和Place 365的结果标准一般来说，香草主动学习比我们的主动混合和随机搜索产生更低的准确性。这表明基于vanilla分数的主动学习甚至无法改进随机搜索，因为它选择了几乎重复的合成图像来查询教师模型。相比之下，我们的主动混合始终比香草主动学习和随机搜索表现得更好。突出的差距证明，由C2在方程的约束。（3）在我们的方法中至关重要。4.3. 主动混合域外数据的黑箱知识提取在现实世界的应用中，可能很难为某些任务收集真实的训练图像，例如，由于隐私问题。在这种情况下，我们必须使用域外数据来提取学生神经网络。因此，我们进一步挑战我们的方法，揭示了一些图像，这些图像超出了黑盒教师模型的训练图像的范围。我们通过在CIFAR-100中提供我们的方法一些训练图像来在CIFAR-10上进行这个实验[23]。为了减少信息泄漏，我们排除了属于CIFAR-10类的图像配备了这些合成图像，我们运行active mixup，从CIFAR-10的黑盒教师模型中提取学生神经网络教师模型是VGG-16，在CIFAR- 10测试集上的准确率为93.31%。表4. CIFAR-10的分类精度的学生神经网络是通过使用域外数据提取。选择Syn.10K20K40K80K准确度（%）64.1071.3977.8983.03表4示出了不同数量的所选合成图像的结果我们仍然只运行主动学习的一次迭代，以节省计算成本。最好的识别性能为83%的前1位准确率和88.9%的成功率.将结果与表2进行比较，特别是80K所选合成图像和2K真实图像的条目（87.89%），我们可以看到，通过使用域外数据作为域内数据，我们的方法导致大约表5. CIFAR-10的分类精度的学生神经网络是通过使用域外数据提取。我们将选定的合成图像的数量设置为40K，并改变真实图像的数量。真实图像500100015002000准确度（%）70.2174.6075.5477.89为了更好地理解不同的因素如何影响蒸馏性能，我们还将表5中的可用真实图像的数量与所选合成图像的数量解耦。我们将选定的合成图像的数量固定为40K，并改变真实图像的数量。毫不奇怪，有更多的真实图像，更高的蒸馏精度的主动mixup实现。此外，根据表4，合成图像的数量仍然在蒸馏精度中起着重要作用。在没有原始训练数据的情况下，混合增强可能对提高蒸馏性能更为关键。5. 讨论和结论在本文中，我们形式化了一个新的问题，知识蒸馏从一个黑盒教师模型在一个数据有效的方式，我们认为这是更现实的比以前的知识蒸馏设置。这个问题有两个关键的一个是可用的示例不足以表示教师模型的原始训练集中的巨大变化。另一个是黑箱教师模型通常意味着查询在经济上和计算上都是昂贵的。为了应对这两个挑战，我们提出了一种混合和主动学习相结合的方法。虽然它们本身都不是新的，但将它们结合起来可能是我们问题设置的最有机的解决方案，原因如下。首先，我们想补充几个可用的例子。与传统的数据扩充（例如，裁剪、添加噪声），其仅探测可用示例周围的区域，Mixup提供任何成对示例之间的连续插值。As a result, mixup allows the studentmodel to probe diverse regions of the input space.然后，我们采用主动学习，以减少查询事务的教师模型。大量的实验验证了该方法对数据有效的黑盒知识提取的有效性6. 确认这项工作得到了NSF-1741431和NSF-1836881的部分支持。1506引用[1] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin Raffel 。Mixmatch：半监督学习的整体方法arXiv预印本arXiv：1905.02249，2019。2[2] 威兰·布伦德尔乔纳斯·劳伯和马蒂亚斯·贝斯格。基于决策的对抗性攻击：对黑盒机器学习模型的可靠攻击。arXiv预印本arXiv：1712.04248，2017。2[3] Pin-Yu Chen，Huan Zhang，Yash Sharma，Jinfeng Yi，and Cho-Jui Hsieh. Zoo：基于零阶优化的黑盒攻击，在没有训练替代模型的情况下对深度神经网络进行攻击.第10届ACM人工智能与安全研讨会论文集，第15-26页。ACM，2017。二、五[4] 张贤卓和巴拉斯·哈里哈兰论知识升华的功效。在IEEE国际计算机视觉会议集，第47942[5] Ekin D Cubuk， Barret Zoph ，Dandelion Mane ，VijayVasude-van，and Quoc V Le.自动扩增：从数据中学习增强策略。arXiv预印本arXiv：1805.09501，2018。3[6] Jiajun Deng，Yingwei Pan，Ting Yao，Wengang Zhou，Houqiang Li，and Tao Mei.用于视频对象检测的关系蒸馏网络。在IEEE国际计算机视觉会议论文集，第70232[7] 梅勒妮·杜柯菲和弗雷德里克·普雷西奥索深度网络的对抗性主动学习：基于边际的方法。arXiv预印本arXiv：1802.09841，2018。3[8] Matt Fredrikson Somesh Jha和Thomas Ristenpart。利用置信度信息和基本对策的模型反演攻击。第22届ACMSIGSAC计算机和通信安全会议论文集，第1322-1333页。ACM，2015. 2[9] Yarin Gal、Riashat Islam和Zoubin Ghahramani。基于图像数据的深度贝叶斯主动学习。第34届机器学习卷70，页1183-1192。JMLR。org，2017. 3[10] Chuang Gan ， Boqing Gong ，Kun Liu ， Hao Su， andLeonidas J Guibas.用于自监督视频表示学习的几何引导卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第5589-5597页2[11] 甘闯，赵航，陈培豪，考克斯，托拉尔巴.具有立体声的自监督移动车辆跟踪在IEEE计算机视觉国际会议论文集，第7053-7062页2[12] 丹尼尔·吉辛和沙伊·沙莱夫-施瓦茨。判别式主动学习。arXiv预印本arXiv：1907.06347，2019。3[13] Hongyu Guo，Yongyi Mao，and Richong Zhang.混合为局部线性流形外正则化。在AAAI人工智能会议论文集，第33卷，第3714-3722页2[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。进行中-IEEE计算机视觉和模式识别会议的论文集，第770-778页，2016年。5[15] Byeongho Heo 、 Jeesoo Kim 、 Sangdoo Yun 、 HyojinPark、No- jun Kwak和Jin Young Choi。对特征提取的全面检修arXiv预印本arXiv：1904.01866，2019。2[16] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。二、五[17] Yuenan Hou ， Zheng Ma ， Chunxiao Liu ， and ChenChange Loy.通过自注意蒸馏学习轻量级车道检测cnns。在IEEE计算机视觉国际会议论文集，第1013-1021页，2019年。2[18] Andrew Ilyas，Logan Engstrom，Anish Athalye和JessyLin。使用有限的查询和信息进行黑盒对抗攻击。arXiv预印本arXiv：1804.08598，2018。2[19] 井上浩图像分类中样本配对的数据扩充arXiv预印本arXiv：1801.02929，2018。3[20] Xiao Jin，Baoyun Peng，Yichao Wu，Yu Liu，JiahengLiu，Ding Liang，Junjie Yan，and Xiaolin Hu.基于路径约束优化的知识蒸馏。 arXiv 预印本 arXiv ：1904.09149，2019。2[21] 木村昭里，加赫拉曼尼祖宾，竹内高，岩田智晴，上田直则。通过伪示例优化从头开始神经网络的少次学习。arXiv预印本arXiv：1802.03039，2018。二、五、六[22] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小图像中学习多层特征，2009年。4[23] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。8[24] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年。4[25] Jogendra Nath Kundu ， Nishank Lakkakula ， and RVenkatesh Babu.Um-adapt：使用对抗性跨任务蒸馏的无监督多任务自适应。在IEEE计算机视觉国际会议论文集，第1436-1445页，2019年。2[26] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278-2324，1998.4[27] Yann LeCun等. Lenet-5卷积神经网络网址：http：//yann. 乐村com/exdb/

下载后可阅读完整内容，剩余1页未读，立即下载