特定领域人脸检测中的隐私保护在线AutoML

144 浏览量更新于2023-10-25 收藏 916KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4134用于特定领域人脸检测的隐私保护在线AutoML严晨倩1<$* 张宇歌1<$张全禄1杨亚明1姜信阳1杨玉清1王宝源2Microsoft Research1Xiaobing.ai2@ gmail.com，{yugzhan，quzha，yayaming，xinyangjiang，yuqyang} @ microsoft.com，wangbaoyuan@xiaobing.ai摘要尽管通用人脸检测技术取得了令人印象深刻的进展，但超参数和结构的调整仍然是特定领域人脸检测器性能的关键。虽然现有的AutoML工作可以加速这样的过程，但它们要么需要从头开始调整新的场景，要么不考虑数据隐私。为了扩展，我们从平台的角度推导出一个新的AutoML设置。在这样的设置中，新的数据集顺序地到达平台，其中推荐架构和超参数配置以训练针对每个数据集的最佳面部检测器。然而，这带来了两个主要挑战：（1）如何预测任何给定数据集的最佳配置，而不会由于隐私问题而接触它们的原始图像？以及（2）如何从以前的任务中不断改进AutoML算法，并为未来的任务提供更好的热身？我们介绍了在其核心部分，提出了一种新的元特征由于HyperFD，每个本地任务（客户端）都能够有效地利用先前任务的学习“经验”，而无需将原始图像上传到平台;同时元特征提取器被连续地学习以更好地权衡偏差和方差。大量的实验证明了我们的设计的有效性和效率。1. 介绍人脸检测[6，28，51，68，69]是计算机视觉中最基本的问题之一。虽然，最近已经取得了快速的进展，一般情况下，口语人脸检测模型仍然是在特定领域的场景中的高需求。这是因为，从室外监视摄像机检测面部的挑战可能不同于全景室内鱼眼摄像机[13];同样，检测被遮挡的面部的挑战（例如，面具[21]）也与自拍脸有很大不同*在MSRA实习。†同等贡献。图1. HyperFD框架概述，旨在构建一个共享的AutoML平台，使客户之间能够交换调优经验，而无需访问客户性能排序器由元特征提取器和配置编码器组成。这两个都是不断更新，以纳入- porate调优经验的最新任务。手机摄像头[30]因此，需要大量的人工参数调整和大量的计算资源，以获得最好的专业模型为每个领域。为了扩大场景，我们看到了构建共享AI模型训练平台的明确行业需求，以便利用其他相关任务的预训练表示。例如，Microsoft Custom Vision [34]可以为没有深度学习背景的工程师训练一组用户上传的图像。然而，这是以牺牲面部数据隐私为代价的类似地，其他AutoML工具（例如，NNI [35]）要么不考虑数据隐私，要么仍然需要从头开始调整新的场景，这是不安全和可扩展的。针对真实世界场景的特定于领域的人脸检测的训练需要从平台的角度设置新的问题，其中平台接收新的客户服务器任务1更新发送性能排名（T1）推荐任务2调整经验更新发送性能排名（T2）推荐调音经验任务N更新发送性能排名（TN）推荐调音经验元特征提取器配置编码器配置嵌入搜索空间……时间4135数据集，并推荐架构和超参数配置，以训练每个数据集的最佳人脸检测器（对应于一个特定域）。这种问题设置带来了两个主要挑战。第一个是在保护原始图像隐私的约束下，有效地预测任何输入数据集第二是利用之前任务1的“经验”，不断改进AutoML算法，使平台能够更好地为了解决隐私保护的挑战，我们推导出一种新的在线AutoML人脸检测范式，称为“HyperFD”。具体地，代替将原始图像上传到服务器，每个本地客户端仅向平台发送数据集级表示（在下文中称为元特征被设计为对给定数据集的总体统计和一般属性进行平台-Form维护可学习的性能排序器，其基于数据集元特征从超参数/体系结构搜索空间中选择前k个最优训练配置。最后，在从平台获得配置之后，然后在每个客户端上本地训练面部检测器。通过这种方式，平台只能看到数据集元特征和测试性能，有效地保护了训练数据的隐私。图1给出了我们的HyperFD框架的概述。请注意，虽然它是联邦的，但HyperFD在本地执行实际的训练任务，不需要全局聚合，这与传统的联邦学习不同[32]。为了解决第二个挑战，并使HyperFD更适用于不可见的场景，我们要求元特征使用新的数据集不断更新，但适当地借用以前训练任务的由于无法访问原始数据，数据，我们集成了一个新的元特征转换模块，建立当前元特征空间和以前的特征空间之间的映射。直观地说，这种映射将有助于使类似的分布式历史任务在新任务的最终配置排名中发挥更大的影响力总而言之，我们做出了以下贡献：• 我们介绍了隐私保护的在线AutoML人脸检测，这是一个新的问题设置从平台的角度来看。• 我们提出了一种新的元特征提取器来构建更好的数据集级别的表示，它是在不接触原始人脸图像的情况下连续训练的。• 大量的实验表明，我们的方法的优越性能。我们还将发布基准测试和源代码，以方便未来的研究。1在本文中，我们可以互换使用2. 相关作品可转移AutoML。早期的可转移AutoML工作从多任务协作调优的角度解决了这个问题[2，15，47]，希望同时运行多个AutoML任务将有助于彼此实现更好的结果。基础技术包括基于代理的排名[2]、多任务高斯过程[47]和概率矩阵分解[15]。后来的研究流集中在“热启动”设置上，这是基于先前的实验为新的Au- toML任务推荐一个好的然而，从平台的角度来看，更现实的设置是，训练任务按顺序到达，并且需要为即将到来的数据集搜索最佳配置。Xue等人[59]首先将此设置称为尽管已经进行了一些尝试来公式化和解决这样的问题[55，59]，但他们仍然忽略了隐私的基本约束，并假设所有数据集都可以直接访问算法，这是不可行的，特别是对于像人脸这样的敏感数据集。数据集元特征。数据集元特征（或表示）对可传输AutoML的性能至关重要[23]。最直接和最早的数据集表示是基于数据集的描述性统计[2，11，24，33，62]，例如，图像的数量。更先进的方法包括使用预先训练的模型在看不见的数据集上的性能然而，这些方法是专门设计的，并不直接知道AutoML的端到端目标另一种方法是以端到端的方式优化神经网络的深度特征[23，25，36，53]虽然有效，但这并没有成为主流，最近针对在线设置的作品[55，59]仍然使用了设计师设计的表示。此外，大多数工作都局限于图像分类和表格数据集的评价。据我们所知，我们是第一个为人脸检测数据集提取元特征的不断学习。持续学习是一种场景，其中单个神经网络需要顺序学习一系列任务。关键的挑战是灾难性的-让过去的任务学习的参数或语义漂移到新任务的方向。为了缓解这个问题，通常需要梯度正则化[26，67]，动态架构的设计[56，64，66]，以前训练数据的重放[27，41，45]。尽管有各种技术，但所有历史数据的联合训练仍然被认为是持续学习的上限[48]。最近的研究提出了联邦持续学习[22，63]，将隐私考虑在内，但它们与我们有本质的不同。他们的客户聚集参数，而我们建议共享AutoML经验的元级知识。此外，他们的解决方案是为任务IL场景设计的[48]，不适用于我们。4136D{}CC|C|3. HyperFD3.1. 框架概述图1展示了我们的HyperFD框架的概述，其中用于面部检测的特定于领域的训练任务按顺序到达。对于新任务，将服务器上维护的元特征客户端使用提取器从人脸数据集中提取特征，并将特征发送回服务器，而不泄露原始图像。服务器维护一个搜索空间，该空间具有用于人脸检测的各种模型架构和超参数。性能排名器基于其元特征来预测该客户端的任务上的配置的排名，并向客户端建议若干配置。客户端在其数据集上验证这些配置的性能，并将性能通知给服务器。然后，服务器用新收集的数据更新性能排名器。这是一个持续的学习过程，在新的面孔无梯度有梯度图2.元特征提取器的体系结构。在我们的框架中，性能排名优化的监督学习的方式调整经验。这里，调优经验是一个元数据集，由多个三元组{（cu，dv，ai）}组成。（一）u i男，1v iN），侦查任务不断到来。问题是哪里i ii=1原始数据集在服务器上不可用，并且每个客户端在其任务完成之后变得不可达。因此，我们设计了一个元特征转换模块。它不断地将使用旧版本提取器提取的特征投影到最新版本提取器的特征空间中，以便最新版本可以利用所有历史数据来防止忘记。损失函数结合了排序损失、规则化和突触智能，以保证整个框架的稳定3.2. 性能排名性能排名器是Hy-perFD框架的基本构建块。它对每个数据集的搜索空间中的配置进行排名。搜索空间包含=M个不同的配置，其中第k个被表示为ck。我们使用=d1，d2，. ..，DN来表示人脸检测任务的数据集，其中dt对应于第t个任务。我们的目标是学习一个性能排名器，对于任何一对ck和dt，它预测一个分数（例如，AP@50）。我们制定的秩作为一个可微函数F （ck，dt;<$F）参数化<$F。F由两个工作分量组成：配置编码器H（ck;k_H），其将任何配置映射到固定长度向量中;以及数据集元特征e_x_t_torG（dt;k_G），其从数据集提取语义信息以生成固定长度向量。学习G和H，使得配置嵌入和数据集嵌入位于相同的嵌入空间中，并且我们用内积度量它们的相似性。更高的相似性意味着配置和数据集的更好匹配，从而可能带来更好的性能。F（ck，dt;<$F）=G（dt;<$G）|H（ck;H）（1）u i是在第i个三元组中的第v i个数据集上评估的配置的索引，ai是其性能，即，在dv i上用cui训练的检测器的评估分数。3.2.1元特征提取器设计性能排名器的关键挑战是如何有效地从数据集中提取元特征。受先前图像分类工作的启发[25，36]，我们遵循来自原始图像的语义信息（例如，图像和注释的统计信息、用预训练模型提取的视觉特征）可以恰当地传达数据集的特征然而，人脸检测更加复杂，它跨越多尺度锚点，结合每个锚点的分类和回归。因此，我们设计了一种新的分层特征提取方法，从锚点级别开始，然后通过一系列聚合来生成高级别的数据集特征。总体架构如图2所示。锚级为了处理原始图像，我们首先将它们送入一个预先训练好的人脸检测器RetinaFace [6]。我们使用上下文模块生成的特征金字塔（即，SSH [38]），它由三个特征图组成，分别按8、16和32进行下采样。这些特征图负责检测原始检测器设计中的小、中、大人脸。我们称这些特征图为锚点级特征，因为特征图上的每个像素对应于检测任务中的一个或多个除了检测器提取的特征外，我们还将匹配的地面实况边界框附加到每个锚点以丰富信息。第k阶段的特征图用detk（I）表示，其高度为Hk，宽度为Wk，其中I是预处理图像，图像级。到骨料锚固水平功能到检测特征提取器#图像和#边界框一批图像阶段1阶段2阶段3Self-attention…GWAP…4137DX我（t）（t）2我i=1在图像级，三个特征图中的每一个都被馈送到全局加权平均池（GWAP）[40]中，在我们的情况下，这是为了平衡面部检测中不平衡的正样本和负样本我们对锚进行了重新加权，以使不同级别的IoU匹配率对结果的贡献相等。具体地说，对于k=1，2，3，我们根据IoU匹配率的水平将detk（I）上的锚分组为正锚，负锚和忽略锚[4]，并在总平均值之前对组内的锚进行平均然而，持续改进的性能等级要求对即将到来的新任务和旧任务的经验进行联合培训。这给持续学习带来了两个新的挑战。首先，服务器只存储元特征而不是原始数据集。其次，由于不断学习，元特征是由不同版本的元特征提取器生成的。为了解决这些问题，我们设计了一个新的元特征转换模块，结合三个损失函数，这保证了稳定和有效的更新性能排名。detk（I）=1detk（I）+det（I）+det（一）公司简介3.3.1元特征转换模块3POSk kknegIGN我们的性能排名可以自然分解其中，detpos、detneg、detign是阶段k的平均值正、负和忽略锚点上的特征图，分别为。然后，一个图像的特征是detk（I）（k=1，2，3）的级联。数据集[62]的另一个高级描述性统计向量是concate-在我们的例子中，是图像和绑定的数量变成G和HG在客户端执行和更新，因此，保护了客户端的隐私。更新后的G被发送回服务器。由于G随着新任务的到来而不断发展，我们引入t来表示第t个任务（假设任务顺序到达）。第t个任务具有数据集dt，元特征G（t）（dt;f（t）），其中f（t）是G G整个数据集的框这是必要的，因为在一批图像的上下文中缺少这样的信息。信息在图像级别注入，元特征提取器处于完成第t个任务的状态在本文的其余部分中，我们使用G（t）（dt）作为简称。服务器上的调优经验三元组是{cu，$v，ai}。得双曲余切值.后续模块可以将其与其他视觉语义融合。数据集级别。该级别聚合数据集的所有图像的特征以捕获图像特征的分布。我们建议使用自我注意力（即，一$vi dvi的元特征定义如下：G（d;G），如果t=G（t）（d;n（t）），否则（三）不GTransformer编码器层[50]）来提取分布语义的这背后的基本原理是，适合于一个任务的最佳配置主要与数据集的分布相关具体地，不使用位置嵌入，因为图像序列是置换不变的。在图像之间的特征融合之后，使用平均池化来获得小块级特征，即，数据集的元特征。3.2.2组态编码器不同类型的搜索空间偏好不同的卷积编码器。对于由一个或多个分类变量组成的超参数搜索空间，多层感知器是一个简单而有效的选择。对于神经网络结构的搜索空间，设计了一种更为复杂的编码器最近越来越流行使用图神经网络作为NAS中的性能预测器[7，46，52]，因为神经网络本质上是图。具体来说，我们使用GIN [57]作为神经架构的配置编码器，因为它优于其他GNN [46]。3.3. 隐私保护持续学习在HyperFD中，性能排名器运行在一个场景中，其中d是当前的数据集（i. e. 第1 0 t h）任务。从等式3中我们可以看出，当前数据集的元特征和过去的元特征是由不同的元特征提取器表示的，并且位于不同的特征空间中。Oracle的解决方案是我们要求用户使用当前的提取器再次提取元特征，但在我们的场景中这是不可行的。为了将元特征与最新的特征空间对齐，我们使用线性映射将使用旧元特征提取器提取的元特征投影到最新的特征空间我们称之为元特征转换。假设我们的系统当前已准备好提供数据集数据。最新的元特征提取器表示为 G 。我们的目标是预测 G（dt），以G（t）（dt）作为输入，乘以变换矩阵Z（t）（每个数据集一个矩阵）。最小化Z（t）G（t）（dt）和G（dt）之间的距离成为一个监督学习问题。为了学习Z（t），我们需要大量的对（G（t）（d），G（d）），其中d是任何数据集。从用户那里收集这样的数据是不可能的，因为我们不能指望因此，我们从离线中获取d，这是在HyperFD框架中离线准备的一系列数据集那么Z（t）可以通过以下方式训练：客户端侧的原始数据集不可由服务器访问，并且客户端仅在其自己的任务期间可达Ltranss（Z（t））=d2D离线kZG（d）-G（d）k（4）KK（=$t4138⇡F不Ⓢ（t，i）L（！X我⌘F6ai>aj（我我我利用变换模Z（1），Z（2）， . ..... . 你好。，Z（t）G（t）（d）G（d）对于任何数据集d都成立。然后，我们可以将性能排名器F的定义扩展到，以便它可以在任何配置和元特征对上工作。经验遗忘问题，这可能会降低性能。由于元特征提取器是在客户端上进行联邦训练的，因此我们无法访问其原始数据。因此，我们采用了另一种持续学习技术，突触智能（SI）[67]，这是一种非常适合我们框架的规则化损失。为此目的，（美元）|H（ck），如果t=（五）对于一个n y数据集dt，我们首先计算！（t），即─F（ck，$t;<$F）=.Z（t）|H（c），否则参数对损失变化的贡献：t kNX位数L（t，i）Ⓢ在这个等式中，当用反向传播更新BNF的分支，则只能为当前数据集d另一方面，对于T来说，没有梯度-！（t）=-i=1n（t，i）-n（t，i-1）未注册6（t，i）（八）因为$t是预先计算的，Z（t）已经是最优的了。迷乱了因此，根据以往的经验进行联合培训，实质上使配置编码器适应最新元特征提取器的特征空间。3.3.2损失函数其中，Niters表示迭代次数。（t，i）是在对数据集dt进行训练的第i次迭代之后，unreg表示在第i次迭代时没有该正则化项的损失。是指元素级产品。归纳！在这些数据集上得到k（k-1），它是前k-1个数据集中每个参数的重要性（k是当前时间）：接下来，我们引入损失函数来优化每个排序器。排名损失。我们的主要损失函数是排名损失-1我t=1（吨）（t）-（九）由[70]提出，惩罚配置的不完美排名。损失计算在{（cu，$v，ai）}K 得双曲正弦值.其中，i是中的第i个参数。这是一个小阻尼是以i ii=1防止被零除的项，我们设置为0.1。然后，正则化损失由下式给出Lrank（F）=Evi=vj[-εNDCG·logσ（F（cui，$vi）-F（cuj，$vj））]|✓|其中，σ指的是S形函数，而ΔNDCG是排序度量的变化，即，特别是在切换i和j的排名位置之后，归一化贴现累积增益（NDCG）[20]，以便强调顶部项目的排名失败。三重正则化。由于用于训练排名器的调优经验三元组可能不够“充足”，因此进行适当的正则化至关重要。与以前的工作类似[23，36]，我们使用带有余量的三重损失[44]来最小化来自同一数据集的批次的距离减去到另一个数据集的形式上，它被定义为，我我i=1总的来说，性能预测器的损失是，L总（F）=L秩（F）+ λsimLsim（G）+ λregLreg（F）（11）λsim和λreg是控制正则化权重的超参数。4. 实验4.1. 实验装置人脸识别训练。我们使用RetinaFace [6]，Lsim（G）=maxk$vi— $fvk2-k$v— $vjk2+k，0（七）MobileNet-V2 [43] 骨干，在 WIDER- Face 上预训练[61]。为了在新的数据集上训练，我们继承了在WIDER-Face上预训练的权重，并在目标其中v i=v j。$vi和$vi是相同的数据集，但是用不同的代表性图像样本提取，$vj和$vi是不同的数据集，并且是控制裕度的超参数。请注意，此损失仅适用于v i=或v j=时。否则，G将不会接收任何梯度。突触智能尽管我们使用联合训练来结合过去和现在的经验，但如前所述，只有配置编码器得到优化。尽管整个性能排名器从这些更新中受益，但元特征提取器仍然可以（六）Lreg（F）=我4139数据集。如果模型使用与预训练模型不同的架构，我们将使用参数重映射执行网络自适应[10]。我们采用为了评估，我们按照[6，29，58]将图像的短边重新缩放我们使用IoU 0.5（AP@50）时的平均精度作为评估指标。更详细的培训设置见附录B.1。数据集。我们在12个公开可用的人脸数据集上评估HyperFD ： [31] ， Anime [39] ， Face- Mask [18] ，FDDB [19]，FDDB-360 [13]，MAFA [16]4140D⇠”Pascal VOC [8] 、 UFDD [37] 、 UMDAA-02 [30] 、WIDER-[14]第一次，我是一个很好的朋友，也是一个很好的朋友。有关数据清理和培训/验证/测试划分的详细信息，请参见附录B.2.我们将数据集分为服务器端和客户端，其中WIDER-Face被认为在服务器端始终可用。The rest ofthe datasets are treated as customer data which is notdirectly visible to the central server.我们在每次实验之前对11个客户数据集的顺序进行洗牌，以模拟客户数据以任意顺序出现的场景搜索空间。我们定义了两个搜索空间进行评估。（i）HPO空间（即超参数搜索空间）调谐6个不同维度并包含216个超参数组合，从一般超参数（例如，学习速率）到域特定的（例如，IoU阈值）。（ii）NAS空间调整主干架构，因为主干被发现对检测性能至关重要[5]。我们的骨干搜索空间是由[3]提出的MobileNetV2类空间。在360P分辨率下，我们将FLOP限制在730M 以下，以避免选择超大型号。整个搜索空间的大小为2。44·1015. 详情见附录B.3。数据集增强。在开始时只有WIDER-Face可用的情况下，很难获得有意义的Meta特征提取器。此外，元特征变换模块的训练依赖于数据集的多样性，使得它不会过拟合到特定的表示。接下来[55，59]，我们从WIDER-Face中提取子集，以在服务器端创建各种数据集我们有意地对每个子集的分布进行调整，以增加域的多样性。这是通过对不同深度学习模型生成的特征进行聚类来完成的。我们最终创建了1418个数据集来离线形成D。详见附录B.4。性能排名。对于每个HPO和NAS空间，我们对3，000对配置和数据集（来自离线）进行采样，并获得其相应的性能。这形成了一个元数据集，我们使用它来在在线阶段，对于每个数据集，我们随机抽取200个样本（几乎耗尽了HPO的空间），并得到B配置根据预测得分。一个采用探索-利用策略[7]来防止所选配置变得过于同质。在[36]之后，我们预先建立了一个性能基准（即，查找表），使得我们不必在每个实验中经历检测器训练的计算昂贵的步骤。预算，即如果没有另外指定，则每个数据集的试验次数设置为4。其他超参数见附录B.5。4.2. HyperFD的性能基线。我们将我们的方法与以下基线进行比较：（一）随机搜索：随机选择cer-方法HPO空间NAS空间YAAP（“）等级（#）YAAP（“）等级（#）随机搜索0.0020.090.0020.10最佳WIDER1.3325.122.0410.97Tr-AutoML [59]-0.1822.18-0.5225.29HyperSTAR [36]-0.4722.00-0.1421.09SCoT [2]-0.1020.83-0.2821.30HyperFD（ResNet）-0.2317.411.5411.97HyperFD（统计）0.0817.591.5812.06HyperFD（MSE）-0.0520.930.2118.34HyperFD1.6713.162.397.78表 1. 端到端性能与基线和几种变体的比较。 HyperFD（ResNet）：使用ResNet50作为元特征提取器。HyperFD（统计）：使用描述性统计作为元特征。 HyperFD（MSE）：使用MSE作为主要损失。在不了解数据集或搜索空间的情况下，(ii)WIDER上的最佳配置：在WIDER-Face上找到最佳配置（通过HPO空间上的网格搜索(iii)Tr-AutoML[59]：一种基于马尔可夫分析的方法。它可以应用于我们的场景，因为它是一个可转移的AutoML算法，专为类似于我们的在线设置而设计。(iv)Hy- perSTAR[36]：框架以端到端的方式进行优化。它采用冻结的ResNet50 [17]作为Meta特征提取器，因此可以适应我们的场景。在提供新数据集之前，我们根据所有历史经验对其预测器进行微调。(v)SCoT[2]：一个baidu优化框架，其代理模型学习预测数据集和配置的描述性统计联合条件下的性能。评估指标。我们在评估中使用的指标是：（i）搜索增益：在相同的初始搜索下，所提出的搜索算法与随机搜索相比的性能增益。增益在数据集之间求和。越高越好（）。(ii)排名：搜索空间中最佳配置的排名。排名被归一化为0 100%，以便在不同的搜索空间进行比较，然后在数据集上进行平均。越低越好（#）。结果我们在表1中示出了结果。我们用20种不同的种子评估每种设置，并报告平均值。每个数据集的标准差以及更详细的结果见附录C。我们首先指出，我们不能依赖于单个数据集的调优经验。WIDER-Face上的顶级配置在HPO和NAS搜索空间中的平均排名分别为25.12%和10.97%，这表明没有黄金配置适用于所有数据集。尽管在某些数据集上，WIDER-Face上的最佳配置可能令人印象深刻（例如，WIDER-360，HPO，+2.5%APP100），对于某些数据集，它们几乎位于底部（例如，ANIME，HPO，差于85.6%的搜索空间）。令人惊讶的是，在我们的场景中，复杂的方法（例如，HyperSTAR）的性能甚至不如4141方法HPONASYAAP（“）等级（#）YAAP（“）等级（#）仅最新数据1.1215.992.039.55冻结元提取器1.2215.282.199.41冻结整个排名1.3216.852.268.60HyperFD（完整）1.6713.162.397.78图3.当分配不同预算时，HyperFD与基线相比的性能（等级归一化为0-100%）。阴影区域是20次运行的标准差。简单随机搜索基线。我们认为这可能归因于三个原因。（i）他们提出的用于测量数据集相似性的元特征与人脸检测场景不一致(ii)他们使用的损失函数（例如，MSE）使得优化变得困难。(iii)对于Tr-AutoML，在数据集之间共享“top-1”配置的设计为了验证我们的假设，我们通过将元特征提取器和损失函数替换为基线中使用的元特征提取器和损失函数来创建HyperFD的变体。结果如表1所示，明显比HyperFD差，这表明为我们的场景量身定制的元特征提取器和损失函数是使算法工作的不可或缺的组件在三个变量中，MSE版本的性能最差，这意味着排名损失是我们的结果最关键的。HyperFD在所有指标上都明显优于基线，特别是在“排名”方面。值得注意的是，这种改进在HPO搜索空间上尤其显著。相比之下，在NAS搜索空间上，大多数出租人享有更好的排名。我们认为，NAS是AutoML的一个更容易的搜索空间，主要是因为数据集共享更多的偏好架构比超参数。第4.4节的调查结果也呼应了这一主张。最后，我们通过改变预算来验证HyperFD的有效性，每个数据集要运行的试验次数，介于2到10之间。然后，我们报告不同预算下每种方法结果如图3所示。值得注意的是，HyperFD几乎始终在所有预算变量下表现最佳。4.3. 消融不断学习。我们首先评估建议的持续学习策略的有效性。具体来说，我们进行了几个消融实验，包括：（i）仅利用来自最新数据集的调优经验。(ii)预热后冷冻肉类特征提取器。(iii)在热身后冻结整个性能排名。的表2.为证明不断学习的必要性而进行的自我辩护。方法HPONASYAAP（“）等级（#）YAAP（“）等级（#）不转型1.2815.652.169.67Oracle1.8413.792.377.73HyperFD（完整）1.6713.162.397.78表3.转换模块上的消融。排名三重SIHPONASYAAP（“）等级（#）YAAP（“）等级（#）XX0.5016.491.6012.06XX1.3815.402.338.861.6713.162.397.78XXX表4.损失函数的烧蚀。结果见表2。由于我们的性能排名器的设计和预热过程，即使整个排名器被冻结，性能仍然看起来相当不错。然而，使用持续学习技术可以使框架表现得更好。转换模块。所提出的转换模块是HyperFD的关键组件。配备了转换模块，HyperFD可以从历史经验中受益，而不会牺牲任何pri- vacy，因为转换模块只需要实验室级别的元特征，而不是原始图像。从表3中的结果，我们可以了解到，在没有转换模块的情况下，性能显著下降，这意味着我们的设计能够更有效地使用历史经验并消除知识遗忘。此外，我们还将HyperFD与Oracle基线进行了比较，后者忽略了隐私问题，并在中央服务器上收集所有数据。值得注意的是，我们的转换获得了与oral基线相当的性能，这再次证明了有效性。损失函数。损失函数的有效性如表4所示。损失函数中有三个组成部分：一个排序损失和两个正则化损失（三重损失和SI损失）。排名损失是必不可少的，不能禁用，因此我们打开和关闭其他两平均而言，三重丢失和SI丢失对不同搜索空间的排名贡献了3.81%和1.66%。元特征提取器的设计。除了表1中的元特征提取器的变体之外，我们还对各种版本进行了进一步的实验，其中我们禁用了元特征提取器中的几个关键组件。为了进行更全面的比较，我们进一步展示了验证NDCG[20]，即用于评估热身质量的排名指标。表5从经验上证明了4142方法HPONASNDCG（val）（“）等级（#）NDCG（val）（“）等级（#）锚定水平：无标签0.93014.130.89511.13图像级：不含GWAP0.93214.220.90110.41图像级：W/O金字塔0.92716.920.89812.98图像级：无统计0.92215.420.89911.92数据集级别：无收件人0.91915.090.88612.09HyperFD（完整）0.93313.160.9037.78表5. 元特征提取器上的消融。 w/o标签：不将边界框信息附加到特征图。w/o GWAP：使用平均池而不是GWAP。w/opyramid：只使用最后一个阶段的特征。w/o统计：没有数据集级别的描述性统计附加到每个图像的特征。无收件人：移除自注意编码器层。方法HPONASYAAP（“）等级（#）YAAP（“）等级（#）无预热0.5016.281.3812.62无增强0.9617.551.4315.23HyperFD（完整）1.6713.162.397.78表6.用于热身和隆乳的消融术。图4.50次实验的归一化秩分布RS：随机搜索。我们的元特征提取器在我们的提取器中的组件中，自我注意力的消融具有最大的影响，在两个搜索空间上具有最差的NDCG（val）。热身和增强。最后，我们取消了在算法接收在线数据集之前执行的预热。我们将我们的方法与完全没有预热的版本以及有预热但没有增强数据集的版本进行了比较。结果可以在表6中找到，其中我们看到在没有预热或增强的情况下性能下降我们认为，如果没有适当的预热，元特征提取器和配置编码器都容易过拟合少数样本（即，#21453;，每一项任务。此外，元特征转换模块几乎不能学习任何有用的只有WIDER-Face数据集在手。4.4. 分析对任务到达顺序的鲁棒性。所提出的Hy- perFD对任务到达的顺序是鲁棒的。在图4中，我们对每个搜索空间运行了50个具有不同到达命令的实验，并报告了它们的分布。即使是最坏的情况也比随机搜索的平均情况要好得多。这种对顺序的鲁棒性确保了不同任务之间的公平性[65]，这对于可靠的平台很重要。元特征可视化。我们通过t-SNE可视化元特征的表示[49]。对于每个数据集，我们提取元特征30次，每次都是从一个图5.离线预热后特征表示的t-SNE可视化。每种颜色代表一个数据集。多个点对应多批图像。（左）接受HPO搜索空间培训（右）接受NAS搜索空间培训。（最好是彩色的）从数据集中随机抽样的一批图像。结果如图5所示。在预热之后，我们的Meta特征提取器已经可以成功地区分大多数数据集，而无需在这些数据集上进一步训练提取器有两个有趣的发现。首先，彼此相似的数据集（例如，WIDER-Face和WIDER-360）在图中也彼此靠近第二，数据集在NAS搜索空间上比在HPO搜索空间上更倾向于彼此混合这也证明了以端到端的方式优化元特征提取器的必要性。5. 讨论和结论本文从平台的角度出发，研究了面向特定领域人脸检测的在线AutoML。如何不断改进AutoML算法，并从一系列训练任务中学习，同时保护敏感人脸检测数据的隐私。提出了各种技术，并通过大量的实验证明了它们的有效性。诚然，这篇论文没有包括与多保真度技术的结合（例如，BOHB [9]），并没有试图将我们的方法推广到人脸检测以外的场景。我们把它们留在未来的工作中。更广泛的影响。人脸数据集的敏感性早已引起人们的注意，保护其隐私的重要性无需再强调。但是，如果客户孤立地使用自己的数据集，这种过度保护将浪费资源，特别是在使用AutoML时。通过引入HyperFD，我们在效率和隐私之间取得了平衡，并实现了两全其美。确认我们感谢匿名评论者的宝贵反馈 . 我们也感谢Chengmin Chi（STCA）和Xiaotian Gao（MSRA）的建议。4143引用[1] Alessandro Raville ， Michael Lam ， Rahul Tewari ，Avinash Ravichandran ， Subhransu Maji ， Charless CFowlkes ， Ste-fanoSoatto ， andPietroPerona.Task2vec：元学习的任务嵌入。在IEEE/CVF国际计算机视觉会议，第64302[2] Re'miBardenet ， Ma'tya'sBrendel ， Bala'zsKe'gl 和MicheleSebag。协作超参数调整。国际机器学习会议，第199PMLR，2013年。二、六[3] 韩才、朱立庚、宋涵。Proxylessnas：在目标任务和硬件上直接进行神经结构搜索。2018年国际学习表征会议。6[4] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu ， Jiarui Xu ， Zheng Zhang ， Dazhi Cheng ，Chenchen Zhu ， Tian-heng Cheng ， Qijie Zhao ， BuyuLi，Xin Lu，Rui Zhu，Yue Wu，Jifeng Dai，JingdongWang ， Jianping Shi ， Wanli Ouyang ， Chen ChangeLoy，and Dahua Lin.检测：Open mm- lab检测工具箱和基准，2019。4[5] Yukang Chen ，Tong Yang ，Xiangyu Zhang，GaofengMeng ， Xinyu Xiao ， and Jian Sun.Detnas ： BackboneSearch for Object Detection，2019. 6[6] 邓建康，郭佳，周宇翔，俞金科，艾琳Kot-sia，和Stefanos Zafeiriou.Retinaface：2019年野外单阶段密集面部定位。一、三、五[7] Dudziak ， Thomas Chau ， Mohamed S Abdelfattah ，Royson Lee ， Hyeji Kim ， and Nicholas D Lane.Brp-nas：使用gcns的基于预测的nas。arXiv预印本arXiv：2007.08668，2020。四、六[8] M. Everingham，S. M. A.埃斯拉米湖凡古尔角，澳-地K.I.威廉斯，J. Winn和A.齐瑟曼。Pascal视觉对象类挑战：回顾。 International Journal of Computer Vision，111（1）：98-136，Jan. 2015. 6[9] Stefan Falkner Aaron Klein和Frank Hutter Bohb：大规模鲁棒高效的超参数优化。 arXiv 预印本 arXiv ：1807.01774，2018。8[10] Jiemin Fang，Yuzhu Sun，Kangjian Peng，Qian Zhang，Yuan Li，Wenyu Liu，and Xinggang Wang.通过参数重映射和结构搜索的快速神经网络自适应。在2019年国际学习代表会议上。5[11] MatthiasFeurer ， KatharinaEgge

下载后可阅读完整内容，剩余1页未读，立即下载