基于梯度的方法合成图像的分类与CAFE方法

154 浏览量更新于2023-10-25 收藏 2.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12196基于梯度的方法合成图像分类1分类2CAFE：通过对齐特征学习压缩数据集王凯1* 赵博2* 彭翔宇1郑珠3杨硕4王硕5黄冠3哈坎比伦2王新潮1杨友1 <$1新加坡国立大学2爱丁堡大学3PhiGent Robotics4悉尼科技大学5中国科学代码：https://github.com/kaiwang960112/CAFE摘要数据集压缩旨在通过将繁琐的训练集压缩为紧凑的合成集来减少网络训练工作。最先进的方法在很大程度上依赖于学习合成数据，ConvNet/ResNet18 Iter0ConvNet Iter500ResNet18 Iter500匹配真实和合成数据批次之间的梯度。尽管有直观的动机和有希望的结果，这种基于梯度的方法，从本质上说，很容易过拟合一组有偏见的样本，产生主导的梯度，所有样本ConvNet和ResNet18的大样本(a)在训练过程中，梯度分布由均匀分布变为长尾分布。同时，大梯度样本在不同结构间的重叠较小.因此，缺乏对数据分布的全球监督，第本文提出了一种新的基于对齐特征的数据集压缩方法（CAFE），该方法在保持合成集的真实特征分布和判别能力的同时，具有较强的泛化能力。我们的咖啡馆分类1分类2合成图像真实图像合成图像建筑我们方法的核心是一种有效的策略，可以在不同尺度上对齐来自真实和合成数据的特征，同时考虑真实样本的分类。我们的计划是进一步支持一种新的动态双层优化，自适应调整参数更新，以防止过度/欠拟合。我们在各种数据集上验证了所提出的CAFE，并证明它通常优于最先进的技术：例如，在SVHN数据集上，性能增益高达11%。大量的实验和分析验证了所提出的设计的有效性和必要性。1. 介绍深度神经网络（DNN）已经在计算机视觉的许多（如果不是所有）应用中展示了前所未有的结果[9，21，39，27，10，23，29，8，46，49，28，38，37，36]。然而，这些令人满意的结果是有代价的：DNN的训练严重依赖于大量的数据，有时高达数千万个样本，*同等贡献。（kai.wang@ comp.nus.edu.sg，bo. ed.ac.uk）†通讯作者（youy@comp.nus.edu.sg）。(b) 由梯度匹配和CAFE生成的合成图像及其分布的可视化。使用ConvNet图1：（a）在后期训练阶段，大多数示例都没有贡献有意义的梯度，使得通过梯度匹配学习的合成集非常偏向那些大梯度样本，这将其泛化降级为看不见的架构。(b)与基于梯度的方法[53]相比，通过我们的方法学习的合成集有效地捕获了整个分布，从而很好地推广到其他网络架构。因此需要巨大的计算资源。因此，许多研究工作都集中在通过构建小型训练集来减轻繁琐的训练过程[1，14，7，13，42，31，33，44，45，50]。一种经典的方法被称为核心集或子集选择[1，31，12]，其目的是获得显著数据点的子集来表示感兴趣的原始数据集。然而，核心集选择通常是一个NP难问题[19]，使得它在大规模数据集上难以计算。大多数现有的方法，因此，12197排序到贪婪算法与启发式[7，31，2，47，35]通过权衡最优性来加快过程。最近，数据集浓缩[40，53]已经成为一种有前途的替代方案。正如其名称所示，数据集压缩的目标是将一个大型训练集压缩成一个小型合成集，在此基础上训练DNN并期望保持性能。沿着这条线，[40]的开创性方法提出了一种基于元学习的策略;然而，嵌套循环优化阻止了其扩展到大规模的野外数据集。[53]的工作通过强制合成样本的批量梯度接近原始样本的批量梯度来解决这个问题，这绕过了递归计算并取得了令人印象深刻的结果。通过最小化由合成数据集和真实数据集产生的梯度之间的距离来显式地监督合成示例的优化然而，梯度匹配方法有两个潜在的问题。首先，由于深度神经网络的记忆效应[48]，只有少量的硬样本或噪声会在网络参数上产生主导梯度因此，梯度匹配可能忽略那些代表性但容易的样本，而过度拟合那些硬样本或噪声。第二，这些产生大梯度的硬示例可能在不同的架构中有所不同;因此，仅仅依靠梯度将对看不见的体系结构产生差的通用化性能。梯度分布和硬例子如图所示。1a.通过梯度匹配学习的合成数据可能高度偏向于少量的非代表性数据点，如图2所示。1b.为了克服学习偏差，更好地捕捉整个数据集的分布，本文提出了一种新的策略，通过对齐特征来压缩数据集，称为CAFE。与[53]的方法不同，我们通过应用分布级监督来解释合成和真实数据集之间的分布一致性我们的方法通过匹配涉及所有中间层的特征，扩展了对所有样本的关注，从而提供了更全面的分布特征，同时避免了对硬样本或噪声样本的过度拟合。这种分布级的监督反过来又会赋予CAFE比基于梯度的方法更强的泛化能力，因为硬示例可能很容易在不同的架构中变化。具体来说，我们把两个互补的损失到CAFE的目标。第一个涉及捕获数据分布，其中，在真实样本和合成样本的特征之间的逐层对齐被加强，并且进一步保持分布。另一方面，第二个损失涉及歧视。直觉上，来自一个类的学习合成样本应该很好地代表真实样本的相应聚类例。因此，我们可以将每个真实样本视为测试样本，并基于其对合成聚类的亲和力对其进行分类。我们的第二个损失，然后定义上的分类结果的真实样本，这，有效地，注入到合成样本的判别能力。建议的CAFE进一步支持一个新的双层优化方案，它允许我们的网络和合成数据通过自定义的SGD步骤数进行更新。在实践中，这种动态优化策略在很大程度上消除了现有方法的欠拟合和过拟合我们在几个流行的基准上进行实验，并证明CAFE产生的结果明显优于现有技术：在SVHN数据集上，例如，我们的方法优于-当学习1个图像/类合成集时，以11%的优势形成亚军。我们还特别证明了用我们的方法学习的合成集比用[53]学习的合成集具有更好的泛化能力总之，我们的贡献是一种用于压缩数据集的新颖且有效的方法，通过在真实数据和合成数据之间对齐逐层特征，同时将判别能力显式编码到合成聚类中来实现。In addition, a new bi-level op- timization scheme isintroduced, so as to adaptively alter the number of SGDsteps.这些策略共同使所提出的CAFE能够很好地表征原始样本的分布，从而在各种学习设置中具有强大的泛化能力和鲁棒性。2. 相关工作数据集浓缩。已经提出了几种方法来提高数据集压缩的性能、可扩展性和效率。基于[40]中提出的元学习方法，一些作品[4，25，26]试图通过使用具有封闭形式解的岭回归进行训练来简化分类模型的内环优化。[34]训练生成网络以产生合成集。为了提高[53]的数据效率，在[51]中提出了可区分的暹罗增强。它们使合成数据能够有效地训练具有数据增强的神经网络。[6]建议在真实和合成数据上匹配模型训练轨迹，以学习长期行为。最近的一项工作[52]也学习了具有特征分布匹配的合成集。我们的方法在三个主要方面与它不同：1）我们匹配逐层特征，[52]仅使用最终层特征; 2）我们进一步明确地使合成图像作为分类器是有区别的（即，秒3.3）; 3）我们的方法包括动态双层优化，可以通过自适应SGD步骤提高性能，而[52]试图通过放弃双层优化来降低训练成本。12198·TSTSTSk，l××k，lXXSL=|ffk，lS{}|θLL∈∈不·S不Coreset选择压缩训练集大小的经典技术是核心集或子集选择[1，7，15，41]。这些方法中的大多数基于启发式选择标准增量地选择重要数据点。比如说，[31]选择可以接近聚类中心的数据点。[2]试图最大化梯度空间中样本的多样性。[35]在网络训练过程中测量训练样本的遗忘性，并丢弃那些不容易忘记的样本。然而，这些启发式选择标准不能确保所选择的子集对于训练模型是最优的，特别是对于深度神经网络。此外，贪婪样本选择算法无法保证所选择的子集是最优的，以满足标准。我们的工作也与生成模型密切相关，例如自动编码器[18]和生成对抗网络（GAN）[16，24]。不同之处在于，图像生成的目标是合成可以欺骗人类的真实图像，而我们的目标是生成可用于更有效地训练深度神经网络的信息训练样本。如[53]所示，关于训练模型，GAN生成的这些图像的效率接近随机采样的真实图像。相比之下，我们的方法可以合成更好的训练图像，在模型训练方面显着优于那些选择的真实图像。最大化合成图像上的交叉熵损失，这是内环。合成图像和网络交替使用一种新的动态双层优化算法，该算法避免了对合成数据集的过拟合或欠拟合，并自动打破外环和3.2.逐层要素对齐如上所述，以前的作品[53，51]比较了真实数据和合成数据之间的梯度差异这样的目标产生具有大梯度的样本，但这些样本未能捕获原始数据集的分布（如图所示）。（五）。因此，它可能具有较差的性能时，推广到看不见的架构。为了解决这个问题，我们设计了类别特征平均（CWFA），如图所示。2、测量每个卷积层和之间的特征差异具体来说，我们分别从和中采样一批具有相同标签k和批量大小N和M的真实数据k和合成数据k我们使用网络$θ（）嵌入每个真实和合成数据具有L层（输出层除外）并获得逐层特征FkT=[fkT，1;fkT， 2; ： ;fkT ， L]=$θ （ Tk ）和 FkS=[fkS， 1;fkS，2;：;fkS，L]=$θ（Sk）。第l层特征fkT，lRNxC0简化为f<$TR1×C0，其中C0=CHW，它是指对应层的特征尺寸。同样地，我们得到了合成数据批的f ′ S。3. 方法在本节中，我们首先简要概述了拟议然后，应用MSE来计算每层的特征分布匹配损失Lf，其公式为：咖啡馆然后，我们介绍了三个精心设计的mod-KL功能：逐层特征对齐模块，歧视损失，和动态双层优化模块。¯k，lk=1l =1-f′T|第二条;（1）3.1. 概述数据集压缩旨在压缩大规模数据集T={（xi;yi）}|jiT=j1到小（合成）数据集=（sj;yj）jjS=j1同时获得类似的推广性能图2说明了所提出的方法。第一、我们分别从大规模数据集和可学习的合成数据集中抽取两批数据，然后用θ作为参数化的神经网络$θ（）提取特征。为了准确地捕捉特征分布，设计了分层特征对齐模块，其中K是数据集中类别的数量。3.3. 鉴别损失虽然逐层特征对齐可以捕获原始数据集的分布，但它可能会忽略区分性样本挖掘。我们认为，一个信息合成集可以作为一个分类器，对真实样本进行分类。在此基础上，我们计算了最后一层特征空间中的分类损失我们得到综合特征中心f′S∈R1xC0 每一种美食，其中我们最小化逐层特征的差异，使用均方误差的真实图像和合成图像的地图戈里克k，L通过对批次进行平均我们把恐惧-真实中心F<$S=[f<$S ;f′S;：;f'S[真实数据]误差（MSE）。为了能够学习有区别的合成信息，L1，LT T2、LK、L年龄，我们使用每一类合成图像的特征中心，通过计算它们的内积和交叉熵损失来分类真实图像。合成图像是通过最小化上述两个损失来更新，这就是外环。然后，我们通过最小-FL=[f1，L;f2T，L;：;fKT，L]。利用真实数据与非真实数据的内积对真实数据进行合成中心O=DFT;（F<$ S）TE;（2）12199合成图像评估图像CNN用户$n：访如果满足预定义条件，则中断内弯房图像CNNFTKFT[−1]KFS[−1]KFSKCWFA逐层特征对齐模块鉴别损失CE损失∈×SLS合成图像MSE损失CWFA：类别智能特征平均动态双层优化模块一个类别中的N个图像N×C×$×W1×��×C×$×W实C图像W合成CF图像NAN评估图像逐层特征对齐模块0.55 0.55 0.56 0.57 0.60 0.59输出：Acc. 存储器0.25 0.32 0.37 0.40 0.45 0.47. 存储器内积选择如果满足预定义条件：条款：正倒向Break Outlooper图2：所提出的CAFE方法的图示CAFE包括一个逐层特征对齐模块，用于捕获原始大规模数据集的准确分布，一个用于从真实数据集中挖掘区分样本的区分损失，以及一个动态双层优化模块，用于减少欠拟合和过拟合对合成图像的影响其中ORN0xK包含N0=KN真实的数据点分类损失为通过这种方式，合成集可以在许多不同的θ上训练，以便它可以推广到它们。我们从随机噪声和标准网络随机初始化中初始化和θ1n0的Ld=−logp;（3）[17]。以前的工作[53，51]设置了一个固定数量的N0i=1i其中概率pi是对应于其在所有类别pi=softmax（Oi）上的地面真值标签的softmax值。学习合成图像的总损失是Ltotal=Lf+Ld;（4）其中d是d的正标量权重。我们研究的影响，在第二。四点三。通过最小化Ltotal来更新合成集：S ←arg minLtotal（5）3.4. 动态双层优化类似于以前的工作[40，53]，我们还学习了具有双层优化的合成集，其中合成集使用等式更新。5，并且网络参数θ使用θ←arg minJ（S;θ）（6）在内部循环中。J（S;θ）计算合成集合S上的交叉熵分类损失。在这Sθ12200外环和内环优化步骤，这需要太多的时间来调整超参数，并可能导致网络为了解决这些问题，我们设计了一个新的双层优化算法，可以自动打破外循环和内循环图图2示出了所提出的动态双层优化模块。为了监测网络参数θ的变化，我们从真实的训练集中随机抽取一些图像作为查询集来评估网络。然后，队列Q用于存储查询集的性能。我们希望在更多样化的网络参数上学习合成数据。因此，我们采样内环网络优化合成图像时，显着的性能改进，实现查询集。当查询集的性能收敛时，优化将停止。λ1和λ2是动态双层优化的两个超参数。我们进行了烧蚀研究，表明性能对λ1和λ2不敏感。训练算法在Alg.1.一、4. 实验在本节中，我们首先介绍使用的数据集和实现细节。然后，我们比较建议的12201·TS×CC||CS{}--×××C||C表1：与现有技术方法的性能（测试准确度%）比较LDy和DDy使用LeNet用于MNIST，AlexNet用于CIFAR10，而其余的则使用ConvNet进行训练和测试。IPC：每类图像，比率（%）：压缩图像与整个训练集的比率。IPC比率%核心集选择浓缩全数据集随机HerdingK-CenterForgettingDD yLD yDCDSACAFECAFE +DSA1 0.01764.93.5 89.21.6 89.31.5 35.5 5.6 - 60.93.2 91.70.5 88.70.6 93.10.390.8 0.5FashionMNIST十点一七95.1 0.9 93.7 0.3 84.4 1.7 68.1 3.3 79.5 8.1 87.3 0.7 97.4 0.2 97.8 0.1 97.2 0.297.5 0.1500.8397.90.2 94.80.2 97.40.3 88.2 1.2 - 93.30.3 98.80.2 99.20.1 98.60的情况。298.9021 0.01751.43.8 67.01.9 66.91.8 42.0 5.5 - 70.50.6 70.60.6 77.10.973.7 0.7十点一七73.80.7 71.10.7 54.71.5 53.9 2.0--82.30.4 84.60.3 83.00.483.0 0.3500.8382.50.7 71.90.8 68.30.8 55.0 1.1--83.60.4 88.70.2 84.80.488.2 0.3九十九点六分93.5 0.11 0.01414.61.6 20.91.3 21.01.7--31.21.4 27.51.4 42.63.342.93.0十点一四35.14.1 50.53.3 14.01.3 16.8 1.2 - 76.10.6 79.20.5 75.90.677.9 0.650 0.7 70.90.9 72.60.8 20.11.4 27.2 1.5 - 82.30.3 84.40.4 81.30.382.3 0.410.0214.42.0 21.51.2 21.51.3 13.5 1.2 - 25.70.7 28.30.5 28.80.7 30.31.131.6 0.895.4 0.1CIFAR10CIFAR10010 0.2 26.0 1.2 31.6 0.7 14.7 0.9 23.3 1.0 36.8 1.2 38.3 0.4 44.9 0.552.1 0.5 46.3 0.650.9 0.550 1 43.41.0 40.40.6 27.01.4 23.3 1.1 - 42.50.4 53.90.5 60.60.5 55.50.662.3 0.41 0.2 4.20.38.40.38.30.3 4.5 0.3 - 11.50.4 12.80.3 13.90.3 12.90.314.0 0.310 2 14.60.5 17.30.3 7.10.2 9.8 0.2--25.20.3 32.30.3 27.80.331.5 0.250 10 30.00.4 33.70.530.50.3-42.80.4 37.90.342.90.284.8 0.156.17 0.3算法1动态双层优化是真实的合成数据集。随机抽样函数是从K个类别中选择N个图像的随机抽样函数。Q out和Q in分别是用于在外循环和内循环中保存真实数据集上的性能的队列。div（）是一个函数，用于计算Qout和Qin的最大值和最小值之间的差。是队列的最大长度。DC的默认循环编号为lout和li n。 lc·表示CAFE的循环数。1：不收敛时第二章：随机初始化θ，Q_out= []; Q_in= []; I_out = I_in=0。组件和超参数的影响最后给出了合成图像和特征分布的可视化结果，显示了CAFE的优越性。4.1. 数据集实现详细信息MNIST [22]. MNIST是一个手写数字数据集，通常用于验证图像识别模型。它包含60，000个训练图像和10，000个测试图像，大小为28 28。[43]第四十三话 FashionMNIST是Za的数据集-由60，000个训练集组成的3：whileTruedoC c一个例子和一个10,000个例子的测试集。每个示例4：使用Eq. 5;lout+= 1。外环5：acc. = get acc（g（K; N））; Qout.append（acc.）。6：如果Q输出==and div（Qout）<λ1orlout然后7：l_out= 0，Q_out=[]。第八章：休息9：其他10：Qout.pop[0].11：如果结束12：whileTruedo13：使用等式14更新θ。六、内环14：acc. = get acc（g（K; N））;Qin.append（acc.）> lout是28 × 28灰度图像，与来自10个类别的标签相关联。SVHN [32]. SVHN是用于开发机器学习和对象识别算法的真实世界图像数据集。它由来自真实世界数据的60多万张数字图像组成。图像被裁剪为32 32。CIFAR 10/100 [20]. 这两个CIFAR数据集包括微小的彩色自然图像的大小为32 - 32从10和100类，分别。在每个数据集中，50，000张图像用于训练，10，000张图像用于测试。15：如果Q_in==λ且 div（Q_in）> λ2或l_in> l_in，则16：1in= 0，Qin=[]。第17章：分手18：其他19：Qin.pop[0].20：如果结束21：结束while22：结束时二十三： end while最先进的方法。在此之后，我们进行了充分的消融研究，以分析实施详情。我们分别给出了外环和内环的实验细节在外循环中，我们使用与 [53] 相同的三层卷积网络（ConvNet）为所有五个数据集优化1/10/50图像每类（ IPC ）合成集。 ConvNet 包括三个重复的 “Conv-InstNorm-ReLU-AvgPool”块。每个卷积层的通道数为128。合成图像的初始学习率为0.1，在1，200、1，400和1，800次迭代中除以2。我们在2,000次迭代中停止训练对于内环，我们在合成集上训练了300个epoch的ConvNet，并在20个随机初始化的网络上评估了性能。的SVHN12202∼表2：CAFEDL LFA Dynamic Bi-level Opt.性能X49.78X53.96X X54.53X X50.92X X54.98X X X 55.50网络的初始学习速率为0.01。在[53]之后，我们进行了5次实验，并报告了平均值和标准值。表3：逐层特征对准的重要性的评估。层1最靠近输出层，而层4最靠近输入层。请注意，layer4表示ConvNet中的最后一个平均池化层。第一层第二层第三层。第4层性能/+DLX50.74/52.78X43.45/49.30X44.52/49.08X51.30/52.05表4：逐层特征比对的互补性的评价。层的索引与Tab相同。3 .第三章。100个网络上的偏差。默认N为256，λ1为0.05λ2为0.05。我们评估了λ1和λ2在Sec.四点三。4.2. 与最新方法的我们将我们的方法与四种核心集选择方法进行了比较，即随机[7，30]，羊群[5，3]，K中心[11，31]和遗忘[35]。我们还与最近最先进的凝聚方法进行了比较，即数据集蒸馏（DD）[40]，LD [4]，数据集凝聚（DC）[53]和DSA（为DC添加可微暹罗增强）[51]。虽然[25，26]实现了最先进的性能，但由于架构和训练成本的显着差异，我们没有与它们进行比较。我们在表中报告了我们的方法和竞争对手在五个数据集上的性能。1.一、当每个类学习1个图像时，我们的方法在所有5个数据集上都取得了最佳结果。特别是SVHN和FashionMNIST的改进分别比其他方法提高了11%和6.5%。基于凝聚的方法优于具有大裕度的核心集选择方法。在核心集选择方法中，羊群效应和K-中心效应明显优于随机效应和遗忘效应。当学习10和50个图像/类时，我们的方法在大多数数据集上的性能超过DC0.7%-2.6%。与DSA相比，我们的CAFE+DSA在CIFAR10/100上的大多数数据集上都取得了与DSA相当的结果。对于CIFAR 10上的50个图像/类学习，我们的CAFE+DSA比DSA高1.7%。4.3. 消融研究在本小节中，我们使用CIFAR10（IPC = 50）研究消融，以调查每个模块的有效性和超参数的影响。评价CAFE的三个组成部分。为了研究各个组成部分在算法中的作用，我们在CIFAR10上设计了区分度损失（DL）、逐层特征对齐（LFA）和动态双层优化的消融研究。如Tab.所示。2、DL、LFA和动态双电平可选与每一个都是互补的第一层第二层第三层。第4层性能/+DLX50.74/52.7851.27/53.28X X X53.16/53.96X X X X54.98/55.50其他. CAFE在单独使用DL时表现不佳（49.78%），因为DL更注重对真实样本的分类，但忽略了与真实图像的分布一致性。单独使用LFA的结果优于DL 4.18%，这意味着考虑分布一致性对于数据集浓缩更重要。然而，独立地使用LFA意味着真实数据集中所有图像的重要性是相等的，这可能会忽略来自判别样本（即决策边界附近的样本在CIFAR10测试集上，联合使用DL和添加动态双层选项。进一步提高了DL和LFA的性能，表明自动跳出/跳出内循环可以有效地减少过拟合/欠拟合。将这三种成分结合起来使用，可以达到最佳效果。为了更直观地理解DL和LFA的效果，我们还在第二节中可视化了单独使用DL或LFA的合成图像特征分布。4.4探索每层中逐层特征对齐的重要性。为了研究特征对齐的重要性，我们将特征对齐操作单独应用于每个层。如Tab.所示。3.不同层位的性能差异显著。在层1或层4中应用特征对齐操作比在层2或层3中应用特征对齐操作获得更好的结果，因为层2或层3中的监督远离输入和输出层。在每一层单独应用特征对齐不能获得令人满意的结果。为了证明DL在每层中的有效性，我们还显示了添加DL损耗的结果。DL的加入可以一致地改善所有层的性能。1220212203(a) 原始CIFAR10图像。（b）CAFE的合成图像。（c）DC的合成图像。图4：原始图像的可视化，以及由CAFE和DC生成的合成图像。CAFE和DC都是从随机噪声中初始化的。5. 结论DC DLLFA咖啡厅在这项工作中，我们提出了一个新的方案，图5：DC [53]，DL，LFA和CAFE学习的CIFAR10中一个类别的真实图像和合成图像合成图像。为了进行公平的比较，合成集由相同的随机噪声（IPC = 50）初始化。在此基础上，我们在CIFAR10数据集上应用DC和CAFE优化合成集。最后，CIFAR10的部分（每类仅显示10张图像）优化合成图像和原始图像如图所示。4.第一章有几点意见可归纳如下：1）。很容易发现，由我们的方法生成的合成图像在视觉上比DC更类似于原始CIFAR10图像2）。合成图像比DC具有更多的语义信息，这说明了LFA和DL模块的有效性（3）第三章。DC产生的图像中有一定比例的图像不是很清晰，不能为分类提供足够的数据分发。为了评估使用我们的方法的合成图像是否可以从原始数据集捕获更准确的分布，我们使用t-SNE来可视化DC，DL，LFA和CAFE生成的真实集和合成集的特征。如图5、“点”和“星”代表真实和合成的特征。DC的合成图像集中在一个小的区域内，这表明DC不能很好地捕捉原始分布。我们的方法DL，LFA和CAFE有效地捕获了整个真实数据集的有用信息，在不同的CNN架构中具有良好的泛化能力。数据集的对齐特征（CAFE），这明确地试图保持真实特征分布以及所得到的合成数据的判别能力，使其自身具有强大的泛化能力，以看不见的架构。CAFE由三个精心设计的模块组成，即逐层特征对齐模块、区分损失模块和动态双层优化模块。特征对齐模块和区分损失涉及捕获合成集和真实集之间的分布一致性，而双层优化使CAFE能够学习定制的SGD步骤以避免过度/欠拟合。在各种数据集上的实验结果表明，CAFE始终优于最先进的技术，具有更少的计算成本，使其易于适用于野外场景。作为未来的工作，我们计划探索在更具挑战性的数据集（如ImageNet [9]）上使用数据集凝聚。确认本研究由新加坡国家研究基金会根据其AI新加坡计划（AISG奖号：AISG 2-PhD-2021-08- 008）、NUS ARTIC项目（ ECT-RP 2 ）、国家留学基金委201806010331 和 EPSRC 项目资助 VisualAIEP/T028572/1。我们感谢Google TFRC支持我们访问云TPU。我们感谢CSCS（瑞士国家超级计算中心）支持我们访问Piz Daint超级计算机。我们感谢TACC（德克萨斯州高级计算中心）支持我们访问Longhorn超级计算机和Frontera超级计算机。我们感谢LuxProvide（卢森堡国家超级计算机 HPC 组织）支持我们访问MeluXina超级计算机。12204引用[1] Pankaj K Agarwal，Sariel Har-Peled，and Kasturi RVaradarajan.点的近似范围度量。ACM杂志，2004年。[2] Rahaf Aljundi，Min Lin，Baptiste Goujaud，and YoshuaBen- gio.基于梯度的在线持续学习样本选择。NeurIPS，2019。[3] Eden Belouadah和Adrian PopescuScail：用于类增量学习的分类器权重缩放。在WACV，2020年。[4] Ondrej Bohdal，Yongxin Yang，and Timothy Hospedales.灵活的数据集提取：学习标签而不是图像。NeurIPS研讨会，2020年。[5] 弗朗西斯科·M·卡斯特罗，马努埃尔·J·马林·吉姆·埃内兹，尼科·拉·吉尔，科迪莉亚·施密德和卡尔蒂克·阿拉哈里。端到端的增量学习。在ECCV，2018。[6] George Cazenavette，Tongzhou Wang，AntonioTorralba，Alexei A Efros，and Jun-Yan Zhu.通过匹配训练轨迹进行数据集提取。CVPR，2022年。[7] Yutian Chen，Max Welling，and Alex Smola.来自内核放牧的超级样本。UAI，2010年。[8] Dima Damen，Hazel Doughty，Giovanni Farinella，SanjaFi- dler，Antonino Furnari，Evangelos Kazakos，DavideMolti- santi，Jonathan Munro，Toby Perrett，WillPrice，et al. epic-kitchens数据集：收集、挑战和基线。IEEE TPAMI，2020。[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。[10]M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn和A.齐瑟曼。PASCAL Visual Object ClassesChallenge 2012（VOC2012）http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊[11] Reza Zanjirani Farahani和Masoud Hekmatfar。设施位置：概念、模型、算法和案例研究。 Springer ScienceBusiness Media，2009.[12] 丹·费尔德曼。核心套件介绍：更新的调查。arXiv预印本arXiv：2011.09384，2020。[13] 丹·费尔德曼，马修·福克纳，还有安德烈亚斯·克劳斯。通过核心集的混合模型的可扩展训练。NeurIPS，2011。[14] Dan Feldman，Morteza Monemizadeh和Christian Sohler。一种基于弱核心集的k均值聚类算法。InSoCG，2007.[15] 丹·费尔德曼，梅勒妮·施密特，克里斯蒂安·索勒。将大数据转化为小数据：k-均值、主元分析和投影聚类的常数核集。在SODA，2013年。[16] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS，2014。[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在ICCV，2015年。[18] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。12205[19] JeremyKnoblauch，Hisham Husain，and Tom Diethe.最优持续学习具有良好的记忆性，是NP难的。在ICML，2020。[20] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。技术报告，2009年。[21]AlinaKuznetsova，Hassan Rom，Neil Alldrin，Jasper Ui-jlings，Ivan Krasin，Jordi Pont-Tuset，Shahab Kamali，StefanPopov，Matteo Mallocis，Alexander Kolesnikov，TomDuerig，and Vittorio Ferrari.开放图像数据集v4：统一的图像分类，对象检测，和视觉关系检测的规模。IJCV，2020年。[22] YannLeCun，Le'onBottou，YoshuaBengio，PatrickHaf fner等人。基于梯度的学习应用于文档识别。IEEE会议录，1998。[23] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV[24] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。[25] Timothy Nguyen，Zhourong Chen，and Jaehoon Lee.基于核岭回归的数据集元学习。ICLR，2021年。[26]TimothyNguyen，Roman Novak，Lechao Xiao和Jaehoon李你使用无限宽卷积的网络.在神经信息处理系统的进展，2021年。[27] Xiaojiang Peng，Kai Wang，Zhaoyang Zeng，Qing Li，Jianfei Yang，and Yu Qiao.通过分组和自我注意抑制错误标记的数据。欧洲计算机视觉会议，第786-802页Springer，2020年。[28] 彭翔宇，王凯，朱正，杨游。为连体表示学习制作更好的对比视图arXiv预印本arXiv：2202.03278，2022。[29] Esteban Real，Jonathon Shlens，Stefano Mazzocchi，XinPan，and Vincent Vanhoucke. YouTube绑定框：用于视频中对象检测的大型高精度人类注释数据集。在CVPR，2017年。[30] Sylvestre-Alvise Rebuffi，Alexander Kolesnikov，GeorgSperl，and Christoph H Lampert.icarl：增量分类器和表示学习。在CVPR，2017年。[31] Ozan Sener和Silvio Savarese卷积神经网络的主动学习：核心集方法。ICLR，2018年。[32] Pierre Sermanet，Soumith Chintala，and Yann LeCun.卷积神经网络在门牌号码数字分类中的应用。国际公民权利委员会，2012年。[33] Samarth Sinha、Han Zhang、Anirudh Goyal、YoshuaBengio、Hugo Larochelle和Augustus Odena。小帮派：使用核心集加速帮派训练。在ICML，2020。[34] 费利佩·佩特罗斯基·萨奇、阿迪蒂亚·拉瓦尔、乔尔·雷曼、肯尼思·奥·斯坦利和杰夫·克鲁恩。生成性教学网络：通过学习生成合成训练数据来加速神经架构搜索。ICML，2020年。[35] Mariya Toneva，Alessandro Sordoni，Remi Tachet desCombes，Adam Trischler，Yoonne Bengio，andGeoffrey J Gordon.深度神经网络学习过程中样例遗忘的实证研究。ICLR，2019。12206[36] Kai Wang，Xiaojiang Peng，Jianfei Yang，Shijian Lu，and Yu Qiao.抑制大规模面部表情识别的不确定性在IEEE/CVF计算机视觉和模式识别会议集，第6897-6906页[37] Kai Wang，Xiaojiang Peng，Jianfei Yang，Debin Meng，and Yu Qiao.用于姿态和遮挡鲁棒面部表情识别的区域注意力网络。IEEE Transactions on Image Processing，29：4057[38] 王凯、王硕、杨

下载后可阅读完整内容，剩余1页未读，立即下载