没有合适的资源?快使用搜索试试~ 我知道了~
用分布匹配合成浓缩图像的方法降低深度模型训练成本
6514利用分布匹配的Bo Zhao,Hakan Bilen爱丁堡大学信息学院{bo.zhao,hbilen}@ ed.ac.uk摘要由于更复杂的模型和更大的数据集,在许多学习问题中训练最先进的深度模型的计算成本正在迅速增加最近降低训练成本的一个有前途的方向是数据集浓缩,其目的是用一个明显较小的学习合成集来取代原始的大训练集,同时保留原始信息。虽然在小集合的浓缩图像上训练深度模型可以非常快,但是由于复杂的双层优化和二阶导数计算,它们的合成仍然在计算上 在这项工作中,我们建议一种简单而有效的方法,通过在许多采样嵌入空间中匹配合成图像和原始训练图像的特征分布来合成浓缩图像。我们的方法显著降低了合成成本,同时实现了相当或更好的性能。由于其效率,我们将我们的方法应用于具有复杂神经架构的更现实和更大的数据集,并获得显着的性能提升1。我们还显示出我们的方法在持续学习和神经架构搜索方面的有前途的实际效益。1. 介绍在包括计算机视觉和自然语言处理在内的各个领域中,训练单个最先进模型的计算成本在深度学习时代每3.4个月翻一番,这是由于更大的模型和数据集。这一速度明显快于摩尔定律,即硬件性能大约每隔一年翻一番[3]。虽然训练单个模型可能是昂贵的,但设计新的深度学习模型或将其应用于新任务肯定需要更多的计算,因为它们涉及在同一数据集上多次训练多个模型以验证设计选择,例如损失函数,架构和超参数[5,14]。例如,Ying et al. [48]第48话,你的心在哪里?1该实施可在https://github.com/VICO-UoE/DatasetCondensation上获得。在CIFAR10数据集[23]上进行详尽的神经架构搜索,而训练性能最好的架构只需要几十分钟的TPU。因此,存在对能够以最小的性能下降来降低在相同数据集上训练多个模型的计算成本的为此,本文着重于通过减少训练集的大小来降低训练成本。减少训练集大小的传统解决方案是核心集选择。通常,核心集选择方法基于启发式标准选择对训练重要的样本,例如,最小化核心集和整个数据集中心之间的距离[12,35,10,4],最大化所选样本的多样性[1],发现聚类中心[15,37],计算错误分类频率[41]并选择具有最大负隐式梯度的样本虽然核心集选择方法可以是非常有效的计算,他们有两个主要的限制。首先,大多数方法是渐进式和贪婪地选择样本,这是短视的。其次,它们的效率是由原始数据集中所选样本中的信息的上限。解决信息瓶颈的有效方法是综合信息样本,而不是从给定样本中进行选择。最近的一种方法,数据集冷凝(或蒸馏)[45,50]旨在学习一个小的合成训练集,以便在其上训练的模型可以获得与在原始训练集上训练的模型相当的测试精度。Wang等人。 [45]通过将网络参数公式化为合成数据的函数并通过网络参数学习它们来最小化原始数据的训练损失,从而在学习到学习框架这种方法的一个重要缺点是昂贵的优化过程,涉及更新网络权重为每个外部迭代的多个步骤和展开其递归计算图。 Zhao等人[50]第50话我是你的女人网络权重给出真实的和合成的训练图像,其成功地避免了计算图的昂贵展开。另一个效率改进是通过将分类任务设置为6515TSTSS{}|S|ΣΣ×··真实数据合成数据对于大规模设置,很少有训练成本/性能折衷与以前的作品[45,31]相比,这些作品仅限于在小数据集上学习小的合成集,我们的方法可以成功地应用于更现实的设置,即。为CIFAR10 [23]合成每类1250个图像,以及更大的数据集,TinyImageNet [25]和ImageNet-1 K[13]。我们还验证了这些好处,在两个下游任务,通过生产更多的数据效率的内存,图1.数据集浓缩与分布匹配。我们随机采样真实和合成数据,然后将它们嵌入随机采样的深度神经网络。我们通过最小化这些采样嵌入空间中真实数据和合成数据之间的分布差异来学习合成数据岭回归问题,以简化内环模型优化[6,31]。尽管最近取得了进展,但数据集浓缩仍然需要解决昂贵的双层优化,这由于昂贵的图像合成过程而危及其减少训练时间的目标。例如,最先进的[49]需要15小时的GPU时间来学习CIFAR10上的500个合成图像,这相当于在同一数据集上训练6个深度网络的成本。此外,这些方法还需要调整多个超参数,例如。在每次迭代中分别更新合成集和网络参数的步骤,对于不同的设置,例如合成集的大小,这些步骤可以是不同的。在本文中,我们提出了一种新的训练集合成技术,结合了以前的核心集和数据集压缩方法的优点,同时避免了它们的局限性。与前者不同,与后者一样,我们的方法是连续学习和生成更有代表性的代理数据集,以加速神经结构搜索。2. 方法2.1. 数据集压缩问题数 据 集 压 缩 的 目 标 是 压 缩 大 规 模 训 练 集T={(x1,y1),. . .,(x|不|,y|不|)}与|不|图像和标签对合并到一个小的合成集合中=(s1,y1),. . .,(s)|S|,y| S|)合成图像和标签对,以便模型在每个上训练,并在看不见的测试数据上获得可比较的性能:Ex<$PD[<$(<$θT(x),y)]<$Ex<$PD[<$(<$θS(x),y)],(1)其中PD是真实数据分布,λ是损失函数(即,交叉熵损失),则是一个以θ为参数的深度神经网络,而θT和θS分别是在和上训练的网络。现有解决方案。以前的作品[45,40,39,6,31,32]将数据集浓缩公式化为学习到学习问题,将网络参数θS作为合成数据S的函数,并通过最小化训练损失LT 原始数据T:S= arg min LT(θS( S))不限于来自原始数据集的单个样本,并且可以合成训练图像。与前者不同的是,我们的方法可以非常有效地产生一个合成,S受 θS(S)= arg min LS(θ)。(二)并避免昂贵的双层优化。特别地,我们将此任务视为分布匹配问题,以便通过使用最大平均差异(MMD)[18]方法优化合成数据以匹配嵌入空间族中的最近,[50,49]的作者表明,类似的目标可以通过分别在合成和真实训练数据上匹配损失的梯度来实现。网络参数θ,同时以交替方式优化θ和合成数据S确保(见图1)。数据分布之间的距离通常用作核心选择的标准[12,15,46,37],然而,它还没有被用于合成。= arg minEθ0<$Pθ0ST−1t=0D(θLS(θt),θLT(θt))之前的训练数据。我们证明了嵌入空间族可以通过对随机初始化的深度神经网络进行采样来有效地获得因此,我们的方法明显更快(例如,当合成500个图像时,CIFAR10中的学习率(45)比现有技术[49]高,并且只涉及调整一个超参数(合成图像的学习率),同时获得相当或更好的结果。此外,我们的方法的训练可以独立运行的每个类的并行和其计算负荷可以分配。最后,我们的方法提供了一个dif-在θt+1<$opt-algθ(LS(θt),θ,ηθ)条件下,(三)其中Pθ0是参数初始化的分布,T是用于更新合成数据的外环迭代,ηθ是用于更新网络参数的内环迭代,是参数学习率,D(,)度量梯度匹配误差。请注意,所有训练算法[45,50,49]都有另一个双水平优化的采样θ0. . .嵌入空间θS6516|不||S|SSSSSSSLLH|不||S|∼∼ϑA·ϑ困境学习中的问题。(2)和等式(3)涉及解决昂贵的双层优化:第一个操作-通过数据增强训练深度神经网络。最后,我们解决了以下优化问题:在方程中优化模型θS(2)或θt在等式中。(3)在内部-ner循环,然后优化合成数据S以及最小E∥1Σψ(A(x,ω))−1(A(s,ω))<$2。在外环处的附加二阶导数计算。例如,训练50个图像/类合成集合SCUPSω-α-β-γ-γ|T|吉吉i=1|S|ϑj=1J(六)使用[50]中的方法需要500 K的up-epoch。约会网络参数θt上,除了50K更新。此外,Zhao等人。[50]需要调整外循环和内循环优化的超参数(即,对于不同的学习设置,需要更新多少步和θt),这需要交叉验证它们,因此增加了训练合成图像的成本。2.2.利用分布匹配的数据集压缩我们的目标是合成数据,可以准确地近似分布的真实训练数据在类似的精神coreset技术(例如,[47,37])。然而,为此,我们不限制我们的方法选择训练样本的子集,而是像[45,50]中那样合成它们。由于训练图像通常是非常高维度的,因此估计真实数据分布PD可能是昂贵且不准确的。相反,我们假设每个训练图像x∈ φd可以嵌入到一个低维空间中我们通过对不同嵌入空间中的两个分布进行采样,最小化两个分布之间的差异来学习合成数据。重要的是EQ。(6)可以被有效地求解,因为它只需要优化而不需要模型参数,从而避免了昂贵的双层优化。这与现有的制剂(参见eq. (2)和等式(3))涉及对网络参数θ和合成数据的双层优化。请注意,当我们针对图像分类问题时,我们仅最小化同一类的真实样本和合成样本之间的差异我们假设每个真实的训练样本都被标记,我们还为每个合成样本设置一个标签,并在训练过程中保持固定。2.3. 训练算法我们描述了基于小批量的训练算法在Al-出租m 1。我们训练K次迭代的合成数据。在每次迭代中,我们随机对模型进行采样,拉米特尔·拉米特尔P. 然后,我们选取一对实数和对称的样本,利用参数函数族:d→d′TSϑ其中d′d和d ′是参数。换句话说,每个合成数据批(BcT和BcS)和每个类c的增广参数ωc。平均差异-嵌入函数可以被看作是提供了一个部分的信息,解释其输入,而它们的组合提供了一个完整的。现 在 , 我 们 可 以 使 用 常 用 的 最 大 平 均 差 异(MMD)[18]来估计真实和合成数据分布之间的距离:增强的真实批次和合成批次之间的差异每个人都有自己的一套,然后按自己的喜好去做。通过随机梯度下降和学习率η最小化来更新合成数据。2.4. 讨论随机初始化网络嵌入式家庭sup产品名称:(E[(T)]−E[(S)]),(4)可以以不同的方式设计Ding函数。在这里,我们使用一个具有不同随机初始值的深度神经网络其中是再生核希尔伯特空间。由于我们无法访问地面实况数据分布,我们使用MMD的经验估计:它可以从一组预先训练的网络中采样其参数,而不是从一组预先训练的网络中采样其参数,这在计算上更昂贵。我们的实验验证,我们的随机初始化策略产生更好的或可比的结果E1(x)-1(s)2002年,(5)使用预训练的网络的更昂贵的策略第3.4节工作。然而,人们可能仍然会质疑为什么ϑ∼Pϑ|T|吉吉i=1|S|ϑJj=1随机初始化的网络为分布匹配提供了有意义的嵌入。这里我们列出两个原因其中P是网络参数的分布在[49]之后,我们还将可微暹罗增强(,ω)应用于真实和合成数据,在训练中对真实和合成小批量实施相同的随机采样增强,其中ωΩ是诸如旋转度的增强参数。因此,学习的合成数据可以受益于语义保持变换(例如,裁剪)并学习关于样本的空间配置的先验知识6517基于以前工作的观察。首先,据报道,随机初始化的网络可以为多个计算机视觉任务产生强大的表示[36,9,2]。其次,这种随机网络被证明可以执行数据的距离保持嵌入,即。同一类样本之间的距离较小此外,许多弱嵌入的组合提供了对输入的完整解释。6518一S不×c=0×|BcT|(x,y)∈BcTϑωc|BcS|(s,y)∈BcSϑ算法一:基于分布匹配的数据集压缩输入:训练集1 要求:C类的随机初始化合成样本集,用λ参数化的深度神经网络λ,参数Pλ上的概率分布,用ω参数化的可微增强ω,增强参数分布λ,训练迭代次数K,学习率η。2,对于k= 0,···,K−1,3个样本每个类c的4个样本小批量对BcTT和BcSS和ωcS5计算L =C−11(A(x))−1(A(s)6更新S ← S −ηSL输出:S连接到梯度匹配。当我们匹配真实和合成图像批次的平均特征时,Zhao等人。 [50]匹配两个批次的网络权重的平均梯度。我们发现,给定一批来自同一类的数据,平均梯度向量w.r.t.网络的最后一层中的每个输出神经元等效于特征的加权平均,其中权重是由网络预测的分类概率的函数,并且与预测和地面实况之间的距离成换句话说,虽然我们的方法对每个特征的权重相等,但Zhao等人 [50]为预测不准确的样本分配了更大的权重。请注意,这些权重因不同的网络和训练迭代而动态变化。我们在补充质询中提供了推导。生成模型。经典的图像合成技术,包括自动编码器[22]和生成广告网络(GAN)[17],旨在合成真实的图像,而我们的目标是生成数据有效的训练样本。将图像规则化以看起来真实可能限制数据效率。以前的工作[50]表明,cGAN [29]合成的图像并不比随机选择的真实图像更好我们进一步提供了与最先进的VAE和GAN模型以及GMMN方法[28]的比较。虽然生成模型可以被训练来产生具有合适目标的数据有效样本,例如,[45,50]和我们的,这不是微不足道的工作,以建立它,并实现国家的最先进的结果[39]。我们把它作为未来的工作。3. 实验3.1. 实验设置数据集。我们评估了在我们的方法生成的合成图像上训练的深度网络我们在五个数据集上进行了实验,包括 MNIST [26] , CIFAR 10 , CIFAR 100 [23] ,TinyImageNet [25]和ImageNet-1 K [13]。 MNIST con-对10类60K28×28灰度训练图像进行训练CIFAR 10和CIFAR 100包含50 k32×32训练IM-年龄分别来自10和100个对象类别。Tiny- ImageNet和ImageNet-1 K分别有来自200个类别的100 K训练图像和 来 自 1 K 类 别 的 130 万 训 练 图 像 我 们 调 整 这 些ImageNet图像的大小64 64分辨率。这两个数据集比MNIST和CIFAR 10/100具有更大的挑战性,因为它们具有更多样化的类别和更高的图像分辨率。实验设置。我们首先通过使用[50]中相同的ConvNet架构来学习所有数据集的每类合成集的1/10/50图像。然后,我们使用学习的合成集从头开始训练随机初始化的ConvNets,并在真实的测试数据上对其进行评估默认的Con-vNet包括三个重复的卷积块,每个块涉及128内核卷积层,实例归一化层[42],ReLU激活函数[30]和 平 均 池 化 。 请 注 意 , 四 块 ConvNets 用 于 调 整TinyImageNet和ImageNet-1 K图像的较大输入大小(6464)在每个实验中,我们学习一个合成集,并用它来测试20个随机初始化的网络。我们重复每个实验5次,并报告100个训练网络的平均测试准确度我们还在3.3节中进行了跨架构实验。在这里,我们学习一个网络架构上的合成集,并使用它们来训练具有不同架构的网络。超参数。与标准神经网络训练一样,数据集压缩也涉及调整一组超参数。我们的方法只需要调整一个超参数,即。用于学习不同大小的合成集的合成图像的学习速率,而示例方法[45,50,31,44,11]必须调整更多的超参数,例如分别更新合成图像和网络参数的步骤我们使用固定的学习率1来优化所有数据集上所有1/10/50图像/类学习的合成图像。当学习更大的合成集时,例如每个类100/200/500/1,000张图像,我们使用更大的学习率(即,10)由于相对较小的分布匹配损耗。我们在MNIST、CIFAR 10/100上训练了20,000次迭代的合成图像,在TinyImageNet和ImageNet-1 K上训练了10,000次迭代。ωc6519分别为。用于对实际数据进行采样的小批量大小为256.我们使用随机采样的真实图像与相应的标签初始化的合成图像。一个类的所有合成图像用于计算类均值。我们使用与[49]相同的增强策略。3.2. 与最新技术水平的竞争对手我们将我们的方法与三种标准的核心集选择方法进行了比较,即随机选择,羊群[12,35,10,4]和遗忘[41]。羊群效应方法将样本添加到核心集合中,以便平均向量接近整个数据集的平均值。Toneva等人 [41]计算了在网络训练过程中学习然后忘记训练样本的次数。可以丢弃较不健忘的样本。我们还比较了四种最先进的训练集合成方法,即DD [45],LD[6],DC [50]和DSA [49]。请注意,我们知道并发工作[27,21,11]在很大程度上改进了现有的基于双层优化的与他们不同的是,我们贡献了第一个解决方案,既没有双层优化,也没有二阶导数,并提供了一个不同的训练成本/性能权衡。与它们相比,我们的方法显着更简单,更快。因此,它能够扩展到大的设置,即。对于CI-FAR 10和大型数据集,每类学习1250个图像,ImageNet-1 K,而这些并发作品不能。与其他方法[39,31,32]、MMD基线[18]和生成基线(包括DC-VAE [33]、BigGAN)进行更详细的比较和[8][28]在《古兰经》中,有这样的说法性 能 比 较 。 在 这 里 , 我 们 在 MNIST 、 CIFAR10 和CIFAR100数据集上评估了我们的方法,并在表1中报告了结果。在核心选择方法中,羊群效应在大多数情况下表现最好特别是当学习小的合成集时,Herding方法表现得更好。例如,Herding在CIFAR 100上学习1个图像/类合成集时达到8.4%的测试准确率,而Random和Forgetting分别仅获得4.2%和4.5%的测试准确率。训练集合成方法具有明显的优越性优于核心集选择方法,因为合成的训练数据不限于一组真实图像。DSA或我们的方法获得最好的结果。虽然DSA用少量的合成样本(每类1/10张图像)产生更高的数据效率的样本,但我们的方法在CIFAR 10和CIFAR 100中在50张图像/类设置下优于DSA。可能的原因是,DSA中具有有限步数的内环模型优化更有效地将网络参数拟合到较小的合成数据上(参见等式10)。(三))。在学习到的合成数据较大的情况下,内环中获得的解变得不太准确,因为它只能使用有限数量的步骤来保持算法的可扩展性。相比之下,我们的方法对于0123 45678.9飞机车鸟猫鹿狗青蛙马运输车图2. MNIST和CIFAR10数据集的每类合成集生成的10个图像的可视化增加合成数据大小,可以比DSA更快地有效优化。TinyImageNet和ImageNet-1 K。由于更高的图像分辨率和更多样化的类别,现有的基于双层优化的方法不能扩展到TinyImageNet和ImageNet-1 K。我们的方法使用一个Tesla V100 GPU需要27小时将TinyImageNet压缩成三个压缩集(1/10/50图像/类合成集),使用十个GTX 1080 GPU需要28小时将ImageNet-1 K压缩成这三个集。如表1所示,我们的方法在学习Tiny-ImageNet的1,10和50个图像/类合成集时达到3.9%,12.9%和24.1%的测试准确率,并恢复了在整个原始训练上训练的基线的60%分类性能。 只有10%的数据。我们的方法显着优于最好的核心集选择方法-羊群,获得2.8%,6.3%和16.7%的测试精度。在ImageNet-1 K数据集上,我们的方法在学习1,10和50个图像/类合成集时分别达到1.3%,5.7%和11.4%的测试准确率,大大优于随机选择(0.52%,1.94%和7.54%)。可视化。MNIST和CIFAR10的学习合成图像在图2中可视化。我们发现,合成MNIST图像是清晰和无噪声,而由以前的方法合成的数字图像包含明显的噪声和一些不自然的笔画。CIFAR10数据集的合成图像在视觉上也是可识别的和多样的。很容易区分背景和前景物体。图3描绘了DC、DSA和我们的方法(DM)学习的(50个图像/类)合成集的特征分布。我们使用在整个训练集上训练的网络来提取特征并使用T-SNE [43]可视化特征。我们发现,DC和DSA学习的合成图像与此相反,我们的合成图像成功地覆盖了真实的图像分布。此外,我们的方法产生较少的离群值合成样本。学习Batch Normalization。Zhao等人。 [50]表明实例规范化[42]比6520± ± ±±± ± ±±± ±±± ± ±±±±Img/Cls比值%核心集选择随机羊群遗忘训练集合成DD<$LD<$DCDSA整个数据集MNIST110500.0170.170.8364.9±3.595.1±0.997.9±0.289.2±1.693.7±0.394.8±0.235.5±5.668.1±3.388.2±1.279.5±-8.160.9±3.287.3±0.793.3±0.391.7± 0.597.4±0.298.8±0.288.7±0.697.8± 0.199.2± 0.189.7±0.697.5±0.198.6±0.199.6±0.0CIFAR10110500.020.2114.4±2.026.0±1.243.4±1.021.5±1.231.6±0.740.4±0.613.5±1.223.3±1.023.3±1.1-36.8±-1.225.7±0.738.3±0.442.5±0.428.3± 0.544.9±0.553.9±0.528.8± 0.752.1± 0.560.6±0.526.0±0.848.9±0.663.0± 0.484.8±0.1CIFAR100110500.22104.2±0.314.6±0.530.0±0.48.4±0.317.3±0.333.7±0.54.5±0.215.1±0.330.5±0.3---11.5±-0.4-12.8±0.325. 2±-0.313.9± 0.332.3± 0.342.8±0.411.4±0.329.7±0.343.6± 0.456.2±0.3TinyImageNet110500.22101.4±0.15.0±0.215.0±0.42.8±0.26.3±0.216.7±0.31.6±0.15.1±0.215.0±0.3------------3.9± 0.212.9± 0.424.1± 0.337.6±0.4表1.与核集选择和训练集合成方法进行了比较。我们首先学习合成数据,然后通过从头开始训练神经网络并在真实测试数据上进行测试来报告测试准确度(%)。Img/Cls:每个类别的图像比率(%):浓缩集大小与整个训练集大小的比率。注:DD<$和LD<$使用不同的架构,即:MNIST的LeNet和CIFAR10的AlexNet。其余的方法都使用ConvNet。InstanceNormDSADMBatchNormDSADMCIFAR100 42.8±0.443.6±0.444.6±0.5 48.0±0.4不CIFAR10 60.6±0.563.0±0.459.9±0.8 65.2±0.4InyImageNet-24.1±0.3-28.2±0.5表2.50张图像/类学习,具有批量归一化功能。C\TConvNetAlexNet VGG ResNetDSAConvNet59.9±0.853.3±0.751.0±1.147.3±1.0ConvNet 65.20.4 61.30.6 59.90.8 57.00.9AlexNet60.50.4 59.80.6 58.90.4 54.60.7VGG 54.20.6 52.61.0 52.81.1 49.11.0ResNet52.2±1.050.9±1.449.6±0.952.2±0.4表3.CIFAR10上的跨架构测试性能(%)在一个架构(C)上学习50 img/cls合成集,然后在另一个架构(T)上测试。批量归一化(BN)[20],因为合成数据数量太小,无法计算稳定的运行均值和标准差(std)。当使用批量归一化进行学习时,他们首先使用许多真实的训练数据预先设置BN均值和std,然后将它们冻结为合成数据。因此,不准确的平均值和标准将使优化变得困难[20]。相比之下,我们通过输入来自所有类别的增强合成数据来估计运行均值和标准差。因此,我们的方法受益于合成数据的真实平均值和标准差。表2显示,使用ConvNet和BN可以进一步提高我们的性能。具体来说,我们的方法与BN达到65.2%,48.0%和28.2%的测试准确率时,学习50 images/类合成集CIFAR 10,CIFAR 100和Tiny-ImageNet,这意味着2。2%、4. 在CIFAR10和CIFAR100上,我们的方法与默认实例规范化相比分别提高了4.4%和4.1%,并且还分别比具有BN的 DSA提高了培训成本比较。我们的方法比那些基于双层优化的方法更有效。不失一般性,我们在学习50 im的设置下比较了我们和DSACIFAR 10上的年龄/类别合成数据。图4显示,我们的方法需要不到20分钟的时间来达到训练15小时的DSA的性能,这意味着不到2。2%的培训费用。请注意,我们使用一个GTX 1080 GPU在相同的计算环境中运行这两种方法我们证明了我们的方法也可以用于学习更大的合成集,而基于双层优化的方法通常需要更多的训练时间和精心设计的超参数调整,以适应更大的设置。图5将我们的方法与CIFAR10中的随机选择基线在绝对和相对性能方面进行了比较。整个数据集的训练。显然,我们的方法在所有操作点上都优于随机基线,这意味着我们的合成集更具数据效率。我们的方法的优势是显着的,在具有挑战性的设置,即。设置小数据预算。我们的方法得到67。0 0的情况。3%,71. 20百分之四,七十六。10 的情况。3%,79. 80 的情况。3%,80。80的情况。3%测试准确率在CIFAR 10数据集上分别学习100、200、500、1000和1250个图像/类合成集时,我们可以恢复79%、84%、90%、94%和仅使用2%、4%、10%、20%,相对性能达到95%和25%的训练数据相比,整个数据集的训练。我们看到,当我们学习更大的合成集时,两种方法之间的性能差距缩小。这是一些预期的,因为随机选择更多的样本将接近整个数据集训练,这可以被认为是上限。当我们从随机的真实图像初始化合成图像时,当合成集合较大时,初始分布差异变得很小。3.3. 跨体系结构泛化[50,49]验证了MNIST数据集在一个简单的设置-学习1图像/类中合成数据的跨架构泛化能力。在本文中,我们实现了一个更具挑战性的跨架构实验-学习50个图像/类的CIFAR 10数据集。在表3中,DM6521DCDSADM图3.通过DC、DSA和DM学习的合成图像的分布。红、绿、蓝点是CIFAR10中前三个类的真实图像。星星是相应的学习合成图像。6055500510 20 30 60 90 120 300 600 900培训时间(分钟)图4.在CIFAR 10上学习50 img/cls合成集时与DSA的训练时间比较。通过一个体系结构(表示为C)学习模拟数据,然后通过从头开始训练模型并在真实测试数据上进行测试我 们 测 试 了 几 种 复 杂 的 神 经 架 构 , 即 ConvNet ,AlexNet [24],VGG-11 [38]和ResNet- 18 [19]。批处理规范化在所有体系结构中使用。表3显示,在ConvNet上学习和评估合成集实现了最佳性能65.2%。与DSA相比,我们的方法与ConvNet学习的合成数据比DSA与ConvNet学习的合成数据具有更好的泛化性能。具体来说,当使用AlexNet,VGG和ResNet 进 行 测 试 时 , 我 们 的 方 法 分 别 比 DSA 高 出8.0%,8.9%和9.7%。这些结果表明,与梯度匹配学习的合成图像具有更好的泛化性能上看不见的架构。对于更复杂的架构,如ResNet,合成集的学习可能会更差。在复杂的体系结构上拟合的合成数据会包含一些其它体系结构所不存在的偏差我们还发现,在更复杂的架构上的相同的合成集的评价将更差。其原因可能是复杂的建筑结构使用小的合成集不适合。3.4. 网络配电在这里,我们研究了在使用ConvNet架构的CIFAR10上学习1/10/50图像/类合成集时使用不同网络分布的效果。除了随机采样初始化的网络参数外,我们还构建了一组在原始网络上进行预训练的网络。随机10-20 20-30 30-40 40-50 50-60 60-70 ≥70 所有电话:+86-510- 8888888传真:+86-510 -888888826.5 26.41048.948.748.150.751.149.948.648.2 50.75063.062.762.162.863.061.960.660.0 62.5表4.在CIFAR10上学习不同网络分布的合成数据的性能。本表中的所有标准差均为1。<这些网络在整个训练集上进行训练,并基于验证准确度(%)进行分组。训练集特别是,我们在整个原始训练集上训练了1,000个具有不同随机初始化的ConvNet,并存储了它们的中间状态。我们根据验证精度将这些网络大致分为九组,从每组中抽取网络样本,学习它们的合成数据,并使用学习到的合成数据来训练随机初始化的神经网络。有趣的是,我们在表4中看到,我们的方法对所有九种网络分布都很有效文中还提供了不同网络分布下学习的合成图像的可视化和分析。3.5. 不断学习我们还使用我们的方法在内存中存储更有效的训练样本,以缓解持续(增量)学习中的灾难性我们基于GDumb [34]设置了基线,GDumb将训练样本存储在内存中,并保持类平衡。模型仅在最新内存上从头开始训练。因此,持续学习的效果完全取决于记忆结构的质量。我们比较了我们的存储器构造方法,即。训练集浓缩为[34],放牧[12,35,10,4]和DSA[49]中使用的随机选择我们在CIFAR 100数据集上实现了类增量学习,增加了20张图像/类的内存预算。我们实现了5步和10步学习,其中我们随机平均地将100个类分成5步和10步学习,即:每步分别为20和10班。本实验使用默认ConvNet。如图6和图7所示,我们发现我们的方法GDumb +DM在两个集合中都优于其他方法-DMDSA测试准确度(%)6522258060402011050100 200 500 10001250每类图像1007550256050403020 40 60 80100班数604010 20 30 40 50 60 70 80 90 100班数图5.在CIFAR10上学习更大的合成集图6. 5-在CIFAR100上逐步类增量学习。图7.CIFAR100上的10步类增量随机 DSADM 提前停止整个数据集性能(%)84.0 82.6 82.884.3相关系数-0.04 0.68 0.760.11时间成本(分钟)142.6 142.6存储(imgs)500 5005005×10485.91.003580.245× 10表5.我们在CIFAR10数据集上实现了神经架构搜索,搜索空间为720个ConvNets。tings,这意味着我们的方法可以产生最好的浓缩集作为记忆。我们的、DSA的、羊群的和随机的最终绩效分别为34.4%、31.7%、28.2%5 步 学 习 法 为 24.8% , 10 步 学 习 法 分 别 为 34.6% 、30.5%、27.4%和24.8%我们发现,我们的和随机选择性能不受类如何划分的影响,即在每个学习步骤中出现多少新的训练类和图像,因为这两种方法都独立地为每个类学习/生成集合。然而,当训练类被密集地分成更多的学习步骤时,DSA和羊群方法的表现更差。原因是DSA和羊群需要基于在当前训练数据上训练的模型来学习/生成集合,这受到数据分割的影响详情可参阅补充资料。3.6.神经架构搜索合成集也可以用作代理集,以加速神经架构搜索(NAS)中的模型评估[14]。在[50]之后,我们在CI-FAR 10上实现了NAS,搜索空间为720个ConvNets,网络深度,宽度,激活,归一化和池化层各不相同。请参阅[50]以了解更多详细信息。我们在学习的50个图像/类合成集上训练所有架构,即。整个数据集的1%大小,从头开始,然后根据小验证集的准确性对其进行排名。我们比较随机,DSA和早期停止的方法。随机选取相同大小的真实图像作为代理集。DSA意味着我们在相同的设置中使用DSA学习的合成集在早期停止中,我们使用整个训练集来训练模型,但与在代理数据集上训练相同的训练迭代因此,所有这些方法具有相同的训练时间。我们在200个epoch的代理集和100个epoch的整个数据集上训练模型。根据不同方法获得的验证精度选择最佳模型长矛-对于由代理集选择的前5%的体系结构,计算代理集和整个数据集训练的性能之间的人NAS结果见表5。 虽然通过早期停止选择的体系结构实现了最好的性能(84.3%),但其性能等级划分(0.11)显著低于DSA(0.68)和DM(0.76)。此外,早期停止需要使用整个训练集,而其他代理集方法只需要500个训练样本。随机(-0.04)的性能等级相关性我们的方法(DM)实现了最高的性能等级相关性(0.76),这意味着我们的方法可以为这些候选架构产生可靠的排名,同时只使用整个数据集训练的大约1个虽然我们的方法需要72分钟才能获得浓缩集,但与整个数据集训练(3580.2分钟)相比,它可以忽略不计。更多的实施细节和分析可以在补充文件中找到。4. 结论本文提出了一种基于分布匹配的数据集压缩方法。据我们所知,这是第一个解决方案,既没有二层优化,也没有二阶导数。因此,可以独立地和并行地学习不同类别的合成数据。由于其效率,我们可以将我们的方法应用于更具挑战性的数据集- TinyImageNet和ImageNet-1 K,并在CIFAR 10上学习更大的合成集-1250个图像/类。我们的方法比在CIFAR 10上学习50个图像/类合成集的最新技术快45倍。我们还实证证明,我们的方法可以产生更多的信息记忆的连续学习和更好的代理集,以加快在NAS的模型评估。尽管自2018年发布开创性工作以来,该领域取得了显着进展[45],但数据集浓缩仍处于早期阶段。我们将在未来将数据集浓缩扩展到更复杂的视觉任务。谢谢。这项工作由中国学校理事会201806010331和EPSRC项目资助Visual AI EP/T028572/1资助。DM随机随机放牧DSADM测试准确度(%)随机放牧DSADM相对准确度(%)测试准确度(%)测试准确度(%)6523引用[1] Rahaf Aljundi,Min Lin,Baptiste Goujaud,and YoshuaBen- gio.基于梯度的在线持续学习样本选择。神经信息处理系统进展,第11816-11825页,2019年[2] Ehsan Amid,Rohan Anil,Wojciech Kotchiowski,andMan-fred K Warpor.从随机初始化的神经网络特征中学习。arXiv预印本arXiv:2202.06438,2022。[3] Dario Amodei,Danny Hernandez,Girish Sastry,JackClark,Greg Brockman和Ilya Sutskever。AI和计算。在OpenAI博客,2018年。[4] Eden Belouadah和Adrian Popescu Scail:用于类增量学习的分类器权重缩放。 在2020年IEEE计算机视觉应用冬季会议上[5] James Bergstra和Yoshua Bengio。超参数优化的随机搜索 。 Journal of Machine Learning Research , 13(Feb):281[6] Ondrej Bohdal,Yongxin Yang,and Timothy Hospedales.灵活的数据集提取:学习标签而不是图像。神经信息处理系统研讨会,2020年。[7] Za la'nBorsos,MojmirMut ny,andAndreasKrause. 通过双层优化的持续学习和流。神经信息处理系统进展,33:14879[8] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。ICLR,2019。[9] Weipeng Cao,Xizhao Wang,Zhong Min
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功