没有合适的资源?快使用搜索试试~ 我知道了~
107180通过匹配训练轨迹进行数据集蒸馏0George Cazenavette 1 Tongzhou Wang 2 Antonio Torralba 2 Alexei A. Efros 3 Jun-Yan Zhu 101 卡内基梅隆大学 2 麻省理工学院 3 加州大学伯克利分校0CIFAR-1000苹果骆驼时钟狐狸袋鼠橙色兰花梨松树郁金香0TinyImageNet0豚鼠鹅鳄梨沙漏德国牧羊犬小熊猫肉馅饼缝纫机瓢虫凯旋门0ImageNet0香蕉教堂牧羊犬火烈鸟法国号金毛猎犬帝企鹅暹罗猫草莓老虎0图1. 32x32 CIFAR-100(顶部),64x64 Tiny ImageNet(中部)和128x128ImageNet子集(底部)的示例蒸馏图像。仅使用这样的蒸馏图像(每个类别仅一个)训练标准CNN会得到一个测试准确性显著优于以前的数据集蒸馏方法的训练模型。请在https://georgecazenavette.github.io/mtt-distillation/上查看更多结果。0摘要0数据集蒸馏是合成一个小型数据集的任务,使得在合成集上训练的模型与在完整数据集上训练的模型的测试准确性相匹配。在本文中,我们提出了一种新的公式,通过优化我们的蒸馏数据,引导网络在许多训练步骤中达到与在真实数据上训练的网络类似的状态。给定一个网络,我们在我们的蒸馏数据上训练它多次迭代,并根据合成训练参数与在真实数据上训练的参数之间的距离优化蒸馏数据。为了高效地获取大规模数据集的初始和目标网络参数,我们预先计算并存储在真实数据集上训练的专家网络的训练轨迹。我们的方法轻松超越现有方法,还允许我们蒸馏更高分辨率的视觉数据。01. 引言0在2015年的开创性论文中,Hinton等人提出了模型蒸馏的概念,旨在将复杂模型的知识蒸馏到一个更简单的模型中。数据集蒸馏,0由Wang等人提出的蒸馏数据集(大小=10)是一个相关但正交的任务:与其蒸馏模型,这个想法是蒸馏数据集。如图2所示,目标是将大型训练数据集中的知识蒸馏到一组非常小的合成训练图像中(每个类别仅一个图像),以便在蒸馏数据上训练模型与在原始数据集上训练模型具有类似的测试性能。数据集蒸馏已成为机器学习中一个活跃的研究课题[2,25, 26, 38, 45, 46,47],具有各种应用,如持续学习、神经架构搜索和隐私保护机器学习。然而,这个问题迄今为止主要是理论上的兴趣,因为大多数先前的方法都集中在像MNIST和CIFAR这样的玩具数据集上,而在真实的高分辨率图像上则困难重重。在这项工作中,我们提出了一种新的数据集蒸馏方法,不仅在性能上超越了以前的工作,而且也适用于大规模数据集,如图1所示。0与传统的数据压缩不同,数据集蒸馏旨在获得一个小型的合成数据集,仍然保留足够的与任务相关的信息,以便在其上训练的模型可以推广到未见过的测试数据,如图2所示。因此,蒸馏算法必须在大幅压缩信息的同时保持微妙的平衡,而不完全抹去107190完整训练数据集(大小=50k)0类似的测试性能0蒸馏数据集(大小=10)0训练0训练0数据集0蒸馏0图2.数据集蒸馏旨在生成一个小的合成数据集,训练在该数据集上的模型可以达到与在整个真实训练集上训练的模型相似的测试性能。0区分性特征。为了做到这一点,数据集蒸馏方法试图发现真实数据中哪些方面对于学习所述区分至关重要。一些方法考虑端到端训练[25, 26,44],但通常需要大量计算和内存,并且容易出现不精确的松弛[25, 26]或训练不稳定性,需要展开多次迭代[23,44]。为了减少优化难度,其他方法[45,47]关注短程行为,强制在蒸馏数据上进行单一训练步骤,以匹配真实数据上的训练步骤。然而,在评估中,蒸馏数据在许多步骤上应用时可能会累积误差。我们在第4.2节实验证实了这个假设。为了解决上述挑战,我们试图直接模仿在真实数据集上训练的网络的长程训练动态。具体而言,我们将在合成数据上训练的参数轨迹的片段与在真实数据上训练的模型的预录轨迹的片段进行匹配,从而避免目光短浅(即,只关注单个步骤)或难以优化(即,对完整轨迹进行建模)。将真实数据集视为指导网络训练动态的黄金标准,我们可以认为引导网络参数的序列是一个专家轨迹。如果我们的蒸馏数据能够引导网络的训练动态遵循这些专家轨迹,那么经过合成训练的网络将会在参数空间中接近于在真实数据上训练的模型,并且达到类似的测试性能。在我们的方法中,我们的损失函数直接鼓励0蒸馏数据集以引导网络优化沿着类似的轨迹(图3)。我们首先从头开始训练一组模型,记录它们的专家训练轨迹。然后,我们从随机选择的专家轨迹中随机选择一个随机时间步长初始化一个新模型,并在合成数据集上进行多次迭代训练。最后,我们根据这个经过合成训练的网络与专家轨迹偏离的程度对蒸馏数据进行惩罚,并通过训练迭代进行反向传播。基本上,我们将许多专家训练轨迹的知识转移到了蒸馏图像上。广泛的实验证明,我们的方法在标准数据集(包括CIFAR-10、CIFAR-100和TinyImageNet)上明显优于现有的数据集蒸馏方法和核心集选择方法。例如,我们在CIFAR-10上使用每类一张图像可以达到46.3%,使用每类50张图像可以达到71.5%,而之前的最优结果分别为28.8% / 63.0% [45, 46]和36.1% / 46.5%[26]。此外,我们的方法还可以很好地推广到更大的数据,使我们首次看到从ImageNet[6]中蒸馏的高分辨率图像。最后,我们通过额外的消融研究和可视化分析了我们的方法。我们的代码和模型也可以在我们的网页上找到。02. 相关工作0数据集蒸馏。数据集蒸馏最早由Wang等人[44]引入,他们提出将模型权重表示为蒸馏图像的函数,并使用基于梯度的超参数优化[23]对其进行优化,这在元学习研究[8,27]中也被广泛使用。随后,一些工作通过学习软标签[2,38]、通过梯度匹配放大学习信号[47]、采用数据增强[45]和优化与无限宽度核极限相关的内容[25,26],显著改进了结果。数据集蒸馏已经实现了各种应用,包括连续学习[44, 45, 47]、高效神经架构搜索[45,47]、联邦学习[11, 37, 50]和隐私保护机器学习[22,37],适用于图像、文本和医学成像数据。正如在引言中提到的,我们的方法不依赖于单步行为匹配[45,47]、完整优化轨迹的展开[38,44]或大规模神经切向核计算[25,26]。相反,我们的方法通过将知识从预训练的专家转移实现了长程轨迹匹配。与我们的工作同时进行的是Zhao和Bilen的方法[46],该方法完全忽略了优化步骤,而是专注于合成数据和真实数据之间的分布匹配。尽管由于内存需求较低,该方法适用于更高分辨率的数据集(例如TinyImageNet),但在大多数情况下(例如与之前的工作[45,47]相比),它的性能较差。AB6XicdVDLSsNAFJ3UV62vqks3Q4sgCHRaOu6MZlFfuAJpTJdNIOnUzCzEQIoX/gRlARt/6Ru/6N08aCih64cDjnXu69x48ZlcqypkZhaXlda24XtrY3NreKe/utWUCExaOGKR6PpIEkY5aSmqGOnGgqDQZ6Tj69mfueCEkjfqfSmHghGnIaUIyUlm7drF+uWqZzUXOcM5iTU2tB6tA2rTmqjYp7/DRtpM1+cMdRDgJCVeYISl7thUrL0NCUczIpOQmksQIj9GQ9DTlKCTSy+aXTuChVgYwiIQuruBc/T6RoVDKNPR1Z4jUSP72ZuJfXi9RQd3LKI8TRTjOFwUJgyqCs7fhgAqCFUs1QVhQfSvEIyQVjqckg5h8Sn8n7RPTPvcdG50GpcgRxEcgAo4AjaogQa4Bk3QAhgE4AE8gxdjbDwar8Zb3lowvmb2wQ8Y759CsZDY AB6HicbVBNS8NAEJ3Ur1q/qh69LBbBU0mkqMeiF48t2FpoQ9lsN+3azSbsToQS+gu8eFDEqz/Jm/GbZuDtj4YeLw3w8y8IJHCoOt+O4W19Y3NreJ2aWd3b/+gfHjUNnGqGW+xWMa6E1DpVC8hQIl7ySa0yiQ/CEY3878hyeujYjVPU4S7kd0qEQoGEUrNbFfrhVdw6ySrycVCBHo1/+6g1ilkZcIZPUmK7nJuhnVKNgk9LvdTwhLIxHfKupYpG3PjZ/NApObPKgISxtqWQzNXfExmNjJlEge2MKI7MsjcT/O6KYbXfiZUkiJXbLEoTCXBmMy+JgOhOUM5sYQyLeythI2opgxtNiUbgrf8ipX1S9y2qtWavUb/I4inACp3AOHlxBHe6gAS1gwOEZXuHNeXRenHfnY9FacPKZY/gD5/MH4xeNAQ= AB9HicbVBNS8NAEJ34WetX1aOXrUQLCXRoh4LXrwIFewHNKFstpt26WYTdzeFEvo7vHhQxKs/xpv/xm2bg7Y+GHi8N8PMPD/mTGnb/rZWVtfWNzZzW/ntnd29/cLBYVNFiS0QSIeybaPFeVM0IZmtN2LCkOfU5b/vB26rdGVCoWiUc9jqkX4r5gASNYG8nTbtEtp+cTt+wW7uFkl2xZ0DLxMlICTLUu4UvtxeRJKRCE46V6jh2rL0US80Ip5O8mygaYzLEfdoxVOCQKi+dHT1Bp0bpoSCSpoRGM/X3RIpDpcahbzpDrAdq0ZuK/3mdRAc3XspEnGgqyHxRkHCkIzRNAPWYpETzsSGYSGZuRWSAJSba5JQ3ITiLy+T5kXFuapUH6ql2mUWRw6O4QTOwIFrqMEd1KEBJ7gGV7hzRpZL9a79TFvXbGymSP4A+vzB/gAkOQ= +MAB6HicbVBNS8NAEJ34WetX1aOXxSJ4KokW9Vjw4rEF+wFtKJvtpF272YTdjVBCf4EXD4p49Sd589+4bXPQ1gcDj/dmJkXJIJr47rfztr6xubWdmGnuLu3f3BYOjpu6ThVDJsFrHqBFSj4BKbhuBnUQhjQKB7WB8N/PbT6g0j+WDmSToR3QoecgZNVZqeP1S2a24c5BV4uWkDnq/dJXbxCzNEJpmKBadz03MX5GleFM4LTYSzUmlI3pELuWShqh9rP5oVNybpUBCWNlSxoyV39PZDTSehIFtjOiZqSXvZn4n9dNTXjrZ1wmqUHJFovCVBATk9nXZMAVMiMmlCmuL2VsBFVlBmbTdG4C2/vEpalxXvulJtVMu1qzyOApzCGVyABzdQg3uoQxMYIDzDK7w5j86L8+58LFrXnHzmBP7A+fwBeQiMrw= AAB9XicdVDJSgNBEO1xjXGLevTSGAQRHGYyMcst4MVjBLNAMgk9nZ6kSc9Cd40ShvyHFw+KePVfvPk3dhZBR8UPN6roqeFwuwLI+jJXVtfWNzcxWdntnd28/d3DYVFEiKWvQSESy7RHFBA9ZAzgI1o4lI4EnWMsbX8381h2TikfhLUxi5gZkGHKfUwJa6nVhxID0zvspXNjTfi5vmXalVHEusWUWbavgVDWpOpWy42DbtObIoyXq/dx7dxDRJGAhUEGU6thWDG5KJHAq2DTbTRSLCR2TIetoGpKAKTedXz3Fp1oZYD+SukLAc/X7REoCpSaBpzsDAiP125uJf3mdBPyKm/IwToCFdLHITwSGCM8iwAMuGQUx0YRQyfWtmI6IJBR0UFkdwten+H/SLJh2ySzeFPM1ZxlHBh2jE3SGbFRGNXSN6qiBKJLoAT2hZ+PeDRejNdF64qxnDlCP2C8fQJzfZJ2 ✓⇤t�1AAB83icdVDJSgNBEO2JW4xb1KOXxiCIh2EmE7PcAl48RjALZMbQ0+lJmvQsdNcIYchvePGgiFd/xpt/Y2cRVPRBweO9Kqrq+YngCizrw8itrW9sbuW3Czu7e/sHxcOjopTSVmbxiKWPZ8oJnjE2sBsF4iGQl9wbr+5Grud+ZVDyObmGaMC8ko4gHnBLQkuvCmAG5uxhkMBsUS5Zp16t15xJbZsW2yk5Dk4ZTrzkOtk1rgRJaoTUovrvDmKYhi4AKolTfthLwMiKBU8FmBTdVLCF0Qkasr2lEQqa8bHHzDJ9pZYiDWOqKAC/U7xMZCZWahr7uDAmM1W9vLv7l9VMI6l7GoyQFtHloiAVGI8DwAPuWQUxFQTQiXt2I6JpJQ0DEVdAhfn+L/Sads2lWzclMpNZ1VHl0gk7RObJRDTXRNWqhNqIoQ/oCT0bqfFovBivy9acsZo5Rj9gvH0CkeWSBA= ✓⇤tAB9XicdVDJSgNBEO1xjXGLevTSGARGYyMcst4MVjBLNAMgk9nZ6kSc9Cd40ShvyHFw+KePVfvPk3dhZBR8UPN6roqeFwuwLI+jJXVtfWNzcxWdntnd28/d3DYVFEiKWvQSESy7RHFBA9ZAzgI1o4lI4EnWMsbX8381h2TikfhLUxi5gZkGHKfUwJa6nVhxID0zvspXNjTfi5vmXalVHEusWUWbavgVDWpOpWy42DbtObIoyXq/dx7dxDRJGAhUEGU6thWDG5KJHAq2DTbTRSLCR2TIetoGpKAKTedXz3Fp1oZYD+SukLAc/X7REoCpSaBpzsDAiP125uJf3mdBPyKm/IwToCFdLHITwSGCM8iwAMuGQUx0YRQyfWtmI6IJBR0UFkdwten+H/SLJh2ySzeFPM1ZxlHBh2jE3SGbFRGNXSN6qiBKJLoAT2hZ+PeDRejNdF64qxnDlCP2C8fQJwcZJ0 ✓⇤t+1AB9XicdVDJSgNBEO1xjXGLevTSGARGYyMZncAl48RjALJPQ0+kTXoWumuUMOQ/vHhQxKv/4s2/sbMIKvqg4PFeFVX1/FhwBZb1Yaysrq1vbGa2sts7u3v7uYPDhoSVmdRiKSLZ8oJnjI6sBsFYsGQl8wZr+GrmN+YVDwKb2ESMy8gw5APOCWgpW4HRgxI97yXwkVh2svlLdN2S65ziS2zaFsFp6JxXHLjoNt05oj5ao9XLvnX5Ek4CFQAVRqm1bMXgpkcCpYNsJ1EsJnRMhqytaUgCprx0fvUn2qljweR1BUCnqvfJ1ISKDUJfN0ZEBip395M/MtrJzBwvZSHcQIspItFg0RgiPAsAtznklEQE0IlVzfiumISEJB5XVIXx9iv8njYJpl8ziTFfdZxZNAxOkFnyEZlVEXqIbqiCKJHtATejbujUfjxXhdtK4Yy5kj9APG2ydx9pJ1 ✓⇤t+2AB9XicdVDJSgNBEO2JW4xb1KOXxiCIwjCTiVluAS9ehAhmgWQSejqdpEnPQneNEob8hxcPinj1X7z5N3YWQUfFDzeq6KqnhcJrsCyPozUyura+kZ6M7O1vbO7l90/aKgwlpTVaShC2fKIYoIHrA4cBGtFkhHfE6zpjS9nfvOScXD4BYmEXN9Mgz4gFMCWup2YMSAdM96CZxfT3vZnGXa5WLZucCWbCtvFPRpOKUS46DbdOaI4eWqPWy751+SGOfBUAFUaptWxG4CZHAqWDTCdWLCJ0TIasrWlAfKbcZH71FJ9opY8HodQVAJ6r3ycS4is18T3d6RMYqd/eTPzLa8cwKLsJD6IYWEAXiwaxwBDiWQS4zyWjICaECq5vhXTEZGEg4qo0P4+hT/Txp50y6ahZtCruos40ijI3SMTpGNSqiKrlAN1RFEj2gJ/Rs3BuPxovxumhNGcuZQ/QDxtsnmv2SkA= ✓⇤t+MAB+3icdVDLSgNBEJyNrxhfMR69DAZBEJbdZJOYW8CLxwgmEZIQZiez2SGzD2Z6xbDsr3jxoIhXf8Sbf+PkIahoQUNR1U13lxsLrsCyPozc2vrG5lZ+u7Czu7d/UDwsdVWUSMo6NBKRvHWJYoKHrAMcBLuNJSOBK1jPnV7O/d4dk4pH4Q3MYjYMyCTkHqcEtDQqlgY+gXQAPgOSjVI4t7NRsWyZTdupNOrYMh2nUa3amliVZq1Wx7ZpLVBGK7RHxfBOKJwEKgijVt60YhimRwKlgWGQKBYTOiUT1tc0JAFTw3Rxe4ZPtTLGXiR1hYAX6veJlARKzQJXdwYEfPXbm4t/ef0EvIthysM4ARbS5SIvERgiPA8Cj7lkFMRME0Il17di6hNJKOi4CjqEr0/x/6RbMe26Vw75VZ1FUceHaMTdIZs1EAtdIXaqIMoukcP6Ak9G5nxaLwYr8vWnLGaOUI/YLx9AqclNE= ˆ✓t+1AB+3icdVDLSgNBEJyNrxhfMR69DAZBEJbdZJOYW8CLxwgmEZIQZiez2SGzD2Z6xbDsr3jxoIhXf8Sbf+PkIahoQUNR1U13lxsLrsCyPozc2vrG5lZ+u7Czu7d/UDwsdVWUSMo6NBKRvHWJYoKHrAMcBLuNJSOBK1jPnV7O/d4dk4pH4Q3MYjYMyCTkHqcEtDQqlgY+gXQAPgOSjVI4r2SjYtkym7ZTadSxZTpOo1q1NbEqzVqtjm3TWqCMVmiPiu+DcUSTgIVABVGqb1sxDFMigVPBsIgUSwmdEomrK9pSAKmhuni9gyfamWMvUjqCgEv1O8TKQmUmgWu7gwI+Oq3Nxf/8voJeBfDlIdxAiyky0VeIjBEeB4EHnPJKIiZJoRKrm/F1CeSUNBxFXQIX5/i/0m3Ytp107l2yq3qKo48OkYn6AzZqIFa6Aq1UQdRdI8e0BN6NjLj0XgxXpetOWM1c4R+wHj7BKihlNI= ˆ✓t+2AB+3icdVDJSgNBEO2JW4zbGI9eGoMgCMNMknMLeDFk0QwCyQh9HQ6SZOehe4aMQzK148KOLVH/Hm39hZBV9UPB4r4qel4kuALb/jAya+sbm1vZ7dzO7t7+gXmYb6kwlpQ1aShC2fGIYoIHrAkcBOtEkhHfE6ztTS/nfvuOScXD4BZmEev7ZBzwEacEtDQw870JgaQHEwYkHSRwfp0OzIJt1Ry3WK1g23LdaqnkaGIXa+VyBTuWvUABrdAYmO+9YUhjnwVABVGq69gR9BMigVPB0lwvViwidErGrKtpQHym+sni9hSfamWIR6HUFQBeqN8nEuIrNfM93ekTmKjf3lz8y+vGMLroJzyIYmABXS4axQJDiOdB4CGXjIKYaUKo5PpWTCdEgo6rpwO4etT/D9pFS2nYrk3bqFeWsWRcfoBJ0hB1VRHV2hBmoiu7RA3pCz0ZqPBovxuyNWOsZo7QDxhvn9MtlO4= ˆ✓t+NAB9XicdVDJSgNBEO1xjXGLevTSGARGYyMcst4MVjBLNAMgk9nZ6kSc9Cd40ShvyHFw+KePVfvPk3dhZBR8UPN6roqeFwuwLI+jJXVtfWNzcxWdntnd28/d3DYVFEiKWvQSESy7RHFBA9ZAzgI1o4lI4EnWMsbX8381h2TikfhLUxi5gZkGHKfUwJa6nVhxID0zvspXDjTfi5vmXalVHEusWUWbavgVDWpOpWy42DbtObIoyXq/dx7dxDRJGAhUEGU6thWDG5KJHAq2DTbTRSLCR2TIetoGpKAKTedXz3Fp1oZYD+SukLAc/X7REoCpSaBpzsDAiP125uJf3mdBPyKm/IwToCFdLHITwSGCM8iwAMuGQUx0YRQyfWtmI6IJBR0UFkdwten+H/SLJh2ySzeFPM1ZxlHBh2jE3SGbFRGNXSN6qiBKJLoAT2hZ+PeDRejNdF64qxnDlCP2C8fQJze5J2 ✓⇤t+3AB7nicbVBNS8NAEJ34WetX1aOXxSJ4KokW9Vjw4kWpYD+gDWznbRLN5uwuxFK6I/w4kERr/4eb/4bt20O2vpg4PHeDPzgkRwbVz321lZXVvf2CxsFbd3dvf2SweHTR2nimGDxSJW7YBqFxiw3AjsJ0opFEgsBWMbqZ+6wmV5rF8NOME/YgOJA85o8ZKrXvSFYLc9Uplt+LOQJaJl5My5Kj3Sl/dfszSCKVhgmrd8dzE+BlVhjOBk2I31ZhQNqID7FgqaYTaz2bnTsipVfokjJUtachM/T2R0UjrcRTYzoiaoV70puJ/Xic14bWfcZmkBiWbLwpTQUxMpr+TPlfIjBhbQpni9lbChlRZmxCRuCt/jyMmeV7zLSvWhWq5d5HEU4BhO4Aw8uIa3EIdGsBgBM/wCm9O4rw4787HvHXFyWeO4A+czx8xUo7J ⌧ MAB+3icdVDJSgNBEO2JW4zbGI9eGoMgCMNMknMLeDFk0QwCyQh9HQ6SZOehe4aMQzK148KOLVH/Hm39hZBV9UPB4r4qel4kuALb/jAya+sbm1vZ7dzO7t7+gXmYb6kwlpQ1aShC2fGIYoIHrAkcBOtEkhHfE6ztTS/nfvuOScXD4BZmEev7ZBzwEacEtDQw870JgaQHEwYkHSRwfp0OzIJt1Ry3WK1g23LdaqnkaGIXa+VyBTuWvUABrdAYmO+9YUhjnwVABVGq69gR9BMigVPB0lwvViwidErGrKtpQHym+sni9hSfamWIR6HUFQBeqN8nEuIrNfM93ekTmKjf3lz8y+vGMLroJzyIYmABXS4axQJDiOdB4CGXjIKYaUKo5PpWTCdEgo6rpwO4etT/D9pFS2nYrk3bqFeWsWRcfoBJ0hB1VRHV2hBmoiu7RA3pCz0ZqPBovxuyNWOsZo7QDxhvn9MtlO4= AB9XicdVDJSgNBEO2JW4xb1KOXxiCIwjCTiVluAS9ehAhmgWQSejqdpEnPQneNEob8hxcPinj1X7z5N3YWQUfFDzeq6KqnhcJrsCyPozUyura+kZ6M7O1vbO7l90/aKgwlpTVaShC2fKIYoIHrA4cBGtFkhHfE6zpjS9nfvOScXD4BYmEXN9Mgz4gFMCWup2YMSAdM96CZxfT3vZnGXa5WLZucCWbCtvFPRpOKUS46DbdOaI4eWqPWy751+SGOfBUAFUaptWxG4CZHAqWDTCdWLCJ0TIasrWlAfKbcZH71FJ9opY8HodQVAJ6r3ycS4is18T3d6RMYqd/eTPzLa8cwKLsJD6IYWEAXiwaxwBDiWQS4zyWjICaECq5vhXTEZGEg4qo0P4+hT/Txp50y6ahZtCruos40ijI3SMTpGNSqiKrlAN1RFEj2gJ/Rs3BuPxovxumhNGcuZQ/QDxtsnmv2SkA= ACAXicdVC7SgNBFJ31GRMfURvBZjAKVstunqYLamEZwTwgCWF2MpsMmZ1dZmYDYmNv2JjoYiFjaV/YOeHaO1ko6CiBy4czrmXe+9xAkalsqxXY25+YXFpObGSTK2urW+kN7fq0g8FJjXsM180HSQJo5zUFWMNANBkOcw0nCGJ1O/MSJCUp9fqHFAOh7qc+pSjJSWumdtofUACMWnU6MZduJMd80k1nLNs57OlIrTMfL6Uy9maWNlyoVCEtmnFyFT23x6fR6n3ajf90u75OPQIV5ghKVu2FahOhISimJFJsh1KEiA8RH3S0pQj8hOFH8wgQda6UHXF7q4grH6fSJCnpRjz9Gd8Y2/van4l9cKlXvUiSgPQkU4ni1yQwaVD6dxwB4VBCs21gRhQfWtEA+QFjp0JI6hK9P4f+knjXtopk/12kcgxkSYBfsgUNgxKogDNQBTWAwSW4Brfgzrgybox742HWOmd8zmyDHzCePgDNGJw5 ACaHicbVFda9RAFJ3Er7pVm/qBiC/DFqGly5JIURGERfvg0IFty1slnAzO2mGTmbCzI0QwuCf8Jf51h/gi7/C2WwL9uPCwOGc7n3nslrKSzG8VkQ3rp95+69tfuD9QcPH21Em48PrW4M41OmpTbHOVguheJTFCj5cW04VLnkR/np6V+9IMbK7T6jm3N5xWcKFEIBuipLPqZVoClLbov2lq3nZ1CQp1fU8A9ntu+zCY1vl3A59/4FeMPt+Q1CMX+rEkiNkHe5+dS4dpaMRvVlMR24ni7bicdwXvQ6Sc7A1Ga7v84m7UEW/U4XmjUV8gkWDtL4hrnHRgUTHI3SBvLa2CncMJnHiqouJ13fVCOvLMghba+KeQ9uz/HR1U1rZV7p39gVe1JXmTNmuweDfvhKob5IqtBhWNpKjpMnW6EIYzlK0HwIzwu1JWgG/m8GPoTk6snXweHrcfJmvPfNp/GRrGqNvCRDsk0S8pZMyGdyQKaEkT/BevA0eBb8DaPwefhiZQ2D854n5FKFw39Q1b74 ACAXicdVC7SgNBFJ31GRMfURvBZjAKVstunqYLamEZwTwgCWF2MpsMmZ1dZmYDYmNv2JjoYiFjaV/YOeHaO1ko6CiBy4czrmXe+9xAkalsqxXY25+YXFpObGSTK2urW+kN7fq0g8FJjXsM180HSQJo5zUFWMNANBkOcw0nCGJ1O/MSJCUp9fqHFAOh7qc+pSjJSWumdtofUACMWnU6MZduJMd80k1nLNs57OlIrTMfL6Uy9maWNlyoVCEtmnFyFT23x6fR6n3ajf90u75OPQIV5ghKVu2FahOhISimJFJsh1KEiA8RH3S0pQj8hOFH8wgQda6UHXF7q4grH6fSJCnpRjz9Gd8Y2/van4l9cKlXvUiSgPQkU4ni1yQwaVD6dxwB4VBCs21gRhQfWtEA+QFjp0JI6hK9P4f+knjXtopk/12kcgxkSYBfsgUNgxKogDNQBTWAwSW4Brfgzrgybox742HWOmd8zmyDHzCePgDNGJw5 107200在真实数据上训练0迭代0约束:相似的权重0切换到在蒸馏数据上训练0迭代0网络优化轨迹0在真实数据上训练(专家)0在蒸馏数据上训练0迭代0迭代0图3.我们在训练蒸馏合成数据和训练真实数据之间进行长程参数匹配。从相同的初始参数开始,我们训练蒸馏数据D syn,使得对它们进行N次训练步骤与对真实数据进行M次训练步骤得到相同的结果(在参数空间中)。0在同时优于现有工作[45,47]和并发方法[46]在标准基准和高分辨率数据集上的性能的同时,我们的方法还能减少内存成本。相关研究的一条线是学习一个生成模型来合成训练数据[24,36]。然而,这些方法不会生成一个小规模的数据集,因此不能直接与数据集蒸馏方法进行比较。模仿学习。模仿学习试图通过观察一系列专家演示来学习一个好的策略[29, 30,31]。行为克隆训练学习策略以与专家演示相同的方式行动。一些更复杂的公式涉及从专家那里获得标签的在线学习[33],而其他方法则完全避免使用任何标签,例如通过分布匹配[16]。这些方法(尤其是行为克隆)已经在离线环境中表现良好[9,12]。我们的方法可以被看作是模仿一系列专家网络训练轨迹,这些轨迹是通过在真实数据集上进行训练获得的。因此,它可以被认为是在优化轨迹上进行模仿学习。Coreset和实例选择。与数据集蒸馏类似,Coreset[1, 4, 13, 34,41]和实例选择[28]旨在选择整个训练数据集的子集,训练这个小子集可以获得良好的性能。大多数这样的方法不适用于现代深度学习,但基于双层优化的新公式在诸如持续学习[3]等应用中已经显示出有希望的结果。与Coreset相关的其他研究方向旨在理解哪些训练样本对现代机器学习来说是“有价值”的,包括测量单个示例的准确性[20]和计算错误分类率[39]。事实上,数据集蒸馏是这些想法的一种推广,因为蒸馏数据不需要是真实的或来自训练集。03. 方法0数据集蒸馏是指策划一个小的合成训练集Dsyn,使得在这个合成数据上训练的模型在真实测试集上具有与在大的真实训练集Dreal上训练的模型相似的性能。在本节中,我们描述了我们的方法,直接模拟真实数据训练的长程行为,将蒸馏数据上的多个训练步骤与真实数据上的更多步骤进行匹配。在第3.1节中,我们讨论了如何获得在真实数据集上训练的网络的专家轨迹。在第3.2节中,我们描述了一种新的数据集蒸馏方法,明确鼓励蒸馏数据集诱导出与真实数据集相似的长程网络参数轨迹,从而使合成训练的网络的性能与在真实数据上训练的网络相似。最后,第3.3节描述了我们减少内存消耗的技术。03.1. 专家轨迹0我们方法的核心是使用专家轨迹τ�来指导合成数据集的蒸馏。通过专家轨迹,我们指的是在完整的真实数据集上训练神经网络时获得的参数的时间序列{θ�t}T0。为了生成这些专家轨迹,我们只需在真实数据集上训练大量的网络,并在每个时期保存它们的快照参数。我们将这些参数序列称为“专家轨迹”,因为它们代表了数据集蒸馏任务的理论上限:在完整的真实数据集上训练的网络的性能。类似地,我们将学生参数ˆθt定义为在训练步骤t上在合成图像上训练的网络参数。我们的目标是蒸馏出一个数据集,它能够在相同的起始点下诱导出类似的轨迹。ˆθt+n+1 = ˆθt+n − α∇ℓ(A(Dsyn); ˆθt+n),(1)where A is the differentiable augmentation technique [17, 40,48, 49] used in previous work [45], and α is the (trainable)learning rate used to update the student network. Any dataaugmentation used during distillation must be differentiableso that we can back-propagate through the augmentationlayer to our synthetic data. Our method does not use differ-entiable Siamese augmentation since there is no real dataused during the distillation process; we are only applyingthe augmentations to synthetic data at this time. However,we do use the same types of differentiable augmentations onreal data during the generat
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功