增量学习中的遗忘和不妥协问题及其解决方法

42 浏览量更新于2023-10-08 收藏 837KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

增量学习的黎曼步行：理解遗忘和不妥协Arslan Chaudhry，Puneet K.Dokania，ThalaiyasingamAjanthan，Philip H.S. 托联合王国{firstname.lastname}@ eng.ox.ac.uk抽象。增量学习（IL）最近受到了很多关注，然而，文献缺乏精确的问题定义，适当的评估设置，以及专门为IL问题定制的度量这项工作的主要目标之一是填补这些空白，以便为更好地了解IL提供一个共同的基础。IL算法的主要挑战是更新分类器，同时保留现有的知识。我们观察到，除了遗忘，一个已知的问题，同时保存知识，IL也遭受了一个问题，我们称之为不妥协，它无法更新知识。我们引入两个指标来量化遗忘和不妥协，使我们能够理解，分析，并获得更好的洞察IL算法的行为。此外，我们提出了RWalk，EWC++的推广（我们的EWC[6]的有效版本）和路径积分[25]，具有理论上基于KL发散的观点。我们对MNIST和CIFAR-100数据集上的各种IL在这些实验中，RWalk在准确性方面获得了更好的结果，并且还为遗忘和不妥协提供了更好的权衡。1介绍实现人类水平的智能需要开发能够不断学习新任务的系统，同时保留有关旧任务的知识。这正是增量学习（IL）算法的目标基础。根据定义，IL具有不断扩展的输出空间，并且在学习新任务时无法或有限地访问先前任务的数据。这使得它更具挑战性，并且从根本上不同于整个数据集可用并且输出空间固定的经典学习范式最近，IL[6，14，19，25]中有几项工作具有不同的评估设置和指标，难以建立公平的比较。这项工作的第一个目标是纠正这些问题，提供精确的定义，评估设置，和指标IL的分类任务。现在让我们讨论设计IL算法时要考虑的关键点。第一个问题是“如何定义知识：量化模型所学习的内容的因素。通常，知识是使用网络的输入-输出行为[4，19]或网络参数[6，25]来定义的。一旦知识被定义，目标则是保存和更新它以抵消IL算法的两个固有问题：（1）遗忘：灾难性地遗忘先前任务的知识;以及联合第一作者2乔杜里等人(2) 不妥协：无法更新知识以学习新任务。这两个问题都需要矛盾的解决方案，并提出了任何IL算法的权衡。为了捕获这种权衡，我们提倡使用基于IL算法在过去和当前任务上的性能来评估IL算法的措施，希望这将反映在其在未来看不见的任务中的行为考虑到这一点，我们引入两个指标来评估遗忘和不妥协。这些指标与标准的多类平均准确度一起，使我们能够理解，分析和更好地了解各种IL算法的行为。此外，我们提出了两个最近提出的增量学习算法的推广，弹性权重合并（EWC）[6]和路径积分（PI）[25]。特别地，首先我们表明，在EWC中，在学习新任务时，使用KL散度的众所周知的二阶近似[1，17]来正则化模型为了计算和更新Fisher矩阵，我们使用了一种高效（在内存方面）和在线（在计算方面）的方法，从而产生了一个更快的EWC在线版本，我们称之为EWC++。注意，Schwarz等人同时提出了对EWC的类似扩展，称为在线EWC。[21 ]第20段。接下来，我们修改PI[25]，其中不是计算参数之间的欧氏空间中每单位距离的损失变化作为灵敏度的度量，而是使用输出分布之间的近似KL散度（黎曼流形中的距离）作为计算灵敏度的距离这给出了参数重要性分数，该参数重要性分数也在关于先前任务的优化轨迹编码信息上累积。最后，结合EWC++和改进的PI得到RWalk。此外，为了抵消不妥协，我们研究了不同的采样策略，这些策略存储了来自先前任务的数据集的一个小的代表性子集（≤5%这不仅允许网络回忆关于先前任务的信息，而且还有助于学习区分当前和先前的任务。最后提出一个彻底的分析，以更好地了解MNIST [10]和CIFAR-100 [7]数据集上IL算法的行为总结一下，我们的主要贡献是：1. 新的评估指标-遗忘和不妥协-以更好地理解增量学习算法的行为和性能。2. EWC ++：EWC的高效在线版本。3. RWalk：EWC++和PI的概括，基于理论基础的KL发散视角提供了新的见解。4. 从准确性、遗忘性和不妥协性方面对不同方法的分析2问题设置和准备工作在这里，我们定义IL问题并讨论两种不同评估设置的实用性：（a）单头;和（b）多头。此外，我们还回顾了神经网络的概率解释以及KL散度与黎曼流形中的距离之间的联系，这两者对我们的方法都至关重要。用于增量学习的3j=12.1单头与多头评价我们考虑一个任务流，每个任务对应一组标签。对于第k个任务，设Dk ={（xk，yk）}nk 是数据集，其中xk∈ X是输入，yk∈yki i i=1 i iground truth label，并且yk是特定于任务的标签的集合。单头和多头评估之间的主要区别在于，在测试时，在单头中，任务标识符（k）是未知的，而在多头中，它是给定的。因此，对于单头评估，第k个任务的目标是学习函数fθ：X →Yk，其中Yk= ∪kyj对应于所有已知的标签。对于多头，因为任务标识符是已知的，所以Yk=yk。例如，考虑具有5个任务的MNIST{{0，1}，···，{8，9}};以增量方式训练然后，在第5个任务中，对于给定的图像，多头评估是预测第5个任务训练的两个标签{8，9}中的类。然而，第5个任务处的单头评估是预测模型迄今为止已经看到的所有十个类{0，...，9}中的标签。为什么单头是IL的正确评价？在[12，19]使用的单头的情况下，输出空间由所有已知的标签组成这也要求分类器学习区分来自不同任务的标签。由于在IL中以序列提供任务，因此在学习任务的同时，分类器还必须学习任务间区分，而不访问或有限地访问1先前的数据。与输出空间仅包含当前任务的标签的多头相比，这是一个更困难的问题。此外，单头更实用，因为先验地知道要查看的标签子集是一个很大的假设。例如，如果任务仅包含一个标签，则多头评估将等同于知道地面真值标签本身。2.2神经网络输出如果神经网络的最后一层是软最大层并且使用交叉熵损失来训练网络，则输出可以被解释为分类变量上的概率因此，在给定的θ下，神经网络学习的条件似然分布实际上是一个条件多努利分布，定义为p（y|X）=QKp[y=j]，其中 p是第j个类别的软最大概率，K是θj=1θ，jθ，j类的总数，y是长度为K的独热编码，并且[·]是I个向量。括号。然后可以从似然分布pθ（y）获得预测|X）。通常，选择网络的预测。注意，如果y对应于地面实况标签，则对数似然与交叉熵损失的负值完全相同，即如果地面实况对应于y的独热表示的第t个索引，则logpθ（y|x）= logpθ，t. 更多的见解可以在补充材料中找到2.3黎曼流形上的KL-散度作为距离令DKL（pθpθ+∆θ）分别是神经网络在θ和θ + ∆θ处的条件相似性之间的KL-差异[ 8 ]。然后，假设Δ θ→0，第二个-由于任务的数量在IL中可能是无限的，因此不可能以可扩展的方式存储所有4乔杜里等人我KL-D的阶泰勒近似可以写成DKL（pθpθ+∆θ）≈1∆θFθ∆θ=1∆θ22，其中Fθ，称为经验Fisher信息2 2Fθ在θ处的矩阵[1，17]被定义为：Σ。Σ。Σ⊤ΣFθ=E（x，y）log pθ（y|x）∂θlog pθ（y|x）∂θ、（1）其中D是数据集。注意，如前所述，对数似然log pθ（y|x）与交叉熵损失函数的负值相同，因此，Fθ可以被视为期望的损失梯度协方差矩阵。通过构造（梯度的外积Fθ是半正定的（PSD），这使得它对二阶优化技术[1，17，2，9，15]非常有吸引力。因此，当Δ θ→0时，计算KL散度1∆θ2等价于计算黎曼流形3[11]中的距离-2Fθ由θ处的Fisher信息矩阵导出。由于Fθ∈RP×P，并且对于神经网络，P通常是数百万的数量级，因此实际上存储Fθ是不可行的。处理与[6]类似，我们假设参数彼此独立（对角Fθ），这导致KL散度的以下近似：1ΣPDKL（pθpθ+∆θ）≈2i=1Fθi ∆θ2，（2）其中θi是θ的第i个条目。请注意，Fθ的对角线项是梯度的期望因此，Fθ的计算成本很高，因为它需要在数据集上进行完全的前向-后向传递。3遗忘与固执由于目标是不断学习新的任务，同时保留有关以前的知识，IL算法应根据其在过去和当前任务上的性能进行评估，希望这将反映在其对未来看不见的任务的行为为了实现这一目标，除了平均准确率，还有两个关键因素必须量化：（1）遗忘：算法忘记了多少它在过去学到的东西;（2）不妥协：算法无法学习新任务。直观地说，如果一个模型在之前的任务中被严重正则化以保存知识，它会忘记更少，但具有很高的不妥协性。相反，如果正则化太弱，而不妥协性很小，则模型将遭受灾难性的损失。理想情况下，我们需要一个受两者影响较小的模型，从而有效地利用有限的模型容量。相比之下，如果观察到遗忘和不妥协之间的高度负相关，这通常是这种情况，那么，它表明模型容量饱和或该方法没有有效地利用它。在定义用于量化遗忘和不妥协的度量之前，我们首先定义多类平均准确度，这将是定义其他两个度量的基础。注意，某些其它任务特定正确性度量（例如，在遗忘和不妥协的定义保持相同的情况下，也可以使用用于对象分割的IoU。2补充材料中提供了证据和见解。3由于Fθ是PSD，这使它成为伪流形。用于增量学习的5j=1JJ1平均准确度（A）令ak，j∈[0，1]是在从任务1到k递增地训练网络之后，在第j个任务（j≤k）的保持测试集上评估的准确度（正确分类的图像的分数）。注意，为了计算k，j，输出空间由yj或kyj组成，这取决于评估是否是多值的。头或单头（参见第2.1）。任务k的平均准确度定义为一=1Σka. A越高，分类器越好，但这并不支持。kkj=1k，j k提供关于IL算法的遗忘或不妥协性配置文件的任何信息对判断其行为遗忘度量（F）我们将特定任务（或标签）的遗忘定义为过去在整个学习过程中获得的关于该任务的最大知识与模型当前拥有的关于该任务的知识之间的差异。这反过来又给出了模型在给定其当前状态的情况下忘记任务的程度的估计。在此之后，对于分类问题，我们在模型已经被递增地训练到任务k >j之后将第j个任务的遗忘量化为：fk= maxal，j−ak，j，j0意味着NFT。然而，在[14]中，FT被量化为与随机猜测（不是不妥协的度量）相比的准确性增益，这与我们的方法是互补的。4用于增量学习的黎曼步行我们首先描述EWC++，这是众所周知的EWC[6]的有效版本，然后描述RWalk，它是EWC++和PI[25]的推广。简而言之，RWalk有三个关键组件：（1）基于KL散度的正则化|x）（EWC ++）;（2）基于损失对黎曼流形上的移动的敏感性的参数重要性得分（类似于PI）;以及（3）用于确定损失的策略。从前面的任务中获得一些有代表性的样本。前两个组成部分减轻灾难性遗忘的影响，而第三个处理不妥协。4.1避免灾难性的遗忘基于KL发散的正则化（EWC++）我们学习当前任务的参数，使得新的条件似然接近（就KL而言）到之前任务为止学习的条件似为了实现这一点，我们在条件似然分布p θ（y）上进行正则化|x）使用近似KL散度，等式（2）由于距离是指─当然.这将保留模型关于先前任务的固有属性，如学习进展。因此，给定从任务1开始依次训练的参数θk-1，到k−1，第k个任务的数据集Dk，我们的目标是：argminL~k（θ）：=Lk（θ）+λDKL（p θk−1（y|x）p θ（y|（x））、（5）θ其中，λ是超参数r。Subst安装Eq.（2），KL-梯度分量可以记作DKL（pk−1pθ）≈1PFk−1（θi−θk−1）2。请注意，对于两个任务，θ2i=1θii上述正则化与EWC[6]的正则化完全相同在这里我们提出了它用于增量学习的7θθθ从基于KL发散的角度来看。另一种看待它的方法是将每个参数的Fisher4视为其重要性得分。对此的直观解释如下;由于Fisher捕获似然分布的KL散度表面的局部曲率（因为它是泰勒近似的二阶导数分量，参见第2节）2.3），更高的Fisher意味着更高的曲率，因此建议在该方向上移动更少，以保持可能性。在多个任务的情况下，EWC需要为每个任务独立地存储Fisher（O（kP）参数），并且联合地对所有任务进行正则化如果有许多任务并且网络具有数百万个参数，则这实际上是此外，为了估计经验Fisher，EWC需要对数据集每一个任务（见Eq.①①）。为了解决这两个问题，我们提出了EWC++，（1）随着任务训练的进行，保持单对角Fisher矩阵，（2）使用移动平均来进行有效更新，类似于[15]。给定Ft−1在t−1，Fisher在EWC++中更新为：Ft=αFt+（1−α）Ft−1，（6）θ θθ其中Ft是使用当前批次获得的Fisher矩阵，α∈[0，1]是超参数。注意，t表示训练迭代，因此，以这种方式计算Fisher向前向后传递数据集。在每个任务结束时，我们简单地将F t存储为Fθk−1，并使用它来正则化下一个任务，因此在训练过程中的任何时刻只存储两组Fisher，而不管任务的数量。与EWC++类似，在[21]中同时开发了称为在线EWC的EWC的有效版本在EWC中，使用L k的梯度在L ~k的局部最小值处计算Fisher，当每个L~k≈Lk（例如，当λ = 1时，λ=1。这导致了可忽略的正则化铅-灾难性的遗忘。EWC++使用移动平均线部分解决了此问题。然而，为了进一步改进它并捕获模型不仅在最低限度，而且在整个培训过程中，我们增加图1：累积的参数重要性优化轨迹。对角线Fisher的每个元素具有正标量，如下所述这也确保了增广Fisher总是正定的。基于优化路径的参数重要性由于Fisher捕获模型的固有性质并且它仅取决于Lk，因此它对优化路径上的参数对L ~ k的损失表面的影响是盲目的。类似于[25]，我们基于L〜 k在整个训练轨迹y上累积参数重要性。该分数被定义为损失函数的变化与参数空间中每步条件似然分布之间的距离的比率。[4]我们所说的Fisher总是指经验Fisher信息矩阵。8乔杜里等人不不θit1更准确地说，对于参数从θi（t）到θi（t+1）的变化（其中t是时间步长或训练迭代），我们将参数重要性定义为损失的变化与其在DKL 中的影响的比率（pθ（t）pθ（t+1））。直观地，如果分布中的小变化引起损耗的大改善，则重要性将更高从形式上讲，使用一阶泰勒近似，损耗L的变化可以写为：L（ θ（ t+ ∆t））− L（ θ（ t））≈−ΣPtΣ+∆tLi=1t=tθi（θi（t+1）−θi（t））=−ΣPi=1Lt+其中，L是t时的梯度，ΔLt+Δt（θi）表示θit参数θi从时间步t到t+∆t变化引起的损耗。这参数的变化将导致模型分布的相应变化其可以使用近似KL散度（等式2）来计算。（2）译注。因此，从训练迭代t1到t2的参数θ i的重要性可以计算为st2（θ）=ΣtLt+，其中∆θ（t）=θ（t+∆t）−θ（t）且>0。的t1 我t=t11Ft∆θi（t）2+iii2θi在Δ t≥1和Ft的每个离散间隔计算分母计算为-在每个第t步使用移动平均值有效地进行，如在解释EWC++时所描述的该重要性分数的计算在图1B中示出。1.一、由于我们关心参数的积极影响，因此将负分数设置为零。注意，如果使用欧几里得距离，则得分st2（θi）将类似于PI[25]的得分。我们现在将基于Fisher信息矩阵的重要性和基于优化路径的重要性得分组合如下：ΣPL~k（θ）=Lk（θ）+λ（Fk−1+st（θ））（θ−θ）。（八）k−1k−1 2θii=1t0i ii这里，stk−1（θ）是从第一次训练迭代t开始累积的分数直到最后t0i0训练迭代tk-1，对应于任务k-1。既然分数是累积的随着时间的推移，规则化变得越来越严格。为了让所有人都能活下来。是，并在- Σ在每次学习后，平均得分为：stk−1（θ）=1stk−2（θ）+stk−1（θ）。t0i2t0itk−2我这种持续的平均化使得过去学到的任务的影响力不如最近学习的任务此外，在加法时，重要的是要确保Fk−1和stk−1（θ）的尺度处于相同的阶数，以便两者的影响θit0i保留这些条款这可以通过单独地将它们归一化为区间[0，1]。这与得分平均一起具有正则化超参数λ对任务数量不太敏感的积极副作用。然而，EWC [6]和PI [25]对λ高度敏感，使得它们相对不太可靠。IL.注意，在训练期间，RWalk的空间复杂度是O（P），与任务的数量无关。4.2处理不妥协在实验中，我们观察到，在单头评估设置中，与先前的任务相比，使用Dk训练第k个任务会导致当前任务的2用于增量学习的9j=1d（x）i（参见第2.1）。这是因为在训练期间，模型可以访问包含仅用于第k个任务的标签的Dk。但是，在测试时，标签空间已结束到目前为止看到的所有任务Yk= ∪kyj，它比yk大得多。这反过来增加了测试时的混乱，因为预测函数无法区分当前任务的样本来自先前任务的样本这个问题的一个直观解决方案是存储来自先前任务的代表性样本的一个小子集，并在训练当前任务时使用它[19]。下面我们讨论获得这样一个子集的不同策略。请注意，随着训练的进行，我们存储了来自每个任务特定数据集的m个点，然而，对于类似于iCaRL [19]的所有任务，具有固定的样本总数是微不足道的均匀采样一种简单但非常有效的方法（实验证明）是从以前的数据集中随机均匀采样。基于平面距离的采样在这种情况下，我们假设离决策边界较近的样本比离决策边界较远的样本更具代表性。对于给定的样本{xi，yi}，我们计算距决策边界的伪距离d（xi）=φ（xi）wyi，其中φ（·）是由神经网络学习的特征映射，并且wyi是类yi的最后一个全连接层参数。然后，我们基于q（xi）1采样点。这里，直觉是，由于参数的变化是正则化的，特征空间和判定边界变化不大。因此，靠近边界的样本将充当边界定义样本。基于熵的采样给定一个样本，输出soft-max分布的熵度量我们用于采样点的样本的不确定性。熵越高，样本被挑选的可能性越大。特征均值（MoF）iCaRL [19]提出了一种基于特征空间Φ（·）来寻找样本的方法。F或每个类y，m个点被找到，其在特征空间中的平均值接近于该类的整个数据集的平均值然而，在这方面，与上述采样方法相比，该子集选择策略是低效的实际上，时间复杂度是O（nfm），其中n是数据集大小，f是特征维度，m是所需样本的数量。5相关工作解决灾难性遗忘的一种方法是为每个新任务动态扩展网络[24，18，20，23]。虽然直观和简单，但这些方法是不可扩展的，因为网络的大小随着任务的数量而增加。更好的策略是利用神经网络的过度参数化[3]。这需要在激活（输出）[19，13]或网络参数[6，25]上进行正则化。即使基于激活的方法允许参数更新中的更大灵活性，但是如果激活以百万计，则其是存储器低效的，例如，语义分割相反，在参数上正则化的方法-加权10乔杜里等人基于它们各自的重要性的参数适合于这样的任务。我们的方法属于后一类，并且我们表明我们的方法是EWC++和PI[25]的推广，其中EWC++是我们的EWC[6]的有效版本，非常类似于同时开发的在线EWC[21]。在精神上类似于参数上的正则化，Leeet al. [12]使用矩匹配来获得网络权值作为所有任务的权值的组合，以及Nguyen等人。[16]通过贝叶斯框架将与上述方法不同，Lopez-Pazet al. [14]更新梯度，使以前任务的损失不会增加，而申等。[22]采用再训练策略，其中使用学习的生成模型生成先前任务的样本6实验我们在两个数据集上评估基线和我们提出的模型- RWalk：1. 增量MNIST：标准MNIST数据集被分成五个连续两位数的不相交子集（任务），即 ∪kyk={{0，1}，. . . ，{8，9}}。2. 增量CIFAR：为了表明我们的方法可以扩展到更大的数据集，我们使用增量CIFAR，其中CIFAR-100数据集被分成十个不相交的子集，使得∪kyk={{0 - 9}，. . . ，{90 − 99}}。所使用的架构类似于[25]。对于MNIST，我们使用具有两个隐藏层的MLP，每个隐藏层具有256个具有ReLU非线性的单元。对于CIFAR- 100，我们使用具有四个卷积层的CNN，然后是单个密集层（更多细节请参见补充材料在所有实验中，我们使用Adam优化器[5]（学习率= 1 × 10−3，β1= 0。9，β2= 0。999），固定批量为64。基线我们将RWalk与以下基线进行比较：– Vanilla：网络在过去的任务中没有任何规则化– EWC [6]和PI [25]：两者都使用基于参数的正则化。注意，我们观察到EWC ++的表现至少与EWC一样好，因此，在所有实验中，EWC是指更强的基线EWC++。– iCaRL [19]：在激活和基于最近样本的分类器上使用正则化这里，iCaRL-hb1指的是hybrid 1版本，它使用标准神经网络分类器。这两个版本都使用以前的样本。请注意，我们使用前面任务中的一些示例来进一步巩固单头设置中的基线。6.1结果我们在Tab中报告结果。其中RWalk在平均准确性方面优于所有基线，并在遗忘和不妥协之间提供更好的权衡。我们现在详细讨论结果。用于增量学习的11表1：在多头和单头评估设置中，MNIST和CIFAR的不同基线比较。使用样品的基线附加有'-S'。对于MNIST和CIFAR，使用基于特征平均值（MoF）的采样策略（参考第2节），使用来自先前任务的4.2）。方法MNIST CIFAR多头评估λ A5（%）F5I5λ A10（%）F10I103 ×1015 ×10在多头评估设置[25，14]中，除Vanilla外，所有方法都提供了最先进的准确性，几乎为零遗忘和不妥协（图2的顶行）。这给人的印象是IL问题已经解决。然而，正如在SEC中所讨论的那样。2.1，这是一个更容易的评估设置，并没有抓住IL的本质。然而，在单头评估中，遗忘和不妥协性显著增加，这是由于网络无法区分任务。因此，所有方法的性能均显著下降（参见表1）。1和中间行图2）的情况。例如，在MNIST上，Vanilla的遗忘和不妥协性从0恶化。12比0 62和6。6×10−4至0。29，分别导致平均精度从90下降。3%至38。0%的百分比。虽然，正规化的方法，EWC和PI，旨在对抗灾难性遗忘，导致遗忘的退化较少，他们的准确性仍然显着较差-比较99。3%的PI在多头对57。6%，单头。在选项卡中。1，在CIFAR-100上观察到类似的性能下降，好.即使在较少遗忘的情况下，准确度的这种降低表明，不仅重要的是保存知识（通过遗忘量化），而且重要的是更新知识（通过不妥协捕获）以实现更好的性能。CIFAR数据集的任务级分析，类似于Fig.2，在补充材料中列出。我们现在表明，即使有几个代表性的样本，也可以减轻不妥协。例如，在MNIST上的PI的情况下，只有10（≈0. 2%）样本，不妥协性从0。八比零。05，这导致从57. 6%至78。7%。类似的改进可以在其他方面看到香草090.30.126 . 6 ×10−4044.40.360.02EWC7500099.30.0010.013 ×10672.80.001 0.07Pi0.199.30.0020.011073.200.06RWalk（我们的）100099.30.0030.01100074.20.004 0.04单头评价香草038.00.620.29010.20.36 -0.06EWC7500055.80.080.77623.10.030.17Pi0.157.60.110.81022.80.040.2iCaRL-hb1-36.60.68-0.01-7.40.400.06iCaRL-55.80.190.46-9.50.110.35香草-S073.70.300.03012.90.64-0.3EWC-S7500079.70.140.22533.60.27 -0.05PI-S0.178.70.240.051033.60.27 -0.03RWalk（我们的）100082.50.150.1450034.00.28 -0.0612乔杜里等人1 .一、00的情况。90的情况。80的情况。70的情况。60的情况。5任务1（0到1）12345任务1 .一、00的情况。90的情况。80的情况。70的情况。60的情况。5任务2（2至3）123451 .一、00的情况。90的情况。80的情况。70的情况。60的情况。5任务3（4到5）123451 .一、00的情况。90的情况。80的情况。70的情况。60的情况。5任务4（6至7）123451 .一、00的情况。90的情况。80的情况。70的情况。60的情况。5任务5（8至9）123451 .一、00的情况。90的情况。80的情况。70的情况。60的情况。5平均值（Ak）123451 .一、00的情况。80的情况。60的情况。40的情况。2任务1（0到1）1 .一、00的情况。80的情况。60的情况。40的情况。2任务2（2至3）1 .一、00的情况。80的情况。60的情况。40的情况。2任务3（4到5）1 .一、00的情况。80的情况。60的情况。40的情况。2任务4（6至7）1 .一、00的情况。80的情况。60的情况。40的情况。2任务5（8至9）1 .一、00的情况。80的情况。60的情况。40的情况。2平均值（Ak）1 .一、00的情况。90的情况。80的情况。70的情况。012345任务任务1（0到1）1 .一、00的情况。90的情况。80的情况。70的情况。012345任务2（2至3）1 .一、00的情况。90的情况。80的情况。70的情况。012345任务3（4到5）1 .一、00的情况。90的情况。80的情况。70的情况。012345任务4（6至7）1 .一、00的情况。90的情况。80的情况。70的情况。012345任务5（8至9）1 .一、00的情况。90的情况。80的情况。70的情况。012345平均值（Ak）香草PIEWCiCaRLRWalk0的情况。60的情况。60的情况。60的情况。60的情况。60的情况。60的情况。512345任务0的情况。5123450的情况。5123450的情况。5123450的情况。5123450的情况。512345图2：使用多头评估（上图）和不使用样本（中图）和使用样本（下图）的单头评估的增量MNIST的准确度。前五列显示不同任务的性能变化，例如，第一幅图描绘了当在五个任务上递增地训练时任务1的性能变化最后一列显示了准确度（Ak，参考第（3）第三章。使用特征均值（MoF）采样精度精度精度用于增量学习的13方法也是。在CIFAR-100上，只有5%的代表性样品，观察到几乎在我们的CIFAR-100实验（CNN而不是ResNet 32）中，我们注意到iCaRL[19]的性能明显比作者报道的要差我们认为这是由于iCaRL依赖于高度表达的特征空间，因为正则化和分类器都依赖于它。也许，由于较小的网络而导致的特征空间的表达性降低导致了性能损失。遗忘和顽固的相互作用在图3中，我们研究了在单头设置中遗忘和顽固理想情况下，我们希望模型位于标记为PBT、PFT的象限中（即，正向后转移和正向前转移）。在MNIST上，由于除iCaRL-hb 1外的所有方法都位于右上象限，因此对于具有可比精度的模型，与（0，0）具有最小距离的模型会更好。显然，RWalk最接近（0，0），与所有其他方法相比，在遗忘和不妥协之间提供了更好的权衡。在CIFAR-100上，模型位于两个顶部象限，并且随着样本的引入，所有正则化方法都表现出正的前向迁移。由于模型位于不同的象限，它们对遗忘和不妥协的比较变得特定于应用。在某些情况下，我们可能更喜欢在新任务上表现良好的模型（更好的不妥协性），而不管它在旧任务上的表现如何14乔杜里等人NBT、PFTNBT、NFT香草PIEWCiCaRL-hbliCaRL香草-S PI-SEWC-SRWalkPBT、PFTPBT、NFT遗忘（F5）1 .一、0个1. 00的情况。八点零分80的情况。6060的情况。4040的情况。2020的情况。00。0-0。2- 0。2-0。4- 0。4-0。4- 0。2000。2040608个1.0不妥协（I5）-0。4- 0。2000。2040608个1. 0不妥协（I5）(a) MNIST（b）CIFAR图3.遗忘与不妥协之间的相互作用。1 .一、00的情况。90的情况。80的情况。70的情况。60的情况。50的情况。40的情况。3香草PIEWCRWalk020406080 100样品(a) MNIST0的情况。50的情况。40的情况。30的情况。20的情况。10的情况。0050100150 200样品(b) CIFAR图4：通过增加样本数量进行比较。在MNIST和CIFAR上，每个类分别有大约5000和500个样本。随着样本数量的增加，Vanilla的性能有所改善，但在Vanilla较差的范围内，RWalk始终表现最好。使用均匀采样(can遗忘，反之亦然。请注意，RWalk保持与其他基线相当的性能，同时在CIFAR-100上产生更高的平均精度如所预期的，对于较小数量的样本，正则化方法的表现远远优于Vanilla（参见图1B）。4）.然而，一旦样本数量足够大，Vanilla开始表现得更好或等同于正则化模型。原因很简单，因为现在Vanilla可以访问以前任务的足够样本，以便在每一步重新学习它们然而，在IL问题中，通常假设固定的小尺寸存储器预算。因此，不能存储来自先前任务的大量样本。此外，对于像MNIST这样的更简单的数据集，Vanilla可以快速赶上具有少量样本（20，0. 总样本的4%），但在更具有挑战性的数据集上，如CIFAR，Vanilla需要相当数量的先前任务的样本（总样本的200，40%）来匹配正则化模型的性能。不同采样策略的比较在图5中，我们比较了在第2节中讨论的不同子集选择策略。四点二。可以观察到，对于所有方法，在iCaRL [19]中引入的特征均值（MoF）子集选择过程表现最好。令人惊讶的是，均匀采样，尽管简单，是一样好NBT、PFTNBT、NFT香草PIEWCiCaRL-hbliCaRL香草-S PI-SEWC-SRWalkPBT、PFTPBT、NFT平均准确度（Ak）遗忘（F5）平均准确度（Ak）用于增量学习的151 .一、00的情况。90的情况。80的情况。70的情况。60的情况。50的情况。40的情况。30的情况。50的情况。40的情况。30的情况。20的情况。10的情况。001020304050 60样品050100 150 200 250样品1 .一、00的情况。90的情况。80的情况。70的情况。60的情况。50的情况。40的情况。30的情况。50的情况。40的情况。30的情况。20的情况。10的情况。001020304050 60样品050100 150 200 250样品1 .一、00的情况。90的情况。80的情况。70的情况。60的情况。50的情况。40的情况。30的情况。50的情况。40的情况。30的情况。20的情况。10的情况。0010 20 30 40 50 60样品050100 150 200 250样品1 .一、00的情况。90的情况。80的情况。70的情况。60的情况。50的情况。40的情况。30的情况。50的情况。40的情况。30的情况。20的情况。10的情况。0均匀熵PDMOF01020304050 60样品均匀熵PDMOF050100150200 250样品(a) 香草(b) Pi(c) EWC(d) RWalk图5：在第2节中讨论的不同采样策略的比较。MNIST（顶部）和CIFAR-100（底部）上的4.2特征平均值（MoF）优于其他方法。更复杂的MoF、平面距离（PD）和基于熵的采样策略。此外，正则化方法对不同的采样策略保持不敏感，而在Vanilla中，针对不同的策略，性能变化很大我们认为这是由于先前任务的最后一层权重的不受约束的变化。7讨论在这项工作中，我们分析了增量学习问题中的挑战，即灾难性遗忘和不妥协，并引入了量化指标。这样的指标反映了遗忘和不妥协之间的相互作用，我们相信这将鼓励未来的研究利用模型的能力，如稀疏性执行正则化，和基于探索的方法增量学习。此外，我们已经提出了一个有效的版本的EWC被称为EWC++，和一个概括的EWC++和PI与KL散度为基础的角度来看。在实验上，我们观察到这些参数正则化方法在实际的单头设置中遭受高不妥协性，并且表明这可以用代表性样本的小子集来缓解由于这些方法与基于知识蒸馏的算法（如iCaRL）相比具有内存效率，因此未来在此方向的研究将使分割任务的增量学习成为可能。确认这项工作得到了 Rhodes Trust ， EPSRC ， ERC grant ERC-2012-AdG 321162-HELIOS ， EPSRC grant Seebibyte EP/M013774/1 和 EPSRC/MURI grant EP/N019474/1的支持。平均准确度（Ak）平均准确度（Ak）平均准确度（Ak）平均准确度（Ak）平均准确度（Ak）平均准确度（Ak）平均准确度（Ak）平均准确度（Ak）16乔杜里等人引用1. Amari，S.I.：自然梯度在学习中起着有效的作用。03 TheDogof the Dog（1998）2. 格罗斯河Martens，J.：卷积层的Kronecker分解的近似Fisher矩阵In：ICML（20

下载后可阅读完整内容，剩余1页未读，立即下载