连续学习现象

65 浏览量更新于2023-10-14 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7026网络爬虫步骤0步骤0重放图像重放标签重放数据步骤k-1GAN...原始数据步骤0步骤kRECALL：基于重放的语义分割连续学习AndreaMaracani*，*UmbertoMichieli*，MarcoToldo*，†，PietroZanuttigh信息工程系，帕多瓦andreamaracani@gmail.com，{umberto.michieli，toldomarco，zanuttigh}@ dei.unipd.it摘要深度网络允许在语义分割中获得出色的结果，但是它们需要在具有大量数据的单次激发中进行训练。由于灾难性的遗忘现象，连续学习设置（其中以增量步骤学习新类并且先前的训练数据不再可用）是具有挑战性的现有的方法通常在执行若干增量步骤时或在存在背景类的分布偏移的情况下失败我们解决这些问题，重新创建不再可用的数据，为旧类和概述了一个内容，帐篷修补方案的背景类。我们提出了两个来源的重播数据。第一个采用生成对抗网络，从过去学习步骤的类空间中采样。第二个依赖于网络抓取的数据，从在线数据库中检索包含旧类示例的图像在这两种情况下，都不存储过去步骤的样本，从而避免了隐私问题。然后在增量步骤期间将重放数据与新样本我们的方法RECALL优于最先进的方法。1. 介绍许多机器学习应用的共同要求是以多个增量步骤学习一系列任务的能力，逐步引入要识别的新类，而不是在大型数据集上使用单次训练过程[34]。这个问题已经在图像分类中得到了广泛的研究，并且提出了许多方法来减轻对先前任务的遗忘和学习新任务的不一致性[22，35，45]。当模型暴露于新类别的样本并在没有额外规定的情况下对其进行训练时，优化导致所谓的灾难性遗忘现象[36，16]，即，关于先前看到的类的知识往往会丢失。密集任务上的增量学习（例如，语义分割），其中执行逐像素预测，具有*这些作者共享第一作者。†我们的工作部分得到了意大利教育部长（MIUR）在“卓越部门”倡议（第232/2016号法律）下的图1：以前看到的类的重放图像由网络爬虫或生成网络重新检索并进一步标记。然后，使用新数据和重放数据的混合来递增地训练网络。直到最近才被探索，第一个实验研究表明，灾难性遗忘甚至比分类任务更严重[29，31]。当前用于类增量语义分割的方法重新构建了受先前关于图像分类的工作启发的知识提取策略[29，5，23，31]。虽然它们部分地减轻了遗忘，但是当执行多个递增步骤或者当背景移位[5]（即，在学习步骤中背景的统计数据的变化，因为它合并了旧的或未来的类）。在本文中，我们遵循一种完全不同的策略，而不是从教师模型中提取知识（即，旧类）为了避免遗忘，我们提出通过使用重放策略来生成旧类的我们提出了RECALL（REplay in Continual Learning），一种重新创建旧类的表示并将它们与可用的训练数据混合的方法，即包含要学习的新类（参见图1B）。①的人。为了减少背景偏移，我们引入了一种自我修复策略，该策略根据先前模型的预测重新分配为了生成过去类的表示，我们追求两个可能的方向。第一种是基于预先训练的生成模型，即生成对抗网络（GAN）[15]条件化以产生输入类的样本。GAN已经预先在与目标数据集不同的数据集上进行了训练（我们选择ImageNet，因为它包含各种各样的类和域），因此需要一个类映射模块来执行两个标签之间的转换......7027CM：X › RH × W ×|C|X ›◦◦T X × Y∈ Y CC C ∈C∈ X空间.相反，第二种策略是基于从网络上抓取图像，查询类名来驱动搜索。这两种方法都允许检索大量的弱标记数据。最后，我们生成伪标签的语义分割使用的侧标签模块，这只需要最小的额外存储。我们的主要贡献是：1）我们提出了RECALL，这是第一个使用重放数据进行连续语义分割的方法; 2）据我们所知，我们是第一个在持续学习中引入webly监督范式的人，展示了我们如何从极弱的监督和噪声样本中提取有用的线索;3)设计了一种背景修复策略，生成伪标签，克服背景偏移; 4）我们在广泛的场景中实现了最先进的结果，特别是在执行多个增量步骤时。2. 相关作品持续学习（CL）。深度神经网络在许多领域取得了显著的进步;然而，当这些模型被训练以连续地改进所学习的知识时，它们倾向于灾难性的遗忘（例如，新类别）从逐步提供的数据[16]。灾难性遗忘是一个长期存在的问题[36，14]，最近已经在各种视觉任务中得到解决，例如图像分类[22，35，26，43，33]，对象识别[22，35，26，43，33保护[40，25]和语义分割[29，31，5，23]。当前的技术可以分为四个主要的（非互斥的）类别[24]：即，动态体系结构、基于正则化的、排练和生成重放。动态架构可以是显式的[42，26]，如果新的网络分支生长，或者隐式的[13，37]，如果一些网络权重仅可用于某些任务。基于正则化的方法主要提出计算一些惩罚项来正则化训练（例如，基于权重对特定任务的重要性）[22，45]或从旧模型中提取知识[40，26，31]。排练方法将过去任务的一组原始样本存储到存储器中，然后在训练新任务时使用[35，28]。最后，生成重放方法[39，43，21]依赖于通常在相同数据分布上训练的生成模型，这些模型随后用于生成人工样本以保留先前的知识。生成模型通常是GAN [39，43，17]或自动编码器[21]。在这项工作中，我们采用了两种生成重放：或者求助于标准的预先训练的GAN，或者求助于网络抓取的图像以避免遗忘，而不存储与先前任务相关的任何样本。当使用生成模型时，与先前关于连续图像分类的工作不同，我们不选择真实样本作为锚来支持学习的分布[17]，也不对当前数据分布[39，17，43]训练或微调GAN架构，从而减少存储器和计算时间。语义分割中的CL。语义分割在过去几年中经历了广泛的研究兴趣，深度网络在这项任务上取得了显着的成果当前的技术基于FCN [27]首先采用的自动编码器结构，并且随后通过许多方法[6，7，46，44]进行改进最近，越来越多的注意力已经投入到类增量语义分割[29，5，30，11]中，以从新数据中学习新类别。在[29，31]中，该问题首次被引入并用正则化方法来解决，例如参数冻结（例如，在初始训练阶段之后固定编码器）和知识蒸馏。在[23]中，知识蒸馏与类重要性加权方案相结合，以强调困难类的梯度。 Cermelli等人[5]研究背景类的分布漂移。在[11]保留了特征级的长距离和短距离空间关系。在[30]中，潜在空间被正则化以改善类条件特征分离。Webly监督学习是一种新兴的范式，其中大量的网络数据被用于学习CNN [8，10，32]。最近，它也被用于语义分割，以在训练期间提供具有弱图像级类别标签的图像[20，38]和视频[19]最活跃的研究方向致力于理解如何查询图像、如何过滤和利用它们（例如，分配伪标签）。然而，据我们所知，网络监督学习尚未在持续学习中作为重放策略进行探索3. 问题公式化语义分割任务包括通过将图像中的每个像素分配给来自可能的语义类集合的类来标记图像中的每个像素，所述语义类集合通常还包括我们表示为B. 更正式地说，给定一个图像XRH×W×3，我们的目标是产生一个映射YH×W，它是地面实况图Y的预测。现在这通常通过使用合适的深度学习模型来实现通常由特征提取器E和其后的解码模块D来实现，即，M=D E。在标准的监督学习中，模型是在在训练集上的单次射击，以其完整形式可用于训练算法。相反，在类增量学习中，我们假设训练在多个步骤中执行，并且在每个步骤k = 0，…， K. 更详细地，我们从初始步骤k = 0开始，其中仅训练关于所有类的子集的数据0可用（我们假设最佳0）。我们用M0表示：RH×W×|了c0|，M0=D0E0，在该初始步骤之后训练的模型。移至一般步骤k，则将一组新的类Ck添加到类集合中C0（k−1）学习到这一点，导致e扩展7028⭢⭢x =x×x × x| C0→k |R，其中M =D◦ E，kkk0⭢CX0CCCT X ×YCk∈XCCk不CK不CCC⭢⭢不LCTC≥不1（M;C，T）=−KCkCkn=1RpH ◦一组可学习类C0k=C0（k−1）∪Ck（我们假设C0（k−1）∩Ck=）。第k步训练后的模型因为在我们的方法中，在增量步骤期间不训练编码器E0，并且仅更新解码器[29]。已经提出了两个主要的连续场景（参见[29，30，5]以获得更详细的描述），并且我们解决了两者都在一个统一的框架内。不相交设置：在初始步骤中，列车中的所有图像-以前的迭代。为此，我们引入了一个重放块，其目标是双重的。首先，它必须提供类似于前面步骤中的类实例的图像，无论是从头生成它们还是从可用的替代源（例如，网络数据库）。第二，它必须获得这些图像的可靠的语义标签，通过诉诸从过去的步骤中学习到的知识。重放块至少有一个像素属于0类的集合（除了b）被假定为可用。我们用S：CkCk（二）YC0∪{b} CH×W对应的输出空间这个模块接受一组类的输入k（背景排除），并提供其语义内容可以Bel只能属于0，而不属于这些类别的所有像素都被分配给B。增量分区被构建为整个训练集的不相交子集。与第k步相关联的训练数据kCk∪{b} 仅包含与k中的类相对应的图像，其中仅注释的步骤k的类（可能的旧类被标记为b），并且相对于. r.t.以前和过去的分区。被归于那些类别（例如，Xrprp）。我们采用两种不同的解决方案的源块，即GAN和基于Web的技术，都在第二节中详细介绍。五、源块提供未标记的图像数据（如果我们排除弱图像级分类标签），因此我们引入了额外的标签评估块{LC}CC，其目的是注释的例子亲-重叠设置：在第一阶段我们选择子集k k的训练图像，仅具有0标记像素。然后，在每个增量步骤处的训练集包含具有来自Ck的标记像素的所有图像，即，TkX × YCk∪{b}.由重放模块显示。该块由单独的实例LCk=D E0组成，每个实例表示用于对特定语义类别集进行分类的分割模型Ck∪{b}（即，Ck中的类加上背景）：类似于初始步骤，标签被限制到Ck中的语义类，而剩余的像素被分配给b。LCk ：XCk› RH×W ×（|Ck∪{b}|）（3）在这两种情况下，b在每一步都经历语义转换因为不断变化的类集合的像素被分配给它。4. 一般架构在标准设置中，利用来自训练集的注释样本来训练分割模型M。数据应该代表我们想要解决的任务，这意味着所有考虑的问题的多个实例在提供的数据集中应提供Mantic类C所有LCk 模块共享编码器部分E0初始训练步骤，使得仅分段的最小部分分段网络（即，DH，它只占几个参数，见第二节。7.1）被存储用于每个块请注意，可以使用识别所有类的单个实例，这会导致更紧凑的表示，但在实验中，它会导致更差的性能。假设S和L_C_k可用，则可以针对C_k中的类收集重放训练数据。一个对Sout的查询提出一个通用的图像示例Xrp=S（Ck），则以便分割网络正确地学习它们。一旦与其预测YrpCk相Rp.已经组装，交叉熵目标通常用于优化M的权重：ΣΣΣce|不|X，Y∈Tc∈CK =arg maxLCk（Xk）[c]c∈Ck ∪{b}通过检索多个重播示例，我们构建了一个重播rprpNrdatasetRC={（X，Yn}，其中，Nr是固定的在增量学习设置中，当执行假设只有与新类k相关的样本按照最简单的方法，我们可以从上一步（M k-1，k 1）初始化模型通过使用来自当前训练部分k的数据优化标准目标ce（Mk;0k，k）来在类0k上执行任务。然而，简单的微调会导致灾难性的遗忘，无法保存以前的知识。重放块的体系结构。为了解决这个问题，我们选择了重播策略。我们的目标是检索过去类中与任务相关的知识，将其混合到正在进行的增量步骤中，所有这些都不需要访问训练数据。转移现象，我们提出了一个简单而有效的-绘画机制，将知识从先前的模型转移到当前模型。虽然重放块重新创建先前看到的类的样本，但背景修复作用于当前样本的背景区域，减少背景偏移，同时带来类似于知识蒸馏的正则化效果[29，5]，尽管其实现方式完全不同。在训练集k的每一步k，我们获取每个地面真值映射的背景区域，并将其标记为来自先前模型Mk-1的相关预测（见图3）。我们称之为背景修复，因为标签地图中的背景区域根据自学习方案进行更改LY[c]·log M（X）[c]（一）超参数经验设置（参见第6节）。背景自修复。来处理背景7029输入：{T}kk=0KKK转k0→LC T不CLC ∪{ } T0→k−1，通过将其与Tbi合并，我们得到一个已组装RC到K 做←1图2：所提出的RECALL的概述：来自过去增量步骤的类标签被提供给源块，该源块是网络爬虫或预训练的条件GAN，其检索过去语义类的一组未标记的重放图像然后，“标签求值块”生成缺失的注释。最后，分割网络用重放增强数据集进行增量训练，该数据集由新类数据和重放数据组成。步骤k-1的预测算法1RECALL：增量训练程序。Kk=0输出：MK和{Ck}KtrainM0=E0◦D0，其中Lce（M0;C0，T0）trainSon（C0，T0）列DH与Lce（LC;C0，T0）对于C00对Tk进行背景修补以获得Tbi步骤k的基础事实列车Son（Ck，Tk）训练DH，其中Lce（LC;Ck∪{b}，Tk）图3：背景自修复过程。Ck Rp生成TkK=Tbi∪RCK0（k−1）训练Dk，其中Lce（Mk;C0→k，Trp）基于旧模型的预测更正式地说，我们替换在步骤k >0处可用的每个原始标签图Y它的修复版本Ybi：端步骤k的训练数据集是单个重放的并集Y[h,w]ifY[h,w]∈Ck每个前一步骤的设置kS−1.一旦我们Ybi[h，w]=arg maxMc∈Ck−1⑵[h，w][c]否则RC0→（k−1）=i=0时RCi其中（X，Y）∈ T，而[h，w]表示像素坐标。0（k−1）增广k步训练划分TkK=Tbi∪RCK0.（k−1）Knates。步骤k=0处的标签不被修复，因为在该阶段我们缺乏过去类的任何先验知识回来的时候执行地面修补，每个集合TbiX × YCK这个新集合，原则上，是带注释的sa→mples的完备集合包含旧类和新类，这要归功于重播数据。因此，我们通过交叉熵目标rp有效地学习分割模型Mk（k >0）包含修复后的Tk使用重播块的增量训练。RECALL的训练过程在A1-图1中详细描述和总结，并且该过程在图2中描述。二、假设我们在增量步长k处，仅训练数据为Ck中的类从分区Tk可用。在第一阶段中，ce（Mk;0k，k）on重放增强的训练数据。这减轻了对新类的偏向，从而防止遗忘。在第二阶段，如果需要，我们利用k来训练类映射模块（参见第二节）。（五）。特别地，我们教导源块S产生Ck的样本。并且我们优化解码器DH以正确地分段，重播块是固定的，用于检索带注释的数据对于从0到k-1的步长，均匀分布在所有结合EK0，来自Tk的通过最小化过去的班级。在所描述的流水线之后，生成和标记模型被独立地应用于每个增量类集Ci，i=0，… k−1。重播ce（LCk;kb，k）.在当前步骤中未利用该阶段，但在将来的步骤中将是必要的。在标准的增量训练阶段，我们遵循源块...重放图像标签评价块在步骤k重放数据增量训练重播块更新网络爬虫类生成映射模型重放标签增量数据集在步骤k不可用...步骤k中修复的数据背景修复............自修复标签...步骤k的图像（四）Rp7030K不K不KT TT∈ CKK不KCCC0（k−1）CK∈CCC−∈ CCkCK小批量梯度下降方案，其中批量注释的训练数据从Rp.然而，为了保证适当的信息流，我们选择交错采样策略，而不是随机的。特别地，在训练的通用迭代处，一批数据提供给网络的B rp由来自当前训练分区Tbi的r个新样本和来自RC0→（k-1）的r个旧重放样本组成。 r个新控件和r个旧控件之间的比率第一训练阶段，来自k的样本被馈送到图像分类器I，其被预先训练以解决GAN的数据集上的图像分类任务特别地，对于每个类ck我们选择相应的训练子集CK，即，集合k的与类相c，并且我们将由下式得到的类概率向量求和分类输出。然后，具有最高概率得分的GAN重播和新数据的比例（另见第二节）。7.1）。事实上，我们需要仔细地平衡新数据如何相对于重放一个被关闭，以便足够的信息关于cG= argmaxj∈CGXΣ←Tc I（X）[j]（6）在学习过程中提供新的类，同时我们帮助网络回忆在过去的步骤中获得的知识，以防止灾难性的遗忘。5. 重播策略在本节中，我们更详细地描述用于源块S的图像生成任务的重放策略。如前所述，我们选择基于GAN框架的生成方法和在线重新生成方法。其中X从c中提取（不使用标签），并且I（X）表示I的最后一个softmax层的向量输出，其第j个条目对应于第j个GAN的类。通过对k中的每一个类重复这个过程，我们建立了映射集G。类对应关系被存储，这样在每一步我们都可以访问过去迭代的类映射。在第二评估阶段中，0（k-1）中的类作为源块的输入。由于前面步骤中的类对应关系，C0（k−1）被映射为trieval解决方案，其中图像由网络爬虫收集CG关于CGAN. 接下来，以每个类为条件的图像生成并且所得到的重放图像由GAN重播。基于GAN的策略利用了一个深度生成对抗框架，为以前看到的类重新创建不再可用的样本我们使用一个条件GAN，G，在一个通用的大规模视觉数据集上预先训练，数据来自一组广泛的语义类G和不同的领域。对于实验，我们选择基于ImageNet [9]的预训练。在这方面，我们注意到类和域不需要完全一致：例如，Person在ImageNet中不存在，但是相关的类（例如， hat）仍然允许保存其知识（关于这一点的进一步考虑见补编第10号。Mat.）。当执行第k个增量步骤时，我们通过对GAN的生成器输出进行采样来检索Xrp=G（n，cG），条件是GAN由于GAN是在单独的数据集上预训练的，因此通常它继承不同的标签集。出于这个原因，具有GAN的源块由两个主要模块组成，即用于图像生成的实际GAN和用于将语义分割增量数据集的每个类别转换为GAN的训练数据集的最相似类别的类别映射模块假设我们已经训练了GAN和类映射模块，首先我们使用后者将类集k转换为匹配集G。然后，对条件GAN的生成器的一组查询0（k 1）被馈送到标签评估块以与它们的对应的语义标签。通过遵循这个过程，我们最终得到了适合支持当前步骤的监督训练的过去类的自注释数据，否则将限于新类。由Web Crawler重播。作为替代方案，我们建议从在线源检索训练示例。为了进行评估，我们从Flickr网站搜索图像，但可以使用任何其他在线数据库或搜索引擎。假设我们处于增量步骤k，并且我们可以访问过去迭代中每个类的名称（例如， c0（k−1）），我们下载其标签和描述碰巧都包含类名到Flickr然后，网络抓取的图像被馈送到标签评估块以用于它们的注释。与基于GAN的方法相比，在线检索解决方案更简单，因为没有引入可学习的模块。此外，我们完全避免假设一个更大的数据集是可用的，其类范围应该足够充足和多样化，以应付不断增加的新类。另一方面，这种方法需要互联网连接的可用性，并且以某种方式利用额外的训练数据，即使几乎没有监督。另外，我们缺乏对Web源执行的弱标记的控制Xrp=G（n，cG），cG∈CG（五）6. 实现细节提供类似于k中的样本的样本，只要映射能够将每个原始类正确地关联到GAN的标签空间中的统计上相似的对应物在每个增量步骤k处，具有GAN的源块在我们使用DeepLab-V2 [7]作为分割架构，ResNet-101[18]作为主干。然而，RE-CALL独立于特定的网络架构。Encoder7031Ck×个×个--Ck|C|×个×个×× ×|C|×个|C|×个在初始步骤0中训练网络在以下步骤中，仅训练主解码器以及附加的D Hk个辅助解码器，其需要注释重放样本（如在第2节中所讨论的）。4）.为了公平比较，所有竞争的方法都是用相同的主干训练的。带有动量的SGD用于权重优化，初始学习率设置为510−4，并根据幂0的多项式衰减降低到510−6。9 .第九条。根据以前的工作[29，31]，我们在不相交设置中为k1000个学习步骤训练模型，并在重叠设置中为k 1500个每个辅助解码器DH以多项式衰减的学习速率进行训练，该学习速率从210- 4开始并在210- 6结束，k1000步。作为源块，我们使用BigGAN-deep[4]在ImageNet上预先训练[1]在每个增量步骤k，我们为每个旧类生成500 个重放样本，即， N r=500。为了将分割数据集的类映射到GAN的类，我们使用在[ 2 ]中实现并在ImageNet上预训练的EfficientNet-B2[41]分类器。交织比r_old/r_new被设置为1。作为输入预处理，随机缩放和镜像之后是随机填充和裁剪到 321321px 。整个框架在TensorFlow [3]中开发，并在单个NVIDIA RTX 2070Super上进行训练训练时间因设置而异，最长的跑步时间约为 5 小时。代码和重放数据可在https://github.com/LTTM/RECALL上获得。7. 实验结果在本节中，我们介绍了对Pascal VOC 2012数据集的实验评估[12]。根据以前关于这个主题的工作[40，29，31，5]，我们首先分析三种广泛使用的增量scenar-ios的性能：即，最后一个类的添加（19-1）、一次添加最后5个类（15-5）以及顺序添加最后5个类（15-1）。此外，我们报告了三个更具挑战性的情况下，其中10个类依次添加一个（10-1），在2批5个元素（10-5）和所有一次（10-10）的性能。根据字母顺序选择增量步骤的类别我们比较了朴素的微调方法（FT），它定义了增量模型准确性的下限，并在一个步骤中对完整数据集进行联合训练，作为上限。我们还报告了简单的存储和重放（SNR&）方法的结果，其中在每个增量步骤中，我们存储新添加的类的一定数量的真实样本，使得平均的相应大小与RECALL所需的辅助解码器的大小相匹配（参见图2）。（六）。作为比较，我们包括2个方法扩展的分类（即LWF[26]及其单头版本LwF-MC [35]）和设计用于连续分段的最相关的方法（即，[29]，[23]，[24]，[25]，[26]，[27]，[29详尽以mIoU表示的定量结果示于表1中。对于每个设置，我们报告了初始类集合、增量步骤中的类和所有类的平均准确度，这些平均准确度是在整体训练后计算的。添加最后一个类。首先，我们在第0步中训练前19个类。然后，我们执行单个增量步骤来学习tv/monitor。查看表1（左上部分），我们注意到FT导致相对于W.r.t.联合训练，由于灾难性的遗忘。相反，RECALL显示出比竞争对手更高的整体mIoU，并且它在最后一类上特别有效，同时由于背景修复和重放策略带来的正则化，仍然保持了过去的高准确性。相反，SR严重忘记了以前的类，从而证实了重放数据的有用性。增加最后5节课。在该设置中，在初始步骤中学习15个类，而剩余的5个类在一次（15-5）中或一次一个地顺序添加（15-1）。与19-1设置相比，在增量迭代中添加多个类使得灾难性遗忘更加严重。事实上，FT和联合训练之间的准确度差距从19-1情况下的约41%上升到15-1情况下的超过70%仔细看看表1中的结果（上、中和右部分），我们的重放方法强烈地限制了由灾难性遗忘引起的退化这种趋势可以在15-5设置中观察到，并且在15-1设置中更明显，无论是在不相交还是重叠设置中：利用所生成的或web导出的重放样本证明有效地恢复过去类的知识，导致最终的mIoU接近联合训练的mIoU。相反，存储和重放原始样本提高了w.r.t.FT，但如果与我们的方法相比，最终导致mIoU降低超过20%。这是由于为了匹配辅助解码器大小而要存储的样本的数量有限：事实上，它们的唯一添加不足以充分地保存学习的知识。最后，我们观察到，当执行多个增量步骤时（场景15-1），RE-CALL可以比竞争对手更好地扩展，这在现实世界的应用程序中通常会遇到。增加最后10节课。为了分析前面的说法，我们引入了一些新的具有挑战性的实验，在以前的作品中没有评估。在这些测试中，在初始步骤中仅观察到10个类别，而其余类别以单个批次（10-10）、以每个5个类别的2个步骤（10-5）或单独地（10-1）添加。再次，FT受到在没有正则化的情况下执行增量训练时发生的信息丢失的严重影响，导致性能下降高达mIoU的约71%。在最具挑战性的10-1环境中进行联合训练。由于重放数据的引入，RECALL为分割精度带来了显著的性能提升，并且随着分割的难度越来越大，RECALL变得越来越有价值。7032mIoU（%）⭢⭢62. 9%52. 0% 20。百分之八⭢⭢表1：不同增量设置的Pascal V0C2012上的mIoU。上半部分竞争对手的结果来自[30，5]，而我们在下半部分运行他们的新场景实现。19-1 15-5 15-1方法不相交重叠不相交重叠不相交重叠1-1920所有1-1920所有1-1516-20所有1-1516-20所有1-1516-20所有1-1516-20所有FT35.213.234.234.714.933.88.433.514.412.536.918.35.84.95.64.93.24.5S R55.343.256.254.048.055.138.543.141.636.344.240.341.031.840.738.631.238.9LwF [26]65.828.364.062.637.150.235.170.269.123.42.329.213.822.132.660.839.733.338.267.059.869.014.975.575.441.822.646.437.349.452.661.026.215.123.624.015.021.9LwF-MC [35]38.51.036.735.441.525.437.651.06.92.15.76.92.35.8ILT [29]66.923.464.849.231.525.130.063.66.71.25.45.71.04.6CIL [23]62.618.160.534.042.635.040.820.233,315.929.16.34.55.9MiB [5]69.625.667.467.871.843.364.769.046.212.937.935.113.529.7特别提款权[30]69.937.368.467.473.547.367.269.959.212.948.144.721.839.2召回（GAN）65.250.165.867.953.568.466.349.863.566.650.964.066.044.962.165.747.862.7召回（Web）65.047.165.468.155.368.669.252.966.367.754.365.667.649.264.367.850.964.8联合75.573.575.475.573.575.477.568.575.477.568.575.477.568.575.477.568.575.410-10 10-5 10-1方法不相交重叠不相交重叠不相交重叠1-1011-20所有1-1011-20所有1-1011-20所有1-1011-20所有1-1011-20所有1-1011-20所有FT7.760.833.07.858.932.17.241.923.77.437.521.76.32.04.36.32.84.7S R25.153.941.718.453.338.226.028.529.722.228.527.930.219.327.328.320.827.1LwF [26]LwF-MC [35]ILT [29]CIL [23]MiB [5]特别提款权[30]63.152.467.737.466.967.561.142.561.360.657.557.962.247.764.748.462.462.970.753.970.338.470.470.563.443.061.960.063.763.967.248.766.348.767.267.452.744.653.427.554.355.547.943.048.141.447.648.250.443.850.934.151.152.055.544.355.028.855.256.947.642.044.841.749.951.351.743.251.734.952.754.26.76.914.17.114.925.56.51.70.62.49.515.76.64.47.54.912.320.816.611.216.56.315.126.314.92.51.00.814.819.715.87.19.13.615.023.2召回（GAN）62.656.160.865.058.463.160.052.557.860.852.958.458.346.053.959.546.754.8召回（Web）64.156.961.966.058.863.763.255.160.664.857.062.362.350.057.865.053.760.7联合76.67475.476.67475.476.67475.476.67475.476.67475.476.67475.4设置增加。在10-10的情况下，我们的方法达到80mIoU结果略低于竞争对手（尽管com-70寓言）。随着复杂性的增加，我们的方法能够60在10-550年内超过竞争对手约8%的mIoU并且在10-1中增加了37%的mIoU我们注意到如何回忆40显示出令人信服的提供相当稳定的30%的在不同的设置中的精度，而不管用于引入新类的增量步骤比如说，10-1不相交场景Aero Din的狗马姆比凯人植物羊沙发列车监控在不相交的情况下，当从更简单的设置移动到更有挑战性的设置时（即，从10-10到10-1，通过对奶牛表增量类10-5），F T 的mIoU下降为33。0%的百分比23岁占7%4.第一章百分之三图4：mIoU在10-1不相交的10个任务上的演变而SDR之一（即，最佳比较方法），而我们的方法保持了ADE20K [47]的初步评估，请参见Suppl. Mat.在图1中的10-1不相交场景上的每个增量步骤之后报告mIoU。4，其中我们的方法在每个学习步骤中显示出高得多的mIoU，表明与竞争对手相比，对遗忘和背景转移的抵抗力提高。在图中的定性结果中。我们观察到RE-CALL有效地减轻了遗忘，并减少了对新类的偏见。在第一行中，总线被正确地保留，而FT、SR和图像修复错误地将其分类为火车（即，新的类之一）;在第二行，FT将绵羊和电视（新添加的类）放置在牛的位置;在第三行，一些马额外的结果，一些测试7.1. 消融研究为了进一步验证我们的方法的鲁棒性，我们进行了一些消融研究。首先，我们分析了内存需求。Fig.图6以半对数标度示出了在每个增量步骤结束时要存储的数据的存储器占用（以MB表示），作为到该点为止学习的类的数量的函数。我们用标准表示不存储任何样本增量方法（例如，FT、LwF、ILT、MiB、SDR）。所保存的模型通常对应于固定大小的编码器和解码器，其维度在每个步骤中略微增加以考虑新的可学习类的附加输出通道相反，保存图像指的是存储过去步骤的训练图像的极端场景，从而可用稳定的mIoU趋势为61。百分之九六十岁。占6%20五十七百分之八最后我们FTILTSDR记录L（GAN）MIBRECALL（Web）10703366064062060019519018518017517016510 12 14 16 1820Ci i=0时--RGB GT FT S R修复RECALL（GAN）RECALL（Web）关节图5：不相交增量设置的定性结果：从顶部到底部15-1、15-5和10-1。（最好用彩色）。103900800700600500400300表2：显示每个模块D的贡献的mIoU结果：不相交，O：重叠。19-1 15-5 15-1 10-10 10- 5方法D O D O D O D O D O D OBgr输入 65.6 66.7 52.2 52.5 四十九点七四十九点九58.8 60.7 47.5 47.1 34.0 39.0GAN54.5 56.2 四十九点八四十九点一47.9 48.2 四十五点八四十八点八38.1 43.7 36.6 40.8Web57.3 57.4 55.2 54.7 55.0 53.7 55.2 58.2 47.9 52.1 45.4 50.1GAN+输入65.8 68.4 63.5 64.0 62.1 62.7 60.8 63.1 57.8 58.4 53.9Web+inp. 65.4 68.6 66.3 65.6 64.3 64.8 61.9 63.7 60.6 62.3 57.8 60.720010 1214十六十八二十二十二观察到它的效果倾向于随着多个递增步骤而减弱。例如，从10-10移动到10-1 重叠设置，mIoU下降超过20%。上类别计数图6：不相交场景中的内存占用。64626058561/5 1/4 1/3 1/2 1/1 2/1 3/1 4/1r新/r旧图7：15-1不相交中的不同交织策略。在整个增量过程中。关于我们的方法，为了注释最初弱标记的重放图像，我们设计了一个特定的模块（Sec.4），这需要保存一组辅助解码器D_H_k，每个过去的步骤一个辅助解码器。最后，对于基于GAN的方法，我们添加了生成模型所需的存储。图6显示了我们基于web的解决方案在内存占用方面非常接近标准解决方案存储GAN所需的空间与在非常初始的步骤中保存图像所需的空间相当，但随后保持不变，而用于保存所有训练数据的空间快速增长。我们在表2中进一步分析了背景内画和重放技术的贡献。虽然单独的修复在知识保存方面提供了坚实的贡献，类似于知识蒸馏，但我们认为这是一个很好的解决方案。624/SS62012十六二十10 12 14 16 18 20174171180177186183616保存图像标准///（10-10）（10-5）（10-2）（10-1）Web / GANWeb / GANWeb / GANWeb /GANGANWeb10-115-515-1内存占用[MB]mIoU（%）7034另一方面，当涉及多个训练阶段时，所提出的重放技术被证明是在相同的设置下，单独的重放技术将降级限制在仅8%。然而，联合采用重放和修复进一步提高了所有设置中的最终结果（高达15%），证明它们可以有效地组合。最后，我们分析了结果如何不同w.r.t.在训练期间看到的新（r新）和重放（r旧）样本的比例（图10）。7）：mIoU相对于r.t.是相当稳定的。然而，当使用相同数量的旧样本和重放样本时，即，r新/r旧=1。8. 结论在本文中，我们介绍了RECALL，其目标是连续的语义分割的重放策略，以减轻灾难性的遗忘和背景修复，以减轻背景移位。提出了两种重放方案来检索与前训练阶段相关的数据，要么通过条件GAN再现数据，要么从网络上抓取数据实验分析证明了我们的框架在提高准确性和鲁棒性的多个增量步骤相比，竞争对手的功效。新的研究将改进生成模型，将其与增量设置更严格地耦合，并探索如何控制和改进Web抓取过程中的弱监督还将对ADE20K等不同数据集进行评价7035--引用[1] BigGAN-deep 512 的 Tensorflow 模块， https ：tfhub.dev/deepmind/biggan-deep-512/1 。于2020年3月18日生效。[2] TensorFlow模块的EfficientNet-b2https：//tfhub.dev/google/efficientnet/b2/分类/1。于2020年3月18日访问。[3] Mart´ın Abadi，Paul Barham，Jianmin Chen，ZhifengChen，Andy Dav

下载后可阅读完整内容，剩余1页未读，立即下载