增强几何蒸馏方法解决无数据增量人ReID的问题

64 浏览量更新于2023-10-25 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7329无数据增量人ReID的增广几何蒸馏北京邮电大学{yichen.lu，wangmei1，whdeng}@ bupt.edu.cn摘要ReID任务1 ReID任务2 ReID任务3增量学习（IL）仍然是个人重新识别（ReID）的一个开放问题然而，由于严格的隐私许可证和开放集检索设置，使ex-class IL方法适应ReID是棘手的。在这项工作中，我们提出了一个增强的几何蒸馏（AGD）框架来解决这些问题。第一，一般的无数据增量火车Eval数据集1数据集2数据集3构建了一个包含梦记忆的框架，以避免隐私泄露。在此基础上，我们揭示了一个由梦的记忆中的噪音引起的“噪音蒸馏”问题，并进一步提出了在不同的记忆视图上以成对和交叉的模式增强蒸馏以减轻它。其次，对于开集检索，我们提出了一种新的几何方法来保持特征空间的结构在进化过程中，并保持样本之间的关系时，表示漂移。广泛的实验证明了我们的AGD相对于基线的优效性代码在这里†。1. 介绍人物再识别（Person Re-identification，ReID）的目的是从大规模的图库集中识别出与查询相同的人物的所有图像。对特定数据集的训练经验性地使ReID系统能够在相应的领域中成为专家。然而，它抑制了ReID系统适应不断变化的环境，特别是在处理来自增量域的流数据或一系列ReID任务时。我们希望系统能够在增量域中扩展其泛化能力，同时保持其在基础域中的能力，简而言之，这是在避免灾难性损失的同时积累新知识[12，29]。为了克服这种类似的限制，提出了类增量学习（CIL）[5，10，18，24，33，44]*通讯作者†https://github.com/eddielyc/Augmented-Geometric-Distillation图1.无数据IL-ReID框架的图示。当在一系列ReID任务上训练时，该在所有可见的领域都采用了评价方法。由于ReID中的隐私问题，重播是在无数据设置中[37，47]，其中没有存储先前的真实数据，而是梦想记忆驱动器中继。在分类中，任务和努力致力于找出如何渐进地学习。尽管CIL取得了巨大的成功，但由于严格的隐私问题和开放集检索设置，直接采用ReID系统时仍然面临挑战首先，在CIL中，通过重放预先存储的样本来提醒网络先前的知识是公认的[5，19，33]，以减轻灾难性的遗忘。然而，重放真实数据的机密性面临着违反ReID中隐私许可的风险。第二，一方面，ReID实质上是一个开集检索任务，与闭集分类相比，它更注重构造一个鲁棒的特征空间，因为在检索排序中，不仅表示而且它们的邻域都起着关键作用.另一方面，顺序地输入新知识将不可避免地导致语义漂移[49]并扭曲先前的特征空间，从而导致遗忘。因此，在稳定先前域的特征空间和适应增量域的特征空间之间存在一个关键但被忽视的矛盾。考虑到上述限制，我们对增量ReID（IL-ReID）进行了进一步研究[32]，并提出了一种新的增强几何蒸馏（AGD）框架，该框架由增强蒸馏（AD）和几何蒸馏（GD）组成。首先，为了解决隐私问题，我们首先构建了一个通用的无数据增量，重放重放...域1域2结构域37330θθi=1n我我 i=1IL-ReID 的心理框架（图中的概述）1 ），其中由DeepInversion [47]生成的做梦记忆驱动重播过程，而无需访问先前的真实数据。不幸的是，由于质量差，直接重放这些梦的例子会导致一种被称为“噪音蒸馏”的现象为了缓解这个问题，我们进一步建议增加蒸馏本身。受对比学习的启发，我们以成对和交叉的方式产生不同的记忆和提取视图，以增强鲁棒性并减少扰动。其次，为了解决开集检索特性带来的矛盾，我们提出了为检索任务量身定制的几何蒸馏（GD），我们的直觉是在漂移时保持前一个特征空间的结构，而不是稳定整个空间并使漂移永久化。前空间的结构是用梦记忆中的例子来为了防止样本以自己的方式任意漂移和这允许适应新知识的特征空间，同时保留丰富的先前信息用于检索，在学习和记忆之间提供折衷。最后，我们的贡献可以概括为：i) 我们构建了一个无数据增量框架的ReID与梦想的记忆。它没有隐私问题;ii) 我们提出了增强蒸馏（AD），其中蒸馏以成对和交叉模式进行，iii) 我们提出了几何蒸馏（GD），通过在漂移时保持空间结构的几何性来适应新的和先前的知识用于检索任务;iv) 我们将CIL中的主流解决方案改编为ReID。广泛的实验表明，我们的AGD优于基线，其裕度为6.0%mAP/7.9%R@1，并有望推广到CIL。2. 相关工作2.1. 增量学习增量学习[41]研究了顺序地积累知识而没有灾难性的损失[12，34]的问题。为了实现这一点，基于参数的方法-注入IL。 Dhar等人 [9]进一步提出限制注意力。iCaRL[33]及其改进的变体[5，18]引入了重放机制，其中存储器被维护以存储用于重放的有限样本。在此基础上，Wu et al. [44] Hou et al. [19]纠正了分类器中的偏差。PODNet [10]提取了池化的中间特征图，GeoDL[36]限制了较低维度的测地线TOPIC [40]和TPCIL [39]将重点放在样本的拓扑上。尽管有值得注意的见解，但紧凑的存储器对于所有这些基于重放的方法都是不可或缺的。作为无数据框架，ARM [21]和ABD [37]代替重放生成的内存，但忽略了“噪声蒸馏”。SDC [49]在没有记忆的情况下测量语义漂移，但它是面向分类而不是检索的。2.2. 无数据知识转移作为Hinton等人的开创性工作。[17]，提出了一种基本解决方案，将知识压缩到学生网络中，基于此，一系列工作[25，45，46，50]报告了更有效的解决方案。然而，上面的大多数方法都是数据驱动的。为了解决这个缺陷，一些作品设法生成图像。Lopes等人[26]通过网络的元数据合成图像。Bhardwaj等人。 [3]通过预先记录的类的质心来合成样本。一些作品[4，14，47]发现，限制生成的图像以匹配教师网络中的BatchNorm [20类似地，Yoo等人。 [48]和Chen等人。[6]训练解码器输出类条件图像。此外，一些论文[8，11，30]以对抗策略转移知识。尽管取得了显著的进步，但如何在预训练的基础模型中保留知识并从新任务中逐步学习仍然没有得到充分的探索。3. 背景和无数据框架在本节中，我们定义了IL-ReID（Sec.3.1），并明确ReID的无数据增量框架（第3.1节）。3.2）。3.1.问题定义在IL-ReID中，为了提供基本知识，T1引导任务序列。按照LUCIR [19]中的设置，第一个任务T1包含各种各样的样本，以实现强基模型f1。之后，类似于CIL中的任务增量设置[31]，来自ReID任务序列T2，T3，T4... 将持续呈现以进行增量学习。在Tn的增量训练阶段，基础模型f n−1演化为f n。在此期间，我们可以θ θeters正则化[2，23]试图惩罚更新前面的任务的参数。基于参数隔离的方法[1，22，28]为新任务提供了额外的参数只能访问基本模型f n−1和数据集T n。埃斯佩通常，没有基本任务T1：n-1={Ti}n-1的真实数据可用。Tn的数据集表示为DT={（xn，yn）}Nn，最近的主流是关于重放的见解，其中（xn，yn）是第i个图像及其ID。N是一个数字，我我理论和知识的提炼[24]第一次见面，DTn中的图像的BER。7331θθθθθDM−θ·∥·θθ初级专家对学习做梦学习重放专家做梦学习重放专家做梦重放增量数据集...梦的记忆图2.我们的无数据框架的管道在第n个增量步骤中，做梦：产生做梦记忆MT1：n−1，学习：从DTN中学习新知识，重放：重放记忆MT1：n−1，通常是蒸馏。目标. 当基本模型f n-1演化为f n时，并重新制定基本框架目标：Lbas e（x，x∈）=Lre p（[x∈x∈]）+λLκ（x∈），（2）其中Lκ（·）是重放中的知识蒸馏项。4. 该方法基于上述设计，我们提出了一种新的增强几何蒸馏（AGD）框架，以i）：解决做梦分类中的“噪声蒸馏”问题节中4.1，我们解释了为什么会产生噪音，可视化它如何影响蒸馏，以及如何通过我们的增强型蒸馏来减轻噪音。节中4.2.通过在欧氏特征空间中保持几何结构，为在表示漂移时保持知识提供了一条全新的途径4.1.强化蒸馏如上所述，为了避免隐私泄露，我们采用做梦数据作为记忆。我们希望DeepInversion生成的数据可以作为有效的我们期望（i）：θθ有效地作为真实数据。然而，它的缺点是，在基本任务T1 ：n-1中积累的知识应尽可能保留; ii）：基于预先训练的f n−1，f n应该学习增量任务T n的更好表示。简而言之，在Tn上训练之后，f n应该在T 1：n中的所有可见域上表现良好。3.2.无数据增量框架为了避免隐私问题，与将真实数据存储为内存相比，固定基模型fn-1梦见记忆和回放梦的记忆是通过DeepInversion构建的[47]。为了合成图像，优化输入x，以鼓励固定的基础模型f n−1输出相应的标签y。在优化过程中，输入被正则化以匹配f n−1中的BatchNorm，从而近似于先前的分布。在生成之后，做梦记忆MT1：n−1={（x<$i，y<$i）}将由基本模型f n-1构建，以通过重放和蒸馏保留先前的知识。表示学习。在大多数ReID研究中进行基本的表征训练后，考虑到来自Tn和做梦的数据x从T1：n1、模型应采用交叉熵对输入进行正确分类，不完美地模仿真实图像分布导致畴隙。例如，由于质量差，并且这种域间隙削弱了对数据增强（例如，裁剪、翻转和REA [52]）的鲁棒性，如图11所示。4（左）。这种意外的扰动扩大了特征空间中梦样本的发散，这在典型的成对知识提取中引入了噪声的过拟合，如图1所示。4.（对）因此，会使人忘记。更糟糕的是，这样的扰动可能会给我们的几何提取带来更多的不利影响（详见第二节）。4.2）由于梦样本之间的不稳定关系在这种情况下，教师的指导是嘈杂的，但数据增强是必要的，以促进样本的多样性。为了两全其美，我们建议增加蒸馏本身。具体来说，为了减轻每次迭代中的扰动，我们首先遵循对比学习[7，13，15]来构建具有独立数据增强的数据x′和x′′的两个这些视图来自相同的样本x，并且应该具有教师f n −1所展示的更鲁棒的特征e。由于上述原因，老师输出tw o vie wsf n−1（x′）和f n−1（x′′）的特征，θ θ熵损失L和具有三重态损失的分离类边界ce我是特里。我们一起将表示损失公式化如下：Lre p（[x<$x<$]）=Lc e（[x<$x<$]）+Lt ri（[x<$x<$]），（1）其中[]表示批处理轴中的数据级联。框架目标。我们框架的流水线如图所示。二、我们将表征学习分歧。为了获得更稳定的提取效果，我们对两个视图的成对提取的梯度进行平均。此外，x′和x′′是从同一分布中采样的，并形成全等对（x′，x′ ′）。为了更好地保持视图之间的一致性，我们考虑对称地提取视图，如图所示。3（左）。交叉机制提供了至少四种相同观点的指导7332梦的记忆T：底座模型8月8月增量式数据集S：进化SXM−D⟨··⟩··2Lθθ左中右模型Aug不SO增量做梦梯度特征师生数据流数据流流特征特征图3. Left: Pipeline of our Augmented Geometric Distillation (AGD). 基本表征学习由TN和T1：N进行1 .一、在保留知识的同时，增加了蒸馏过程，以滤除做梦数据中的噪声。图中：欧几里得空间中的几何蒸馏的说明，鼓励由特征点构建的类的多面体在用尺度和平移变换来近似其子空间的相似性时保持它们的相似性。这个过程是由做梦的记忆驱动的M，它是由Zn−1中的特征生成的图像集合。右：基本AAA相似性准则的几何解释左权嘈杂嘈杂可以是KL发散的形式，如iCaRL [33]：存储器增强Lkl（x）=KLp（y|x，f n−1），p（y|x，f n），（4）或者以cos的形式作为LUCIR [19]，以获得更丰富的特征信息：Lcos（zn−1，zn）= 1 −<$zn−1，zn<$，（5）其中，i表示cos（i）运算，z表示特征i。e. ，zn−1=f n−1（x<$），zn=f n（x<$）.θ θ4.2.几何蒸馏图4.噪声蒸馏的可视化。左图：在这个图中，五个MSMT17的梦想样本（第二。5.1）增强20倍，并使用t-SNE可视化特征[42]。为了进行比较，MSMT17的原始图像用相同的操作处理，观察到小得多的发散。点：特征，十字：簇质心，圆半径：分歧。右：典型成对方式的噪声蒸馏的链式反应。观察，以突出视图中共享的有效信息，并减少噪声部分。目标写为：LAD（x′，x′′; Lκ）在增量学习过程中，特征空间漂移是不可避免的，任意漂移可能会扰乱空间结构（图1）。（五）。尽管惩罚漂移的成功（例如Equ. （5）保存已有知识与学习新知识之间存在矛盾，前者厌恶漂移，后者必然导致漂移。这个问题困扰ReID，特别是由于开放集检索属性。为了达成妥协，我们提出了一个全新的解决方案，其中空间漂移没有明确惩罚。我们的直觉是保持漂移时每个类的子空间的几何结构，并保持最具区别性的表示，用于检索任务的排名。该方法具有适应新数据的灵活性，同时保留了丰富的=1μL（x′，x′）+（1−α）Lκ（x′，x′′）（三）信息与几何方法的关系。+αLκ（x′，x′）+（1−α）Lκ（x′，x′），其中κ（x′，x′ ′）计算教师输出f n−1（x′）和学生输出f n（x′ ′）之间的蒸馏损失项。噪声蒸馏κ7333定义1给定欧氏空间Z，如果双射g（x）=rAx+t将Z中任意两点x1和x2映射到欧氏空间Z′，d（g（ x1 ）， g（ x2 ））=r·d（ x1 ，x2），其中d（·，·）是欧氏距离，我们称Z′为相似的。θ θ线性空间到Z，r是标度系数。其他三个术语的表述方式类似。α是平衡成对项和交叉项的权重。通常，Lκ（·）A是一个正交矩阵，t是一个平移向量。7334IJIJLZM−θGOutput：Dnn−1nL··9：更新f中的nθ。θθθθθ是一个+ Lcos（zn−1−zn−1，zn−zn），θθθθLLθ.Σθn-1′，n-1′′G和n′，n′′.Zlem到约束f n（x）=rf n−1（x）。基于Equ. 六、θ θ中集聚新知识我们将具有特征漂移的约束公式化为：Lrt（Zn−1，Zn）=Lr（<$Zn−1，<$Zn），（8）G G其中，Zn={zn|ij，（x<$i，x<$j）∈P}且<$Zn−1={n−1}|ij，（x<$i，x<$j）∈P}. UnlikeLcosonlycon-图5.任意漂移的可视化当积累新的知识时，新的特征被嵌入特征空间。为了适应新的知识，先前特征空间中的特征以自己的方式漂移，破坏了它们的空间结构。在几何学上，两个空间的相似性被定义为：在我们的研究中，单个特征的应变方向以一种连续的方式缩放和漂移，其中G是重要的是要保持内部的关系范例同时，尺度系数r和平移向量与更严格的准则如MSE损失（MSE1或MSE2）相比，不具有令人印象深刻的可塑性，其中子空间被强制与先前的子空间全等，即e. ，f n（x）=f n−1（x）. 请注意，在这种情况定义1。相应地，我们期望特征子空间θ θ通过保持其漂移时的相似性，使其在进化时保持其结构，即： e. ，f n （ x<$ ） =gf n−1 （ x<$ ） =rAf n−1（x<$）+t，其中x<$θθ的Equ。8中，正交矩阵A是单位矩阵为了简单和实用，没有采用旋转和反射（更多细节见附录）。4.3.总体目标和算法且f n（x<$）∈Zn，f n−1（x<$）∈Zn−1. 在实践中-因此，难以约束特征空间中的所有点。然而，对于做梦数据集，我们可以在n-1中采样特征点。这些点形成了多角体，n−1我们进行递增学习的AGD框架概述如图所示。3.第三章。由于AD机制的普适性，很容易对Lrt进行在Z中响应类，我们近似空间相似性，总体目标如下：G通过保持多面体的几何结构的相似性，如图所示。3（中间）。从基本形式f n（x∈N）=rf n1（x∈ N）开始，其中f n（x<$）是f n−1（x<$）的标度，为了实现这一点，我们建模LAG D（x，x∈）=Lre p（[x∈x∈]）+λLA D（x∈;Lrt），（9），优化过程总结如下。θ θ损失为：算法1增强几何蒸馏（第n个任务）L r（Z n−1，Z n）=E[Lcos（zn−1，zn）+ Lcos（zn−1，zn）]输入：增量数据集固定基数模型n−1。G（x<$i，x<$j）∈PiijjΣ我J我J（六）Tnfθ收敛演化模型F1：生成做梦记忆MTfn-1。其中，P表示正样本对的集合，并且1：n−1θ2：用f θ初始化演化模型fθ。Zn ={zn|zn=f n（x）}，Zn−1 ={zn−1|zn−1=3：不收敛时做i iθin−1ii4：采样并增大x DTn→ x。fθ（x∈i）。在这种约束下，Cos（i）促使两个矢量与取向平行。三个月在Equ。6满足AAA准则的三角形相似在其平面内，如图所示3（右）。在enu-5：采样并增加两次xMT1：n−1→x′，x′ ′。6：计算Lrep（方程式 1）其中fn（x），fn（x′）和fn（x′ ′）.7：计算LA D（·;Lrt）（等式 3、Equ。8）之间f（x）ff（x）f（x）θ θ（x）θ θ合并所有的正对和收敛，三角形与Zn−1梯度中的共享边和多面体链接在一起8：计算LAGD（方程式（9）向后。θ在n中的所有多面体中。并且由于比例系数r在等式中没有定义6、明确地说，r是学习的。10：结束时11：将下一步的演化模型f n固定为基础模型。自适应地和独立地在每个子空间中。基于以上讨论，我们现在考虑平移向量t，其可以被视为特征分布的漂移为了允许漂移并保持几何结构的稳定性，g iv en双射f n（x）=rf n−1（x）+t和tw o样本xi，xj，7335θ θij5. 实验5.1.数据集和评价方案Market-1,501[51]包含从6个相机收集的1，501个身份的32，668个注释图像。一万二千九百三十六zn=zn−zn=f n（x使用了751个身份的图像和19，732个图库图像伊日jθiθj（七）分别用于训练和测试=rf n−1（xi）−rf n−1（xj）=rzn−1，其中，n是n−1的尺度，这是一个类似的问题。PersonX[38]是Unity在可控摄像机和环境下生成的数据集它有9，840张图像/ 410个ID用于训练，35，952张图像/ 856个ID用于测试。ij ij7336--→θ ·×DM−|M|动机方法MSMT17→市场（M对M）MSMT17→ PersonX（M-to-P）MSMT17地图秩 -1市场地图秩 -1AVG地图秩-1MSMT17地图秩 -1PersonX地图秩 -1AVG地图秩-1Oracle基础数据集45.771.521.845.033.758.345.871.428.054.236.962.8增量式数据集2.89.278.190.340.549.81.23.683.693.342.448.5FinetuneOrigin LR4.814.281.291.843.053.03.19.283.994.143.551.71/ 10lr11.027.778.190.944.559.38.322.181.592.944.957.5正则化EWC [23]23.248.166.084.144.666.120.944.861.782.041.363.4瑞典皇家科学院[2]22.446.767.785.045.165.922.246.662.282.042.264.3蒸馏LwF [24]9.623.469.985.639.754.55.514.271.483.538.548.8AKA [32]11.327.879.591.645.459.712.018.381.692.046.855.2[47]第四十七话iCaRL [33]27.650.782.892.855.271.829.853.683.493.256.673.4美国[37]38.563.579.792.059.177.738.964.579.291.359.077.9LUCIR（w/cos）[19]37.462.480.492.058.977.238.864.080.991.959.877.9[19]第19届世界杯足球赛39.765.377.890.858.878.140.866.075.789.758.277.9[19]第19届世界杯足球赛37.963.080.291.959.077.538.964.180.591.859.778.0PODNet [10]40.866.678.390.959.678.741.667.077.790.159.678.6GeoDL [36]38.363.779.091.558.777.639.464.679.091.459.278.0AGD41.967.580.591.961.279.741.867.481.092.161.479.9Oracle联合48.773.782.392.265.583.046.171.682.092.664.082.1表1.与CIL中主流方法族的比较。iCaRL [33]和LUCIR [19]：具有方程的基线溶液。2κ=kl（方程4）和κ=cos（Equ. （5）分别。Oracle：在相应数据集上进行监督训练。请注意，所有结果都是在接缝廊道上获得的（详见第5.1）。为了公平比较，基于ReID中的基本表示损失，我们只复制了基于蒸馏的方法的蒸馏部分粗体和下划线：最佳和次佳结果。MSMT17[43]由4，101个身份的126，441个边界框组成，其中1，041个身份的32，621个图像形成训练集，其余的形成测试集。评价方案。在增量学习之后，我们将所看到的任务的所有测试集表示为T= （Q i，G i），其中（Qi，Gi）是第i个任务的查询集和图库集到为了评估模型在各个领域的性能，我们定义了联合图库为所有单独图库集的交集，即：e. ，G=<$（Qi ，Gi）∈TGi，并对每个查询集进行了评价inG. 最后，我们以一场精彩的表演作为总结··5.3.与其他方法在用梦数据替换由真实先前数据构建的记忆之后，我们将CIL中的典型方法应用于ReID进行比较，如表1中所总结的。1.一、我们将主要分析MSMT 17市场（M-to-M）的结果，并将AVG作为整体表现。Oracle：“Oracle”系列中的所有结果都是在监督训练协议下实现的。经过“联合”训练，基本任务和增量任务都取得了令人满意的效果Finetune：与CIL和AKA的结果相似[32]，精细-eval（，）输出平均精度（mAP）和Cu-模拟匹配特性（CMC）曲线作为度量。5.2.实现细节根据ReID中的基线BoT [27]，我们采用ResNet50[16]，使用ImageNet [35]上预训练的参数初始化，作为我们的骨干。在所有训练过程中，采用REA [52]（sh=0.4），BNNeck [27]。请注意，步幅技巧[27]被放弃用于快速训练和推理。在推理阶段，BNNeck后的特征将被用于最终排名。利用学习率为0.01的SGD来更新参数。我们训练第一个基础模型f1（）90个epoch，在epoch 61处具有预热和衰减学习率。对于增量任务，优化持续80个epoch，衰减发生在epoch 41。我们生成做梦记忆，直到所有班级都有40个样本或达到40960个。当增量学习时，批处理-大小为128，来自Tn的64（16个身份4个样本），T1：n1。超参数的设置在第二节中详细说明。5.4调谐直接导致基本任务中的灾难性遗忘。一个简单的方法来缓解它是降低微调学习率。尽管牺牲了增量数据集的性能，但正规化：EWC [23]和MAS [2]明确地限制更新重要参数以平衡知识学习和保留。结果表明，它在减轻遗忘方面的有效性。另一方面，参数更新的显式惩罚显著干扰了增量数据集上的拟合（与“Finetune”相比，10.4+% mAP / 5.9+% R@1蒸馏和我们的：基于蒸馏的方法倾向于将知识从基本模型转移到演化模型以对抗遗忘。这一系列的方法作为主流，并导致SOTA在CIL。LwF [24]和iCaRL [33]关注于在前类上的分布。以梦数据作为记忆，iCaRL大大优于LwF（15.5%mAP/17.3%R@1）。AKA [32]利用图形来管理知识。怎么-结果，即，平均值= 1/|不|（Qi，Gi）∈Teval（Qi，G），其中7337LLLLLL LLLLLMDMGMLGLMSMT17→市场（M对M）蒸馏术语。为了进一步研究AD机制的基本原理，我们用更大的批量、更长的周期和弱增强的做梦数据来训练网络，这是稳定训练的经验方法。然而，rt（bsx2）rt（ep x2）未能超过“w/LrtG“。表2. 消融研究。 iCaRL（Equ. 2κ=kl）和LU-但他没有能力击败“AGD”。事实表明与直接增加批量或训练时间不同，AD机制在不影响增量域知识学习的前提下，有效地从噪声样本中挖掘更多的信息这对于增量学习这样的数据有限的场景来说是一个巨大的进步。几何蒸馏的有效性。在特征上铸造蒸馏项被证明是至关重要的，如前所述。CIR（设备）2κ=cos）作为基线。“bs x2”：批量较大，即，256（=128+128）。“ep x2”：训练时间更长，即，160个时期。精神状态）。比较用颜色标记（蓝色：与iCaRL比较，绿色：与LUCIR比较）。记忆的缺失抑制了它的表现。在重播中人所提及为了进一步探讨几何精馏的必要性，我们采用cos、MSE损失和MSE损失进行了大量的cos要求输入的成对特征具有相同的方向，而B1和B2强制特征保持不变，即，，演化后的前一个特征空间是全等的（双射函数fn（x）=fn−1（x））。调整加权参数后家庭，LUCIR [19]和ABD [37]证明了优势蒸馏的功能与改进的3.6+%参数λ，θLcosθ，L1和L2都产生令人满意的性能，mAP / 5.4+相对于iCaRL的% R@1。PODNet [10]还惩罚了中间注意力地图的漂移，这又带来了0.7% mAP /1.5% R@1增益。为了转移更多的知识，GeoDL [36]提出了提取测地线流，并实现了比LUCIR提高0.4%的R@1我们的方法依赖于增强蒸馏来提高低质量做梦记忆的有效性。此外，几何蒸馏记忆了相关信息，这对于检索任务是至关重要的，同时对于增量任务保持了灵活性和可塑性。结合起来，我们的结果为61.2%mAP/79.7% R@1 ，在 AVG 性能上超过其他方法（1.6+% mAP/1.0+% R@1）。值得注意的是，在没有注意力地图的情况下，我们的方法只对最终特征进行约束，这表明它在有效性上有很大的进步。5.4. 消融研究和参数分析在本节中，我们进行了消融研究和参数分析，以研究AGD中每个组件对最终性能增益的贡献，并对不同设置进行了评价。结果见表1。二、强化蒸馏的有效性。增强蒸馏的目的是减轻“噪音蒸馏”，特别是当由梦样本驱动时。基于iCaRL和LUCIR这两个基线，它们从两个不同的角度传递知识（详见Equ. 4、Equ。5在秒4.1），我们的建议带来的增益分别为1.8% mAP/ 1.7% R@1 和0.8% mAP/1.0%R@1当结合到我们的rt中，“AGD”的表现优于“w/ r t“，其平均值为1.1%m G AP和1.2%R@1。缺点是-帐篷的改进证明了它在不同情况下的普遍性，在M-to-M任务上执行任务（选项卡1）。但相比之下R（Tab。2），显示0.5%mAP/1.1%R@1降低。当我们允许更多必要的漂移时，rt实现了另外0.7% mAP/0.2%R@1的改进，通过LUCIR，提前1.2% mAP/1.3% R@1。这种增益证明了几何蒸馏的优越性，这使得我们的框架灵活而保持。梦的记忆力。在我们的框架中，蒸馏项完全由梦的记忆驱动. 除了隐私问题之外，它在构建相似性特征子空间中起着核心作用。在选项卡中。1、基于回放的方法族以巨大的优势优于其他方法族，这验证了梦记忆的必要性。为了进一步测量其贡献，我们将蒸馏项（cos）直接移除并投射到增量数据集Tn上。在表1中观察到26.9%mAP/20.7%R@1的严重降解。2，特别是在创意领域，这完全破坏了结果。这表明，学习和复习的目的是一致的，避免了潜在的干扰。对α的评价α决定AD中交叉部分的权重（等式（3）第三章。根据图中的曲线 6，“α = 0。9对λ的评价。λ是总蒸馏项的权重因子。较大的重量导致较少的遗忘和较少的灵活性。相对地，我们的框架对λ不敏感，并且同行评价。对等体，即，每个蒸馏迭代中的视图数，默认情况下固定为2。一个更大的同行将提供更多的意见和更强的指导方法MSMT17地图R@1市场地图R@1马AVGP R@1iCaRL [33]卢西尔[19]27.637.450.762.482.880.492.892.055.258.9+0.0+0.071.877.2+0.0+0.0含AD含AD30.439.154.364.683.580.492.791.757.059.7+1.8+0.873.578.2+1.7+1.0w/Lrw/LrGtG39.039.864.865.579.880.491.791.659.460.1+0.5+1.278.378.5+1.1+1.3无M23.546.040.667.032.0-26.956.5-20.7w/Lrt（bsx2）w/LrGt（epx2）带Grt（re/2）LG41.238.540.566.864.966.278.781.780.390.692.291.960.060.160.4+1.1+1.2+1.578.778.679.1+1.5+1.4+1.9AGD41.967.580.591.961.2+6.0+2.379.7+7.9+2.57338一APVGmNK-1VGRa一平均mAP（%）平均mAP（%）→≈MM80.079.579.078.5对α的评价62.0 80.061.5 79.561.0 79.060.5 78.5Ealonλ62.061.561.060.5电话：+86-021 - 8888888：+86-021 - 8888888α80.079.579.078.5对等体上的Ealλ样本上的E al61.5 79.561.0 79.060.5 78.562.061.561.060.5表4. CIL（CIFAR100）上的广泛实验。50个预培训课程和50个增量任务课程。电话：+86-0510- 888888传真：+86-0510 - 8888888使用NME进行增量学习探讨同行nCIL是否可以从我们的AGD中受益，我们执行前-图6.不同设置的评价（MSMT17市场）。左上：对α的评估。右上：λ的评估。左下角：对同行的评价右下根据ID对示例进行评价通常，α = 0。9，λ = 3，peers = 2，n =40。方法MSMT 17→市场→PersonX（M-to-M-to-P）MSMT17mAP R@1市场mAP R@1PersonXmAP R@1AVGmAP R@1甲骨文联合48.073.182.393.283.993.471.486.6FinetuneiCaRL [33]卢西尔[19]1.516.428.34.935.252.515.066.068.536.883.585.885.084.982.693.893.393.033.855.759.845.270.677.1AGD36.562.471.987.383.693.564.081.0方法MSMT 17→ PersonX→市场（M-to-P-to-M）MSMT17mAP R@1PersonXmAP R@1市场mAP R@1AVGmAP R@1甲骨文联合48.073.183.993.482.393.271.486.6FinetuneiCaRL [33]卢西尔[19]2.716.727.28.135.150.724.859.362.948.375.780.181.782.679.592.592.391.636.452.956.549.667.774.1AGD36.461.967.483.480.591.661.478.9表3.在更多的任务设置下进行了广泛的实验正则化然而，如图6（左下），没有观察到额外的增益，我们认为这是因为来自太多视图的指导的平均值削弱了每个视图的多样性，并过度规则化了蒸馏。评价范例。一般来说，更多的样本报告更好的性能，由于更多的种类。在我们的框架中，但值得注意的是，更少的样本只导致约0.5%的退化，这从另一方面证实了我们的方法的有效性。5.5. 进一步讨论学习更多的任务。当学习更多的任务时，梦记忆在很大程度上消除了这种遗忘，这给iCaRL [33]和LUCIR[19]带来了巨大的收益。此外，我们的AGD使更多的优势，并产生令人信服的改进25.0+% mAP / 29.3+%R@1超过在CIFAR100上进行了大量实验。采用样本最近均值（NME）[33]规则作为分类器，以更好地满足检索任务的场景，平均增量准确度是评估指标（详见补充）。结合LUCIR [19]，我们的AGD的两个部分都提高了精度，特别是在“50步”设置中，显示了6.1%的accc增益。即使与更强的解决方案（SOTA之一）PODNet [10]结合，AGD也表现良好，在最具挑战性的“50步”设置中达到62.9%的accc。结果表明，在CIL中，在进化时保持特征空间的结构可能是有益的，尽管CIL的目的是分类，而不是排名。另一个令人印象深刻的事情是，在实验中，存储20个样本，每个类的重播，这些样本是在真实的图像分布准确。我们认为AD机制在这里起作用主要是因为人工图像增强在几何提取中引入了一些噪声，其重点是特征，并且对特征中的噪声更敏感。6. 结论在这项工作中，我们开发了AGD框架，这是一个为ReID量身定制的增量框架它通过梦记忆重放先前的知识，而不涉及隐私问题，并以一种新颖的交错模式增强了此外，我们已经取得了更好的平衡之间的学习和记忆的几何方式，语义漂移，以适应新的知识和先前的知识是通过保持空间结构漂移时保存。最后，CIL中的典型解决方案的优越性验证了其在ReID，开集增量任务甚至更传统的CIL中采用时的潜力。确认本工作得到国家自然科学基金项目2005年12月号的部分资助。61871052和62192784与阿里巴巴集团通过阿里巴巴创新研究计划。A、V、G、R、N、K-1（%）平均等级-1（%）方法CIFAR100（M中每类20个样本）50步增量访问25步增量访问10个步骤增量访问5个步骤增量访问卢西尔[19]54.6+0.061.3+0.063.4+0.065.1+0.0w/Lrtw/AGGD59.260.7+4.6+6.162.162.6+0.8+1.364.164.6+0.7+1.265.365.5+0.2+0.4PODNet [10]61.5+0.063.3+0.064.4+0.065.3+0.0w/Lrtw/AGGD62.562.9+1.0+1.464.264.3+0.9+1.065.065.3+0.6+0.965.665.7+0.3+0.47339引用[1] Davide Abati 、 Jakub Tomczak 、 Tijmen Blankevoort 、Simone Calderara 、 Rita Cucchiara 和 Babak EhteshamiBejnordi。用于任务感知持续学习的条件通道选通网络在CVPR中，第3931-3940页，2020年。2[2] RahafAljundi ， FrancescaBabiloni ， MohamedElhoseiny，Marcus Rohrbach，and Tinne Tuytelaars.记忆感知突触：学习什么（不）忘记。在ECCV，第139-154页，2018年。二、六[3]

下载后可阅读完整内容，剩余1页未读，立即下载