基于分组抑制的特征正则化鲁棒分类

54 浏览量更新于2023-10-15 收藏 1.07MB PDF 举报

图像质量

对抗样本

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

478HH基于分组抑制的特征正则化鲁棒分类Haozhe Liu†，Haoqian Wu†，Weicheng Xie*，Feng Liu*，Linlin Shen †1计算机科学与软件工程学院计算机视觉研究所2深大分院深圳面向社会的人工智能与机器人研究所3大数据系统计算技术国家工程实验室4智能信息处理深圳大学，深圳518060{liuhaozhe2019，wuhaoqian2019} @ email.szu.edu.cn，{wcxie，feng.liu，llshen} @szu.edu.cn摘要卷积神经网络（CNN）容易受到即使具有非常小的变化（例如，图像质量）的退化图像的影响。损坏和对抗样本）。其中一个可能的原因是CNN更关注最不受欢迎的-(a) 定期培训H平面-1H平面-1(b) 对抗训练（c）8月正则&化犯罪区域，但在学习时忽略了辅助特征在我们的方法中，我们建议通过分组抑制来动态抑制CNN的显著激活值，但在训练时不固定或随机地处理它们。然后，分别处理具有不同激活分布的特征图，以考虑特征独立性。最后，根据所提出的正则化，引导CNN分层学习更丰富的判别特征以用于鲁棒我们的方法在多个设置下进行了综合评估，包括对腐败，对抗性攻击和低数据制度的分类。广泛的实验提取的特征使用建议方法映射到特征空间(d2)平面3上的投影（d3）平面2上的投影实验结果表明，该方法能有效地提高系统的性能当与现有技术的方法相比时，在鲁棒性和一般化性能方面都不能改进代码可在 https ： //github 上获得。com/LinusWu/TENET_Training.1. 介绍卷积神经网络（CNN）的最新进展已经导致计算机视觉任务的深远改进[11，20]。然而，CNN对图像变化的脆弱性，包括图像损坏[10]和对抗样本[8]，尚未得到很好的解决。研究人员因此正在探索各种方法来提高网络对这些变化的鲁棒性。对抗性训练[10，30，32]是提高CNN鲁棒性的典型解决方案，其中包括at-†同等贡献*通讯作者(d) 所提出的方法图1.提高CNN鲁棒性的一些解决方案。与常规训练（a）不同，对抗训练（b）广泛利用对抗样本来训练鲁棒CNN。基于数据所提出的正则化方法（d）使得网络能够增加表示空间（例如，在d1中的红色辅助轴），并且实现了对损坏和对抗样本的更好的鲁棒性，具有新平面上的各种投影（例如，d2和d3）。最好用彩色观看。将样本添加到训练数据中，如图所示第1段（b）分段。由于对抗性训练可能会损害泛化性能，因此在分类准确性和对抗性鲁棒性之间通常存在固有的权衡[29，30]。为了同时提高鲁棒性和泛化能力，数据增强和正则化方法（例如，随机擦除 [33] ， Augmix[14]，Cutout[7]，H平面-1平面-1H(d1)特征空间A类B类对抗性样本损坏样本H硬对抗样本决策边界飞机-3479(a) 单个实例(b) 多个实例及其重要性评价，提出了分组反向映射来抑制最显著区分区域对应的激活值，并引导网络在不太显著的区域学习更多的辅助信息。如图2的第二行所示。2，抑制最显著的区分区域有利于探索CNN中更多样化的特征。实验结果表明，该方法可以将对抗训练的前1错误率从36.37%提高到31.75%，并且在小样本分类精度方面明显优于正则化方法.总的来说，提出了一种基于分组抑制的正则化方法来挖掘辅助特征，并提升图2.使用ResNet-50编码的特征图的热图可视化，基于Grad-CAM [23，34]，使用或不使用所提出的方法。我们的方法定位了单实例（a）和多实例（b）样本的更多样化的判别区域（在红色框中）。Dropout [15]和DeepAugmentation[12]）。如图在图1（c）中，这些算法通过随机生成服从与训练数据相同的分布的新样本来解决数据增强。通常，数据正则化方法是状态不可知的，其不能在CNN训练期间动态调整。因此，CNN的这些正则化技术[5，16，27，28]未能学习具有足够多样性的特征。如图1的第一行所示。2，CNN可以使用正则化方法定位单实例和多实例样本的最具鉴别力的区域[ 34 ]，同时忽略对识别至关重要的其他辅助特征。辅助特征的缺乏可能导致特征多样性不足同时，现有的对抗性训练和正则化方法通过扩展训练集集中于图像的全局信息，而没有充分挖掘局部特征的独立性。这些限制促使我们提高CNN提取特征的多样性，并设计一种非图像正则化策略来增强网络的鲁棒性。在本文中，我们提出了一个基于组的抑制用于改进特征多样性和网络鲁棒性的正则化方法，表示为TENET训练。图图1（dl）、（d2）和（d3）示出了所提出的方法的动机，其中特征维度和多样性的增加为了增加特征表示空间，提出了分组特征正则化以利用分组特征之间的独立性为了提高特征多样性，该算法在每个训练步骤中动态地正则化分组特征。具体来说，基于特征图的分组特征多样性分别处理具有不同激活分布的特征图，以分层地学习更丰富的区分特征，从而更好地表示图像。我们提出的方法实现了竞争perfor- mances在对抗性的鲁棒性和gener-alization相比，相关的变种和国家的艺术。2. 相关工作2.1. 对腐败和敌对攻击的人类视觉系统在基于CNN的计算机视觉系统所不具备的方面是鲁棒的[13]。特别是，大量研究[8，10，13，17]表明，CNN很容易被查询图像中的小变化所欺骗，包括常见的腐败[13]和对抗性扰动[10]。为了提高对这些变化的鲁棒性，已经提出了基于各种策略的研究，例如结构修改、对抗性训练和正则化。Xie等人。[30]提出了一种非局部特征去噪块来抑制由恶意扰动引起的扰动。离散小波变换（DWT）层由Li等人提出。[21]，其对低频和高频分量进行去纠缠以产生噪声鲁棒分类。与基于结构的方法不同，对抗训练和正则化方法可以在不修改网络结构的情况下提高鲁棒性对抗训练由Goodfel-low等人提出。[10]，其中网络在对抗性示例上进行训练，据报道能够承受强大的攻击[24]。然而，在分类准确性（泛化）和对抗鲁棒性之间存在权衡。因此，越来越多的研究求助于正则化解决方案[7，14，15，33]，以同时提高泛化和对变化的鲁棒性，即。常见的腐败和敌对攻击。基线基线我们我们···4802∈JCCJNL我ΣG2.2. CNN的正则化正则化[7，12，14-数据增强是一种典型的图像解决方案，用于正则化数据分布[7，12，14，33]。Devries等人[7]提出了一种正则化技术，用于在训练期间随机屏蔽输入的方形区域随机擦除由Zhong等人提出。[33]随机化随机矩形区域中的像素值。Hendrycks等人[14]提出Augmix来协调具有一致性损失的简单增强操作。简而言之，这些逐图像正则化解决方案通过随机操作（例如，剪切、擦除和混合），其集中于全局信息而不完全探索局部特征的独立性。同时，随机操作在训练期间不是这些研究促使我们提高特征多样性，以提高网络的鲁棒性和泛化性能。到探索当地信息在正则化期间，提出了特征方面的正则化技术，包括基于注意力的丢弃[5]、自擦除[16，28]和组正交训练[4Choe等人提出的[5]利用自注意机制来正则化特征图。自擦除[16，28]是流行的类激活图（CAM）[23，34]的扩展方法，它擦除CAM的最具鉴别力的部分，并引导CNN从辅助区域和激活中学习分类特征[27]。怎么-（RRF）算法用于平滑分组反向映射。最后，这些反向映射用于抑制激活值以正则化学习的特征。大量的实验清楚地表明，显着的改善，在鲁棒性和泛化性能。3. 该方法所提出的TENET训练的概述如图所示。3.其中CNN根据训练步骤动态地正则化，并且抑制重要的激活值由于具有相似激活分布的特征图易于包含冗余信息，因此我们首先使用第3.1节中提出的CFG模块对通道特征图进行分组。为了进一步量化各组的贡献，在第3.2节中引入了GMW模块来评估组的重要性。考虑到重要度为负的特征组对分类性能的贡献较小，提出了修正反向函数（RRF）在RRF之后，设计成组抑制以抑制最显著的特征并探索不太显著的辅助特征，这在第3.3节中介绍。最后，我们总结了拟议TENET培训的管道以及第3.4节中的损耗设计。3.1. 逐通道特征分组模块根据图1中所示的管线。3中，首先应用特征提取模块F（·）对特征进行编码。tures set A={ai，…aj，…输入样本x的N}，以往，这些方法被提出用于语义分割。而不是分类任务。同时哪里C是第j个特征图。因为A容易被骗由二进制掩码引入的陡峭梯度限制了分类任务的丢弃和擦除操作的性能。从另一方面来看，擦除操作和丢弃是全局正则化器，其没有充分探索特征语义的独立性，即不同的特征组包含不同的语义并且应当被具体地处理。Chen等人提出的组正交训练。[4]为这个问题提供了一个解决方案，它指导为了减少冗余特征，将Channel-wise Feature Grouping模块（表示为CFG模块）引入到组A，以降低特征操作的复杂度。给定Nc个特征作为输入，得到相应的N-G中心构成集合Ac，初始化为A的随机子集.从A的每个特征图到对应中心的距离计算如下CNN从前景和前景背景分开。虽然这一组正交化-1Dist（a，A[l]）=ΣΣ（aHa Wa-A[1]）（1）分类策略带来分类性能的提高由于增强了特征多样性，依赖的大注释限制了其对一般任务的适用性。本文提出了一种基于分组抑制的正则化方法，即TENET训练，以提高网络的鲁棒性和泛化能力，该方法不需要额外的注释。特别地，提出了信道特征分组（CFG）模块来对分组中的信道特征进行建模。然后，利用分组加权模块对不同分组中的特征进行具体处理，以量化特征的重要性的每一组。同时，为了避免二值掩模引起的梯度陡化，提出了一种校正反函数其中l[1，NG]是中心的索引，并且（Ha，Wa）是j的大小。基于等式（1）中，中心被更新为与k均值聚类相似。然后通过将特征图分组到对应的中心来获得N 个G组。为了减轻随机选择造成的影响基于分组过程，中心根据中心点进行更新搜索功能，即CF（·）如下1CF（IDS）={arg mindist（a，a ） . l∈[1 ， N]}（2）IDi=lHa× WaJaj∈A481------·亚--·ΣJΣ第一推论with特征提取模块F（⋅）...分类器D（⋅）输入二推断分组特征映射（，）ℒℒ��分类器D（⋅）...（分组Hadamard积逐组纠正反函数（RRF）反向映射重要性分数特征图获得更有鉴别力的特征��简体中文分组映射加权模块（GMW）21通道特征分组模块（CFG）图3.所提出的正则化方法（TENET训练）的流水线。请注意，CNN由特征提取模块F（·）和分类器D（·）组成。在第一推断中，通过CFG模块将用F（·）编码的特征图A划分成N个G组，并且基于D（·）计算损失L d。然后使用GMW模块和RRF导出反向映射RM。在第二推断中，A（具有IDS）和RM的Hadamard乘积被馈送到D（·）以计算损失L_total。其中集合IDS=ID1，…，IDj，…ID_N_c代表对应于每个组的特征图索引的集合。ID j是指j的组索引。是第l组中的特征图基于等式（2），Ac可以是类似于IS，逐组特征图，即M=m1，…ml，...，可以通过如下对加权特征图求平均来获得迭代地细化直到CF（·）稳定。一个ml= NlWJIDj=l×aj（五）3.2. 分组映射加权模块在特征分组模块之后，以分组方式处理特征图为了区分每个组的贡献，提出了一个分组映射加权模块，即GMW模块，用于计算每个aj的权重wj，如下所示w=1ΣΣLd（A）3.3. 基于修正反函数的基于重要性分数，应用逐组特征图以获得反转的图集合，即 RM =rm1，…rml，...，rm NG.由于由二进制掩码引入的陡峭梯度可能限制分类性能，因此反转的映射被进一步平滑。同时，考虑到负重要度的特征组Ha×WaHaWaaj（三）的分数应该有助于较少的更新的逆转的面具，因此，我们提出了一个纠正的逆转Ld（A）=D（A）×One-Hot（D（A））其中D（·）是分类器r，其将A映射到类别得分。功能，即RRF（），以获得如下的反转图Ld（A）是预测和相应的rm=RRF（m，I）=sgn（I一个>0）×（六）D（A）的独热向量。由于Ld（A）适用于quan-Jl l ll1 +eml确定 a j 对预测的重要性，组重要性得分，即IS=11，…我... 可以通过如下对每个组（IDj=l）的wj求平均来其中sgn（）是符号函数。由于m_l和rm_l之间的负相关性，RM的计算被认为是反向映射。基于RM，按组抑制公式如下一个II= NlWJIDj=l（四）y=D（RMA）（7）482⊗·L··L··LYΣ····×个FD∞其中D（）是具有A的输入的分类器，并且y（）是指逐组抑制的预测标签。是指逐组Hadamard乘积。3.4. TENET培训虽然y通过逐组抑制获得，但F（）和可以基于损失c（y，y（）直接学习D（）。即用于单标签分类或双标签分类的交叉熵用于多标签分类的零交叉熵逐组抑制减少了组之间的变化，同时它可能在F（）或D（）中引入无效的激活单元。为了正则化这些激活单元，采用正交损失 o（A），其公式如下NgNcL〇（A）=（（sgn（IDj=l）Xaj））（8）l=1j =1从另一方面，通过将rml映射到[0，1]的区域中，针对F（）和D（）抑制反向传播梯度的幅度。为了减轻消失梯度问题，一般的分类损失，即。 c （ yi ， D（A））。最后，总损失公式如下Ltotal=Lc （ yi ，D （ A ））+αLc （ yi ， y¨）+µLo（A）（九）其中α和μ是超参数。为清楚起见，TENET培训总结在Algo中。一个算法1TENET训练输入：训练样本：xF（）和D（）的初始化输出量：训练的CNN：F（·）和D（·）1：对于所有培训步骤，请执行2：从F（x）提取A;3：根据下式使用CFG模块获得A的IDS：等式⑴和⑵;4：根据等式3用GMW模块导出（IS，M）（3）、⑷和⑸;5：采用RRF以根据等式2获得RM。（6）;6：根据等式获得y （7）;7：根据等式2计算L总 ⑶和⑶;8：基于L总计更新F（·）并且更新D（·）基于总的L;第九章：端10：返回F（·）和D（·）。4. 实验结果及分析如表1中所列，为了评估所提出的方法的性能，对公开可用的数据集进行了广泛的实验，包括PASCALVOC 2012表1.实验配置和TENET培训收益总结。任务-[协议]数据集先前SOTA增益标准分类-[4]PASCAL群正交二点九厘[9]第四届中国国际汽车工业展览会鲁棒性对抗性攻击-[8，24]CIFAR-10/100T. [24]5.75%*美国[14]15.56%鲁棒性常见腐败-[13，14，21]CIFAR-10/100-C [13]Augmix[14]1.77%ImageNet-C [13]2.8%†一般化-[2][26] GLICO [2]2.75%* 增益是在CIFAR-10中相对于FGSM（8/255）获得的†通过遵循90历元协议[21]获得增益[9]、CIFAR-10/100 [18]、ImageNet-C [13]和CUB-200[26]第10段。我们首先介绍了所使用的数据集和相应的实现细节。标准的图像分类任务的性能进行评估，并编码的特征图可视化的算法分析。最后，通过与现有方法的比较，对所提方法的鲁棒性和泛化性能进行了评估。4.1. 数据集和实施细节我们从三个方面评估TENET培训的绩效，即：标准分类、鲁棒性和泛化（见表1）。标准分类。在这种情况下，ResNet-18 [11]被选为我们TENET培训中的骨干。PAS-CAL VOC 2012 [9]用于评价，而5，717和5，823个图像分别用于训练和验证。采用[4]中的协议。用于评估的CNN在ImageNet [6]上进行预训练，并在PASCAL VOC 2012训练集上进行微调。在训练阶段，将图像的短边调整为[256，480]内的随机然后，基于256的批量大小，将调整大小的图像随机裁剪为224 224的大小以用于训练。在测试阶段，使用十作物测试来评估性能。鲁棒性在这种情况下，在 CIFAR 10/100 [18]、CIFAR 10/100-C上评估了所提出的算法对对抗性攻击和图像损坏的鲁棒性[12] 和 ImageNet-C [12] 。选择 ResNeXt-29 [31] 和ResNet- 50 [11]作为骨架。为了测试所提出的方法对对抗性攻击的鲁棒性，采用了两种流行的攻击，FGSM[10]和PGD [1然后根据[8]中的方案评价性能对于这两种攻击，在l范数距离下，扰动预算（ε）被设置为8/255或4/255。PGD-K代表步长为2/255的K步攻击。同时，对抗性训练用于防御PGD的强大迭代攻击为了使结果更有说服力，采用了一种有效的对抗训练方法（free-AT）[24]，其中free-AT的跳步，即m被设置为4。针对CIFAR 10/100-C和ImageNet-C 的图像污染问题，分别对噪声、模糊、天气和数字污染等15种不同的污染进行了处理483×个×个L表2.Pascal VOC 2012验证数据集上拟定方法的消融研究（平均精密度（%））。基线通道组抑制抑制Lo阿雷奥自行车鸟船瓶总线车猫椅子牛表狗马MBKPRSN植物羊沙发火车电视是说√√√××个×个94.8 83.8 91.5 79.4 56.6 88.2 78.9 90.8 64.8 61.5 57.9 90.9 73.7 83.8 96.0 51.677.1 58.2 89.8 77.1 77.1√√×个×个√×√×个√×94.293.995.682.881.784.392.992.591.183.383.783.162.263.861.390.890.991.481.082.783.292.891.591.671.169.572.874.176.477.463.064.665.988.289.691.383.985.984.488.589.389.293.596.596.358.458.157.485.284.683.964.764.567.693.193.294.580.683.783.181.281.882.3表3.在Pascal VOC 2012验证数据集上，拟定方法与最新技术水平之间的平均精密度（%）性能比较。模型阿雷奥自行车鸟船瓶总线车猫椅子牛表狗马 MBKPRSN植物羊沙发火车电视是说ResNet18[11]在[4]95.2 79.3 90.2 82.8 52.6 90.9 78.5 90.2 62.3 64.9 64.5 84.2 81.1 82.0 91.4 50.0 78.0 61.1 92.7 77.5 77.5本文训练的ResNet1894.8 83.8 91.5 79.4 56.6 88.2 78.9 90.8 64.8 61.5 57.9 90.9 73.7 83.8 96.0 51.6 77.1 58.2 89.8 77.1 77.1GoCNN [4]96.1 81.0 90.8 85.3 56.0 92.8 78.9 91.5 63.6 69.7 65.1 84.8 84.0 83.9 92.3 52.0 83.9 64.2 93.8 78.6 79.4二进制掩码93.2 83.8 91.3 83.2 59.8 91.6 79.6 90.6 66.3 75.2 62.1 89.7 84.7 88.4 96.3 58.0 87.0 65.2 93.1 82.1 81.1TENET（实例抑制）93.1 82.7 92.6 82.9 61.1 90.9 81.8 91.6 70.6 73.7 63.3 91.5 85.6 88.5 96.4 56.8 85.1 61.8 93.2 82.3 81.3宗旨95.6 84.3 91.1 83.1 61.3 91.4 83.2 91.6 72.8 77.4 65.9 91.3 84.4 89.2 96.3 57.4 83.9 67.6 94.5 83.1 82.3评估，并且每种损坏的数据具有五个不同的严重性级别[12]。我们遵循Augmix [14]和WRes-Net 50 [21]中使用的训练方案和评估指标。Clean Error是原始（未损坏）测试或验证数据集上的常规分类错误，CIFAR-10/100-C的mCE（平均损坏错误）是所有15次损坏的平均值。同时，ImageNet-C的mCE通过AlexNet的损坏错误进行归一化[19]。由于计算效率，实现了没有Jensen-Shannon散度（JSD）损失的Aug混合。概括。由于CUB-200 [26]只包含200种鸟类中每种鸟类的30张图像，因此它被用作测试CNN泛化的流行基准。我们遵循[2]中的协议，并使用每类三个样本数（SPC）进行训练来评估泛化，即10、20和30。为了公平比较，采用协议[2]中相同的ResNet- 50 [11]作为主干。为了训练CNN，将CUB-200中图像的较小侧调整为256，然后将缩放后的图像随机裁剪为224的大小224在测试阶段，预测是基于中心裁剪的大小224224TENET培训。对于hyper参数设置，聚类数NG被设置为6，而α和μ分别被设置为0.1和0.1公共平台 pytorch [22] 用于在具有 2.8GHz CPU 、512GB RAM和NVIDIA Tesla V100 GPU的工作站上实现所有实验4.2. 所提方法消融研究。为了量化TENET训练中每个模块的贡献，我们测试了具有或不具有该模块的变体的区分表2显示了标准分类的结果。由于GMW基于CFG模块，因此这两个模块表示为通道方式抑制和组方式抑制。我们基线输入图4.使用Grad-CAM [23，34]对CUB-200图像分类的判别区域进行可视化第1 - 3行显示输入样本、ResNet-50提取的判别区域和基于TENET训练的结果。综合评价抑制。表2示出了第一行中的基线的性能可以通过通道方式抑制和组方式抑制两者来改善。具体地，通过通道方向抑制实现了mAP方面4.1%的改善。为了研究GMW和CFG模块的性能，表2示出了使用〇（A）的逐组抑制进一步改善了性能。TENET培训最显著的改进发生在所有提出的模块都被采用时，即。所提出的方法实现了82.3%的mAP，这大大优于具有77.1%的mAP的基线。TENET培训的可视化。为了研究所提出的TENET训练的学习特征的多样性，我们使用图中的Grad-CAM[23，34]可视化来自CUB-2004.第一章与基线相比，使用TENET训练的CNN得到更多的区分区域，例如翅膀，头部和尾部，用于分类。为了研究所提取的特征的分布，我们484表4.使用ResNet-50的ImageNet上的Top-1错误率（%）和ImageNet-C上的Top-1 mCE率（%）八月代表Augmix。议定书清洁误差噪声模糊天气数字高斯枪冲动散焦玻璃动态变焦雪霜雾明亮对比度弹性像素JPEGmCE[14]中报告的基线[11]23.879808282908480868175657991778080.6切出[7]23.279818077908081807870617487747577.7[21]第21届世界杯足球赛美国[14]90 epoch协议[21]23.123.023.177717379717879717571727486888777727677728080787975787866676757606371727384868475757277767175.373.975.3TENET（8月）22.869696969876970767564566982727371.1奥格混合[14]180历元22.568697073816967757367616180717270.5TENET（8月）协议[14]22.469676872816669747465596082697069.6(c) 第3组+第4组组0.0-1.00.150.01.00.32.0图5（c）示出了六个组中的组3和组4对于CNN是最重要的，这可以将CNN输出的置信度分数从0提高到99.8%。第1组的重要性相对低于第3组和第4组，但可以增加置信度得分，而第2、5和6组对分类性能的影响非常有限。更确切地说，当不使用这三组时，置信度得分仅下降了0.09%。这一观察结果表明，重要基团的抑制可以帮助提高效率而不损失准确性。因此，在所提出的方法中，我们只正则化具有较高重要性分数的组。4.3. 与相关方法的标准分类比较。为了研究所提出的方法的分类性能，我们将其与表示为置信度评分：99.8%（b）每组的可视化和量化GoCNN在表3中。此外，我们还包括TENET（Bi-图5.使用TENET训练由ResNet-50的第三残差块提取的特征图的可视化和量化。(a)标签为欧洲金翅雀的输入图像。(b)各组的激活分布、相应的重要性和置信度得分由CFG模块聚类。(c)示例特征图选自第3组和第4组。进一步可视化具有图1中的输入图像的不同重要性分数的逐组映射。5，其中特征图被聚类为六个组。每个组的置信度得分对应于具有或不具有所选组的变体。图5（b）示出，由GMW模块计算的重要性得分（橙色线）与置信度得分（绿色线）在趋势上相似，这说明了GMW模块的有效性。与此同时，Fig.图5（b）还示出了组方式特征的激活分布之间的大的变化，这指示了组独立处理的合理性。作为对比，传统方法中涉及的实例操作不能正则化最重要的特征，而只能正则化具有最大组大小的特征（即，最小组）。图1中的组-15），基于激活图或注释的平均值。因此，所提出的独立于组的处理可以促进我们的TENET训练，以实现比其他正则化方法更好的性能。Nary Mask）和TENET（Instance-wise Inhibition）进行比较。TENET（二进制掩码）是指使用二进制掩码而不是平滑的反转图来抑制激活值的所提出的方法。在TENET（实例抑制）中，CFG模块和GMW模块被Grad-CAM [23，34]取代，Grad-CAM [ 23，34 ]通过实例操作处理表3显示TENET训练显著优于竞争方法。所提出的方法实现了82.3%的mAP，绝对超过组正交训练2.9%。这表明使用平滑的反向映射的分组抑制适合于分类。同时，所提出的方法比组正交训练使用更少的信息，即。大规模密集注释，例如不需要分割或定位标签。虽然在组正交训练中使用的状态不可知抑制以粗略的方式规则化然而，基于所提出的分组抑制，我们的方法可以不断提高分类性能，并且不需要任何额外的注释。耐用性比较。我们比较了拟议方法与两种最先进的正则化方法[7，14]，小波集成方法[21]和对抗训练方法[24]，用于表4，5和6中的图像损坏和对抗攻击的六、我们可以观察到TENET培训优于每种情况下的竞争方法承认1692二六一3 1134121五八6二组大小置信度得分重要性得分（a）欧洲金翅雀所有组别置信度评分：99.9%485表5. CIFAR-10上的前1错误率（%）和用基于ResNeXt-29的各种方法训练的CIFAR-10-C上的前1 mCE率（%）。A.T.是对抗训练的缩写对抗性攻击方法之后的括号示出了扰动budget（g）。清洁mCEFGSM PGD-7 PGD-100（8/255）（ 4/255）（8/255）基线[31]切出[7]美国[14]5.723.973.953.8929.8829.2013.3226.4672.8171.0776.0361.0594.1597.1993.6791.28----宗旨（8月）3.5012.3160.4790.45-A.T. [24日]--36.3722.6142.82宗旨（A.T.）--31.7520.0737.07针对图像损坏，通过TENET训练和Augmix（记为TENET（Aug.））的组合其在ImageNet-C、CIFAR-10-C和CIFAR-100-C上的错误率分别为69.6%、12.31%和 35.73% 。具有 JSD 损失的 Augmix [14] 可以在ImageNet-C上实现68.4%的mCE，而与所提出的方法相比，它需要三倍的GPU内存和运行时成本。对于对抗性攻击的鲁棒性，采用两种攻击范式，即FGSM和PGD，用不同的正则化方法来测试训练的CNN表5和表6示出了使用所提出的方法的CNN以当考虑FGSM时，我们的方法可以达到60.47%的错误率，绝对超过其他同时，我们的方法是对对抗训练（被称为 A.T.）的补充。通常，所提出的方法在 CIFAR-10/100上实现了对PGD-100的37.07%和63.13%的错误率，这明显优于对抗训练，即。37.07% vs. 42.82%和63.13% vs. 65.17%。表6. CIFAR-100上的Top-1错误率（%）和CIFAR-100-C上的Top-1 mCE率（%），其使用基于ResNeXt-29的各种方法训练。清洁mCEFGSM PGD-7 PGD-100（8/255）（ 4/255）（8/255）基线[31]切出[7]美国[14]23.3320.7321.8320.5653.4054.6037.5051.2185.9387.0384.6578.7195.9698.1395.3294.62----宗旨（8月）19.4635.7375.2893.54-A.T. [24日]--60.1347.9965.17宗旨（A.T.）--58.6046.1763.13比较一般化。为了进一步研究TENET训练所实现的泛化性能，表7.基于ResNet-50的CUB-200的TOP-1准确度（%）的比较，其中每类具有不同数量的训练样本（SPC）。方法SPC =10SPC =20SPC =30MixMatch [3]36.0260.5770.41随机擦除[33]63.7266.1473.74切出[7]64.3368.4774.97GLICO [2]65.1374.1677.75A.T. [24日]44.5357.9163.67宗旨66.0776.9180.34我们将所提出的方法与表7中的正则化方法[3，7，33]、数据增强方法[2]和对抗训练[24]进行比较。表7显示了TENET训练在每种情况下相对于其他方法的明显改善通常，当每个类20个样本用于训练时，所提出的方法可以在Top-1准确度方面实现76.91%。作为比较，对抗训练[24]在这种情况下仅达到57.91%的Top-1准确率。对抗性训练似乎可以提高鲁棒性，但它也可能在很大程度上损害泛化性能。因此，表7示出了与其他方法相比，所提出的方法可以更好地保持泛化性能。5. 结论在本文中，我们提出了一种基于分组抑制的特征正则化方法，以提高CNN的鲁棒性在所提出的算法中，CNN在学习时被动态正则化，其中具有显著激活值的最具区分力的区域被抑制，以使网络能够探索更多样化的特征。更丰富的特征则有助于更好地表示图像，即使具有恶意变化。在少量训练样本的情况下，从标准分类、对抗鲁棒性和泛化性能等方面验证了该方法的有效性确认本工作得到国家自然科学基金项目的部分资助。62076163、91959108、61602315和U1713214，Sci-广东省科技进步项目。2020A1515010707，深圳基本面研究基金JCYJ20190808163401646，JCYJ20180305125822769和JCYJ20190808165203670，腾讯引用[1] Anish Athalye，Nicholas Carlini，and David Wagner. Ob-fuscated梯度给人一种虚假的安全感：Circum-486对敌对的例子发泄防御。arXiv预印本arXiv：1802.00420，2018。[2] Idan Azuri和Daphna Weinshall从小数据中学习通过对隐式条件生成潜在优化模型进行采样。在ICPR，2021。[3] 大卫·贝特洛尼古拉斯·卡利尼伊恩·古德费罗尼科拉斯·帕帕诺特、阿维塔尔·奥利弗和科林·A·拉菲尔。Mixmatch：半监督学习的整体方法。参见NIPS，第5049-5059页[4] Yunpeng Chen，Xiaojie Jin，Jiashi Feng，and ShuichengYan.训练具有特权信息的群正交神经网络。在IJCAI，第1532-1538页[5] 崔俊锡和沈贤贞基于注意力的辍学用于弱监督对象定位的层。在CVPR中，第2219-2228页[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，还有李飞飞Imagenet：一个大规模的分层图像数据库。在CVPR，第248-255页中。Ieee，2009年。[7] Terrance DeVries和Graham W Taylor。改进的常规-使用剪切的卷积神经网络的化。arXiv预印本arXiv：1708.04552，2017。[8] 董银鹏，付启安，肖扬，庞天宇，杭苏，萧子豪，朱军。对图像分类的对抗鲁棒性进行基准测试。在CVPR，第321-331页，2020年。[9] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn 和 Andrew Zisserman 。 pascal 视觉对象类（voc）的挑战。IJCV，88（2）：303[10] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。ICLR，2015年。[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[12] Dan Hendrycks ， Steven Basart ， Norman Mu ， SauravKada-Vath，Frank Wang，Evan Dorundo，Rahul Desai，TylerZhu，Samyak Parajuli，Mike Guo，et al.鲁棒性的多面性：对分布外泛化的批判性分析arXiv预印本arXiv：2006.16241，2020。[13] Dan Hendrycks和Thomas Dietterich标杆管理Ral网络对常见损坏和扰动的鲁棒性ICLR，2019。[14] Dan Hendrycks ， Norman Mu ， Ekin D Cubuk ， BarretZoph，贾斯汀·吉尔默和巴拉吉·拉克什米纳拉亚南Augmix：一种简单的数据处理方法，用于提高鲁棒性和不确定性。ICLR，2020年。[15] Geoffrey E Hinton，Nitish Srivastava，Alex Krizhevsky，IlyaSutskever，and Ruslan R Salakhutdinov.通过防止特征检测器的协同适应来改进神经网络。arXiv预印本arXiv：1207.0580，2012。[16] Hou Qibin， Jiang PengTao，Yunchao Wei，and Ming-Ming程自我擦除网络的整体对象的注意力。在NIPS，第549-559页[17] 布雷特·杰斐逊和卡洛斯·奥尔蒂斯·马雷罗。真实世界对抗性示例的稳健在CVPRW，第792- 793页[18] Alex Krizhevsky，Geoffrey Hinton，等.学习多个从微小的图像中提取特征层。2009年[19] Alex Krizhevsky，Ilya Sutskever，and Geoffrey E Hinton.使用深度卷积神经网络的图

下载后可阅读完整内容，剩余1页未读，立即下载