PatchDropout：通过随机补丁下降节省视觉转换器计算和内存

8 浏览量更新于2023-10-16 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3953⇥⇥PatchDropout：使用Patch Dropout节省视觉转换器YueLiu1，2*，ChristineMatsoukas1，2，5，FredrikStrand3，4，HosseinAzizpour1，KevinSmith1，21瑞典斯德哥尔摩KTH皇家理工学院2瑞典斯德哥尔摩生命科学实验室3瑞典斯德哥尔摩卡罗林斯卡学院4瑞典斯德哥尔摩卡罗林斯卡大学医院5阿斯利康，瑞典摘要视觉转换器已经证明了在各种视觉任务中超越CNN的潜力。但这些模型的计算和内存要求使其在许多应用中使用，特别是那些依赖于高分辨率图像的应用，如医学图像分类。更有效地培训ViT的工作过于复杂，需要改变架构或制定复杂的培训计划。在这项工作中，我们表明，标准的ViT模型可以有效地训练在高分辨率随机下降输入图像补丁。这种简单的方法PatchDropout在标准自然图像数据集中将FLOP和内存减少了至少50%，例如因为我知道，这些节省只会随着图像大小的增加而增加。在CSAW上，一个高分辨率的医疗数据集，我们观察到使用PatchDropout节省了5的计算和内存，同时提高了性能。对于具有固定计算或内存预算的从业者来说，PatchDropout可以选择图像分辨率，超参数或模型大小，以获得模型的最佳性能。1. 介绍视觉变换器（ViTs）[5]最近被引入作为CNN的可行替代方案[5，12，13，23]。然而，由于计算瓶颈，更好的性能承诺在许多设置中尚未实现。例如，ViT需要大数据集来训练[5]，尽管这个问题已经通过在大数据集上进行预训练得到了部分解决[5，1]。存储器和计算需求增加了这一点，因为自注意机制引入了具有二次复杂度w.r.t.的元素。token的数量。这些瓶颈可能导致长时间的训练，并且对于大图像，例如在医学中遇到的图像，cal图像分析，计算和存储器需求使得现成的ViT不适合。*通讯作者：刘跃图1：PatchDropout可用于在高分辨率图像上有效地训练现成的ViT。一小部分的输入块通常足以进行准确的预测，如果使用更大分辨率的图像，尽管丢失了信息，性能也会提高。在这里，使用不同比例的输入补丁进行训练会影响模型在CSAW上的性能，CSAW是一个具有高分辨率图像的真实医学数据集。PatchDropout在相同的计算预算下提高了预测性能。使用16个较大的图像，但保留5%的补丁，节省了计算和内存，并提高了性能。进一步的改进可以通过增加保持率来实现，以计算为代价。在标准图像分类数据集上也观察到类似的趋势。3954⇥⇥⇥这些计算问题在其他领域也很严重，例如显微镜和遥感，特别是当原生分辨率不仅是期望的属性，而且是准确预测的要求时。因此，一些工作集中在使视觉转换器更有效地使用过多的不同方法，通常涉及某种后处理或架构修改[19，31，32，26，33]。这些方法优先考虑推理过程中的效率，例如嵌入移动设备，并已被证明可以将运行时间减少30%至50%，而不会影响性能。然而，网络培训的瓶颈问题也不容忽视。很少有作品涉及这一主题，并且那些确实需要架构修改或复杂的培训计划的作品限制了它们的使用[29，12，30，20，22]。有效的ViT训练仍然是一个重要的问题，特别是对于需要大图像的应用程序，因为除了最大的机构之外，所有机构都受到训练ViT的计算资源的限制。在这项工作中，我们提出了一个基本问题。在训练过程中，所有的输入补丁都是必要的吗？或者我们可以随意忽略其中的大部分？一个肯定的回答需要一个简单而有效的方法，减少计算和内存占用。我们的方法Patch- Dropout随机丢弃输入令牌，并在使用高分辨率图像时在训练期间减少多达5的内存和计算，而不会影响模型的准确性（图1）。由于ViTs的性质，这可以通过现成的视觉转换器和最小的实现来实现。此外，我们表明，给定一个固定的内存和计算预算，Patch- Dropout可以选择图像分辨率，hyperparameters，或模型大小，以获得最佳性能的模型。我们在CSAW上进行实验，CSAW是一个具有高分辨率图像的真实医学数据集，并使用三个主流数据集进一步验证我们提出的方法：IMAGENET、CIFAR100和P LACES 365。通过这些实验，我们表明：• 我们可以在训练过程中随机丢弃图像补丁，而不会影响性能，并将效率从2提高到5。6，取决于图像大小（见图1和图5）。• 给定相同的计算预算，放大图像和/或利用更大的ViT变体，同时丢弃一部分输入令牌，可以提高模型• PatchDropout可以在训练过程中充当正则化技术，从而提高模型的鲁棒性（参见图6）。这些发现以及其他消融研究表明，PatchDropout可以节省ViT，允许他们的利用对高分辨率图像，具有潜在的准确性和鲁棒性增益- 奈斯复制我们工作的代码可在https://github.com/yueliukth/PatchDropout上获得。2. 相关工作几项研究已经研究了如何使用现有的良好训练的模型来获得更轻的视觉Transformer模型，以使用例如修剪或教师进行蒸馏来提高推理效率。DynamicViT [19]增加了一个预测模块，用于逐步估计每个补丁的重要性得分。在训练过程中采用知识提取的方法，并在推理过程中删除对最终预测贡献最小的块。另一种修剪方法PatchSlimming [26]从最后一层中识别出不太重要的补丁，并将其从不重要的补丁中删除。 DVT [31]动态确定数量通过使用越来越多的补丁训练一系列变压器，然后在预测有信心时中断推理。另一个研究方向是提高训练效率。几项研究尝试通过人工设计的模块优化网络架构[29，12，30]，其中PatchMerger [20]和Token-Learner [22]专门设计用于减少令牌的数量。EViT [10]学会在训练过程中逐渐保留注意力标记并融合不注意的标记，这导致IMAGENET的准确性降低0.3%，推理速度提高50%。与EViT相比，本研究提出的方法是互补的，但具有更简单的机制，不需要进行实质性修改。最近的一些作品探讨了通过选择补丁的子集来学习表达性表征的可能性。MAE [6]是为更有效的自我监督预训练而设计的，它提出丢弃高比例的补丁，然后通过自动编码器设置推断丢失的补丁。我们的工作从MAE中获得了一些灵感，然而，PatchDropout可以直接使用标准ViT（与MAE不同）应用于目标任务。在[8]中，作者使用广告补丁来增强标准ViT，广告补丁选择性地关注补丁的子集以提高ViT的可转移性。最后，[17]表明ViTs对随机遮挡具有鲁棒性。然而，应当注意的是，阻塞不会导致效率的提高。3. 方法Transformer模型最初是为语言相关任务开发的[28]，但其自我注意机制已被证明对视觉任务也有用[5，27，12]。这两项任务的一个重要区别是39554OO⌧空气区域训练推理已使用的令牌已丢弃的令牌图2：乳腺X线摄影图像中的红点。（左）来自CSAW的示例图像。（右）使用UMAP [16]的左侧图像的提取块的2D投影。红色方块表示在Patch- Dropout之后随机保留的Patch，保留率为0.25。斑块被聚类为2个不同的组：空气和乳房区域。令人惊讶的是，通过简单地均匀采样，保留了准确分类所需的信息。视觉数据通常在外观上包含相当多的冗余或相关性[6]（见图2）。这一观察结果导致了以下问题：我们可以在训练过程中随机忽略输入图像块吗？如果是，这样做的好处是什么？在这里，我们的目标是回答这些问题，表明视觉转换器确实可以使用一小部分输入数据进行训练，并且表现良好，同时节省了大量的数据和计算。此外，我们简单的训练方案可以提供一些理想的正则化效果。3.1. 补丁丢失我们的核心思想依赖于这样一个事实，即可以利用图像数据中遇到的空间冗余来经济化视觉变换器。如果我们在训练过程中随机拒绝一部分信息给模型，我们预计对模型预测性能的影响会减少。PatchDropout通过在输入层随机丢弃一定百分比的图像标记来实现这一点（参见图3）。更具体地说，在补丁嵌入被发送到Transformer块之前，令牌的子集被随机采样而没有替换。在随机采样之前添加位置嵌入，以便保留相应的如果[CLS]令牌存在，则会保留该令牌。采样的令牌序列以标准方式发送到Transformer块。所提出的方法是简单和琐碎的实现，这使得它可行的，被纳入大多数ViT模型没有实质性的修改。3.2. 复杂性分析视觉变换器对一系列标记进行操作，其中每个标记对应于非重叠图像块，并且由与位置嵌入求和的块的线性投影表示。在实践中，大小为H/W的图像被平铺成N=HW/P2块，图 3 ：训练和推理过程中的 PatchDropout 。（左）PatchDropout很容易实现。修补图像，并添加位置嵌入到每个补丁。统一采样其中的一个子集，并使用它们来训练模型。（右）在测试时，保留所有补丁。其中，P是斑块大小，其通常由下式定义：用户（通常为8或16）。所得到的令牌序列被馈送到一系列连续的Transformer块中，这些块更新令牌的d维嵌入并且由多头自注意（MSA）和多层感知器模块（MLP）组成。MSA本身包括一系列MLP层，这些层通过注意力对目标之间的交互进行建模。最后一个MLP层负责投影输出，使其具有与输入相同的维度，准备由下一个Transformer块处理。有了这些信息，我们可以讨论视觉变换器的理论和经验计算复杂性。理论复杂度给定具有N个令牌和d维嵌入的L个Transformer块，MSA模块内的自注意力的计算成本是（LN2d），而其他MLP层引入复杂度（LNd2）。总的来说，计算复杂度-一系列LTransformer块的特性为：2LN 2d +4LNd2.（一）计算总是与深度L成线性关系。当Nd时，复杂度降为第一项，当Nd时，复杂度降为第二项。对于具有小块尺寸的高分辨率图像，这是这项工作的重点，第一项占上风。这导致相对于序列长度N的二次复杂度。因此，移除输入令牌的非平凡部分可以导致计算的显著节省。经验复杂性在实践中，观察到的计算成本可能并不完全反映理论预测。有几个因素可能会使PatchDropout的计算节省不如复杂性分析所建议的那样有利。例如，修补剂，即。层12345678910111213141516245710ViT121315CLS123456789101111221314151612345ViT13141516CLS...3956⇥⇥负责标记化输入图像并将其投影成一系列嵌入标记增加了计算开销。分类头也是如此。然而，随着图像尺寸的增加（并且因此输入序列长度N增加），理论和经验相对计算之间的差距应当减小。这就需要对节省的计算进行实证分析，以证实理论预测。在图4中，我们说明了计算的相对下降，两者都是根据方程。1，并根据FLOP的数量进行经验计算。我们比较不同的序列长度N时，使用两个保持率为0。5和0。二十五如上所述，PatchDropout随着令牌数量N的增加而增加。可以看出，对于小N，计算量的下降类似于保持率，但是随着N的增加，逐渐收敛到二次节约。虽然理论和经验趋势是相似的，但由于上面讨论的额外计算，经验储蓄收敛较慢。注意，N随图像大小H W和补丁大小P而变化。多个视觉基准数据集的默认图像大小为224 224。在这种规模下，相对计算保持接近其保持率的值-图像不够大，无法从二次节省中获益。然而，许多现实世界的任务需要高分辨率的图像，就像在医疗领域通常遇到的那样。在这里，我们观察到大量的计算节省序列长度的增加。最后，要注意的一个重要因素是，嵌入尺寸d在不同的ViT变体之间变化，影响它们的计算节省。通常，较小ViT（具有较小d）上的PatchDropout的相对计算与较大ViT相比下降得更快。4. 实验装置我们在许多不同的 ViT 变体和数据集上评估PatchDropout。作为代表性的ViT模型，我们选择了不同容量的DEIT [27]和SWIN [12]，其是通过设计相对于输入序列长度线性缩放的ViT变体。对于数据集，我们选择了三个标准的基准图像分类数据集和一个高分辨率图像的真实医学数据集。下面，我们将详细描述实验设置，并在第5节中报告我们的发现。数据选择在这项工作中，我们试图节省视觉变换器，使它们可以用于高分辨率图像是准确预测所必需的任务。为此，我们从CSAW中选择了190，094张高分辨率图像的子集，CSAW是一个基于人群的队列，由主要为乳腺癌任务开发的数百万次乳房X线摄影扫描组成[2，15，24]。在这里，我们专注于乳腺癌的风险预测，一个敏感的保持率0.5（理论）保持率0.5（经验）保持率0.25（理论）保持率0.25（经验）图4：对于较大的序列长度N，PatchDropout增加的计算节省。我们举例说明了在使用PatchDropout时，保持率为0.5时的理论（左）和经验（右）计算相对节省，0.25对于不同的输入序列长度和ViT模型。具有固定块大小16的不同大小的图像导致不同数量的标记（垂直虚线）。正如3.2节所讨论的，由于各种因素，经验储蓄并不总是与理论分析相对应。然而，趋势仍然是一致的：随着图像尺寸以及输入标记数N的增加，观察到的计算节省接近理论最小值limN！1 .一、分类任务数据在患者级别进行分割，验证集包含平衡类，产生152，922张训练图像，3，256张验证图像和33，916张测试图像。此外，为了验证PatchDropout在其他领域和传统图像尺寸上的适用性，我们在3个标准图像分类数据集上进行了实验： I MAGENET [3] 、CIFAR100 [9]和P LACES 365 [34]。遵循标准实践，我们报告了IMAGENET和PLACES 365的官方验证分割结果，我们使用1%的训练数据进行验证。在CIFAR100上，2%的训练图像包含验证集，结果在官方测试集上报告。CSAW的预处理图像采用DICOM格式，需要几个预处理步骤，详细说明如下。使用DICOM元数据，我们重新缩放强度值，并使用反向对比校正任何图像。在[11]之后，根据一组排除标准排除某些图像。其目的是滤除噪声图像、植入物图像、活检图像和曝光中止乳房X光片3957⇥⇥⇥⇥IMAGENETCIFAR100表1：在CSAW上使用PatchDropout的性能（AUC）、内存和计算节省。在单个GPU上以1的批大小计算内存。将癌症体征与用于风险评估的体征分开。更具体地说，诊断前60天检查的病例被排除在外，以避免风险混淆。对于其他数据集，我们只调整其图像大小以满足我们的实验需要，没有执行额外的预处理。补充资料A提供了进一步的细节。模型和训练协议在本研究中，我们主要使用在精神和计算复杂性上与原始ViTs [5]相似的DEI Ts [27]。除非另有说明，否则模型选择是在16年12月16日训练的DEIPLACES365 CSAW图5：并非所有输入补丁都必须存在。50%的输入补丁足以保持图像大小为224 224的模型性能：它提高了效率2，而性能下降在I MAGE NET 上仅为0.17%，在CIFAR100上为0.07%，在CIFAR100上为0.38%。第365章大结局在CSAW上，与保留所有令牌相比，保留大约一半的输入补丁会导致AUC增加0.25% - 0.60%。补丁（表示为DEI T-B/16），并根据输入进行尺寸224磅此外，为了证明PatchDropout是保持内存GFLOPs IMAGENET CIFAR100 PLACES365 CSAW不考虑结构选择，我们使用SWIN进行消融[12]。SWIN旨在降低原始ViT的计算复杂性。它们与输入大小成线性关系，并且继承了CNN的一些特性率（GB）0.80 . 7 8 0.79+0.09%-0.17%-0.13%设计的感应偏置。其他实施细节可参见附录B。5. 结果和讨论在本节开始时，我们将证明并非所有输入的补丁在训练过程中都是必要的-因此，我们可以随机丢弃其中的大部分。然后，我们展示了如何PatchDropout不仅可以用来节省数据和计算，而且还可以提高模型的预测性能。最后，我们分析了PatchDropout的正则化效果及其作为增强方法的作用。除非另有说明，否则每个实验重复3次，我们报告每个数据集的适当度量的平均值。对于IMAGENET、CIFAR100和PLACES 365，我们报告了前1名的准确性，对于CSAW，报告了检查级AUC，其中预测采用检查中每次乳房X线照片的平均得分。培训期间是否需要所有输入补丁？为了评估PatchDropout的影响并确定是否所有令牌都是训练ViT所必需的，我们进行了实验，其中将不同百分比的令牌呈现给模型。如图1和表1所示，25%的令牌足以训练准确的模型。0.70 . 6 80.69+0.09%-0.10%-0.12%-0.37%0.60 . 5 70.59+0.03%-0.07%-0.16%+0.60%0.50 . 4 8 0.50-0.17%-0.07%-0.38%+0.29%0.40.390.40-0.59%-0.27%-0.68%+0.25%0.30.300.40-1.41%-0.58%-1.21%负百分之零点零四0.20 . 2 2 0.20-3.04%-1.23%-2.19%-0.82%0.10.140.10-7.28%-4.22%-4.60%-5.41%表2：使用PatchDropout在包含224 × 224张图像的各种数据集上节省的性能、内存和计算。896896像素高分辨率CSAW图像，同时消耗的内存和计算量减少80%以上。有趣的是，使用25%或50%的标记训练的模型优于使用所有标记的模型。这暗示了PatchDropOut的正则化效应，我们将在后面讨论。在图5和表2中，我们使用224 224张图像探索了这种趋势如何转化为标准图像分类基准数据集。我们观察到，性能随保持率的函数而变化。在所有情况下，50%或更大的保持率足以保持良好的性能。当使用50%的令牌时，性能下降在 IMAGENET 上仅为 0.17% ，在CIFAR100上为0.07%，在PLACES 365上为0.38%。内存和计算的减少是显著的，与保持率相似。输入保持率内存（GB）GFLOPSAUC22411.4617.5864.71%8960.051.5015.6565.27%8960.101.6530.3765.59%8960.252.5179.9666.63%8960.505.15180.6467.03%896114.86449.9866.47%1 20.96 17.5883.17%93.33%58.05% 64.71%0.90.89 0.90-0.03%的百分比+0.07%+0.11%-0.09%的百分比-0.30%3958率（G⇥⇥⇥输入贴片保持率 GFLOPS I MAGENET CIFAR100 CSAW64 16 1 1.46 66.78% 87.27%-模型保持内存GFLOPS IMAGENETCIFAR100 CSAW64 8 0.25 1.46 70.57% 89.77%-128 16 0.25 1.4976.25% 91.30%-112 16 1 4.33 77.65% 91.98% 63.07%112 8 0.25 4.33 79.11% 92.38% 60.08%224160.254.4181.02%92.50%64.87%224 16 1 17.58 83.17%93.33%64.71%224 8 0.25 17.5883.43%92.71% 64.28%448 16 0.25 17.93 83.26% 92.20%65.59%448 16 1 78.57--66.31%448 8 0.25 78.57--66.13%896 16 0.25 79.96--66.63%DEIT-T15.061.2675.22%86.94%63.45%DEIT-S0.252.461.1578.09%90.30%63.76%DEIT-S 1 10.20 4.61 80.69% 91.08%64.62%DEI T-B0.255.464.4181.02%92.50%64.87%DEIT-B 1 20.96 17.58 83.17%93.33%64.71%DEI T-L0.2515.3415.3983.81%93.97%65.31%表4：使用224 × 224个图像训练具有补丁丢失的较大ViT变体的影响。模型深度保持存储器GFLOPS IMAGE NET CIFAR100 CSAW表 3 ：不同图像大小和补丁大小的影响。使用PatchDropout在多个数据集上测量更改图像大小和补丁大小对FLOPS和性能的影响。率（GB）我们能否用PatchDropout带来的内存和计算节省来换取更准确的预测？在前面的分析中，我们看到PatchDropout可以在不影响模型性能的情况下节省大量内存和计算。这种节省可以实现更精细的模型选择（例如，更精细的网格搜索）或更宽范围的训练选择（例如，更大的批量大小）或更精确但计算量大的体系结构。因此，我们提出的下一个问题是，我们是否可以利用节省的内存和计算来提高模型的预测性能，同时保持计算预算与用于完整令牌序列的计算预算相似。我们的实验表明，这可以通过两个简单的设计选择轻松实现：(1) 通过（a）使用更高分辨率的图像或（b）减小补丁大小来增加总令牌序列。(2) 使用具有更大容量的模型。– Larger images or smaller patch size然而，这与如第3节所述，由于输入序列长度的增加而导致的大的存储器和计算开销。PatchDropout通过减少序列长度来降低此成本，从而允许利用较大的图像和较小的补丁。表3说明了在各种数据集上的不同设置下，模型性能和输入序列长度之间的权衡将PatchDropout中保存的计算转换为更大的图像，几乎对所有设置都产生了很大的性能提升（比较每组的第1行和第3行）。例如，将大小为128 128且保持率为0.25的图像的IMAGENET与保留所有to-kens的64 64在相同的成本下，精确度提高了近10%。然而，对于较大的计算预算，性能增益会减少。在所有数据集中都观察到了这一趋势。表5：使用224 × 224张图像使用Patch- Dropout训练更深层次模型的影响。将使用PatchDropout获得的节省用于较小的补丁大小也会产生显著的性能增益。然而，增益不像分辨率那样一致（比较每组的第1行和第2行）。对于自然域，较小的补丁大小可以改善模型性能，正如[5，27]所预期的那样。在CSAW上，较小的贴片尺寸似乎会对性能产生负面影响，但随着分辨率的提高，这种影响会逐渐减弱。请注意，在某些情况下，图像在我们的实验中被上采样。一般来说，我们注意到更高的分辨率和更小的补丁大小通常是有益的，但并不总是如此。我们推测，当我们远离数据集的原生分辨率时，由于显著的信息丢失，较大的输入大小和较小的补丁大小可能会对模型性能产生负面影响。尽管如此，PatchDropout允许探索用完整令牌序列无法达到的超参数设置。– Models with larger capacity PatchDropout节省的内存和计算可以用于训练更大的ViT变体。在表4中，我们解释了这种权衡。有趣的是，趋势是使用PatchDropout的较大模型始终优于使用所有令牌的等效成本的较小变体。这种趋势在所有数据域都有，内存效率提高了2。1.一、与增加图像大小或减少令牌大小相比，使用更大的模型的PatchDropout，自然数据集赢得了更大的收益。增加模型容量的另一种方法是将更多的Transformer块堆叠到特定的ViT变体。我们通过增加模型的深度和改变保持率来探索固定计算芽获取的这种权衡。我们在表 5 中报告了结果。当使用 PatchDropout 将模型的Transformer块加倍时DEI T-B12一百二十点九六17.5883.17%93.33%64.71%DEI T-B240.5 19.7317.3183.06%93.40%65.42%DEI T-B480.2520.9517.3181.46%92.71%65.31%3959⇥#网络保持率 GFLOPS I MAGENET CIFAR100 CSAW1117.5883.17%93.33% 64.71%20.517.4483.48%93.74%65.26%40.2517.6682.20%93.45% 64.92%表6：使用PatchDropout计算节省来训练系综。CIFAR100和CSAW的性能提升。然而，我们注意到，当模型变得太深时，IMAGENET的性能会更差。我们将此归因于ViT架构针对IMAGENET进行了优化。模型集合是获得更准确预测的另一种选择。我们将探讨如何将PatchDropout节省的计算资源用于训练其他模型，以用于集成。在表6中，我们表明，在50%保持率一致性下训练的两个网络的集合优于没有PatchDropout 的单个模型。然而，当较低的保留率（25%）被交易为四个网络的集合时，收益就会减少。PatchDropout可以用作正则化方法吗？以前，我们注意到PatchDropout可以导致与相同设置相比提高性能，但使用所有令牌，例如。在图5中。这对它的正则化效应有一些影响。因此，我们要求：（i）Patch- Dropout可以用作正则化器吗？补丁丢失是否提供了对信息删除的鲁棒性？为了回答第一个问题，我们运行实验，将PatchDropout视为增强方法。详细来说在每次迭代中，我们统一采样保持率，0.5和1，我们使用它来随机选择图像块的子集。我们在表7中报告了结果，我们得出结论，PatchDropout是一种有用的增强方法。它提供了正则化，在这个意义上，泛化在所有数据集上都得到了改进。这并不完全令人惊讶，因为PatchDropout的行为类似于已知的CNN正则化方法，如cutout [4]。如果PatchDropout有一些正则化的好处，那么另一个问题是：它能提供抵抗信息丢失的鲁棒性吗？为了解决这个问题，我们评估了使用所有图像补丁训练的模型和使用不同保持率的PatchDropout训练的模型。在测试期间，我们使用不同的保持率随机删除图像内容。我们的结果是图6中的我们发现，在所有情况下，使用PatchDropout训练的模型都表现出对信息删除的鲁棒性增强（绿色曲线明显高于蓝色曲线）。为了完整起见，我们还报告了在测试时使用PatchDropout训练的模型的所有令牌时的曲线（图6中的紫色曲线）。这些结果进一步验证了我们的方法的正则化效果。保持率IMAGENETCIFAR100CSAW1 83.17% 93.33% 64.71%{0.5，1}83.32% 93.57% 65.04%表7：PatchDropout具有正则化属性。而不是使用所有的令牌，训练ViT与补丁辍学使用随机保持率提高泛化。IMAGENETCSAW图6：PatchDropout提高了模型的鲁棒性。我们在推理过程中通过随机丢弃输入补丁并测量性能变化来拒绝模型的信息。绿色曲线显示了模型在使用输入补丁的百分比进行训练并使用相同的保持率进行评估时的性能。蓝色曲线表示使用所有补丁进行训练但在输入补丁的子集上进行评估时模型的性能。为了完整起见，紫色曲线显示使用Patch- Dropout的训练和使用所有Patch的推理。当保留50%或更多的贴片时，这导致IMAGENET的最小性能下降和CSAW的预测性能增加。这些趋势表明，使用PatchDropout训练的模型在推理过程中对缺失信息更鲁棒。PatchDropout是否受到架构选择的限制？在我们的工作中，我们使用了DEI T模型族，因为它们最适合我们的分析目的。然而，这提出了一个问题，PatchDropout是否对其他架构选择有效。为了回答这个问题，我们使用SWIN [12]进行实验，SWIN是专门设计用于降低DEIT计算复杂性的模型。SWIN使用窗口移位方法和在每个块处重新分配位置嵌入来操作。这需要稍微不同的PatchDropout实现。而不是随机采样图像补丁，我们应用结构化采样，我们随机采样列和行索引的每个窗口，以获得交叉令牌。这保持了令牌之间的空间关系，并使SWIN能够平滑地移动窗口。相应地对对应的相对位置偏差进行采样我们在图7中报告了我们的发现，使用224 224图像进行IMAGENET和CSAW。我们辨别出与图5中的模式相似的模式。当使用PatchDropout时，CSAW表现出较小的性能增益，保持率大于50%，而IMAGE NET显示1%3960IMAGENETCSAW图7：PatchDropout也适用于SWIN。尽管通过重新引入CNN电感偏置实现了线性缩放，但PatchDropout可以应用于保持率为0.5或更高的SWIN，而不会降低性能。原始均匀结构裁剪随机93.33% 91.84% 92.94%图8：不同补丁采样策略的影响。CIFAR100上的准确性报告为保持率0.25，224×224分辨率为各种补丁采样策略。以50%的保持率下降。然而，PatchDropout的适用性仍然有效，即使对于已经被开发为通过设计来节省DEI T的这种架构也是如此。其他消融研究我们用两项消融研究来总结我们的分析，旨在评估随机抽样的有效性和大规模预训练的作用。– Patch- Dropout中的抽样策略有多重要？为了评估我们在方法中使用的随机采样与其他采样方法相比的有效性，我们对CIFAR100进行了一项小型消融研究，我们使用固定的保持率0.25训练模型，但我们改变了采样方法。在图8中，我们说明了我们使用的采样方法，并报告了前1名的准确度。结果表明，所提出的方法的有效性并不严重依赖于采样策略的选择。这一点，以及我们使用结构化采样（见前一段）的SWIN的结果表明，PatchDropout是一种通用方法，可以很容易地纳入其他类型的ViT模型。– PatchDropout对初始化策略敏感吗？在整个工作中，我们利用在IMAGENET-21K上预训练的模型，因为视觉转换器依赖于大规模的预训练，特别是在使用小数据集时[5，27，13，14]。但是，当使用随机初始化[ 7 ]时，PatchDropout有用吗？为了回答这个问题，我们在CSAW上训练随机初始化的模型，并在表8中报告结果。事实上，PatchDropout可以在CSAW上使用随机初始化的模型，尽管保持率IMAGENET-21K初始化。随机初始化。1 64.71% 59.32%0.50+ 0.29%+ 0.16%0.25+ 0.16%- 0.90%表 8 ：针对 PatchDropout 的 IMAGENET-21 K 初始化对CSAW的影响。减少性能增益，这表明所提出的方法对于初始化策略是不可知的。6. 结论在这项工作中，我们依赖于这样一个事实，即在图像数据中遇到的空间冗余可以利用经济的视觉变换器，我们提出了一个简单而有效的方法，PatchDropout。通过随机丢弃输入标记，我们的方法可以显著减少内存和计算量，特别是在高分辨率图像上。此外，我们还演示了如何在相同的内存和计算预算下，将PatchDropout引入的节省的计算交换为更好的预测性能。最后，我们证明了PatchDropout可以在训练过程中作为一种正则化技术，从而提高模型的鲁棒性。PatchDropout需要最少的实现，并与现成的视觉转换器一起工作。我们相信PatchDropout应该是每个从业者工具包中的一个基本工具降低计算需求可以通过降低训练模型的成本来帮助深度学习民主化。为弱势群体和弱势群体（包括但不限于小型学术团体、医院和公司）实现公平的结果，需要多种解决方案。除了社会效益，人们还可以考虑对气候的积极影响。全球数据中心占能源消耗和温室气体排放的很大一部分，如果广泛应用，可以通过在模型开发期间减少计算来减轻。尽管我们做出了努力，但训练最先进的网络（如ViTs）仍然是计算昂贵的，因此具有显著的碳足迹。鸣谢。这项工作得到了MedTechLabs（MTL），瑞典研究委员会（VR）2017-04609，斯德哥尔摩地区HMT20200958和Wallenberg自治系统计划（WASP）的部分支持。这些计算是由国家超级计算机中心的克努特和爱丽丝·瓦伦堡基金会提供的Berzelius资源实现的。3961引用[1] MathildeCaron，Hugo T ouvron，Ishan Misra，Her ve'J e'gou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin. 自我监督视觉转换器中的新兴特性。IEEE/CVF计算机视觉国际会议论文集，第9650-9660页，2021年[2] Karin Demrower，Peter Lindholm，and Fredrik Strand.一个用于训练和评估深度神经网络的数百万乳腺X射线摄影图像数据集和数字成像杂志，第1-6页[3] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页Ieee，2009年。[4] Terrance DeVries和Graham W Taylor。改进的卷积神经网络的正则化。 arXiv 预印本 arXiv ： 1708.04552 ，2017。[5] AlexeyDosovitskiy ， LucasBeyer ， AlexanderKolesnikov ， Dirk Weissenborn ， Xiaohua Zhai ，ThomasUnterthiner ， MostafaDehghani ， MatthiasMinderer，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器.arXiv预印本arXiv：2010.11929，2020。[6] Kaiming He，Xinlei Chen，Saining Xie，Yanghao Li，Piotr Doll a'r，andRossGirshick. Masked自动编码器是可扩展的视觉学习器。在IEEE/CVF计算机视觉和模式识别会议论文集，第16000[7] Kaiming He ， Xiangyu Zhang ， Shaoying Ren ， and JianSun.深入研究整流器：超越人类水平的图像分类性能。在IEEE计算机视觉国际会议论文集，第1026-1034页[8] Hao Hu，Federico Baldassarre，and Hossein Azizpour.用于改进自监督视觉变换器的可转移性的可学习掩蔽令牌。在数据库中的机器学习和知识发现联合欧洲会议上。施普林格，2022年。[9] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习2009.[10] Youwei Liang ， Chongjian Ge ， Zhan Tong ， YibingSong，Jue Wang，and Pengtao Xie.并非所有的补丁都是您需要的：通过令牌重组加速视觉转换器。arXiv预印本arXiv：2202.07800，2022。[11] Yue Liu，Hossein Azizpour，Fredrik Strand，and KevinSmith.在基于图像的乳腺癌风险模型中解耦固有风险和早期癌症体征。医学图像计算和计算机辅助干预国际会议，第230-240页Springer，202

下载后可阅读完整内容，剩余1页未读，立即下载