迁移学习在医学图像中的有效性及特征重用

94 浏览量更新于2023-10-25 收藏 15.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Christos Matsoukas1,2,3 *, Johan Fredin Haslum 1,2,3, Moein Sorkhei 1,2, Magnus S¨oderberg 3, Kevin Smith 1,2knowledge from one domain to another. For applications inmedical imaging, transfer from ImageNet has become thede-facto approach, despite differences in the tasks and im-age characteristics between the domains. However, it is un-clear what factors determine whether – and to what extent –transfer learning to the medical domain is useful. The long-standing assumption that features from the source domainget reused has recently been called into question. Througha series of experiments on several medical image bench-mark datasets, we explore the relationship between transferlearning, data size, the capacity and inductive bias of themodel, as well as the distance between the source and tar-get domain. Our ﬁndings suggest that transfer learning isbeneﬁcial in most cases, and we characterize the importantrole feature reuse plays in its success.92250迁移学习在医学图像中的有效性：特征重用及其他因素0特征重用和其他因素01 瑞典斯德哥尔摩皇家理工学院02 瑞典斯德哥尔摩生命科学实验室03 瑞典哥德堡阿斯利康公司0摘要0迁移学习是一种将一个领域中获得的知识转移到另一个领域的标准技术01. 引言0在一个领域中获得的知识，即源域，用于提高另一个领域，即目标域的性能。当目标域的数据有限时，通常会使用迁移学习。医学影像就是这种情况，因为数据获取的费用、疾病的罕见性以及法律和伦理问题限制了数据的规模。缺乏大型公共数据集导致广泛采用从ImageNet到医学任务的迁移学习来提高性能。0尽管迁移学习被广泛应用，但我们对其还没有完全理解0我们尚不清楚从自然领域到医学领域的迁移学习是如何实现的。在本文中，我们努力描绘出哪些因素能够实现成功的迁移学习。通过一系列全面的实验，我们研究了迁移学习的有效性作为一个函数0*通讯作者：Christos Matsoukas 0APTOS 2019 CBIS-DDSM ISIC 2019 CheXpert PatchCamelyon0图1. 影响从ImageNet到医学领域迁移学习效果的因素。每个点的大小表示性能的相对增加（WT0从表1中可以看出，通过从ImageNet迁移权重（RI0与随机初始化（RI）相比，从ImageNet（WT）迁移学习的增益中有多少归因于特征重用（相对增益WT-ST）由点的颜色表示0WT从表1中获得的相对增益0在所有设置中，将数据归一化到最小值和最大值之间（详见第2节）。每个面板显示了不同模型在五次运行中观察到的增益，按归纳偏差递增的顺序排列：DEIT-S、SWIN、INCEPTION和RESNET50。迁移学习的好处随着（1）数据规模减小，（2）源域和目标域之间的距离缩小，以及（3）归纳偏差减小而增加。此外，特征重用与观察到的增益呈正相关0与观察到的迁移学习增益强烈相关，这表明特征重用发挥了重要作用，尤其是对于缺乏CNN归纳偏差的ViTs。(*)表示特征重用不那么重要的情况，见[30, 36]。92260数据集大小、源域与目标域之间的距离、模型的容量和模型的归纳偏差是影响迁移学习效果的因素。我们的研究结果总结如图1所示，表明迁移学习的好处随着以下因素的增加而增加：0• 数据规模减小 •源领域和目标领域之间的距离较小 •具有较少归纳偏差的模型 •具有更大容量的模型，在较小程度上。0我们还发现转移学习的观察到的好处与特征重用的证据之间存在强相关性。0关于如何进行迁移学习的理解很大程度上基于特征重用的假设。0直到最近，关于如何进行迁移学习的工作都是基于特征重用假设的。特征重用假设认为，在源领域学习的权重能够在目标领域中被广泛使用。实际上，这意味着在ImageNet上学习的权重在目标领域中提供了有用的特征，并且在微调过程中不会发生实质性的变化，尽管两个领域之间存在差异[4, 5,13,34]。然而，这一假设最近受到了挑战，Raghu等人证明了转移到医学任务中观察到的收益主要归因于权重缩放和低级统计[36]，这在[30]中得到了确认。0我们的目标是对特征重用的作用进行一些澄清。0在这项工作中，由于特征重用很难精确测量，我们从多个角度通过一系列实验来研究它。我们发现，当迁移学习效果好时：(1)权重统计不能解释大部分收益(2)特征重用的证据最强。我们的发现并不与[30,36]的发现相矛盾，相反，我们表明他们发现了一个孤立的情况(*在图1中)0在数据集较大且与ImageNet相距较远的情况下，特征重用的重要性较小。在这种情况下，迁移学习只能带来较小的收益，这主要归因于权重统计。我们的工作提供了一个更完整的图景，考虑了数据集在大小和与源领域之间的距离上的更多变化，并得出结论：在几乎所有情况下，特征重用都起着重要作用。0我们通过发现视觉转移与特征重用的关系来补充这一情况0在我们测试的所有数据集中，具有较少归纳偏差的CNN和ViTs的特征重用依赖性较强。我们选择了四个具有逐渐增强的归纳偏差的CNN和ViTs系列，并发现具有较少归纳偏差的模型更加依赖特征重用。此外，具有较少归纳偏差的模型中的特征重用模式发生了变化。具体而言，ViTs中的特征重用集中在早期层，而CNNs则在整个网络中更一致地重用特征。0我们共享代码以重现我们的实验，可在github.com/ChrisMats/feature-reuse上找到0可在github.com/ChrisMats/feature-reuse上找到我们的代码。0[30, 36]的局限性在于它们只考虑了应用于CNN的情况0C HE X PERT是最大的公开医学图像数据集之一（在[36]中还有一个类似规模的私人视网膜图像数据集）。02. 问题表述和方法论0本研究的目标是研究从自然图像到医学图像的迁移学习。0从自然图像到医学图像领域的转移表示。我们的核心问题是：确定转移表示在医学领域是否有效的因素是什么？在什么条件下它们能够提供改进的性能？目标数据集的大小是否会受到影响？与源数据集的相似性/差异性有关吗？特征重用起到了什么作用？重用了哪些源特征？最后，模型的架构和归纳偏差起到了什么作用？0为了研究这些问题，我们进行了一系列实验。0通过考虑各种医学图像数据集、初始化策略和具有不同归纳偏差的架构，我们进行了一系列实验。我们还进行了几项消融研究，以表征每个网络在不同深度上的特征重用。我们的方法的详细信息如下所述。0数据集。我们选择的数据集有助于我们描述迁移学习的改进程度。0迁移学习的有效性因数据的属性而异。在源领域中，我们在整个工作中使用I MAGE NET。对于目标领域，我们选择了一组代表性的五个标准医学图像分类数据集。0• APTOS2019（N = 3,662）高分辨率糖尿病0视网膜病变图像的任务是将其分类为5个疾病严重程度类别[19]。0• CBIS-DDSM（N = 10,239）乳房X线摄影0数据集的任务是检测肿块的存在[23, 37]。0• ISIC 2019（N = 25,331）皮肤镜图像-0任务是在9个不同的皮肤病变诊断类别中进行分类[8, 9,41]。0• CHEXPERT（N = 224,316）带标签的胸部X线片0超过14个诊断观察类别[18]。0• PATCH CAMELYON（N = 327,680）H＆E的补丁0淋巴结切片的染色WSIs。任务是将每个补丁分类为癌症或正常[2, 42]。0我们计算I MAGE N ET与上述数据集之间的Fr´echetInception距离（FID）[17]，以衡量与源领域的相似性（图1和表1）。尽管它可能不是一个完美的度量[6,26]，但它可以合理地指示数据集之间的相对距离。0架构。为了研究网络架构的作用0我们选择了两个代表性的ViT模型，DEIT [40]和SWIN[24]，以及两个代表性的CNN模型，RESNETs[16]和INCEPTION[38]。我们选择这些模型类型是因为它们被广泛研究并且常用作其他网络的骨干。为了确保公平比较，我们选择了在容量上相似的架构变体进行主要实验。92270除了它们的流行之外，我们选择它们的另一个原因是0选择这些模型的目的是研究迁移学习中归纳偏差的作用，因为每个模型都具有独特的内在偏差。这些模型按照归纳偏差的增加顺序排列：DEIT，SWIN，INCEPTION和RESNET。我们从具有最少归纳偏差的模型开始，即DEIT系列。与原始的ViT[11]类似，DEIT在精神上类似于一个纯Transformer-摒弃了几乎所有图像特定的归纳偏差，例如局部性、平移等价性和分层比例。根据Doso-vitskiy等人的说法，这导致像纯ViTs这样的模型在训练数据不足时泛化能力较差[11]。最近，SWIN Transformer在IMAGE NET上表现出优于DEIT和其他ViT的性能，通过重新引入CNN的许多归纳偏差。SWINTransformer将自注意力与在不同尺度上局部操作的分层结构相结合，将局部性、平移等价性和分层比例构建到ViT中。转向CNN，我们包括INCEPTION，这是一个较旧的CNN，其具有在传递到下一层之前在多个尺度上并行处理信号的Inception块。最后，我们选择了RESNET系列，因为它是最常见和被引用的CNN骨干，最近的研究表明RESNET与最新的SOTA CNN竞争[3]。0初始化方法。为了理解机制0驱动从I MAGE NET到医学领域的迁移学习成功，我们需要评估迁移学习的改进程度可以归因于特征重用的程度。迁移学习通常是通过采用架构及其I MAGE NET预训练权重，然后在目标任务上进行微调来执行的。两个0通过这个过程传输的东西有：模型架构和其学习到的权重。Raghu等人表明，权重的实际值并不总是对于良好的迁移学习性能是必要的[36]。通过使用权重统计数据来初始化网络，可以实现类似的性能。在这种情况下，迁移就是提供一系列良好的值来随机初始化网络，消除特征重用的因素。0为了分离特征重用与权重传递的贡献，0统计信息，我们采用三种初始化策略：0• 权重传递（WT）-从I MAGE N ET预训练模型传递0训练的权重，0• 统计传递（ST）-从正态分布中采样权重0分布，其均值和方差从I MAGE NET预训练模型逐层获取，0• 随机初始化（RI）-Kaiming初始化[15]。0通过研究使用这些方法初始化的模型之间的差异，我们可以了解传递模型重用I MAGE NET特征的程度。此外，我们还可以调查特征重用有益的位置。0在网络中通过传递权重（WT）直到第n个块，并使用ST初始化其余m个块。我们将此设置表示为WT-ST。例如，具有权重传递直到conv1的ResNet50被写为ResNet50-WT-ST-1/5 2。0网络内部的特征重用，我们提出以下问题：特征微调前后的特征如何组织-它们是否相似？特征相似性能否揭示特征重用或缺乏特征重用？为了回答这些问题，我们使用中心核对齐（CKA）来计算网络内部和网络之间特征的相似性[21]。CKA对正交变换和各向同性缩放的不变性使得可以进行不同大小表示之间的有意义的定量比较。我们对每个层（在单个网络或网络对之间）进行逐对计算CKA，以提供网络相似性的视觉概述。详细信息请参见附录A。0无法确定微调后是否重用传递的特征。但是，通过研究传递的“粘性”程度-权重在微调过程中从其初始传递值漂移的程度-我们可以获得一些见解。我们使用两种不同的策略来量化传递的“粘性”：（1）计算初始权重与微调后权重之间的L2距离；（2）测量将层的权重重置为其初始值的影响，这种性质被称为张等人的“重新初始化鲁棒性”[44]。在微调过程中发生重大变化的层（因此表现出低鲁棒性）要么没有很好地重用传递的权重，要么对新领域进行了强烈的适应。0逐层分析传递的表示。0我们希望解决的下一个问题是：网络的哪些部分产生/重用低级和高级特征？CNN和ViTs之间的表示差异如何影响迁移学习？CNN的表示能力和有效感受野随深度增加。另一方面，ViTs“看”方式不同[35] -它们在每个层上保持更均匀的表示，并且可以在每个层上利用局部和全局特征。0为了研究这些问题，我们评估了表征的0传递特征在整个网络中的表征能力。在使用WT、ST和WT-ST初始化后，我们在目标数据集上进行微调，并在所讨论的层上应用k-NN评估协议[7]。这将测试样本的嵌入表示与训练集中最接近的k =200个嵌入之间的余弦相似性进行比较。基本上，这个测试允许我们看到高级特征何时与训练集中的样本有相似性。02 每个模型的块数不同；对于CNN，n = 1 对应0对于CNN，它对应于第一个卷积层，对于ViTs，它指的是patchifier。ModelInit APTOS2019,  " DDSM, AUC " ISIC2019, Rec. " CheXpert, AUC " Camelyon, AUC "(# parameters)n = 3,662n = 10,239n = 25,333n = 224,316n = 327,680FID = 160FID = 155FID = 141FID = 181FID = 202DeiT-S(22M)RI0.684 ± 0.0170.907 ± 0.0050.576 ± 0.0130.740 ± 0.0060.921 ± 0.002ST0.721 ± 0.0160.895 ± 0.0050.607 ± 0.0170.734 ± 0.0020.916 ± 0.005WT0.894 ± 0.0170.949 ± 0.0110.824 ± 0.0080.792 ± 0.0010.962 ± 0.003SWIN-T(29M)RI0.689 ± 0.0220.898 ± 0.0050.597 ± 0.0800.780 ± 0.0010.936 ± 0.002ST0.722 ± 0.0170.900 ± 0.0040.654 ± 0.0080.785 ± 0.0000.948 ± 0.013WT0.906 ± 0.0050.961 ± 0.0070.833 ± 0.0080.805 ± 0.0000.968 ± 0.006InceptionV3(24M)RI0.835 ± 0.0120.923 ± 0.0030.668 ± 0.0080.794 ± 0.0010.956 ± 0.006ST0.796 ± 0.0140.907 ± 0.0140.629 ± 0.0130.787 ± 0.0010.956 ± 0.003WT0.873 ± 0.0070.939 ± 0.0100.758 ± 0.0110.797 ± 0.0000.958 ± 0.004ResNet50(25M)RI0.845 ± 0.0220.919 ± 0.0050.664 ± 0.0160.796 ± 0.0000.948 ± 0.008ST0.848 ± 0.0060.933 ± 0.0060.635 ± 0.0120.794 ± 0.0010.959 ± 0.003WT0.888 ± 0.0040.957 ± 0.0030.795 ± 0.0110.800 ± 0.0010.960 ± 0.00692280图2.哪些层受益于特征重用？我们评估了在使用WT-ST初始化（WT分数从0到1，其中0 = ST，1 =WT）时的权重传递的影响。左侧的较低性能表明网络依赖于传递的权重。? =RI。最后一个面板报告了每种模型类型在所有数据集上平均相对增益。WT-ST初始化的详细信息可以在附录H中找到。0特征在网络中出现。对于CNNs，嵌入是通过在所讨论的层上进行全局平均池化获得的。对于ViTs，我们采用类似的过程，但对D EI Ts的 cls令牌进行了特殊修改。cls令牌与空间令牌处理信息的方式不同，携带了分类所需的大部分信息[11, 35,40]。因此，我们以三种不同的方式构建嵌入：(1)仅使用 cls令牌的激活，(2)使用空间令牌的激活，(3)将(1)和(2)连接起来。0训练过程。除非另有说明，我们使用以下训练过程进行所有实验。每个数据集被分为80/10/10的训练/测试/0对于所有实验，我们使用以下训练过程。每个数据集被分为80/10/10的训练/测试/验证集，APTOS2019除外，由于其规模较小，被分为70/15/15。图像被归一化处理。0并调整为256×256，应用以下增强技术：颜色抖动、随机垂直和水平翻转以及缩放后的随机裁剪224×224。I MAGE N ET预训练的权重可以在PyTorch[33]中获得，或者从D EIT和SWIN的官方存储库中下载。CNN和ViT模型分别使用Adam[20]和AdamW[25]优化器进行训练，批量大小为64。我们进行了独立的网格搜索，以找到合适的学习率，发现10^(-4)对于CNNs和ViTs都效果最好，RI使用了3×10^(-4)。我们将这些作为优化器的基本学习率，同时使用默认的1,000个热身迭代。在训练过程中，当验证性能饱和时，将学习率降低10倍，直到达到最终学习率10^(-6)。对于Transformer模型，我们使用16×16的默认补丁大小进行D EIT模型和4×4进行SWIN模型。对于每次运行，我们保存初始检查点和具有最高验证性能的检查点。0对于CNNs和ViTs，除了RI使用了3×10^(-4)，其他优化器的基本学习率都是10^(-4)。我们将这些作为优化器的基本学习率，同时使用默认的1,000个热身迭代。在训练过程中，当验证性能饱和时，将学习率降低10倍，直到达到最终学习率10^(-6)。对于Transformer模型，我们使用16×16的默认补丁大小进行D EIT模型和4×4进行SWIN模型。对于每次运行，我们保存初始检查点和具有最高验证性能的检查点。0表1. 模型在不同初始化下的性能。0的初始检查点和具有最高验证性能的检查点。03. 实验0在本节中，我们报告与迁移学习相关的发现。0学习和特征重用。除非另有说明，每个实验重复5次。我们报告每个数据集的适当评估指标的平均值和标准差：APTOS2019的Quadratic CohenKappa，ISIC的Recall，DDSM、C HE X PERT和P ATCH CAMELYON的ROC-AUC。0何时将迁移学习应用于医学领域是有益的，特征重用有多重要？为了量化迁移学习的整体效益并分离特征重用的贡献，我们进行了如下实验。0为了确定迁移学习的整体效益并分离特征重用的贡献，我们比较了权重传递（WT）、统计量传递（ST）和随机初始化（RI）。我们还使用Fr´echet InceptionDistance（FID）[17]来衡量源域（I MAGE NET）和目标域之间的距离。结果报告在表1和图1中。0我们观察到的总体趋势是：0在数据规模减小、源域和目标域之间的距离缩小以及具有较少归纳偏差的模型的情况下，迁移学习的效益增加。我们首先考虑迁移学习效益最小的情况：应用于大型数据集且与IMAGE NET差异较大的具有强大归纳偏差的模型。在这种情况下，迁移学习的收益微不足道，例如对于应用于C HE X PERT和PATCH C AMELYON的R ES N ET 50和I NCEP -TION。我们观察到的小的收益主要可以归因于权重统计（ST），而不是特征重用（WT），这证实了之前的观察[30,36]。0然而，这些发现不适用于ViTs。ViTs0看起来D EI T比CNNs更能从特征重用中受益。D EI T在CHE X-PERT和P ATCH CAMELYON上通过迁移学习获得了很大的提升，完全归因于权重传递，暗示了强大的特征重用。SWIN重新引入了CNN的归纳偏差，位于中间位置。这种行为的一个可能解释是，由于D EI T缺乏归纳偏差，即使是最大的pub-92290图3.使用CKA的逐层特征相似度。顶部：WT初始化的D EI T-S和RES N ET50在微调之前和之后的CKA表示相似度。底部：微调后ST和WT初始化模型之间的特征相似度。详细结果请参见附录A。0公共医学数据集缺乏足够的示例来学习比从I MAGE NET转移的更好的特征。0当我们转向小数据集时，情况就会改变。0在这里，迁移学习对所有模型都显示出显著的增益。然而，增益的强度和重要性-0特征重用的重要性取决于模型的归纳偏差和域之间的距离。D EIT和SWIN在各个方面都观察到显著的增益，这主要归因于特征重用。R ES N ET 50和I NCEP - TION在AP-TOS2019和DDSM上通过迁移学习获得了合理的增益，这部分可以归因于特征重用。最后，ISIC是最接近I MAGE NET的数据集，对于所有模型都显示出迁移学习的强大效益和特征重用的证据。0哪些层受益于特征重用？我们进行了调查。0通过将权重（WT）传输到第n个块并使用ST初始化其余m个块，我们可以确定特征重用在网络中发生的位置。结果显示在图2中。在这里，我们看到了明显的趋势，揭示了CNN和ViT之间的差异。在大数据集上，CNN表现出相对平坦的线，表明在整个网络中，权重传输（WT）与统计（ST）相比没有提供任何好处。在这里，迁移学习的大部分好处来自统计数据，而不是特征重用。对于较小的数据集，CNN显示出线性趋势，这意味着每一层都从特征重用中获得了一些适度的好处。D EI T显示了-0在所有数据集上都出现明显不同的趋势-在早期层性能急剧提升-表明这些层对特征重用有很强的依赖性。这与之前的研究结果相符，这些研究结果表明，对于良好的性能，需要在早期层学习局部注意力[7, 11]。0图4.微调前后权重的`2距离。我们报告了不同WT-ST初始化方案的初始权重和训练后权重之间的平均`2距离，平均计算所有数据集。增加的距离表明在训练过程中，网络对层权重进行了更大的改变。更多结果请参见附录D中的图17。0我们观察到早期层的重要性可能归因于这些局部特征的重用，这些特征需要大量的数据来学习[35]。SWIN表现出D EIT和CNN的特性，反映了它的归纳偏差的混合。在小数据集和与I MAGE N ET相似的数据集上，SWIN与D EIT非常相似，但在具有足够数据的情况下显示出类似CNN的趋势。可以通过比较图2的最后一面板中的模型来看到一般归纳偏差的趋势，该面板显示了平均相对增益。对于ViTs，较少的归纳偏差需要广泛的特征重用，但集中在早期层。CNN在整个网络中从重用的特征中受益较少，但更加一致，反映了体系结构的分层性质。0总结迄今为止的发现：迁移学习的好处-0学习的效果与特征重用有关，取决于数据集的大小，与IMAGE NET的接近程度以及模型的归纳偏差。接下来，我们从不同的角度寻找特征重用的进一步证据。0通过特征相似性揭示了迁移学习的哪些特性？我们调查了相似特征出现的位置。0在网络中使用CKA进行相似度测量，发生在第2节中描述的。在图3（顶部）和图9中发生。0在附录中，我们可视化了转移学习（WT）前后的特征相似性。红色表示高特征相似性。沿对角线的高特征相似性是相应层中特征重用的证据。对于D EIT，我们发现特征相似性在早期到中期层最强。在后期层中，训练模型适应了新任务并逐渐偏离了I MAGE NET特征。转移学习后的R ES N ET50显示了更广泛的特征相似性-除了必须适应新任务的最后几层。这符合CNN特征的组合性质，也反映在图2和图6中逐层改进中。ViTs和CNNs共同的一个常见趋势是，当有更多数据可用时，从特征重用到特征适应的转变点向早期层移动，因为网络有足够的数据来更多地适应转移的I MAGE NET特征。92300图5.重新初始化鲁棒性。我们逐层测量将模型的权重重置为初始值的影响。性能下降表明在学习过程中，网络对层权重进行了重大变化，表明它没有很好地重用转移的权重。详细信息请参见正文。完整结果请参见附录C。0转移的权重发生了哪些变化？另一种研究方法是0研究特征重用的一种方法是测量在微调过程中权重与初始值之间的`2距离。在图4和附录D中，我们报告了每个网络的初始权重与微调后的权重之间的距离。一般趋势是转移权重（WT）在微调后仍然保持在相同的附近，尤其是在转移学习收益最大的情况下（图17）。随着网络逐渐更多地使用ST进行初始化，转移权重往往粘附得不太好。然而，某些层无论如何都会发生重大变化-ViTs的早期层（patchi�er）和INCEPTION以及R ES N ET50中每个尺度的第一个块。这些是首次遇到数据或尺度变化的层。0我们研究特征重用的最后一种方法是测量0重置层权重为初始值或重新初始化鲁棒性的影响，请参见附录的图5和图16。鲁棒性较低的层在微调过程中发生了重大变化。这些转移的权重不能直接重复使用，而是需要进行调整。我们的主要发现是具有0权重转移（WT）几乎没有发生重大变化，表明特征重用。当转移学习效果最差（R ES N ET在C HE X PERT和P ATCHCAMELYON上）时，WT和ST之间的鲁棒性差距最小。有趣的是，在部分权重转移（WT-ST）的ViTs中，关键层经常出现在WT和ST之间的过渡处。网络快速适应而不是改变转移的权重。但在此适应之后，不再出现关键层。随着数据规模的增加，ViTs对原始输入（或部分WT）进行更多的早期变化。相比之下，CNN中的转移权重往往不太“粘性”。我们看到相同的一般趋势，即WT最为鲁棒，但与ViTs不同的是，R ES N ET50在负责分类的最后几层和网络中定期出现的关键层的鲁棒性较差，这些层在尺度变化时观察到[44]。0图6. 使用k-NN评估在不同深度上的特征预测性能。顶部：R ES NET 50（第一行）和 D EIT-S（第二行）在不同深度上的k-NN评估性能，以及不同WT-ST比例。底部：在对应的WT-ST初始化比例下，在任何深度上达到的最大k-NN评估分数，对应于每种模型类型。详细讨论请参见正文。完整结果请参见附录B。0重用的特征是低级特征还是高级特征？上面，0我们采用了多种技术来研究特征重用在网络中发生的时间和位置。考虑到这些实验，我们现在的目标是确定重用的特征扮演的角色。它们是低级特征还是高级特征？我们可以使用k-NN评估来逐层测量这种性质。k-NN测试的结果如图6所示。0首先，我们考虑ViTs。之前，我们观察到0早期层对ViT的性能至关重要（图2）。在重新初始化实验（图5）中，我们还注意到ViT的关键变化要么发生在输入之后，要么发生在WT和ST之间的过渡。从附录中的图6和16的k-NN测试中，我们可以看到这些关键层内特征的相关性显著增加。后面的层似乎不会进一步为解决任务做出贡献。在图6底部，我们注意到随着我们在开始时添加更多的WT层，ViT特征的区分能力迅速增加，但在网络的中途达到饱和。有趣的是，在附录I中的消融实验中，我们发现DEIT的前5个块在迁移学习中与完整的12个块相比表现相当。显然，ViT中早期特征重用与较小的医学数据规模相结合，导致后面的ViT层中存在未利用的容量，可以有效地丢弃。因此，我们发现ViT的这些关键早期层中重用的特征负责创建高级特征。根据[11,35]，这些关键早期层还负责学习局部和全局特征的混合。03图6第2行的锯齿形模式是由交替的自我-0注意力（+）和MLP层（∙）在ViT架构中常见。92310图7.不同模型容量的权重转移影响。我们评估了在使用WT-ST初始化时，权重转移对模型容量的影响。较大的模型从迁移学习中受益更多，但相同的架构遵循类似的模式。0-这是良好性能的一个关键组成部分，需要非常大的数据集来学习-这解释了ViT对特征重用在迁移学习中的强依赖性。在附录E中，我们确认了WT转移在早期ViT层中产生了局部和全局注意力的混合，而ST初始化无法学习局部注意力。接下来，我们转向图3底部的CKA实验。在这里，我们发现ST初始化模型的早期层与WT初始化模型的前半部分特征相似。我们看到，如果网络被拒绝这些关键的预训练权重，它会尝试仅使用几层快速学习它们（由于缺乏数据），导致性能较差。0CNN中转移特征的作用是不同的，因为0正如我们在图2中看到的，特征重用对CNN的性能有更均匀的分布，而图5中的重新初始化实验揭示了关键层也分布在整个网络中。图6中的k-NN测试进一步支持了这些发现-早期层的跳跃对应于低级特征提取，随着每一层对之前特征的复杂性增加，特征的改进也逐渐增加，直到最后一层。图5中的关键层对应于大周期的k-NN增加。这些趋势很好地符合我们对CNN组合学习的理解。一个显著的异常是ISIC，其中k-NN的改进被延迟。这可能是由于ISIC与IMAGENET的相似性，使得中级转移特征更容易被重用。从图3的底行我们进一步观察到，CNN似乎从不同的初始化学习到类似的特征，这表明它们的归纳偏差可能会自然地导致这些特征（尽管用于分类的最后一层不同）。我们还观察到一个趋势，即给定更多的数据，ST初始化能够学习一些在IMAGENET中找不到的新的中高级特征。0容量和收敛。除了其他迁移学习因素，我们还考虑了模型容量。0除了迁移学习的其他因素之外，我们考虑了模型容量。我们使用不同容量的DEITs和RESNETs重复了主要实验，并在结果中报告。0图8。迁移学习和收敛速度。左：R ES N ET 50和D EI T-S在C HEXPERT上使用恒定学习率的验证曲线。右：相对收敛速度加速度作为WT转移层的函数。随着转移层的增加，CNN的收敛速度随深度线性增加，而ViTs在网络的前半部分观察到快速增加，之后趋于稳定。0图7。我们观察到，随着模型规模的增加，迁移学习的性能略有提高，但各个架构所展现的模式并没有改变。0最后，我们研究了迁移学习对模型泛化能力的影响。0收敛速度。图8中的验证曲线显示了迁移学习的加速效果，我们在最后一个面板中进行了测量。我们观察到，随着WT层数的增加，收敛速度单调增加，与[36]的发现一致。此外，我们观察到，随着包含更多WT层，CNN的收敛速度以大致线性的速率增加，而视觉变换器在网络的前半部分看到了快速的收敛速度增加，但在此之后观察到了收益递减。04. 讨论0迁移学习适用的情况以及失败的情况[12, 14, 22, 27,31]。Kornblith等人[22]说明了转移特征可能不如以前认为的那样普遍适用。在[14]中，He等人表明，即使对于相似的任务，迁移学习也不一定会带来性能改进。Yosinski等人[43]早期发现了迁移学习的限制。0他们还与Azizpour等人一起表明，随着源域和目标域之间的距离增加，迁移学习的好处减少[1, 43]。Mustafa0et al.表明，使用大型架构和数量级更大的自然图像预训练数据集进行迁移学习可以在医学图像领域获得显著改进[29]。0与我们的工作最相关的是Raghu等人的工作。0[36]研究了从I MAGE N ET到C HE XPERT和一个类似于APTOS2019的大型专有视网膜病变数据集的迁移学习。虽然他们发现从I MAGE NET进行迁移在训练过程中提供了加速，但他们观察到从迁移学习中几乎没有性能提升。作者认为，迁移学习对医学领域的主要好处不是由于特征重用，而是由于权重统计和过度参数化的模型。92320但是，这并不是由于模型的权重统计和过度参数化。Neyshabur等人对他们的工作进行了跟进，声称观察到的加速是由于初始化和数据的低级统计[30]。0在本文中，我们超越了以前的工作，提供了更全面的研究。0通过对网络内特征重用进行更全面的分析，我们对之前的发现进行了澄清。我们探索了更广泛的数据集范围，表明对于较小的数据集，迁移学习确实有效。我们考虑了之前的研究忽视的新角度，例如归纳偏差的作用，以及迁移学习在ViTs上的工作方式，以及领域距离如何影响医学图像的迁移学习。0迁移性的因素。在这项工作中，我们提供了更全面的研究，以描绘迁移学习的工作原理。0通过考虑更多的医学模态、数据规模以及模型的容量和归纳偏差，我们对将迁移学习应用于医学领域的完整图景有了更清晰的认识。我们的结论是，在大多数情况下，从I MAGENET进行迁移学习可以显著提高性能。我们的发现并不与[30,36]相矛盾，相反，我们表明他们发现了一个孤立的情况，迁移学习的收益很小，特征重用不那么重要。0我们确定了影响迁移学习的四个因素0从I MAGE NET到医学领域。数据大小和与源域的距离是不容忽视的重要因素。较小的数据集总是从迁移学习中受益，与源域接近的数据集也是如此。模型的容量影响较小，但归纳偏差是另一个重要因素-从迁移学习中获益与模型的归纳偏差强度呈负相关。从我们的研究中看极端情况：具有最弱归纳偏差的DEITs在整体上严重依赖于迁移学习。具有最强归纳偏差的RES N ETs，在以前的工作中主要使用的模型，对大型数据集和与IMAGE NET距离较远的数据集只有有限的改进。但是，当数据大小较小（在医学任务中经常是这种情况）或与I MA- GE NET更相似时，甚至R ES N ET的好处也变得显著。0特征重用的作用。特征的重要性0最近还对迁移学习中的特征重用提出了质疑[36]。为了更好地理解驱动迁移的因素是什么0学习，我们从不同的角度研究了特征重用。我们的主要发现是，当迁移学习效果好时，有强有力的特征重用证据。除此之外，我们以多种方式对网络内的特征重用进行了表征。我们发现某些关键特征是“粘性”的，不太容易通过迁移学习而改变-尽管哪些特定特征会保持不变取决于架构。我们观察到对于ViT性能来说，早期层最为关键，它们重用了在I MAGE NET上学习的局部和全局特征的混合。0以竞争力为目标。ViT在小型医学数据尺寸上无法重新学习这些基本特征，这解释了它们对特征重用的强烈依赖性。我们还发现，ViT中早期特征重用的模式意味着后面的层可以被丢弃而不会对性能产生强烈影响。CNNs从特征重用中受益不同。在CNNs中，特征重用更加均匀，每一层在前一层的基础上增加复杂性时特征逐渐改进。改进的斜率因数据特征而异-甚至可以变得平坦，如[30,36]中所发现的。我们通过一系列消融实验证实，这些差异主要与模型的归纳偏差相关，而不是容量。0局限性和潜在的负面社会影响。尽管有善意的意图，应用深度学习0对影响迁移学习的因素进行全面研究是不可能的-可以包括无数的模型和数据集。尽管如此，我们试图选择相关和代表性的数据集和模型类型，涵盖比以前研究更多样化的选择。这项工作的一个潜在陷阱是使用FID[17]，它可能不能提供数据集之间距离的完美度量[6,26]。0尽管有善意的意图，应用深度学习0对医学数据的迁移开放了可能出现意想不到的负面影响的可能性。如果没有适当的考虑，模型可能会学习到数据中不希望复制的偏见。失败可能会破坏公众的信任，而在医学数据上运行的模型必须注意不泄露患者信息。05. 结论0在这项工作中，我们评估了迁移学习的好处-0在处理医学图像时，我们发现特征重用以及数据集和模型特征等因素如何影响其有用性。我们表明，

下载后可阅读完整内容，剩余1页未读，立即下载