多标记胸部疾病分类中的医学重建与迁移学习：ViT与CNN的比较研究

56 浏览量更新于2023-10-16 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1∼∼多标记胸部疾病分类的掩蔽自编码器研究肖雨彤白艾伦Yuille周宗伟*约翰霍普金斯大学代码：https://github.com/lambert-x/Medical MAE摘要视觉Transformer（ViT）由于其在许多视觉任务中的巨大可扩展性、计算效率和令人信服的性能而成为最流行的神经架构之一。然而，由于其数据饥渴的性质和缺乏注释的医学数据，ViT在医学任务上表现出不如卷积神经网络（CNN）的性能在本文中，我们使用掩蔽自动编码器（MAE）对266，340张胸部X射线进行了预训练，该编码器从每张图像的一小部分中重建丢失的像素。为了进行比较，CNN也使用先进的自监督方法（例如，MoCo v2）。结果表明，我们的预训练ViT在多标签胸部疾病分类方面表现优于（有时更好）最先进的CNN（DenseNet-121）。此表现归功于从我们的实证研究中提取的用于预训练和微调ViT的强大配方预训练配方表明，医学重建需要的图像比例要小得多（10%与25%）和一个更现代的随机调整大小的作物范围（0.5 1.0与。0.2 1.0）与自然成像的兼容性。此外，我们注意到，只要可能，域内迁移学习是首选的微调配方公开了逐层LR衰减、RandAug幅度和DropPath速率是要考虑的重要我们希望这项研究可以指导未来的研究变压器的应用，以更大的各种各样的医学成像任务。1. 介绍Vision Transformer（ViT）架构[26]及其变体[62，43，37，91]已经取得了很大进展，表明Transformer在各种自然成像任务中超越并取代了与CNN相比，Transformers可以更好地利用快速增加的图像数据，图像的远程空间背景[21，25]，并共享* 通讯作者：周宗伟（zzhou82@jh.edu）人类视觉系统[71，77，30，92]。训练变换器需要比CNN更多的数据[83，89]，但医疗数据很小，很难获得标签。因此，直接将变形金刚应用于医疗领域被发现是有问题和挑战性的。有几种早期的尝试[70，99，67]，但它们的性能通常不如最先进的CNN（在§2中详细说明）。最近的调查表明，一系列成功的案例正在使用变压器和CNN的混合架构[58，81]。相比之下，独立和香草ViT架构仍然是本研究的重点，力求简单。我们要问：ViT架构在医学成像任务中的全部潜力是什么？根据我们的研究，答案是，如果配备（I）对未标记的医疗数据进行大规模预训练，以及（II）强大的预训练和微调配方，则vanilla ViT可以实现与最先进的CNN相似甚至更好的性能，这些配方由医学图像的独特特征定制。CNN的预训练在医学领域得到了广泛的研究[49]，产生了几个公开可用的Foundation模型[113，17，99]。许多预训练方法可以使CNN从未标记的图像中学习表示，包括对比学习[84]，预测学习[115]，恢复学习[15]及其组合[38，39]。在撰写本文时，无论是对比性还是预测性的预训练都还不适合vanilla ViT架构。ViT最流行的预训练方案称为掩蔽自动编码器（MAE）[45]。它的任务是屏蔽输入图像的随机块并重建丢失的像素。本文采用MAE，因为它具有很好的可扩展性，计算效率，以及在许多视觉任务中令人信服的性能本文为医学领域定制了预训练和微调MAE的配方，并在三个胸部X射线数据集上验证了其有效性。我们还公开了预训练和微调代码，并发布了在510K X射线图像以及预训练CNNs上进行预训练的ViT-Small和ViT-Base。预训练的ViT编码器可以进行微调，以改进分类任务（在§5中验证）和检测任务（请参见Github）。总之，四个贡献。35883589∼1. 评估了在ImageNet（14M数据标签）和胸部X射线（0.3M数据）上预训练的ViT的有用性，强调了域内迁移学习和自我监督学习的机会（表1）。2. 为MAE设计了一个强大的预训练配方，包括更多未标记数据（ 266 ， 340 ）、更高的掩蔽比（90%）和适度的随机裁剪比例（0.5 1.0），以有效地从胸部X射线中学习图像表示（§4.23. 确定了三个最重要的超参数，以在多标签胸部疾病分类中微调ViT：逐层LR衰减、RandAug幅度和DropPath速率（表3）。4. 这是在三种主要胸部X射线基准上接近最先进CNN的vanilla ViT性能的首批努力之一无论是有意还是无意，新旧技术之间的经验比较（例如，CNN与[2019 - 10 - 16][2019 - 04-19 00：03：04][2019 - 01：04]在本文中，我们尽量不过度销售或低估ViTs在医疗领域的为了提供一个公平和全面的基准，CNN的性能在我们广泛的文献综述的基础上，在每个数据集中都2. 相关作品初步的。与摄影图像相比，射线照相图像具有独特的特征，这导致在将计算机视觉进步转换为医学成像时存在相当大的困难[111，112，58，81]。摄影图像，特别是ImageNet [23]上的图像，在图像中心包含大的明显物体，存在于不同的背景中。学习辨别特征（例如，颜色、纹理和形状）在计算机视觉中是重要的。相比之下，X射线摄影图像是根据预定义的成像协议生成的，因此背景在图像中表现出解剖结构一致性（参见图4中的胸部解剖结构示例）。临床相关信息分散在整个图像中，而患病区域（作为前景）通常包含比摄影图像更多的局部，微妙和细粒度的变化。因此，该模型必须能够提取全局和局部特征，以从正常解剖结构中识别各种疾病。在下面的章节中，我们描述了计算机视觉和医学成像在模型架构和自监督方法选择方面的差异，然后回顾了当前最先进的多标签胸部疾病分类解决方案ViTs或CNN用于医学成像？变形金刚已经在许多人工智能应用中流行起来（例如， Al- phaFold2 [53]，Google Translate [8]）.在计算机视觉中，在性能方面，ViT和CNN的采用之间存在激烈的争论[63，110，6，97，91，25]，ro-bustness [4，69，105，109]，数据要求[26，83，89]，计算效率[74]。这一讨论最终达成了一项协议，即ViTs可以在各种任务中作为CNN的替代品[56，42]。ViT在射线照相成像任务中具有巨大的潜力，但目前，ViT的卓越性能尚未转化为射线照相成像，其中CNN仍然是主导架构。(1)ViTs的性能落后于SOTA CNN[ 72，88 ]，我们认为配置不当的训练配方1是主要原因之一;（2）大多数现有研究报告了ViT在医疗任务上的表现，但没有在类似的实验设置下与CNN进行比较[ 70，58 ];以及（3）多项工作专注于通过整合ViT和CNN的优势来设计混合架构，以声称优于CNN的性能[ 14，107，98，86 ]。在ViT和CNN之间进行公平的比较应该考虑参数的数量、计算量、GPU的使用以及合适的预训练方案。到目前为止，还没有广泛的基准来公平地比较ViTs和CNN在医疗任务中的作用，这让我们想知道我们是否可以在医疗任务中切换到ViTs。与上述研究不同，我们的目标是忠实地对ViT和SOTACNN在放射成像任务中的性能进行基准测试;在数据、模型、优化方面改进现有ViT的配方;并可视化ViT和CNN如何解释放射成像图像（§6）。医学影像学中的自我监督方法。由于高质量注释的稀疏性，自监督学习在医学成像中显示出巨大的潜力[111]。两个主要的趋势是基于对比和恢复性的预训练。在计算机视觉中，对比预训练[19，18，34，11]具有最先进的性能，在某些任务中超过了监督的ImageNet预训练;而在医学成像中，恢复性预训练[113，86，29]目前达到了性能的新高度。我们把这种受欢迎程度的不对称归因于摄影和放射线摄影图像之间的显著差异。由于射线照相成像方案在相当一致的方向上评估患者，因此生成的图像在不同患者之间具有很大的相似性[96，39]。固有的considerations简化了许多关键问题的分析，但也导致了对比预训练的一个重大问题。对比预训练（例如MoCo [46，19]）将每个图像视为一个不同的类，并最小化相似性，1Isenseeet al. [52]注意到医学成像的大部分性能改进是选择完美的数据处理，模型训练和网络优化策略（在他们的情况下是U-Net）。3590×∼×∼×从不同的图像衍生的大量表示在理论上，该概念对于放射照相成像可能不适当地工作，因为负对看起来太相似（在我们的表1中经验性地证明）。相比之下，恢复性预训练擅长保存嵌入在图像上下文中的细粒度纹理，因此它已被广泛用于医学预训练。恢复性预训练被公式化为逐像素图像重建的任务[2，15，114，115，16，100]。遵循这一精神，我们将掩码自动编码器（MAE）[45]作为预训练任务，因为它简单，高效，可扩展性和令人信服的性能。我们是第一批为ViT预训练和Enormous胸部X光片微调配置强大配方的公司之一。此外，我们将MAE扩展到在相同规模的医疗数据上预训练CNN，在公共射线照相成像数据集上建立ViT和SOTA CNN之间的第一个直接基准，并为医疗视觉社区提取可重用的见解。3. 方法数据来自三个公共X射线数据集的数据用于预训练ViT（和CNN作为比较）：NIH ChestX-ray 14（75，312 X射线）、 Stanford CheXpert （191 ， 028 X 射线）和MIMIC-CXR（243，334 X射线）。所有数据都在后前位（PA）或前后位（AP）视图中，并将大小调整为256 256作为输入。所有X射线都通过ImageNet计算的平均值和标准差我们执行随机调整大小的裁剪与规模范围（0.5 - 1.0）和随机水平翻转。除非另有说明，否则不应用预训练不需要数据集附带的任何注释。任务ViT预训练2类似于MAE [45]中提出的图像重建任务：从可见图像块重建掩蔽图像块。在像素空间中计算重建图像和原始图像之间的均方误差，并在掩码块上取平均值[24]。图像被划分成规则的非重叠的补丁作为嵌入序列。我们随机抽取要掩蔽的补丁。我们观察到的最佳掩蔽率是90%，这大大加快了预训练，2.5与原始MAE [45]3相比，它使我们能够以更大的模型能力扩展ViT（图1a）。模型vanilla ViT [26]用作编码器，仅应用于可见图像补丁。这种设计降低了时间和内存复杂度[45]：90%的掩蔽率（在我们的论文中使用）可以将编码器复杂度降低到<1/10.解码器是另一个ViT，仅在预训练期间用于重建掩蔽的补丁。因此，我们认为，CNN的MAE风格预训练（表1中的比较）类似于Models Genesis[113]中提出的图像修复任务。3、本应采取16.7原始MAE在510 K X射线上预训练ViT-S/16（最小的ViT）的GPU天数。图1：预训练配方。（a）使用更多图像进行预训练可在一定程度上提高ViTs的可移植性（§4.2）。虽然ViT-S/16（参数= 22 M）似乎在266 K图像上饱和，但ViT-B/16（参数= 86 M）有可能扩展到更多数据。(b)MAE在90%掩蔽比时显示出最佳性能（§4.3）。此外，随机调整大小的裁剪（RRC）为MAE预训练带来了一致的性能增益（§4.4）。使解码器比编码器更轻量因此，虽然解码器处理可见和掩蔽的图像补丁，其复杂性比编码器小得多位置嵌入- dings被添加到可见和掩蔽补丁在这一完整的集合，以保留有关其原始位置的图像信息。我们使用ViT-S/16和ViT-B/16表示ViT-Small和ViT-Base，为简单起见，补丁大小为16×164. 预培训：配方和结果实作详细数据。我们采用AdamW [65]优化器，β1=0 。 9 ， β1= 0 。 95 并将权重衰减设置为 0.05 。Transformer块使用xavier uniform初始化[32]。我们将学习率（lr）和批量大小设置为1.5e -4和2048。LR被预热20个时期[33]，并使用余弦退火策略[64]进行调度。预训练阶段总共需要800个epoch。随机调整大小的裁剪和水平翻转被用作数据增强。4.1. 论域内迁移表1提供了三组模型初始化的综合比较：随机，ImageNet预训练和X射线预训练。与CNN不同，从头开始训练的ViT表现出非常差的性能，即使有很强的训练配方和比微调多2.7个训练时期。相反，ViTs在大规模数据集（例如，ImageNet和X射线）。具体来说，在ImageNet上进行监督预训练后（以下[91]），ViT-S/16在三个数据集上显示出可接受的性能，但仍然与最先进的基于CNN的方法有距离。域名内转移3591×架构预训练数据集方法注释胸部X射线14CheXpertCOVIDxN/A随机080.487.893.0分类14M82.289.494.4CNN（DenseNet-121）ImageNet（14M）[19]第十九话[34]第三十四话[11]第十一话00080.981.081.587.987.888.095.595.095.8X射线（0.3M）[19]第十九话080.688.794.0MAE††081.288.796.5ViTN/A随机067.977.987.3ImageNet（14M）分类14M79.688.194.3（ViT-S/16）Mae078.688.388.8X射线（0.3M）Mae082.389.295.2*ResNet-50的预训练权重取自Ericsson等人。[27]（DenseNet不适用于高级自监督ImageNet预训练）。††MAE是为ViT开发的（不直接适用于CNN），所以我们基于图像修复来实现它[73，113，40，41]。表1：ImageNet上的预训练与X光片在三个公共数据集上对ViT和三组CNN进行了直接比较，考虑了参数的数量，计算量，GPU的使用以及合适的预训练方案。结果表明，ViT（I）始终超过在ImageNet上通过最先进的预训练方案进行预训练的CNN，强调了域内迁移学习的重要性（§ 4.1）;（II）超过在相同数量的医疗数据（0.3M X射线）上通过MAE和MoCo v2进行预训练的CNN;（III）比文献中报道的最先进的CNN（在表4 - 6中详细描述）表现更好（甚至更好）。此外，还获得了几个重要的观察结果：（i）从头开始训练比微调预先训练的权重需要更长的时期来收敛（200 vs. 75 epochs）;（ii）当在X射线图像上从头开始训练或从ImageNet进行微调时，ViT表现出不如CNN的性能;（iii）在放射成像中，恢复性预训练（MAE）优于对比性预训练（MoCo v2）随机大小裁剪作物规模mAUC✗N/A65.9Mae✓(0.2、1.0）69.8✓(0.5、1.0）70.8表2：适度的随机裁剪比例是医疗预训练的首选，因为患病区域（如前）比摄影图像更局部，并且病理性疾病可能分散在整个X射线[39]上（而不是图像的中心）。旨在减少摄影和医学图像之间的域差异[49]。在这样做的过程中，我们通过对0.3M未标记的胸部X射线进行预训练来弥合do-main差距并满足ViTs/CNN对数据的需求。ViT在域内转移上受益更多（ChestX-ray 14上的mAUC从78.6提高到82.3），而ImageNet预训练的CNN与域内预训练相比保持了高性能（82.2 vs.胸部X光片显示为81.2）。4.2. 从266，340张未标记的X射线中从头开始训练ViTs比CNN更难，因为ViTs在对局部视觉表示建模时缺乏归纳偏差，并且通常需要更多的数据来自行确定图像内容[83，63，70]。如表1所示，ImageNet上的监督预训练使ViTs的性能从67.9%提高到79.6%，ChestX-ray 14上的CNN的性能从80.4%提高到82.1%。我们问：ViT预训练需要多少X光片？图1a示出了在75 K、191 K、266 K和510 K X上预训练的ViT-S/16X射线在胸部X射线上达到79.3%、81.9%、82.3%和82.3%的mAUC 14。从75 K到266 K的改善具有统计学显著性（p值=1.2e -127），但从266 K到510 K的性能增益可忽略不计-这是ViT-S/16（具有22 M参数）的瓶颈虽然较大的ViT（例如，具有86 M参数的ViT-B/16）可以产生更高的性能，考虑到计算成本和 ViT 与CNN，我们最终使用266，340个未标记的X射线对ViT-S/16进行预训练。4.3. 屏蔽90%的X射线含量最佳掩蔽比与数据中的信息冗余有关：BERT [55]对语言使用15%的掩蔽率，MAE [45]对图像使用75%的掩蔽率。最近的研究表明，由于视频在时间维度上具有更大的冗余度，因此只能应用90%的掩蔽率进行预训练[28]。鉴于胸部解剖结构的极大相似性，自然地，我们假设胸部X射线需要更大的掩蔽比用于预训练。这与胸部X射线比摄影图像更具有信息冗余的假设是一致的。我们实验的掩蔽比范围从75%到95%，以5%的间隔递增。图1b表明，90%是胸部X光片上MAE预训练的最佳掩蔽比。更大的掩蔽比导致更有效的预训练，比原始MAE快2.5。有效的预训练反过来使我们能够扩展到更大的ViT架构和更多样化的数据集。3592∼∼分层LR衰减mAUC（%）RandAug星等mAUC（%）DropPath速率mAUC（%）4582.1482.00.181.55582.3682.20.282.36582882.10.382.1(a) 分层LR衰减。需要密切调整分层的学习率衰减。(b) RandAug震级。适度的增加是微调的首选。(c) DropPath速率。胸部X射线图像的微调需要比自然图像更强的规则性。表3：微调配方。消融研究使用ViT-S/16在NIH胸部X射线上进行14。我们报告了14类平均AUC（%）。除了（b）使用逐层LR衰减0.65之外，所有实验都采用超参数的最佳值（逐层LR衰减0.55，RandAug幅度6，以及DropPath速率0.2）。图2：胸部X射线14验证图像的重建。经过75%掩蔽率的预训练，ViTs比CNN更好地推广到应用较高掩蔽率的输入图像。4.4. 种植斑块比例（0.5× 1.0）由于医学图像的空间一致性比摄影图像高得多，因此需要分析空间数据增强的有效性（例如，随机调整大小的裁剪）。图1b表明，RandomResizedCrop操作在不同掩蔽比下对胸部X射线成像的MAE预训练具有一致且显著的益处它使ViTs能够从X射线中学习多尺度特征，并避免由于缺乏训练样本而导致的过拟合问题更重要的是，优选比自然成像相对更小的裁剪比（表2）。缩放为（0.5 1.0）的裁剪贴片产生的mAUC比缩放为（0.2 1.0）的裁剪贴片高1.0%（如[45]所示）。直观地，强空间增强是有害的，因为信息性病变或器官可能被裁剪和偏置，并且模型将利用噪声注释来学习。4.5. 图像重建我们使用图2中的验证图像评估ViT和CNN的重建质量这些模型在ChestX-ray 14上进行预训练，并在具有不同掩蔽比的输入上进行评估，掩蔽比从 75%到90%，以5%的间隔增加。ViTs和CNN都可以预测X射线中的整体解剖结构，但无法重建细节纹理，如肩胛骨。这是预期的，因为ViT/CNN只看到10%的输入在培训期间，我们需要重建图像并尝试重建其余的90%-即使对于放射科专家来说也是困难的。没有明确的证据表明重建能力与迁移学习成绩正相关。相反，原始的自动编码器[48]（掩蔽比为0%）肯定可以比掩蔽的自动编码器更好地重建图像，但它们的结果表示不如掩蔽的计数器[113]有效。此外，CNN [87，113]和ViTs [45，101]的研究表明，替代损失函数（例如，l1、smooth-l1、SSIM和对抗性损失）对迁移学习性能没有贡献。因此，我们使用l2损失作为默认值。最后，我们应该指出，我们的最终目标不是图像重建本身的任务。虽然重建补丁被提倡并作为ViTs/C-NN的预训练方案进行研究，但学习表示的有用性必须基于其对各种下游任务的可推广性和可移植性进行客观评估（见§5）。5. 微调：配方和结果微调优化器和lr调度器与预训练相同。逐层LR衰减、Ran- dAug [22]幅度4和DropPath [50]速率的选择至关重要4通过更积极的增强策略（即，[106]和cutmix [104]），因为它们可能会产生噪音3593×××方法架构肺不张心脏肥大巩固水肿积液mAUC（%）Allaouzi等人[3]第一章72.088.077.087.090.082.8Irvin等人[五十一]81.882.893.893.492.888.9Seyyedkalantari等人[80个]81.283.090.088.393.887.3Pham等人[75个]DN12182.585.593.793.092.389.4Hosseinzadeh等人[49个]-----87.1Haghighi等人[39]第三十九届-----87.6Kang等人[五十四]82.185.994.489.293.689.0MoCo v2DN12178.577.992.592.892.788.7我们电话：+86-21 -88888888传真：+86-21 - 88888888表4：CheXpert基准。ViT在所有五种胸部疾病以及最佳的“肺不张”和“水肿”疾病上实现了与CheXpert（官方评估COVIDNet-CXR3-A4023.693.394.0COVIDNet-CXR3-B127.593.391.0COVIDNet-CXR3-C95.692.395.0MoCo v2DN121711.696.096.5我们的MAE DN121 448×448 7 11.6 96.3 98.0MaeViT-S/162216.995.395.0MaeViT-B/16448×4488667.297.398.0COVIDNet-CXR小型224 224117 2.3 92.6 87.1†COVIDNet-CXR Large 127 3.6 94.4 96.8†我们MoCo v2 DN121MAE DN121224×2242019 - 04 - 29 00：00：002019 -05 - 26 00：00：00MAE ViT-S/16 22 4.295.2 94.5MAE ViT-B/16 224×224 86 16.9 95.3 95.5†结果在31张图像上进行评估;否则，结果将在最新的官方测试集（400张图像）上进行评估表5：COVIDx基准。 ViTs在COVIDx上显示出与最先进的CNN相当的性能（官方值）。来微调预先训练好的虚拟人表3中的广泛研究给出了最佳设置，我们将其重新用于§5.3- 5.2中的所有三个射线照相成像任务模型在所有三个数据集上进行了75个时期的微调。线性探测。LARS [103]优化器使用动量=0.9。我们将学习率（lr）和批量大小设置为0.1和16，384。LR被预热[33] 10个时期，并使用余弦退火策略[64]进行调度。ViT训练了100个epochs。图1b中使用了线性探测。5.1. Stanford CheXpert实验装置。CheXpert是一个包含191，028张正面胸部X光片的大规模数据集。数据集中存在14种放射学报告中的疾病，5种常见疾病用于基准。我们调整了图像的大小224 224并且在官方验证集上完成测试。报告了5个类别的平均曲线下面积（AUC）以进行比较。通过去除或重叠X射线中的胸部疾病来标记结果和分析。如表4所示，vanilla ViT-S达到89.2%的mAUC，这与89.4%的最佳性能非常有竞争力此外，ViT-S对Atel（83.5%）和Edem（94.0%）的抗病率最高5.2. COVIDx实验装置。COVIDx（版本9A）提供超过30，000张图像，其中包含16，490张阳性COVID-19图像。对于30，130张图像的训练集，数据集用4个不同的类进行注释，而测试集只有3个类的400张图像。为了确保与先前方法的公平比较，报告了测试集（3个类别）的准确性和COVID-19敏感性。结果和分析。我们将我们的vanilla ViT-S模型与官方github存储库5上提供的最先进的模型进行比较。当输入分辨率为224 224时，我们的方法击败了其他两个模型，同时实现了95.2%的极高准确度和5github.com/lindawangg/COVID-Net/blob/master/docs/models.mdMaeViT-S/1683.581.893.594.093.289.2MaeViT-B/1682.783.592.593.894.189.3方法输入分辨率参数数（M）MAC（G）精度COVID-19敏感性COVIDNet-CXR-32929.198.397.5COVIDNet-CXR-295.696.395.5COVIDNet-CXR4-A4023.694.395.0COVIDNet-CXR4-BCOVIDNet-CXR4-C480×4801297.55.693.793.393.096.03594×××方法架构预训练mAUCWang等人[95个国家]RN5074.5Yao等人[一百零二]RN DN76.1Li等[59个]RN5075.5Tang等人[八十五]RN5080.3Guendel等人[36个]DN12180.7Guan等人[35]第三十五届DN12181.6Wang等人[九三]R15278.8Ma等人[68] R101ImageNet（14M）79.4Baltruschat等人[5] RN50 80.6Seyyed等人[80] DN121 81.2Ma等人[66] DN121（2）81.7Hermoza等人[47] DN121 82.1Kim等人[57] DN12182.2Haghighi等人[39] DN121 81.7Liu等[61] DN121 81.8Taslimi等人[88]第八十八话图3：MAE可以显示异常。我们将胸部X射线（具有异常）输入到训练的MAE，并绘制重建输出和原始X射线的差异图有趣的是，我们观察到MAE恰好通过用正常模式替换它们来我们MoCo v2 DN121MAE DN121X射线（0.3M）80.681.2MAE ViT-S/1682.3MAE ViT-B/16 X射线（0.5M）83.0表6：胸部X射线14基准。ViT-S/16实现了与文献中报道的ChestX-ray 14（官方分裂）上先前最先进的基于CNN和基于变换器的方法相当的性能。在0.3M X射线上使用相同的预训练方案（MAE），ViT的性能明显优于CNN。此外，在0.5M X射线上预训练的ViT-B/16达到了 83.0 mAUC 的新记录 RN 、 DN和 SwinT 表示ResNet、DenseNet和Swin Transformer。百分之九十四点五ViT-S在模型大小、计算成本和性能之间取得了很好的平衡。5.3. NIH胸部X射线14实验装置。ChestX-ray 14具有30，805个独特患者的112，120个正面视图X射线，具有文本挖掘的十四个疾病标签（其中每个图像可以具有多个标签）。我们遵循官方数据分割，分配75，312张图像用于训练，25，596张图像用于测试。我们将原始图像的大小从1024 1024调整为224 224.报告了14个类别的平均AUC，并比较了17种最流行和最引人注目的基线方法。结果和分析。表6提供了多年来NIH胸部X射线14上最先进的CNN和Transformer模型的系统比较。之前最好的CNN性能由DenseNet-121 [94]获得，平均AUC为82.6%。此前最佳表现《变形金刚》的收视率为81.0% [88]，这与CNN的表现相去甚远。我们的vanillaViT-S在14种疾病中显示出82.3%的平均AUC的非常有竞争力的结果，其中14种胸部疾病中有6种具有最佳分类性能。值得注意的是，研究界花了四年时间将AUC评分从74.5提高到82.26. 讨论MAE可以从图像中检测异常吗？异常是指与正常X光片不同的现象，可能是疾病、医疗器械和临床症状（例如：箭头、数字、字母）。由于MAE是使用原始X射线作为基础事实进行训练的，并且X射线中的大多数像素是正常的，因此MAE应该能够过拟合正常的解剖模式。如果异常被掩盖了，MAE能重建正常模式吗？如果是，则通过减去重建的输出和原始X射线，可以检测和定位异常。类似的观点已经在Zhouet al.[113]，但使用CNN进行说明。具体而言，我们将原始X射线输入到训练的MAE，并绘制重建输出和原始图像之间的差异图。如图3所示，MAE恰好这种行为可以被认为是检测和定位异常的尝试。更重要的是，与弱监督检测策略[108，7，9，82，96]不同，这种方法既不需要图像级注释也不需要像素级注释，这使得它成为一个有吸引力和挑战性的探索方向[76，90]。通过ViT和CNN进行弱监督疾病定位。在Grad-CAM6[31]的帮助下，我们能够检查X射线图像的哪个部分负责模型预测（患病区域）。我们使用DenseNet-121的最后一个密集块（第4个）和ViT-S/16的最后一个Transformer块（第12个）中的LayerNorm层作为Grad-CAM的“目标层”。实验是在一个小的子集的胸部X射线14，它提供了787例边界框共8个胸部疾病。患病区域的最终预测边界框是用阈值化的Grad-CAM热图、最大连通分量和框回归生成的。结果通过真实边界框和中最大连通分量的边界框之间的IoU进行评估。对于CNN类型的架构，主要是由于3595训练食谱6github.com/jacobgil/pytorch-grad-cam3596∼疾病大小（px）DenseNViT-S/16AP25AP50AP25AP50结节2240.00.09.23.9质量75625.41.627.011.1肺不张92410.12.031.58.1气胸189911.62.34.70.0渗透275432.912.711.41.3积液292524.52.98.81.0肺炎294432.06.227.89.3心脏肥大867089.653.316.33.0所有230031.012.318.04.7表7：弱监督疾病定位。我们报告了25%和50% IoU的平均精度（AP）IoU在Grad-CAM热图中的地面实况边界框和最大连接组件的边界框之间计算。我们还提供了疾病大小的统计数据，通过边界框内的像素数量来测量，表明CNN可以检测到大的疾病（例如，心脏肥大，肺炎）优于ViT，而ViT可以捕捉较小的疾病（例如，结节）。注意力反应。然后，我们计算平均精度（AP）作为检测度量[60]。精度定义为tp/（tp+fp），其中tp和fp分别表示真阳性和假阳性的数量。AP图4：CNN和ViT的梯度CAM。[更好地在线查看，彩色，放大细节] ChestX-ray 14提供了一些胸部疾病的边界框，以白色框显示。左右图分别显示了CNN和ViT预测的异常情况。以及（iv）优化学习参数。因此，vanilla ViT实现了与最先进的CNN相当（有时更好）的性能。提供代码和预训练模型考虑使用IoU25本文还提出了一个最新的基准>25%为真阳性，AP50IoU> 50%。表7显示了检测结果（包括疾病方面的结果和所有疾病）。我们观察到，CNN提供了更好的定位疾病在一个更大的尺寸（例如，心脏肥大和肺炎），而维生素T是强大的疾病，在较小的大小（如。诺依）。尽管CNN和ViT的分类性能相当（82.1% vs.82.3% AUC），CNN显著超过ViT的定位能力，并且它们由Grad-CAM生成的注意力地图表现不同。图4提供了CNN和ViT的GradCAM示例。CNN的关注度比ViT的关注度相对更大、更集中。这一观察结果与Cheferet al.[13 ]第10段。这项研究表明，类激活图更适合于可视化CNN型模型的解释能力。在未来，除了类激活图之外，我们将寻求在多标签分类任务中探索Vision Transformers 的可解释性，并借助来自Transformer架构的自我注意力[12，79，1，13]。7. 结论和未来工作本文通过设计强大的预训练和微调配方，释放了独立的香草ViT的潜力。我们克服了几个技术障碍，为医疗视觉社区带来了可重复使用的见解具体而言，我们（i）提高计算效率;（ii）自定义数据扩充;（iii）探索更大的数据规模;在三个主要的胸部X光数据集上。考虑到参数的数量、计算量、GPU的使用以及合适的预训练方案，我们对vanilla ViT和（i）文献中报道的最先进的CNN，（ii）通过ImageNet上的高级预训练方案进行预训练的CNN，（iii）在相同数量的医疗数据上进行预训练的CNN进行了公平而全面的比较。我们希望这项研究可以指导未来的研究应用transans- formers到更大的各种各样的医学成像任务。作为未来的工作，我们将考虑我们目前的研究的三个扩展。首先，收集更多公开可用的X射线数据集进行预训练（总共有1M张图像[10]）。扩大数据可能是增强较大ViT的最直接方法（例如，ViT-大，ViT/巨大）的性能和推广能力，基于图1a。第二，将ViT扩展到其三维形式，用于更高维度的医疗模式（例如，CT、MRI），这预计将占用相当大的计算资源[44]和更大的数据用于预训练[86]，因此需要更有效的方法。第三，利用放射学报告和图像数据的配对信息进行预训练。我们承认Transformers在处理多模态数据方面的独特能力[78，20]。鸣谢。这项工作得到了Lust- garten胰腺癌研究基金会的支持。我们感谢Y。Zhang提供COVIDx数据集的数据加载器; A.德莱尼为改善这篇论文的写作3597引用[1] Samira Abnar和Willem Zuidema。量化变压器中的损耗流arXiv预印本arXiv：2005.00928，2020。8[2] VargheseAlex 、 KiranVaidhya 、 SubramaniamThirunavukkarasu、KesrasekharanKesavadas和Ganapathy Krishnamurthi。使用去噪自动编码器进行脑损伤检测和分割的半监督学习。医学影像杂志，4（4）：041311，2017。3[3] Imane Allaouzi和Mohamed Ben Ahmed。胸部常见疾病多标记X线分型的新方法IEEE Access ，7 ：64279-64288，2019。6[4] Yutong Bai，Jieru Mei，Alan L Yuille，and Cihang Xie.变压器比cnn更坚固吗？神经信息处理系统，34：268312[5] Ivo M Baltruschat，Hannes Nickisch，Michael Grass，Tobias Knopp，and Axel Saalbach.用于多标签胸部x射线分类的深度学习方法的比较科学报告，9（1）：1-10，2019。7[6] 包航波，李东，魏福如。Beit：Bert图像转换器的预训练。arXiv预印本arXiv：2106.08254，2021。2[7] Christian F Baumgartner ， Lisa M Koch ， Kerem CanTezcan，Jia Xi Ang，and Ender Konukoglu.视觉特征属性使用wasserstein gans。在IEEE计算机视觉和模式识别会议论文集，第8309-8319页，2018年。7[8] Tom Brown ，Benjamin Mann，Nick Ryder，MelanieSub biah，Jared D Kaplan，Prafulla Dhariwal，ArvindNeelakan tan，Pranav Shyam，Girish Sastry，AmandaAskell，et al.语言模型是很少机会的

下载后可阅读完整内容，剩余1页未读，立即下载