医学图像分类中的自监督模型推进

164 浏览量更新于2023-10-14 1 收藏 2.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3478大自监督模型推进医学图像分类Shekoofeh Azizi，Basil Mustafa，Fiona Ryan*，Zachary Beaver，Jan Freyberg，JonathanDeaton，Aaron Loh，Alan Karthikesalingam，Simon Kornblith，Ting Chen，Vivek Natarajan，Mohammad NorouziGoogle研究与健康†摘要自监督预训练之后的监督微调在图像识别中已经取得了成功，特别是当标记的示例很少时，但是在医学图像分析中受到了有限的关注。本文研究了自监督学习作为医学图像分类的预训练策略的有效性。我们对两个不同的任务进行实验：本发明的目的在于从数码相机图像和多标签胸部X射线分类中识别皮肤病状况，并且证明ImageNet上的自监督学习，随后是对未标记的领域特定医学图像的额外自监督学习显著提高了医学图像分类器的准确性。我们引入了一种新的多实例对比学习（MICLe）方法，该方法使用每个患者病例的基础病理学的多个图像，当可用时，构建更多信息的正对用于自监督学习。结合我们的贡献，我们在皮肤病学和胸部X射线分类上分别实现了6.7%的top-1准确性和1.1%的平均AUC提高，优于ImageNet上预训练的强监督基线此外，我们还证明了大型自监督模型对分布偏移具有鲁棒性，并且可以有效地学习少量标记的医学图像。1. 介绍从有限的标记数据中学习是机器学习中的基本问题，这对于医学图像分析至关重要，因为注释医学图像是耗时且昂贵的。从有限的标记数据中学习的两种常见预训练方法包括：(1) 在诸如ImageNet的大型标记数据集上的监督预训练，（2）使用对比学习的自监督预训练（例如，[16，8，9]）。在预训练之后，使用对感兴趣的目标标记数据集的监督微调虽然ImageNet预训练在医学图像分析中无处不在[46，32，31，29，15，20]，但自我监督方法的使用受到的关注有限。自我监督的方法是有吸引力的，因为它们-*曾在Google实习目前就读于佐治亚理工学院†{shekazizi，skornblith，iamtingchen，natviv，mnorouzi} @google.com(1)无标记自然图像的自监督学习(2) 对未标记的医学图像进行自监督学习，如果每种医学状况有多个图像可用，则进行多实例对比学习（MICLe）未标记的皮肤病学图像未标记胸部x射线(3)对标记的医学图像标记的皮肤病学图像标记的胸部X光片图1：我们的方法包括三个步骤：（1）使用SimCLR在未标记ImageNet上进行自监督预训练[8]。(2) 使用未标记的医学图像进行额外的自监督预训练如果每种医学状况的多个图像是可用的，则使用新颖的多实例对比学习（MICLe）来基于不同的图像构建更多信息的阳性对(3)对标记的医学图像进行监督微调。注意，与步骤（1）不同，步骤（2）和（3）是任务和数据集特定的。能够在预训练期间使用未标记的特定于域的图像来学习更多相关的表示。本文研究了用于医学图像分析的自监督学习，并对两种不同的医学图像分类任务进行了自监督和监督预训练之间的公平比较：（1）来自数码相机图像的皮肤病学皮肤状况分类，（2）基于CheXpert数据集的五种病理中的多标记胸部X射线分类[23]。我们观察到，自监督预训练优于监督预训练，即使使用完整的ImageNet数据集（14M图像和21.8K类）进行监督预训练。我们将这一发现归因于Im中识别任务的性质之间的域转移和差异。3479×个0.720.700.680.660.640.620.60监督自监督ResNet-50（4x）ResNet-152（2x）0.7800.7750.7700.7650.7600.7550.7500.7450.740监督自监督ResNet-50（4x）ResNet-152（2x）即使在竞争激烈的生产环境中，也能获得一流的精度。在胸部X射线分类方面，自监督学习的平均AUC比在ImageNet上预训练的强监督基线高1.1%。我们证明了自监督模型是鲁棒的，并且比基线更好地泛化，当受到移位测试集时，无需微调。这种行为对于在现实世界临床环境中的部署是期望的。2. 相关工作图2：监督和自我监督预训练的比较，然后使用皮肤病学和胸部X射线分类的两种架构进行监督微调。自监督学习利用未标记的特定领域医学图像，并且显著优于监督ImageNet预训练。ageNet和医学图像分类。自我监督方法通过利用域内医疗数据进行预训练来弥合这一领域差距，并且它们也可以优雅地扩展，因为它们不需要任何形式的类标签注释。我们的自我监督学习框架的一个重要组成部分是有效的多实例对比学习（MICLe）策略，该策略有助于将对比学习适应每个患者病例的基础病理学的多个图像这样的多实例数据通常在医学成像数据集中可用，例如，乳房X线照片的正面和侧面视图、来自每只眼睛的视网膜眼底图像等。给定给定患者病例的多个图像，我们建议通过从同一患者病例的两个不同图像绘制两个作物来构建用于自监督对比学习的正对。这样的图像可以从不同的视角拍摄，并且示出具有相同的潜在病理的不同身体部位这为自监督学习算法提供了一个很好的机会，以直接的方式学习对视点、成像条件和其他混杂因素的变化具有鲁棒性的表示。MICLe不需要类别标签信息，并且仅依赖于潜在病理的不同图像，其类型可能是未知的。图1描绘了所提出的自监督学习方法，以及2显示了结果总结。我们的主要发现和贡献包括：我们调查使用自我监督预训练的医学图像分类。我们发现，在未标记的医学图像上进行的自监督预训练显著优于标准ImageNet预训练和随机初始化。我们提出多实例对比学习（MI-CLe）作为现有对比学习方法的推广，以利用每个医疗条件的多个图像我们发现MICLe提高了自监督模型的性能在皮肤病状况分类方面，我们的自我监督方法在皮肤病分类中提供了6.7%的可观增益。医学图像分析的迁移学习。尽管图像统计、尺度和任务相关特征存在差异，但来自自然图像的迁移学习通常用于医学图像分析[29，31，32，46]，并且多个实证研究表明这提高了性能[1，15，20]。然而，Raghu等人 [37]对该策略的详细研究表明，这并不总是改善医学成像环境中的性能。然而，他们确实表明，ImageNet的迁移学习可以加速收敛，并且在医学图像训练数据有限时特别有用。重要的是，该研究使用了相对较小的架构，并发现了少量数据的显著改善，特别是在使用其最大的ResNet-50架构时（1）[18]。从域内数据迁移学习可以帮助缓解域不匹配问题。例如，[7，20，26，13]报告了在同一领域对标记数据进行预训练时的性能改进。然而，这种方法对于许多医学任务来说通常是不可行的，在这些医学任务中，获得标记的数据是昂贵且耗时的。自我监督学习的最新进展提供了一种有前途的替代方案，可以使用通常更容易获得的未标记的医疗数据。自我监督学习。自监督表示学习中的初始工作集中在学习没有标签的嵌入的问题上，使得在这些嵌入上操作的低容量（通常是线性的）分类器可以实现高分类精度[12，14，35，49]。对比自监督方法，如实例识别[45]，CPC [21，36]，Deep InfoMax [22]，Ye等[47]， AMDIM [2]、 CMC [41]， MoCo [10，17]，PIRL [33]和SimCLR [8，9]是第一个实现接近端到端监督训练的线性分类精度的方法。最近，这些方法已经被利用来实现半监督学习的标签效率的显著改善。具体来说，可以首先使用所有数据以任务不可知的、自监督的方式进行预训练，然后在具有标准监督对象的特定任务方式[8，9，21]。Chen等人。 [9]表明，这种方法有利于大型（高容量）模型的预训练和微调，但在训练大型模型后，可以将其蒸馏成一个小得多的模型，精度损失很小。皮肤病学Top-1准确度CheXpert平均AUC····3480···i、jexp（sim（z，z）/τ）最大化一致性投影投影编码器编码器增强最大化一致性投影投影编码器编码器增强最大化一致性投影投影编码器编码器增强增强对比学习胸部x线对比学习皮肤科图像多实例对比学习皮肤科图像图3：我们用于医学图像分析的自我监督预训练的图示。当一个单一的图像的医疗条件是可用的，我们使用标准的数据增强生成两个增强视图相同的图像。当有多个图像可用时，我们使用两个不同的图像来直接创建一对正样本。我们称后者为多实例对比学习（MICLe）。我们的多实例对比学习方法与视频处理中的先前工作有关，其中多个视图由于时间变化而自然产生[38，42]。这些工作已经提出通过最大化相邻帧[42]或相同动作的两个视图[38]的表示之间的一致性来从视频中学习视觉表示。我们将这个想法推广到图像数据集的表示学习，当包含相同所需类信息的图像集可用时，我们表明MICLe的好处可以与最先进的自监督学习方法（如SimCLR）相结合。医学图像分析的自我监督。虽然自监督学习最近才在标准图像分类数据集上变得可行，但它已经在医疗领域中得到了一些应用。虽然一些作品试图设计特定领域的文本前任务[3，40，53，52]，但其他作品专注于定制将对比学习应用于医学数据[5，19，25，27，51]。与我们的工作最密切相关的是，Sowrirajan等人。 [39]探索了使用MoCo预训练通过线性评估对CheXpert数据集进行分类。几个最近的出版物研究了用于医学成像任务的半监督学习（例如，[11、28、43、50]）。这些方法与我们的方法是互补的，我们相信结合自我训练和自我监督的预训练是多实例对比学习（MICLe）用于额外的自我监督预训练。最后，我们执行监督微调标记的医学图像。图1显示了我们提出的方法的摘要。3.1. 对比学习的一个简单框架为了有效地学习未标记图像的视觉表示，我们采用了SimCLR [8，9]，这是最近提出的一种基于对比学习的方法。SimCLR通过神经网络隐藏表示中的对比损失，最大化同一数据示例的不同增强视图之间的一致性[4]来给定一个随机采样的小批量图像，每个图像xi使用随机裁剪，颜色扭曲和高斯模糊增强两次，创建同一示例x2k−1和x2k的两个视图。这两个图像通过编码器网络f（·）（ResNet [18]）以生成表示。表示h2k−1和h2k。然后用非线性变换网络再次变换表示g（）（MLP投影头），产生用于对比损失的z2k−1和z2k。利用编码示例的小批量，一对正示例i，j（从相同图像增强）之间的对比损失如下给出：用于未来研究的有趣途径（例如，[9]）。3.自我监督预训练NT-Xent=−logΣexp（sim（zi，zj）/τ）1[k=i]我 K、（1）我们的方法包括以下步骤。首先，我们进行自我监督预训练的未标记图像使用对比学习学习视觉表征。对于对比学习，我们使用未标记ImageNet数据集和特定任务医学图像的组合。然后，如果每种医学状况的多个图像可用，则可以使用其中sim（，）是两个向量之间的余弦相似性，并且τ是温度标量。3.2. 多实例对比学习（MICLe）在医学图像分析中，通常利用每个患者的多个图像来提高分类精度2Nk=13481··Tk=1∈||≥←Ti、j| | ≥DDermDDermDDDDermD2Nk=1DermDermDD和鲁棒性。这样的图像可以从不同的视点或在不同的照明条件下拍摄，为医学诊断提供补充信息。当医学状况的多个图像可用时算法一：多实例对比学习。输入：批量N，常数τ，g（），f（），当不满足停止标准时对于k←1到k=N，{X}N的样本小批量作为训练数据集的一部分，我们提出学习不仅对同一图像的不同增强不变因此，我们可以进行多实例对比学习（MICLe）阶段，其中通过从同一患者的图像绘制两个裁剪来构建正对，3 .第三章。在MICLe中，与标准SimCLR相反，为了构建一个2N表示的小批量，我们随机抽样一个小批量的N袋实例，并定义了做端绘制增强函数t和t′;如果Xk2，则随机选取xk和x′kXk;其他xk=x′k是Xk的唯一元素;端x~2k−1=t（xk）;x~2k=t′（x′k）;z2k−1=g（f（x~2k−1））;z2k=g（f（x~2k））;对从图像袋而不是相同图像的增强视图中检索的阳性对的trasive预测任务。每个袋子，X={x1，x2，…xM}包含图像对于i ∈ {1，. . . ，2N}且j ∈ {1，. . . ，2N} dosi，j=zizj/（zizj）;（i，j）←（1）;来自同一患者（即，相同病理学）不同的观点，我们假设M可以为不同的L=1ΣN[（2k−1，2k）+（2k，2k−1）];我的包。当有两个或两个以上的情况下，在一个袋子（M=X2），我们构建积极的对绘制两个作物从两个随机选择的图像在袋子中在这种情况下，目标仍然采用方程的形式（1），但是对每个正对有贡献的图像是不同的。算法1总结了所提出的方法。使用对比损失来平均相同条件的多个图像我们发现，多实例对比学习显着提高了准确性，并帮助我们实现了最先进的皮肤病条件分类任务的结果。4. 实验装置4.1. 任务和数据集我们考虑两个流行的医学成像任务。第一个任务是在皮肤病学领域中，并且涉及从数码相机图像识别皮肤状况。第二个任务涉及五种病理中的胸部X射线的多标签分类。我们选择这些任务是因为它们体现了医学成像任务的许多共同特征，如不平衡数据和限制于小局部块的感兴趣病理。同时，它们在图像类型、标签空间和任务设置方面也相当多样化例如，皮肤病学图像在视觉上类似于自然图像，而胸部X射线是灰度的并且具有标准化视图。这反过来又有助于我们探索我们提出的方法的一般性。皮肤科对于皮肤病学任务，我们遵循retu r n训练编码器网络f（·）在本质上是不真实的，并且在姿势、照明、模糊和身体部位方面表现出显著的变化。背景还包含各种噪声伪影，如衣服和墙壁，这增加了挑战。地面实况标签是从几个美国委员会认证的皮肤病学家小组中汇总的，这些皮肤病学家在每种情况下提供皮肤状况的鉴别诊断总的来说，该数据集包含来自总共12，306名独特患者的病例每个案例包括一到六个图像。这进一步分为开发集和测试集，确保两者之间没有患者重叠。然后，与滤除出现的多种皮肤状况或质量差的图像。最后的火车验证，和Test分别包括总共15，340个病例、1，190个病例和4，146个病例。数据集中有419个唯一的条件标签为了模型开发的目的我们在后续章节中将其称为Derm。我们还使用了一个额外的去识别的外部集，以评估我们提出的方法下分布转移的泛化性能与Derm不同，该数据集主要集中在皮肤癌上，并且从活检中获得基础事实标签。标签中的分布偏移使其成为评估零激发（即，无需任何附加的微调）模型的传递性能。对于SimCLR预训练，我们将来自实验设置和数据集[29]。数据集是col-列车真皮以及来自相同由美国远程皮肤科选择并去除识别使用消费级数码相机拍摄的皮肤状况图像的服务。图像是异质的-来源，导致总共454，295个图像用于自监督预训练。我们称之为未标记。对于MICLe预训练，我们只使用来自端端3482D×个×× ×→→--DermDDermDermCheXpert联系我们CheXpertDD×个×个×个Derm×D火车的15,340个案例。附录A.1中提供了其他详细信息。胸透CheXpert [23]是一个大型开源的去识别化胸片（X射线）图像数据集。该数据集由来自65，240名独特患者的224，316张胸片组成。从放射学报告中自动提取地面实况标签，并对应于14个放射学观察结果的标签空间。验证集由234个手动注释的胸部X线片组成鉴于验证数据集的大小较小，并且遵循[34，37]的建议，对于下游任务评估，我们将训练集随机重新划分为67，429张训练图像，22，240张验证图像和33，745张测试图像。我们训练模型来预测Irvin和Rajpurkar等人使用的五种病理。 [23]在多标签分类任务设置中。对于胸部X射线域的SimCLR预训练，我们仅考虑来自CheXpert数据集我们将其称为未标记的D。此外，我们还使用NIH胸部X射线数据集NIH来评估由112，120个去识别的零发射传输性能来自30,805名患者的X光片。有关数据集的其他详细信息可在此处找到[44]，并在附录A.2中提供。4.2. 预训练方案为了评估使用大型神经网络的自监督预训练的有效性，如[8]所建议的，我们研究了ResNet-50（1），ResNet-50（4）和ResNet-152（2）架构作为我们的基础编码器网络。遵循SimCLR [8]，两个完全连接的层用于将ResNets的输出映射到128维嵌入，用于对比学习。我们还使用LARS优化器[48]在预训练期间稳定训练。我们对未标记和未标记的SimCLR进行预训练，无论是否从Ima-geNet自监督预训练权重进行初始化。我们表示使用自监督ImageNet权重初始化的预训练，如ImageNet Derm和ImageNet CheXpert。降低部分。除非另有说明，否则对于皮肤病学预训练任务，由于皮肤病学图像与自然图像的相似性，我们使用用于在SimCLR中生成正对的相同数据增强这包括随机颜色增强（强度=1.0）、调整大小的裁剪、高斯模糊和随机翻转。我们发现，批量大小为512，学习率为0.3，在这种情况下效果很好使用此协议中，所有模型都使用D Unlabeled预训练多达150，000步。对于CheXpert数据集，我们使用0.5，1.0，1.5的学习率，0.1，0.5，1.0的温度和512，1024的批量大小进行预训练，并选择在下游验证集上表现最好的模型。我们还测试一系列可能的增强，并且观察到导致针对该任务的验证集的最佳性能的增强是随机裁剪、随机颜色抖动（强度=0. 5）、旋转（最多45度）和水平翻转。与SimCLR中提出的原始增强集不同，我们不使用高斯模糊，因为我们认为它可能使区分局部纹理变化和其他感兴趣区域成为不可能，从而改变X射线图像的潜在疾病解释。我们离开全面调查的最佳aug- mentations未来的工作。我们在CheXpert上的最佳模型是用批量大小1024和学习率1024进行预训练的。0.5我们对模型进行了10万步的我们仅在皮肤病学数据集上执行MICLe预训练，因为我们没有足够的病例在CheXpert数据集中存在多个视图以允许对该方法进行对于MICLe预训练，我们使用SimCLR预训练的权重初始化我们的模型，然后结合第3.2节中解释的多实例过程，以使用Train的多实例数据进一步学习更全面的表示。由于每个患者病例最多堆叠6张图像造成的内存限制，我们使用较小的128个批量和0.1的学习率进行训练，以100，000步来稳定训练。在[8]中建议降低较小批量的学习率。其余的设置，包括优化器、权重衰减和预热步骤是和我们之前的预训练方案一样在我们所有的预训练实验中，图像的大小被调整为224 224。根据预训练的批量大小，我们使用16到64个Cloud TPU内核使用64个TPU内核，需要12小时来预训练ResNet-50（1），批量大小为512，并进行100个epoch。关于批量大小和学习率的选择以及增强的其他详细信息见附录B。4.3. 微调协议我们在微调期间使用预训练网络的权重作为下游监督任务数据集的初始化，按照Chen等人描述的方法训练模型。[8，9]对于我们所有的实验。我们使用动量参数为0.9的SGD训练了30，000步，批量大小为256。对于微调期间的数据增强，我们在两个任务中对图像执行了随机颜色增强、调整大小的裁剪、模糊、旋转和翻转。我们观察到，这组增强是至关重要的，以实现最佳的性能在微调。我们将Derm数据集图像调整为448 × 448像素，将CheXpert图像调整为224224在这个微调阶段。对于预训练策略和下游微调任务的每个组合我们选择了学习率和权重衰减后，网格搜索的七对数间隔3483转×个±×× ×→→表1：皮肤病学皮肤状况和胸部X射线分类模型的性能，其通过跨不同架构的前1准确度（%）和曲线下面积（AUC）测量。每个模型都使用来自ImageNet上的预训练模型的迁移学习进行微调，仅使用未标记的医疗数据，或使用从ImageNet预训练模型初始化的医疗数据进行预训练（例如，使用ImageNet预训练模型）。ImageNet Derm）。模型越大，性能越好。ImageNet上的预训练与未标记医学图像上的预训练是互补的。皮肤科分类胸部X线分类架构预训练数据集前1位准确度（%）AUC预训练数据集平均AUCResNet-50（1×）ImageNetDermImageNet→Derm62.58 ±0.8463.66 ±0.2463.44 ±0.130.9480 ±0.00140.9490 ±0.00110.9511 ±0.0037ImageNetCheXpertImageNet→CheXpert0.7630 ±0.00130.7647 ±0.00070.7670 ±0.0007ResNet-50（4×）ImageNetDermImageNet→Derm64.62 ±0.7666.93 ±0.9267.63 ±0.320.9545 ±0.00070.9576 ±0.00150.9592 ±0.0004ImageNetCheXpertImageNet→CheXpert0.7681 ±0.00080.7668 ±0.00110.7687 ±0.0016ResNet-152（2×）ImageNetDermImageNet→Derm66.38 ±0.0366.43 ±0.6268.30 ±0.190.9573 ±0.00230.9558 ±0.00070.9620 ±0.0007ImageNetCheXpertImageNet→CheXpert0.7671 ±0.00080.7683 ±0.00090.7689 ±0.0010学习率在10 -3之间。5- 105和三个在10 − 5和10 − 3之间的对数间隔的权重衰减值，以及没有权重衰减。对于来自监督预训练基线的训练，我们遵循相同的协议，并观察到对于所有微调设置，30，000步足以实现最佳性能。对于监督基线，我们将其与在ImageNet上预训练的相同的公共可用ResNet模型1进行比较，并使用标准交叉熵损失。这些模型使用与自监督模型相同的数据增强进行训练（裁剪，强颜色增强和模糊）。4.4. 评价方法在识别用于微调给定数据集的最佳超参数之后，我们继续基于验证集性能选择模型，并在测试集上多次评估所选模型（对于胸部X射线任务10次，对于皮肤病学任务5次）以报告任务性能。我们的皮肤病学任务的主要指标是前1名的准确性和曲线下面积（AUC）[29]。对于胸部X射线任务，考虑到多标签设置，我们报告了以下五种靶病变预测之间的平均AUC[23]。我们还使用非参数bootstrap来估计模型性能的变异性，并研究任何统计学上显著的改善。附录B.1.1中提供了其他详细信息。5. 实验结果在本节中，我们将研究使用对比学习的自监督预训练是否会在选定的医学图像分类任务中转化为端到端微调模型为此，首先，我们探讨了医学成像任务的预训练数据集的选择。然后，我们评估了我们提出的多实例对比学习（MICLe）对1https://github.com/google-research/simclr皮肤病学状况分类任务，并将所提出的方法与基线和最先进的方法进行比较最后，我们探讨了标签的效率和可转移性（下分布转移）的自我监督训练模型在医学图像分类设置。5.1. 预训练数据集通过自监督预训练的迁移学习的一个重要方面是选择适当的未标记数据集。对于这项研究，我们使用不同容量的架构（即ResNet-50（1），ResNet-50（4）和ResNet- 152（2）作为我们的基础网络，并仔细研究了医学背景下自我监督预训练的三种可能情况：（1）仅使用ImageNet数据集，(2)使用任务特定的未标记的医疗数据集（即，Derm和CheXpert），以及（3）从ImageNet自监督模型初始化预训练，但使用任务特定的未标记数据集进行预训练，这里表示为 ImageNet CheXpert 和 ImageNetCheXpert。表1示出了皮肤病学皮肤状况和胸部X射线分类模型的性能，其通过跨不同架构和预训练场景的前1准确度（%）和曲线下面积（AUC）测量。我们的研究结果表明，当使用ImageNet和任务特定的未标记数据时，可以实现最佳性能。将ImageNet和Derm未标记数据组合用于预训练，转化为（1. 92016）真皮的top-1准确度增加%仅使用ImageNet数据集进行拓扑分类自我监督迁移学习这一结果表明，ImageNet上的预训练可能与未标记医学图像上的预训练互补。此外，我们观察到，较大的模型能够从自我监督的预训练中受益更多，这强调了模型容量在这种情况下的重要性。如表1所示，在CheXpert上，我们再次观察到使用ImageNet和ImageNet进行的自监督预训练3484±×个±×个×个×个DermDD表2：多实例对比学习（MI-CLe）对皮肤病状况分类的评价。我们的研究结果表明，MICLe一贯提高皮肤状况表3：关于皮肤病学分类的最佳自监督模型与监督预训练基线的比较。架构方法预训练数据集Top-1准确度SimCLR在不同数据集和架构上的分类ResNet-152（2×）Supervised ImageNet 63.36 ± 0.12ResNet-101（3×）BiT [24] ImageNet-21k 68.45 ±0.29ResNet-152（2×）SimCLR ImageNet 66.38 ± 0.03ResNet-152（2×） SimCLRImageNet→Derm 69.43 ± 0.43ResNet-152（2×）MICLeImageNet→Derm70.02± 0.22表4：关于胸部X射线分类的最佳自监督模型与监督预训练基线的比较。架构方法预训练数据集平均AUC ResNet-152（2×）SupervisedImageNet 0.7625 ± 0.001域内CheXpert数据是有益的，优于ImageNet或CheXpert单独的自我监督预训练5.2. MICLe的性能接下来，我们评估利用多实例对比学习（MICLe）和利用针对给定病理的每个患者的多个图像的潜在可用性表2比较了在有和没有MICLe预训练的情况下学习的表示上微调的皮肤病状况分类模型的性能。我们观察到MICLe在不同的预训练数据集和基础网络架构选择下，与原始SimCLR方法相比，持续提高了皮肤病学分类的性能。使用MICLe进行预训练，转换为（1.180 09）与仅使用原始SimCLR相比，皮肤病学分类的前1准确度增加了%。5.3. 与监督迁移学习的我们通过提供更多的负样本来进一步提高性能，训练时间更长，为1000个epochs，批量大小更大，为1024。我们实现了性能最佳的top-1准确度（70。02 0.22）%使用ResNet-152（2）通过在皮肤病学状况分类中结合ImageNet和Derm数据集的架构和MICLe预训练。表3和4示出了SimCLR和MICLe模型的迁移学习性能这个结果表明，在微调之后，当使用ImageNet预训练时，我们的自监督模型显著优于监督基线（p<0.05）。05）的情况。我们特别观察到使用MICLe时，皮肤病学任务中的top-1准确性提高了6.7%以上。在胸部 X 射线任务中，未使用 MICLe 的平均 AUC 改善1.1%。虽然使用ImageNet预训练模型仍然是规范，但最近通过在大规模（通常是嘈杂的）自然数据集[24，30]上进行监督预训练来提高下游任务的传输性能已经取得了进展。ResNet-101（3×）BiT [24] ImageNet-21k 0.7720 ±0.002ResNet-152（2×）SimCLR ImageNet 0.7671 ± 0.008ResNet-152（2×）SimCLRCheXpert0.7702 ±0.001ResNet-152（2×）SimCLR ImageNet→CheXpert0.7729±0.001因此，我们还评估了Kolesnikov等人的监督基线。[24] ，一个在 ImageNet 21-k 上预训练的 ResNet-101（3），称为Big Transfer（BiT）。该模型包含额外的架构调整，以提高传输性能，并在一个显着更大的数据集上进行训练（14M图像标记有21k个类中的一个或多个，而ImageNet中的1M图像），这为我们提供了强大的监督基线2。ResNet-101（3）具有382 M可训练参数，因此与具有233 M可训练参数的ResNet-152（2）相当我们观察到MICLe模型优于该BiT模型，皮肤病学分类任务在top-1准确度方面提高了1.6%。对于胸部X射线任务，自我监督模型的平均AUC约为0.1%我们推测，使用额外的域内未标记数据（我们仅使用CheXpert数据集进行预训练），自监督预训练可以以更大的幅度超过BiT基线。同时，这两种方法是互补的，但我们将在这个方向上的进一步探索留给未来的工作。5.4. 自监督模型的泛化能力更好我们进行进一步的实验来评估自监督预训练模型对分布变化的鲁棒性。为此目的，我们使用模型后预训练和端到端微调（即CheXpert和Derm）对额外的移位数据集进行预测，而无需任何进一步的微调（零触发转移学习）。我们使用外部和NIH作为我们的目标转移数据集。我们的结果通常表明，自我监督的预训练模型可以更好地推广到分布变化。对于胸部X射线任务，我们注意到使用ImageNet或CheXpert数据进行的自我监督预训练2 该模型也可在 https://github.com/google-research/big_transfer上公开获取模型数据集MICLe前1精度ResNet-50（4×）真皮编号真皮是ImageNet→Derm否ImageNet→Derm是66.93±0.9267.55±0.5267.63±0.3268.81±0.41ResNet-152（2×）真皮编号真皮是ImageNet→Derm否ImageNet→Derm是66.43±0.6267.16±0.3568.30±0.1968.43±0.323485MICLe ImageNet+DermSimCLRImageNet+DermSimCLR DermSupervised ImageNet×个Derm×个DermCheXpertResNet-50（4x）0.350.770.650.300.760.600.550.250.750.500.20Res50-4x Res152-2x架构0.74Res152-2x Res50-4x架构20 40 60 80标记分数（%）ResNet-152（2x）图4：分布偏移数据集上的模型评估（左：D未标记→D外部;右：D未标记→DNIH）显示自0.65使用ImageNet和目标域进行监督训练显著提高了对分布偏移的鲁棒性证明了普遍性，但将两者叠加会产生进一步的收益。我们还注意到，当只使用ImageNet进行自我监督预训练时，与使用域内数据进行预训练相比，模型在这种情况下的表现更差。此外，我们发现，性能的改善，在0.600.550.5020 40 60 80标记分数（%）由于自监督预训练（使用ImageNet和CheXpert数据）而导致的分布偏移数据集的改进比CheXpert数据集的原始改进更显著。这是一个非常有价值的发现，因为分布变化下的泛化对临床应用至关重要在皮肤病学任务中，我们观察到类似的趋势，表明自监督表示的鲁棒性在任务中是一致的。5.5. 自监督模型的标签效率更高为了研究所选择的自监督模型的标记效率，遵循先前解释的微调协议，我们在标记的训练数据的我们还使用有监督的ImageNet预训练模型进行基线对于Derm和CheXpert训练数据集，我们使用范围从10%到90%的标签分数。使用最佳参数多次重复标记级分的微调实验并取平均值。图4示出了使用用于皮肤病学任务的不同可用标签分数的性能如何变化首先，我们观察到使用自监督模型的预训练可以显著帮助医学图像分类的标签效率，并且在所有部分中，自监督模型都优于监督基线。此外，这些结果表明，MICLe产量成比例较大的增益时，微调较少的标记的例子。事实上，MICLe仅使用20%的ResNet-50训练数据（4）和30%的ResNet- 152训练数据CheXpert数据集的结果包含在附录B.2中，我们在其中观察到了类似的趋势。图5：在不同的未标记预训练数据集和不同大小的标记分数下，MICLe、SimCLR和监督模型的皮肤病状况分类的前1准确度。6. 结论在ImageNet等自然图像数据集上进行监督预训练通常用于改进医学图像分类。本文研究了一种基于自监督预训练的替代策略，对未标记的自然图像和医学图像进行预训练，发现自监督预训练的性能明显优于监督预训练。本文提出了使用多个图像的医疗情况下，以增强数据增强的自我监督学习，这提高了图像分类器的性能，甚至进一步。自监督预训练比监督预训练更具可扩展性，因为不需要类标签注释这一研究领域的自然下一步是通过考虑大量未标记的医学图像数据集来研究自我监督预训练的限制。另一个研究方向涉及将自我监督学习从一种成像方式和任务转移到另一种成像方式和任务。我们希望本文将有助于推广使用自我监督的方法在医学图像分析产生的标签效率提高整个医疗领域。确认我们要感谢刘源对稿件的宝贵反馈。我们还要感谢Jim Winkens、Megan Wilson、Umesh Telang、PatriciaMacwilliams、Greg Corrado、Dale Webster以及我们在DermPath AI的合作者对这项工作的支持。MICLe ImageNet+DermSimCLRImageNet+DermSupervised ImageNetSimCLRImageNet+CheXpertSimCLR CheXpertSupervised ImageNetMICLe ImageNet+DermSimCLRImageNet+DermSimCLR DermSupervised ImageNet前1精度平均AUC前1精度前1精度3486引用[1] Laith Alzubaidi ， Mohammed A Fadhel ， Omran Al-Shamma，Jinglan Zhang，J Santamar´ıa，Ye Duan，andSameer R Oleiwi.更好地理解医学成像的迁移学习：个案研究。Applied Sciences，10（13）：4523，2020. 二个[2] Philip Bachman ， R Devon Hjelm ， and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示神经信息处理系统进展，第15535-15545页，2019年二个[3] Wenjia Bai ， Chen Chen ， Giacomo Tarroni ， JinmingDuan，Florian Guitton，Steffen E Petersen，Yike Guo，Paul M Matthews，and Daniel Rueckert.通过解剖位置预测进行心脏MR图像分割的自监督学习医学图像计算和计算机辅助干预国际会议，第541Springer，2019年。三个[4] 苏珊娜·贝克尔和杰弗里·E·辛顿。自组织神经网络，发现表面在随机点立体图。Nature，355（6356）：161-163，1992. 三个[5] Krishna Chaitanya ，Ertunc Erdil，Neerav Karani， andEnder Konukoglu.全局和局部特征的对比学习用于有限注释的医学图像分割。 arXiv 预印本 arXiv ：2006.10511，2020。三个[6] Liang Chen ，

下载后可阅读完整内容，剩余1页未读，立即下载