DiRA：自监督医学图像分析的多方协同学习

182 浏览量更新于2023-10-26 收藏 13.92MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Discriminative+RestorativeDiscriminative+AdversarialRestorative+Adversarial(O)Figure 1.Despite the critical contributions of discriminative,restorative, and adversarial learning to SSL performance, yet noSSL method simultaneously employs all three learning ingredi-ents. Our proposed DiRA, a novel SSL framework, unites discrim-inative, restorative, and adversarial learning in a unified manner tocollaboratively glean complementary visual information from un-labeled data for fine-grained semantic representation learning.208240DiRA：用于自监督医学图像分析的判别式、恢复性和对抗性学习0Fatemeh Haghighi 1 * Mohammad Reza Hosseinzadeh Taher 1 * Michael B. Gotway 20Jianming Liang 101 亚利桑那州立大学 2 Mayo Clinic0{ fhaghigh,mhossei2,jianming.liang } @asu.edu Gotway.Michael@mayo.edu0摘要0判别式学习、恢复性学习和对抗性学习在计算机视觉和医学影像的自监督学习方案中已被证明是有益的。然而，现有的工作在三元设置中忽略了它们对彼此的协同效应，我们认为这可以显著提高深度语义表示学习的效果。为了实现这一愿景，我们开发了DiRA，这是第一个以统一的方式将判别式、恢复性和对抗性学习结合在一起，从未标记的医学图像中协同获取互补的视觉信息，用于细粒度的语义表示学习。我们广泛的实验证明，DiRA（1）鼓励三个学习成分之间的协同学习，从而在器官、疾病和模态之间产生更具普适性的表示；（2）在小数据情况下优于完全有监督的ImageNet模型，并增加了多个医学影像应用中的鲁棒性，降低了注释成本；（3）学习了细粒度的语义表示，仅使用图像级别的注释就能实现准确的病变定位；（4）增强了最先进的恢复性方法，表明DiRA是一种用于统一表示学习的通用机制。所有代码和预训练模型都可在https://github.com/JLiangLab/DiRA上获得。01. 引言0自监督学习（SSL）旨在在不使用任何专家注释的情况下学习可推广的表示。SSL范式中的表示学习方法可以分为三个主要组：（1）判别式学习，利用编码器对相同（伪）类别的实例进行聚类，并区分来自不同（伪）类别的实例；（2）恢复性学习，利用生成模型对图像进行重构。0* 相同贡献者按字母顺序排列。0对抗学习恢复性学习0判别式学习0DiRA0原始图像与其扭曲版本之间的对比学习;以及(3)对抗学习，利用对抗模型来增强恢复性学习。在计算机视觉领域，判别式自监督学习方法，尤其是对比学习[8, 12, 13, 15, 21, 24,27, 27, 34, 44,53]，目前在某些任务上的性能超过了标准的有监督ImageNet模型。然而，在医学影像领域，与判别式方法[3,56]相比，恢复性自监督学习方法[10, 25, 26, 43, 55,57]目前在性能上达到了一个新的高度。因此，我们思考：计算机视觉和医学影像中的判别式方法和恢复性方法之间的受欢迎程度差异是由什么造成的？此外，通过我们广泛的文献综述，我们发现没有一种自监督学习方法同时利用了这三个学习组件；因此，我们思考：判别式、恢复性和对抗性学习能否无缝地集成到一起。208250斑马菊胸部解剖学0图2.摄影图像通常具有明显的可判别部分的大型前景对象，而医学图像则包含分散在整个图像上的一致的解剖结构和语义信息。因此，摄影图像中的识别任务主要基于高层次特征，而医学任务则需要在整个图像中捕获到细致的细粒度判别特征。0一个统一的框架，促进深度语义表示的协同学习，为广泛的应用提供更强大的模型？在寻找这两个问题的答案时，我们获得了以下见解。计算机视觉和医学成像任务以相反的方式接纳了恶的精神，这源于摄影和医学图像之间的明显差异。摄影图像，特别是ImageNet中的图像，具有明显的可判别部分的大型前景对象，位于不同的背景中（例如图2中的斑马和菊花图像）。因此，摄影图像中的目标识别任务主要基于从可判别区域捕获的高层次特征。相反，从特定成像协议生成的医学图像展现出一致的解剖结构（例如图2中的胸部解剖学），临床相关信息分散在整个图像上[26]。特别是，高层次的结构信息，即解剖结构及其相对空间方位，对于识别正常解剖和各种疾病至关重要。重要的是，医学任务需要更强的对图像中细致细节的关注，因为识别疾病、描绘器官和分离病变依赖于纹理的微小局部变化[29]。因此，医学图像中的识别任务需要在整个图像中捕获到互补的高层次和细粒度判别特征。根据我们的系统分析，我们获得了以下理解：（1）判别性学习在捕获高层次（全局）判别特征方面表现出色，（2）恢复性学习擅长保留嵌入在局部图像区域中的细粒度细节，（3）对抗性学习通过保留恢复来巩固0更细致的细节。将这些对摄影和医学图像之间的理解和基本差异放在一起，可以解释为什么在医学成像中更倾向于恢复性学习，而在计算机视觉中更倾向于判别性学习。更重要的是，我们对判别性、恢复性和对抗性学习的三重关系有了新的有趣的见解，以挖掘医学识别任务所需的有效特征——不仅是高层次的解剖学表示，还包括嵌入在医学图像的局部部分中的细粒度判别线索。基于以上见解，我们设计了一种新颖的自监督学习框架，称为DiRA，通过以统一的方式结合判别性学习、恢复性学习和对抗性学习，从未标记的医学图像中获取互补的视觉信息。我们的广泛实验证明：（1）DiRA鼓励三个学习组件之间的协同学习，从而在器官、疾病和模态之间产生更具普适性的表示（见图4）；（2）DiRA优于完全监督的ImageNet模型，并在小数据范围内增加了鲁棒性，从而减少了医学成像的注释成本（Tab. 1和Tab.2）；（3）DiRA学习了细粒度的表示，仅通过图像级别的注释就能更准确地定位病变（图5）；（4）DiRA增强了SOTA恢复性方法，表明DiRA是一个统一的表示学习框架（Tab. 3）。总之，我们的贡献如下：0•在三元设置中，我们对判别性、恢复性和对抗性学习的协同作用有了深入的洞察，实现了自监督学习的新范式。0•第一个将判别性、恢复性和对抗性学习无缝结合在一个统一框架中的自监督学习框架，在医学影像领域树立了新的技术优势。0•一系列全面而深入的实验，不仅展示了DiRA的泛化能力，还展示了其在发展医学影像的通用表示方面迈出的重要一步。02. 相关工作0判别性自监督学习。判别性方法可以分为类别级别和实例级别的判别。类别级别的判别方法[7,8,17,22,35,54]根据某些标准对图像进行分组，为每个组分配一个伪标签，并训练一个模型根据伪标签对图像进行判别，例如旋转角度[22]和聚类分配[7,8,54]。( ).( ).Shared208260另一方面，实例级别的判别方法[8,12,13,15,21,24,27,34,44,48,52,53]将每个图像视为一个独立的类别，并最大化来自同一图像不同视角的表示的相似性，以学习具有转换不变性的表示。实例级别的判别性学习以各种形式进行了研究，包括对比学习[12,14,27,49]、非对称网络[15,24]和冗余减少[21,53]。然而，无论是类别级别的还是实例级别的判别性学习方法在需要更精细特征的任务中都显示出失败[47,50,51]。我们的DiRA通过整合恢复性和对抗性学习来解决这个限制，不仅改善了判别性学习，还产生了医学影像任务所需的细粒度表示。0恢复性和对抗性自监督学习。恢复性方法的关键目标是忠实地重建数据的分布[36,48]。在自监督学习的背景下，使用生成模型[33,37,45]制定多个预训练任务来重建扰动图像。GANs的进展[23]导致了无监督学习中使用对抗性学习生成可转移表示的新研究方向[18,19]。尽管最近的研究[11,18]通过使用大规模生成模型展示了令人印象深刻的结果，但生成模型能够包含多大程度的高级结构仍然不清楚。我们的DiRA通过将判别性学习的优势引入生成模型来缓解这个限制。通过对图像样本进行判别，鼓励生成模型捕捉全局判别性表示而不是表面表示，从而产生更明显的嵌入空间。0医学影像中的自监督学习。由于缺乏大规模标注数据集，自监督学习在医学影像领域引起了广泛关注。受计算机视觉领域的成功启发，最近的判别方法集中在实例级别的判别上。[29]中的一项全面的基准研究评估了在ImageNet上预训练的现有实例判别方法在不同医学任务上的有效性。其他几项工作在医学图像上调整了基于对比的方法。另一方面，大量的工作集中在恢复性方法上，可以分为仅恢复性[10,57]、恢复性和对抗性[43]以及判别性和恢复性[26,30,55]。在这些群体中，最近的TransVW[25,26]研究通过将判别性和恢复性组件结合到一个单一的自监督学习框架中，展示了优越性。DiRA通过展示两个关键进展与所有先前的工作区分开来：(1)在一个统一的框架中同时采用判别性、恢复性和对抗性学习；(2)提供与现有判别性和0编码器0�!0编码器�"0编码器�"0投影器投影器0�! 解码器0�"0判别器0��0�!"#0�!0�" �"0�"0�$%# �&!'0图3.我们提出的框架。DiRA由三个学习组件组成：判别、修复和对抗。给定两个输入补丁x1和x2，我们通过T(.)对它们进行扰动，并将它们提供给判别和修复分支作为输入。判别分支由编码器fθ和fξ以及投影器hθ和hξ组成，通过最大化来自相同（伪）类别样本的（高层）嵌入向量之间的一致性来增强。修复分支由编码器fθ和解码器gθ组成，通过最大化原始样本x1和恢复样本x'1之间的（像素级）一致性来增强。对抗判别器Dϕ将原始样本与恢复样本进行对比，加强修复以保留更多细粒度的细节。0修复方法，无论其目标函数如何。03. DiRA框架0如图3所示，DiRA是一个包含三个关键组件的SSL框架：（1）判别（Di），旨在学习高层判别性表示；（2）修复（R），旨在通过关注更局部的视觉模式来保留图像的细粒度信息；（3）对抗（A），旨在通过修复组件进一步改进特征学习。通过将这些组件集成到一个统一的框架中，DiRA从图像中捕获全面的信息，为各种下游任务提供更强大的表示。接下来，我们首先通过抽象出一个通用范式来介绍每个组件，然后描述联合训练损失。03.1. 判别学习0判别学习可以被视为训练一个编码器，通过判别损失在潜在空间中最大化相同（伪）类别的实例之间的一致性。如图3所示，判别器分支由两个孪生主干网络fθ和fξ以及投影头hθ和hξ组成。fθ是一个常规编码器，而�208270fξ可以是动量编码器[24, 27]，也可以与fθ共享权重[15, 26,53]。给定两个来自同一图像或不同图像的补丁x1和x2，我们首先对它们应用增强函数T(.)。然后，将两个增强的补丁通过fθ和fξ进行处理，生成潜在特征y1 = fθ(T(x1))和y2 =fξ(T(x2))。投影头hθ和hξ将潜在特征投影到单位球，并输出投影z1 = hθ(y1)和z2 =hξ(y2)。判别器的目标是最大化来自相同（伪）类别样本的嵌入向量之间的相似性：0Ldis = ℓ(z1, z2) (1)0其中，ℓ(z1,z2)是衡量z1和z2之间相似性/距离的函数。DiRA是一个通用框架，允许在没有任何约束的情况下选择不同的判别任务。因此，类的声明可以从将每个单独的图像视为一个类（实例判别）到基于相似度度量对图像进行聚类（聚类判别）。相应地，x1和x2可以是同一图像的两个视图或来自同一聚类的两个样本。根据判别任务的性质，Ldis的实例化可以是交叉熵[22, 26, 35, 58]，对比[3, 8, 12, 27]，冗余减少[21,53]等。03.2. 修复学习0我们的修复学习分支旨在通过利用细粒度的视觉信息来增强鉴别学习。如图3所示，修复分支由编码器fθ和解码器gθ组成，其中编码器fθ与鉴别分支共享。给定由T扭曲的输入样本x1，fθ和gθ旨在将扭曲的样本映射回原始样本，即fθ，gθ：(x, T) →x。通过最小化原始样本和恢复样本之间的像素级距离来训练fθ和gθ：0Lres = Ex dist(x1, x'1) (2)0其中x'1 = gθ(fθ(T(x1)))表示恢复的图像。dist(x1,x'1)表示测量x1和x'1之间相似性的距离函数，例如L1或L2。03.3. 对抗学习0对抗学习旨在通过衡量恢复图像的真实性来增强fθ。因此，对抗鉴别器Dϕ被制定为区分（鉴别）训练图像集和合成图像集的工具，引导编码器fθ从图像中捕获更多的信息特征，以便gθ能够有效地重现原始图像。因此，编码器fθ和解码器gθ与对抗鉴别器Dϕ进行最小最大博弈，并通过对抗损失[6,36]进行联合优化：0Ladv = Ex [log Dϕ(x1)] + Ex [log (1 - Dϕ(x'1))] (3)03.4. 联合训练0最后，提出的DiRA框架的综合目标变为：0L = λ dis * L dis + λ res * L res + λ adv * L adv (4)0其中λdis，λres和λadv是确定不同损失相对重要性的乘法因子。通过我们的统一训练方案，DiRA学习到了在样本中保留细粒度细节的表示，同时在图像类别之间具有鉴别性。特别是，Ldis的形式鼓励模型捕捉高层次的鉴别特征。此外，Lres通过关注像素级视觉模式来强制模型从图像中编码细粒度信息。这导致更具描述性的特征嵌入，提升了鉴别任务。最后，Ladv通过捕捉更多的信息特征提升了基于恢复的学习。04. 实现细节04.1. 预训练协议0DiRA是一个通用框架，与现有的自监督鉴别和修复方法兼容，无论它们的目标函数如何。为了评估我们框架的有效性，我们将最新的2D和3D自监督方法调整为DiRA，如下所述。使用DiRA预训练的模型以原始方法名称为下标标识为DiRA。02D图像预训练设置。我们将DiRA应用于MoCo-v2[14]，Barlow Twins [53]和SimSiam[15]的2D图像自监督学习。所有DiRA模型都是从头开始在ChestX-ray14[46]数据集的训练集上预训练的。对于这三个鉴别任务[14,15,53]，我们按照原始方法中的Ldis的制定、投影头架构和超参数设置进行。此外，我们按照[14, 15,53]中的优化设置来优化编码器和解码器网络fθ和gθ。对于所有方法，我们采用一个具有标准ResNet-50[28]骨干的2D U-Net[38]作为fθ和gθ。我们采用均方误差（MSE）作为Lres。对抗鉴别器网络Dϕ由4个卷积层组成，卷积核大小为3×3[37]，使用Adam优化器进行训练，学习率为2e-4，(β1,β2) = (0.5, 0.999)。我们使用256个批次大小在4个NvidiaV100GPU上分布。λres，λadv，λdis的经验设置为10，0.001和1。输入图像首先随机裁剪并调整大小为224×224；图像增强函数T(.)包括随机水平翻转、颜色抖动和高斯模糊。此外，我们还应用了cutout [16, 37]和shuffling[10]来使修复任务更具挑战性。更多细节请参见附录。208280十四种胸部疾病分类0[NIH ChestX-Ray14]0气胸分割0[SIIM-ACR]0肺部分割[NIHMontgomery]0五种胸部疾病分类0[CheXpert]0MoCo-v2 Barlow Twins SimSiam0DiRA MoCo-v2 DiRA Barlow Twins DiRA SimSiam0n.s. 无显著性 * p < 0.05 ** p < 0.010*** p < 0.001 *** p < 0.00010图4. 与判别自监督方法的比较：我们将DiRA应用于三种具有不同判别目标的代表性SOTA自监督方法：MoCo-v2 [14]、Barlow Twins[53]和SimSiam [15]。DiRA使判别方法能够捕捉到更细粒度的表示，从而在四个下游任务上获得显著（p < 0.05）的性能提升。03D体积预训练设置。我们将DiRA应用于TransVW[26]，这是医学影像中3D自监督学习的SOTA方法。我们通过将对抗鉴别器Dϕ添加到TransVW的训练方案中，将TransVW适应于DiRA。为了公平比较，我们遵循公开可用的TransVW代码设置实例鉴别和恢复任务。此外，与公开发布的TransVW类似，DiRA模型是使用LUNA[40]数据集中的623个胸部CT扫描从头开始预训练的。我们使用3D U-Net[20]作为编码器-解码器网络，并包括全连接层的分类头。对抗鉴别器Dϕ包括四个卷积块，核大小为3×3×3。λres、λadv和λdis分别经验性地设置为100、1和1。fθ、gθ和Dϕ使用Adam进行200个epoch的优化，学习率为1e-3，批量大小为8。更多细节请参见附录。04.2. 迁移学习协议0目标任务和数据集。我们在9个常见但具有挑战性的2D和3D医学影像任务中评估DiRA表示的有效性，包括：ChestX-ray14、CheXPert [31]、SIIM-ACR [1]和NIH Montgomery[32]用于2D模型，以及LUNA、PE-CAD [41]、LIDC-IDRI[2]、LiTS [5]和BraTS[4]用于3D模型（有关数据集详细信息，请参见附录）。这些任务涵盖了各种标签结构（多标签分类和像素级分割）、疾病（脑肿瘤和胸部疾病，如肺结节、肺栓塞和气胸）、器官（肺、肝、脑）和模态（X射线、CT、MRI）。此外，这些任务包含了在处理医学图像时遇到的许多典型挑战，如类别不平衡、数据有限以及感兴趣病理的扫描区域较小[3,29]。我们在可能的情况下使用这些数据集的官方数据划分；否则，我们将数据随机划分为80%/20%用于训练/测试。0我们通过微调下游模型的所有参数来评估DiRA表示的泛化能力。我们使用AUC（ROC曲线下的面积），以及IoU（交并比）和Dice系数来评估分类和分割性能。根据[29]，我们努力优化每个下游任务的超参数（详见附录）。我们使用训练数据的10%作为验证集来避免过拟合，并采用提前停止机制。我们在每个下游任务上运行每种方法十次，并报告平均值、标准差和基于独立双样本t检验的统计分析结果。05. 结果0我们进行了大量实验，以更好地了解我们的框架的属性以及其在9个下游任务中的泛化能力。通过以下一系列实验，我们证明了DiRA：（1）丰富了现有的判别方法，捕捉到更多样化的视觉表示，更好地泛化到不同的任务；（2）解决了医学影像中标注稀缺的挑战，为医学影像提供了一种注释高效的解决方案；（3）学习了细粒度特征，仅通过图像级别的注释就能更准确地定位病变；（4）改进了SOTA的恢复方法，证明了DiRA是一种用于统一表示学习的通用框架。05.1. DiRA丰富了判别学习0实验设置：为了研究我们提出的自监督框架的灵活性和有效性，我们将DiRA应用于三种具有不同判别目标的最新自监督方法：MoCo-v2、BarlowTwins和SimSiam。为了评估我们学到的表示的质量并确定我们的发现的普遍性，我们遵循[29]，考虑了更广泛的四个目标任务，涵盖分类（ChestX-Ray14和CheXpert）和1%25%50%1%25%50%1%25%50%DiRAins208290方法0ChestX-ray14 [AUC（％）] CheXpert [AUC（％）] Montgomery [Dice（％）]0标签分数标签分数标签分数0MoCo-v2 [14] 52.99 74.89 76.71 76.87 81.70 83.23 63.69 96.44 97.600DiRA MoCo-v2 59.39（↑6.4）77.55（↑2.6）78.74（↑2.0）78.43（↑1.5）87.12（↑5.4）87.31（↑4.0）72.53（↑8.8）97.06（↑0.62）98.14（↑0.5）0Barlow Twins [53] 62.43 76.23 77.59 82.85 83.74 84.66 86.79 97.49 97.680DiRA Barlow Twins 62.51（↑0.08）77.18（↑0.9）78.46（↑0.8）83.12（↑0.2）84.20（↑0.4）85.32（↑0.6）87.25（↑0.4）97.62（↑0.1）98.15（↑0.4）0SimSiam [15] 51.07 73.05 75.20 65.39 80.05 81.46 48.20 94.86 97.210DiRA SimSiam 53.42（↑2.3）74.38（↑1.3）76.43（↑1.2）70.46（↑5.0）81.03（↑1.0）82.70（↑1.2）61.86（↑13.6）96.61（↑1.7）97.91（↑0.7）0表1.在不同下游标签分数下的迁移学习：DiRA模型在低数据情况下对抗过拟合，并为具有有限注释数据的下游任务提供更强的表示。对于每个下游任务，我们报告多次运行的平均性能。（↑）显示DiRA模型与基础判别方法相比的改进。0原始MoCo-v2 Grad-CAM0GT：肺不张 Pred：肺不张 Pred：肺不张0GT：肿块 Pred：肿块 Pred：肿块0原始Barlow Twins0Grad-CAM0Grad-CAM0GT：渗出 Pred：渗出 Pred：渗出0GT：结节 Pred：结节 Pred：结节0原始SimSiam Grad-CAM0GT：渗出 Pred：渗出 Pred：渗出0GT：渗出 Pred：渗出 Pred：渗出0（a）（b）（c）0图5. Grad-CAM热图的可视化，分别为（a）MoCo-v2 vs. DiRA MoCo-v2，（b）Barlow Twins vs. DiRA BarlowTwins，以及（c）SimSiam vs. DiRASimSiam。黑色显示了地面真值边界框注释。使用DiRA进行训练可以改善弱监督疾病定位。虽然DiRA和基线模型都可以对测试图像进行正确的疾病标签预测，但DiRA模型比基线模型更精确地捕捉到疾病位置（例如（c），第二行），或者提供与地面真值没有重叠的不准确定位（例如（b），第二行）。0分割（SIIM-ACR和Montgomery）。0结果：如图4所示，我们的DiRA框架在所有任务（1）ChestX-ray14，（2）CheXpert，（3）SIIM-ACR和（4）NIHMontgomery上持续增强其基础判别方法。与原始方法相比，DiRAMoCo-v2的性能分别提高了0.76％，1.17％，1.35％和0.21％；同样，DiRA BarlowTwins的性能分别提高了0.43％，0.60％，0.16％和0.03％。最后，DiRASimSiam的性能分别提高了0.82％，2.22％，1.18％和0.45％。这些结果表明DiRA是一个全面的表示学习框架，鼓励现有的自监督实例判别方法保留更细粒度的图像信息，丰富其视觉表示，并使其能够更有效地推广到不同的医学任务。05.2. DiRA改善了对小数据情况的鲁棒性0实验设置：我们研究了DiRA在小数据情况下学习的表示的鲁棒性，以确定学习到的表示是否可以作为“0为微调打下良好基础。我们从ChestX-ray14、CheXpert和Montgomery中随机选择1％、25％和50％的训练数据，并在这些训练数据子集上微调自监督预训练模型。0结果：如表1所示，我们的DiRA预训练模型在ChestX-ray14、CheXpert和Montgomery的所有子集（1％、25％和50％）上均优于其对应的原始方法。特别是在每个子集中的三个下游任务中，MoCo-v2和SimSiam的平均改进分别为：（1）使用1％时为5.6％和7％，（2）使用25％时为2.9％和1.3％，（3）使用50％时为2.2％和1％。如1％所示，DiRA在很大程度上优于其对应的MoCo-v2和SimSiam，展示了我们的框架在极低数据情况下对抗过拟合的潜力。尽管BarlowTwins比前两种方法更能抵抗低数据情况，但DiRA在使用1％、25％和50％标记数据时仍然平均提高了0.5％、0.5％和0.6％。总之，我们在低数据情况下的结果表明了我们框架在提供更强大和可转移的表示方面的优越性。∗ ↑DiRABarlow TwinsChestX-ray1480.88±0.3087.50±0.27 ↑ ∗69.87±0.68 ↑ ↑98.16±0.06 ∗ ∗DiRASimSiamChestX-ray1480.44±0.2986.04±0.4368.76±0.69 ∗ ∗98.17±0.11 ∗ ∗LUNA94.25±5.0798.46±0.3098.87±0.61 (↑ 0.41)LIDC-IDRI74.05±1.9777.33±0.5277.51±1.36 (↑ 0.18)LiTS79.76±5.4286.53±1.3086.85±0.81 (↑ 0.32)BraTS59.87±4.0468.82±0.3869.57±1.13 (↑ 0.75)PE-CAD80.36±3.5887.07±2.8386.91±3.27208300方法预训练数据集分类[AUC（％）] 分割[Dice（％）]0ChestX-ray14 CheXpert SIIM-ACR Montgomery0随机 - 80.31 ± 0.10 86.62 ± 0.15 67.54 ± 0.60 97.55 ± 0.360监督的ImageNet 81.70 ± 0.15 87.17 ± 0.22 67.93 ± 1.45 98.19 ± 0.130监督的ChestX-ray14 - 87.40 ± 0.26 68.92 ± 0.98 98.16 ± 0.050表2.与完全监督的迁移学习比较：DiRA模型在ImageNet和ChestX-ray14上的三个下游任务中优于完全监督的预训练模型。最佳方法用粗体表示，次佳方法用下划线表示。↑和↑表示与监督的ImageNet和ChestX-ray14基线相比有统计学上显著（p <0.05）的改进，而�和�表示相应地具有统计上等效的性能。对于监督的ChestX-ray14模型，由于预训练和下游任务相同，迁移学习到ChestX-ray14不适用，用“-”表示。0可以用于有限数据量的下游任务，从而降低注释成本。05.3. DiRA改进了弱监督定位0实验设置：我们在弱监督的情况下研究了DiRA框架，比较其在定位胸部病理学方面与底层判别方法的适用性。为了实现这个目标，我们遵循[46]的方法，使用包含约1,000张图像的ChestX-ray14数据集，其中包含边界框注释。对于训练，我们使用我们的DiRA预训练模型初始化模型，并仅使用图像级别的疾病标签训练下游模型。根据[39,46]的方法，边界框仅在测试阶段用作地面真值来评估疾病定位准确性。我们使用Grad-CAM[39]生成热图，热图显示特定胸部疾病的空间位置。结果：如图5所示，我们的框架学习到了更细粒度的表示，使其能够更准确地定位疾病。特别是由MoCo-v2、BarlowTwins和SimSiam模型生成的热图变化很大，而DiRA模型在每个对应的原始方法上始终实现更稳健和准确的定位结果。通过产生更可解释的激活图，我们的DiRA框架展示了放射科医生进行事后解释的潜在临床价值。定量疾病定位结果请参见附录。05.4. DiRA优于完全监督的基线0实验设置：根据最近的医学成像转移学习基准[29]，我们将仅在ChestX-ray14的未标记图像上预训练的DiRA模型与两种完全监督的表示学习方法进行比较：(1)监督的ImageNet模型，这是医学成像中最常见的转移学习流程，(2)在ChestX-ray14上预训练的监督模型，这是领域内转移学习基准的上限。监督基线受益于0数据集方法0随机 TransVW [26] DiRA TransVW0表3.与恢复性自监督方法的比较：我们将DiRA应用于TransVW作为最先进的恢复性自监督方法。DiRA通过保留更细粒度的细节来增强TransVW，在四个3D下游任务中提高了性能。0与DiRA使用相同的编码器，即ResNet-50。我们将所有预训练模型微调为4个不同的医学应用，涵盖了从源数据集上的目标任务到数据分布和疾病/感兴趣对象方面具有相对显著领域转移的任务。0结果：如表2所示，与监督的ImageNet和ChestX-ray14模型相比，DiRA模型在四个下游任务中实现了显著更好或相当的性能。特别是，DiRA MoCo-v2和0DiRA BarlowTwins，分别在CheXpert、SIIM-ACR和Montgomery中优于两个监督基线。此外，DiRASimSiam在SIIM-ACR和Montgomery中优于监督的ImageNet和ChestX-ray14预训练模型。这些结果表明，我们的框架在没有注释数据的情况下，能够为不同的医学任务提供更通用的特征。05.5.DiRA在3D医学成像中自监督学习方面取得了新的最先进水平0实验设置：我们进一步研究了我们的框架对于增强恢复性表示学习的有效性，将DiRA应用于TransVW[26]，这是3D医学成像领域最先进的自监督学习方法。我们选择TransVW作为恢复性自监督方法的代表，因为它在性能上优于判别性方法[42, 58]、仅恢复性方法[10,57]和仅恢复性方法[10, 57]。ryMoCo-v2ChestX-ray14✓××80.36±0.2686.42±0.4267.89±1.1498.03±0.22✓✓×80.72±0.29 ↑↑↑86.86±0.37 ↑↑↑68.16±1.07 ↑↑↑98.19±0.08 ↑↑↑✓✓✓81.12±0.17 ↑↑↑87.59±0.28 ↑↑↑69.24±0.41 ↑↑↑98.24±0.09 ↑↑↑Barlow TwinsChestX-ray14✓××80.45±0.2986.90±0.6269.71±0.3498.13±0.13✓✓×80.86±0.16 ↑↑↑87.44±0.33 ↑↑↑69.83±0.29 ↑↑↑98.15±0.14 ↑↑↑✓✓✓80.88±0.30 ↑↑↑87.50±0.27 ↑↑↑69.87±0.68 ↑↑↑98.16±0.06 ↑↑↑SimSiamChestX-ray14✓××79.62±0.3483.82±0.9467.58±1.8997.72±0.27✓✓×79.41±0.42 ↓↓↓84.45±0.46 ↑↑↑68.35±1.16 ↑↑↑98.02±0.21 ↑↑↑✓✓✓80.44±0.29 ↑↑↑86.04±0.43 ↑↑↑68.76±0.69 ↑↑↑98.17±0.11 ↑↑↑208310基础预训练数据集 L dis L res L adv 分类[AUC (%)] 分割[Dice (%)]0表4.DiRA不同组件的消融研究：我们在四个下游任务中研究了DiRA的每个组件(包括区别性学习、恢复性学习和对抗性学习)的影响。将恢复性学习(L res )添加到区别性学习中会带来一致的性能提升。此外，将模型配备对抗性学习(L adv )会在所有任务中提升性能。0我们通过将学到的表示迁移到五个常见且具有挑战性的三维下游任务上，包括分类(LUNA和PE-CAD)和分割(LIDC、LiTS和BraTS)，来评估我们学到的表示。0结果：如表3所示，DiRA框架在所有下游任务中都显著提高了TransVW的性能。特别是，在LUNA、LIDC-IDRI、LiTS和BraTS中，DiRA改进了TransVW，并在PE-CAD中提供了相当的性能。这些结果表明，通过同时利用三个学习组件，基于图像的自监督方法可以捕捉到更多样化的视觉表示，从而更好地适应不同的下游任务。06.消融研究0实验设置：我们进行了一项全面的消融研究，展示了每个组件对DiRA的贡献。为此，我们只改变DiRA的损失函数。对于每个基础的自监督方法，即MoCo-v2、BarlowTwins和SimSiam(简称为基础方法)，我们从区别性组件开始，逐步添加恢复性和对抗性学习。当三个组件统一时，它们代表了完整的DiRA模型。所有模型都在ChestX-ray14数据集上进行预训练，并在ChestX-ray14、CheXpert、SIIM-ACR和Montgomery等四个下游任务上进行微调。结果：我们从表4的结果中得出以下观察结果：(1)通过添加恢复任务将区别性自监督方法扩展，可以一致地提高原始方法的性能。特别是，在MoCo-v2、BarlowTwins和SimSiam的训练目标中加入L res，优于相应的原始方法，但在ChestX-ray14中的SimSiam表现略有下降。需要注意的是，这个差距在添加L adv后弥补，这意味着我们框架中恢复和对抗组件之间的协同学习。(2)总体趋势显示了将对抗鉴别器添加到恢复组件中的优势，提高了0我们的发现表明，将DiRA模型中的三个组件统一起来显著增强了原始的自监督方法，从而保留了更多图像的细粒度信息。07.结论与讨论0我们提出了DiRA，这是第一个将有区别性、恢复性和对抗性学习统一起来的SSL框架。我们的DiRA的关键贡献来自于我们对这三种SSL方法协同学习的协同作用的深入理解。鉴于DiRA的泛化能力，我们预计它将为医学成像的通用表示开发迈出重要一步。尽管我们在检查不同的区别性学习公式时，在所有实验中都固定了恢复性学习任务，但我们的DiRA取得了显著的性能提升。未来，检查不同的恢复任务选择并寻找最佳的协同学习策略可能会为医学成像提供更强大的表示。在本文中，我们专注于医学成像，但我们预计DiRA也可以在需要细粒度细节的视觉任务中提供出色的性能。致谢：在Zongwei Zhou的帮助下，ZuweiGuo开始实施“United &Unified”背后的早期想法，这已经发展成为DiRA。我们感谢他们对可行性探索的贡献，特别是他们对TransVW[26]和各种训练策略的初步评估。本研究部分得到了ASU和MayoClinic的种子资助和创新资助，以及NIH在R01HL128785号奖项下的部分资助。内容完全由作者负责，不一定代表NIH的官方观点。本工作利用了ASU研究计算和由国家科学基金会(NSF)在ACI-1548562号授权下资助的Extreme Scienceand Engineering Discovery Environment(XSEDE)提供的GPU。论文内容受专利保护。208320参考文献0[1] Siim-acr气胸分割，2019年。5 [2] Samuel G ArmatoIII，Geoffrey McLennan，Luc Bidaut，Michael FMcNitt-Gray，Charles R Meyer，Anthony PReeves，赵斌生，Denise R Aberle，Claudia I Hen-schke，Eric AHoffman等。肺图像数据库联盟（lidc）和图像数据库资源倡议（idri）：CT扫描上肺结节的完整参考数据库。医学物理学，38（2）：915-931，2011年。50[3] Shekoofeh Azizi，Basil Mustafa，Fiona Ryan，ZacharyBeaver，Jan Freyberg，Jonathan Deaton，Aaron Loh，AlanKart

下载后可阅读完整内容，剩余1页未读，立即下载