文件标题：保留学习重构图像上下文的自监督医学表示学习方法

86 浏览量更新于2023-10-13 收藏 1.44MB PDF 举报

对比学习

自监督学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3499⊙编码器解码器对比去重建--⊙不不不保留学习通过重构不同上下文周宏宇1* 卢驰翔1* 杨思北2韩晓光4余一舟1，3 †1香港大学2上海科技大学3Deepwise AI Lab4香港中文大学（深圳）深圳大数据研究院whuzhouhongyu，gmail.com，yangsb@shanghaitech.edu.cn，hanxiaoguang@cuhk.edu.cn，yizhouy@acm.org摘要保持最大信息量是设计自监督学习方法的原则之一。为了达到这个目的，对比学习采用了一种内隐的方式，即对比图像对。然而，我们认为，简单地使用对比估计保存并不是完全最优的。此外，引入显式解以保留更多的信息是必要的和补充的。从这个角度来看，我们引入保留学习来重建不同的图像上下文，以保留更多的信息，在学习表示。为了克服对比损失，我们提出了用于学习自监督医学表示的保留对比表示学习（PCRL）。PCRL在预训练-微调协议下提供了非常有竞争力的结果，在5个分类/分割任务中大大优于自监督和监督的同行。代码可以在https：//github上找到。com/Luchixiang/PCRL.1. 介绍通常的做法是训练深度神经网络通常需要大量手动标记的数据。这一要求在自然图像中很容易满足，因为劳动力成本和标记难度都是可以接受的。然而，在医学图像分析中，由于目标疾病的稀缺性、患者隐私的保护以及有限的医疗资源，可靠的医学标注通常来自于领域专家的诊断，而这些领域专家的诊断信息很难获取。为了解决这些问题，自监督学习已经被广泛采用作为一种实用的学习方法。*前两位作者贡献相同。†通讯作者。1 0 1 0 1 0 0图1：所提出的方法的概念说明。GO代表将特征图转换为特征向量的全局操作。蓝色特征向量来自动量编码器。vec（）表示其指示符向量包含一组变换函数。vec（）中的每个分量都是1或0，表示是否应用相应的转换。代表一个通道式乘法运算。一种学习医学图像表示而无需手动注释的方法如今，对比表征学习已在医学图像分析中得到广泛应用并取得了显著成功对比学习的目标是通过对比医学图像对来学习不变表示，这可以被视为一种隐式的方式来保持最大信息。尽管如此，我们认为除了对比损失之外，明确地保留更多的信息仍然是有益的和补充的。为了实现这个目标，一个直观的解决方案是使用学习的表示来重建原始输入，使得这些表示可以保留与输入密切相关的信息然而，我们发现，直接添加一个普通的重建分支恢复原始输入不会显着提高学习表示。为了解决这个问题，我们引入了保留对比表征学习，使用从对比损失中学习到的表征来重建不同的上下文3500不X如图1所示，我们试图将不同的主要动机是将更多的信息编码到学习的表征中。具体来说，我们引入了转换条件注意和跨模型混淆来丰富表征所携带的信息第一个模块根据注意力机制将转换指示向量（图1中的vec（））嵌入到高级特征图中。该网络以嵌入向量为基础，要求在输入固定的情况下，动态重构不同的图像目标跨模型混合被开发为通过混合普通编码器和动量编码器的特征图来我们表明，这两个模块可以帮助编码更多的信息，并产生更强的代表性相比，只使用对比学习。除了学习算法之外，本文还解决了使用未标记的医学图像进行预训练时的另一个问题，即缺乏对不同自监督学习方法的公平和彻底的比较。在本文中，我们设计了大量的实验来分析不同算法在不同数据集和数据模态上的性能。总的来说，本文的贡献可以概括为三个方面：• 保留性对比表征学习通过重构不同的语境，将更多的信息编码到从对比损失中习得的表征中。• 为了恢复不同的图像，我们提出了两个模块：Transformation-conditioned Attention和Cross-modelMixup构建了一个用于自监督学习的三重编码器，单解码器架构。• 大量的实验和分析表明，所提出的PCRL在5个分类/分割任务中具有明显的优势，优于自监督和监督同行的实质性和显着的利润率。2. 相关工作在本节中，我们主要回顾基于深度模型的自监督学习方法和混合策略。请注意，对于自监督学习，我们只列出了基于借口任务的最相关的任务，忽略了基于聚类的方法[4，47]和基于视频的表示学习[38，39，28，40]。自然图像中基于预文本的自监督学习。基于预文本的方法依赖于预测与变换协变的输入图像位置[14，24]、旋转度[17，14]、对象颜色[23，46]、对象数量[25]和应用的变换函数[30]。基于对比估计的方法还利用借口任务通过对比图像对来学习不变表示[43，26，10，5，20，48]。最近，有一些工作试图消除对比学习中的负对[18，12]。通过比较，我们的方法遵循不同的原则，即使表示能够完全描述其来源（即，对应的输入图像）。医学图像分析中的自监督学习。在对比学习之前，解决拼图问题[54，53，35]和重建受损图像[9，52]是医学图像中基于预文本的方法的两个主要主题。除此之外，Xieet al. [44]引入了用于核图像中的自监督学习的三重丢失。Haghighi等人[19]通过附加分类分支以将高级特征分类为不同的解剖模式来改进[52]。对于对比学习，Zhouet al. [51]应用对比度损失的2D射线照片。类似的想法也出现在few-shot[49]半监督学习[50]。Taleb等人[34]提出了利用3D医学图像的3D对比预测编码。有两个作品[16，8]与我们最相关。 Feng等人[16]结果表明，重建部分图像的过程显示出与采用对比度损失的过程类似的Chakraborty等人[8]引入去噪自动编码器来捕获潜在空间表示。然而，这两种方法都未能提高对比学习与上下文重建，而我们的方法在这方面取得了成功。医学成像中的混淆混合[45]作为一种增强策略，已广泛用于医学成像[27，7，22，15，2，37]。提出的跨模型混合与流形混合最相关[36，22，2]。然而，据我们所知，以前没有将流形混合应用于跨模型表示的方法，这正是我们的CROSS-模型混合的核心贡献。3. 方法图2提供了保留对比表征学习（PCRL）的概述。通常，PCRL包含三个不同的编码器和一个共享的解码器。编码器和解码器通过类似U-Net的架构连接。我们首先应用指数移动平均的普通编码器的参数产生的动量编码器。然后，对于每个输入，我们将跨模型混合应用于两个编码器给定一批图像，我们首先应用随机裁剪、随机翻转和随机旋转生成三批图像35010��×1��×1FCFC1��×1×1×1��×1×1×1变平乙状10⊗FC1编码器3×3×3转换⨀00��×��×��×��×��×��×��--XTT不HT X⊙⊗∈不TT联系我们OMHOM队列存储对比存储的造影剂对比度对比损失存储MSE损失MSE损失共享共享⊙GO ⊙ GO⊙一.+ O.+ B.一.+ O.+ B.普通编码器C. + F. + R.C. + F. + R.动量编码器混合编码器解码器跨模型混淆图2：拟议框架概述。PCRL采用类似U-Net的架构来学习表示。对于编码器和解码器，为了更好地演示，我们绘制了它们的特征图。混合编码器不需要输入图像，因为它由来自普通编码器和动量编码器的混合特征图组成。C.的方法，F.、R.，一、O.，B. 分别是随机裁剪、随机翻转、随机旋转、图像修复、图像去除和高斯模糊的缩写。NCE是noise-contrast estimation的缩写GO代表全局操作，包括全局平均池化和完全池化。连接层。v_ec（·）表示指示符v_ec_r。T{o，m，h}（·）表示用于不同编码器的一组变换函数⊙表示通道乘法。为了简单起见，我们不绘制跳过连接。X1、X1和X1分别用于三个不同的编码器然后，我们应用低级处理操作，包括补画、外画和高斯模糊以生成最终输入2{o，m，h} 不同的en-程序员在每个训练步骤中，我们随机生成三组变换（包括翻转和旋转）：不，m和h（更多细节请参考第3.1节），并将它们编码到每个编码器的最后一个卷积层中。 MSE（均方）的地面实况目标误差）损失分别为T0（X1），Tm（X1）图3：我们的转换条件注意力模型。F. 和R. 分别代表翻转和旋转。和h（1），对应于不同的编码器。对于PCRL中的对比学习，我们引入了噪声对比估计，其将过去的表示存储在队列中[20]，然后将对比损失应用于正图像对和负图像对。3.1. 转换条件注意在本节中，我们提出了转换条件注意（TransAtt），使重建不同的该模块根据注意机制将转换向量编码为高级表示。这样的过程可以迫使编码器在学习的表示中保留更多信息。如图3所示，对于每个输入，指示符向量包含不同转换的组合具体地，给定3D输入（CT和MRI扫描），指示符向量具有表示不同变换策略的7个分量（参见图1）。见图3）。对于2D输入（例如X射线），变换的数量减少到6，其中F.（z）不存在。每个组件包含一个指示符函数（1或0），表示特定变换是否x、y、z表示轴。0、90°、180°、270°表示旋转度。vec（）表示其下标为简单起见而省略的指示符向量。意味着外积表示逐通道乘法。请注意，上图演示了每个输入为3D时的对于2D输入，没有F。（z）在指示符向量中。对于2D和3D输入，旋转仅应用于xy平面。是否适用。为了将指示向量编码为高级特征图，我们提出了一种注意力机制，其中我们假设特征图的不同通道可能对重建结果产生不同的影响。注意，TransAtt仅应用于每个编码器的最后一为了模拟这样的过程，我们首先将指示符向量vec（）转发到两个全连接（ FC ）层，这产生向量fpRC×1。同时，我们对每个编码器的高级特征图应用全局平均池化重建AvgPool3502F∈∈∈L··--··F∈FFF11HHOMHF哦哦OOJHOXM1 11霍姆∈{}FF∼lRC×D×H×W1得到向量f lRC×1，其中l表示层索引。然后，我们计算f p和f l的外积：M=fp fl，（1）MRC×C。接下来，我们将M展平并将其转发到另一个全连接层：3.3.损失函数和模型更新为了存储用于对比的过去特征，我们采用队列K=k1，…[20][21][22][23][24] K的长度是N。在对比学习中，我们将队列K中的所有特征视为负样本。在这里，我们使用g〇（）和gm（）来分别表示普通编码器和动量编码器的投影器。对比损耗c可以用公式表示为：fq=ReLU（Wθ flat. （M））、（2）exp（[g（Fl+1）]Tg（F1+ 1）/τ）Lc=−logΣN其中Wθ ∈RC×C2 代表的权重参数exp（[g（Fl+1）]Tk /τ），（7）FC层。为了执行重新缩放，我们进一步附加一个sigmoid函数到fq：其中τ是温度超参数。go（）和gm（）包含全局平均池化和两个FC层，悬而未决地在每次训练迭代之后，我们推g〇（Fl+1），fw=sigmoid（fq），（3）l+1Ol+1其中f wRC×1×1×1。最后，我们在l和f w之间应用通道乘法，并附加一个卷积层，其内核大小为3：Fl+1= conv（Fl<$fw），（4）其中Fl+1∈RC×D×H×W.3.2.跨模型混淆g m（m）和g h（h）与K作进一步对比的阴性样本。对于重建不同的上下文，我们使用均方误差（MSE）作为默认的重建损失。形式上，如果我们将共享解码器网络表示为Dθ，考虑到整个网络具有类似U-Net的架构，解码器{o，m，h}3。重建损失的计算可以总结如下：Lp=MSE（Dθ（Fo），To（X））+ MSE（Dθ（Fm），Tm（X））除了TransAtt之外，我们还引入了交叉模型混合（CrossMixup），用于在或O+MSE（D θ（Fh），Th（X 1））.M（八）以实现更多样化的恢复。不同于传统的mixup [45]，它适用于网络输入，我们提出混合来自两个不同模型的特征图来构建一个新的混合编码器。因此，混合编码器的重构目标是混合输入1。在实践中，对于每个训练迭代，X=λX+（1 −λ）X，（5）其中λBeta（α，α），α是超参数2。对于网络特征图，我们使用i来表示普通编码器的层i处的特征图，i1，… L. 类似地，i和i分别代表动量编码器和混合编码器中相同位置处的特征图。因此，跨模型表示混合的过程可以被公式化为：Fi=λFi+（1 −λ）Fi。（六）与一个共享解码器一起，我们可以直接使用F{1，…1}来重构Th（X1）。j=13503{}FLL最后，我们将c和p总结为具有相等权重（0.5到0.5）的完全损失函数。对于网络参数，我们将普通编码器和动量编码器的参数分别记为θo和θm。我们使用指数移动平均（EMA）因子β更新θm：θ m= βθ m+（1 − β）θ o。（九）注意，混合编码器没有编码器参数，因为它直接采用来自普通编码器和动量编码器的特征图的组合。然后将混合的特征图视为共享解码器的输入，如等式8所示。4. 实验在本节中，我们首先进行消融研究，以证明TransAtt和CrossMix的优势。然后，我们介绍了一个深入的分析不同的自监督算法从不同的方面。对于所有任务，我们采用源数据集→目标数据集的符号。源H H数据集用于自我监督预训练，而tar-1这里我们省略下标 o，m，h这意味L可以表示来自不同编码器的特征图。2在原始的混合文件中使用Beta分布。get dataset用于监督微调。3我们省略上标{1，…，l+1}。3504→4.1. 基线对于医学预培训方法，我们将其分为两类：2D和3D，简单地基于它们的输入尺寸（例如，X射线是2D，而CT扫描是3D）。对于2D图像预训练，我们的基线包括从头开始训练（ TS ）， ImageNet预训练（IN），模型生成（MG）[52]，语义生成（SG）[19]和比较学习（C2L）[51]。在这里，我们忽略了[44]中提出的方法，该方法对核的数量进行了预先假设，并且不适用于其他数据集。对于3D体积预训练，我们还包括从头开始训练（TS）、模型生成（MG）、语义生成（SG）和3D-CPC [34]。此外，包括Cube++[35]，因为它是Rubik's Cube [54]和Rubik's Cube+ [53]的改进版本4.2. 数据集在2D任务中，我们在两个X射线数据集上进行实验我们使用Chest14进行2D预训练和2D微调，而CheXpert仅用于预训练，因为CheXpert包含许多不确定的标签。2D任务中的评估指标是AUC。为了评估算法在3D体积上的性能，我们在CT和MRI数据集上进行了实验，包括LUNA [32]，BraTS [1]和LiTS [3]。我们使用LUNA进行3D预训练和3D微调。LUNA上的微调的评估度量是AUC。BraTS仅用于监督微调，以测试[52]之后的跨模态可转移性。LiTS主要用于肝脏分割的3D微调。分割的评价指标在实践中，我们将每个数据集分为训练集、验证集和测试集。预训练数据总是来自训练集（没有标签）。详情请参阅补充材料。4.3. 实现细节我们使用2D U-Net [31]和3D U-Net [13]作为2D和3D任务的骨干网络，其中我们用ResNet-18替换2D U-Net中的编码器。更新动量编码器的EMA因子β被设置为0.99。对于自监督预训练，我们采用动量SGD作为默认优化器，其初始学习速率设置为1 e-3，而动量值设置为0.9。我们采用余弦退火策略来降低学习率，并在验证损失在30个epochs内没有变化时停止训练。保存具有最低验证丢失值的检查点以进行微调。对于监督微调，我们使用Adam作为优化器，1 e-4作为初始学习率。与预训练类似，我们依赖于验证损失来确定何时结束训练阶段，并且我们保存具有最低验证损失值的检查点用于测试。骰子丢失用于分割任务，而交叉方法前置任务旋转[17]位置[14]反损失85.582.3反损失+自我重建。87.984.5ContraLoss + TransAtt（翻转）89.286.4ContraLoss + TransAtt91.089.3ContraLoss + CrossMix90.588.3PCRL（所有模块）93.291.6表1：我们的方法是否包含更多信息的调查。对比损失（Contrast Loss）是对比损失的意思。自我侦查表示在没有任何变化的情况下重建输入图像的自重建。Acc.代表分类精度。TransAtt（Flip）表示TransAtt中的指示符函数仅包含翻转操作。反损失71.774.8反损失+自我重建。72.575.4ContraLoss + RotNet72.375.2ContraLoss + TransAtt（翻转）73.576.6ContraLoss + TransAtt74.477.4对比损失+交叉混合（α=0.5）73.376.1对比损失+交叉混合（α=1）73.776.6PCRL（所有模块）76.278.8表2：不同模块组合的研究。在Chest14 Chest14中，9：1表明我们使用90%的数据进行自我监督预训练，而其余10%用于微调。RotNet代表我们取代自我侦察。旋转预测的任务。熵被用于分类任务。对于基线中的其他超参数，我们只需遵循其官方论文中的选择在等式5和等式6中，α被设置为1（对于λ）。实际上，我们将等式7中的softmax函数的温度因子τ设置为0.2对于每个实验，我们重复三次，并报告其平均结果。更多细节见所附补充材料。4.4. 消融研究在本节中，我们主要研究两个问题：1）所提出的方法是否比对比学习保留更多的信息（表1），以及2）所保留的信息是否导致改进的性能（表2）。在表2中，我们在Chest14上进行了实验，以研究不同模块组合的有效性，其中我们将数据集的不同比例作为有监督微调的标记数据，而其余部分则用作自监督预训练的未标记数据。保留学习为表征带来了更多的信息。在表1中，我们表明重建方法Chest14→ Chest14九点一刻八点二3505→→×胸部14胸部14LunaLuna(a) 2D任务：使用Chest14或CheXpert进行(b) 3D任务：使用LUNA进行图4：不同方法的比较。在（a）中，我们报告2D任务的结果。在（b）中，显示3D任务的结果。Chest14 Chest14和LUNA LUNA中的比率代表未标记数据量（用于预训练）与标记数据量（用于微调）的比值。在其他任务中，比率表示用于预训练的源数据集的数据量。对于LiTS的实验，我们报告了肝脏分割的骰子分数对于BraTS，我们计算整个肿瘤、肿瘤核心和增强肿瘤的平均切片我们还报告了每个比率的最佳和次佳结果之间的p值，以证明PCRL的显著性。不同的语境确实会在习得表征中带来更多的信息。我们引入两个借口任务：预测旋转度[17]和图像块[14]之间的相对位置，以评估表示中的信息量。在实践中，我们将预训练的模型固定为特征提取器，并对最后一个完全连接的层进行微调，以用于借口任务。请注意，我们直接使用CheXpert中的预训练模型，并使用Chest14执行借口任务。具体地，当预测两个图像块之间的相对位置时，我们首先将原始输入图像划分为14个14块。然后，我们提取相邻的图像块，并将位置预测问题形式化为8类分类问题（顶部，左上，右上，左，右，左下，底部，右下）。类似地，在预测旋转度时，我们手动将每个输入图像旋转特定的度，并训练网络来预测这个度，这也可以转换为[17]之后的分类问题。我们将分类结果显示在表1中。这是显而易见的，ContraLoss + Self-Recons。已经可以比仅通过保留从简单地重建原始输入图像获得的更多信息而使用ContraLoss 执行得更好。更重要的是，所提出的TransAtt模块优于Self-Recons。通过仅采用翻转操作。与旋转变换一起，TransAtt大大超过了Self-Recons。这表明TransAtt能够保留比重建原始输入图像更多的信息。在应用CrossMix时也可以观察到类似的现象。最后，PCRL实现了比其他方法更高的准确性，再次验证了重建不同的上下文确实有助于保留学习特征中的更多信息。保留的信息带来更好的性能。我们在表2中报告了不同模块组合的性能，其中我们可以观察到与表1中类似的趋势。很明显，借口任务的结果与Chest14的表现密切相关。换句话说，给定一个方法，我们可以依靠它在两个借口任务上的表现来大致预测它在Chest14中的表现。考虑到在两个借口任务上的表现可以反映学习表征中的信息量，我们可以很容易地得出结论：重建不同的上下文引入了更多的信息，这有助于提高算法的整体性能。从表2中，我们可以很容易地发现，添加一个自重构分支只会带来相对于基线模型的边际改进。当我们替换Self-Recons时，也可以观察到类似的现象。[17]第17话这些结果表明，对比损失已经捕获了简单借口任务的信息，而无需直接执行这些任务。事实上，自我反省。性能优于RotNet表明图像重建可以比RotNet保留更多的信息。对于 TransAtt ，通过比较 TransAtt（Flip）和TransAtt，我们方法CheXpert→ Chest14九点五：零点五九比一8→：2七比三六比四百分之十百分之二十百分之三十百分之四十百分之五十百分之六十百分百TS61.868.171.573.475.468.171.573.475.477.579.180.9在70.573.675.376.978.073.576.378.479.079.579.781.0MG66.470.073.976.177.370.173.975.576.577.679.380.8SG66.570.274.376.777.669.773.875.677.377.379.681.3C2l71.774.176.477.579.073.177.078.579.179.880.281.5PCRL74.176.278.879.079.975.877.679.880.881.281.783.1p值5.2e-49.6e-42e-31.8e-32.3e-32.4e-38.1e-42.4e-33.5e-45.6e-43.6e-32.7e-3方法LUNA→ LiTSLUNA→ BraTS九比一八点二分→七比三六比四百分之十百分之二十百分之三十百分之四十百分百百分之十百分之二十百分之三十百分之四十百分百TS78.483.085.787.571.177.284.187.390.766.672.776.777.181.5MG80.285.087.590.373.379.584.387.991.369.675.579.680.482.4魔方++81.485.287.990.074.279.384.588.291.869.074.979.379.782.2SG79.384.587.990.573.879.385.588.291.470.375.679.180.882.3三维CPC80.285.288.390.674.880.285.688.991.970.175.979.481.282.9PCRL84.487.589.892.277.383.587.890.193.771.677.681.183.385.0p值7.5e-41.5e-32.1e-31.9e-32e-31.7e-39e-42.5e-32.4e-48.4e-43.5e-35.7e-32.5e-32.4e-33506→→→TS（77.6）SG（86.1）Cube++（86.4）3D-CPC（87.8）PCRL（90.7）GTTS（86.2）SG（89.6）Cube++（90.5）3D-CPC（90.8）PCRL（92.5）GTTS（81.7）SG（85.3）Cube++（87.4）3D-CPC（87.5）PCRL（89.6）GTTS（65.5）SG（59.5）Cube++（63.9）3D-CPC（65.4）PCRL（71.2）GT图5：在LiTS和BraTS上进行微调时分割结果的可视化分析。对于每个数据集，我们提供了两种情况，其中我们使用不同的自监督预训练方法报告骰子得分。具体地，在LiTS中，目标是分割肝脏。在BraTS中，我们仅显示WT的结果我们忽略MG，因为SG是建立在MG之上的发现添加旋转变换可以明显提高整体性能。这与表1中的结果一致，其中TransAtt在两个借口任务上也比TransAtt（Flip）执行得更好。我们还研究了CrossMix中超参数α的影响。观察结果是，通过将其值减少一半，整体性能略有下降。配备TransAtt和CrossMix，PCRL 可以在不同的标记比率中超过基线模型ContraLoss约4个点。此外，我们发现在10%时改善最这一现象表明，当标记数据量较小时，重建不同的上下文更有用4.5. 与2D任务中最先进技术的比较在这一部分中，我们评估了各种自监督预训练方法在2个不同的2D任务上的性能：Chest14和CheXpertChest14。所有结果显示在表4a中。如果我们看看Chest 14 → Chest 14的结果，很明显-所有预训练方法（包括IN）与TS相比都能明显提高我们可以看到，MG和SG在不同的比例下实现了相似的性能这种比较很容易解释，因为SG是建立在MG之上的。然而，MG和SG仍然不能超过IN，特别是当标记数据量有限时，这表明在大规模自然图像数据集上进行预训练可以使医学图像分析受益匪浅。对于C2L，我们发现C2L是唯一能够在不同比例上超过IN的基线方法当我们将PCRL与其他基线算法进行比较时，很容易发现PCRL具有在各种比率下显著优于不同基线的能力。特别地，PCRL似乎在小标记比率中具有更多优势。潜在的原因可能是TransAtt和CrossMix可能有助于学习更多样化的表示，并缓解在有限监督下训练深度神经网络的过拟合问题。在CheXpert Chest14中，我们可以看到，当标记比例为LiTS兔崽Case2Case1Case2Case13507→→→ →→方法#. 时代城市景观CocoSimCLR [9]100075.639.6SwAV [4]40076.0-MoCov2[11]80076.340.5PCRL80077.341.3表3：自然图像中的结果。我们将ImageNet-1 k上的自监督预训练模型转移到下游任务，包括分割（Cityscapes）和检测（COCO）。在Cityscapes上，我们使用ResNet-50作为主干来构建FCN分割模型，其中评估度量为mIoU。在COCO上，我们使用Detectron 2[42]的ResNet-50- FPN模型，评估指标为mAP（0.5：0.05：0.95）。等于或大于50%，表明纯粹基于借口的方法在不同的标记比率下可能具有不稳定的性能。如果我们看看C2L，我们可以发现C2L在几乎所有比率上都始终优于IN和其他预训练方法。有些令人惊讶的是，我们发现，PCRL仍然可以超过C2L和IN一个显着的利润率，即使标记的比例是100%。这种比较进一步证明了PCRL的稳健性。4.6. 与3D任务中最先进技术的比较除了2D任务，我们还分析了3D自监督学习方法在3种不同3D任务中的结果：LUNA LUNA、LUNA LiTS和LUNA BraTS，其中所有实验结果示于表4b中。在LUNA LUNA中，有趣的是发现TS和自我监督预训练之间的性能差距小于Chest14。一种解释是结节分类任务对标记数据的量不太敏感在MG、SG、Cube++和3D-CPC中，3D-CPC在大标记比率下给出最好的结果，而Cube++在小标记比率下表现更好。有趣的是，随着标记比例的增加，SG很快赶上了MG和Cube++，显示出它能够利用大量标记图像的能力。同样，我们可以看到PCRL能够在不同的比率上显著优于其他基线。特别是当基线方法显示相似的结果时，随着标记比率变得更大，PCRL仍然可以显示出比以前的自监督预训练方法令人印象深刻的改进，并大大优于TS。在LUNA LiTS中，Cube++的性能略优于MG和SG，而3D-CPC在所有比率中均优于Cube++。相比之下，PCRL具有明显的优势，特别是当标记比率小于或等于50%时当我们将知识从LUNA转移到BraTS时，MG、SG和Cube++表现出相似的性能，在不同的标记比率下都显著超过TS。由于对比学习的优势，3D-CPC再次优于其他基线。与此同时，PCRL再次对...持续且显著地超过先前的基线。我们认为，这种显著的改善可以归因于纳入了不同背景的重建。4.7. 视觉分析在图5中，我们提供了LiTS和BraTS中分割任务的比较视觉分析结果，其中样本是随机选择的。我们可以明显地观察到PCRL比其他基线更好地处理细节。例如，在LiTS的第一示例中，PCRL精确地描绘拐角。在BraTS的第二个例子中，PCRL可以检测孤立的肿瘤区域，而其他方法不能很好地处理这些困难的情况。4.8. 与自然图像分割和检测任务为了研究 PCRL 在自然图像中的性能，我们在ImageNet-1 k上进行预训练任务，并将预训练的模型转移到下游分割和检测任务中。结果显示在表3中。我们可以看到，PCRL在Cityscapes和COCO这两个被广泛采用的分割和检测数据集上的表现都大大优于MoCov2和《都市风景》和《COCO》的卓越表现再次验证了融合多元语境重构的5. 讨论和结论我们表明，通过重建不同的背景下，学习表示使用对比损失可以大大提高在医学图像分析。我们的方法在各种医疗任务和数据集中显示了自我监督学习的积极结果。有些问题值得进一步探讨和验证。例如，保留更多的信息是导致对比损失改善的唯一原因吗？我们希望提出的PCRL可以为现实世界的医学成像任务奠定基础6. 确认本工作及相关项目得到了国家重点研究发展计划（ No.2019YFC0118101 ）、国家自然科学基金（ No.81971616 ）、浙江省重点研究发展计划（ No.2020C03073 ）、国家自然科学基金（No.61931024）和深圳香港中文大学广东省大数据计算重点实验室的部分资助3508引用[1] Spyridon Bakas，Mauricio Reyes，Andras Jakab，StefanBauer ， Markus Rempfler ， Alessandro Crimi ， RussellTakeshi Shinohara，Christoph Berger，Sung Min Ha，Martin Rozy-cki，et al.在BRATS挑战中确定用于脑肿瘤分割，进展评估和总生存预测的最佳机器学习arXiv预印本arXiv：1811.02629，2018。[2] Tariq Bdair Nassir Navab和Shadi Albarqouni。ROAM：医学成像中半监督学习的随机层混合。arXiv预印本arXiv：2003.09439，2020。[3] PatrickBilic ， PatrickFerdinandChrist ， EugeneVorontsov ， Grzegorz Chlebus ， Hao Chen ， Qi Dou ，Chi-Wing Fu，Xiao Han，Pheng-AnnHeng，JürgenHesser，etal.肝脏肿瘤分割基准（LiTS）。arXiv预印本arXiv：1901.04056，2019。[4] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.深度聚类用于视觉特征的无监督在欧洲计算机视觉会议论文集（ECCV）中，第132-149页[5] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。arXiv预印本arXiv：2006.09882，2020。[6] Krishna Chaitanya ，Ertunc Erdil，Neerav Karani， andEnder Konukoglu.有限注释医学图像分割的全局和局部特征对比学习。 arXiv 预印本 arXiv ： 2006.10511 ，2020。[7] KrishnaChaitanya 、 NeeravKarani 、 ChristianFBaumgartner 、 Anton Becker 、 Olivio Donati 和 EnderKonukoglu。半监督和任务驱动的数据增强。在医学成像信息处理国际会议上，第29-41页。Springer，2019年。[8] Souradip Chakraborty 、 Aritra Roy Gosthipaty 和 SayakPaul。G-SimCLR：通过伪标签进行引导投影arXiv预印本arXiv：2009.12007，2020。[9] Liang Chen ， Paul Bentley ， Kensaku Mori ， KazunariMisawa，Michitaka Fujiwara，and Daniel Rueckert.使用图像上下文恢复的医学图像分析的自监督学习。医学图像分析，58：101539，2019。[10] Ting Chen，Simon Kornblith，Mohammad Norouzi，andGeoffrey Hinton.视觉表征对比学习的简单框架。arXiv预印本arXiv：2002.05709，2020。[11] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.使用动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。[12] Xinlei Chen，Kaiming He.探索简单的连体表示学习。arXiv预印本arXiv：2011.10566，2020。[13] O¨zgu¨ nC¨ic¨ek ， AhmedAbdulkadir ， SoerenSLienkamp ，Thomas Brox，and Olaf Ronneberger.3D U-Net：从稀疏注释学习密集体积分割医学图像计算和计算机辅助干预，第424-432页。施普林格，2016年。[14] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的非监督视觉表示学习在IEEE计算机视觉国际会议论文集，第1422-1430页[15] Zach Eaton-Rosen，Felix Bragman，Sebastien Ourselin，and M Jorge Cardoso.改进医学图像分割的数据增强。医学成像与深度学习，2018年。[16] 风泽宇，常旭，大成涛。通过旋转特征解耦的自监督表示学习。在IEEE计算机视觉和模式识别会议论文集，第10364-10374页[17] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的非监督表示学习arXiv预印本arXiv：1803.07728，2018。[18] Jean-BastienGrill ， FlorianStrub ， FlorentAltche´ ，CorentinTallec，PierreHRichemond，ElenaBuchatskaya ， Carl Do- ersch ， Bernardo Avila Pires ，Zhaohan Daniel Guo，Moham- mad Gheshlaghi Azar，etal.引导您自己的潜在：一种新的自我监督学习方法。arXiv预印本arXiv：2006.07733，2020。[19] FatemehHa

下载后可阅读完整内容，剩余1页未读，立即下载