自监督预训练中的表示恢复在医学图像上的混合视觉表示学习框架

146 浏览量更新于2023-10-15 收藏 13.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Organ segmentation is an essential step used in many ap-plications, such as diagnostic interventions, treatment plan-ning and delivery. Usually, these image analyses are carriedout by experienced doctors. However, it is time-consumingand labor-intensive, since a 3D CT volume can contain upto hundreds of 2D slices. Therefore, developing robust andaccurate organ segmentation tools is a fundamental need inmedical image analysis. There is a vast volume of work26850自监督预训练中的表示恢复在医学图像上0加利福尼亚大学欧文分校，耶鲁大学0{ xiangyy4, jnaushad, shanlins, khan7, htang6, deyingk, haoyum3, xhx } @uci.edu0chenyu.you@yale.edu0摘要0自监督学习的进展引起了对从无标签图像中提取有效视觉表示的技术的关注。对比学习（CL）通过生成不同视图来训练模型提取一致的特征。最近，掩蔽自编码器（MAE）的成功突出了生成建模在自监督学习中的好处。生成方法将输入编码为紧凑的嵌入，并增强模型恢复原始输入的能力。然而，在我们的实验中，我们发现普通的MAE主要恢复粗糙的高级语义信息，在恢复详细的低级信息方面不足。我们表明，在像多器官分割这样的密集下游预测任务中，直接应用MAE并不理想。因此，我们提出了RepRec，一种用于大规模无标签医学数据集的自监督预训练的混合视觉表示学习框架，它充分利用了对比和生成建模的优势。为了解决MAE遇到的问题，我们预训练了一个卷积编码器以提供低级特征信息，以对比的方式；并预训练了一个Transformer编码器，以生成的方式从卷积编码器中恢复掩蔽表示。在三个多器官分割数据集上的大量实验证明了我们方法优于当前最先进的方法。01. 引言0使用计算机断层扫描（CT）[41, 27, 56,55]或磁共振（MR）[54, 31,32]图像进行器官分割。传统的分割方法大多是基于图谱的。这些方法依赖于一组具有手动分割的准确图像模板，然后使用图像配准将新图像与模板对齐。然而，这些方法可能无法充分考虑由于器官形状变化、组织去除、肿瘤生长和图像获取差异而引起的解剖变异。基于深度学习的方法提供了一种替代方案，可以显著提高准确性和速度，已在许多应用中证明有效，如检测[40]、分割[41, 22]、配准[42, 24,23]、姿态估计[28, 13,29]等。随着深度学习的最新进展，使用计算机视觉算法进行自动分割已经显示出巨大的潜力。各种应用已经在临床实践中部署。然而，为了训练基于深度学习的器官分割模型，通常需要大量密集标注的图像，但准备大规模标记数据集既昂贵又耗时。随着Transformers的兴起，这一要求变得更加紧迫[17, 1, 34,33]。解决上述问题的一个有希望的解决方案是自监督表示学习，该方法在自然语言处理和计算机视觉领域已经取得了巨大成功，这可能是由于其提取通用和可转移特征的潜力，适用于各种下游任务。与使用手动注释作为学习目标的监督学习相比，自监督学习的关键在于设计某种类型的预训练任务，以便提取的特征满足无注释的约束[45]。在计算机视觉中，当前的自监督学习方法可以广泛分为两大类，生成建模和判别建模。在早期，判别性自监督预训练任务被设计为旋转预测[19]、拼图解决[37]和相对补丁位置预测[16]等。最近，26860对比学习属于判别分支，取得了在自监督视觉表示学习方面的巨大成功。对比学习的核心思想是吸引同一图像的不同增强视图，并排斥不同图像的增强视图。基于这一核心思想，提出了MoCo[52]和SimCLR[52]，它们极大地缩小了自监督学习和完全监督学习之间的差距。MoCo[26]和SimCLR[5]的成功凸显了对比学习的好处。最近出现了更先进的技术[8,12, 6, 21, 35, 57,58]。然而，上述预训练策略主要设计用于图像分类和目标检测任务。为了弥合自监督预训练和语义分割、实例分割等密集预测任务之间的差距，王等人提出了密集对比学习（DenseCL）[48]，通过在输入图像的两个视图之间在像素级别上优化一对比（不相似）性损失，实现了自监督学习。在[4]中，Chaitanya等人提出了领域特定的对比损失，这是对比损失的局部版本，用于学习对像素级分割有用的局部区域的独特表示。0生成模型也为自监督预训练提供了一种可行的方法[60, 39,59]。最近，何等人提出了MAE[52]，并通过遮挡输入图像的高比例部分，提出了一个非平凡且有意义的生成自监督任务。在下游任务中，迁移学习的性能超过了监督预训练，并展现了有希望的扩展行为。受到MAE的启发，魏等人提出了MaskFeat[49]，其回归被遮挡内容的梯度直方图（HOG），而不是原始像素。与像素颜色目标相比，HOG在实验结果中具有更少的歧义。梯度归一化处理颜色歧义和梯度纹理歧义的空间分箱[49]。SaGe[45]通过使用编码器将视觉特征提取为紧凑向量，并使用解码器基于紧凑向量恢复原始图像，将判别和生成方法结合在一起。然而，在[49]和我们的实验结果中，回归特征而不是直接恢复原始像素在下游任务中提供了更好的表示。0受到上述讨论的启发，我们提出了RepRec，一种用于大规模无标签医学数据集的自监督预训练的混合视觉表示学习框架，它利用对比阶段来弥补MAE在细粒度信息学习方面的不足。在我们的方法中，卷积编码器以对比的方式进行预训练，提供细粒度的特征提取。随后，变换器编码器以生成的方式进行预训练，通过从卷积编码器中恢复遮罩特征图来产生全局级别的语义依赖性。我们的主要贡献总结如下。0•我们是第一个在医学图像分割任务中利用生成模型和判别模型进行大规模自监督学习的研究。0•我们提出了RepRec，一种新颖的生成机制，用于通过从参数化网络中恢复表示来进行预训练变换器编码器，而不是使用原始图像或手工特征描述符。0•我们在三个多器官分割基准测试上进行了大量实验，并展示了RepRec相对于当前自监督预训练方法的卓越性能。02. 相关工作0自监督预训练方法可以分为两大类：自监督判别学习和自监督生成学习。02.1. 自监督判别性学习0在早期，判别性自监督预训练任务，如旋转预测[20]、拼图解决[38]和相对补丁位置预测[15]，旨在学习高级语义特征。最近，作为自监督判别性学习的一个子类别，对比学习在社区中展示了巨大的潜力。Wu等人提出了Inst-Disc和大规模对比学习的内存库[51]。其主要思想是使用对比损失将查询图像和其相似样本（正样本）拉在一起，并将不同样本（负样本）推开。然而，在InstDisc论文中，由于模型权重和内存库的异步更新，内存库中的特征大多不一致，这损害了对比学习过程[26]。SimCLR[5]提出了一个端到端的对比学习框架，解决了不同关键特征之间的不一致性。然而，由于SimCLR的端到端设计和GPU内存限制，模型无法在单次更新中从大量负样本中学习，这也损害了对比学习过程[26]。He等人提出了MoCo，使用队列结构来维护特征映射，并使用动量编码器缓慢更新关键编码器，这在很大程度上缓解了不同关键特征之间的不一致性，同时模型还可以从队列中的大量负样本中学习。随后的工作中提出了一些新技术，如投影器[6,8]。研究人员还提出了没有负样本的对比学习[21, 9,2]，以及多模态[46]和多视图[44]的对比学习，以及基于ViT[17]的稳定和更大规模的表示学习[12, 3]。̸26870 (a) 原始图像 (b) 掩膜75% (c) 掩膜85% (d) 掩膜95%0图1.香草MAE恢复的原始图像，分别使用75％、85％、95％的掩膜比例。我们展示了即使在原始图像中只有很少的比例（25％、15％，甚至5％）的补丁，MAE也能够恢复高级语义信息，如腹部的边界轮廓，肾脏、脾脏、脊髓等的位置和粗略轮廓。然而，当应用于像多器官分割这样的密集预测任务时，如此丰富的高级信息带来的边际收益很小。这激发了我们填补预训练和下游任务之间的差距的动机。02.2. 自监督生成性学习0在早期，生成性预训练任务，如图像修复[39]和图像上色[59]，被提出用于训练自动编码器进行特征提取。随着BERT在NLP领域越来越受欢迎，研究人员将BERT的思想扩展到计算机视觉领域[1]。最近，He等人提出了MAE[25]，并提出了一个非平凡且有意义的生成性自监督任务，通过屏蔽输入图像的高比例部分。Xie等人提出了SimMIM[53]，也使用了类似的自监督任务。受到MAE的启发，Wei等人提出了MaskFeat[49]，它回归了被屏蔽内容的方向梯度直方图（HOG），而不是原始像素。基于MAE的一系列工作也被提出[7,18]。然而，这些早期的工作都是在原始图像或手工制作的特征上进行屏蔽操作，例如方向梯度直方图（HOG）。我们展示了上述方法恢复的细节信息很少，而这对于像多器官分割这样的密集下游任务是必要的。03. 动机0为了检验香草MAE在多器官分割任务中的可迁移性，我们使用来自[25]的原始设置，在大规模腹部数据集Abdomen-1K[36]上对其进行预训练。按照[25]的协议，使用75％、85％、95％的掩膜比例，图1分别显示了香草MAE恢复的原始图像。我们发现，即使在原始图像中只有很少的比例（25％、15％，甚至5％）的补丁，MAE也能够恢复高级语义信息，如边界轮廓。0整个腹部区域、肾脏、脾脏、脊髓等的位置和粗略轮廓。尽管这种丰富的高级信息在原始论文[25]中在转移到下游分类和检测任务时带来了好处，但在我们评估它在下游的密集预测任务（如多器官分割）时，提供的边际效益很小。见表1。这激励我们弥补预训练和密集下游任务之间的差距。04. 方法论0图2概述了RepRec的流程，包括对比度预训练阶段、生成式预训练阶段和微调阶段。接下来，我们详细介绍每个阶段的细节。04.1. 对比度预训练阶段0在对比度预训练阶段，我们遵循[26]中的对比度协议。在一个批次中，从B个图像中随机选择一个图像xq作为查询样本，其余图像xn∈{x1，x2，...，xB}被视为负键样本，其中n≠q。为了形成一个正键样本xp，对查询样本xq进行弹性变换。然后，通过卷积编码器Ec从xq、xp、xn相应地提取三组特征图fq、fp、fn。使用点积测量相似性，考虑了一种对比度损失函数的形式，称为InfoNCE [47]：0Lc = -log exp (fq ∙ fp/τ) / Bi=1exp (fq ∙ fi/τ),0其中τ是一个温度超参数，参考[50]。𝑥!1Masked 𝑓"#Recovered 𝑓$#………𝑓!"……𝑓#"𝑥#𝑥%𝑓$𝑓%𝑓&𝑓'𝑥#26880对比度预训练阶段生成式预训练阶段微调阶段0对比度损失0均方误差损失0Dice损失0嵌入拉/推力预训练权重随机初始化权重0图2.RepRec框架概述。包括对比度预训练阶段、生成式预训练阶段和微调阶段。在对比度预训练阶段，CNN编码器的权重被初始化以提供密集的空间潜在信息。然后，这些潜在的特征图被分割成补丁，随机采样并转发到ViT编码器。ViT编码器的输出将被重新映射到特征图中的原始位置，并转发到ViT解码器。预训练后，我们在一个具有有限地面实况掩码的小数据集上微调整个模型（右下角），并评估DSC得分。0对比度预训练阶段的设计有两个主要目的。一是提供可学习的特征图，这将在后续的生成式预训练阶段中用作输入。另一个目的是生成不同级别的特征图，这遵循了U-Net[41]模型系列的常见设计。这些特征图将通过跳跃连接在后续的微调阶段中为梯度提供备选路径。04.2. 生成式预训练阶段0与以往通过预测掩码原始图像[25]或手工制作的特征描述符[49]来执行生成式预训练的工作不同，RepRec直接恢复从卷积编码器Ec中提取的可学习表示。与MAE[25]相比，我们不是将图像分成补丁，而是将特征图分成补丁。然后，我们从查询嵌入fq中随机采样一部分补丁，按照均匀分布的方式选择剩余的补丁并掩盖它们，形成掩盖的查询嵌入fqM。为了构建一个非平凡的预训练任务，我们使用高掩码比例（即超过75%）进行随机采样，以消除冗余。然后，ViT编码器Et对剩余的掩码补丁进行编码，其中包括Nt个Transformer块。然后，编码的可见补丁和掩码标记被重新分组并由ViT解码器Dt解码，以输出恢复的嵌入fpR。每个掩码标记[14]都是一个共享的、可学习的向量，表示0表示需要预测的缺失补丁的存在。ViT解码器仅在生成预训练阶段中用于执行图像重建任务（仅使用编码器来生成图像表示以进行进一步的分割任务）。此阶段的损失函数L g计算恢复表示f q 与原始表示f q R之间的均方误差（MSE）。RepRec机制遵循MAE的设计，这意味着掩码补丁被删除，不使用掩码令牌。与[1]相比，它使我们能够仅使用一小部分计算和内存训练大型编码器。此外，RepRec不直接恢复掩码原始图像，而是恢复特征图，这样可以更低地使用计算和内存。04.3. 微调阶段0在前面的预训练阶段，使用大量未标记的图像对卷积编码器E c 和ViT编码器E t进行预训练。在微调阶段，我们只使用有限数量的标记图像x t ∈ { x 1 , x 2 , ..., x T }对模型进行微调，其中T是微调目标数据集的大小。除了E c和E t，还添加了随机初始化的卷积解码器Dc，用于从恢复的表示中预测分割掩码。E c的不同级别的特征图通过跳跃连接与D c的相应层级进行级联，为梯度提供备选路径。Dice损失Ldice =C�cN�ipicgicpicgic + (1 − pic)gic + pic(1 − gic)26890与通常的多器官分割任务一样，应用Dice损失。N是每个小批次中的像素总数，i是每个像素的索引。C表示类的总数。p ic 是第i个像素为类c的预测概率，g ic如果第i个像素为类c则为1，否则为0。整个模型以端到端的方式进行训练。05. 实验05.1. 设置05.1.1 预训练数据集0在对比和生成预训练阶段，我们在Abdomen-1K[36]数据集上对编码器进行预训练。该数据集包含超过1,112个CT扫描，其中包含超过240K个2D切片。CT扫描来自12个医疗中心，包括多相、多厂商和多疾病病例。尽管该数据集提供了肝脏、肾脏、脾脏和胰腺的分割掩码，但在预训练阶段我们忽略这些标签，因为我们遵循自监督协议。05.1.2 微调数据集0在微调阶段，我们对三个数据集进行了大量实验，涉及人体不同区域，以评估预训练模型的可迁移性。ABD-110是来自[43]的腹部数据集，包含110个CT扫描，这些CT扫描是在治疗计划阶段进行的。我们报告了对11个腹部器官（大肠、十二指肠、脊髓、肝脏、脾脏、小肠、胰腺、左肾脏、右肾脏、胃和胆囊）的平均DSC，其中包括1、10、50个训练样例和25个测试样例的随机划分。Thorax-85是来自[10]的胸部数据集，包含85个胸部CT扫描。我们报告了对6个胸部器官（食管、气管、脊髓、左肺、右肺和心脏）的平均DSC，其中包括1、10、50个训练样例和25个测试样例的随机划分。HaN来自[11]，包含120个覆盖头部和颈部区域的CT扫描。我们报告了对28个头部和颈部器官（臂丛神经、脑干、鼻腔收缩肌、左耳、右耳、左眼、右眼、垂体、喉咙、左晶状体、右晶状体、下颌骨、视交叉、左视神经、右视神经、口腔腔、左耳下腺、右耳下腺、脊髓、舌下腺、左颞叶、右颞叶、甲状腺、左颞下颌关节、右颞下颌关节）的平均DSC。0并气管），还有1、10、50个训练案例和25个测试案例的随机拆分。05.1.3 评估指标0我们使用与之前工作[41]相同的评估指标Sørensen-Dice系数（DSC）。DSC衡量了预测掩码mp和真实掩码mg的重叠，并定义为0DSC(mp, mg) = 2 | mp ∪ mg |0| mp | + | mg |0. 5.1.4 实现细节0所有图像都被重新采样，使其具有3D体积的深度、高度和宽度的间距为2.5mm × 1.0mm ×1.0mm。在对比度预训练阶段，我们应用随机调整大小的裁剪，尺寸为224，缩放范围为0.2到1.0；颜色抖动，亮度为0.4，对比度为0.4，饱和度为0.4，色调为0.4；以及随机水平翻转来生成正样本。所有数据增强技术都可以在PyTorch的torchvision包中找到。我们使用带有动量0.9和权重衰减10−4的SGD优化器来训练U-Net[41]编码器Ec，训练200个时期。在生成性预训练阶段，我们使用AdamW [30]优化器，β1 = 0.9，β2 =0.95，训练12个ViT-base[17]编码器Et和4个ViT-base解码器Dt，训练1600个时期。请注意，由于两个原因，我们能够训练如此多的时期。第一个原因是我们利用[25]中的策略，遮盖了大部分输入，并且只对其余部分进行训练。第二个原因是由于RepRec的高效设计，我们只从有限的潜在空间中恢复特征图，而不是从原始像素空间中恢复，这既减少了训练时间，又减少了内存空间。在微调阶段，我们使用带有动量0.9和权重衰减10−4的Adam优化器来端到端地训练整个框架。05.2. 定量结果05.2.1 ABD-110上的结果0表1显示了RepRec在ABD-110上与先前工作的性能比较。我们运行了以下对比自监督预训练算法：MoCo[26]，DenseCL [48]，Domain-Specific[4]；生成性自监督预训练算法：MAE [25]，MaskFeat[49]；以及对比和生成预训练的组合：SaGe[45]。我们还与随机初始化和ImageNet预训练（完全监督）初始化进行了比较。通过比较ABD-110数据集上的DSC分数，我们展示了RepRec在不同的训练集大小| T | =1、10和50上的可扩展性。RepRec提供了Dice分数ImageNet50.0380.4783.3953.7785.7489.4740.7469.5676.8426900ABD-110胸部-85 HaN0方法 | T | =1 | T | =10 | T | =50 | T | =1 | T | =10 | T | =50 | T | =1 | T | =10 | T | =500基准0随机初始化 47.08 74.32 79.64 50.75 84.73 87.66 37.16 55.94 75.450对比损失预训练0He等人 [26] 50.02 81.25 83.20 52.90 86.34 89.42 40.25 67.07 76.680Wang等人 [48] 49.23 81.03 83.86 52.46 86.41 89.12 40.92 59.94 75.120Chaitanya等人 [4] 49.60 81.43 84.23 53.04 87.04 89.61 41.12 65.24 76.750生成损失预训练0He等人 [25] 47.84 77.61 80.70 50.91 84.87 88.78 37.54 64.10 75.040Wei等人 [49] 47.17 76.34 80.94 51.63 84.83 88.99 37.15 67.82 75.700对比和生成方法的组合0Tian等人 [45] 49.90 81.45 84.16 52.22 86.86 89.74 40.78 70.24 77.920我们的 50.31 81.89 84.67 53.97 87.01 90.37 41.99 71.71 77.310表1.提出方法与其他预训练方法（包括对比方法、生成方法和两者的组合）的比较。通过对人体不同部位的三个数据集进行广泛实验，在不同的目标训练大小| T | 上，我们展示了RepRec相对于其他方法的有效性。0在ABD-110数据集上，RepRec分别提供了50.31％、81.89％和84.67％的Dice分数。与随机初始化相比，仅给出1个标记的CT扫描时，仅有0.76％的改进；仅给出10个标记的CT扫描时，仅有3.29％的改进；仅给出50个标记的CT扫描时，仅有1.06％的改进。这再次支持了我们在动机部分的论证。我们的RepRec方法在1、10、50个不同的微调集大小上分别获得了3.23％、7.57％、4.52％的改进。与完全监督的ImageNet预训练相比，RepRec分别提供了0.28％、1.42％和1.28％的改进。05.2.2 Thorax-85上的结果0将Thorax-85数据集上的DSC分数与其他SOTA预训练算法进行比较，我们展示了RepRec的卓越性能，其中|T|=1、10和50。RepRec在ABD-110数据集上提供了53.97％、87.01％和90.37％的Dice分数。与随机初始化相比，仅给出1个标记的CT扫描时，仅有0.16％的改进；仅给出10个标记的CT扫描时，仅有1.61％的改进；仅给出50个标记的CT扫描时，仅有1.12％的改进。这再次支持了我们在动机部分的论证。我们的RepRec方法在1、10、50个不同的微调集大小上分别获得了3.22％、2.28％、2.71％的改进。与Chaitanya等人[4]相比，我们的方法在|T|=1时超过了他们的0.93％，在|T|=50时超过了他们的0.76％，而在|T|=10时，[4]的DSC分数仅比我们高出0.03％。与完全监督的ImageNet预训练相比，RepRec分别提供了0.20％、1.27％和0.9％的改进。0在Thorax-85上的实验表明，即使RepRec是在腹部数据集上进行预训练的，其高度灵活的迁移能力使其能够与其他SOTA方法竞争。05.2.3 HaN上的结果0通过在HaN数据集上进行微调，当|T|=1、10和50时，RepRec分别提供了41.99％、71.71％和77.92％的Dice分数。与随机初始化相比，仅给出1个标记的CT扫描时，仅有3.09％的改进；仅给出10个标记的CT扫描时，仅有11.13％的改进；仅给出50个标记的CT扫描时，仅有1.23％的改进。这再次支持了我们在动机部分的论证。我们的RepRec方法在1、10、50个不同的微调集大小上分别获得了4.83％、15.77％、1.86％的改进。与Tian等人[45]相比，我们的方法在|T|=1时超过了他们的0.93％，在|T|=10时超过了他们的1.47％，而在|T|=50时，[45]的DSC分数仅比我们高出0.61％。与完全监督的ImageNet预训练相比，RepRec分别提供了1.25％、2.15％和0.47％的改进。在HaN和Thorax-85上的实验验证了即使RepRec是在腹部数据集上进行预训练的，它也可以迁移到人体其他部位的数据集上。05.3. 定性结果0在图3中，我们分别展示了ABD-110（第1行和第4行）、Thorax-85（第2行和第5行）和HaN（第3行和第6行）数据集上的可视化分割结果。所有结果都是由使用目标数据集大小|T|=10进行训练的模型提供的。由于表示恢复机制，RepRec展示了其有效性。ney ■.On Thorax-85, every model predicts reasonable masksfor left lung ■, right lung ■, spinal cord ■ and eso ■. Ran-dom initialized, ImageNet, MoCo, Domain-Specific, SaGeand RepRec pretrained models all make false prediction onheart ■. However, in terms of the area of false positive, ourapproach produces the smallest error.On HaN, every model predicts reasonable masks for26910(a) 真实标签 (b) 随机 (c) ImageNet (d) MoCo0(e) 领域特定 (f) SaGe (g) MAE (h) 我们的方法0图3.不同模型在ABD-110（第1行和第4行）、Thorax-85（第2行和第5行）和HaN（第3行和第6行）数据集上提供的定性结果。所有结果都是由使用目标数据集大小|T|=10进行训练的模型提供的。由于表示恢复机制，RepRec相对于其他方法表现出了其有效性（在彩色视图中更好）。0与其他方法相比。05.4.消融研究0例如，在我们的ABD-110数据集示例中，ImageNet、Domain-Specific [4]、SaGe[45]和[25]预训练模型对小肠■进行了错误预测掩码。在SaGe [45]中，肝脏■被小肠■覆盖。MoCo[26]在左侧肾脏上进行了额外的错误预测26920方法随机 MoCo [26] SaGe [45] 我们的0Ec + Dc 74.32 81.25 81.45 N/A Ec + Et + Dc 75.46 81.2981.57 81.890表2.在ABD-110数据集上，RepRec使用不同的解码器提供的DSC分数。所有结果都是由目标数据集大小|T|=10训练的模型提供的。我们将我们的方法与先前的SOTA方法在相同的参数设置下进行比较。我们展示了在相同数量的ViT解码器Dt的额外参数下，RepRec仍然实现了最先进的结果。0方法 4 × ViT + 1 × Conv PUP [61] U-Net (无跳跃连接) U-Net0随机 73.59 73.78 73.99 75.46 RepRec 77.97 79.03 80.07 81.890表3.在ABD-110数据集上，使用相同数量的ViT解码器Dt的额外参数的不同方法的DSC分数。所有结果都是由目标数据集大小|T|=10训练的模型提供的。我们展示了通过增加解码器Dc的规模，微调结果可以明显改善，这与MAE论文中的论点不同。这是因为与自然图像分类和检测任务相比，多器官分割任务具有特殊的密集预测属性。0脑干■和下颌骨■。然而，随机初始化的模型和MoCo[26]对假阳性掩码进行了大量预测。ImageNet和SaGe[45]预训练模型对腮腺■进行了假阳性掩码。05.4.1 ViT编码器Et中额外参数的影响0在表2中，我们以端到端的方式预训练了我们的整个模型（包括卷积编码器Ec、视觉变换编码器Et和卷积解码器Dc），使用了MoCo [26]和SaGe[45]的预训练策略。通过添加额外的视觉变换编码器Et，MoCo [26]和SaGe[45]只能从中获得0.04%和0.12%的益处。我们将我们的方法与先前的SOTA方法在相同的参数设置下进行比较。我们展示了在相同数量的ViT解码器Dt的额外参数下，RepRec仍然实现了最先进的结果。我们验证了RepRec的优越性是通过利用对比学习和生成学习同时处理全局和局部上下文信息的方式，而不是通过添加额外的参数。05.4.2 解码器Dc的选择0在表3中，我们展示了通过增加解码器Dc的规模，微调结果可以明显改善。通过将U-Net解码器和[61]中提到的PUP解码器与简单的4 x ViT + 1 xConv解码器进行比较，RepRec在下游分割任务上分别获得了2.1%和1.06%的改进。这在MAE[25]中并非如此。这表明对于像多器官分割这样的密集下游任务，解码器仍然比分类和目标检测任务起着重要的作用。通过在U-Net[41]中从卷积编码器Ec到卷积解码器Dc添加跳跃连接，随机初始化方法和我们的RepRec的DSC分数分别提高了1.47%和1.82%。这表明0编码器到解码器的跳跃连接在分割任务中也是必不可少的。然而，纯变换器模型（如MAE[25]）无法应用这样的结构，这损害了MAE在多器官分割任务上的性能。05.4.3 香草MAE的局限性0我们在图1中展示了不同掩膜比例下香草MAE模型的恢复结果。香草MAE模型在不同掩膜比例下提供了合理的恢复结果。然而，在微调阶段，表1中的实验结果表明，香草MAE模型在诸如多器官分割之类的密集建模任务中并不具备潜在的可转移能力，即使该模型能够以合理的质量恢复原始图像。06. 结论0在本文中，我们提出了RepRec，一种用于大规模无标签医学数据自监督预训练的混合视觉表示学习框架。RepRec利用了对比和生成建模的优势。定量和定性研究都验证了RepRec在下游多器官分割任务中相对于先前最先进模型的有利能力。总体而言，我们认为所提出的RepRec算法是统一现有的自监督生成方法和判别方法的可行方式。我们希望RepRec能够激发未来的研究，并与其他预训练策略结合起来。除了当前提出的框架之外，还有可能以更统一的方式合并对比分支和判别分支，并以端到端的方式训练整个框架，这是我们将来要研究的。26930参考文献0[1]鲍航博，董立和魏福如。Beit：图像变换器的Bert预训练，2021年。0[2] Mathilde Caron，Ishan Misra，Julien Mairal，PriyaGoyal，Piotr Bojanowski和ArmandJoulin。通过对比聚类分配进行无监督学习的视觉特征。ArXiv，abs/2006.09882，2020年。0[3] Mathilde Caron，Hugo Touvron，Ishan Misra，Herv'eJ'egou，Julien Mairal，Piotr Bojanowski和ArmandJoulin。自监督视觉变换器中的新属性。2021年IEEE/CVF国际计算机视觉会议（ICCV），第9630-9640页，2021年。0[4] Krishna Chaitanya，Ertunc Erdil，Neerav Karani和EnderKonukoglu。在有限注释下对医学图像分割的全局和局部特征进行对比学习。神经信息处理系统的进展，第33卷，2020年。0[5] 陈婷，Simon Kornblith，Mohammad Norouzi和GeoffreyHinton。对视觉表示进行对比学习的简单框架。arXiv预印本arXiv:2002.05709，2020年。0[6] 陈婷，Simon Kornblith，Kevin Swersky，MohammadNorouzi和GeoffreyHinton。大型自监督模型是强大的半监督学习器。arXiv预印本arXiv:2006.10029，2020年。0[7]陈晓康，丁明宇，王晓迪，辛颖，莫申通，王云浩，韩舒敏，罗平，曾刚，王京东。上下文自编码器用于自监督表示学习，2022年。0[8] 陈新磊，范浩琦，RossGirshick和何凯明。通过动量对比学习改进基线，2020年。0[9]陈新磊和何凯明。探索简单的孪生表示学习。2021年IEEE/CVF计算机视觉和模式识别会议（CVPR），第15745-15753页，2021年。0[10]陈旭明，孙山林，白纳日苏，韩坤，刘倩倩，姚胜宇，唐浩，张楚鹏，陆志鹏，黄谦，赵国琦，徐毅，陈廷峰，谢晓辉和刘勇。基于深度学习的全身计算机断层扫描图像器官风险自动分割系统。放射治疗与肿瘤学，160：175-184，2021年7月。0[11] Xuming Chen, Shanlin Sun, Narisu Bai, Kun Han, QianqianLiu, Shengyu Yao, Hao Tang, Chupeng Zhang, Zhipeng Lu,Qian Huang, Guoqi Zhao, Yi Xu, Tingfeng Chen, Xiaohui Xie,and Yong Liu.基于深度学习的全身CT图像放射治疗器官风险自动分割系统.放射治疗与肿瘤学, 160:175-184, 2021年.0[12] Xinlei Chen*, Saining Xie*, and Kaiming He.自我监督视觉转换器训练的实证研究.arXiv预印本arXiv:2104.02057, 2021年.0[13] Yifei Chen, Haoyu Ma, Deying Kong, Xiangyi Yan, JianbaoWu, Wei Fan, and Xiaohui Xie.用于2D手部姿态估计的非参数结构正则化机器. 在0IEEE计算机视觉应用冬季会议, 页码381-390, 2020年.0[14] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. BERT: 深度双向转换器的预训练用于语言理解.在2019年北美计算语言学协会会议: 人类语言技术, 卷1(长论文和短论文)上, 页码4171-4186, 明尼阿波利斯, 明尼苏达州,2019年. 计算语言学协会.0[15] Carl Doersch, Abhinav Gupta, and Alexei A Efros.通过上下文预测进行无监督视觉表示学习.在IEEE国际计算机视觉会议上, 页码1422-1430, 2015年.0[16] Carl Doersch, Abhinav Gupta, and Alexei A. Efros.通过上下文预测进行无监督视觉表示学习, 2016年.0[17] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold,Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby.一幅图像等于16x16个单词: 大规模图像识别的转换器. ICLR,2021年.0[18] Christoph Feichtenhofer, Haoqi Fan, Yanghao Li, andKaiming He. 掩蔽自编码器作为时空学习器, 2022年.0[19] Spyros Gidaris, Praveer Singh, and Nikos Komodakis.通过预测图像旋转进行无监督表示学习.arXiv预印本arXiv:1803.07728, 2018年.0[20] Spyros Gidaris, Praveer Singh, and Nikos Komodakis.通过预测图像旋转进行无监督表示学习, 2018年.0[21] Jean-Bastien Grill, Florian Strub, Florent Altché, CorentinTallec, Pierre H. Richemond, Elena Buchatskaya, Carl Doersch,Bernardo Avila Pires, Zhaohan Daniel Guo, MohammadGheshlaghi Azar, Bilal

下载后可阅读完整内容，剩余1页未读，立即下载