没有合适的资源?快使用搜索试试~ 我知道了~
掩模图像建模方法在3D医学图像分析中的推进作用
1970×掩模图像建模推进三维医学图像分析陈泽凯Devansh Agarwal Kshitij Agarwal Wiem Safta Mariann MicsinaiBalan Kevin BrownBristol Myers Squibb{zekai.chen,devansh.agarwal,kshitij.aggarwal,wiem.safta2,kevin.brown} @bms.com摘要近年来,掩模图像建模(masked image modeling,MIM)因其能够从大量未标记数据中学习而受到广泛关注,并被证明在涉及自然图像的各种视觉任务中是有效的。同时,由于大量的未标记图像以及质量标记的费用和难度,自监督学习在3D医学图像建模中的潜力预计是巨大的。然而,MIM在医学图像上的应用仍然不确定.在本文中,我们证明了掩蔽图像建模方法也可以推进3D医学图像分析,除了自然图像。我们从3D医学图像分割的角度研究了掩蔽图像建模策略如何利用性能作为代表性的下游任务:i)与朴素对比学习相比,掩蔽图像建模方法加速了监督训练的收敛甚至更快(1.40),并最终产生更高的骰子分数; ii)预测具有高掩蔽比和相对较小的片尺寸的原始体素值是用于医学图像建模的非平凡的自监督预文本任务; iii)用于重建的轻量级解码器或投影头设计对于3D医学图像上的掩蔽图像建模是鲁棒的,这加速了训练并降低了成本; iv)最后,我们还研究了MIM方法在不同的实际场景下的有效性,其中应用了不同的图像分辨率和标记数据比率。已验证的代码可在https://github.com/ZEKAICHEN/MIM-Med3D网站。1. 介绍近年来,由于深度学习和硬件计算能力的技术进步,对3D医学图像数据进行分析任务的深度神经网络的需求3D医学体积图像在医疗保健中显示出巨大的潜力,它可以帮助提高诊断的速度和准确性病人的情况。例如,从MRI/CT扫描中正确、快速地发现和测量肿瘤病变对于疾病预防、早期检测和治疗计划优化至关重要,并且还将刺激开发更成功的临床应用,最终改善患者的生活[6]。然而,专家注释的高昂费用经常阻碍使用深度学习方法来利用临床结果的进步。由放射科医师按比例对3D医学图像进行注释是有限的、昂贵的并且产生起来耗时。3D医学成像中的另一个障碍是数据量,由增加的3D图像维度和分辨率驱动,导致显著的处理复杂性。因此,在随机初始化的3D医学图像上训练深度学习模型需要繁重的计算和数据要求。作为一种可行的替代方案,自监督学习[26]从数据本身获得监督信号,最近已被证明可以成功解决对数据的需求,并能够学习输入的可推广的密集表示 在当代方法中,掩蔽信号建模是这样一个学习任务:屏蔽输入信号的子集并试图预测屏蔽的信号。这种范式在NLP中非常成功,因为基于掩蔽语言建模任务的自监督学习算法在很大程度上革命了这门学科[13,39,40,7],证明了像BERT[13]和GPT[39,40,7]这样的巨型模型可以在未标记的文本数据上学习,并适应各种各样的应用。更重要的是,随着Vision Transformers(ViT)[51,15]的引入,使用卷积[27]应用掩码令牌[51,13]并不直观的架构差距不再是障碍。遵循这一理念,基于掩码图像建模(MIM)的最新方法已经证明了其在可扩展视觉模型的定义中的有效性[23,56,2]。尽管取得了这些成就,但基于掩模图像建模的算法在医学成像建模中很少受到关注,并且其适用性尚未得到彻底研究。当然,我们想知道戴面具的人-1971×(a) Simplified architec-ture。(b) MAE架构。(c)SimMIM架构。图1:用于3D医学图像建模的不同自监督学习方法的图示。年龄建模也将促进3D医学成像分析。在这项工作中,我们的目标是从以下尝试来解决这个问题:• 对比学习[5,19,10]已在一些研究中被证明能够学习利用下游任务(如3D分割和分类[47,1,48])的医学图像的通用表示。将掩蔽图像建模与对比学习方法进行比较是值得的(见图1)。1a用于说明)在医学图像上。• 自然图像是原始的、低水平的信号,具有显著的空间冗余度;恢复一些丢失的块可以通过直接复制周围的块来完成,而不需要对对象和风景有什么高层次的了解[23]。大多数背景组织与实体瘤的某些CT/MRI扫描相当,使得模型更难了解病变区域的有用特征。因此,我们评估了几种掩蔽策略(掩蔽块大小和掩蔽比),以确定最有效的方式来促进低层次数据之外的整体理解,同时避免过度关注纹理和材质等特征。• 在实践中,医学图像分析被用于具有不同量的注释数据、可访问的未标记数据、甚至图像分辨率的各种背景中。因此,对我们来说,深入分析这些因素如何影响下游任务的相关性和性能也至关重要。本文研究了如何利用基于掩蔽图像建模的自监督学习来改进3D医学图像分析。它通过在两个真实世界的基准数据集上进行广泛的实验来做到这一点:多器官分割1和脑肿瘤分割[44]。1https://www.synapse.org/#!Synapse:syn3193805/wiki/89480我们的实验结果表明,掩蔽图像建模通过显著加速训练收敛(例如,最多节省1.4的训练成本以达到相同的骰子分数)并最终改善下游性能(例如,在两个分割上都有超过5%的改进,具有简单的训练配方)。2. 相关工作遮罩图像建模。掩蔽图像建模是一种自监督学习方法,通过恢复掩蔽损坏的图像来学习表示。它与NLP中的MLM任务保持一致,但在很长一段DAE[52]是这一领域的开创性工作,将掩蔽作为噪声类型。上下文编码器[37]通过对源图像的大矩形区域进行修补来预测丢失的像素基于Transformers[51]的最新技术[8,15,4]受到NLP成功的推动。iGPT[8]将像素值分组到不同的聚类中,并对未知像素进行分类。ViT研究[15]通过预测图像的平均颜色来研究用于自监督学习BEiT[4]最近使用dVAE网络将像素值标记和预测为离散数字[50,42]。最近,MAE[23]坚持原始像素隐藏的精神它采用了自动编码器和轻量级解码器的设计,进一步降低了训练成本. SimMIM[56]更进一步,用单个线性投影层代替整个解码器,从而产生可比较的结果。data2vec[2]和CAE[11]等方法在潜在表示空间中从可见补丁到掩蔽补丁进行预测,试图使MIM成为自监督学习的通用框架。尽管如此,上述技术仅被示出用于自然图像建模。在这项工作中,我们的目标是调查MIM方法是否也可以推进3D1972图2:TCIA-COVID 19[20]验证集的一次CT扫描结果示例。由于原始图像都是三维体,我们以切片的形式显示重建图像,其中索引号表示深度。对于每个三元组,我们显示了地面实况(左),掩蔽图像(中)和SimMIM[56]重建(右)。 在这种情况下,ViT-Base主干应用于编码器,掩码补丁大小为16(对于所有维度),掩码比为75%,遵循[56]。医学图像分析医学图像分析中的迁移学习。从自然图像的trans-fer学习被广泛用于医学图像分析[31,34],无论图像统计,规模和任务相关特征的差异如何。Raghu等人[41]和[1]表明,ImageNet的迁移学习可以加速医学图像的收敛使用特定领域数据的迁移学习也可以帮助解决领域差异问题。例如,[9,29]表明在来自同一领域的标记数据上进行预训练后性能有所提高。然而,这种策略对于需要收集昂贵且耗时的标记数据的各种医疗场景通常是不切实际的。自我监督学习。自监督学习的早期工作集中在从未标记数据中学习表示,以便低容量分类器可以使用这些嵌入实现高准确性 [14,53,35,57,36,16]。多年来,对比学习[5,19,54,49,24,10]作为最流行和最广泛的自我监督学习策略之一,受到了广泛的关注。 它对两个或多个视图之间的图像相似性和不相似性(或仅相似性[17,12])进行建模,数据增强对于对比和相关方法至关重要。根据之前的几篇文献,自监督学习也已用于医学领域。领域特定的借口任务[46,3,60,59],例如,已经进行了研究,而其他工作[30,25,58,28]则侧重于针对医疗数据定制对比学习。Taleb等人[47],特别是深入研究了3D医学成像的一系列自我监督学习策略。MI-CLe[1]证明了在ImageNet上预训练的模型Tang等人[48]进一步将修复[37]与医学分割的对比学习相结合。虽然所有这些方法在医学成像中已经显示出了希望,但在这一学科中,基于掩蔽图像建模的方法尚未得到实质性的3. 方法掩蔽图像建模方法通常掩蔽输入图像或编码图像令牌的一部分,并鼓励模型重新创建掩蔽区域。许多现存的MIM模型采用编码器-解码器设计,然后是投影头,例如BEiT [4]和MAE [23]。编码器辅助对潜在特征表示进行建模,而解码器辅助对原始图像的响应潜在向量。投影头将编码或解码的嵌入与掩蔽区域处的原始信号子对准。值得注意的是,已经建议以轻量级方式设计解码器组件,以便最小化训练时间。根据我们的经验,轻量级解码器降低了计算复杂度,并提高了编码器因此,虽然编码器1973××××图3:TCIA-COVID 19验证集的另一个CT扫描结果示例如同图2,我们逐层显示对于每个三元组,我们显示了地面实况(左),掩蔽图像(中)和MAE[23]重建(右)。在这种情况下,ViT-Large被应用为编码器骨干,掩码补丁大小为16(对于所有维度),掩码比为75%,遵循[23]。更 为 关 键 ( 只 有 编 码 器 将 被 继 承 用 于 微 调 ) ,SimMIM[56]等方法通过消除具有单个投影层的整个解码器来简化架构。在这项工作中,我们彻底调查的有效性不同MIM模型的三维医学成像数据。以下组件提供了更多详细信息:3.1. 掩蔽策略在ViT[15]之后,图像被划分为规则的非重叠块(例如,的969696 3D卷将被分成216块16个更小的体积),通常被认为是视觉变形器的主要处理单元在先前 的 文 献 中 已 经 提 出 了 多 种 随 机 掩 蔽 方 法 : 1 )InPainting [37]引入了中心区域掩蔽策略; 2)BEiT [4]提出了一种复杂的分块掩蔽策略; 3)最近的方法,如MAE [23]和SimMIM [56],在研究不同的掩蔽斑块大小和掩蔽比时,在斑块级别采用了更直接的均匀随机掩蔽方法(见图2)。图1b和图1c)。许多随机掩蔽方案是基于块的,因为在逐个块的基础上操作掩蔽更方便,其中块是完全可见的正如这些工作所证明的,具有高掩蔽比的均匀随机采样有效地消除了冗余,从而导致不能通过从可见的相邻斑块外推而容易地解决的自我监督任务与此同时,潜在的中心偏见(即。通过均匀分布避免了图像中心附近的更多掩蔽块最后,稀疏输入允许用于开发下面将讨论的有效编码器。在这项工作中,我们还使用随机补丁掩蔽方法的简单性和有效性。3.2. 编码器编码器负责对掩蔽块的潜在特征表示进行建模学习过的编码器应该能够适应广泛的视觉任务。我们在本文中考虑了各种体系结构,包括两种基本的视觉Transformer体 系结 构: vanilla ViT [51, 15]和 Swin-Transformer [32] , 以 及 一 个 注 意 力 视 觉 网 络 VAN[18] , 它 继 承 了 注 意 力 机 制 , 以 获 得 类 似 于 SwinTransformer的分层表示,但使用纯卷积。所有模型都重新实现为3D版本,以适应3D体积数据。我们将这些模型称为ViT3D、SwinTransformer3D和VAN3D。3.3. 解码器对于遵循自动编码器设计来重构图像的方法,解码器获取编码令牌的整个集合,包括1)编码的可见补丁,2)面具代币 每个随机初始化的掩码令牌是一个可学习的向量,联合优化以揭示掩码补丁。绝对位置嵌入[51]或相对位置嵌入[32]也应用于对应于骨干架构的这些掩码令牌。此外,所有被掩蔽的补丁对编码器是不可见的 证明了这一1974××≈×在[23]中,这可以节省更多的计算和内存,同时不会干扰训练。同时,解码器主干独立于编码器主干,编码器主干同样是可选的(见图2)。(见第1b段)。默认情况下,我们遵循[23]并使用另一系列Transformer块进行解码。3.4. 重建目标原始体素值预测。对 于 3D医学图像,通过估计每个掩模标记的原始体素值来重构输入是简单且直观的。体素空间中恢复的图像和原始图像之间的距离可以使用l1损失或l2损失的损失函数来计算此外,损失仅在掩蔽的补丁上计算,防止模型进行自我重建,这可能会主导学习过程并最终阻碍知识学习。值得注意的是,大多数vision Transformer拓扑将对原始图像分辨率进行下采样。对于3D医学图像,96体积分辨率将被下采样为9 ( 即 , 1*9*9*9 768 使 用 ViT-Base ) 和 3 个 使 用SwinTransformer或VAN。因此,对于vanilla ViT,我们应用单个线性投影层将潜在嵌入转换到原始体素空间;对于SwinTransformer和VAN,我们应用两层卷积转置 来 将 压 缩 的 嵌 入 上 采 样 到 原 始 分 辨 率 。 使 用SimMIM[56]和MAE[23]重建TCIA-COVID 19的3D肺部CT扫描,参见图2和图3。分别为。其他预测。许多早期的研究将掩蔽信号转换为聚类或类,而不是原始像素值。例如,iGPT[8]使用k-均值将RGB值划分为512个聚类,并鼓励模型来预测每个像素属于哪个聚类。BEiT[4]采用离散VAE(dVAE)将图像补丁转换为离散令牌。然后,预测目标基于令牌标识。另一方面,医学图像通常是稀疏的,并且体素值不是缩放密集的。用离散类目标代替原始信号可能会丢失细粒度纹理或材料信息。因此,为了简单和鲁棒性,我们在这项工作中专注于预测原始体素值。4. 3D分割我们评估了两个单独的3D分割任务,涉及CT和MRI成像模式的掩蔽图像建模方法。数据集。BTCV2包括30名参与者,他们进行了腹部CT扫描,其中13个器官由口译员2https://www.synapse.org/#!Synapse:syn3193805/wiki/89480图4:MIM预训练如何推进下游监督微调的说明我们比较了监督基线和不同MIM方法在训练步骤中使用不同掩蔽比的验证集上的平均骰子得分掩蔽图像建模预训练可以显著节省训练成本并产生更好的性能。在范德比尔特大学医学中心,在临床放射科医生的监督下进行。前24个卷用于训练,我们报告6个验证卷。BraTS[44]包含387个多模态多部位MRI数据(FLAIR、T1 w、T1 gd、T2 w)的训练集,具有神经胶质瘤分割坏死/活动性肿瘤和水肿的真实标签,用于脑肿瘤分割。此外,我们利用了一个公共数据集TCIA-COVID19[20],该数据集由COVID 19感染患者的未增强胸部CT组成。共收集661例患者的771卷。在消融研究中,我们采用这个额外的未标记数据集进行自我监督学习。由于篇幅所限,有关数据集的更多信息和数据预处理细节,可参阅补充材料。监督基线。UNETR[22]是一种用于医疗分割的U形编码器-解码器架构,采用ViT作为编码器骨干和遵循U-Net[43]设计的它是医学成像分割领域的SOTA模型UNETR-Base代表ViT-Base[15]被用作编码器骨干。我们采用UNETR-B作为消融研究中的默认监督基线。对于 其 他 产 生 网 络 特 征 的 主 干 ( SwinTransformer 和VAN),我们默认采用UPerNet[55]作为下游分割的解码头Dice评分[45]用于评价我们实验中分割的准确性。1975× ×∼方法骨干多器官移植平均。↑表1:多器官分割任务的主要结果。所有模型都是在BTCV和TCIA-COVID 19[20]数据集的组合上进行预训练的。BTCV确认集用于一致的确认。实施设置。所有这些模型都在PyTorch3中实现。我们使用MONAI4进行数据转换和加载。在我们的消融研究中,我们使用ViT-Base[15]作为默认编码器主干。对于器官分割的监督基线,我们采用了4的批量大小,AdamW[33]优化器和0.0003的学习率,权重衰减为0.05(因为基于ViT的架构非常庞大,很容易过拟合),基于高达300个时期的线性预热和余弦退火计划。训练在单个NVIDIA A10G GPU上进行,总共3000个对于脑肿瘤分割,批次大小设置为8,因为训练是在4颗NVIDIA A10G GPU,支持1000次迭代。我们使用100epochs线性预热,优化器设置与器官分割兼容。我们的补充材料提供了更多信息。4.1. 不同方法我们首先评估1)掩蔽图像建模方法与对比学习方法的比较,以及2)使用MAE [23]和Sim-MIM [56]以及传统的对比学习方法- ology Simplified [10],不同的掩蔽图像建模方法相互比较的表现。我们评估了一系列具 有 不 同 网 络 大 小 的 编 码 器 骨 干 , 包 括 纯 视 觉Transformer [15] , Swin Transformer [32] 和 视 觉attentional网络(VAN)[18]。对于MAE,我们使用8层Transformer块和512-d作为解码器;对于SimMIM,我们使用单个线性层作为投影头。我们使用两层卷积转置作为投影头,3https://pytorch.org网站4https://github.com/Project-MONAI方法骨干脑肿瘤Avg. ↑表2:脑肿瘤分割的主要结果。所有模型都在BraTS[44]训练集上进行预训练,无需额外的数据源。预 训 练 和UPerNet[55]用 于 Swin3D 和 VAN3D 中 的 分割。在本研究中,所有其他超参数均设置相同。此外,由于整个3D图像体积通常很难直接加载到GPU中(内存爆炸),因此我们采用了滑动窗口训练策略[38,22,21],其中原始图像被划分为几个(96 9696)小3D窗口。对于所有ViT,默认情况下使用的修补程序大小为16。选项卡. 1证明了掩蔽图像建模方法优于一般的对比学习方法,因为MAE [23]和SimMIM[56]的平均骰子得分约为0.752 0.758,而SimMIM的平均骰子得分约为0.723,脾RKidLKid瘿ESO丽芙StoAORIVC静脉潘抹布滞后辅助核算 基线[22][第15话]0.89020.89260.87690.47630.48910.94470.74750.82070.7730.61750.64420.56630.46990.7084我们的目标ViT3D-L0.89930.90180.88590.48130.49420.95430.75530.82920.78100.62390.65080.57210.47490.7157Swin3D-T[32]0.86380.86610.85080.46220.47460.91660.72550.79630.75000.59920.62520.54960.45600.6874Swin3D-S0.87920.88150.86610.47040.48310.93310.73830.81070.76350.60990.63630.55940.46410.6997Swin3D-B0.88520.88760.87210.47370.48640.93950.74340.81620.76870.61410.64070.56320.46730.7045VAN3D-S[18]0.85720.85950.84440.45870.47110.90980.71980.79040.74440.59460.62040.54540.45250.6822VAN3D-B0.88130.88370.86820.47160.48430.93540.74010.81260.76530.61140.63790.56070.46530.7014[15]第十五届中国国际纺织品展览会0.91100.91350.89740.48750.50070.96690.76500.83990.79120.63200.65940.57950.48100.7249ViT3D-L0.92790.93040.91410.49650.50990.98490.77920.85560.80580.64370.67160.59040.48990.7385[15]第二十三话:0.94880.95020.93410.50660.5210.98630.79690.87420.82480.65890.68680.60520.50100.7534ViT3D-L0.95410.95660.93990.51050.52430.98780.80120.87970.82850.66180.69050.60700.50370.7574[第15话]0.95200.95450.93780.51940.52320.98750.79950.87760.82670.66050.68900.60760.51260.7575ViT3D-L0.95560.95820.94140.52060.53520.98980.80250.88110.82980.66490.69160.60880.50450.7603[32]第三十二话:一个人0.91570.91820.90210.49000.50320.97190.76900.84430.79520.63520.66280.58260.48340.7288Swin3D-S0.93190.93440.91810.49870.51210.98910.78260.85930.80930.64650.67450.59290.49200.7416Swin3D-B0.93870.94130.92480.50230.51590.99630.78830.86560.81520.65120.67940.59730.49560.7471VAN3D-S[18]0.90900.91150.89550.48640.49950.96480.76340.83820.78940.63060.65790.57840.47990.7234TC重量ET辅助核算基线[22][第15话]0.81620.87810.57340.7559我们的目标ViT3D-L0.81780.87980.57450.7574[15]第十五届中国国际纺织品展览会0.83600.89880.58690.7739ViT3D-L0.83130.89440.58420.7699[15]第二十三话:0.86900.93400.61040.8045ViT3D-L0.87230.93850.61300.8079[第15话]0.87340.93940.61030.8077ViT-L0.87380.94010.61410.8093[32]第三十二话:一个人0.84280.90670.59220.7806Swin3D-B0.85560.92050.60130.7924VAN3D-B[18]0.84060.90430.59070.7785VAN3D-L0.85220.91690.59890.78931976××比最佳方法低4.5%。表中BraTS的分割二是遵循类似的模式。掩蔽图像建模方法的平均骰子得分略大于0.80;然而,Simplified[10]获得的骰子值为0.7739,比与Tab相当1.一、另一个值得注意的是,尽管两种MIM技术相似,但SimMIM [56]的性能略优于MAE [23],如两个Tab所示。1和Tab。2. 这种现象的一个解释是,即使编码器没有获得可推广的表示,高效的解码器(甚至是轻量级的解码器)也能够重构原始图像,从而循环地减轻编码器学习更有效的表示的动机。自监督学习的最终目标是学习数据的有效和可推广的表示,而不仅仅是自收敛。相比之下,SimMIM[56]通过完全省略解码器采用了更轻的设计,这推动编码器执行更复杂的重建和学习任务。此外,掩蔽图像建模方法显著提高了训练速度并降低了成本,如图所4.第一章基于SIMMIM的架构可以获得1.76更好的骰子得分在1.3k的训练步骤。此外,基于MIM的方法可以达到0.7的骰子得分,1.4训练时间少于监督基线所需的训练时间。4.2. 掩蔽策略此外,我们研究了不同的掩蔽补丁大小和掩蔽比对自监督学习性能的有效性表1总结了几种MIM技术在微调分割方面的性能。3和Tab。4.第一章现提出以下意见:i)与原始MAE文献[23]一致,我们得出结论,较高的掩蔽比是一项重要的自监督学习工作,它将持续驱动模型构建可有效转移到下游任务的可推广表示。例如,当在多个片大小上使用0.75的掩蔽比时,获得关于多器官分割和脑肿瘤分割任务的最佳骰子分数(例如,0.7183,对于表中的贴片尺寸16。表3中的贴片尺寸24和324). ii)当与SimMIM [56]结合使用时,高掩蔽比与小贴片尺寸相结合同样会导致相对较好的性能,与MAE [23]类似。如Tab所示。3和Tab。4,当斑块大小为16时,模型表现最优,骰子得分分别为0.7249和0.8077iii)然而,随着斑块大小的增加,SimMIM[56]方法对该掩蔽比的敏感性降低。例如,当补丁大小为32时,模型可以获得最高的骰子分数,掩蔽比为0.15,最小的位置为0.15。[23]第二十三话16161616160.150.300.450.600.750.71560.71140.68960.71530.71832424240.150.450.750.64710.71230.72443232320.150.450.750.70650.71840.704816161616160.150.300.450.600.750.71440.72480.72270.72080.7249[56]第二十六话24240.150.450.750.72920.72780.71563232320.150.450.750.74710.72640.7245表3:不同掩蔽贴片尺寸和掩蔽比对多器官分割的消融研究。ViT-B的默认主干用作UNETR编码器。值得注意的是,在这个表中,我们比较了单独在BTCV训练集上进行预训练的模型;不使用其他数据集。可掩蔽比一种假设是医学图像通常是具有大程度空间冗余的原始低电平信号;可以通过直接复制附近的块来执行恢复一些丢失的块,而几乎不需要对象和周围环境的全面知识。单个小的掩蔽块不能充分地掩蔽复杂和交叉的结构或位置,但是大的块尺寸可以能够独立地隐藏更显著的信号因此,对于小块尺寸的高掩蔽比对于大块尺寸的高掩蔽比更关键4.3. 数据vs.决议vs.标记比率在本节中,我们分析结果以解决以下三个问题:i)增加预训练数据量是否会提高下游性能?ii)不同的预训练解决方案如何影响下游知识转移?此外,iii)当使用不同量的标记数据时,掩码图像学习方法如何提高性能所有的训练都在Tab中。5基于MAE[23]架构,其利用ViT-Base/16作为具有75%掩蔽比的主干,如表1中所示。3和Tab。4. 不同标记的比率表明,我们使用了不同比例的抗-方法掩蔽贴片大小掩比骰子得分平均值↑1977(下采样率)[23]第二十三话16161616160.150.300.450.600.750.78640.78540.79020.79650.80452424240.150.450.750.74120.79470.80413232320.150.450.750.78230.78190.804116161616160.150.300.450.600.750.78180.79230.79450.80580.8077[56]第二十六话24240.150.450.750.78520.76540.79823232320.150.450.750.79850.79580.7986表4:不同掩蔽贴片尺寸和掩蔽比对脑肿瘤分割的消融研究同样,预训练数据完全由BraTS数据集本身组成,ViT-B被用作UN-ETR中的编码器主干,用于分割微调。分辨率预训练数据标记比率骰子平均值(2.0x、2.0x、2.0x)COVID-19 + BTCV百分之五十0.6919(2.0x、2.0x、2.0x)COVID-19 + BTCV百分百0.7338(1.5x、1.5x、2.0x)COVID-19 + BTCV百分之五十0.7024(1.5x、1.5x、2.0x)COVID-19 + BTCV百分百0.7534(2.0x、2.0x、2.0x)BTCV百分之五十0.6552(2.0x、2.0x、2.0x)BTCV百分百0.7018(1.5x、1.5x、2.0x)BTCV百分之五十0.6814(1.5x、1.5x、2.0x)BTCV百分百0.7183表5:我们使用MAE[23](p/16和m/75%)作为本消融研究的支柱。模型在各种不同的数据源上进行预训练,并具有不同程度的下采样。然后,预训练的模型在具有不同标记数据比率的多器官分割数据集上进行微调。每个模型都使用相同的BTCV验证集进行验证。定期BTCV CT扫描(例如,50% = 12张图像,100% =24张图像),而6张图像的验证集是一致的。在大多数监督学习情况下,更多的训练数据会提高性能。考虑到大多数医学图像从底层逻辑开始都是相似的,我们问这是否适用于自监督学习的情况,特别是,可以获得多少好处1978→→通过使用MIM进行3D医学分析时预训练数据的大小。我们采用多器官分割作为示例下游任务,并创建两个不同的训练场景:一个使用COVID 19和BTCV数据集,另一个只使用BTCV。选项卡. 5证明了在更丰富的预训练数据上训练的模型优于在更少的预训练数据上训练的模型的恒定趋势(例如,0.7534 0.7183:4.9%的改善,0.7338 0.7018:4.6%的改善)。这一优势在较低的图像分辨率下甚至更明显,因为当仅使用一半标记数据时,0.6919比0.6552高5.6%。在选项卡中。5,我们还探讨了不同的预训练图像分辨率如何直观地说,更高的预训练分辨率应该导致更好的分割结果[1],因为图像包含更多的几何信息。在这里,我们利用不同的下采样率来表示原始信号在每个体积的所有维度上被压缩的程度。具体地说,一个双线性插值函数被用于与MONAI的spacingd变换的conjunc- tion从表中可以看出。5、具有较高分辨率(1.5x,1.5x,2.0x)的预训练模型通常比具有较低分辨率(2.0x,2.0x,2.0x)的预训练模型表现更好。例如,0.7338的骰子分数比使用相同数据源和标记比率但使用更高分辨率预训练的骰子分数低2.7%。在实际情况中,由于标记的高成本,大多数医学图像(诸如CT/MRI扫描)未被注释。然而,公共数据是免费提供和丰富的;上述结果再次说明,在大数据集上进行预训练,然后用小样本进行微调是可行的。它还表明,掩蔽图像学习可以显着提高下游任务的性能在各种情况下。5. 结论本文通过对两个样本分割任务进行广泛的实验,演示了自监督学习中的掩蔽图像建模方法如何利用3D医学图像建模。我们展示了掩蔽图像建模如何通过加速收敛和显着提高下游任务性能来优于传统的对比学习。我们还展示了如何掩盖图像建模方法可以用来推进3D医学图像建模在各种情况下。然而,几乎所有的医学图像都是弱标记的(例如,少到只有几行文字用于描述)而不是完全不加注释是我们希望在将来进一步研究的一个开放性问题。我们感兴趣的是将自监督学习与具有有限监督信号的监督学习进行比较。方法掩蔽贴片大小掩比骰子得分平均值↑1979引用[1] Shekoofeh Azizi 、 Basil Mustafa 、 Fiona Ryan 、 ZachBeaver 、 Jana von Freyberg 、 Jonathan Deaton 、 AaronLoh 、 Alan Karthikesalingam 、 Simon Kornblith 、 TingChen、Vivek Natarajan和Mohammad Norouzi。大的自监督模型推进了医学图像分类。ICCV,2021年。[2] Alexei Baevski , Wei-Ning Hsu , Qiantong Xu , ArunBabu,Jiatao Gu,and Michael Auli.data2vec:一个语音 、 视 觉 和 语 言 自 监 督 学 习 的 通 用 ArXiv ,abs/2202.03555,2022。[3] 白文佳,陈晨,贾科莫·塔罗尼,段金明,弗洛里安·吉顿,斯蒂芬·埃哈德·彼得森,郭一科,保罗·M·马修斯和丹尼尔·鲁克特。基于解剖位置预测的自监督学习MICCAI,2019年。[4] 包航波,李东,魏福如。Beit:Bert图像转换器的预训练ICLR,2022.[5] 作者:Suzanna Becker,Geoffrey E.辛顿自组织神经网络,发现表面在随机点立体图。Nature,355:161[6] Kaustav Bera , Nathaniel Braman , Amit Gupta ,Vamarahar Velcheti,and Anant Madabhushi.预测癌症-放射学中的放射组学和人工智能Nature Reviews ClinicalOncology,19:132[7] 汤姆湾Brown,Benjamin Mann,Nick Ryder,MelanieSub biah , Jared Kaplan , Prafulla Dhariwal , ArvindNeelakan-tan , Pranav Shyam , Girish Sastry , AmandaAskell , Sand- hini Agarwal , Ariel Herbert-Voss ,Gretchen Krueger , Tom Henighan , Rewon Child ,Aditya Ramesh , Daniel M.Ziegler 、 Jeffrey Wu 、Clemens Winter、Christopher Hesse、Mark Chen、EricSigler、Mateusz Litwin、Scott Gray、Benjamin Chess、Jack Clark、Christopher Berner、Sam McCandlish、AlecRadford、Ilya Sutskever和Dario Amodei。语言模型是很少机会的学习者。在NeurIPS,2020年。[8] Mark Chen , Alec Radford , Jeff Wu , Heewoo Jun ,Prafulla Dhariwal,David Luan,and Ilya Sutskever.从像素生成预训练。在ICML,2020。[9] Sihong Chen,Kai Ma,and Yefeng Zheng. Med3d:用于3D医学图像分析的迁移学习。ArXiv,abs/1904.00625,2019。[10] 陈婷、西蒙·科恩布里斯、穆罕默德·诺鲁齐和葛offrey E.辛顿视觉表征对比学习的一个简单框架。ICML,2020年。[11] Xiaokang Chen , Mingyu Ding , Xiaodi Wang , YingXin,Shentong Mo,Yunhao Wang,Shumin Han,PingLuo,Gang Zeng,and Jingdong Wang.用于自监督表示学习的上下文自动编码器。ArXiv,abs/2202.03026,2022。[12] Xinlei Chen,Kaiming He.探索简单的连体表示学习。CVPR,2021年。[13] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:用于语言理解的深度双向变换器的预训练。在NAACL,2019年。[14] Carl Doersch,Abhinav Kumar Gupta和Alexei A.埃夫罗斯通过上下文预测的无监督视觉表征学习。ICCV,2015年。1980[15] Alexe
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功