乳腺癌组织病理学图像的自监督学习方法

65 浏览量更新于2023-10-15 收藏 2.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1放大前：乳腺癌组织病理学图像的自监督学习方法Prakash Chandra Chhipa1、Richa Upadhyay1、Gustav Grund Pihlgren1、RajkumarSaini1、Seiichi Uchida2和Marcus Liwicki11Machine Learning Group，EISLAB，LuleaLebruary2009，瑞典2日本福冈九州大学人机界面实验室1first.middle. ltu.se，2uchida@ait.kyushu-u.ac.jp摘要本文提出了一种新的自监督预训练方法，利用放大因子在组织病理学医学图像上学习有效的无标签表示。其他最先进的作品主要集中在严重依赖人类注释的完全监督学习方法上。然而，标记和未标记数据的稀缺性目前，没有标签的表示学习在组织病理学领域仍然是未知的所提出的方法，放大先验对比相似性（MPCS），能够自我监督学习的表示，没有标签的小规模乳腺癌数据集BreakHis通过利用放大因子，诱导转移，并减少人类的先验。当仅20%的标签用于微调时，所提出的方法匹配恶性肿瘤分类中的完全监督学习最先进的性能，并且在三个公共乳腺癌数据集（包括BreakHis）的完全监督学习设置中此外，它提供了初步支持的假设，减少人类优先导致有效的自我监督的表征学习，这将需要进一步的调查。这项工作的实现可以在GitHub1上在线获得。关键词：自监督学习，对比学习，表征学习，乳腺癌，组织病理学图像，迁移学习，医学图像1. 介绍通过分析组织病理学全切片图像（WSI）进行癌症诊断是机器学习中的一个活跃研究领域[33]。1https://github.com/prakashchhipa/放大-优先-自我监督-方法/图1：拟议的方法包括三个步骤：(1)使用监督的ImageNet权重初始化参数。(2)使用所提出的方法放大先验对比相似性对未标记的BreakHis组织病理学图像进行自监督预训练，以通过利用监督信号提供阳性对，例如，从数据中放大，减少人为的先验。(3)在组织病理学图像上进行微调。应用于组织病理学WSI的监督学习方法的挑战是标记数据的稀缺。此外，数字WSI的标签信息也有限，并且不能提供不同放大倍数下受影响区域的详细信息，如数据集BreakHis [52]。通过监督学习学习的表示可能会失败，因为这种方法通常需要大量的标记数据。这可能导致下游任务的性能不佳。使用不需要标签的目标探索小规模组织病理学WSI数据的有效表示学习是一种有前途的方法，因为它需要较少量的标记数据来学习成功的下游模型。这项工作提出了一种新的自监督学习27172718(SSL)基于对比联合嵌入的方法称为放大先验对比相似性（MPCS），以学习没有标签的有效表示。所提出的方法使用放大因子（来自数据的信号）来构建对比相似性的正对。MPCS使用放大因子在小规模数据集上启用SSL这项工作还假设，减少人类诱导的SSL方法的优先增强表征学习。所提出的方法MPCS在BreakHis [52]数据集上对组织病理学WSI进行自我监督预训练，其中两个不同的主干编码器 Efficient-net [55]和dilated ResNet-50 [61]在ImageNet [15]上进行预训练。通过对多个公共数据集e.g. BACH[2]，乳腺癌细胞数据集[18]，包括BreakHis数据集。完整的方法如图1所示。主要贡献如下：1. 通过利用数据先验知识，2. 假设了自监督表示学习中人的先验知识与数据先验知识之间的关系有了上面提到的贡献，这项工作证明了三个公共数据集上下游任务的性能显著提高。它提供了初步的经验支持，1）减少人类先验导致有效的表示学习和2）学习是放大不变的交叉放大评价。2. 相关工作用于组织病理学分析的机器学习的大多数努力都是使用监督学习。然而，当前的监督学习方法在标记数据稀缺时会遇到困难[33]。其他方法，例如伪标签和迁移学习通常与监督学习一起使用，以弥补标记数据的不足。这种方法的例子是第一类的增强[37]和第二类的特征提取和选择[50，58]一个公开的组织病理学图像数据集构成了数据和标签稀缺性的挑战，这就是BreakHis [52]。许多不同的方法已被应用于BreakHis[52]数据集，其中大多数利用卷积神经网络（CNN）结合一种或两种方法来处理上述数据稀缺表1总结了一些此类方法以及BreakHis上使用的一些策略[52]。在本表中，自定义是指采用的专门或新颖方法。简单增强是指旋转、翻转、裁剪、移位和表1：BreakHis数据集使用的方法。工作模型增强额外的训练合奏评价深[51]AlexNet[35]变体没有没有没有5项试验MI[6]定制CNN简单自定义没有5倍GLB[3]TCNN[1]自定义没有没有5倍MIL[53]各种MIL[31]没有没有5项试验A-MIL[42]定制CNN简单没有没有不清楚MRN[24]ResNet[27]变体简单没有没有不清楚[21]第二十一话各种没有没有投票5项试验SM[22]DenseNet[29]简单预训练XGBoost[10]3项试验[23]第二十三话ResNet[27]简单预训练自定义3项试验中文（简体）[48]第四十八话：一个女人没有预训练两个网络5倍RPDB[39]DenseNet[29]简单[45]第四十五话没有5倍CVMIM[7]各种简单预训练没有不清楚MPCs[55]第五十五话简单自定义没有5-折叠分层CV变焦。另一个乳腺癌数据集是BACH[2]，之前在转移学习TL[57]，基于补丁的PT[44]和混合网络HN[60]中的工作显示了性能改进。此外，小规模数据集乳腺癌细胞数据集[18]也正在基于剪切波变换ST [43]和注意力方法ATN [30]和MATN [34]的各种先前工作中评估二进制任务。另一种有效应对早期数据稀缺挑战的学习范式是自我监督学习。来自计算机视觉自监督学习范式的表示学习主要可以分为（ i ）联合嵌入架构 & 方法（JEAM）（[11，20，9，62]），（ii）预测方法（[56，41，17]）和松散的（iii）重建方法（[32，19]）。具体而言，JEAM可以进一步细分，每个细分都提供了许多有趣的作品;（i）对比方法（PIRL [40]、Simplified [11]、SimCLRv 2 [12]、MoCo [26]），(ii)蒸馏（BYOL [20]，SimSiam [13]），（iii）量化（SwAV [9]，DeepCluster [8]）和（iv）信息最大化（Barlow Twins [62]，VICReg [5]）。在这些划分中，这项工作侧重于对比方法。最近，对比JEAM已被定制用于医学图像。数字病理学DPCL的对比学习[14]应用了对比学习，并在乳腺癌数据集中显示出改善[2]。在MICLe[4]中，基于Simplified[11]，通过启用来自同一患者的多个图像实例的输入视图来应用多实例对比学习。组织病理学对比方法的另一项工作是DRL [59]。使用对比JEAM的其他应用是胸部X射线[49，38]，COVID-19的CT扫描[28]，3d- Radiomic [36]和放射照相[63]。在BreakHis数据集上使用对比JEAM的工作是SMSE[54]，它使用对和三重态损失来训练网络。包括JEAM在内的SSL方法需要大规模的数据。因此，在小数据集上应用对比JEAM范式，减少人类对先验的依赖，是这项工作的一个开放的挑战和兴趣。3. 方法这项工作的主要重点是引入一种新的自监督预训练方法，其目的是从没有标签的数据中学习表示，同时使用su-271940100200400㈠㈠--来自数据的透视信号，例如，放大因子和使用ImageNet[15]预训练权重的归纳转移。3.1. 归纳迁移学习鉴于BreakHis[52]是一个小规模和类不平衡的数据集，这项工作假设了通过初始化编码器ImageNet[15]预训练权重进行表示学习的归纳转移的约束情况。在这项工作中，感应转移（i）有助于在恶性肿瘤分类的下游任务上获得改进的性能，以及（ii）能够在小规模数据集上使用所提出的方法进行自我监督的预训练。3.2. 自监督方法-放大先验对比相似性放大先验对比相似性（MPCS）方法制定了自我监督的预训练，以学习微观组织学WSI上的表示，而无需小规模数据上的标签。MPCS的主要目标是降低下游任务所需的标记数据量，以应对监督学习中的挑战。MPCS考虑显微组织病理学WSI（H-WSI）的特征构建不同视图对，用于基于对比相似性的预训练。微观H-WSI结构特性在位置、大小、形状、背景-前景和物体的具体定义方面不同于自然视觉宏观图像[15]（车辆、猫或狗）。与Simplified [11]不同，其中来自输入图像的不同视图对通过以人为中心的增强来构建，MPCS基于来自数据本身的信号使用对采样方法来构建不同视图对，即，BreakHis中的放大因子[52]。来自同一样品的不同放大因子的两个H-WSI形成一对。利用来自数据的先验知识（放大因子）能够对组织病理学H-WSI进行有意义的对比学习，并降低对人类诱导先验知识的依赖性。此外，H-WSI中的肿瘤影响区域的特征在于核的形式和高度异常量。这种受影响的区域是有希望的，在所有的H-WSI的不同放大倍数的相同的样品。因此，受影响的区域是共同的和大小不变的正对样本允许学习对比相似性区域注意。目前的工作还假设预训练方法中减少的人类先验为该方法提供了增强的自由度，这可以增加网络在自监督方法中学习有效表示的潜力。为了研究，三个策略配对抽样制定的基础上诱导人类先验。人类决策的数量定义了配对抽样过程中引入人类先验（HP）的水平。如图3所示，在固定配对中，选择mag-图2：放大先验对比相似度方法解释图3：基于诱导人类先验（HP）的配对采样策略。在所有策略的第一视图和第二视图中增加了防止预训练模式崩溃的措施这两种观点的量化因子都是人为的，因此具有很强的人为优先性。在有序对中，只有第二个视图是由人类使用查找表选择的，这使得人类优先级较在随机配对中，两个视图的人为先验感应和放大因子都是随机采样的。此外，图4展示了该方法的自由度（DoF），其中固定对策略不提供DoF，顺序对提供一个DoF，随机对提供2个DoF。在MPCS中，要生成一批2N个视图，采样批的 N集的输入 X={X （1），X（2），...，X （N）}，其中，输入X（i）=x，x，x，x包含对应于四个放大因子的图像。基于对采样的选择策略，构造了包含来自同一实例的两个不同放大率的视图的正视图对此外，相似性最大化（损失最小化）的目标定义的对比2720--→∈--MF1、MF2TU→在Eq. ①的人。MPCS如图2所示，组件解释如下。图4：方法的诱导人类放大先验（HP）与自由度（DoF）之间的关系• 提出了一种领域特定的人类先验模块Ph（XXMF）：X = x40，x100，x200，x400，它利用了来自数据的超视信号，即放大率，并基于图2的步骤1中所示的配对采样策略，对不同放大率的两个视图XMF=（XMF 1，XMF 2）进行采样以构建配对。• 一种基于均匀随机变换的模块（XMFX<$MF），通过采样增广变换将两个视图从XMF=（xMF1，xMF2）均匀变换为X<$MF=（x<$MF1，x<$MF 2）图2的步骤2中所示的形成方案。• 一种基于神经网络的编码器f（·），它从对的变换视图中产生表示它得到hMF1=f（x<$MF1 ）=encoder-network（x<$MF1）和hMF2=f（x≠MF2）=encoder-网络工作（x≠MF2）其中hMF1，hMF2Rd是在图2的步骤3中所示的相应平均池化层之后的输出。• 小尺度MLP投影头g（·）将表示映射到应用对比度损失的潜在空间，如图2的步骤4所示。具有单个隐藏层的多层感知器，以获得zMF 1= g（hMF1）=W（2）σ（W（1）hMF 1）和zMF 2=g（hMF2 ） =W （ 2 ） σ （ W （ 1 ） hMF 2 ），其中 σ 是ReLU。• 如图2的步骤5所示，为对比预测定义了对比损失函数，来自Simplified的归一化温度标度交叉熵损失（NT-Xent）。如果给定一个集合x_k，该集合x_k包括一对示例x_MF 1和x_MF 2，则对比度预测任务倾向于在xkk=MF1中找到xMF2，1.正对示例（MF1，MF2）的损失函数定义为：4. 实验评价本节通过在三个公共数据集上的实验，研究了所提出的方法MPCS在两个编码器网络上的表示学习能力。4.1. 数据集4.1.1打破他BreakHis[52]数据集由来自82名患者的2，480张良性和5，429张恶性组织病理学显微镜图像组成，放大倍数为4倍（40×、100×、200×、400×）。BreakHis数据集中的每张图像大小为 700×460 ，用苏木精和伊红（HE）染色。在以前的工作中，使用两个评价指标，图像级准确度（ILA）和患者级准确度（PLA）。 PLA显示了患者分类性能，计算为平均值与总数量之比。使用患者评分的患者。患者评分是在患者的图像总数上对患者的图像进行正确分类。ILA忽略患者级别的细节，因此可用作标准图像分类准确度。4.1.2巴赫第二个数据集，乳腺癌组织学图像（BACH）[2]来自ICIAR 2018 Grand Challenge，包含400张组织病理学切片。BACH数据集有四个类别，正常，良性，原位和侵入性。幻灯片尺寸比较大，2048 × 1536像素;因此，大小为512 × 512的块。使用两个评估度量，逐块准确度和逐图像准确度，而逐图像准确度基于对相应图像的块的多数投票来计算。4.1.3乳腺癌细胞数据集第三个数据集，乳腺癌细胞数据集[18]来自加州大学圣巴巴拉分校生物分割基准。该数据集包含58张HE染色组织病理学896x768大小的乳腺组织图像，其中26张为恶性，32张为良性。创建大小为224x224的块，并使用对图像块的多数投票来计算图像准确度4.2. 编码器架构在目前的工作中，所提出的方法MPCS研究了两种不同的CNN编码器架构。ResNet- 50[61]和Efficient-netb2[55]用于预训练和微调。使用特定于SSL的MLP投影头L=−logΣexp（sim（zMF1，zMF2）/τ）1[k=MF1] ，zMF1exp（sim（z对于高效网络b2，是2048-1204的三层网络128个单位，而ResNet-50是最常见的脊椎编码器，使用的投影头改编自Simplified，由方程式（1），其中1[k如果k=i，则计算为1。MF1]∈0，1是一个指标evalu-有1024-128个单位。编码器和投影头的演示图。二、2Nk=1k）/τ）（一）2721→4.3. 训练协议本节分享了预训练和微调中使用的参数配置4.3.1SSL预培训两个编码器的自我监督预训练在BreakHis数据集上进行1000个epoch，温度参数为0。01，学习率1 e-05，以及一组增强，如颜色抖动，翻转和旋转。使用Adam优化器预训练的有效网络b2编码器，批量大小为128，图像输入为（341，341）。然而，ResNet-50采用了自监督实践的标准配置，并使用LARS优化器进行了预训练，批量大小为1024，输入图像大小为224 x224。4.3.2微调两种编码器的数据集之间的常见训练配置是2 e-05的学习率，32的批量大小，224 x224的图像输入，增强，即随机裁剪、翻转、仿射、旋转和颜色抖动，并使用Adam作为优化器。在全连接层中使用0.3的dropout4.4. 实验详情为了保证模型的可靠性和一致性，本工作遵循5交叉验证数据分割方案。这适用于所有三个数据集，其中每个折叠包含20%的数据，遵循整个数据的类分布。五个折叠中的四个用于训练验证，剩下的一个用于测试。因此，报告的所有结果均为平均值和标准差。在上述5-交叉验证设置、两个主干编码器ResNet-50和Efficient-netb 2都是在第一数据集BreakHis上用所提出的SSL方法MPCS的所有三个变体（有序对、随机对和固定对）进行预训练的，用于学习域特定表示。此外，进行下游任务特定的微调实验，以研究所有三个数据集的学习表示的影响，例如，BreakHis、BACH和乳腺癌细胞。以下是每个数据集的实验细节。表2描述了第一数据集BreakHis的微调实验。针对所有四种放大率（40 X、100 X、200 X和400X），对两种编码器Efficient-net b2和ResNet-50进行恶性肿瘤分类的所有上述实验。在有限标签数据设置中的实验（Exp-1至Exp-4）在仅使用20%标签的情况下评估模型性能，而在完全监督设置中的实验（Exp-5至Exp-8）使用所有标签。唯一的目标是比较在提出的MPCS方法上预训练的模型与ImageNet[15]预训练模型的性能，以分析学习表示的效果。首选名称表2：BreakHis数据集号预培训方法SSL的BreakHis微调BreakHis数据集培训（%）试验（%）有限的标签数据设置Exp-1ImageNet-百分之二十百分之二十实验-2实验-3实验-4ImageNet→ MPCS-固定对ImageNet→ MPCS-有序对ImageNet→ MPCS-随机对百分之六十百分之六十百分之六十百分之二十百分之二十百分之二十百分之二十百分之二十百分之二十完全监控的数据设置实验-5ImageNet-百分之八十百分之二十实验-6实验-7实验-8ImageNet→ MPCS-固定对ImageNet→ MPCS-有序对ImageNet→ MPCS-随机对百分之六十百分之六十百分之六十百分之八十百分之八十百分之八十百分之二十百分之二十百分之二十表3：BACH数据集号预训练方法/权重BACH数据集来自训练数据的测试数据（%）实验-9[57]第57话100%（80%列车数据）百分之二十实验-10MPCS-固定对（BreakHis）【5%、10%、20%、40%、60%、80%、100%】百分之二十实验-11MPCS有序对（BreakHis）【5%、10%、20%、40%、60%、80%、100%】百分之二十实验-12MPCS-随机对（BreakHis）【5%、10%、20%、40%、60%、80%、100%】百分之二十表4：乳腺癌细胞数据集号预训练方法/权重微调开启乳腺癌细胞数据集线性评价乳腺癌细胞数据集训练数据（%）测试数据（%）训练数据（%）测试数据（%）实验-13MPCS-固定对（BreakHis）百分之八十百分之二十百分之八十百分之二十Exp-14MPCS有序对（BreakHis）百分之八十百分之二十百分之八十百分之二十Exp-15MPCS-随机对（BreakHis）百分之八十百分之二十百分之八十百分之二十在讨论中用作ImageNet的MPCS-X MPCS-X.基于ResNet- 50编码器的第二数据集BACH[2]的实验（实验9至实验12）在表3中描述。所有图像均分为512X512大小补丁;因此，性能是按块和按图像测量的（使用[57]中建议的多数表决）。主要目标是：1）根据基于ImageNet的迁移学习方法[2]评估所提出方法的预训练模型; 2）评估学习下游任务的能力，其中标签范围从训练数据部分的5%到100%。最后，为了评估学习的领域特定表示对小规模数据的影响，在乳腺癌细胞数据集上进行了一系列微调（所有层都训练）和线性评估实验（仅完全连接的层可训练）Exp-13至Exp-16，并在表4中描述。与BACH数据集类似，该数据集的图像也被划分为224X224大小用于训练和测试，并且同样测量性能。5. 结果讨论在三个数据集上的大量实验的定量结果和定性分析2722验证了所提出的自监督预训练方法MPCS的学习表示的对数据先验的初步研究也支持了自我监督表征学习中减少人类先验的假设。表2中实验Exp-1至Exp-4在有限标记设置（仅20%标记）下的BreakHis数据集结果见表5。它表明，所有的变量-2723∼表5：当仅对20%标记数据进行微调时，在有限标记数据设置中对拟定方法的性能评价。（放大倍数，对于PLA的所有三种自我监督方法，p 0.05）。40%、60%和80%标签的消融结果见补充内容。编码器度量方法40X100X200X400X是说ImageNet86.36±6.1387.80±4.1586.82±5.7484.98±6.0586.49±5.63映像级固定配对87.26±4.4687.45±2.3589.38±2.1888.12±3.8488.05 ±3.20精度有序对87.40±3.7389.30±2.7490.50±2.1988.35±3.3088.89±2.99有效净B2随机对86.21±4.2089.55±2.8489.18±4.0587.34±3.4488.07±3.63ImageNet86.13±5.1587.76±6.0385.79±4.1085.51±5.2786.30±5.14患者水平固定配对86.90±4.1487.64±3.0589.60±3.2888.26±3.0588.10 ±3.38精度有序对随机对87.19±3.2087.17±3.8888.86±2.5888.36±2.8490.20±3.2688.58±4.0188.96±3.2288.66±3.1388.80±3.0788.19±3.48ImageNet87.40±4.8886.22±5.7186.02±4.7485.30±5.9586.24±5.32映像级固定配对86.69±3.9686.94±3.0588.76±2.2888.81±2.7787.68 ±3.01精度有序对87.56±3.4888.60±3.0189.77±2.1987.61±3.4888.38±3.04ResNet-50随机对87.06±3.4087.96±3.4488.55±3.1586.64±2.9887.55±3.24ImageNet87.10±4.8088.06±5.1184.19±4.2885.01±5.2786.09±4.86患者水平固定配对87.45±3.9686.38±3.1288.18±3.0088.89±2.9887.72 ±3.27精度有序对随机对87.88±2.8987.17±2.9888.21±3.2187.96±3.0289.52±3.2688.76±3.5587.90±3.0388.06±3.0088.38±3.0987.99±3.14表6：在完全监督设置中以不同放大因子对组织病理学图像进行分类的下游任务中，所提出的方法与最先进的方法的比较（使用100%训练集标签）。RN-50表示ResNet-50，Eff-net b2表示Efficient-net b2编码器。此外，OP表示有序对，FP表示固定对，RP表示随机对。患者水平准确度（RR）表7：所提出的方法MPCS（ResNet-50编码器）在BACH数据集上与用于四类分类的其他现有技术的性能比较。RN-50表示ResNet-50。方法图像精度逐块精度验证测试验证测试PT[44]-90.00-77.40HN[60]（RN-50）-81.60--H.N.[60]-91.30-82.10DPCL[14]-87.00--ImageNet[57]再落实92.40±2.0490.50±2.1080.56±3.0680.00±2.64MPCS-FP92.50±1.9090.55±2.0584.25±1.8882.79±2.05MPCS-OP93.31±1.8591.85±1.7783.90±1.8983.13±2.00MPCS-RP93.00±1.8891.00±2.3283.78±2.0982.90±2.10MPCS预训练模型的蚂蚁（有序对、随机对和固定对）获得显著的（在放大率上，表8：针对ResNet-50编码器的有限标签范围，所提出的方法MPCS在BACH数据集上的性能评估（逐图像准确度标签（%）列车数据F1评分（试验数据）准确度（测试数据）MPCS-FPMPCS-OPMPCS-RPMPCS-FPMPCS-OPMPCS-RP百分之五0.50±0.050.50±0.050.51±0.0551.25±5.0250.00±4.8053.00±5.06百分之十0.60±0.050.61±0.040.61±0.0560.50±4.8861.75±3.9362.50±4.60百分之二十0.65±0.030.70±0.040.68±0.0269.25±2.9271.00±3.9069.00±2.89百分之四十0.79±0.040.81±0.040.80±0.0380.75±3.4081.75±3.5281.50±3.05百分之六十0.87±0.030.87±0.030.86±0.0387.70±3.4887.75±3.1086.50±3.00百分之八十0.89±0.030.90±0.020.89±0.0289.25±3.0290.75±2.1789.75±0.02百分百0.90±0.020.91±0.020.90±0.0290.55±2.0591.85±1.7791.00±2.32p 0.05）改进（1.55 2.52）% ImageNet迁移学习模型的所有四个放大率和结果是有竞争力的其他国家的最先进的方法，已经训练在完全监督设置使用所有标签。此外，表6比较了方法是说图像级精度是说40X100X200X400X40X100X200X400X原始GLCM [51]74.7±1.078.6±2.683.4±3.381.7±3.379.60±2.55-----PFTAS[25]83.80±2.082.10±4.985.10±3.182.30±3.883.33±3.45-----[53]第五十三话92.1±5.989.1±5.287.2±4.382.7±3.087.77±4.687.8±5.685.6±4.380.8±2.882.9±4.184.28±4.20[51]第五十一话88.6±5.684.5±2.485.3±3.881.7±4.985.02±4.1789.6±6.5885.0±4.884.0±3.280.8±3.184.85±4.42MI[6]83.08±2.0883.17±3.5184.63±2.7282.10±4.4283.25±3.18-----深[50]84.0±6.983.9±5.986.3±3.582.1±2.484.07±4.6784.6±2.984.8±4.284.2±1.781.6±3.783.80±3.13[53]第五十三话86.9±5.485.7±4.885.9±3.983.4±5.385.47±4.8586.1± 4.2883.8±3.080.2±2.680.6±4.682.68±3.62GLB [3]84.5±4.283.5±2.089.6±5.088.2±4.086.45±3.882.1±6.481.4±4.888.4±5.087.2±4.584.78±5.18RPDB[39]92.02±0.990.21±2.4081.94±1.7080.09±0.7088.06±1.494.26±3.292.71±0.483.90±2.882.74±1.588.40±1.98SMSE[54]87.51±4.0789.12±2.8690.83±3.3187.10±3.8088.64±3.51-----ImageNet（Eff-netb2）91.91±4.2591.93±4.2091.46±5.1788.10±3.8890.85±4.3692.12±4.1892.66±4.2091.83±4.5588.35±5.2191.24±4.54MPCS-FP（Eff-netb2）92.23±3.5092.72±3.6891.94±3.8088.40±3.2691.33±3.5692.23±3.8093.57±3.2392.23±2.9888.40±3.9091.61±3.48MPCS-OP（Eff-netb2）92.45±3.2593.47±2.9892.44±3.3089.00±3.0591.84±3.1592.67±3.3693.63±3.3892.72±2.8088.74±3.9091.94±3.36MPCS-RP（Eff-netb2）93.26±3.4893.57± 3.3692.23±3.2189.57±3.7992.15±3.4693.45±3.5593.38±2.8092.28±3.4989.81±3.1592.23±3.24ImageNet（RN-50）91.46±4.3091.24±5.190.72±4.6887.90±4.1290.33±4.5591.83±5.1292.23±4.1591.61±4.0087.88±4.8090.89±4.52MPCS-FP（RN-50）91.83±3.8892.67±2.7291.61±3.4089.00±3.1591.28±3.2992.24±3.4892.66±3.8891.91±3.6888.40±3.6691.30±3.682724∼表9：所提出的方法MPCS（ResNet-50编码器）对乳腺癌细胞数据集方法线性评价精度精度召回精度精度召回ST[43]86.00±3.00-1.0---MATN[34]91.70-----ATN[30]75.50±1.600.73±0.010.73±0.04---MPCS-FP98.14±2.050.99±0.010.98±0.0196.29±1.900.97±0.010.96±0.01MPCS-OP98.18±1.800.99±0.010.98±0.0196.36±1.880.97±0.010.96±0.01MPCS-RP98.10±2.000.985±0.010.98±0.0196.22±2.020.965±0.010.96±0.01表2中的实验Exp-5至Exp-8在完全监督的设置中的结果（使用所有标签）。MPCS预训练的模型优于几种最先进的方法，恶性肿瘤分类的准确率高出（ 3.58.0）%。两种编码器架构，Efficient-net b2和ResNet-50性能一致。图9中的预训练ResNet-50编码器的t-SNE可视化和图5中的类激活图（CAM）[46]分别显示了预调整和微调阶段的鲁棒表示学习。此外，还按照之前的工作[21]和[47]中的建议进行了交叉放大率评估，结果支持跨放大率的性能概括，并且可以在补充材料中找到结果。MPCS在BreakHis上图5：在BreakHis数据集上比较ImageNet和MPCS-OP的CAM。空间限制仅显示OP变体CAM。激活-红色（较深）在另外两个数据集上进一步评估数据集再-表3中实验Exp-9至Exp-12的BACH数据集的结果描述于表7和8中。表7中的结果示出了在与ResNet-50编码器和其他架构的其他最先进技术相比时，四类分类在逐图像和逐块准确度上的性能改进具体而言，与基于对比学习的自监督方法DPCL[14]的其他近期工作相比，所提出的方法MPCS在不同的标签使用范围内始终表现出色，如图8所示，并且在使用100%标签时获得了4.85%的改进为了在相同设置中与ImageNet预训练的ResNet-50编码器进行比较，重新实施了[57]中建议的方法，并在表7中报告了结果以进行比较，并且还显示了通过CAM进行的定性分析，用于图6中BACH数据集的样本。第三个乳腺细胞癌数据集的结果图6：来自ImageNet和MPCS-RP，OP，FP的CAM在BACH数据集上（MPCS专门学习防止正常类图像上存在的细胞激活）。实验表4中的实验13至实验15与表9中的其它方法进行比较，显示出相对于其它方法的显著改进，并且在微调中获得98.18%，在线性评价中获得96.36%图7中的CAM也定性地支持该方法。在补充内容中添加了所有报告结果的可复制源代码，并应在GitHub上提供。图7：在乳腺癌细胞数据集上比较MPCS-RP、OP和FP之间的CAM。激活-红色（较深）5.1. 自监督方法MPCS展示了标签效率所提出的方法的所有三个变体MPCS demonstrate标签效率的下游任务。结果在表5中，在BreakHis数据集中，MPCS微调模型获得了（显著改善p 0.01）比ImageNet 预训练模型更大的改善幅度（2.52±0.02）%，而所有放大倍率仅使用20%的标签。这些结果与表6中提到的其他最先进方法的性能相匹配，这些方法已经在100%标签上训练过。遵循这一趋势，MPCS预训练模型始终领先于-2725图8：与DPCL[14]比较BACH数据集与最近的基于对比学习的方法DPCL [14]相比，在BACH数据集上执行从5%到100%的完整标签范围，如图8所示。5.2. 数据先验允许对小规模数据集进行所提出的MPCS方法通过广泛地使用数据先验（来自数据的监督信号）来实现对小规模数据集的自监督表示学习，例如，放大倍数（40倍、100倍、200倍和400倍）。它减少了对人为先验的依赖，例如，自我监督预训练期间的增强选择。5.3. MPCS学习鲁棒的自监督表示图9：来自MPCS模型（在BreakHis上）的特征的tsne可视化，没有微调。蓝色（良性）;红色（恶性）。图9解释性地关注学习的表示的鲁棒性，强烈支持以下事实：MPCS预训练模型可以在自监督预训练阶段本身期间捕获和学习跨类别的区分特征，而无需了解实际的人类提供的标签。值得一提的是，对于MPCS方法的所有变体的所有四个放大率，不同类别的数据点可以通过线性或非线性边界容易地分离图5和图6所示的微调模型的CAM也表明，MPCS预对于BreakHis和BACH数据集，经过训练的模型比ImageNet预先训练的模型更有效地激活感兴趣的区域（暗红色显示强烈的激活）5.4. 减少人类诱导先验假设MPCS有序配对在配对抽样中引入了较弱的人类先验。因此，MPCS方法获得用于随机选择第一输入视图的一个DoF。相比之下，MPCS固定对通过选择两个视图（200 x和400 x）引入更强的人类先验，从而为MPCS方法提供零DoF。MPCS-随机对，其中MPCS方法获得最高的自由度，因为人类的先验是缺席的。图10图10：人类先验的比较-表明在有限（20%标签）数据解释了当使用较少标签时的趋势，即基于较弱人类先验对采样的两个编码器往往优于较强人类先验或不存在人类先验的极端情况然而，它需要对不同的数据集和任务进行详细的在BACH数据集上也观察到类似的模式，有序对优于其他两种变体。6. 结论新的MPCS方法能够通过利用来自数据的监督信号，对相对小规模的乳腺癌显微图像数据集BreakHis[52]进行自监督预训练，以进行有效的表示学习。在三个公开数据集上的结果证实了MPCS方法的优越性。MPCS通过利用放大先验（OP是最好的）和区分下游任务中的不同细胞来学习更好的它可以更好地研究在本文中考虑的放大尺度的连续尺度。在未来，我们打算在其他自监督学习方法之前研究放大，重点是减少冗余和Siamese网络。2726引用[1] 作者声明：John F.在卷积神经网络中使用滤波器PatternRecognition Letters，84：63[2] GuilhermeAresta，TeresaAra u'jo，ScottyK w ok，SaiSa keth Chennamsetty ， Mohammed Safwan ， VargheseAlex ， Bahram Marami ， Marcel Prastawa ， MonicaChan，Michael Donovan，et al.巴赫：乳腺癌组织学图像的巨大挑战。医学图像分析，56：122[3] Steve Tsham Mpinda Ataki，Jonathan de Matos，

下载后可阅读完整内容，剩余1页未读，立即下载