病理图像中基于自监督学习的密集预训练方法及其应用

92 浏览量更新于2023-11-30 收藏 6.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文ConCL：用于病理图像杨佳伟1，2，陈汉波1，陈伟，袁亮2，黄俊洲3，何磊2，姚建华1，姚明1腾讯人工智能实验室2加州大学洛杉矶分校3德克萨斯大学阿灵顿分校jiawei118@ucla.edu摘要在整个切片图像中检测和分割目标是计算病理学工作流程中必不可少的。自监督学习（SSL）对这种注释繁重的任务很有吸引力。尽管在密集任务的自然图像中有广泛的基准，但不幸的是，在当前的病理学工作中缺乏这样的研究。我们的论文试图缩小这一差距。我们首先对病理图像中密集预测任务的代表性SSL方法进行基准测试。然后，我们提出了概念对比学习（ConCL），这是一个用于密集预训练的SSL框架。我们探讨了ConCL如何处理不同来源提供的概念，并最终提出了一种简单的无依赖性的概念生成方法，该方法不依赖于外部分割算法或显着性检测模型。大量的实验证明了ConCL在不同环境下优于以前最先进的SSL方法。在我们的探索过程中，我们提取了几个重要而有趣的组件，这些组件有助于成功对病理图像进行密集的预训练。我们希望这项工作可以提供有用的数据点，并鼓励社区对感兴趣的问题进行ConCL预培训代码可在https：//github.com/TencentAILabHealthcare/ConCL网站。关键词：病理图像分析·全切片图像·自监督学习·目标检测·实例分割·预训练1介绍计算病理学是现代医疗保健中的一个新兴领域。现在，更多的完整幻灯片图像（WSI）通过深度学习（DL）模型进行分析[32]。为了减轻DL模型所需的沉重注释负担，重用预训练模型的权重已成为一种常见的做法。除了从全监督模型转移，最近的注意力已经吸引到自监督模型，s在腾讯人工智能实验室实习期间完成的工作ss通讯作者arXiv：2207.06733v1 [cs.CV] 2022年7+v：mala2255获取更多论文×2J. Yang等人背景脂肪碎屑淋巴细胞粘液肌肉正常粘膜腺癌(a) 病理学图像示例pre-training epochs预训练时期的数量(b) （c）CRAG检测性能图1：（a）带有组织类别名称的病理学图像示例。（b，c）通过对GlaS数据集[31]和CRAG数据集[11]进行微调来比较预训练模型。所有的模型都是用相同的探测器进行微调的，Mask-RCNN架构[16]，ResNet-18骨干[17]和FPN头[23]在1个微调时间表下。结果在5次独立运行中取平均值学习（SSL）方法[14，4，12]。它们是无注释的，但在传输时可以实现SSL方法的突破始于对比学习[13，38，4，14，5]，其中最受欢迎的任务是实例判别[38]。它需要一个模型为了在各个实例之间进行区分，即，为了实现这一点，它首先定义了一些正对和负对。然后优化模型，以最大化正对之间的表示相似性，并最小化负对之间的表示相似性。后来，更多的基于跨视图预测的SSL方法被提出，例如，[3、12、4、42]。然而，这些方法针对图像级表示进行了优化，并且对于密集预测任务（如对象检测和实例分割）可能是次优的。这一动机适用于检测友好的预训练方法，例如，[36]，InsLoc [41]，Self-EMD[25]，SCRL[30]，and more [18，33，39，40].尽管在自然图像领域中提出了许多关于密集预测问题的兴趣，但在病理图像领域中缺乏具有重要临床和实用价值的此类研究。我们的研究旨在弥合自然图像和病理图像中SSL之间的差距，以实现密集预测任务，并提取病理数据中密集预训练成功的关键组件。为此，我们首先提出了一个一般的概念C对比学习（ConCL）框架。它不是对比图像级表示[38，4，14]，而是对比标记不同局部（语义）区域的“概念”。ConCL是密集对比框架的抽象，因此，正如我们稍后所展示的，它类似于大多数并发相关工作。我们首先对当前领先的图像级SSL方法和网格级密集SSL方法（即，DenseCL [36]）在两个公共数据集中。我们观察到DenseCL[36]和其他人。这些差距表明对比密集（网格级）比粗略（图像级）的重要性。然后，由性能dif-+v：mala2255获取更多论文××ConCL：病理学3中密集预训练的概念对比学习我们根据病理图像的特点，通过一系列的探索，逐步发展和完善了ConCL。具体来说，我们探索：1）是什么让密集预测预训练成功？2）什么样的概念对病理图像有好处？在病理学图像中具有丰富的低水平模式的性质（见图1-（a））给出了一些令人惊讶和有趣的结果，例如，随机初始化的模型可以对有意义的概念进行分组，并有助于密集的预训练。在探索过程中，我们提取出了几个关键组件，有助于密集任务的传输性能。在探索结束时，所提出的ConCL可以通过跨不同下游数据集、检测器架构、微调时间表和预训练时期的坚实且一致的裕度来超越各种最先进的SSL方法例如，如图1-（b）所示综上所述，本文做出了以下贡献：它是系统地研究和基准自监督学习方法用于病理图像中的密集预测问题的最早尝试之一，这些问题具有很高的实际和临床意义，但不幸的是，在现有的作品中没有。我们希望这项工作可以缩小自然图像和病理图像研究之间的差距。它介绍了ConCL，一个用于密集预训练的SSL框架我们展示了ConCL如何处理不同来源提供的概念，并发现随机初始化的模型可以学习语义概念并在没有专家注释或外部算法的情况下自我改进，同时实现竞争性（如果不是最好的话）结果。它展示了密集预训练在病理图像中对于密集任务的重要性，并提供了一些有趣的观察结果，这些观察结果可能有助于其他应用，例如病理图像分析或其他领域的少镜头和半监督分割和检测。我们希望这项工作可以提供有用的数据点，并鼓励社区对感兴趣的问题进行ConCL预培训。2 相关工作对比学习。深度学习的成功主要归功于对大量数据的挖掘。当为特定任务提供有限的数据时，另一种选择是通过重新使用预先训练的模型来传递知识[10，15]。SSL方法从无标签的借口任务中学习良好的预训练模型，彩色化[43，44]，去噪[34]，从而吸引了很多关注。近年来，对比学习[14，5，4，27，38，3]作为SSL的一个典型分支，在许多领域取得了重大进展，其中实例判别[13，38，14，5，4]是一个前提任务。它需要一个模型来区分各个实例，即，图像级表示[38]。[14][ 15][16][17][18][19][1具体地说，它们通过随机数据增强（例如，颜色抖动，随机裁剪），并将它们标记为···+v：mala2255获取更多论文4 J. Yang等人。积极的一对。然后，来自其他不同图像的视图被标记为否定实例或对。之后，他们通过最大化正对表示之间的相似性，同时最小化负对表示之间的相似性来学习嵌入。后来的方法将对比与聚类相结合，SwAV[3]建议对比视图的集群分配，PCL [ 22 ]将实例与集群原型进行密集预测预训练。尽管它们在转移到分类任务方面取得了成功，但良好的图像级表示不一定会在密集预测任务中产生更好的性能。因此，最近已经努力进行密集预测预训练。相关的工作大多是同时[36，41，30，33，39，40，25，18]。其中，DenseCL [36]学习正对像素之间的对应关系，并在像素级别优化成对对比损失，从而产生密集对比行为。Self-EMD [25]以与BYOL [12]相同的非对比方式进行密集预测，即，当从另一个（正）视图给出其对应物时，从一个视图预测网格级特征向量。SCRL [30]认为空间一致表示的重要性，因此它最大限度地提高了矩形区域中框区域特征的相似性。与我们同时进行的最相关的工作是[18，33]。它们还优化了掩模平均表示的对比度损失。这些掩模由对于自然图像成功的外部算法生成，Felzenszwalb-Huttenlocher算法[9]或模型，例如，[28][29]然而，不幸的是，这种掩模发生器的成功在病理图像中未经验证。在本文中，我们提供了一些他们的经验结果。它们的不同性能产生自然和病理图像之间的差距，从我们的动机，提出一个无依赖性的概念掩模生成器。它直接引导病理图像中固有的结构概念，从头开始学习，并具有更好的潜力。病理学图像中的SSL在病理图像中研究SSL方法仍处于早期阶段。除了对自然图像的研究外，还对Simplified [4]进行了研究，并对病理图像中的分类，回归和分割任务进行了基准测试[7]。一些特定领域的自我监督借口任务，例如，提出并研究了放大预测、JigMag预测和苏木素通道预测[20]。然而，尽管在自然图像的密集问题的兴趣，现有的作品还没有研究，据我们所知，检测/分割友好的SSL方法在病理图像。我们的工作旨在弥合这一差距，并为病理图像提供更好的密集预测性能的探索路线图。3方法我们首先简要回顾MoCo [14，5]，并将其作为一个运行示例来描述实例对比学习[13，38]。然后，我们得出我们的动机ConCL和描述它的细节。+v：mala2255获取更多论文东凤企EMAfk地图地图5+ConCL：病理学密集预训练的概念对比学习5fq（xq）2 3推开查询视图xqhq不查询编码器f5k（xk）投影头拉近关键视图xk不HK分配概念提案关键编码器概念队列参考视图xr(Only）1t tT：随机数据增强。EMA：指数移动平均线。图2：ConCL概述。 ConCL有三个步骤：（1）给定查询视图xq和关键视图xk，它们的联合区域被裁剪为参考视图xr。ConCL通过用“概念生成器”处理xr来(2)对于共享概念，ConCL通过掩码平均池（MAP）计算它们的表示(3)ConCL优化了概念对比损失（等式（2）），并将概念原型从密钥编码器排队到概念队列。3.1Preliminary：实例对比学习MoCo[14]将实例判别任务抽象为字典查找问题。具体地，对于每个编码查询q，存在一组编码键{k0，k1，k2，. 在字典里。实例判别任务是在字典中拉近q和它的匹配位置k+，同时将qaway从所有其他否定键k−中扩展出来。当使用点积作为相似性度量时，基于InfoNCE[27]的对比损失函数的形式变为：exp（q·k+/τ）Lq=−logexp（q·k/τ）+logexp（q·k/τ）（1）k−−其中τ是温度超参数[38]。查询编码器和密钥编码器分别计算密钥q和密钥k[14，5]。形式上，q=h（GAP（f5（xq），其中h是如per[4]的MLP注入头;GAP（·）表示全局平均池化，并且f5（x）表示来自阶段5的输出。[17]一个人的命运。使用密钥编码器类似地计算密钥k。在MOCO[14]，否定键存储在队列中，以避免使用大批量[4]。3.2概念对比学习实例对比方法[4，14，38]在区分图像级实例方面做得很好，但密集预测任务通常需要区分局部细节，例如，对象实例或对象部件。我们抽象这种局部细节，或者说，细粒度的语义作为“概念”。一个概念不一定概念生成器+v：mala2255获取更多论文+−i=1ΣΣ+的MKC−6 J. Yang等人。代表一个物体。相反，图像中的任何子区域都可以是一个概念，因为它包含某些不同的语义。从密集预测的角度来看，建立概念敏感的表示是可取的。例如，一个WSI块通常包含多个小对象，细胞核、腺体和多种纹理样组织，例如，粘液[32，19]。为了成功地检测和分割这些图像中的物体，模型需要从局部细节中学习更多的信息。为此，我们提出了一个简单而有效的框架-概念C对比学习（ConCL）。图2显示了它的概述，我们将在下面详细介绍。概念辨析。我们首先定义了一个名为概念辨析的前提任务。类似于实例判别[38，13]，概念判别需要一个模型来判别相同但增强的概念的表示和不同概念的表示。通过将实例级查询和关键字扩展到概念级，形成概念判别。具体地，给定编码的查询概念qc和一组en，编码的关键概念{kc，kc，kc，. }，我们将概念对比损失推导为：0 1 2exp（qc·kc/τ）Lc=− logexp（qc·kc/τ）+exp（qc·kc/τ）（2）其中τ是相同的温度参数，kc− 是概念队列- 用于存储概念表示的队列这一目标带来了代表性-同一概念的不同视图的表示更接近，并且将来自不同概念的视图的表示分开。概念面具提案。我们使用掩码来显式地注释细粒度的概念。假设给出了一个掩码生成器，如图2底部所示;我们首先将参考视图xr（定义为两个视图的并集的外接矩形裁剪）传递到掩码生成器中，以获得一组概念masks-Mr={mi}K，其中K是概念的数量。由于参考视图包含查询视图和键视图，它们的概念掩码为Mq，如果我们在参考视图中恢复它们，则立即获得k。然后我们通过具有调整大小的概念掩码的掩码平均池化（MAP）在两个视图中导出概念表示。具体地，我们类似地计算qc= h（MAP（z（xq），mc））和kc，其中MAP（z，m）=IjmIj·zij/ijmi j，且z∈RCHW表示特征图，m∈ {0， 1}HW是每个概念的二进制指示符。这里，只考虑两个视图中的共享概念，即，mc∈ Mq <$Mk.下面我们的分析集中在1）是什么使得密集预测预训练成功？2）什么样的概念对病理图像有好处？对这两个问题的不同回答揭示了病理图像的特征以及自然图像和病理图像之间的差异，正如我们在第4节中探索的那样。下面，我们首先介绍基准管道和设置。+v：mala2255获取更多论文××××ConCL：病理学7中密集预训练的概念对比学习3.3基准管道尽管在密集任务的自然图像中有广泛的基准，但据我们所知，不幸的是，在目前的病理学工作中没有这样的研究请注意，在病理图像中研究SSL方法仍处于早期阶段。目前的大多数工作集中在采用图像级SSL方法的分类任务。正交他们，我们调查了更广泛的SSL方法对于目标检测和实例分割任务，这是高临床-校准值。我们希望我们的工作可以为未来的工作提供有用的数据点和基线。简要的实现和基线设置。除非另有说明，否则我们的探索使用以下设置（更多详情见附录B和C）：• 预训练代码库。我们使用OpenSelfSup作为我们的代码库，因为它包括-移植了各种最先进的自我监督方法所有实验均在这个代码库中进行，以确保完整性和公平性。• 架构我们使用ResNet-18 [17]作为默认的主干。对于具有MLP投影头的方法，即， MoCo-v2 [5] ， Simplified [4] ， BYOL [12] ，PCL- v2 [22] 和DenseCL [36]，我们使用它们的默认结构，但根据ResNet-18将输入通道和隐藏通道的数量修改为512。输出通道的数量与默认值相同• 超参数我们在MoCo-v1/v2 [14，5]中将队列长度更改为16384，并将Simplified [4]和BYOL [12]的批量大小设置为1024。其他超参数与代码库提供的相同，包括数据扩充参数和优化器设置。这些设置应符合其最初的提议。• 预训练数据集。我们使用NCT-CRC-HE-100 K [19]数据集（称为NCT）进行预训练。它包含从苏木精和伊红（HE）染色的结直肠癌和正常组织中提取的100，000个非重叠斑块。所有图片大小为2240.5 MPP时为224（20 放大）。我们随机选择80%的NCT作为预训练数据集。• 传输设置。我们使用Detectron 2[37]作为检测代码库和默认超参数。除非另有说明，否则我们使用Mask- R-CNN [16]检测器和特征金字塔网络（FPN）头[23]作为我们的基地探测器为了方便和每个通用术语[15]，我们为两个传输数据集定义了不同的微调时间表。对于评估，我们报告COCO风格的指标，即，mAP家族• 传输数据集。我们使用两个公共数据集，病理图像挑战中的腺体分割（GlaS）数据集[31]和结直肠腺癌腺体（CRAG）数据集[11]，并遵循其官方训练/测试分割进行评估。GlaS [31]从HE染色的载玻片中收集了775522张图像，并进行了对象实例级注释;这些图像包括恶性和良性腺体。CRAG [11]收集了213张HE染色图像，4https://github.com/open-mmlab/OpenSelfSup4+v：mala2255获取更多论文×××8 J. Yang et al.在20倍放大率下，像素分辨率为0.55µm/像素的38个WSI。图像的大小大多为1512 - 1516，带有对象实例级注释。我们研究了对象检测和实例分割任务的性能。实验装置。我们在NCT训练集上对所有方法进行了200个epoch的预训练。对于ConCL预训练，我们通过优化实例对比度损失（Eq.（1））的前20个时期，并切换到概念对比损失（方程。（2））。然后，我们使用预先训练好的主干来初始化检测器，在传输数据集的训练集上对其进行微调，以及在相应的测试集中测试它们。除非另有说明，我们运行所有转移实验5次，并报告平均性能。4迈向更好的概念：路线图在本节中，我们首先对用于密集病理学任务的一些流行的最先进的SSL方法进行基准测试。然后，我们从DenseCL [36]开始，并在上一节提出的问题的指导下，一路4.1针对密集病理学任务对SSL方法进行基准结果。表1（基线和现有SSL技术）分别示出了GlaS数据集（左列）和CRAG数据集（右列）的传输性能。我们使用200个epoch预训练模型和1个微调时间表报告结果在GlaS数据集[31]上，我们观察到随机初始化模型的训练和监督预训练模型的训练之间的差距与自然图像域中的差距相比相对较小[6，5，12，4]。尽管如此，最先进的SSL方法都超过了监督预训练，满足了与自然图像相同的期望。然而，在CRAG数据集[11]上，与随机初始化权重的训练相比，大多数预训练模型，包括自监督模型和监督模型，都未能实现竞争性唯一的例外是DenseCL [36]，这是一种密集对比方法。总体而言，在图像级SSL方法中，MoCo-v2 [5]在GlaS中表现最好，在CRAG中表现第二好。基于 MoCo-v2 并通过密集对比进行增强，DenseCL [36]在两个数据集中均获得了最佳结果。应该强调的是，通过使用网格级对比，DenseCL [36]获得GlaS的+ 1.6 AP bb。这证明了在转移到密集任务时设计密集预训练框架的重要性，因为所有的掉队者仅针对图像级表示进行了优化。因此，我们在这里总结了密集的对比问题。4.2通信事项从前面的部分，我们发现密集对比是赞成在两个自然-Ural和病理学图像，其中DenseCL [36]均达到最佳性能。+v：mala2255获取更多论文×ConCL：病理学密集预训练的概念对比学习9类别方法GlaS峭壁检测APbb APbb75段AP75检测APbb APbb75段AP75基线随机的Init.49.8 57.352.160.751.157.050.657.3监督50.2 56.953.262.149.2 55.249.455.0Simplified [4]50.7 56.953.662.749.2 54.849.154.7BYOL[12]50.9 57.753.962.649.9 55.849.355.3秒4.1[22]第二十二话49.4 55.951.961.051.0 56.650.556.7以前的SSL技术 [第14话]50.0 56.252.159.947.2 51.147.552.0MoCo-v2[5]52.3 60.055.365.050.0 55.750.356.8DenseCL[36]53.9 62.056.566.252.3 58.252.259.8我们的不同实例化ConCL：秒4.2网格概念(1) g-ConCL（s=3）(2) g-ConCL（s=5）(3) g-ConCL（s=7）54.955.454.964.165.263.857.157.457.066.367.266.555.455.555.362.362.762.554.454.654.762.062.262.6秒4.3(4)fh-ConCL（s=50）55.8 65.658.368.854.8 60.754.160.7自然图像(5)fh-ConCL（s=500）56.2 65.957.767.954.7 61.953.860.5先验概念(6)bas-ConCL56.166.158.168.154.2 61.153.460.8秒4.4自举(7)b-ConCL（f4）56.8 66.2 58.768.9 55.162.254.161.4概念(8)b-ConCL（f5）56.1 65.657.867.756.5 63.3 55.362.9表1：对象检测和实例分割的主要结果。所有模型都在NCT数据集[ 19 ]上预训练了200个时期，并在Glas [31]和CRAG [11]上使用ResNet-18 Mask-RCNN-FPN进行了微调。的1时间表。结果是5次独立试验的平均值。†PCL-v2使用官方发布的代码进行训练。APbb：边界框mAP，APbb：掩码mAP。下一个问题是：我们能改进密集对比框架吗？为了解决这个问题，我们首先总结了DenseCL的整体管道[36]。DenseCL计算没有全局平均池化的两个视图的密集表示即，f5（xq），f5（xk），并将它们传递到密集投影头，以获得尺寸为R128×7×7的最终网格特征。最相似的是，正弦相似性）网格作为正对。因此，学习了正对的对应关系。然而，学习对应的可靠性仍然值得怀疑，并会影响学习表征的质量为了解决这个问题，我们在ConCL中实例化DenseCL [36]，将网格先验视为一种概念形式，如图3-（b）所示我们将这个ConCL实例表示为g-ConCL。与DenseCL [36]（学习匹配）相比，ConCL自然地从参考视图（精确匹配，图1）恢复正对应。2-xr ），这更可靠。表1-（1-3）比较了原始DenseCL [36]和ConCL实例化的g-ConCL。结果表明，具有精确对应性的g-ConCL可以大幅提高DenseCL [36]即使是最简单的概念形式，g-ConCL也已经在表1中超过了它。我们相信其他密集的预训练方法，+v：mala2255获取更多论文10 J. Yang等人。(a) 人类(b) 网格（s=5）(c)FH（s=50）（d）FH（s=500）(e)Basnet（f）群组f3（g）群组f4 （h）群组f5图3：概念描述符。（a）组织概念说明。(b)网格概念（s：网格编号）。(c-d)FH概念（s：规模）。(e)二进制显着性概念，从BASNet获得[28]。(f-h)聚类概念（fi：ResNet输出阶段）。图像大小调整为448× 448，以便更好地可视化。网格之间的匹配，例如，Self-EMD[25]的性能应与DenseCL [36]相似，而g-ConCL的性能可能优于它们。因此，我们在这里得出结论，一致性很重要。4.3病理图像中的自然图像先验ConCL是一个使用掩码作为监督来区分概念的通用框架。自然图像[46，18，45，33，35]中的一些先前的工作也将掩模与对比学习相结合，其中掩模由地面真实注释[46，35，18]或监督/无监督伪掩模生成[18，45，33]提供。掩码生成器可以是基于图形的（例如，Felzenszwalb-Huttenlocher算法[9]）、MCG [1]或其他显著性检测模型[28，26]。然而，这些方法最初都是对于自然图像，其对于病理图像的成功仍然未知。在这里，我们通过使用 Felzenszwalb-Huttenlocher （ FH ）算法 [9] 和BASNet [28]作为概念生成器来实例化ConCL，分别称为fh-ConCL和bas-ConCL。FH [9]是一种传统的基于图的分割算法，依赖于局部邻域，而BASNet [28]是一种在策划的显着性检测数据集上预训练的深度神经网络，仅包含日常的自然物品。我们使用这两个作为代表，研究这些自然图像先验是否在自然图像和病理图像中两次获胜对于实现，我们使用scikit-image包中的FH算法，并将“scale”和“size”超参数设置我们使用[28]提供图3-（c-e）显示了一些示例。表1报告了结果。BASNet [28]无法为病理图像生成像样的概念掩码（图3-（e））并不奇怪，因为它是在策划的显着性检测数据集上预先训练的。令人惊讶的是，bas-ConCL确实产生了令人满意的结果（表1）。1-（6））。在fh-ConCL中也发现了类似的观察结果（表1）。1-（4，5）），尽管所生成的概念掩码是粗粒度的，但所得到的传输性能出乎意料地好。在检查更多的例子后，我们发现，所生成的面具保持高的一致性和完整性，尽管他们的粗粒度的性质。也就是说，每个概念都包含语义一致的对象或纹理。例如，图3-（d，e）可以被看作是特殊的。图3-（a）的实例，其将细粒度语义与粗粒度语义相+v：mala2255获取更多论文∈ConCL：病理学密集预训练的概念对比学习11一个。这个属性是fh-/bas-ConCL和g-ConCL之间的主要区别，其中网格概念不太可能具有一致的语义。因此，我们在这里得出结论，相干性问题和自然图像先验也适用于病理图像，尽管它们主要提供粗粒度的概念。4.4病理图像中的病理图像先验我们能用自然图像先验获得概念掩码外部依赖性并不总是需要的并且有时可能无法提供所需的掩模（例如，图3-（e））。因此，我们的任务是找到一个依赖自由的概念pro-proximation方法。病理学图像固有的关键特征之一是它们具有丰富的低级模式和组织结构。我们能用那个先验吗？图3-（f-h）示出了来自由10个时期预热的MoCo-v2 [5]生成的中间特征图的聚类可视化。由于病理图像中丰富的结构模式，我们发现，简单地对由几乎没有训练过的模型提供的特征图进行聚类已经可以生成有意义的结构概念建议。因此，我们建立在这个“免费午餐”的基础上ConCL从动量键编码器的感知中生成概念提案，同时通过在线查询编码器对其因此，我们将这样的ConCL表示为bootstrapped-ConCL（b-ConCL）。我们在附录A中提供了BYOL和“自举”的额外介绍b-ConCL. 概念生成器现在被实例化为KMeans分组器。我们首先将参考视图xr传递给密钥编码器，以从ResNet stage-i获得参考特征图：fi（xr）RCHW。然后，我们将K-Means应用于K个基本概念的分组。 b-ConCL既不依赖于外部分割算法，也不依赖于自然图像的指定显著性检测模型。我们的默认设置是K= 8，从f4或f5开始聚类. 我们推迟超参数的研究，即，KMeans中的聚类数和第5.2节中的聚类阶段fi，并在表1-（7，8）中报告主要结果我们发现b-ConCL高于其他条目。与MoCo-v2 [5]相比，我们的直接基线，b-ConCL优于其+4.5 APbb和+3.1 APbb。此外，与对照组相比，b-ConCL在AP75方面获得更多增益（+6.2 APbb，+3.7 APbb）。75 75MoCo-v2 [5]，这意味着它通过更准确的绑定改进了MoCo-v2 [5]框回归和实例掩码预测。这符合我们的动机因为区分局部概念有助于形成对象边界。闭幕词。到目前为止，我们已经包括：i）密集的对比物质;（ii）通信事宜;（三）一致性问题; iv）自然图像先验，尽管它们可能只提供粗粒度的概念，但在病理图像中也有效;以及+v：mala2255获取更多论文××12 J. Yang等人。检测器预训练GlaS检测CRAG检测APbbAPbb75APbbAPbb75随机的Init.52.9 59.949.4 54.2MaskRCNN+C4监督49.1（-3.8）55.1（-4.8）46.1（-3.3）50.6（-2.3）MoCo-v2 [5] 53.6（+0.7） 61.8（+1.9）48.3（-1.1）52.6（-1.6）b-ConCL55.8（+2.9） 63.6（+3.7）49.8（+0.4） 54.3（+0.1）随机的Init.49.8 57.351.1 57.0MaskRCNN+FPN监督50.2（+0.4） 56.9（-0.4）49.2（-1.9）55.2（-1.8）MoCo-v2 [5] 52.3（+2.5） 60.0（+2.7）50.0（-1.1）55.7（-1.3）b-ConCL56.8（+7.0） 66.2（+8.9）55.1（+4.0） 62.2（+5.2）随机的Init.46.4 51.045.2 47.6RetinaNet监督44.7（-1.7）48.4（-2.6）43.1（-2.1）44.8（-2.8）MoCo-v2 [5] 47.2（+0.8） 50.9（-0.1）43.1（-2.1）43.8（-3.8）b-ConCL52.6（+6.2） 58.6（+7.6）48.4（+3.2） 51.9（+4.3）表2：使用不同检测器的检测性能。所有方法都经过200个epoch的预训练，并使用1个时间表进行微调。结果是5次试验的平均值。由于病理图像中丰富的低级模式和良好的网络初始化，网络可以生成密集、细粒度和连贯的良好建议，如图3所示。虽然从自然图像先验生成的粗粒度概念也可以帮助我们研究的基准测试中的任务，但当给出细粒度密集预测任务时，它们可能表现不佳，我们将其留给未来的工作。我们希望我们的结束语能够吸引人，并指导未来的工作，为病理学图像及其他领域设计密集的预训练方法5更多的实验在上一节中，我们已经探索了如何获得概念，什么概念是好的，并发现b-ConCL是最好的。我们在这里进行更多的实验来进一步研究b-ConCL。一些定性目视比较见附录D。5.1传输设置使用不同的探测器。在这里，我们研究了与其他探测器，Mask-RCNN-C4（C4）[29]和RetinaNet [24]。RetinaNet是一个单级检测器。它使用ResNet-FPN骨干特征作为Mask-RCNN-FPN，但直接生成预测而无需区域建议[29]。C4检测器采用与Mask-RCNN类似的两阶段方式，但使用第4个残差块的输出作为骨干特征，第5块是检测头，而不是建立一个新的。这三个代表性的检测器在不同的检测器架构下评估预训练的模型。所有检测器都是从200个epoch的预训练模型中进行微调的，5个独立试验的1个时间表。结果与Mask-RCNN-FPN一起b-ConCL在所有三种检测器中表现最好，+v：mala2255获取更多论文××××× × ××·-∈×ConCL：病理学密集预训练的概念对比学习13两个数据集。值得注意的是，从零开始的培训（兰德。初始化）是使用C4探测器时的顶级竞争对手之一。我们推测，预训练的模型可能在其第5个块中过度拟合其借口任务，因此比随机初始化的第5个块更难调整。在CRAG检测中，只有b-ConCL预训练的模型始终优于随机初始化的模型。此外，在RetinaNet检测器中发现了MoCo-v2[5]和b-ConCL之间最显著的差距[24]。正如[25]所指出的，Reti- naNet [24]是一个单级检测器，其中来自主干的局部表示比其他两级检测器更重要，因为结果是直接从它们预测的。b-ConCL的任务是区分局部概念，随后，学习的表示可能比这里的其他预训练方法更好。与不同的时间表转移使用更长的时间表进行微调可以提高下游任务的性能。为了研究b-ConCL的领先是否可以持续更长时间的微调，我们用0. 五，1 ，2 ，3 5时间表。表3显示了结果。b-ConCL在两个数据集中的较长时间表中保持其显著的增益，例如，b-ConCL达到56.2 mAP，0。5调度，这比具有5调度的MoCo-v2 [5]更好，但花费的微调时间少10在CRAG中也发现了类似的观察结果，其中b-ConCL和MoCo-v2 [5]之间的间隙变大（参见Escherrow）。总之，这些结果证实了b-ConCL5.2消融研究在本节中，我们消除了b-ConCL中的关键因素我们的默认设置从ResNetstage-4（f4（））聚类K= 8个概念由于b-ConCL建立在MoCo-v2 [5]上，因此我们将其用作比较的直接基线。概念减重λ。本文研究广义概念对比损失：L =（1 λ）Lq + λLc，其中λ[0，1]是概念损失权参数，之三. 它展示了一种将概念对比损失与实例相结合的自然方式方法GlaS数据集CRAG数据集微调时间表微调时间表0。5 × 1 ×2 ×3× 5× 0。5 × 1 ×2 ×3× 5×随机的Init. 49.1 49.8 51.4 51.8 52.7 50.2 51.1 51.9 52.4 52.8监督48.6 50.2 51.4 52.750.0 49.2 50.5 50.1 50.3MoCo-v2[5] 51.4 52.3 53.7 54.2 55.750.2 50.0 50.2 50.8 51.8b-ConCL 56.2 56.8 57.7 58.354.8 55.1 55.4 55.6∆+4.8 +4.5 +4.0 +4.1 +3.3+4.6 +5.1 +5.2 +4.8 +4.2表3：不同微调时间表下的检测性能除1个计划外的结果均为3次运行的平均值图10 B示出了b-ConCL我们在这里报道APBB。+v：mala2255获取更多论文λGlaSAP bbAPbb75峭壁AP bbAPbb750.052.360.050.055.70.153.661.150.555.90.353.661.851.757.10.553.661.851.357.00.755.264.153.159.90.956.065.153.659.61.0版56.866.255.162.21.0\ w. 56.166.254.060.6KGLAAPbbSAPbb75CRAAPbbGAPbb75152.360.050.055.7254.564.152.960.1455.664.753.459.7656.365.153.760.2856.866.255.162.21057.066.055.161.01257.466.254.260.11655.765.354.561.314 J. Yang等人。(a) 概念减肥。KGlaSAP bbAPbb75CRAAPbbGAPbb75没有一52.3 60.050.055.7f1（·）55.0 65.153.360.0f2（·）55.0 64.753.760.4f3（·）56.266.453.059.6f4（·）56.866.255.162.2f5（·）56.1 65.656.563.3(c)聚类阶段。(b) 概念的数量。GlaS检测预训练ResNet-18AP bbAP bb75ResNet-50AP bbAP bb75随机的49.857.349.956.1辅助核算50.256.947.954.2MoCo.v252.360.053.160.5b-ConCL56.866.257.065.9(d) 骨干能力。表4：消融研究。我们研究了不同的超参数对b-ConCL的影响。默认设置以灰色标记，MoCo-v2基线以灰色标记。在（a）中，意味着没有热身。对比损失我们首先询问在b-ConCL的训练过程中实例对比损失是否是不可分割的。我们改变了重量损失λ的概念，表4a报告了结果。我们在两个数据集中看到随着λ的增加，性能单调增加，这强调了概念丢失的重要性。当不使用预热时（选项卡中的最后一行4a），仅观察到轻微的每秒钟下降，这意味着预热不是b-ConCL的关键组成部分。热身与实例损失（方程。（2））是b-ConCL的一个特例，在早期训练阶段，每个实例都被视为一个概念，然后随着训练的进行，我们逐渐增加概念的数量。因此，本次消融的总体发现支持b-ConCL概念数K。在这里，我们研究了在预训练期间聚类的概念数量如何影响下游任务的性能。我们在表4b中报告了不同K的结果。当K >= 4时，b-ConCL表现相当好，大部分性能在K= 8时达到峰值。这证明了b-ConCL对K选择的稳健性。请注意，GlaS数据集的最佳性能高于我们的默认设置，并且优于表1中的所有条目，显示了b-ConCL的潜在空间。+v：mala2255获取更多论文···×ConCL：病理学密集预训练的概念对比学习15

下载后可阅读完整内容，剩余1页未读，立即下载