非均匀注意力和增强的Transformer用于组织病理学图像分类的ScoreNet模型

148 浏览量更新于2023-10-16 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6170××ScoreNet：学习非均匀注意力和增强，用于基于Transformer的组织病理学图像分类ThomasSte g müller1BehzadBozor gtabar1，2，3AntoineSpahr1Jean-PhilippeThiran1，2，31EPFL，Switzerland2 CHUV，Switzerland3 CIBM，Switzerland{firstname.lastname} @ epfl.ch图1：CutMix（左）随机混合样本，产生标签错误分配，而我们的ScoreMix（右）通过将剪切图像的高语义内容区域xc粘贴到粘贴图像的非区分区域xp来创建连贯的人工训练对（x m，y m），并通过剪切和粘贴标签的凸组合获得新标签。摘要数字病理学的进展受到高分辨率图像和详尽的本地化注释的高昂成本的阻碍。分类病理图像的常用范例是基于块的处理，其通常结合多实例学习（MIL）以聚集局部块级表示，从而产生图像级预测。尽管如此，诊断相关区域可能仅占整个组织的一小部分，并且当前基于MIL的方法通常均匀地处理图像，从而丢弃斑块间的相互作用。为了解决这些问题，我们提出了ScoreNet，一个新的高效的Transformer，利用可区分的推荐阶段来提取有区别的图像区域，并相应地分配计算资源。建议的trans-former利用本地和全球的注意力，一些动态推荐的高分辨率区域在一个有效的计算成本。我们进一步介绍一部小说并产生相干的样本-标签对。ScoreMix非常简单，并且减轻了以前增强的缺陷，这些缺陷假设了统一的语义分布并冒着错误标记样本的风险。对三个乳腺癌组织学数据集的苏木精-&伊红（&HE）的彻底实验和消融研究已经验证了我们的方法优于现有技术，包括基于变换器的模型对肿瘤感兴趣区域（TRoI）的分类。配备了建议的ScoreMix增强的ScoreNet展示了更好的泛化能力，并实现了新的最先进的（SOTA）结果，与其他混合增强变体相比，只有50%的数据。最后，ScoreNet具有高效率，优于SOTA高效转换器，即TransPath [37]和SwinTransformer [20]，吞吐量分别比上述架构高约3和4。我们的代码是公开的1.混合数据增强，即ScoreMix，由Dallag-通过图像1https://github.com/stegmuel/ScoreNet61711. 介绍由于数字切片扫描仪的日益可用性，使病理学家能够捕获高分辨率的全切片图像（WSI），计算病理学正在成为深度学习的成熟基础，最近见证了许多进步。尽管如此，从H E染色的WSI的诊断仍然具有挑战性。任务的难度是组织病理学图像数据集的两个固有属性的结果：i）图像的巨大尺寸和ii）详尽的本地化注释的成本，使得大多数深度学习模型的使用在基于块的处理方法[31，23，13]已经成为用于高维度病理图像的事实上的实践，其通过例如，卷积神经网络（CNN）用于图像级预测。尽管如此，基于块的方法增加了块级标记和进一步感兴趣区域（RoI）检测的要求，因为诊断相关的组织切片可能只需要一小部分整个组织，导致相当多的无信息补丁。先前的CNN方法[14，18]已经采用多实例学习（MIL）[22]来解决上述问题，其结合了基于注意力的聚合运算器来自动识别具有高诊断价值的组织尽管如此，这些MIL方法独立地嵌入所有补丁，并丢弃补丁间的相关性或仅在稍后阶段将其合并。最近，自监督学习（SSL）方法[18，17，32，7]旨在构建语义上有意义的可视化。通过组织病理学图像的托词任务的直观表示。尽管他们使用CNN骨干在提高分类性能方面取得了显着的成功，但CNN在另一项研究中，为了弥补缺乏多样性和大型数据集的问题，开发了混合增强技术[36，39，40]，以进一步增强这些模型的性能。虽然在自然图像数据集上有很大的性能提升，但我们认为这种数据增强可能对组织病理学图像没有此外，与CNN相反，视觉Transformer（ViT）模型[10，35]可以通过自我注意机制捕获远距离视觉依赖性，因为它们具有灵活的感受野最近，自我监督的ViT方法[37，19]结合了ViT和SSL的优点，可以有效地从较少的预训练数据中学习视觉表示。尽管它们的有用性，有相对较少的研究的影响，数据增强设计，效率和鲁棒性的ViT的组织病理学图像分类。例如，我们是否可以通过从高分辨率图像中仅选择具有高诊断价值（RoI）的信息区域来训练有效的Transformer？什么数据增强-站策略可以提高Transformer本文通过揭示有关数据增强关键方面的见解来解决这些问题，并利用自我注意力地图来识别最终任务的最相关区域，并训练高效的Transformer。捐款. 我们的贡献如下：1. 我们提出了ScoreNet，一个新的有效的Transformer为基础的架构组织病理学图像分类。它结合了一个细粒度的局部atten- tion机制与粗粒度的全局atten- tion模块，以提取细胞和组织级的功能。受益于可区分的推荐模块，所提出的架构仅处理高分辨率图像的最具鉴别力的区域，使得其在不损害准确性的情况下比竞争性Transformer架构显著更高效2. 提出了一种新的混合数据增强算法，即用于组织病理学图像的ScoreMix。ScoreMix与我们的架构协同工作，因为它们建立在相同的观察基础上：图像的不同区域对于给定的任务并不同等相关利用学到的自我注意力。在[CLS]标记中，我们在训练过程中确定图像中语义区域的分布，以确保对知情的剪切和粘贴位置进行采样1）;3. 我们的经验表明，对于BRACS数据集上的TRoI分类，ScoreNet相对于SOTA方法的一致改进，以及对于 CAME-LYON 16 和 BACH 数据集上的ScoreNetScoreNet行为的可解释性也进行了研究。最后，我们证明了ScoreNet吞吐量的改善，现有的高效变压器，使其成为一个理想的可以didate的应用程序上的WSI。我们的代码和模型将在接受后公开提供。2. 相关工作TRoIs分类。传统上，深度卷积神经网络[31，30，23，13，38]使用MIL公式[22]以分块方式处理病理图像，并聚合CNN提取的分块级特征。尽管如此，目前的MIL方法放弃了补丁间的相互作用，或者只在管道的最末端集成它。类似地，专用于特定区域的计算资源独立于其对于任务的相关性。目前的方法依赖于基于注意力的6172图2：建议的ScoreNet概述。推荐阶段提供组织级特征，并可区分地选择最具鉴别力的高分辨率补丁。聚合阶段独立地提取细胞级特征并通过局部细粒度注意机制嵌入补丁，并赋予它们全局粗粒度注意机制的上下文信息。MIL技术[14，18，15，5，28]用于解释补丁的非均匀相关性。相反，上下文线索的整合几乎保持不变，因为所有上述方法都依赖于其中补丁嵌入和补丁上下文化任务被断开的流水线。梯度流。例如，[15]处理由外部工具[16]提取的代表性补丁。因此，他们的补丁提取是固定的，不像我们的数据驱动。或者，[33]采用多视场/分辨率策略来赋予局部补丁上下文信息。在另一种研究中，已经提出了基于图神经网络（GNN）的方法[41，27]来捕获全局上下文信息。这些方法构建了一个图模型，该图模型在细胞级结构上操作或组合细胞级和组织级上下文。然而，图形生成可能是麻烦的且计算密集的，从而禁止其在实时应用中的使用。最近，SSL方法[18，17，32]已经证明了其改善组织病理学图像分类的能力这些方法中的大多数利用了托词任务，例如，对比预训练，以学习语义上有意义的特征。尽管如此，这些方法中使用的CNN骨干不可避免地放弃了对全局上下文特征的学习。基于transformer的架构[37，19]可以作为一种替代解决方案，用于将图像处理为去结构化补丁序列并捕获其全局依赖性。最近，基于混合的视觉Transformer模型[6，29，37]已用于数字病理学中，基于MIL框架[29]或未标记的组织病理学图像上的SSL预训练[37]尽管如此，这些方法对整个图像的处理是一致的，并且不允许动态提取感兴趣的区域。混合数据增强方法。最近，混合数据增强策略[36，39，39]已经得到支持。提出来增强深度网络分类器的泛化能力当增强模型对类之间的交互进行建模时，这些改进得到了进一步的实现[39]。这些方法通过从一个图像中剪切图像区域并将其粘贴到另一个图像上来创建新的增强样本，而它们的标签的凸组合给出新样本的地面真实标签。尽管现有方法的性能很强，但它们都不是真正令人满意的，因为它们要么创建表现出非典型局部特征的样本，如MixUp [40]，要么产生潜在的错误标记样本，如CutMix [39]。[5]通过重新加权混合因子w.r.t.改进了CutMix方法。在随机采样的图像区域中的注意力图值的总和，其仍然有产生错误标记的样本的风险。此外，最近基于CutMix的增强方法[36，34]具有额外的缺点。例如，Attentive CutMix [36]需要一个辅助的预训练模型来从剪切图像中选择最显著的补丁，并忽略粘贴图像中信息区域的位置SaliencyMix [34]假设图像中的区分部分与显着图高度相关，这通常不是组织病理学图像的情况。3. 方法模型概述。所提出的用于HE染色组织学TRoI的表示学习的训练流水线的概述&如图所示。2.组织学图像分类需要捕获细胞和组织水平的微环境并学习它们各自的相互作用。基于上述原因，我们提出了一种有效的Transformer，ScoreNet，它以最合适的分辨率捕获细胞级结构和组织级上下文。提供了足够的背景信息，我们617311∈×∈∈C−1`1×（N+1）x（N`+1）×xd∈∈假设并凭经验验证组织的识别可以通过仅关注其在高分辨率图像中的子区域来实现。因此，记分网包括两个阶段。前者（可区分的recommendation）提供上下文信息，并选择信息量最大的高分辨率区域。后者（聚合和预测）处理推荐区域和全局信息，以识别组织并同时对其相互作用进行建模。更确切地说，推荐阶段由ViT实现，并将缩小的图像作为输入，以在高分辨率补丁上产生语义分布。然后，最具鉴别力的高分辨率补丁的最终任务被微分提取。然后，这些选定的补丁（令牌）被馈送到第二个ViT实现本地细粒度的注意力模块，它识别每个补丁中表示的组织。其次，嵌入的补丁通过一个Transformer编码器（全局粗粒度atten- tion）相互关注。该步骤同时细化组织作为最后一步，来自推荐阶段的[CLS]标记和全局粗粒度注意力编码器的与 SOTA 方法相比，ScoreNet的工作流程不仅3.1. ScoreNet语义区域推荐。当前基于MIL的方法[14，18]基于斑块级特征聚合，通常统一处理组织病理学图像，并丢弃斑块间的相互作用。为了缓解这些问题，我们利用可区分的推荐阶段来提取与分类相关的有区别的图像区域。更具体地说，我们利用自我注意力地图的ViT作为分布的语义内容。为此，高分辨率图像首先向下-其中WvalRd×d是值矩阵，T是自注意矩阵A的第一行：A=ZWqry（ZWkey）T（2）其中，W_qry和W_key是查询矩阵和键矩阵，req。自我注意力矩阵的第一行捕获了每个标记对整体表示的贡献（等式2）。①的人。这与[CLS]标记的区分能力一致，即具有最高贡献的块是位于图像的因此，语义内容在补丁上的分布被定义为：Ppatch=Softmax（a∈T）∈RN（3）其中，1代表没有第一个条目的1，即对应于[CLS]令牌的由于ViT通常包含多个头部，因此我们建议添加一个额外的可学习参数，该参数对每个头部对最终任务的相对贡献进行加权;在聚合多个自我注意力图之后，公式与等式（1）的公式相同。3.第三章。在获取上述定义的语义分布的同时，高分辨率图像x hRC×H×W被平铺在大块（Ph Ph）的规则网格中，存储在张量PRN×C×Ph×Ph中。在推断时，选择K个语义上最相关的高分辨率区域的方便方式是将前K个索引编码为独热向量：Y∈RN×K，并提取相应的K补片，X∈RK×C×Ph×Ph通过：X=YTP（4）在训练时，由于上述公式是不可微的，我们建议采用[8]的可微方法。在扰动优化器方案之后，通过将高斯噪声σNRN×K应用于语义分布来自举top-K噪声指示器Yσ随后计算为：以因子s缩放，并随后馈送到推荐由此产生的自我注意力地图捕捉每个补丁的贡献，以整体表示-Yσ= EN最大参数Y∈C.Y，P+σN无规（5）位置。让其中σ是噪声的标准偏差，P∈RN×K图像xl∈RC×h×w，空间分辨率为h×w，包括N个维数为P1×P1的面片。照管通过广播PY和贴片以匹配的尺寸（L1）层的补丁（token）方便地表示为矩阵ZR（N+1）×d，其中d是模型的嵌入维数，额外的索引是由于[CLS]token。直到最后一个MLP并且对于单吸头，完整图像的表示由下式给出：是域的限制，确保求解方程之间的等价性。5和top-K操作[8]。高分辨率区域的提取遵循等式中描述的程序。4.类似地，指标w.r.t.语义分布P 片可以计算为：y[CLS]=softmax（aT）ZW值（一）Σ。ΣΣJPYσ=EN/σ（六）N不最大参数Y∈C6174-U∈--⊗⊙.Σ∈NΣ2其中Z c和Z p是归一化常数，并且1λ（[0，1]）定义了混合的强度，即边界框的大小。切割和切割区域的位置被编码为二进制掩码，即，Mc，Mp0，1H×W，其中值1编码中的补丁剪切/粘贴区域。在上述形式下，混合操作可以定义为：xm=（1−Mp）xp图3：ScoreMix的边界框选择方案。每个边界框（Pbbox）的分数分布是通过将区块分布图P patch与1s的核进行Mp<$xm←Mc<$xcym=λyp+（1−λ）yc（八）边界框尺寸（h bbox，w bbox）。然后从P bbox中采样bbox，我们通常将其称为P cut或P paste。计算复杂性。视觉转换器严重依靠关注机制从低级别区域学习高级别潜在的解释是，图像的不同子区域对于整体表示并不同等重要。尽管有这一关键观察结果，专用于子区域的计算成本与其对高级表示的贡献无关，这是低效的。我们的ScoreNet注意力机制通过学习将更多资源归因于高兴趣区域来克服这一缺点用于高分辨率输入图像xh.∈RC×H×W，其渐近性实际时间和内存开销为OHs·PlWs·Pl，当·其中1是一的掩码，表示逐元素乘法，并且指示索引w.r.t.面具。计算语义分布。计算粘贴和剪切图像的语义分布是流水线的必要部分，因为它允许剪切/粘贴位置的数据驱动选择，从而避免随机选择的陷阱。当边界框的大小与单个补丁的大小相匹配时，可以直接从自我注意力图中推导出分布，如第2节所述。3.因此，并且当边界框的大小与单个补丁的大小匹配时（3）第三章。在实践中，我们通常会使用包含不止一个补丁。在这种情况下，语义内容在边界框分辨率下的分布可以是推荐阶段使用按因子s缩减的输入并以P1的片大小处理它们。推导通过上述分布的局部聚合获得这个成本的，包括推荐阶段的成本，它与输入大小无关，可以在Pbbox（i）=1Zbboxj∈N（i）P贴片（j）（9）花絮3.2. ScoreMix我们提出了一种新的混合数据增强的组织病理学图像，通过学习的语义图像区域的分布，使用学习的自我注意力为[CLS]令牌的ViT，而不需要架构的变化或额外的损失。更正式地说，设xc，xpRC×H×W分别是剪切和粘贴的图像，yc和yp是它们对应的标签。我们的目标是混合剪切和粘贴样本，以生成一个新的训练样本（xm，ym）。为此，我们首先使用模型的当前参数和输入样本计算语义分布;即，我们计算Pcut（xc，θ）和Ppaste（xp，θ）。给定这些分布和随机定义的边界框大小，我们分别从剪切和粘贴分布中对剪切和粘贴位置进行采样：其中Zbbox是归一化常数，并且（i）返回位于边界框中的补丁的索引，边界框的左上角是补丁i。在实践中，这可以通过首先对补丁分布P补丁进行非平坦化，并将其与所需边界框的1和相同维度的内核进行卷积来有效地实现（见图11）。（3）第三章。4. 实验数据集。我们实验中使用的主要数据集是BReAst癌亚型（BRACS）[27]。BRACS由4391个RoI组成，所述RoI 来自 325 个 H& E 染色的乳腺癌 WSI （在 0.25µm/pixel），具有不同的尺寸和外观。每个RoI都使用七个类中的一个进行注释：正常、良性、乳腺导管增生（UDH）、非典型导管增生（ADH）、扁平上皮异型（FEA）、导管原位癌（DCIS），1Zc·P1切割（xc，θ，λ）（七）入侵。我们的实验遵循与[27]相同的数据分割方案，用于WSI级别的训练，验证和测试集，以避免测试泄漏。此外，我们使用pub-MpZ·（1 −Ppaste（xp，θ，λ））乳腺癌组织学（BACH）数据集[1]1 1 1 1 1 1 11 1 1 1 1 1 11 1 1 1 1 1 11 1 1 1 1 1 11 1 1 1 1 1 1Mcp6175×××··× ×××××来展示ScoreNet的泛化能力。它包含来自四种不同乳腺癌类型的400张训练图像和100张测试图像：正常、良性、原位和侵入性。所有图像都有一个固定的大小为1536 2048像素和像素尺度为0。420 42微米。为了评估ScoreNet的可解释性，我们在CAME-LYON 16数据集[3]上进一步评估了我们的模型，用于二元肿瘤分类。我们从高分辨率WSI中提取了1920 - 1920实验设置。我们基于ScoreNet的ViT，即推荐阶段和本地细粒度注意力机制使用的ViT，基于修改的ViT-微小架构（参见补充材料），并遵循[4]的自我监督预训练方案用于上述ViT。值得注意的是，ScoreNet的端到端预训练也是可行的。在预训练之后，使用SGD优化器（动量=0.9）优化ScoreNet，其中学习率使用线性缩放规则[11]（lr=10−2batchsize/256=3）选择。125 10−4）用余弦时间表退火直到10−6。ScoreNet被微调为15个epoch，批量大小为8。我们经验地确定顶部K = 20个区域，并且通过超参数扫描确定向下缩放因子s=8（参见图1）。补充材料中的烧蚀实验）。所有实验均在PyTorch 1.9 [25]中使用单个GeForce RTX3070 GPU实现4.1. TRoIs分类结果和讨论在表1中，我们将BRACS数据集上ScoreNet的TRoIs分类性能与最先进的TRoIs分类性能进行了比较，包括基于MIL的[23，29，21]，基于GNN的，例如，[27]和基于自监督变换器的[37]方法。第一个基于MIL的基线[23]聚合了来自在ImageNet [9]上预训练的ResNet-50[12]的倒数第二层的独立补丁表示。在128个不同放大率的贴片上进一步微调贴片模型，例如， 10、20或40。后者可以在多尺度或单尺度图像上操作，以从不同的上下文和分辨率水平中受益。类似地，我们报告了最近基于MIL的方法，TransMIL [29]和CLAM [21]使用原始实现和设置的性能。两种方法均采用不同的放大倍数进行检测（见表1）。此外，CLAM的单头（-SB）和多头（-MB）变体与模型的小（-S）和大（-B）版本一起使用（参见CLAM的实现）。我们进一步使用各种基于GNN的基线，特别是HACT-Net[27]，这是BRACS上TRoIs最后，我们报告了最近的自监督Transformer方法的性能，TransPath [37]是一种混合的基于Transformer/卷积的ScoreNet达到了新的最先进的加权F1得分64。BRACSTRoIs分类4%任务优于第二个最好的方法，HACT-Net，幅度为2。9%（表1）。报告了ScoreNet的两个变体的结果，即ScoreNet/4/1和ScoreNet/4/3，它们使用评分器的最后四个[CLS]令牌和来自粗注意机制（聚合阶段）的最后一个或最后三个[CLS]令牌。ScoreNet/4/3变体更加强调（40）中可用的特征，而ScoreNet/4/1更偏向于（5）中可用的全局表示）（与缩小因子s=8）。可以观察到，这两种模型变体在加权F1分数方面以及除了DCIS之外的几乎每个类别都显著优于现有基线。这种行为的一个潜在解释可能是DCIS组织分类的相关特征主要是基于纹理的，这有利于基于CNN的架构，其对纹理比基于变换器的模型更敏感[24]。碰巧的是，这个类的基线优于ScoreNet，都依赖于CNN特征提取器。更有趣的是，架构差异直接转化为分类结果的差异与ScoreNet/4/1相比，ScoreNet /4/3更适合于区分特征处于细胞水平的类别，当组织组织是区分标准时，ScoreNet/ 4 /1更适合。尽管如此，这两种架构确实都受益于每种尺度下可用的当线性层在评分者的[CLS]令牌上独立训练表1中的scorer表1中的编码器尽管两个模型变体之间的结果存在差异，但很明显，它们在分离时的表现都较差，这表明两个阶段的表示是互补的。简而言之，ScoreNet允许轻松调整，以满足给定任务的理想规模上的先前归纳偏差。ScoreMix数据-方案敏感性。我们还表明，与CutMix[39]和SaliencyMix [34]增强相比，配备了所提出的ScoreMix增强的ScoreNet只有10%的数据的低状态。我们提出的 ScoreMix 在只有 50% 数据的情况下优于SOTA方法，并且在只有20%数据的情况下与大多数基线相当或更好（表2）。我们认为，这些改进主要是由于在学习的语义分布的指导下生成了更连贯的样本-标签对。这将随机剪切和粘贴非歧视性的补丁，就像CutMix 一样。我们的研究结果进一步支持，在SaliencyMix中使用的图像显着性是不相关的判别区域。泛化能力。为了评估普遍性-6176××表1：使用BRACS数据集上的三次独立运行的加权和类间F1分数平均值的TRoI分类与现有技术的比较。最佳结果以粗体显示。ScoreNet/x/y引用ScoreNet的一个实例，它使用推荐模块的MILs[30]第30届中国国际音乐节42.0 ±2.242.3 ±3.139.3 ±2.022.7 ±2.547.7 ±1.250.3 ±3.177.0 ±1.446.8 ±2.2[30]第30届中国国际航空航天博览会32.3 ±4.639.0 ±0.823.7 ±1.718.0 ±0.837.7 ±2.947.3 ±2.070.7 ±0.539.4 ±1.9Agg-倒数第二（10×+20×）[30]48.3 ±2.045.7 ±0.541.7 ±5.032.3 ±0.946.3 ±1.459.3 ±2.085.7 ±1.952.3 ±1.9Agg-倒数第二（10×+20×+40×）[30]50.3 ±0.944.3 ±1.241.3 ±2.531.7 ±3.351.7 ±3.157.3 ±0.986.0 ±1.452.8 ±1.9CLAM-SB/S（10×）[21]39.6 ±4.645.5 ±4.934.7 ±2.030.4 ±6.768.8 ±1.964.3 ±0.884.2 ±2.653.9 ±1.9CLAM-SB/S（20×）[21]50.2 ±3.245.5 ±1.832.2 ±1.625.5 ±4.269.6 ±1.060.8 ±2.784.2 ±1.654.0 ±0.7CLAM-SB/S（40×）[21]47.0 ±5.238.8 ±1.830.0 ±7.729.4 ±2.965.9 ±1.252.2 ±1.376.7 ±1.649.9 ±0.8CLAM-SB/B（10×）[21]46.4 ±6.042.4 ±2.833.1 ±1.029.3 ±2.167.4 ±1.463.0 ±4.584.4 ±2.153.7 ±1.9CLAM-SB/B（20×）[21]56.2 ±1.242.3 ±4.427.4 ±2.430.1 ±4.068.5 ±2.160.9 ±2.184.6 ±1.254.3 ±1.5CLAM-SB/B（40×）[21]42.8 ±1.143.3 ±2.833.8 ±0.729.6 ±3.664.1 ±2.652.0 ±3.878.8 ±2.250.5 ±0.9CLAM-MB/S（10×）[21]42.5 ±3.343.4 ±3.631.4 ±3.232.1 ±4.867.5 ±2.259.7 ±2.483.8 ±2.052.9 ±1.7CLAM-MB/S（20×）[21]56.6 ±0.847.4 ±0.933.5 ±5.217.0 ±1.570.3 ±1.156.9 ±1.684.9 ±1.253.8 ±0.6CLAM-MB/S（40×）[21]50.2 ±7.739.3 ±2.938.6 ±2.426.5 ±8.969.4 ±2.654.1 ±3.382.9 ±2.552.9 ±0.8CLAM-MB/B（10×）[21]39.7 ±1.641.0 ±2.634.5 ±1.029.8 ±4.766.8 ±1.563.4 ±1.083.5 ±0.452.7 ±0.9CLAM-MB/B（20×）[21]59.4 ±2.047.7 ±1.231.7 ±0.720.1 ±3.468.3 ±0.459.9 ±1.786.8 ±0.654.8 ±1.0CLAM-MB/B（40×）[21]47.3 ±3.239.5 ±1.538.8 ±4.530.2 ±6.368.2 ±1.959.2 ±2.982.1 ±2.753.5 ±1.3GNNs[第41话]Patch-GNN（10×）[2]Patch-GNN（20×）[2]Patch-GNN（40×）[2][26]第二十六话[26]第26话我的世界30.8 ±5.352.5 ±3.343.9 ±4.241.7 ±3.158.8 ±6.863.6 ±4.961.0 ±4.561.6 ±2.131.6 ±4.747.6 ±2.243.4 ±3.232.9 ±1.040.9 ±3.047.7 ±2.943.1 ±2.347.5 ±2.917.3 ±3.423.7 ±4.619.5 ±2.325.1 ±3.746.8 ±1.939.4 ±4.742.0 ±4.743.6 ±1.924.5 ±5.230.7 ±1.825.7 ±2.925.6 ±2.040.0 ±3.628.5 ±4.326.1 ±3.740.4 ±2.559.0 ±3.660.7 ±5.355.6 ±2.149.5 ±3.563.7 ±10.572.1 ±1.371.3 ±2.174.2 ±1.449.4 ±3.458.8 ±1.152.9 ±1.848.6 ±4.253.8 ±3.954.6 ±2.260.8 ±3.766.4±2.675.3 ±3.281.6 ±2.279.2 ±1.171.6 ±5.181.1 ±3.382.2 ±4.085.4 ±2.788.4 ±0.243.6 ±0.552.1 ±0.647.1 ±0.743.2 ±0.655.9 ±1.056.6 ±1.357.0 ±2.361.5 ±0.9转换器TransPath [37]58.5 ±2.543.1 ±1.834.9 ±5.238.3 ±6.066.9 ±0.861.4 ±1.285.0±1.456.7 ±2.0[29]第二十九话38.7 ±5.444.0 ±2.930.5 ±4.131.0 ±11.868.1 ±2.661.8 ±1.987.3 ±2.653.2 ±1.1[29]第二十九话51.0 ±0.144.5 ±2.931.6 ±2.131.4 ±10.371.3 ±4.863.0 ±2.889.9 ±1.656.2 ±1.6[29]第二十九话47.6 ±9.842.9 ±3.641.5 ±5.338.4 ±5.972.7 ±2.662.7 ±2.987.1 ±3.957.5 ±0.7是林书编码器52.7 ±9.435.6 ±3.434.5 ±6.725.1 ±3.653.5 ±9.838.7 ±2.863.3 ±7.643.8 ±3.4是林书记分员57.5 ±4.248.8 ±5.542.7 ±3.542.7 ±7.474.3 ±5.260.5 ±2.490.6 ±0.260.9 ±3.1ScoreNet/ 4/ 164.6±2.252.6 ±2.848.4±2.247.4±2.477.9 ±0.759.3 ±1.190.6 ±1.564.1 ±0.7ScoreNet/ 4/ 364.3 ±1.554.0±2.245.3 ±3.446.7 ±1.078.1±2.862.9 ±2.091.0±1.464.4±0.9表2：使用BRACS数据集的不同部分和边界框大小的相同分布，与基于SOTA混合的增强方法[39，34]和标准随机增强策略进行数据集随机Aug.[39]第三十九话美国[34]支架10% 52.9± 2.4 53.7± 2.9 53.5± 2.755.9±1.9支架20% 57.6± 1.8 58.0± 1.4 57.8± 1.058.7±0.8支架50% 60.4± 1.8 61.2± 2.5 59.8± 2.462.3±0.6支架100% 62.7± 1.6 63.1± 1.1 62.8± 1.264.0±0.7与其他当前SOTA方法相比，ScoreNet的功能，例如，ACT-Net [26]，我们利用两个外部评估数据集，即CAMELYON 16和BACH。在BRACS 数据集上训练后，ScoreNet的权重被冻结。为了评估学习特征的质量，我们要么在冻结特征上训练线性分类器，要么在没有任何微调的情况下应用k-最近邻分类器（k=1）。我们进行分层5重交叉验证。对于HACT-Net，我们使用可用的预训练权重并遵循[27]的实现。由于HACT-Net有时无法生成嵌入，也无法进行公平比较，因此我们仅评估HACT-Net能够成功支持的样本引入嵌入（大约95%的BACH和80%的CAMELYON 16数据集）。表3中的实验结果证明了ScoreNet在学习可概括特征方面的优越性。它进一步证明了ScoreNet对放大率变化的鲁棒性。实际上，该模型是在BRACS上预训练的（40），而BACH的图像是在20倍的放大率下获得的。此外，CAMELYON 16数据集包含从乳房附近的淋巴结收集的WSI，而BRACS包含通过乳房切除术或活检收集的WSI（即，直接在乳房中）。这两个数据集之间出色的知识转移突出了ScoreNet在各种用例中学习到的特征的可转移性。可解释性？为了探测ScoreNet的内部行为，我们仅使用图像级标签在CAMELYON 16图像上微调模型。在测试时，我们将学习到的肿瘤阳性图像的语义分布进行分类。图中描绘的语义分布。4似乎表明ScoreNet学会识别肿瘤区域并解释癌症相关的形态学信息，而从未被教导这样做。方法正常良性UDHADHFEADCIS侵入性加权F1[30]第30届中国国际音乐节48.7 ±1.744.3 ±1.945.0 ±5.024.0 ±2.847.0 ±4.353.3 ±2.686.7 ±2.650.8 ± 2.66177±±±××表3：ScoreNet与在BRACS上训练并分别在BACH的注释图像和CAMELYON 16的1000个图像上评估的HACT-Net相比的报告了分层5倍交叉验证倍数的加权F1评分BRACS→ BACH BRACS→ CAMELYON 16线性k-NN线性k-NNTransPath [37] 61.8± 4.8 72.0± 2.958.1±4.8 69.9 ± 2.5[29]第29话74.0±4.859.8±3.0 60.8 ± 5.3[21]第二十一话53.3±13.069.82.5±1.9 2.5 ± 1.9CLAM-SB/B [21] 57.5± 3.6 75.3± 3.155.5±4.1 68.0 ± 1.5ACT-Net [26]40.2 ± 2.832.8 ± 5.860.0± 4.661.0 ±4.2评分网73.4± 3.5 76.9± 6.181.1± 3.5 77.0± 4.6图 4 ： ScoreNet 可解释性。语义分布的可视化，与CAMELYON 16数据集的几个从推荐阶段获得语义分布，即，在低分辨率下。ScoreNet在BRACS上进行了预训练，并在CAMELYON 16上进行了微调。是的从数量上看，我们观察到，平均74。从阳性图像中选择的20个斑块中有6%是肿瘤阳性的。此外，我们报告了73.6%的平均图像方面的AuC时，解释的概率的rec-commendation阶段采样补丁的概率，它是肿瘤阳性。消融对ScoreNet疗效的影响。关键方面ScoreNet的最大优点是与其他基于transformer的架构相比，它提高了效率。这种改进是由于分层结构的选择和组织学图像中冗余的利用。在推理时，我们期望与原始ViT相比，吞吐量增加平方缩减因子s的数量级（参见补充材料），通常s2=64，这在实践中得到了很好的反映，如表4所示。由于自我监督的预训练，ScoreNet不需要任何染色归一化或预处理，不像其竞争对手HACT-Net。类似地，ScoreNet比其他SOTA高效变压器架构产生更高的吞吐量，表4：基于ScoreNet、HACT-Net和SOTA transformer架构的推理吞吐量比较。所有型号都使用相同的图像大小和单个GeForce RTX 3070 GPU进行了测试图像大小输入（输入/输出）个）前处理HACT-Net [26]1536×20484.95 e-4 ± 1.40 e-3香草ViT [10]1536×20483.8± 0.1-[20]第二十话1536×204876.8± 0.4mmTransPath [37]1536×204897.6± 3.1mmScoreNet1536×2048335.0± 7.9mm即TransPath [37]和SwinTransformer [20]，吞吐量比这些方法高约3和4。考虑到SwinTransformer的线性渐近时间和存储器成本，后一个观察结果是有趣的，这可能是Swin-Transformer在第一层中处理大量无信息的高分辨率补丁的形状线索消融和稳健性。我们研究了ScoreNet为了做到这一点，我们研究了通过级联[CLS]令牌由模型提取的形状线索（见图11）。2）的情况。因此，我们通过在测试时对缩小后的图像的标记进行随机排列来实现形状去除。通过这种设置，达到59.8 0.8%的加权F1分数，与没有排列的64.4它证明了i）推荐阶段在第二个实验中，我们展示了整个推荐阶段也是依赖于形状的.为此，我们重复相同的实验，但补丁是从置换图像中提取的，达到加权F1分数为59.5 0.6%。我们进一步观察到，对于给定的图像，具有和不具有排列的所选补丁的重叠平均仅为15。7%，这表明ScoreNet学习的语义分布是依赖于形状的。5. 结论和未来工作我们引入了ScoreNet，这是一种基于Transformer的高效架构，可动态推荐来自大型组织病理学图像的可区分区域，以高效的计算成本产生丰富的可概括表示。此外，我们提出了ScoreMix，一个新的注意力引导的混合增强，产生相干的样本标签对。我们在BRACS数据集上实现了新的SOTA结果，6178引用[1] GuilhermeAresta，TeresaAra u'jo，ScottyK w ok，SaiSa keth Chennamsetty ， Mohammed Safwan ， VargheseAlex ， Bahram Marami ， Marcel Prastawa ， MonicaChan，Michael Donovan，et al.巴赫：乳腺癌组织学图像的巨大挑战。医学图像分析，56：122[2] BulutAy guünes ， SelimAks o

下载后可阅读完整内容，剩余1页未读，立即下载