双层特征蒸馏多实例学习：WSIs组织病理学图像分类

177 浏览量更新于2023-10-25 收藏 21.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

188020DTFD-MIL: 双层特征蒸馏多实例学习用于组织病理学整个切片图像分类0Hongrun Zhang 1 , Yanda Meng 1 , Yitian Zhao 2 , Yihong Qiao 3 , Xiaoyun Yang 4 , Sarah E. Coupland 10Yalin Zheng 1 � 1 University of Liverpool, 2 Cixi Institute of Biomedical Engineering,Chinese Academy of Sciences 3 China Science IntelliCloud Technology Co., Ltd, 4 RemarkAI UK Limited, London0{ hongrun.zhang, yanda.meng, S.E.Coupland, yalin.zheng } @liverpool.ac.uk0yitian.zhao@nimte.ac.cn, yihong.qiao@intellicloud.ai, xyang@remarkholdings.com0摘要0多实例学习（MIL）在组织病理学整个切片图像（WSIs）的分类中越来越多地被使用。然而，针对这个特定分类问题的MIL方法仍然面临着独特的挑战，特别是与小样本队列相关的挑战。在这些问题中，WSI幻灯片（袋子）的数量有限，而单个WSI的分辨率很高，这导致从该幻灯片中裁剪出大量的补丁（实例）。为了解决这个问题，我们提出通过引入伪袋的概念来虚拟增加袋的数量，然后在此基础上构建双层MIL框架，以有效利用内在特征。此外，我们还贡献了在基于注意力的MIL框架下推导实例概率的方法，并利用这个推导来帮助构建和分析所提出的框架。所提出的方法在CAMELYON-16上的性能大大超过其他最新方法，并且在TCGA肺癌数据集上的性能也更好。该框架可以扩展到更广泛的MIL应用中。代码可在以下链接找到：https://github.com/hrzhang1123/DTFD-MIL01. 引言0整个切片图像（WSIs）的自动化对计算机视觉领域构成了重大挑战。WSIs在组织病理学中的不断使用使数字病理学在工作流程和病理学家的诊断决策方面取得了巨大的改进[7, 21,24, 29,31]，但也刺激了对WSIs智能或自动分析工具的需求[11, 20,36, 40, 44, 48,49]。WSIs具有巨大的尺寸，从100M像素到10G像素不等，这一独特特性使得将现有的机器学习技术直接应用于WSIs几乎是不可行的。0图1. 传统MIL模型与提出的双层MIL模型之间的差异示意图0由于这些现有技术最初是针对自然图像或尺寸较小的医学图像而设计的，因此它们在WSI的应用中存在一些问题。对于基于深度学习的模型来说，大规模数据集和高质量的注释是训练高容量模型的主要条件。然而，WSI的巨大尺寸给像素级注释带来了巨大的负担。这个问题反过来鼓励研究人员开发使用有限注释训练的基于深度学习的模型，称为“弱监督”或“半监督”[22, 26, 35,41]。现有的大部分用于WSI分类的弱监督方法都被描述为“多实例学习”(MIL)[1, 5, 8,25]。在MIL的框架下，一个幻灯片(或WSI)作为一个袋子，包含了从幻灯片中裁剪出的数百或数千个补丁。只要有一个实例是疾病阳性，该幻灯片就被标记为阳性，否则为阴性。0在各种计算机视觉任务中，已经有一些成功的尝试解决MIL问题[19, 27, 28, 30,32]。然而，WSIs的固有特性使得开发WSI分类的MIL解决方案比其他计算机视觉子领域的解决方案更加困难，因为训练的唯一直接指导信息是188030图2.（A）深度学习图像分类系统的示意图。对图像的提取特征图应用全局平均池化，得到表示图像的特征向量。然后将特征向量传递给分类器，输出类别logits，然后通过softmax得到类别概率。（B）AB-MIL范式的示意图。通过注意力分数对实例的提取特征进行加权。通过加权实例特征的求和得到包特征，然后将其输入分类器进行包预测。0是几百个切片的标签。最臭名昭著的后果是过拟合问题，即机器学习模型在优化过程中往往会陷入局部最小值，而所学习的特征与目标疾病的相关性较小，结果训练出的模型具有较差的泛化能力。最近的许多针对WSI的MIL工作为解决过拟合问题的关键思想是利用更多的信息进行学习，除了对一组相对较少的切片的标签。相互实例关系是一个重要的探索方向，经过实证证明是有效的。相互实例关系可以是空间距离[6]或特征距离[18, 35, 37,46]，也可以通过神经模块（如循环神经网络（RNN）[3]，变压器[34]和图卷积网络[51]）来学习。许多上述方法属于基于注意力的MIL（AB-MIL）[14]，尽管它们在注意力分数的公式中有所不同。然而，人们认为在AB-MIL框架下明确推断实例概率是不可行的[18]，作为替代方案，注意力分数通常被用作正激活的指标[10, 14, 18,34]。在本文中，我们认为注意力分数不是这个目的的严格度量，相反，我们致力于在AB-MIL框架下推导实例概率。鉴于WSI的巨大尺寸，直接处理的单位是从WSI裁剪的较小补丁[12]。WSI分类的MIL模型的目标是识别与幻灯片标签最相关的最具特色的补丁。然而，幻灯片数量有限，而每个幻灯片中的补丁（实例）有数百甚至数千个，用于学习的信息仅为幻灯片级别的标签。此外，在许多组织病理学切片中，与阳性疾病对应的阳性区域仅占组织的一小部分，导致幻灯片的阳性实例比例较小。因此，引导模型识别阳性实例是具有挑战性的。0在MIL条件下，这些因素共同导致了过拟合问题的恶化。尽管最近的大多数方法利用相互实例关系来改善MIL，但它们并没有明确解决上述WSI固有特性所带来的问题。为了减轻这些问题的负面影响，我们在提出的框架中引入了“伪包”概念。也就是说，我们将一个包（切片）的实例（补丁）随机分成几个较小的伪包（pseudo-bags），并将每个伪包分配给原始包的标签，称为父包。这种策略实际上增加了包的数量，而在每个伪包中实例较少；它还使得双层特征蒸馏MIL模型成为可能。更具体地说，Tier-1AB-MIL模型应用于所有幻影包的伪包。然而，这也带来了一个风险，即来自正面父包的伪包可能没有被分配至少一个正实例，这样就引入了一个错误标记的伪包。为了解决这个问题，我们从每个伪包中提取一个特征向量，并在从幻影包的所有伪包中提取的特征上建立一个Tier-2AB-MIL模型。通过蒸馏过程，Tier-1模型为Tier-2模型提供了初始的不同特征候选，以生成更好的表示对应的父包。此外，为了进行特征蒸馏，我们利用Grad-CAM的基本思想，在AB-MIL框架下推导出实例概率，Grad-CAM是为可视化深度学习特征而开发的。本质上，我们从另一个角度处理WSI分类的MIL问题，提出了双层MIL框架。主要贡献有：（1）我们引入了伪包的概念，以减轻WSI数量有限的问题。（2）我们利用Grad-CAM的基本思想，在AB-MIL框架下推导出实例概率。鉴于AB-MIL是许多MIL工作的基础，实例概率的推导可以帮助相关研究的扩展。,(2)188040MIL方法。（3）通过利用实例概率推导，我们构建了一个双层MIL框架，并实验证明其在两个大型公共组织病理WSI数据集上的优越性。02. 相关工作02.1. WSI分析中的多实例学习0鉴于弱监督学习的重要性，有一种趋势是为WSI分析开发MIL算法，其中只有幻灯片标签可用于训练，而不是详细的像素级注释。MIL模型通常可以分为两组，基于最终包预测是直接来自实例预测[3, 9, 12, 15, 17,47]还是来自实例特征的聚合[14, 18, 23, 34, 35, 42,53]。对于前者，包预测通常是通过平均池化（实例概率的平均值）或最大池化（实例概率的最大值）获得的。相反，后者学习了一个包的高级表示，并在此包表示上构建分类器进行包级预测，通常称为包嵌入方法。尽管实例级概率池化方法在性能上被证明不如包嵌入方法[34,42]，但它们简单直接。许多基于包嵌入的模型采用了AB-MIL的基本思想，即包嵌入（或包表示）是通过对各个实例的特征加权得到的，而这些加权值通常被称为注意力分数。例如，在原始论文[14]中，注意力分数是通过一个辅助网络学习的，在DS-MIL[18]中，注意力分数是基于实例特征与关键实例之间的余弦距离，而在Trans-MIL[34]中，它们是一个编码实例之间相互关系的变压器架构的输出。从本质上讲，这些方法都是AB-MIL，为了区分，我们将原始的AB-MIL[14]称为经典AB-MIL。我们提出的方法的主要组成部分也是基于注意力的，但不限于注意力分数的生成方式。不失一般性，我们采用经典AB-MIL作为所提出框架中每个层的基本MIL模型。请注意，改变为其他变体的AB-MIL将很简单，但不是本文的主要关注点。02.2. 基于Grad的类激活图0类激活图（CAM）[52]最初作为一种空间可视化工具，用于显示深度学习模型对应于图像分类的位置。作为其广义版本，Grad-CAM（Grad-0基于Grad的类激活图（Grad-CAM）[33]能够从多层感知机（MLP）的更复杂架构中生成CAM。许多研究不仅将Grad-CAM作为一种强大的离线模型分析工具，还将其作为设计的深度学习模型中的嵌入组件，用于各种应用。例如，CAM的一个显著能力是在仅使用图像标签训练的模型中进行目标定位；因此，在弱监督任务中，如分割[4, 13, 16,43]和检测[38, 45,50]，甚至知识蒸馏[39]中，它都很流行。在本文中，我们证明了AB-MIL框架是图像分类的深度学习架构的一个特例。这一发现使得能够利用Grad-CAM的机制直接推导出AB-MIL框架下实例的正概率，并且这种推导有助于构建所提出的框架并进行相应的分析。03. 方法03.1. 重新审视Grad-CAM和AB-MIL03.1.1 Grad-CAM0端到端图像分类的深度学习模型通常由两个模块组成：用于高级特征提取的深度卷积神经网络（DCNN）和用于分类的多层感知器（MLP）。将图像输入DCNN以生成特征图，然后通过池化操作将其转换为特征向量。然后将特征向量传递给MLP以获得最终的类别概率（图2.(a)）。假设DCNN的最终输出特征图为U∈RD×W×H，其中D是通道数，W和H分别是维度大小。对特征图进行全局平均池化得到表示图像的特征向量，0f=GAP W,H(U)∈RD（1）0其中GAP W,H(U)表示全局平均池化，0W H � W,H w=1,h=1 U dw,h。使用f作为输入，MLP输出类别c∈{1,2,...,C}的logitss_c，其值表示图像属于类别c的信号强度，通过softmax操作可以得到预测的类别概率。Grad-CAM对于类别c的类别激活图被定义为特征图的加权和，0L c=0d β c d U d, β c d=10WH0W,H �0w,h0� ∂s c0∂U d w,h0�0其中L c∈RW×H，L c w,h是L c在位置w,h处的幅度值，表示该位置倾向于类别c的强度，i.e., the bag is positivor negative otherwise. One straightforward solution for thislearning problem is to assign each instance the bag label andaccordingly train a classifier, and then apply the max or av-erage pooling operation on the individual instance classifi-cations to obtain the bag-level results [42]. Another popularstrategy is to learn a bag representation F from the extractedfeatures of instances in the bag, with which the problembecomes a conventional classification task, i.e., a classifiercan be trained upon the bag representations. Empirically,the strategy of bag representation learning is proven to bemore efficient than the instance pooling strategy, which werefer to as bag embedding-based MIL. The bag embeddingis formulated as,188050图3.提出的DTFD-MIL的概述。首先从幻灯片的组织区域裁剪出一组补丁（为了方便，我们只展示了9个）。这些补丁随机分成M个伪包（例如，M=3）。然后，分别对这3个伪包应用Tier-1MIL模型。根据Tier-1模型在这3个伪包上的输出，相应地提取出3个特征向量，然后将它们传递给Tier-2MIL模型。地面真实包标签在训练过程中同时监督Tier-1和Tier-2模型，用蓝色虚线表示。0D �0L c w,h=03.1.20d=1 β c d U d w,h（3）0Y=0考虑一个实例包X={x_1,x_2,...x_K}，其中K是包中实例的数量。每个实例x_k，k∈1,2,...,K都有一个潜在标签y_k（如果是正例，则y_k=1，如果是负例，则y_k=0），假设未知。MIL的目标是检测包中是否存在至少一个正例。然而，训练时只提供包标签，定义如下：0如果y_k>0，则k=1，否则k=0（4）0F = G({ h k | k = 1, 2, ..., K })，(5)0其中G是聚合函数，h k ∈RD是实例k的提取特征。通常，许多工作采用注意力策略来获得包的表示（或嵌入），如下所示，0F =0k = 1 a k h k ∈ RD，(6)0其中a k是h k的可学习标量权重，D是向量F和hk的维度。该范式如图2(b)所示。[14, 18,23]中的注意力机制都遵循这个公式，因此它们都属于AB-MIL的范畴，但在生成注意力分数（权重值）a k的方式上有所不同。例如，经典AB-MIL[14]中的权重定义如下，0a k = exp { wT (tanh(V1h k) ⊙ sigm(V2h k)) } × K j =1 exp { wT (tanh(V1h j) ⊙ sigm(V2h j)) }，(7)0其中w、V1和V2是可学习参数。03.2. AB-MIL中实例概率的推导0尽管基于包嵌入的MIL表现更好，但在以前的研究中认为无法推导出实例的类别概率[18,42]。然而，在本文中，我们展示了在AB-MIL框架下推导出包中每个个体实例的预测概率是可能的。这个推导根据以下命题，0命题1AB-MIL范式是经典深度学习图像分类框架的一种特殊情况。0证明和解释见补充材料。基于命题1，将Grad-CAM机制应用于AB-MIL以直接推断信号Lck =∂sc∂ˆhk,d(8)188060实例k属于类别c的信号强度（c = 0表示负类，c =1表示正类）可以通过以下公式推导得到（见补充材料），0d = 1 β c d ˆ hk,d，β c d = 10K0i = 10其中s c是MIL分类器输出类别c的逻辑值，ˆ h k,d是ˆ hk的第d个元素，ˆ h k = a k K h k，其中ak是实例k的注意力分数，定义如公式（6）。通过应用softmax函数，可以得到相应的概率，0p c k = exp(L c k) ÷ C t = 1 exp(L t k)(9)03.3. 双层特征提取多实例学习0在本节中，我们提出了提出了双层特征提取MIL框架。给定N个包（幻灯片），每个包中有K n个实例（补丁），即X n= {x n,k | k = 1, 2, ..., K n}，n ∈ {1, 2, ...,N}，其中包的真实标签为Y n。补丁的相应特征，表示为hn,k，由骨干网络H提取，即h n,k = H(xn,k)。包中的实例（幻灯片）被随机分成M个伪包，每个伪包中的实例数量大致相等，X n = {X m n | m = 1, 2, ...,M}。伪包被赋予其父包的标签，即Y m n = Yn。在Tier-1中，对每个伪包应用一个AB-MIL模型，表示为T1。假设通过Tier-1模型对伪包进行的估计的包概率为y mn，0y m n = T1 × { h k = H(x k) | x k ∈ X m n}，(10)0使用交叉熵进行训练的Tier-1损失函数定义如下，0L1 = -10n = 1, m = 1 Y m n log y m n + (1 - Y m n)0(11)然后可以使用公式（8）和公式（9）推导出每个伪包中实例的概率。根据推导出的实例概率，从每个伪包中提取一个特征，表示为第n个父包的第m个伪包的ˆ f mn。所有提取的特征都被转发到Tier-2AB-MIL（表示为T2），用于推断父包。0ˆ yn = T2(ˆ fmn | m ∈ (1, 2, ..., M))（12）0Tier-2的训练损失函数T2定义为：0L2 = -10N0n = 1 Yn log ˆ yn + (1 - Yn) log(1 - ˆyn)（13）0然后进行整体优化过程：0{θ1，θ2} = arg min θ1 L1 + arg min θ2 L2（14）0其中θ1和θ2分别是T1和T2的参数。需要注意的是，伪包中存在一定比例的噪声标签，因为随机分配可能导致伪包中至少没有一个正样本实例。然而，深度神经网络在一定程度上对噪声标签具有鲁棒性。此外，伪包中的数量M可以粗略控制噪声水平。我们将在消融研究部分展示M值如何影响所提方法的性能。0考虑了四种特征蒸馏策略，如下所示：0• MaxS 最大选择：从Tier-1MIL模型中选择伪包中实现最大正概率的实例的特征，转发给Tier-2 MIL模型。0• MaxMinS最大最小选择：将伪包中两个实例的特征进行蒸馏和连接，转发给Tier-2模型：伪包中概率最大的实例和概率最小的实例。这种选择是基于以下考虑：如果只选择每个伪包中概率最大的正样本实例（如MaxS的情况），则训练的Tier-2模型的决策边界将过于紧密地靠近正样本，可能会错过与负样本相似的真正正样本[47]。通过同时引入最大和最小概率的实例，可以为Tier-2模型生成父包的特征嵌入提供更宽松的空间。0• MAS最大注意力分数选择：将伪包中具有最大分配注意力分数的实例的特征蒸馏给Tier-2 MIL模型。0• AFS聚合特征选择：将伪包中所有实例的特征（如公式（6）所示）转发给Tier-2模型。0我们在实验部分评估了所有这4种策略的性能。DTFD-MIL (MaxS)0.8680.040 0.8630.029 0.9190.037DTFD-MIL (MaxMinS)0.8940.033 0.8910.027 0.9610.021DTFD-MIL (AFS)0.8910.033 0.8830.025 0.9510.022DTFD-MIL (MAS)0.8910.029 0.8900.021 0.9550.023188070表1.CAMELYON-16测试集上的结果。下标是对应的95%置信区间。最佳结果用粗体表示。对于DTFD-MIL，伪包的数量为5。FLOPs是以一个包中实例数量为120进行测量的，且不考虑ResNet-50对实例特征提取的影响。0CAMELYON-160方法准确率 F1 AUC FLOPs 模型大小0Mean Pooling 0.626（0.616，0.636）0.355（0.346，0.363）0.528（0.518，0.538）62.4M 524.3K MaxPooling 0.826（0.798，0.854）0.754（0.694，0.813）0.854（0.816，0.891）62.4M 524.3K RNN-MIL [3]0.844（0.818，0.870）0.798（0.791，0.806）0.875（0.873，0.877）64.0M 1.57M Classic AB-MIL [14]0.845（0.839，0.851）0.780（0.769，0.791）0.854（0.848，0.860）78.1M 655.3K DS-MIL [18]0.856（0.843，0.869）0.815（0.797，0.832）0.899（0.890，0.908）117.6M 855.7K CLAM-SB [23]0.837（0.809，0.865）0.775（0.755，0.795）0.871（0.856，0.885）94.8M 790.7K CLAM-MB [23]0.823（0.795，0.85）0.774（0.752，0.795）0.878（0.861，0.894）94.8M 791.1K Trans-MIL [34]0DTFD-MIL（MaxS）0.864（0.848，0.880）0.814（0.802，0.826）0.907（0.894，0.919）79.4M 986.7KDTFD-MIL（MaxMinS）0.899（0.887，0.912）0.865（0.848，0.882）0.941（0.936，0.944）80.1M 986.7KDTFD-MIL（AFS）0.908（0.892，0.925）0.882（0.861，0.903）0.946（0.941，0.951）79.4M 986.7KDTFD-MIL（MAS）0.897（0.890，0.904）0.864（0.855，0.873）0.945（0.943，0.947）79.4M 986.7K0表2.TCGA肺癌的结果。下标是相应的标准方差。最佳结果用粗体表示。对于DTFD-MIL，伪包的数量为8。0TCGA肺癌0准确性 F1 AUC0平均池化 0.833 0 . 011 0.809 0 . 012 0.901 0 . 012 最大池化 0.846 0 . 029 0.833 0. 027 0.901 0 . 033 RNN-MIL [ 3 ] 0.845 0 . 024 0.831 0 . 023 0.894 0 . 025经典AB-MIL [ 14 ] 0.869 0 . 032 0.866 0 . 021 0.941 0 . 028 DS-MIL [ 18 ] 0.888 0. 013 0.876 0 . 011 0.939 0 . 019 CLAM-SB [ 23 ] 0.875 0 . 041 0.864 0 . 0430.944 0 . 023 CLAM-MB [ 23 ] 0.878 0 . 043 0.874 0 . 028 0.949 0 . 019Trans-MIL [ 34 ] 0.883 0 . 022 0.876 0 . 021 0.949 0 . 01304. 实验0在本节中，我们将提出的方法与其他最新的WSI多示例学习方法在组织病理学WSI上的性能进行比较，并定性验证实例概率推导的合理性。我们还进行消融实验，进一步研究提出的方法。更多实验结果请参见补充材料。04.1. 数据集0我们在两个公共组织病理学WSI数据集上评估了提出的方法：CAMELYON-16 [ 2]和癌症基因组图谱（TCGA）肺癌。请参阅补充材料了解详细信息。0这两个数据集的详细信息请参见补充材料。对于预处理，我们应用OTSU的阈值方法来定位每个WSI中的组织区域。然后从组织区域中提取大小为256×256像素的非重叠补丁。CAMELYON-16数据集共有370万个补丁，TCGA肺癌数据集共有830万个补丁。04.2. 实现细节0实现细节请参见补充材料。更多细节，请参阅发布的代码。04.3. 评估指标0对于所有实验，曲线下面积（AUC）是主要的性能指标，因为它更全面且对类别不平衡不敏感。此外，还考虑了幻灯片级别的准确性（Acc）和F1分数，这些指标由0.5的阈值确定。对于CAMELYON-16，官方的训练集进一步随机分成训练集和验证集，比例为9:1。实验运行5次，并报告CAMELYON-16官方测试集上性能指标的平均值以及相应的95%置信区间（CI-95）。对于TCGA肺癌，我们将数据集随机分成训练集、验证集和测试集，比例为65:10:25。采用4折交叉验证，并报告4个测试折的性能指标的平均值。由于每个测试折的性能差异很大，仅有4个值的CI-95的用处较小；因此，我们改为报告相应的标准方差。188080图4.根据注意力分数和补丁概率推导的热图，显示了5个子区域的热图。在“原始幻灯片”列中，肿瘤区域由蓝线标出。在第二和第三列中，较亮的青色表示相应位置的肿瘤概率较高。04.4. 与现有工作的性能比较0我们将提出的方法在CAMELYON-16和TCGA肺癌数据集上与以下方法进行了实验结果的比较：（1）传统的实例级MIL，包括平均池化和最大池化。（2）基于RNN的RNN-MIL[ 3 ]。（3）经典的AB-MIL [ 14]。（4）AB-MIL的三个变体，包括非局部注意力池化DSMIL [ 18 ]，单注意力分支CLAM-SB [ 23]和多注意力分支CLAM-MB [ 23]。（5）基于Transformer的MIL，Trans-MIL [ 34]。除了Trans-MIL之外，所有其他方法的结果都是在相同设置下使用官方代码进行实验得到的。如表1所示，与其他方法的模型大小和计算复杂度相似，除了Trans-MIL，Trans-MIL在模型大小上显著较大。0模型大小和计算复杂度。CAMELYON-16测试集的结果如表1所示，而TCGA肺癌的结果如表2所示。一般来说，实例级方法（均值池化，最大池化）在性能上不如基于包嵌入的方法。对于CAMELYON-16，大多数阳性切片只包含整个组织区域的小部分肿瘤。在不同特征精炼的提出的DTFD-MIL方法中，MaxS的性能最差，但它仍然优于其他现有的MIL方法，除了最新的Trans-MIL。其他3种DTFD-MIL方法的性能相似，明显优于其他方法。例如，DTFD-MIL（AFS）的AUC比其他现有方法至少高出4%。对于TCGA肺癌，除了DTFD-MIL（MaxS），所提出的方法也取得了领先的性能，其中DTFD-MIL（MaxMinS）获得了最佳的AUC值96.1%。然而，由于阳性切片中的肿瘤区域明显较大，即使是实例级方法在TCGA肺癌数据集上也表现良好，导致所提出的方法相对于其他现有方法的优势不太明显。相比之下，对于更具挑战性的CAMELYON-16数据集，所提出的方法对阳性切片中小部分肿瘤区域的情况表现出更强的鲁棒性。04.5. 检测结果的可视化0为了进一步探索所提出的实例概率推导方法，我们训练了一个经典的AB-MIL模型，并生成了来自CAMELYON-16的5个切片的5个子区域的热图。这些热图来自于（1）归一化的注意力分数（基于注意力）；（2）通过公式（8）和公式（9）进行的补丁概率推导（基于推导）。直接来自注意力模块的注意力分数被归一化为a'k = (ak - amin) / (amax -amin) [14, 18, 23,34]，其中amin和amax分别是切片中补丁的最小和最大注意力分数。为了更好地展示，我们在推导热图（第三行）中删除了值约为0.5的补丁的估计概率，因为它们包含的信息很少。图4中的热图展示了实例概率推导定位正激活的能力比注意力分数更好。具体而言，通过实例概率推导得到的热图中的正激活更加一致和准确，并且与注意力分数相比呈现出更好的对比度。此外，在真实的负样本切片中，注意力分数的热图中总是存在强烈的误报区域，而在实例概率推导的热图中，这些区域中的大多数可以被正确识别为负样本。在补充材料中，我们提供了关于为什么实例概率推导更有效于正激活检测的更深入分析。188090与注意力分数相比，实例概率推导对于正激活检测更高效。04.6. 消融研究0图5. 四种特征精炼策略在CAMELYON-16测试集上的AUC分数。0图6. 四种特征精炼策略在TCGA肺癌数据集上的AUC分数。0图5和图6分别显示了在CAMELYON-16和TCGA肺癌数据集上，所提出的方法在不同伪包数量下的AUC分数，其中蓝色曲线代表Tier-2MIL模型，红色曲线代表直接使用伪包的Tier-1MIL模型。从这些曲线可以总结出：0(1) .伪包思想对Tier-1和Tier-2的MIL模型都有益处。然而，在CAMELYON-16数据集中，Tier-1模型对伪包数量更为敏感：随着伪包数量的增加，相应的AUC分数急剧下降。相反，Tier-1模型对TCGA肺癌数据集中的伪包数量不太敏感，并且在适当数量的伪包下甚至能够达到高水平的性能。这种现象主要是由于在CAMELYON-16阳性切片中，肿瘤通常是小范围的区域，而在TCGA肺癌中情况相反；因此，很有可能一个伪包可能没有至少一个阳性实例分配给它。这充分证明了我们最初建立第二层MIL模型的动机，该模型基于相应伪包的精炼特征，而且总体上，Tier-2模型的性能确实优于Tier-1模型，特别是在CAMELYON-16中。(2) .在四种特征精炼策略中，DTFD-MIL（MaxS）的性能与其他三种不可比较，并且在使用MaxS特征精炼时，TCGA肺癌数据集上的Tier-2 MIL模型甚至不如Tier-1MIL模型。这表明，采用具有最高阳性响应的实例来形成包的表示并不总是最佳选择。这种现象也与图4的观察结果一致，在负样本切片中，最强的激活来自中性甚至空白区域（对应于近似为零的肿瘤概率），而不是非肿瘤组织区域。05. 结论0本文的第一个贡献是在AB-MIL框架下推导实例概率，并定性地证明推导出的实例概率是用于正区域检测的广泛使用的注意力分数的更可靠度量。然后，我们提出了DTFD-MIL，它利用了伪包和双层MIL的思想。实例概率的推导为DTFD-MIL中的特征蒸馏服务。实验结果表明，所提出的DTFD-MIL确实提供了解决MIL问题的新视角，具有优越的性能，而不像其他最新作品中使用相互实例关系。最后，我们还期望实例概率的推导将作为开发相关MIL模型的有用工具，或者用于未来工作中的相关分析，就像它在本文中提出的DTFD-MIL中所扮演的角色一样。0致谢 H. Zhang和Y.Meng感谢中国科学智云科技有限公司提供的学生奖学金。TCGA肺癌数据集来自TCGA研究网络：https://www.cancer.gov/tcga。188100参考文献0[1] JaumeAmores。多实例分类：综述，分类和比较研究。人工智能，201：81-105，2013年。 10[2] Babak Ehteshami Bejnordi，Mitko Veta，Paul JohannesVan Diest，Bram Van Ginneken，Nico Karssemeijer，GeertLitjens，Jeroen AWM Van Der Laak，MeykeHermsen，Quirine F Manson，MaschenkaBalkenhol等。诊断评估深度学习算法用于检测女性乳腺癌淋巴结转移。 JAMA，318（22）：2199-2210，2017年。 60[3] Gabriele Campanella，Matthew G Hanna，LukeGeneslaw，Allen Miraflor，Vitor Werneck KraussSilva，Klaus J Busam，Edi Brogi，Victor E Reuter，David SKlimstra和Thomas JFuchs。使用弱监督深度学习在全幻灯片图像上进行临床级计算机病理学。自然医学，25（8）：1301-1309，2019年。 2, 3, 6, 70[4] Lyndon Chan，Mahdi S Hosseini，CorwynRowsell，Konstantinos N Plataniotis和SavvasDamaskinos。Histosegnet：全幻灯片图像中组织类型的语义分割。在IEEE /CVF国际计算机视觉会议论文集中，第10662-10671页，2019年。 30[5] Zenghai Chen，Zheru Chi，Hong Fu和DaganFeng。多实例多标签图像分类：一种神经方法。神经计算，99：298-306，2013年。 10[6] Philip Chikontwe，Meejeong Kim，Soo JeongNam，Heounjeong Go和Sang HyunPark。使用中心嵌入的多实例学习进行组织病理学分类。在医学图像计算机辅助干预国际会议上，第519-528页。Springer，2020年。 20[7] Toby C Cornish，Ryan E Swapp和Keith JKaplan。全幻灯片成像：常规病理诊断。解剖病理学进展，19（3）：152-159，2012年。 10[8] Thomas G Dietterich，Richard H Lathrop和Tom´asLozano-P´erez。使用轴平行矩形解决多实例问题。人工智能，89（1-2）：31-71，1997年。 10[9] Ji Feng和Zhi-HuaZhou。深度MIML网络。在AAAI人工智能会议论文集中，第31卷，2017年。 30[10] Lucy Godson, Navid Alemi, Jeremie Nsengimana, GrahamCook, Emily L Clarke, Darren Treanor, D Timothy Bishop, JuliaA Newton-Bishop, and Ali Gooya.弱监督学习用于基于图像的原发性黑素瘤分类为基因组免疫亚组。在深度学习医学影像中，2022年。 20[11] Lei He，L Rodney Long，Sameer Antani和George RThoma。癌症检测和分级的组织学图像分析。计算机方法和程序在生物医学中，107（3）：538-556，2012年。 10[12] Le Hou，Dimitris Samaras，Tahsin M Kurc，YiGao，James E Davis和Joel HSaltz。基于补丁的卷积神经网络用于全幻灯组织图像分类。在IEEE计算机视觉与模式识别会议论文集中，页码2424-2433，2016年。2，30[13] Zilong Huang，Xinggang Wang，Jiasi Wang，WenyuLiu和JingdongWang。具有深度种子区域生长的弱监督语义分割网络。在IEEE计算机视觉与模式识别会议论文集中，页码7014-7023，2018年。30[14] Maximilian Ilse，Jakub Tomczak和MaxWelling。基于注意力的深度多实例学习。在机器学习国际会议上，页码2127-2136。PMLR，2018年。2，3，4，6，70[15] Fahdi Kanavati，Gouji Toyokawa，SeiyaMomosaki，Michael Rambeau，Yuka Kozuma，FumihiroShoji，Koji Yamazaki，Sadanori Takeo，OsamuIizuka和MasayukiTsuneki。使用深度学习进行肺癌分类的弱监督学习。科学报告，10（1）：1-11，2020年。30[16] Alexander Kolesnikov和Christoph HLampert。种子，扩展和约束：弱监督图像分割的三个原则。在欧洲计算机视觉会议上，页码695-711。

下载后可阅读完整内容，剩余1页未读，立即下载