分层自监督学习扩展到千兆像素图像的视觉变换器

51 浏览量更新于2023-10-25 收藏 20.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Richard J. Chen1, Chengkuan Chen1, Yicong Li1, Tiffany Y. Chen1,Andrew D. Trister2, Rahul G. Krishnan3,∗, Faisal Mahmood1,∗161440通过分层自监督学习将视觉变换器扩展到千兆像素图像01 哈佛大学，BWH，Broad研究所 2 比尔和梅琳达∙盖茨基金会 3 多伦多大学0richardjchen@g.harvard.edu, faisalmahmood@bwh.harvard.edu0摘要0视觉变换器（ViTs）及其多尺度和分层变体在捕捉图像表示方面取得了成功，但它们的使用通常是针对低分辨率图像（例如256×256，384×384）进行研究的。对于计算病理学中的千兆像素全幻灯片成像（WSI），WSI的大小可以达到20×放大倍率下的150000×150000像素，并且在不同分辨率下展现出视觉标记的分层结构：从捕捉单个细胞的16×16图像，到描述组织微环境内相互作用的4096×4096图像。我们引入了一种名为分层图像金字塔变换器（HIPT）的新ViT架构，它利用WSI中固有的自然分层结构，使用两个级别的自监督学习来学习高分辨率图像表示。HIPT在33种癌症类型上进行了预训练，使用了10678个千兆像素WSI、408,218个4096×4096图像和104M个256×256图像。我们在9个幻灯片级任务上对HIPT表示进行了基准测试，并证明：1）具有分层预训练的HIPT优于当前癌症分型和生存预测的最先进方法，2）自监督的ViTs能够对肿瘤微环境中表型的分层结构建模。01. 引言0组织表型分型是计算病理学（CPATH）中的一个基本问题，旨在对癌症诊断、预后和患者治疗反应的千兆像素全幻灯片图像（WSIs）中的客观组织病理学特征进行表征[39,41,54]。与自然图像不同，全幻灯片成像是一个具有挑战性的计算机视觉领域，图像分辨率可以达到150000×150000像素，许多方法使用以下基于多实例学习的三阶段弱监督框架0� 相等贡献。0图1.全幻灯片图像（WSIs）的分层结构。左图。与自然图像不同，由于WSIs具有固定的比例，因此存在不同图像分辨率下的视觉标记的分层结构。右图。除了将单个256×256图像构建为256个[16×16]标记的序列外，我们还可以将这些256×256图像视为较大的、不重叠的[256×256]标记序列的一部分，位于4096×4096区域中。0（MIL）：1）在单个放大倍率目标（“缩放”）上进行组织修补，2）对补丁级特征进行提取，构建嵌入实例序列，3）对实例进行全局池化，构建幻灯片级别的表示，以便使用幻灯片级别标签进行弱监督（例如亚型、等级、阶段、生存、起源）[12,19,37,38,52,53,68,70,85]。尽管在许多癌症分型和分级任务上实现了“临床级”性能，但这个三阶段的过程存在一些重要的设计限制。首先，修补和特征提取通常固定为[256×256]的上下文区域。虽然能够辨别细粒度的形态特征，如核异型或肿瘤存在，但[256×256]窗口在捕捉粗粒度特征（如肿瘤浸润、肿瘤大小、淋巴细胞浸润和这些表型在组织微环境中的更广泛空间组织）方面具有有限的上下文，如图1所示[6,15,22]。其次，与VisionTransformers（ViTs）等其他基于图像的序列建模方法相比，MIL仅使用全局池化运算符，因为WSIs的序列长度较大[38]。因此，这种限制阻止了Transformer注意力在学习表型之间的长程依赖性方面的应用，例如肿瘤免疫定位，这是生存预测中的一个重要预测特征[1,44,63]。最后，尽管最近的MIL方法采用了自监督学习作为补丁级特征提取的策略（在ViT文献中称为标记化），但聚合层中的参数仍需要训练[8,16,18,20,43,45,62]。在将WSIs的基于补丁的序列建模与ViTs进行比较时，我们注意到，使用Transformer注意力的架构设计选择使得ViT模型中的标记化和聚合层都能进行预训练，这对于防止MIL模型在低数据情况下过度拟合或欠拟合非常重要[5,13,23,33,46]。161450例如肿瘤浸润、肿瘤大小、淋巴细胞浸润以及这些表型在组织微环境中的更广泛空间组织等粗粒度特征，[256×256]窗口具有有限的上下文。与其他基于图像的序列建模方法（如VisionTransformers（ViTs））相比，MIL仅使用全局池化运算符，因为WSIs的序列长度较大[38]。因此，这种限制阻止了Transformer注意力在学习肿瘤免疫定位等表型之间的长程依赖关系方面的应用，这是生存预测中的一个重要预测特征[1,44,63]。最后，尽管最近的MIL方法采用了自监督学习作为补丁级特征提取的策略（在ViT文献中称为标记化），但聚合层中的参数仍需要训练[8,16,18,20,43,45,62]。在将WSIs的基于补丁的序列建模与ViTs进行比较时，我们注意到，使用Transformer注意力的架构设计选择使得ViT模型中的标记化和聚合层都能进行预训练，这对于防止MIL模型在低数据情况下过度拟合或欠拟合非常重要[5,13,23,33,46]。0为了解决这些问题，我们探索了在WSIs中开发VisionTransformer进行幻灯片级别表示学习的挑战。与活跃地探索ViTs的自然图像相比，我们注意到在建模WSIs时的一个关键区别是，对于给定的放大目标，视觉标记始终处于固定的比例。例如，以20×目标扫描WSIs会导致每个像素约为0.5µm的固定比例，从而可以一致地比较可能阐明重要组织形态学特征的视觉元素，超出其正常参考范围。此外，WSIs还展示了在20×放大倍率下不同图像分辨率的视觉标记的分层结构：16×16图像包含细胞和其他细粒度特征（基质、肿瘤细胞、淋巴细胞）的边界框，256×256图像捕捉细胞间的局部聚类（肿瘤细胞含量），1024×1024-4096×4096图像进一步描述细胞簇之间的宏观尺度相互作用以及它们在组织中的组织（描述肿瘤浸润与肿瘤远离淋巴细胞的程度），最后是WSI的幻灯片级别上的组织微环境的整体肿瘤异质性。这项工作测试的假设是，巧妙地利用这种分层结构进行自监督学习会得到更好的幻灯片级别表示。0我们引入了一种基于Transformer的架构，用于在千兆像素病理图像中进行视觉标记的分层聚合和预训练，称为Hierarchical Image Pyra-0我们采用了mid Transformer(HIPT)来处理幻灯片级别的表示学习任务，类似于语言建模中学习长文档表示的方式，我们开发了一个三阶段的分层架构，从各自的256×256和4096×4096窗口中的[16×16]视觉标记进行自下而上的聚合，最终形成幻灯片级别的表示，如图2所示。我们的工作在视觉Transformer和自监督学习方面有两个重要的突破。通过将WSIs建模为一组不相交的嵌套序列，在HIPT中：1）我们将学习WSI的良好表示的问题分解为层次相关的表示，每个表示都可以通过自监督学习来学习，2）我们使用学生-教师知识蒸馏（DINO[13]）来预训练每个聚合层，以4096×4096的大区域进行自监督学习。我们将HIPT应用于以20×分辨率提取的千兆像素组织病理学图像的表示学习任务。我们表明，我们的方法在传统的MIL方法中取得了更好的性能。这种差异在上下文感知任务中尤为明显，例如生存预测，在这种任务中，更大的上下文有助于表征组织微环境中更广泛的预后特征。通过在模型的4096×4096表示上使用K最近邻算法，我们在幻灯片级别分类中超过了几种弱监督架构，这是实现自监督幻灯片级别表示的重要一步。最后，类似于自监督ViTs在自然图像上可以执行场景布局的语义分割，我们发现自监督ViTs中的多头自注意力可以学习组织病理学组织中的视觉概念（从ViT 256-16中的细粒度视觉概念，如细胞位置，到ViT4096-256中的粗粒度视觉概念，如更广泛的肿瘤细胞含量），如图3、4所示。我们在https://github.com/mahmoodlab/HIPT上提供了代码。02. 相关工作0WSI中的多实例学习。在通常的基于集合的深度学习中，Edwards＆Storkey和Zaheer等人提出了第一个在基于集合的数据结构上操作的网络架构，Brendel等人证明了“特征包”能够在ImageNet上达到高准确率[10, 25,80]。与此同时，在病理学中，Ilse等人将基于集合的网络架构扩展为组织学感兴趣区域的多实例学习方法，Campanella等人后来扩展了对吉比像素WSI的端到端弱监督[12,38]。Lu等人证明，通过使用在ImageNet上预训练的ResNet-50编码器进行实例级特征提取，只需要训练全局池化运算符即可进行弱监督的幻灯片级任务[53]。在Lu等人之后，出现了许多变体的MIL，这些变体采用了诸如VAE-GANs、SimCLR和MOCO之类的图像预训练技术作为实例级特征提取[45, 62,84]。最近的MIL变体还发展了聚合层和评分函数[17, 64, 68, 75, 77, 78,85]。Li等人提出了一种多尺度MIL方法，该方法在20×和5×分辨率上进行裁剪和自监督实例学习，然后对补丁进行空间解析对齐[45]。在WSI中整合放大倍率目标的方法也在其他工作中得到了跟进[29, 32, 56,58]，但我们注意到，跨目标组合视觉标记不会具有相同的尺度。在这项工作中，裁剪是在单个放大倍率目标上进行的，使用更大的补丁尺寸来捕捉宏观尺度的形态特征，我们希望这将有助于重新思考WSI的上下文建模。Patch Size and Visual Token Notation: We use the follow-ing notation to distinguish between the sizes of “images”and “tokens” that correspond to that image. For an image xwith resolution L × L (or xL), we refer to sequence of ex-tracted visual tokens from non-overlapping patches (of size[l×l]) within xL as {x(i)l }Mi=1 ∈ RM×dl, where M is the se-quence length and d is the embedding dimension extractedfor l-sized tokens. In working with multiple image resolu-tions (and their respective tokens) in a WSI, we additionallydenote the shape of visual tokens (and the patching param-eter) within xL image as [l ×l] (using brackets). For naturalimages with size x256, ViTs generally use l = L1/2 = 16which results in a sequence length of M = 256. Addition-161460方法0视觉Transformer和图像金字塔。Vaswani等人的开创性工作不仅在语言建模方面取得了显著进展，而且在通过视觉Transformer（ViTs）进行图像表示学习方面也取得了显著进展，其中256 × 256图像被构建为一个[16 ×16]的图像补丁序列[23, 69,71]。受到多尺度、金字塔式图像处理的启发[11, 42,61]，ViT架构的最新进展侧重于效率和多尺度信息的整合（例如Swin、ViL、TNT、PVT、MViT），以解决视觉标记的不同尺度/纵横比[27, 31, 51, 72,81]。与病理学相比，我们强调，如果图像尺度在给定放大倍率下固定，则学习尺度不变性可能是不必要的。与我们的工作类似的是NesT和HierarchicalPerciever，它们通过Transformer块类似地将非重叠图像区域进行分区和聚合特征[14,83]。一个关键的区别是我们展示了每个阶段的ViT块可以分别进行高分辨率编码（高达4096 × 4096）的预训练。03.1. 问题阐述0在这里，我们将一个在L大小的图像分辨率上使用[l ×l]个标记的ViT表示为ViT L − l。对于WSI的xWSI（指WSI的幻灯片级分辨率），MIL方法选择l =256，这适应了可以预训练和用于标记化的CNN编码器的输入形状，导致M >10,000（由于分割组织内容的总面积而变化）。幻灯片级弱监督：对于具有结果y的WSI xWSI，目标是解决幻灯片级分类任务P(y|xWSI)。解决此任务的传统方法使用三阶段的MIL框架，包括：1）[256 ×256]的裁剪，2）标记化和3）全局注意力汇聚。xWSI被表示为序列{x(i)256}Mi=1∈RM×1024，这是使用在ImageNet上预训练的ResNet-50编码器（在第3个残差块之后截断）得到的结果。由于具有l =256的大序列长度，该任务中的神经网络架构受限于每个补丁和全局池化运算符，以提取用于下游任务的幻灯片级嵌入。03.2. 分层图像金字塔变换器（HIPT）架构0在适应ViTs进行幻灯片级别表示学习时，我们重申与自然图像的计算机视觉不同的两个重要挑战：1）视觉令牌的固定比例及其在图像分辨率上的分层关系，以及2）未展开的WSI的大序列长度。如前所述，组织病理学中的视觉令牌通常是以对象为中心（并且在粒度上有所变化）的，并且还具有重要的上下文依赖性，例如肿瘤免疫（推断有利的预后）或肿瘤基质相互作用（推断侵袭）。在高目标（20×）下使用小视觉令牌（x256）进行分割会导致大的序列长度，使得自注意力变得棘手，而在低目标下使用大视觉令牌进行分割会导致细粒度形态结构的细节丢失（x256在5×时），仍然需要[256×256]在20×时进行分割。为了捕捉这种分层结构和可能存在于每个图像分辨率上的重要依赖关系，我们将WSI作为长文档一样的嵌套聚合的视觉令牌来处理，递归地将其分解为较小的令牌，直到单元级别（图2），写为：0HIPT(xWSI) = ViT WSI-4096 �� CLS(k)4096 �0→ CLS(k)4096 = ViT 4096-256 �0→ CLS(j)256 = ViT 256-16 � {x(i)16}256 i=1 �0其中256是[16×16]和[256×256]图像在x256和x4096图像中的序列长度，M是x4096图像在xWSI中的总数。为了简化表示，我们将x16图像称为单元级别，x256161470图2.HIPT架构。受自然语言处理中使用分层表示的启发，其中嵌入可以在字符级、词级、句子级和段落级别上聚合以形成文档表示，我们在x16单元级别、x256补丁级别、x4096区域级别上聚合视觉令牌以形成幻灯片表示。为了在每个阶段也建模视觉概念之间的重要依赖关系，我们将Transformer自注意力作为置换等变聚合层进行调整。请注意，由于使用x256令牌对x4096区域进行分割的复杂性与使用x16令牌对x256图像进行分割的复杂性相同，因此我们可以使用类似的自监督ViT技术为低分辨率图像预训练高分辨率图像的聚合层。0将图像视为补丁级别的1，将x4096图像视为区域级别，整个WSI为幻灯片级别。在选择这些图像尺寸时，对于ViT256-16和ViT4096-256（单元和补丁级别聚合），前向传递中的令牌的输入序列长度始终为M = 256，并且对于ViTWSI-4096（幻灯片级别聚合），前向传递中的M <256。来自ViT256-16（模型的输出）的[CLS]令牌被用作ViT4096-256的输入序列，然后使用来自ViT4096-256的[CLS]令牌作为ViTWSI-4096的输入序列，每个阶段的总视觉令牌数量按256的几何倍数递减。在为每个阶段选择小的ViT骨干时，HIPT的参数少于10M，并且易于在商业工作站上实现和训练。我们在下面描述每个阶段。0ViT256-16用于单元级别聚合。在x256窗口内，x16单元级令牌聚合的计算遵循在自然图像中实现的基本ViT[23]。给定一个x256补丁，ViT将该图像展开为一系列非重叠的[16×16]令牌，然后是一个线性嵌入层，附加位置嵌入-01“补丁”通常用于描述病理学中的256×256图像，尽管我们注意到“补丁”图像分割成较小的图像可以指任何分辨率。0dings生成一组384维嵌入{x(i)16}256i=1∈R256×384，其中添加了可学习的[CLS]令牌以聚合序列中的细胞嵌入。在这种设置中，我们选择l=16，不仅遵循常规的ViT架构，还模拟组织病理学中的重要归纳偏差，因为在这个分辨率下，20×≈8µm2面积的[16×16]边界框编码了在特征化单个细胞时以对象为中心的视觉概念（例如细胞身份、形状、圆度）。0ViT4096-256用于补丁级聚合。为了表示x4096区域，尽管图像分辨率远大于常规自然图像，但令牌的数量保持不变，因为补丁大小与图像分辨率成比例。从前一个阶段开始，我们使用ViT256-16对每个x4096区域内的非重叠x256补丁进行标记化，形成序列{[CLS](j)256}256j=1，可以插入ViT块以建模更大的图像上下文。我们使用ViT4096-256（n=4，h=3，d=192）和输出[CLS]4096。0ViTWSI-4096用于区域级聚合。在计算xWSI的幻灯片级表示时，我们使用ViTWSI-4096（n=2，h=3，d=192）来聚合[CLS]4096令牌。M在我们的观察中范围从1到256，具体取决于WSI的大小。由于在[4096×4096]的裁剪中可能存在组织分割的不规则性，我们在这个阶段忽略位置嵌入。In building a MIL framework using only Transformerblocks, we additionally explore and pose a new challengereferred to as slide-level self-supervised learning - whichaims at extracting slide-level feature representations in gi-gapixel images for downstream diagnostic and prognostictasks. This is an important problem as current slide-leveltraining datasets in CPATH typically have between 100 to10,000 data points, which may cause MIL methods to over-fit due to over-parameterization and lack of labels.2 To ad-dress this problem, we hypothesize that the recursive natureof HIPT in using Transformer blocks for image representa-tion learning can enable conventional ViT pretraining tech-niques (such as DINO [13]) to generalize across stages (ofsimilar subproblems) for high-resolution images. To pre-train HIPT, first, we leverage DINO to pretrain ViT256-16.Then, keeping fixed the weights of ViT256-16, we re-useViT256-16 as the embedding layer for ViT4096-256 in asecond stage of DINO. We refer to this procedure as hierar-chical pretraining, which is similarly performed in the con-text of learning deep belief networks [26] and hierarchicaltransformers for long documents [82]. Though hierarchicalminθs256 �g1�l1H�pt256(x(i)224), ps256�x(j)96� �161480图3.自监督ViTs的多头自注意力可视化。对于浸润性导管癌（IDC），我们展示了在x256和x4096区域上预训练的ViT 256-16和ViT4096-256的自监督可视化。对于x256补丁，ViT256-16能够描绘出x16令牌中的基质、细胞和“白色空间”的存在。对于x4096区域，ViT4096-256描绘出粗粒度的形态特征，如肿瘤巢和其周围的脱细胞（松散）基质。03.3. 分层预训练0对于罕见疾病亚型和研究疾病进展的临床试验，收集大型患者数据集难以扩展用于机器学习应用。0预训练虽然没有达到幻灯片级别，但我们展示了：1）自监督评估中预训练的x4096表示与幻灯片级子类型的监督方法竞争力相当，以及2）具有两阶段分层预训练的HIPT可以达到最先进的性能。0阶段1：256×256补丁级预训练。为了对ViT256-16进行预训练，我们使用DINO框架对256个补丁进行预训练，其中学生网络ϕs256通过交叉熵损失−pt256(∙)logps256(∙)与动量编码的孪生教师网络ϕt256的概率分布进行匹配，其中pt256，ps256分别表示ϕt256(∙)，ϕs256(∙)的输出，用于x256。作为每个x256补丁的数据增强，DINO构建了一组Ml=8个局部视图（x96裁剪，通过ϕs256传递）和Mg=2个全局视图（x224裁剪，通过ϕt256传递），以鼓励学生和教师之间的局部到全局对应关系，最小化函数：0M g=20M l=80这种数据增强适用于组织学数据的一个有趣特性是细胞在组织块中的自然部分-整体层次结构。与自然图像相比，在自然图像中，[96 ×96]的裁剪可能只捕捉到颜色和纹理，而没有任何语义信息，而在20倍下，局部[96 ×96]的裁剪将捕捉到多个细胞及其周围的细胞外基质的上下文，这与更广泛的细胞社区共享相互信息。与原始DINO实现类似，我们对所有视图使用水平翻转和颜色抖动，其中一个全局视图上进行太阳化处理。0阶段2: 4096 × 4096 区域级预训练. 由于将 x 4096个区域的序列长度和计算复杂度与 x 256个补丁相似，我们在这个阶段也可以借用几乎相同的DINO方法来预训练 ViT 4096 - 256 并定义学生-教师网络 ϕ s4096 ( ∙ ) , ϕ t 4096 ( ∙ ) 。在将 ViT 256 - 16 的 [CLS] 256个标记提取为 ViT 4096 - 256 输入后，我们将 { [CLS] ( j )256 } M =256 j =1 重新排列为一个 16 × 16 × 384的2D特征网格，用于数据增强，在匹配 [96 × 96] , [224× 224] 的尺度上执行 [6 × 6] , [14 × 14]的局部-全局裁剪，用于 256 × 256的输入。作为额外的数据增强，我们根据Gao等人的工作应用标准的dropout（ p = 0 . 10 ）到所有视图。04. 实验0MIL [53]0.673 ± 0.1120.778 ± 0.0910.857 ± 0.0590.892 ± 0.0420.904 ± 0.0550.959 ± 0.015CLAM-SB [53]0.796 ± 0.0630.858 ± 0.0670.852 ± 0.0340.928 ± 0.0210.957 ± 0.0120.973 ± 0.017DeepAttnMISL [78]0.685 ± 0.1100.784 ± 0.0610.663 ± 0.0770.778 ± 0.0450.904 ± 0.0240.943 ± 0.016GCN-MIL [84]0.727 ± 0.0760.840 ± 0.0730.748 ± 0.0500.831 ± 0.0340.923 ± 0.0120.957 ± 0.012DS-MIL [45]0.760 ± 0.0880.838 ± 0.0740.787 ± 0.0730.920 ± 0.0240.949 ± 0.0280.971 ± 0.016HIPT0.8210.0690.8740.0600.9230.0200.9520.0210.9740.0120.9800.013161490BRCA亚型 NSCLC亚型 RCC亚型0架构 25% 训练 100% 训练 25% 训练 100% 训练 25% 训练 100% 训练0ResNet-50 IN (均值) 0.638 ± 0.089 0.667 ± 0.070 0.696 ± 0.055 0.794 ± 0.035 0.862 ± 0.030 0.951 ± 0.016 ViT256 -16 (均值) 0.605 ± 0.092 0.725 ± 0.083 0.622 ± 0.067 0.742 ± 0.045 0.848 ± 0.032 0.899 ± 0.0270ViT 4096 -256 (均值) 0.682 ± 0.055 0.775 ± 0.042 0.773 ± 0.048 0.889 ± 0.027 0.916 ± 0.022 0.974 ± 0.0160表1. 幻灯片级分类. 顶部行. 通过对其他弱监督架构进行10折交叉验证AUC性能评估HIPT的消融研究.对于RCC亚型分类，我们报告了三个亚型的宏平均AUC性能. 底部行. 通过使用平均预提取的嵌入评估K最近邻（KNN）性能的消融研究.0来自The Genome Cancer Atlas(TCGA)中33种癌症类型的石蜡包埋（paraffin-embedded）H&E染色诊断切片，提取了408,218个 x 4096个区域，使用20倍目标的物镜（每个幻灯片平均约38个区域）进行了 ViT 4096 - 256 的预训练，总共有104M个 x 256个补丁用于 ViT 256 - 16 的预训练 [ 50 ]。对于 ViT 256 -16 ，我们进行了400,000次迭代训练，使用批量大小为 256的AdamW优化器，基础学习率为0.0005，前10个epoch用于逐渐达到基础学习率，然后使用余弦调度进行衰减。ViT4096 - 256的实现类似，模型进行了200,000次迭代训练，使用了预提取的 ViT 256 - 16 的 [CLS] 令牌。0微调：在分层预训练之后，我们使用预训练的权重来初始化（并冻结）ViT 256 - 16和ViT 4096 -256子网络，只有轻量级的ViT WSI -4096进行微调。我们的工作可以被视为对MIL的一个公式化，它不仅预训练了[256 ×256]实例级特征提取步骤，还预训练了提取粗粒度形态特征的下游聚合层。我们使用Adam优化器对HIPT（及其比较方法）进行了20个epochs的微调，批量大小为1，梯度累积步数为32，学习率为0.01。对于生存预测，我们使用了Zadeh和Schmidt提出的生存交叉熵损失函数[ 79 ]。0任务和比较：我们在TCGA [ 50]中的不同器官类型上进行了几个切片级分类和生存结果预测任务的实验。在与最先进的弱监督架构进行比较时，我们测试了基于注意力的MIL（ABMIL）及其使用聚类损失（CLAM-SB）、聚类原型（DeepAttnMISL）、修改评分和池化函数（DS-MIL）以及图消息传递（GCN-MIL）的变体，这些方法使用了与HIPT相同的超参数。由于这些方法对输入特征不加假设，因此所有比较都使用预训练的ViT 256 -16作为实例级特征。0特征提取。此外，我们还比较了没有预训练和自注意力的HIPT的变体。最后，我们定性地研究了分层自监督ViTs在计算组织病理学中学习的注意力图。04.1. 切片级分类0数据集描述。我们遵循[ 53]中的研究设计；我们使用10折交叉验证AUC评估以下任务：1）浸润性导管癌（IDC）与浸润性小叶癌（ILC）在浸润性乳腺癌（BRCA）亚型中的区分，2）肺腺癌（LUAD）与肺鳞状细胞癌（LUSC）在非小细胞肺癌（NSCLC）亚型中的区分，以及3）清液细胞癌、乳头状细胞癌和色素细胞癌（CCRCC vs. PRCC vs.CHRCC）亚型的区分，所有方法都进行了微调（20个epochs），使用不同百分比的训练数据（100% /25%）作为数据效率实验。尽管RCC亚型是一个相对简单的切片级任务，因为它具有明显的亚型，但我们最终将此任务作为自监督比较的基准。0弱监督比较。分类结果总结在表1中。总体而言，在所有任务和不同百分比的折叠中，HIPT始终在所有任务中实现了最高的宏平均AUC性能。与表现最佳的基线方法CLAM-SB相比，HIPT在使用100%的训练数据时，在BRCA、NSCLC和RCC亚型的区分上分别提高了1.86%、2.59%、0.72%，在使用25%的训练数据时，这一提高幅度分别扩大到3.14%、8.33%、1.78%。其他任务也展示了类似的性能提升。当限制训练数据时，HIPT表现出最稳健的性能，AUC从0.980略微下降到0.974。0K最近邻（KNN）。我们取平均嵌入ABMIL [38]0.487 ± 0.0790.566 ± 0.0750.561 ± 0.0740.671 ± 0.0760.584 ± 0.0540.562 ± 0.049DeepAttnMISL [78]0.472 ± 0.0230.561 ± 0.0880.521 ± 0.0840.472 ± 0.1620.563 ± 0.0370.563 ± 0.067GCN-MIL [49,84]0.534 ± 0.0600.538 ± 0.0490.591 ± 0.0930.636 ± 0.0660.592 ± 0.0700.513 ± 0.069DS-MIL [45]0.472 ± 0.0200.470 ± 0.0530.548 ± 0.0570.654 ± 0.1340.537 ± 0.0610.546 ± 0.047HIPT0.634 ± 0.0500.608 ± 0.0880.642 ± 0.0280.670 ± 0.0650.538 ± 0.0440.570 ± 0.081161500架构 IDC CRC CCRCC PRCC LUAD STAD0表2. 生存预测. 通过消融研究评估HIPT在其他弱监督架构中的交叉验证c-Index。0对于上述任务，我们首先使用在ImageNet上预训练的ResNet-50提取补丁级别的嵌入，然后进行KNN评估。作为基线，我们使用DINO预训练的ViT256-16补丁嵌入和分层预训练的ViT4096-256区域级嵌入进行比较，结果也总结在表1中。在将每个WSI的平均嵌入作为“幻灯片级表示”的情况下，我们发现HIPT中的ViT4096-256区域级嵌入在所有任务中优于补丁级嵌入，这可以归因于预训练中使用的更广泛的图像上下文，并且可以直观地视为比小补丁更接近幻灯片级视图的代理。 ViT4096-256区域级嵌入在使用100％的训练数据进行BRCA和RCC亚型划分的弱监督方法中超过了AUC性能。04.2. 生存预测0数据集描述。对于生存结果预测，我们在IDC、CCRCC、PRCC和LUAD癌症类型上进行了验证，这些类型在TCGA中具有相对较大的样本量，此外还包括由于其人类内观察者变异性较大而经常在现实世界临床研究中进行评估的结肠和直肠（CRC）和胃腺癌（STAD）[24,66,73]。所有任务都使用交叉验证的一致性指数（c-Index）进行评估。0弱监督比较。对于以下需要学习上下文感知关系的生存预测任务，我们观察到性能有较大提升，总结如表2所示。总体而言，HIPT在IDC、COAD-READ、CCRCC和STAD癌症类型中表现出最佳的c-Index性能，其中在IDC（0.634）和COAD-READ（0.608）相对于其他方法有最大的改进。尽管其他方法如GCN-MIL使用消息传递来学习上下文感知特征，但我们注意到为了实现类似的图像感受野，所需的层数可能会导致邻居的数量呈指数增长[47]。在使用每个WSI的平均嵌入作为“幻灯片级表示”的情况下，我们发现HIPT中的ViT 4096-256区域级嵌入在所有任务中优于ViT256-16补丁级嵌入，这可以归因于用于预训练的WSI中使用的更广泛的图像上下文，并且可以直观地视为比小补丁更接近幻灯片级视图的代理。 ViT4096-256区域级嵌入在使用100％的训练数据进行BRCA和RCC亚型划分的弱监督方法中超过了AUC性能。0预示着不同癌症类型的恶化结果，如图3、4所示[1,66,73,74]。04.3. 自监督的ViTs发现了独特的形态学表型0ViT 256-16注意力图。对于x256个补丁，我们可视化了MHSA中的不同注意力头，并揭示了病理学中的ViT能够隔离出不同的形态学特征。通过经过认证的专业病理学家对几种不同癌症类型进行视觉评估，我们观察到ViT 256-16（n = 8，h = 6，d =384）中的MHSA捕获了三种不同的细粒度形态学表型，如图3所示，其中h = 1,2关注普通基质组织和红细胞，h =3,4关注细胞（正常、非典型、淋巴细胞），h =5,6关注“白色空间”（腔内空间、脂肪区域、气泡）。这一观察结果与当前研究一致，即自监督的ViT模型的注意力头可以用作对象定位或发现的方法[13,65]。在应用于组织病理学时，我们的内省揭示了ViT256-16中[16×16]细胞级别的视觉标记与20×目标的语义、以对象为中心的结构直接一致。ViT4096-256注意力图。对于x4096个区域，我们进一步可视化了我们预训练的ViT4096-256（n = 4，h = 6，d =192）模型中的MHSA中的注意力头，捕获了两种不同的粗粒度表型：h = 1,2,3关注肿瘤基质界面，h =4,5,6关注嵌套肿瘤细胞和其他高肿瘤细胞密度区域。与仅捕获核特征（例如核非典型性、细胞形状和大小）的ViT256-16注意力图相比，ViT4096-256注意力图能够模拟嵌套肿瘤生长、肿瘤侵袭脂肪和基质区域以及其他组织之间的关系（图3）。通过将ViT256-16中[16×16]细胞的注意力分布因子化为ViT4096-256中高度关注的[256×256]补丁，我们可以创建一个分层的注意力图，能够区分基质组织中的肿瘤细胞和高肿瘤细胞密度区域中的肿瘤细胞（图4）。总体而言，这些捕获的粗粒度和细粒度形态学特征与在弱监督学习中微调HIPT和在KNN评估中使用平均HIPT特征的观察到的性能提升相一致。附加的可视化结果-161510图4. HIPT中的分层注意力图。对于结直肠癌（CRC），我们观察到在ViT 256 -16中类似的基质、细胞和“白色空间”的划分，并将肿瘤侵袭定位到基质和肌肉（A）以及ViT 4096 -256中的低分化腺体（B）。通过将这些注意力分布因子化在一起，我们开

下载后可阅读完整内容，剩余1页未读，立即下载