生存预测的多模态共同关注变换器用于千兆像素全切片图像中的生存预测

139 浏览量更新于2023-10-14 收藏 20.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Richard J. Chen1,2,3,4, Ming Y. Lu1,3,4, Wei-Hung Weng5, Tiffany Y. Chen1,3,4,Drew FK. Williamson1,3,4, Trevor Manz1,2, Maha Shady1,2,3,4, Faisal Mahmood1,3,440150用于生存预测的多模态共同关注变换器0在千兆像素全切片图像中01布里格姆妇女医院病理科02生物医学信息学系，哈佛医学院03癌症计划，哈佛大学和麻省理工学院Broad研究所04癌症数据科学计划，达纳-法伯癌症研究所05计算机科学和人工智能实验室，麻省理工学院0richardchen@g.harvard.edu, faisalmahmood@bwh.harvard.edu0摘要0生存结果预测是一个具有挑战性的弱监督任务0计算病理学中的监督和序数回归任务涉及对千兆像素全切片图像（WSI）中肿瘤微环境内的复杂相互作用进行建模。尽管在将WSI作为多实例学习（MIL）的包时取得了一些进展，但整个WSI的表示学习仍然是一个开放且具有挑战性的问题，特别是在克服以下方面：1）大型包中特征聚合的计算复杂性，以及2）整合生物学先验（如基因组测量）中的数据异质性差距。在这项工作中，我们提出了一种多模态共同关注变换器（MCAT）框架，该框架在嵌入空间中学习WSI和基因组特征之间的可解释的密集共同关注映射。受到视觉问答（VQA）方法的启发，VQA方法可以在回答问题时将词嵌入关注的显著对象可视化，MCAT方法可以在预测患者生存时将组织学图像块关注于基因。除了可视化多模态交互，我们的共同关注变换还减少了WSI包的空间复杂性，从而使Transformer层能够作为MIL中的通用编码器骨干。我们将我们提出的方法应用于五个不同的癌症数据集（4,730个WSI，6700万个图像块）。我们的实验结果表明，与最先进的方法相比，所提出的方法始终实现了更好的性0问答（VQA）方法可以在回答问题时将词嵌入关注的显著对象可视化，MCAT方法可以在预测患者生存时将组织学图像块关注于基因。除了可视化多模态交互，我们的共同关注变换还减少了WSI包的空间复杂性，从而使Transformer层能够作为MIL中的通用编码器骨干。我们将我们提出的方法应用于五个不同的癌症数据集（4,730个WSI，6700万个图像块）。我们的实验结果表明，与最先进的方法相比，所提出的方法始终实现了更好的性能。01. 引言0尽管深度学习已经彻底改变了计算机视觉0在许多学科中，千兆像素全切片成像0（WSI）在计算病理学中仍然是一个复杂的计算机视觉领域，存在一些障碍，使得当前的方法在癌症预后等监督学习任务中不可行。在自然图像的图像分类中，目标通常是为具有大约256x256像素大小的图像分配一个图像级标签，其中标签在图像中清晰可见且有很好的代表性。在病理学中，WSI打破了这些假设，因为图像表现出巨大的异质性，可以达到150,000x150,000像素的大小。根据问题的不同，幻灯片级别的分类标签可能是：1）局部化在占总图像的一小部分像素区域中（即针在大海中的问题，如区分正常组织与微转移）[4,3,5,45]，或2）跨越WSI的整个组成，并且依赖于其组件的相互作用（即涉及理解基质、肿瘤聚集、免疫细胞和其他视觉概念的复杂问题）[68,7,47,22,40,21,6,39,15]。0由于WSI的巨大千兆像素分辨率，0许多方法采用两阶段的多实例学习（MIL）方法来实现WSI的可行表示学习，其中：1）从WSI中随机采样的图像块提取实例级特征表示，然后2）应用全局聚合方案对实例包进行聚合，以获得WSI级别的表示进行后续监督[23,59,11,38,69]。虽然无法模拟实例之间的复杂相互作用，但MIL能够解决病理学中许多针在大海中的问题，因为正常组织与微转移的分类仅取决于区分二进制实例级视觉概念[3,35]。然而，生存结果预测是一个具有挑战性的序数回归任务。240160旨在预测癌症死亡的相对风险，并属于细粒度视觉识别问题的后一类[70]。与大海捞针问题相反，生存结果预测需要对肿瘤微环境中的异质视觉概念进行建模，这些概念无法通过常规的MIL方法进行区分，例如肿瘤细胞与淋巴细胞浸润的共定位与良好预后相关，这需要对WSI中的实例之间进行中长程交互建模[48, 25, 1]。0虽然通常被视为一项弱监督任务0仅使用千兆像素WSI，生存结果预测传统上被构建为一种多模态学习任务，其中基因组信息可以用作额外的监督或集成。在当前的最先进技术中，病理学家对组织学和基因组的手动评估是患者分流、风险评估、治疗组分层的黄金标准[33]。在进一步扩展弱监督学习与多模态融合机制的同时，生存预测面临着WSI和基因组之间的大数据异质性差异的额外挑战：WSI被表示为包含成千上万个图像块作为实例的包，而基因组特征通常表示为1x1的表格属性。因此，许多方法使用后期融合机制进行特征集成，这样就无法学习重要的多模态交互作用[42, 9,10]。总体而言，使用WSI进行癌症预后预测既是一项困难的弱监督学习和多模态学习问题，也是许多癌症亚型疾病进展特征化的一项重大挑战。0为了解决这些挑战，我们提出了一种可解释的0MCAT（多模态共同注意力变换器）是一种弱监督的多模态学习框架，用于可解释的生存结果预测。受到视觉问答（VQA）中深度学习方法的启发，这些方法学习了词嵌入在回答问题时如何关注图像中的显著对象的关系[34, 29, 64, 28,44,63]，在我们的框架中，我们学习了实例级组织学特征在预测患者生存时如何关注基因。我们工作的一个关键贡献是，我们使用了一种跨模态注意力（或共同注意力），称为基因组引导的共同注意力（GCA），作为识别大型排列不变集合/MIL包中信息丰富实例的早期融合策略，使用基因组特征作为查询（在嵌入空间中表示）。这对于生存结果预测有两个优势：01. 与基于后期融合的架构相比，0将WSI级别的包表示与基因组特征连接起来，我们的GCA层捕捉了与基于组织学的视觉概念相关的多模态交互0与VQA类似，将WSI级别的注意力热图可视化为每个基因嵌入。02. 我们展示了GCA层如何降低0将WSI包的有效“序列长度”从M个实例级别的补丁特征转换为N个基因引导的视觉概念，其中N是基因嵌入集合的有效序列长度（而M�N）。这使我们能够使用自注意力和Transformer开发更复杂的特征聚合策略，使用整个WSI进行监督，这在以前是不可能的。在第3.3节中，我们建立了基于集合数据结构（包）和Transformer之间的联系。0表1中的结果显示，MCAT优于ex-0对于使用千兆像素WSI的现有最先进的弱监督方法和通过后期融合通常将WSI与基因组集成的多模态网络进行生存结果预测的方法进行了实验研究。我们在五个实验中进行了实验。0大规模公开癌症数据集，并证明MCAT在所有先前方法上都持续改进了3.0% -6.87%。最后，我们将基因引导的视觉概念可视化为热图，以分析WSI和基因组之间的特征交互，如图2和图3所示，并评估形态特征如何关注每个基因的模式。我们的代码可在以下网址找到：https://github.com/mahmoodlab/MCAT。02. 相关工作02.1. Gigapixel图像中的弱监督0最近的研究工作在0使用多实例学习（MIL）和其他基于集合的深度学习方法来学习gigapixel图像中的任务[ 23 , 5 , 52 , 51 , 62 , 69 ,37 , 36 ]。Edwards和0Storkey [ 17 ]和Zaheer等人[ 67]提出了最早的用于集合上的监督学习的神经网络架构之一，随后Ilse等人[ 24]将基于集合的深度学习扩展为多实例学习的一般框架，并应用于病理学。Xu等人[ 60]提出了一种基于MIL的标签丰富方法，用于组织语义分割而无需像素注释。Lu等人[ 38 ]，Zhu等人[ 70 ]，Yao等人[61 , 62 ]，Zhao等人[ 69]探索了不同的全局池化策略，用于基于补丁的实例。尽管在癌症分类方面取得了令人印象深刻的结果，但病理学中基于MIL的方法通常仅关注实例级特征提取，并尚未通过置换等变特征聚合技术（如注意机制）探索建模全局、长程交互。uct fusion to integrate image, graph, and genomic-basedfeatures. Though multimodal, many of these approachesare late fusion-based, in that features are only fused to-wards the penultimate network layers and provide limitedinterpretability of multimodal interactions.Moreover, in340170图1：多模态共同注意力Transformer（MCAT）架构概述。从gigapixelWSI和基因组特征中，我们将两种模态都构建为袋装表示，其中我们使用：1）基因组引导的共同注意力来捕捉多模态交互，和2）基于集合的MIL Transformer作为特征聚合用于生存结果预测。02.2. 基于集合的深度学习中的注意力0自Vaswani等人[ 53 ]的开创性工作以来，注意力0自那时以来，注意力机制已经在神经机器翻译之外的许多不同领域得到广泛应用，例如语言模型预训练[ 14 , 55 , 56]，视觉识别[ 46 , 16 ]，视觉问答[ 34 , 29 , 64 , 28 , 44 , 63 ]，图神经网络[ 54 ]和点云[ 31 , 18]。除了语言建模之外，Lee等人0al . [ 31 ]开发了SetTransformer框架，将原始语言Transformer扩展到点云和计数等类似[ 67]的一般集合结构化数据结构，Dosovitskiy等人[ 16]提出使用Transformer架构进行自然图像中的视觉预训练，其中224 � 224图像被构建为一个序列，展平为16 �16图像块。最近，Kalra等人[ 26 ]使用SetTransformers对肺癌亚型进行亚型分类，使用了100个随机采样的组织学块的袋装。对于整个WSI的大规模表示学习，尽管WSI可以自然地被构建为一个序列/组织学块的袋装，但与最多512个单词嵌入的最大序列长度相比，WSI的平均袋装大小包含大约15,000个256 � 256图像块，放大倍数为20 �，最大序列长度为200,000个块。由于WSI袋装的大空间复杂性，使用Transformers和其他堆叠的自注意网络架构在MIL相关任务中计算上是不可行的。02.3. 多模态深度学习0通过多模态深度学习学习联合表示0由于异构的统计特性和噪声水平，多模态学习是一项具有挑战性的任务[ 43 , 2]。为了学习共享表示，融合运算符，如向量连接、逐元素求和、逐元素0乘法（Hadamard Product）、双线性汇聚（KroneckerProduct）和共同注意机制通常用于许多多模态学习任务，如VQA [19,29, 28, 20]、情感分析 [65]、生存分析 [42, 9, 10]和医学中的其他任务[8,41]。在病理学中，Mobadersany等人[42]使用向量串联来整合组织学和基因组特征进行生存结果预测。随后，Chen等人[9]使用KroneckerProduct融合来整合图像、图形和基于基因组的特征。尽管是多模态的，但这些方法中的许多是基于后期融合的，即特征仅融合到倒数第二个网络层，并且提供有限的多模态交互解释能力。此外，在0与VQA中可以使用共同注意力学习将图像特征与词嵌入相关联的多模态融合方法相比，目前使用WSI的多模态工作没有类似的可解释性机制，可以将WSI中的组织学特征与基因组学相关联。03. 方法0在本节中，我们介绍我们的整体框架，0多模态共同注意转换器（MCAT），用于使用WSI和基因组进行弱监督和多模态学习，用于生存结果预测，如图1所示。在§3.1中，我们提出了将WSI和基因组表示形式作为使用实例级特征提取的包的形式。在§3.2中，我们介绍了我们的核心方法，基因组引导的共同注意（GCA）层，它学习了WSI和基因组之间的密集共同注意映射，可以可视化多模态交互（图2）。我们还演示了GCA层如何减少WSI包的空间复杂度，从而在§3.3中，我们将基于集合的Transformer调整为用于生存结果预测的MIL。在§ 3.4中，我们讨论(1)ovsorship status (death observed) in a single triplet observa-tion in a dataset Xi, ti,os, ci i=1. In addition, let WijKiWj440180实现细节，请参阅补充材料中有关我们生存损失函数的详细信息。3.1. WSI和基因组包构建0问题形式化：多实例学习0（MIL）是一种基于集合数据结构的弱监督学习任务和框架。这些基于集合的数据结构也被称为“包”，其中每个包是一个无序（排列不变）的实例集合，可以具有不同的大小和不完整的实例级标签[67]。对于单标签分类，给定一个包0X = {x1, ..., xM} 2 RM � d in 包含din维实例和标签Y的目标是学习一个置换不变函数F，它预测包的标签，而不需要详细了解实例，并具有以下一般形式：0F(X) = �0� � ({φ(xi): xi 2 X})0�0其中φ: Rdin !Rdout是一个独立处理每个实例特征的实例级函数，�: Rm �dout !Rdout是一个对称的、置换不变的聚合函数，它将提取的特征汇集到一个单一的包级特征嵌入中，�: Rdout !R#class通常是一个包级分类器，进一步处理包级特征，我们用它来估计生存分析中的风险函数。0在我们的任务中，令X表示患者数据，t os 2 R + 是0设K i为收集的X i的K i千万像素WSI集合，g i, attr为与Xi匹配的基因组属性向量。为了简化表示，我们在引用第i个观测时省略i。我们的目标是开发一种基于集合的神经网络架构F，它集成了{W j} K。0j =1和g attr来估计0风险函数f hazard(T = t | T ≥ t, X) 2 [0,1]，它衡量了患者在时间点t之后存活的概率（通常在F的最后一层之后实现为Sigmoid激活）[12, 27, 66]。0直接估计t os，生存模型输出通过累积分布函数获得的有序风险值f surv（T ≥ t，X）= Qt0u = 1（1 − f hazard（T = t | T ≥0我们在补充材料中详细介绍了生存分析的初步内容。实例级特征提取：为了表示0j = 1作为单个包数据结构，我们遵循包0构建方法与传统的MIL方法中的构建方法不同，传统方法从WSI中提取小图像补丁的实例级特征表示。与以往的方法（如[59, 42, 11, 61, 62,9]）采样图像ROI不同，我们使用所有可用的组织信息跨多个WSI构建我们的包进行大规模训练。对于所有的WSI Wj，我们将包含组织的图像区域补丁化为0一组不重叠的256 � 256补丁，我们将其用作实例级函数φ H的输入，该函数实现为ResNet-50 CNN +FC层（在ImageNet上预训练），提取d k维特征嵌入h 2 Rd k � 1。对于所有W j的总组织学补丁M，我们将提取的补丁嵌入打包成一个包Hbag 2 R M � dk。在跨多个WSI利用整个组织微环境的情况下，训练和推理过程中的平均包大小约为M =15,231个实例，某些包含多达17个吉格像素的WSI和230,000个实例。在传统的MIL方法中，从这里开始，可以应用全局聚合技术（如SUM(∙)）形成hfinal，然后与基因组特征向量g attr进行串联或双线性池化进行后期融合。在嵌入空间中表达基因：基因突变状态、拷贝数变异和批量RNA-Seq丰度等基因组特征通常被量化为1 �1测量或属性，单独而言不包含任何描述基因在生物系统中功能影响的语义信息。为了获得更具表达力的类似嵌入的特征0类似于NLP中的词嵌入的表示，我们将基因分类为N个不同的集合，具有类似的生物学功能影响（例如-肿瘤发生或细胞分化）。0entiation）。让{B n} N0n = 1表示唯一的功能类别0从[49, 32]获得的类别。对于每个基因组属性att i 2 g attr，如果att i 2 B n，则将atti分配给基因集g n，我们将其用作使用FC层参数化的基于基因组的实例级函数φ g的输入。在将φ g 逐个应用于所有分类的基因集上，我们获得基因组嵌入{g n 2 R d k � 1}N0n = 1，我们将其打包成一个包数据0结构 G bag 2 R N � dk。在我们的实现中，我们使用从[32]获得的6个功能类别来定义以下基因组嵌入：1）肿瘤抑制，2）肿瘤发生，3）蛋白激酶，4）细胞分化，5）转录和6）细胞因子和生长。03.2. 基因组引导的共注意力层0由于吉格像素之间的数据异质性差距0WSI和基因组特征，目前病理学中的多模态方法仅限于后期融合，无法捕捉肿瘤微环境中存在的可解释的基因型-表型相互作用。通过将WSI和基因组特征重新构建为包表示Hbag 和G bag，我们可以开发更复杂的特征聚合策略，直接模拟H bag中实例级特征嵌入和G bag中基因组嵌入之间的成对交互。在本节中，我们介绍基因组引导的共注意力（GCA），类似于标准Transformer注意力，它将图像网格和VQA中的单词嵌入相关联[53]（图2）。GCA使用G bag 2 R N � d k来引导H bag 2 R M � dk的特征聚合，形成一组聚类的基因引导视觉Figure 2: Overview of the Genomic-Guided Co-Attention (GCA) layer with co-attention visualization. The GCA layer usesGbag (red) as queries to guide the aggregation of Hbag (blue) into bHcoattn (red/blue) using computed co-attention weightsAcoattn. From Acoattn, we can visualize how each image patch in the gigapixel WSI attends to each genomic embedding.concepts bHbag 2 RN⇥dk, using the following mapping:CoAttnG!H(G, H) = softmax✓QK>pdk◆= softmax✓WqGH>W>kpdk◆WvH ! AcoattnWvH ! bH(2)where Wq, Wk, Wv 2 Rdk⇥dk are trainable weight ma-trices multiplied to the queries Gbag and key-value pair(Hbag,Hbag), and Acoattn 2 RN⇥M is the co-attention ma-trix for computing the weighted average of Hbag. Distinctfrom VQA is the complexity of gigapixel WSI and the dis-parate bag sizes, in which M = 15, 231 and N = 6. Forthe task of multimodal survival outcome prediction, we ﬁndthat: 1) the interpretability of GCA is able to scale up tohundreds of thousands of patches, providing and 2) we canuse genomic embeddings in GCA to reduce the complexityof WSI bags.Interpretation: Intuitively, for a single genomic embed-ding gn 2 G, the GCA layer scores the pairwise similarityfor how much hm attends to gn for all hm 2 Hbag, writtenas a row vector [an1, an2, . . . , anm] 2 Acoattn. These atten-tion weights are then applied element-wise to Hbag, whichconstructs a new WSI-level feature embedding bhn 2 Rn⇥1that reﬂects the biological function of gn. For example,if gn is a genomic embedding that expresses the underly-ing biological pathways responsible for tumor formation,Acoattn computed by the GCA layer would saliently local-ize image patches containing tumor cells as high attention,which then aggregates bhn as a WSI-level representation pri-marily containing tumor cells. We describe the set of high-attention image patches that attend to a single genomic em-bedding gn as a ”gene-guided visual concept”, in whichpatches that are similar in feature space to gn would sharesimilar phenotypic information. For N genomic embed-dings in Gbag, the GCA layer captures up to N differentgene-guided visual concepts, which we visualize as atten-tion heatmaps in Figures 2 and 3.Space Complexity: An important detail of GCA is that weset up Q, K, V such that the bag size of Q is much smallerthan K, V . As a result, the query Gbag agggregates Hbag 2RM⇥dk containing M instance-level patch embeddings asbHcoattn 2 RN⇥dv containing N WSI-level embeddings,which makes the cost of applying subsequent self-attentionlayers have asymptoptic complexity O�N 2dv + N 2dv�,which is quadratic with respect to N instead of M.3.3. Set-based MIL Transformers with SurvivalPredictionFollowing the observation in Zaheer et al. [67] that set-based network architectures remain permutation-invarianteven if the encoder is a stack of permutation-equivariantlayers, we can extend the original MIL framework usinga set-based MIL Transformer, written as:E(l) ⇣H(l)⌘= ⇣(l) ⇣ (l) ⇣{�(l) (xi) : h(l)i2 H(l)}⌘⌘F(L) ⇣H(L)⌘= ⇣(L) ⇣⇢(L) ⇣{�(L) (xi) : h(L)i2 H(L)}⌘⌘T (X) = F(L) ⇣E(L�1) ⇣. . . E(1) ({(xi) : xi 2 X})⌘⌘(3)in which h(l)iis an arbitrary embedding in the set input H(l)at hidden layer l, E(l) is a stackable encoder block that re-places ⇢ in Equation 1 with a permutation-equivariant setfunction , � and ⇣ are permutation-invariant functions ap-plied to feature embeddings (either instance-level or bag-level), F(L) is the original MIL network but now applied54019as a global pooling function as the last layer L, and T isthe set-based MIL Transformer [53, 31] that uses stackedpermutation-equivariant layers followed by a permutation-invariant pooling function. To show that E(l) is the encoderblock in Transformers, let ⇣(l) be a position-wise FC layer, (l) be the self-attention layer in [53], and note that theposition-wise residual mapping and LayerNorm operationsretains permutation-invariance. We can also write (l) moreexplicitly as the permutation-equivariant set function: (l)✓nh(l)ioMi=1◆=( MXi=1exp(h(l)i h(l)j>)dkPj exp(h(l)i h(l)j>)· h(l)i !h(l+1)i)(4)in which permuting the set {h(l)i } permutes the update{h(l+1)i} from the output of (l) in the same order. Fromthis formulation, we can observe that Transformers are ageneralization of the shallow set-based data structure com-monly used in Equation 1, in which we can compose arbi-trary hidden layers using permutation-equivariant functionsbefore global pooling. Using bHcoattn 2 RN⇥dv and Gbag 2RN⇥dk as inputs, we construct two MIL TransformersTH, TG to aggregate feature embeddings in bHcoattn, Gbag. Inthe process for aggregating features in bHcoattn, (l) is usedto model complex, long-range feature interactions betweengenomic-guided visual concepts that would otherwise be in-tractable using the original WSI bag with large M.To implement ⇢H, ⇢G, following [24], we use the globalattention pooling function Fattnpool(·) to adaptively computea weighted sum of all embeddings within each respectiveset to ﬁnally construct bag-level features h(L), g(L).�(L)(h(l)i ) = W�h(l)i⇢(L)✓nh(L)ioMi=1◆=MXi=1ai�(L)(h(L)i) ! h(l) whereai =expnW⇢⇣tanh⇣V⇢h(L)>i⌘� sigm⇣U h(L)>iMj=1 expW⇢tanh⇣V⇢h(L)>j⌘� sigmcancer datasets from The Cancer Genome Atlas (TCGA), apublic cancer data consortium that contains matched diag-nostic WSIs and genomic data with labeled survival timesand censorship statuses1. For this study, we used the follow-ing cancer types: Bladder Urothelial Carcinoma (BLCA)(n = 437), Breast Invasive Carcinoma (BRCA) (n =1022), Glioblastoma & Lower Grade Glioma (GBMLGG)(n = 1011), Lung Adenocarcinoma (LUAD) (n = 515),and Uterine Corpus Endometrial Carcinoma (UCEC) (n =538). For each patient sample, we collected all diagnosticWSIs used for primary diagnosis, which resulted in 4,370WSIs collected with an average bag size of 15,231 256⇥256patches per image (approx 5 TB of gigapixel images, 67million patches). For each cancer dataset, we trained ourproposed method in a 5-fold cross-validation, and used thecross-validated concordance index (c-Index) to measure thepredictive performance of correctly ranking the predictedpatient risk scores with respect to overall survival.640200�0U� h ( L ) >0j0��o0� ( L ) ( h ( L ) ) = W� h ( L )0其中Wφ，W�，V�，U�，W� 2 R d v � d v是可训练的权重矩阵，φ ( L )和� ( L0作为最后一步，我们使用h� ( L )的简单向量连接集成了从T G，T H的包级特征0i在包级特征h ( L )中0g ( g ( L ) )0h ( h ( L ) )， � ( 0FC层，以获得最终的共享表示h final0i，我们使用几个进行处理0MCAT是使用PyTorch实现的，并在一台商用工作站上进行训练03.4. 实现细节0商用工作站，配备4个NVIDIA GTX 2080Ti GPU04.1. 数据集和评估指标04. 实验0为了验证我们提出的方法，我们使用了五个最大的04.2. 与最先进方法的比较0使用相同的5折交叉验证划分进行评估0为了进行生存结果预测的计算病理学，我们实现并评估了几种最先进的方法，总共训练了275个模型。对于所有方法，我们使用相同的实例级特征提取流程进行WSIs的包构建，以及相同的训练超参数和监督损失函数。表1显示了所有方法在所有五个癌症数据集基准上的结果01. SNN [30]：作为仅基于基因组的单模态基准0为了提取实例级特征，我们使用了Klambauer等人的Self-Normalizing Network(SNN)架构进行前馈网络训练，该架构之前已经在TCGA的生存结果预测中使用过02. Deep Sets [67]：最早的神经网络架构之一0用于基于集合的深度学习的架构，提出了对实例级特征进行sum pooling03. Attention MIL [24]：一种基于集合的神经网络架构0用替代Deep Sets中的sum pooling的架构01 https://gdc.cancer.gov740210模型 BLCA BRCA GBMLGG LUAD UCEC 总体0SNN（仅基因组）[30] 0.541 ± 0.016 0.466 ± 0.058 0.598 ± 0.054 0.539 ± 0.069 0.493 ± 0.096 0.5270Deep Sets（仅WSI）[67] 0.500 ± 0.000 0.500 ± 0.000 0.498 ± 0.014 0.496 ± 0.008 0.500 ± 0.000 0.4990Deep Sets（连接）0.604 ± 0.042 0.521 ± 0.079 0.803 ± 0.046 0.616 ± 0.027 0.598 ± 0.077 0.6290Deep Sets（双线性池化）0.589 ± 0.050 0.522 ± 0.029 0.809 ± 0.027 0.558 ± 0.038 0.593 ± 0.055 0.6140Attention MIL（仅WSI）[24] 0.536 ± 0.038 0.564 ± 0.050 0.787 ± 0.028 0.559 ± 0.060 0.625 ± 0.057 0.6140Attention MIL（连接）0.605 ± 0.045 0.551 ± 0.077 0.816 ± 0.011 0.563 ± 0.050 0.614 ± 0.052 0.6300Attention MIL（双线性池化）0.567 ± 0.034 0.536 ± 0.074 0.812

下载后可阅读完整内容，剩余1页未读，立即下载