WSISA：全幻灯片组织病理学图像生存分析框架

112 浏览量更新于2023-10-16 收藏 12.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

172340WSISA：从全幻灯片组织病理学图像进行生存预测0Xinliang Zhu，Jiawen Yao，Feiyun Zhu和Junzhou Huang �0德克萨斯大学阿灵顿分校腾讯AI实验室0摘要0基于图像的精准医学技术可以用于更好地治疗癌症患者。然而，全幻灯片组织病理学图像（WSIs）的千亿像素分辨率使得传统的生存模型在计算上变得不可能。这些模型通常采用手动标记的感兴趣区域（ROIs）中的区别性补丁，并且无法直接从WSIs中学习区别性补丁。我们认为，仅仅使用一小组补丁无法完全代表患者的生存状况，因为肿瘤的异质性。另一个挑战是生存预测通常缺乏足够的训练患者样本。在本文中，我们提出了一种有效的全幻灯片组织病理学图像生存分析框架（WSISA）来克服上述挑战。为了从WSIs中挖掘生存区别性模式，我们首先通过自适应采样从每个WSI中提取数百个补丁，然后将这些图像分组成不同的簇。然后，我们提出训练一个聚合模型，根据簇级深度卷积生存（DeepConvSurv）预测结果进行患者级预测。与现有的基于图像的生存模型不同，后者使用WSIs的小区域中的一些补丁提取特征，所提出的框架可以高效地利用和利用WSIs中的所有区别性模式来预测患者的生存状况。据我们所知，这在以前还没有显示出来。我们将我们的方法应用于使用三个数据集的胶质瘤和非小细胞肺癌的生存预测。结果表明，与现有的基于图像的生存方法相比，所提出的框架可以显著提高预测性能。01. 引言0最近，基于图像的精准医学已成为医疗研究中非常活跃的领域。这些图像数据包括病理图像、CT图像、MRI等。0� 通讯作者：Junzhou Huang博士。电子邮件：jzhuang@uta.edu。本工作得到了NSFIIS-1423056，CMMI-1434401，CNS-1405985和NSFCAREER资助计划IIS-1553687的部分支持。0该研究的长期目标是能够根据患者的图像数据来改善个体的治疗质量。例如，根据已知患者的图像数据来预测新患者的生存情况。生存预测的应用将使临床医生能够对治疗做出早期决策，这对患者的健康非常关键。0基于图像的精准医学研究中最具挑战性的问题之一是病理图像具有高分辨率（例如，1百万像素乘以1百万像素），而ImageNet中的一张常规图像通常只有不到1000像素乘以1000像素[18]。目前，已经提出了许多方法来结合患者的图像数据进行生存分析并提供更准确的预测[25，27，28，31，33]。由于计算问题，现有的方法无法直接从WSIs中学习区别性模式，并使用从手动标记的小区别性补丁中提取的手工制作特征来预测患者的生存状况。显然，手动选择代表性补丁的过程非常费时费力。此外，一个患者通常有来自组织不同部位的多个WSIs。由于实体肿瘤可能具有混合的组织结构和结构，同一患者的WSIs实际上是非常异质的。因此，仅使用手动注释的一小组补丁无法完全和正确地反映患者的肿瘤形态，并且有很高的失去生存区别性模式的风险。图1展示了一个例子，其中患者1和患者2都有第四期肿瘤，但是根据临床试验报告，患者2的临床结果比患者1更差。它表明，即使在相同的肿瘤阶段，具有不同生存状况的患者可能具有非常不同的视觉外观。这需要一个能够考虑WSIs中大量异质性模式的框架。0在使用WSIs对癌症亚型进行分类时，一项开创性的工作[8]提出使用基于补丁级别的卷积神经网络（CNN）并训练决策融合模型作为肿瘤分类的两级模型。然而，与肿瘤分类不同，生存预测更具挑战性，原因如下。首先，生存预测是一个回归问题，患者预测值的排名很重要[20]。而在肿瘤分类任务中，一个患者的预测结果与其他患者的预测结果是独立的。其次，在生存分析中，应该对来自同一患者的不同WSIs提供的信息进行聚合。然而，在[8]中，尚未解决来自同一患者的WSIs之间的聚合问题。第三，生存分析的基本事实标签（生存时间和截尾状态）仅在患者上给出，WSI级别和补丁级别的基本事实标签是未知的。这使得训练CNN模型时的数据效率低下，从而使生存预测问题变得复杂。近年来，CNN在计算机视觉领域取得了许多成功的应用[13，6]。然而，训练CNN模型通常需要大量的样本。在医学研究领域，训练样本的数量往往非常有限。这使得训练基于CNN的生存模型非常具有挑战性。Zhu等人[31]提出了一种深度卷积生存模型（DeepConvSurv）模型，通过增加图像补丁来部分解决这个问题。提取了多个形成ROIs的补丁，并分配了患者的标签。然而，DeepConvSurv只能进行补丁级别的预测。因此，需要一种新的方法，可以从小样本数据中进行患者级别的预测。1232. BackgroundThe goal of survival analysis is to predict the time du-ration until an event occurs and the event of interest is thedeath of a cancer patient in our study. In survival analysis,72350冷冻肿瘤患者1 患者20图1.两个肺癌患者的吉比像素全切片组织病理学图像（以彩色最佳查看）。WSIs可以以高分辨率显示肿瘤的细节。在这种情况下，红色显示的补丁是有区分度的，因为它们显示了肺部肿瘤的典型视觉特征。蓝色的补丁是无区分度的，因为它们只包含来自低级别肿瘤或非肿瘤组织区域的视觉特征。患者2的临床结果比患者1差。0生存预测是一个回归问题，患者预测值的排名很重要[20]。而在肿瘤分类任务中，一个患者的预测结果与其他患者的预测结果是独立的。其次，在生存分析中，应该对来自同一患者的不同WSIs提供的信息进行聚合。然而，在[8]中，尚未解决来自同一患者的WSIs之间的聚合问题。第三，生存分析的基本事实标签（生存时间和截尾状态）仅在患者上给出，WSI级别和补丁级别的基本事实标签是未知的。这使得训练CNN模型时的数据效率低下，从而使生存预测问题变得复杂。近年来，CNN在计算机视觉领域取得了许多成功的应用[13，6]。然而，训练CNN模型通常需要大量的样本。在医学研究领域，训练样本的数量往往非常有限。这使得训练基于CNN的生存模型非常具有挑战性。Zhu等人[31]提出了一种深度卷积生存模型（DeepConvSurv）模型，通过增加图像补丁来部分解决这个问题。提取了多个形成ROIs的补丁，并分配了患者的标签。然而，DeepConvSurv只能进行补丁级别的预测。因此，需要一种新的方法，可以从小样本数据中进行患者级别的预测。0在本文中，我们提出了一种全切片组织病理学图像生存分析（WSISA）框架，用于预测患者的临床结果。我们采用自适应采样策略从WSIs生成大量候选补丁，而不仅仅是从感兴趣区域（ROIs）提取补丁，使得补丁的数量与WSI的大小成比例。由于并非所有候选补丁都具有生存鉴别能力，我们根据它们的表型特征应用K-Means对候选模式进行聚类。为了找到重要的补丁簇，我们训练了几个深度卷积生存（DeepConSurv）模型[31]。通过选择具有良好生存预测性能的模型来区分关键簇。肿瘤可能具有混合模式，一种独特模式无法提供令人满意的预测能力。为了进一步提高簇级生存模型的性能，我们通过应用全连接神经网络和提升Cox负对数似然来聚合所选簇。与需要手动注释的基于图像的生存方法不同，所提出的框架可以直接从WSIs中学习多种模式并实现端到端分析。正如我们之前讨论过的，生存预测的另一个挑战是数据效率低下。例如，全球最大的肺癌数据集仅包含不到500个患者记录，这样小规模数据集上的深度生存方法可能表现较差。我们证明了所提出的框架可以轻松解决这个问题。为了评估开发的框架，我们在三个不同数据集和两种疾病类型上进行了大量实验。本文的主要贡献可以总结如下：1）据我们所知，我们首次开发了一种端到端的方法来预测WSIs上的生存。2）所提出的方法可以解决训练深度卷积生存网络时的小样本数据集问题。3）通过使用三个大型数据集对两种癌症数据开展了广泛的实验来评估所开发框架的有效性。4）与从分子分析中获得的信息相比，用吉比像素全切片组织病理学图像可以更好地展示肿瘤的生长和形态学细节，这对癌症诊断有很大的益处。然而，由于计算问题，最先进的生存方法无法直接从WSIs构建模型，而所提出的框架可以弥合这个差距，完全应用于个性化医学。Whole�Slide�ImageK�means............DeepConvSurvDeepConvSurv...AggregationClustering�PhenotypeAggregating�for�final�prediction�using�survival�related�clustersSelected�ClustersWeighted�Patient�wise�FeaturesriskDeepConvSurvAdaptive�generating�patches......DeepConvSurvDeepConvSurvFigure 2. An overview of our WSISA framework (best viewed in color). It consists of four main stages: 1) adaptively generating patchesfrom the WSIs; 2) clustering patch candidates according to their phenotypes; 3) selecting clusters based on patch-wise survival predictionperformance; 4) aggregating the selected clusters to make ﬁnal prediction.the observation of one patient is either a survival time (Oi)or a censored time (Ci). If and only if ti = min(Oi, Ci)can be observed during the study, the dataset is right-censored [17]. An instance in the survival data is usuallyrepresented as (xi, ti, δi) where xi is the feature vector, tiis the observed time, δi is the indicator which is 1 for a un-censored instance (death occurs during the study) and 0 fora censored instance.The survival function S(t|x) = Pr(O ≥ t|x) is used toidentify the probability of being still alive at time t wherex = (x1, ...xp)T is the covariates of dimension p, The haz-ard function is deﬁned ash(t|x) = lim△t→0Pr(t ≤ O ≤ t + △t|O ≥ t; x)△t,(1)which assesses the instantaneous rate of death at time t.In the modeling methods, Cox proportional hazard modelis among the most popular one. It models the hazards ash(t|x) = h0(t) exp(βT x) where β = (β1, ..., βp)T is avector of regression parameters, and h0(t) is the baselinehazard. f(x) = βT x is also being called as risk function.To estimate the parameters β, we can minimize the negativelog partial likelihood, which isl(β) = −n�i=1δi⎛⎝βT xi − log�j∈R(ti)exp(βT xj)⎞⎠ . (2)where R(ti) is the risk set at time ti, which is the set of allindividuals who are still under study before time ti. Clini-cians and researchers at ﬁrst applied the Cox model to testfor signiﬁcant risk factors (e.g. gender, age) affecting sur-vival.Then they focused on molecular proﬁling data topredict more and accurate survival outcomes. In order tohandle with high-dimensional molecular data, feature se-lection methods have been adapted to Cox regression set-ting for censored survival data [23, 2, 1, 24, 16, 3]. Be-sides Cox model, two recent work MTLSA [14] and Deep-Surv [12] are proposed to model more complex relation-ships between covariates and survival outcomes. MTLSAtransforms the original survival analysis into a multi-tasklearning problem instead of deﬁning the hazard function bydecomposing the regression component into related classi-ﬁcation tasks. However, the number of tasks corresponds tothe maximum follow-up time of all the instances. In fact,recent cancer datasets (e.g. TCGA) are collecting patientelectronic health records (EHR) with a very long follow-up time. Therefore, the multi-task learning will encountercomputation issues if the follow-up time is large as it needsto learn a shared representation across all tasks at differenttime intervals. Katzman et al. proposed a deep fully con-nected network (DeepSurv) to represent the nonlinear riskfunction [12]. They demonstrated that DeepSurv outper-formed the standard linear Cox proportional hazard modelbut the architecture of DeepSurv is simple and shallow tohandle complex patients’ imaging data.As pointed out in [29], tumor microenvironment is acomplex milieu that includes not only the cancer cells butalso the stromal cells and immune cells. All this “extra” ge-nomic information may muddle results and therefore makemolecular analysis a challenging task for cancer prognosis.Recent work [25, 27, 28] have attempted to use imagingdata for survival analysis and achieve better predictions forbreast and lung cancer patients. However, as we discussedbefore, state-of-the-arts image-based survival predictionsfocused on small patches and cannot exploit whole slidehistopathological images (WSIs) directly and efﬁciently.723603. 方法论0现有的生存分析方法主要关注从补丁中提取的局部信息。很少有工作提出处理WSIs的方法。我们是第一次开发一种新的有效框架来从WSIs进行生存预测。我们将展示所提出的框架可以捕捉到由WSIs所代表的一般信息。72370WSIs。03.1. 框架0图2展示了所提出框架的流程。它包括四个主要阶段：1）根据WSIs自适应生成补丁；2）根据表型对补丁候选进行聚类；3）根据补丁级别的生存预测性能选择簇；4）聚合所选簇进行最终预测。03.1.1 从WSIs中采样0这个阶段的目标是从WSIs中生成候选补丁。与仅从注释的ROI中提取补丁不同，我们认为WSIs中的异质模式及其比例也很重要。我们假设从患者的WSIs中随机采样的候选补丁可以捕捉到主要模式及其比例。而来自同一患者不同WSIs的候选补丁一起反映了患者的生存风险。我们设置了一个固定的区域采样比例来采样候选补丁（512×512的补丁大小，每像素0.5微米），确保从每个WSI中采样到固定比例的像素。这一步和这些假设是后续步骤的基础。03.1.2 基于表型的聚类0第一阶段的候选补丁是异质的。其中一些可能来自肿瘤切片，其他一些可能来自正常组织切片，还有一些可能同时包含两者。区分它们的一种简单而有效的方法是基于它们的表型进行聚类。由于计算的限制，我们生成了较小尺寸（50 ×50）的缩略图像来表示它们的表型。特征是从缩略图像的行像素连接而成的，因此特征的维度为2500。即使如此，这些特征对于聚类来说仍然相对较高。我们在K-means聚类过程之前使用PCA将维度降低到50。这一步将不同的补丁聚类成几个不同的表型组。03.1.3 选择簇0如上所述，不同的候选簇包含不同的模式补丁。这些补丁可能对患者的生存预测具有不同的预测能力。为了区分它们的预测能力并选择候选簇，我们在每个簇上训练单独的深度卷积生存模型（DeepConvSurv）。DeepConvSurv模型是以补丁为单位进行训练的。也就是说，我们为每个补丁分配来自该患者的生存标签。然后我们用簇中的所有补丁来训练模型。我们选择预测准确度略高于随机猜测的簇作为候选簇。0表1. DeepConvSurv的架构0层过滤器大小、步长、数量0Conv (ReLU) 7 × 7，3，320最大池化 2 × 20Conv (ReLU) 5 × 5，2，320Conv (ReLU) 3 × 3，2，320最大池化 2 × 20FC 320在聚合步骤中，聚合是框架的关键阶段，输出患者级别的生存预测值。这个阶段可以进一步分为两个主要子步骤：生成加权特征和聚合。生成加权特征：这个子步骤在很大程度上区别于传统基于补丁的生存预测方法。我们考虑到各种异质模式的比例。我们通过统一来自不同患者的WSIs的贡献来解决不同患者之间WSIs的数量和大小的问题。在这里，我们展示了如何统一来自同一患者的各种补丁的贡献。从第一阶段开始，根据固定的区域采样比例提取补丁。当保持补丁大小不变时，从一个WSI中提取的补丁数量与WSI的大小成比例。患者的总补丁数是从他/她的WSIs中提取的所有补丁的总和。为了估计单独模式的权重，我们需要计算每个簇中的补丁数。假设从患者i中提取了总共ni个补丁。对于每个选定的簇，患者在簇j中有nij个补丁。那么簇j对患者的生存预测的贡献可以计算如下：03.1.4 聚合0聚合是框架的关键阶段，输出患者级别的生存预测值。这个阶段可以进一步分为两个主要子步骤：生成加权特征和聚合。生成加权特征：这个子步骤在很大程度上区别于传统基于补丁的生存预测方法。我们考虑到各种异质模式的比例。我们通过统一来自不同患者的WSIs的贡献来解决不同患者之间WSIs的数量和大小的问题。在这里，我们展示了如何统一来自同一患者的各种补丁的贡献。从第一阶段开始，根据固定的区域采样比例提取补丁。当保持补丁大小不变时，从一个WSI中提取的补丁数量与WSI的大小成比例。患者的总补丁数是从他/她的WSIs中提取的所有补丁的总和。为了估计单独模式的权重，我们需要计算每个簇中的补丁数。假设从患者i中提取了总共ni个补丁。对于每个选定的簇，患者在簇j中有nij个补丁。那么簇j对患者的生存预测的贡献可以计算如下：0w ij = n ij0n i, i ∈ {1, ..., N}, j ∈ {1, ..., J}, (3)0其中N是患者数量，J是选择的聚类数量，w ij是患者i中聚类j的权重。由于每个患者在选择的聚类中可能有不同数量的补丁，因此计算该患者在选择的聚类中的特征时，采用以下公式：#WSIs110448525572380聚类的特征计算如下：0x ij = w ij0k = 1 x ijk / K, (4)0其中x ij是患者i在聚类j中的输出特征。它可以是每个聚类的预测风险或DeepConvSurv中FC层的输出。K是患者i在聚类j中的补丁数量。通过随机采样和设置足够大的采样比例，可以很好地估计与生存相关的补丁的权重。聚合在生成患者特定的加权特征之后，最后一步是将这些特征聚合起来进行最终的生存预测。如上所述，单独的补丁缺乏代表患者整体信息的能力。需要将它们整合起来更好地预测患者的生存。在这个问题中，通过对三个不同癌症数据集进行广泛实验，使用带有Lasso的简单Cox模型[23]可以基于加权特征很好地预测生存。原因是：1）由于样本量相对较小，简单模型不容易过拟合；2）如果特征与生存标签高度相关，简单模型将表现良好。在WSISA中，预测模型也可以轻松更改为其他最先进的模型，如随机生存森林[9]。WSISA的算法如算法1所示。它显示了WSISA的一般过程，并不包括训练、验证和测试集的细节。03.2. 解决小样本数据问题0提出的WSISA通过将WSI中的小样本数据问题分为两个部分来解决生存预测中的小样本数据问题：补丁风险的估计和将补丁风险聚合到患者风险中。在训练单独的补丁级DeepConvSurv模型时，我们有相对较大的样本量。DeepConvSurv的输入是512×512×3。在从选择的聚类中获取特征之后，聚合任务变得简单。因此，这个任务中的小样本数据问题得到了适当的解决。04. 实验0在本节中，我们首先描述了我们实验中使用的数据集，然后展示了不同方法的性能。04.1. 数据集描述0我们的研究重点是肺癌和脑癌，并使用了三个具有高分辨率全幻灯片病理图像的公共癌症生存数据集，包括国家肺癌筛查试验（NLST）[21]和癌症基因组图谱0算法1 WSISA算法输入: WSIs, 时间t, 状态δ,样本比例r和补丁大小p01: /*第一阶段: 采样补丁*/02: 对于所有WSIs执行 3: 补丁数量 = WSI大小 × r0p 4: 结束循环 5: /*第二阶段: 聚类*/ 6:对于训练集中的所有补丁执行 7: 特征 =createThumbnail(补丁, 大小)08: pca = PCA(训练特征) 9: 聚类 =kMeans(pca, numclusters) 10: 结束循环 11:/*第三阶段: 选择聚类*/012: 对于聚类中的所有c执行013: 模型 = trainDeepConvSurv(c特征, t, δ)014: 有效准确率 = 评估(有效c特征) 15: 结束循环016: 选择聚类 = selectCluster(有效准确率) 17:/*第四阶段: 聚合*/ 18: 患者特征 =weightedFeatures(sc特征) 19: 聚合模型 =trainAggre(患者特征, t, δ) 输出: 患者的风险0表2.每个数据集中最初提取和过滤的WSIs、患者和补丁数量。由于一些补丁是从WSIs的背景部分提取的（它们大多是白色的），我们过滤掉了非白色的有效补丁。0数据集 NLST TCGA-LUSC TCGA-GBM0#患者 404 121 1260#补丁 67834 70738 606230#有效补丁 41303 24387 275510（TCGA）。TCGA项目[11]可以为每个患者提供大规模的分子特征数据和病理图像。NLST是由美国国家癌症研究所的癌症预防部（DCP）和癌症治疗与诊断部（DCTD）收集的非常大的肺癌数据集。我们在TCGA的两种癌症亚型（脑癌和肺癌）上进行了实验：胶质母细胞瘤（GBM）和肺鳞状细胞癌（LUSC）。我们从UT MDAnderson癌症中心[30]采用了一个核心样本集，每个样本都有与整体生存时间、病理图像和与基因表达相关的分子数据相关的信息。每个数据集中的WSIs和患者数量如表2所示。ings and is calculated as follows:�i∈{1...N|δi=1}�sj>siI[Xi ˆβ > Xj ˆβ](5)723904.2. 比较方法和评估指标0为了分析比较生存模型中的病理图像，我们在整个切片图像（WSIs）中标注了肿瘤区域，得到了病理学家的帮助。我们使用CellPro�ler[4]计算手工特征，它是一种先进的医学图像特征提取和定量分析工具。受到最近的工作[28,32]的启发，我们从每个图像块中计算了1795个定量特征。这些图像特征包括细胞和细胞核的形状、大小、纹理以及细胞和细胞核中像素强度的分布。我们将我们的框架与七种流行的最新生存模型进行比较。它们被分为五个类别：0•正则化Cox模型：Cox比例风险模型[5]是生存分析中最常用的半参数模型。本文中使用了L1范数（LASSO-Cox）[23]和弹性网惩罚Cox（EN-Cox）模型[26]。0•参数化截尾回归模型：这种类型的生存模型将未截尾和截尾实例的联合概率形式化为死亡密度函数和生存函数的乘积。可以通过组合这两个组件来定义似然函数[10]。我们选择Weibull分布和Logistic分布来近似生存数据。0•随机生存森林：随机生存森林（RSF）通过集成基学习树[9]来提高生存预测性能。0•提升一致性指数（BoostCI）：这是一种将一致性指数度量修改为使用Sigmoid函数的等效平滑准则的方法[15]。0•多任务学习模型：我们将我们的方法与最近的“生存分析多任务学习模型”（MTLSA）[14]进行了比较，该模型将生存模型重新构建为多任务学习问题。0WSISA是提出的框架，可以从患者的所有WSIs中进行生存预测。由于聚合阶段中生存模型的选择是多样的，我们尝试了所有上述最新的方法，以充分比较我们的框架与传统方法。为了评估生存预测的性能，我们采用一致性指数（C-index）作为评估指标[7]。C-index量化了排名质量的能力。0c = 10其中n是可比较对的数量，I[.]是指示函数，s是实际观察值。C-index的值范围从0到1。较大的CI值意味着模型的预测性能更好，反之亦然。0是最差的情况，1是最好的情况，0.5是随机猜测的值。04.3.实现细节0MTLSA的源代码从作者的网站1下载。我们比较的所有其他方法都是在R中实现的。LASSO-Cox和EN-Cox使用fastcox包的cocktail函数构建[26]。RSF来自randomForestSRC包[9]。BoostCI的实现可以在[15]的补充材料中找到。参数化的截尾回归模型来自survival包[22]。我们将80%的患者作为训练集，剩下的20%作为测试集。从训练集中，我们将其中的25%作为验证集。所有的集合都按照被截尾数据的比例进行分层划分。04.4.结果与讨论04.4.1采样补丁0我们从WSI中提取大小为512×512的补丁。为了捕捉图像的详细信息，这些补丁是从20倍（每像素0.5微米）的目标放大倍数中提取的。这一步从一个患者中生成了许多异质的补丁。其中一些与生存相关，一些与生存无关。甚至有些是背景补丁（主要是白色）。表2给出了从三个数据集中提取的补丁的统计信息。在TCGA-LUSC和TCGA-GBM数据集中，超过54%的原始补丁是背景补丁。在NLST数据集中，约有38%是背景补丁。根据像素值的方差，可以轻松地过滤掉背景补丁。04.4.2聚类和选择聚类0在实验过程中，我们将补丁分成每个数据集中的10个组。图3中展示了部分聚类结果。从图3中可以看出每个聚类之间的异质性。它们的模式是不同的。对于聚类选择，我们将补丁级别的预测C-index阈值设置为0.5。也就是说，如果模型的预测优于随机猜测，则选择该补丁。被红线包围的补丁是生存相关的。01 https://github.com/yanlirock/MTLSA72400(a) NLST (b) TCGA-LUSC (c) TCGA-GBM0图3.来自三个数据集的不同聚类中的一些样本补丁。每个数据集中的样本补丁来自同一个患者。红色表示来自选定聚类的样本补丁，蓝色表示来自与生存无关的聚类的补丁。0通过蓝线表示的是无效模式。结果还表明，基于表型的聚类方法对于区分与生存相关的模式是有效的。04.4.3预测生存0正如之前指出的，在WSISA中用于训练聚合模型的特征可以是每个DeepConvSurv的输出风险，也可以是每个DeepConvSurv中FC层（输出层之前的层）的值。在本文中，我们选择NLST的FC层值以及TCGA-LUSC和TCGA-GBM的输出风险。这是基于数据集的样本大小。聚合风险有两个好处：1）如果组织病理图像数据集中的样本大小要小得多，具有小训练样本的高维特征将无法拟合良好的预测模型。输出风险的维度等于所选聚类的数量，远小于训练数据的大小；2）一个聚类的加权风险可以部分估计患者的生存情况。因此，它可以作为聚合阶段的特征，因为它可能包含高级别的生存信息。然而，由于NLST相对于TCGA数据集具有较大的样本数量，我们使用来自FC层的特征来训练聚合模型。表3展示了三个数据集上各种生存回归方法的C-index值。C-index值是生存分析中的标准评估指标[20]，它显示了不同生存模型的预测能力。从表3可以看出，在基于ROI的实验中，患者的特征是从ROI补丁中提取的。如果一个患者在他/她的补丁中有多个ROI，则选择最好的ROI。0对于WSIs，我们从每个ROI中采样一个补丁，然后对从中提取的特征进行平均。这些特征的维度为1,795。WSISA提供了一种表示一个患者整体信息的方法。WSISA中的特征是通过对选定的聚类进行加权拼接而得到的。从表3可以看出，在每个数据集中，基于WSISA的方法取得了最佳性能。对于NLST和TCGA-LUSC数据集，最佳结果是由简单的基于Cox的模型实现的。WSISA在NLST中的改进甚至可以超过基于ROI的方法取得的最佳性能15%以上。简单的基于Cox的模型之所以有效，是因为WSISA提取的特征具有良好的代表性。基于ROI的模型通常表现不佳，原因有三：1）由ROI提取的补丁提供的局部信息有限；2）从补丁中学习异质特征的方法不够有效；3）用于训练模型的样本数量较少。结果还表明，仅仅使用ROI中的补丁无法提供足够的信息进行生存预测。而所提出的WSISA能够通过WSIs提供的信息而不仅仅是ROI中的信息来准确估计患者的生存情况。因此，WSISA擅长发现与生存相关的模式，并在小样本数据集上更好地预测患者的生存情况。此外，它不需要组织病理图像的注释，这使得它在实际应用中更加实用。04.4.4 讨论0通过对三个数据集进行广泛的实验，WSISA选择的补丁具有区分性，并且在预测患者生存方面的聚合结果更好。因此，本文的主要贡献如下：LASSO-Cox [23]0.5030.7030.5400.6380.4400.600En-Cox [26]0.5020.7030.6130.6380.4400.603Cox-Log [10]0.4660.4400.5480.3970.5040.645Cox-Weibull [10]0.4800.2950.4910.3880.3840.400RSF [9]0.4850.5950.3470.5780.5600.518BoostCI [15]0.5110.6100.3390.2730.5070.510MTLSA [14]0.6090.6800.5360.6030.5710.51072410表3.使用C-index值对所提出的方法和其他现有相关方法在三个数据集上进行性能比较。较大的C-index值表示性能更好。以红色粗体显示的结果在这些数据集中表现最佳。以黑色粗体显示的结果表示具体方法可以生成更好的C-index值的特征。0方法 NLST TCGA-LUSC TCGA-GBM0基于ROI的WSISA 基于ROI的WSISA 基于ROI的WSISA0•WSISA是首次基于全切片组织病理图像进行生存预测的开发。而且，它是无需注释的，这使得它更接近实际应用。0•我们通过WSISA在小样本数据集上聚类大量候选补丁，从而解决了在小样本数据集上训练深度生存模型的问题。0•开发的WSISA可以捕捉到一个患者的整体信息，而不受患者提供的全切片组织病理图像的数量和大小的影响。这与所有基于感兴趣区域（ROI）的方法有所区别，并且使WSISA的性能得到了很大的改善。0•在三个数据集和两种癌症类型上进行了大量实验，以使我们的结论更加具体。0然而，在我们未来的工作中仍然存在一些需要解决的问题。为了使WSISA工作良好，需要从一个患者中提取数百到数千个补丁，这肯定会占用大量的磁盘空间。因此，值得探索一种减少磁盘空间消耗的方法。所选的聚类可能包含与特定疾病相关的某些表型。发现这些表型将具有重要意义。05. 结论0我们提出了一种基于整个切片组织病理图像的生存分析框架(WSISA)，可以直接从患者的千兆像素图像中学习具有鉴别性和与生存相关的模式.与现有的基于补丁的生存模型相比，该框架可以处理不同患者之间的各种数量和大小的整个切片组织病理图像. 它可以学习患者的整体信息，并实现比ROI补丁方法更好的性能.提出的框架还可以应用于基于整个切片组织病理图像的其他任务，如肿瘤分级估计.在未来，我们将探索更多的方法来优化训练过程，使其适用于具有其他类型癌症的大规模组织病理学数据集.0与基于补丁的生存模型相比，所开发的框架可以处理不同患者之间的各种数量和大小的整个切片组织病理图像.它可以学习患者的整体信息，并实现比ROI补丁方法更好的性能.

下载后可阅读完整内容，剩余1页未读，立即下载