一维卷积神经网络在洛夫格伦综合征中的预测分析

154 浏览量更新于2024-01-06 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁19（2020）100328用一维卷积神经网络预测LofgrenAneesh Muppidi*，Martin Radfar美国纽约石溪大学计算机科学系，石溪工程博士计算机科学楼，邮编：11794A R T I C L EI N FO保留字：一维卷积神经网络分子机器学习结节病生物标志物挖掘A B S T R A C T洛夫格伦综合征（LS）结节病和非LS结节病（非LS）由于其临床和遗传相似性而很难区分和识别。然而，结节病的这些亚类具有不同的症状，因此需要不同的治疗。因此，准确的分类方法对于诊断结节病的正确形式至关重要。我们提出了一种基于卷积神经网络（CNN）的方法：我们将一维CNN（1d-CNN）模型应用于质谱细胞测量，并采用特征图拼接技术来训练单特征向量。该模型使用相同的1d-CNN结构来预测多个单元格输入维度，包括FCS文件。该模型在模拟多单元输入数据上实现了LS与非LS患者分类的接收操作特征曲线下面积评分为1.00。我们将我们的模型与9种最先进的方法进行了比较，结果表明我们的模型优于所有其他模型，平均 F1得分为0.98。此外，该模型的生物标志物权重和分子特征与以前的结节病生物标志物研究一致，并深入了解了疾病的发病机制。该模型可为两种类型结节病患者提供精确的诊断和治疗。1. 介绍类肉瘤病是一种多系统肉芽肿性疾病，导致某些细胞功能易受细菌和感染[1]。结节病的一个亚类是洛夫格伦综合征（LS），其被归类为急性疾病，伴有发热、结节性红斑和双侧肺门淋巴结病（BHL），预后安全。相比之下，已知非LS（非LS）结节病被归类为具有伴随疾病进展的隐匿性发作，并可导致慢性肺纤维化[2，3]。区分这些亚类的方法和程序受到活化细胞（CD4+ T细胞）中许多相似性的限制具体来说，细胞）。鉴别LS与非LS患者需要仔细、复杂和耗时的精细定位基因分型;此外，LS和非LS样本的基因中心分析、SNP荟萃分析和SNP复制表明，LS和非LS共有的特征比以前承认的少[4，5]。识别错误的结节病亚类可能对患者的健康有害;当讨论亚类对于治疗（如皮质类固醇甲氨蝶呤、硫唑嘌呤、吗替麦考酚酯等.）的处方，需要一个准确，适应性强，快速的方法区分不同的子类。质谱细胞术是一种允许对单细胞进行高容量和高维分析的技术[7]。通过使用飞行时间流式细胞术（CyTOF）质谱细胞仪扫描异质细胞亚群，其允许在详细水平上捕获细胞的复杂性质。细胞被雾化，它们的抗体被重金属离子标记，通道检测这些金属信号，这些信号与标记的抗体数量成比例。用生物标志物注释的单细胞允许将多个参数导出为流式细胞术标准（FCS）格式数据，以便可以对其进行深入分析。因此，单细胞测量包含丰富的空间数据。这些生物标志物数据可以基于它们彼此的上下文关系而有助于不同的预测和分析。通常，这些多参数分析可以为理解疾病的发病机制提供见解[8]。由于多参数数据的指数可用性，流式细胞术是统计和机器学习过程的理想应用。机器学习可以让我们取代繁琐的预处理* 通讯作者。电子邮件地址：aneeshmuppidi19@gmail.com（A. Muppidi），radfar@cs.stonybrook.edu（M. Radfar）。https://doi.org/10.1016/j.imu.2020.100328接收日期：2020年2月11日;接收日期：2020年4月10日;接受日期：2020年4月11日2020年4月23日在线提供2352-9148/©2020的自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imuA. Muppidi和M. 拉德法尔医学信息学解锁19（2020）1003282和手动门控工作与自动分类模型，学习功能[9通常，这些技术使用聚类方法来检测与簇相关联的子集，或者应用于单细胞分类设置中。在大规模细胞计数应用中使用聚类方法的好处是，它允许我们以可理解的方式检查复杂或分层的细胞系统。此外，这些聚类方法允许洞察用于将细胞分类成簇的可能的分子信号。然而，分析和预测来自患者的每个细胞的关联在计算上可能是昂贵的[12];此外，它最终影响基于多数细胞关联的对患者的预测。本文实现和比较的聚类方法包括QuanterX，FlowSOM，DensVM，Phenograph和Xshift [13 聚类方法在分析大容量质谱细胞计数数据中非常有用，因为它们允许以简单的方式组织复杂的细胞群体;然而，当细胞特性的小而敏感的关联影响疾病的识别时，这些模型倾向于过拟合并将不相关的特征假定为相关的。或者，我们可以使用监督技术。最近引入了一种基于域自适应原理的神经网络，称为DeepCyTOF[19]，用于细胞分类。 DeepCyTOF 使用一组合的自动编码器和神经网络来利用细胞特性并对不同类型的细胞然而，分类结节病涉及分析相同的细胞类型，其具有许多相同的细胞特性。此外，单细胞模型（由于其架构）以这样的方式运行，即它们只能处理相同的输入维度，这意味着它们只能处理一种细胞大小。因此，这种类型的模型为患者的每个细胞给出置信度分数，而不是为患者给出单个置信度分数。据我们所知，这种特定的结节病问题以前没有进行自动分类程序，然而，在本文中，我们采用了九种通用的质谱细胞计数方法来评估所提出的方法对其他基线方法的性能。为了避免反复分析患者的每个细胞，关联不相关的特征，以及忽略相同细胞类型属性的相似性，我们提出了一种患者驱动的预测模型。患者驱动模型与单细胞模型的不同之处在于，预测是针对来自单细胞的细胞集合给出的。角数据输入（FCS），它可以有不同的多单元格输入尺寸。因此，这种患者驱动的模型增加了预测的置信度和准确性。我们的模型可以通过调整以前用于自然语言处理任务的卷积神经网络（CNN）结构来预测不同的细胞输入维度[20]。CNNs 是主要使用在计算机愿景和加快特征学习任务通常，这些CNN应用于2维设置中，用于图像识别或挖掘像素数据[21]。它们允许诸如池化和激活函数之类的操作来帮助加速特征提取。在本文中，我们使用了一维CNN（1d-CNN），它与二维CNN（2d-CNN）略有不同，对患者与结节病的关联进行分类。此外，1d-CNN被应用于帮助理解用于识别LS和非LS样本的不同模式和分子特征。然而，我们表明，该模型可以适应单细胞环境，因为它能够预测不同数量的细胞。这样做是因为模型，不管单元输入大小，将高维数据矢量化为一个单一的特征向量进行预测。通过让我们的模型对单个细胞进行预测或多个细胞，可以与单细胞或多细胞模型进行比较来评估。我们发现，我们的模型取得了更好的分类结果比基线和监督质量细胞计数方法，并达到了0.98的F1得分。此外，与最先进的无监督质量细胞计数方法相比，我们的模型具有最高的F1评分。由于其能够在不同的输入向量下运行，我们使用模拟患者FCS数据的输入评估了患者驱动模型;我们的模型的接收操作特征曲线下面积（ROC AUC）评分为1.00。的分子签名我们的模型还揭示了先前证实的免疫调节分子、趋化因子受体和激活/效应分子的分子谱。2. 材料与方法学2.1. 数据这些数据是从质量细胞计数实验FR-FCM-ZY 9 W中检索到的，该实验是由一项独立的研究[22]以高度维持的标准进行的，并对我们所描述的研究做出了重大贡献。数据集包括174，005个细胞;数据可访问性、质量控制和临床患者信息已在补充信息中提供。数据集中最初提供了两组结节病患者和对照组。简而言之，对来自受LS影响的四名患者和受非LS影响的四名患者的支气管肺泡灌洗液（BALF）细胞进行质谱细胞术处理。使用具有辅因子5的双曲反正弦（arcsinh）转换标记。将结节病BALF样品作为单细胞老化，并用28种细胞标记物标记以用于进一步研究。选择用于训练的标志物包括CCR 4、CCR 5、CCR 6、CD 127、CD161、CD 27、CD 28、CD 31、CD 38、CD 39、CD 3e、CD 4、CD 44、CD 45、CD 45 RA、CD 5、CD 57、CD 8a、CTLA-4、CXCR 3、CXCR 5、HLA-DR、ICOS、Ki-67、PD-1、TCR αβ、Vα2.3和Vβ22。数据分为训练数据（80%）和测试数据（20%）2.2. 模型架构通常，CNN在二维设置（图像）下操作，并且包含卷积层、激活函数、池化层和完全连接的层。卷积层接受输入，并通过将局部区域的点积与另一个称为内核的矩阵X相加来执行卷积运算。内核是一个矩阵，由权重组成，可用于在基于层次的过程中发现特征和文档模式。内核通常有一个围绕输入卷积的窗口大小。内核的步幅是它在区域之间卷积的距离。激活用于规范化值，而池化则汇总用于降维和记录高度关联值的特征图。全连接层由节点组成，这些节点的权重与有助于预测输入子类的特征相关联。这些权重基于预测的误差进行更新。图1示出了典型的2d-CNN。然而，对于本文，我们提出并实现了1d-CNN，其在过去已用于音频分类[23]、映射蛋白质序列[24]和用于自然语言处理（NLP）[25]。为了使我们的模型适应不同的多单元输入向量，它被设计成遵循某些定律：A) 无论是用于训练还是预测，输入必须至少有一个一致的特征维度，以便内核进行操作。B) 卷积、合并和级联后的输出应该是相同的维度，以馈送到前馈神经网络中。为了遵循这些规律，我们采用了类似于NLP的方法设计了CNN来处理蜂窝数据。2.3. 输入层FCS格式的文件用于输入。Cytoflow是一个Python包，用于定量和统计数据任务，使质谱仪通道和元数据更具可扩展性。可在补充信息中访问包装信息。我们的模型是在一个数据集上训练的，其中有L个LS相关的细胞和N个非LS相关的细胞。我们的模型是在L设置为101，780，N设置为72，100的情况下训练的。每个L和N样本包含28个特征。我们的模型被设计为使用小批量梯度下降进行训练，这意味着它是在数据A. Muppidi和M. 拉德法尔医学信息学解锁19（2020）1003283�¼S�Fig. 1. 2d-CNN.三维输入由内核卷积以执行卷积运算来产生特征图，并由校正线性单元（ReLU）激活。通过使用池化函数汇总值来降低特征映射的维度;这两个层在某些模型中可以重复多次。最后，全连接层是一个前馈网络，它保存来自池化特征图的矢量化信息迭代地。每个批次含有分布在28个生物标志物中的259个细胞的C矩阵，其大小为259 28;C（批次大小）537。该固定形状用于训练以保持一致性，但也注意到在每个相应的I输入中存在L或N2.4. 卷积运算我们使用宽度为1的核，每个标记m对应于列中的分布单元。此外，这允许我们的模型遵守前面提到的定律。每个第k核在围绕I卷积之后产生激活图，其被表示为hk，其中a来自每个步长每个内核的卷积运算的激活单元。卷积运算定义为：hθ。BXW *I！（一）2d-CNN和1d-CNN之间有一个关键的区别。当输入是2维而不是3维时，使用1d-CNNa;k¼kc1c;k2.1.1.因为输入是二维的，所以内核也是二维的。卷积操作仍然类似于2d-CNN，并且为卷积的内核数量生成特征图。主要区别在于池化操作。通常，2d-CNN中的池化从特征图的窗口中选择最大值或总和值;然而，在 1d-CNN 中，执行随时间推移的最大池化 Max-over-timepooling可以从每个特征图中选择最大值以形成单个特征向量。在某些情况下，如果指定了最终的层这些值被平坦化以馈送到前馈网络中。基本1d-CNN的架构如图所示。二、我们的模型由一个分类块组成，它有7个内核，用于学习输入中每个细胞的特征，步长为7。宽度为1的内核可能看起来不合逻辑;其中b是偏置项，c是与内核中的权重向量W或I对应的分量，对应于列m中的单元格，θ是整流线性激活函数[26]。应用最大合并操作进行降维，并选择与样本的结节病亚类相关的贡献标记。最大池化操作从激活图中选择最具表达力的标记，以连接到128的单个特征向量，其表示为V。这个连接运算符最初由Collobert等人（2011）引入，其目的是从每个特征图中捕获最重要或最高频的标记。此特定操作定义为Pm²最大值1：km²（2）其中P包含来自以下的每个标志物的最大合并值：图二. 带有2D输入的1d-CNN内核执行卷积操作来创建特征映射，并由ReLU激活。合并的特征图从特征图中选择最大值以平整成单个特征向量，然后馈送到前馈神经网络中进行预测。A. Muppidi和M. 拉德法尔医学信息学解锁19（2020）1003284��激活图的集合。在连接步骤之后，V¼½P1：Pm�（3）然后将这些值展平以输入到完全连接的层中。还包括了Dropout以防止过拟合[27]; dropout概率初始化为0.15。2.5. 输出最后一层由LS对应的输出节点和非LS对应的输出节点组成。使用小批量梯度下降进行优化，然后使用Adam作为自适应技术[28]。Softmax线性用于输出两个类别的概率，并提供相应输入的真实标签。当真实标签更新时，通过最小化分类交叉熵成本函数来执行训练。该网络训练了55个epoch，学习率设置为0.01，耐心为20 epoch。用了模型权重用于输出与LS和非LS样品对应的分子特征。这允许探索待可视化的样品的预测性生物标志物。为了预测测试数据，将输入形状更改为来自一批单元格（源自FCS文件）的样本大小乘以28（m）。卷积、池化、丢弃和密集层是相同的，并且池化特征图的串联允许使用单个向量进行预测。模型概述如图3所示。我们的预测模型在两种情况下用于报告发现：单细胞预测和患者驱动的预测。这项研究的目的之一是能够准确预测结节病亚型的病人。为了模拟这个问题，我们在六批34，801个细胞上评估了我们的模型。每个批次都被格式化为FCS文件。卷积、池化和级联处理操作并构造了128特征向量。向量被输入到我们的训练模型中，并报告输出。在单细胞分析的情况下，我们的模型不需要自适应：相同的卷积，池化和级联过程操作以创建单个128特征向量，用于发生相同的预测过程2.6. 基线方法为了评估我们的模型与基线方法相比的有效性，实现了来自不同论文的六种方法，并直接实现了三种方法（五种无监督方法和四种监督方法）。为了以无偏度量评价方法，所有方法的转换方法相同：使用双曲反正弦（arcsinh）转换标记物，并使用微珠标准品进行归一化。2.6.1. DeepCyTOF（监督）DeepCyTOF是“一种集成的深度学习神经网络和域适应框架”，用于对质谱细胞术数据中的群体进行自动门控和分类[ 19 ]。它是一个基于训练的自动编码器和域自适应原理的神经网络。简单地说，该方法包括在参考样品上训练数据，然后以单细胞前馈方式在源参考（测试样品）上进行评估。原始程序中省略了转换和预处理方法，因为样本已经进行了预处理。此外，将测试数据（139，204个细胞）合并到单个参考文件中，因为该模型是基于单细胞的方法，而不是基于患者的方法。源目标是包括34，801个细胞的另一个文件（忽略原始分割方法，以针对与其他方法中使用的相同细胞进行评价），并使用相同的28个标记。激活方法是Softmax;被激活的隐藏层包括第12层， 6和3。校准设置为假，去噪设置为真。补充信息中提供了该管道的可用性。值得注意的是，这种方法是基于单细胞的2.6.2. CytofKit方法（无监督）CytofKit是R中Bioconductor包提供的质谱细胞术数据的数据分析管道[13]。CytofKit最初用于收集8名患者数据的研究。CytofKit用于标记物的降维;然而，CytofKit在我们的研究中的使用是不同的。我们使用CytofKit的聚类和自动检测细胞群的能力。以下描述的方法可在CytofKit文库中获得图三. 本文所述分类程序的方法。FCS数据被转换成初始输入层的（259 28）矩阵。这层之后是1d卷积层，它由七个内核组成，这些内核在特征图上构建其激活单元。并通过ReLU激活。池化层计算每个特征图的最大值，并且迭代地完成以连接单个特征向量（128）。密集层由与标记强度相关联的权重组成，以输出到两个节点中的任一个。LS，洛夫格伦综合征;非LS，非洛夫格伦综合征结节病。A. Muppidi和M. 拉德法尔医学信息学解锁19（2020）1003285并且在供应商信息中提供了该包的可访问性。2.6.3. FlowSOMFlowSOM [14]是一种基于自组织映射的技术，除了星图之外，它还使用两个聚类方法来检测种群并构建元聚类。选择默认参数，包括28个标记。由于该方法是无监督的，所有数据都用于分析。2.6.4. 公司简介Bioconductor X是一种基于密度的聚类算法，它采用CFSFDP算法来自动检测密度峰值;它在Bioconductor包中提供。该技术有助于高维数据的聚类，例如结节病数据。它还允许将聚类分配给每个群体，并且可以用于生成标记物之间的聚类中值表达。2.6.5. DensVM基于密度的支持向量机聚类（DensVM）[15]类似的是，它也是基于密度。该方法使用高斯核变换，然后使用峰值查找算法来计算2维概率密度。它将细胞分配到簇，并使用支持向量机（SVM）基于具有相似标记表达的细胞将细胞分配到簇。使用这种方法，可以检测和区分细胞群的子集2.6.6. 物候图Phenograph [16]用于使用欧几里得距离识别k-最近邻。然后，该方法使用Louvain算法提取细胞群落[17]。为了保持一致性和简单性，我们使用Phenograph的R实现2.6.7. XshiftXshift使用具体来说，Xshift结合加权k-最近邻密度估计，局部密度最大值的检测，以及通过图形连接点，以允许聚类合并。该方法允许属于簇的映射细胞的可视化，其可以再次映射到其源群体。2.6.8. 实施监督方法使用Scikit Learn [29]实现了三种不同的监督方法：SVM，随机森林和AdaBoost，它们通过将每个FCS文件的特征归一化为Numpy矩阵来实现。2.7. 评价方法2.7.1. 分子特征为了评估每种方法的可靠性，有必要将结节病相关细胞的聚类特征与现代生物标志物研究进行比较。此外，有必要了解哪些特征特别允许每种方法区分结节病的亚类。这是重要的，因为它允许洞察可能的预测性生物标志物表达用于类别鉴定。为了满足这些需要，构建了用于聚类方法和1d-CNN模型的分子签名。生物特征签名允许分类器在输入是高维的或包含多个参数（诸如基因表达）时应用识别协议。这些特征可以用来预测输入的子类[30]。分子签名专门涉及分子数据，在我们的论文中，它们与质谱细胞术过程中产生的每个生物标志物标签相关联。对这些分子特征的分析需要每个模型的激活特征及其表达强度为了构建这些分子特征，执行了两种可视化方法。第一个应用于DensVM，XtransterX，FlowSOM，Xshift和Phenograph，第二个稍微修改了1d-CNN模型。对于聚类方法，通过基于细胞之间的非线性维度关系分层表示群体，将来自随机选择的LS和非LS簇的细胞组织在散点图上[31]。在该步骤之后，通过它们的相关强度绘制每个相应簇的细胞中活化的标志物。第二种方法略有不同，因为1d-CNN模型不聚类;相反，我们的模型在其神经权重中表现出标记的表达。为了适应这种差异，每当网络获得验证分数时，记录每个标记0.90在训练中来自其预处理的通过相同的分级降维程序绘制指定批次。所选标记的这些构建的表达将被称为“ 标记谱 “ ，不要与本文中提到的聚类方法的 LS 或非 LS谱、分子谱或激活和效应谱混淆。我们检查了每种方法的三种组合标记物。组合谱包括免疫调节分子（PD-1、CTLA-4、ICOS）、效应和活化分子（HLA-DR、CD 127、CD28、CD 161、CD 39）以及趋化因子受体（CXCR 3、CCR 4和CCR 6）。所有的标记物谱先前已被发现与不同强度的结节病的不同亚类相关。2.7.2. F-score我们使用每种聚类方法的能力来为每个细胞群体生成元聚类标签。通过利用这一特征，聚类可以聚集成两个元聚类。因此，每个细胞可以被放置在LS或非LS集群中，允许我们验证集群方法是否将细胞放置在正确或不正确的集群中。这使我们能够使用F1得分来评估所有方法，包括聚类方法。F1分数被定义为精确度和召回率的调和平均值（按类别加权）3. 结果3.1. 生物标志物权重为了探索生物标志物，我们提出了内核中表现出的权重。生物标志物权重对应于先前研究中发现的结节病亚类的许多预测标志物[13，32学习的权重在图4中呈现，并且表示通过随机邻居嵌入测量的强度中的每个亚类的生物标志物关联的输出。用于区分两个亚类的一些值得注意的标志物是免疫调节分子;即PD-1，其显示LS和非LS样品之间的明显差异（图4）。此外，除了免疫抑制受体外，共刺激物ICOS [32]在LS刺激的体重中显示出升高的表达。生物标志物重量也与先前关于效应分子表达的发现一致：HLA_DR、CD39、CD127和CD28，其与非LS重量中的较高表达相关。由于其在LS样品中的低水平表达和其在非LS样品中的高水平表达，CD 44的表达被认为是区分权重;标志物CCR 6和CXCR 3在非LS样品中更高表达，并且与趋化因子受体相关。应该注意的是，并不是所有的分子相关的每个主要组的标志物被发现;然而，大多数不同的低灵敏度标志物，学习证明足以进行分类。3.2. 患者驱动的结果分类方法证明了每个批次样品预测的口径准确性，并达到了1.00的ROC AUC [35]。A. Muppidi和M. 拉德法尔医学信息学解锁19（2020）1003286见图4。通过特征学习学习的生物标志物关联的可视化。两个类别的显著特征强度由权重表示：PD-1、ICOS、HLA-DR、CD 127、CD 28、CD 39、CCR 6和CXCR3。LS，洛夫格伦综合征;非LS，非洛夫格伦综合征结节病。子类预测的批次概率见表1。评估的另一个考虑因素是测量时间和计算能力。对于在单个CPU上运行的所有六个批处理，计算能力是固定的时间范围为1.19 - 1.99 s。3.3. 无监督的方法在F1度量下比较了无监督方法，表2中给出了每种方法的具体结果。单细胞暴露下的1d-CNN获得了最高的F1分数（0.98），其次是FlowSOM，Xshift，QuanterX，DensVM和Phenograph（按从高到低的顺序）。3.4. 监督方法为了衡量我们的模型表21d-CNN和无监督方法的F1分数和运行时间方法F1分数时间（h：m：s）1d-CNN0.98时间03：43：12DensVM0.67时间08：41：21FlowSOM0.81时间00：10：01XShift0.76时间04：21：36物候图0.59时间00：02：54公司简介0.72时间03：04：44表31d-CNN和监督方法的F1分数和运行时间比较了DeepCyTOF、SVM、random森林，AdaBoost和1d-CNN模型。每种监督方法都使用所有细胞的80%进行拟合，并在剩余20%数据的F1度量上进行评估。我们的单细胞模型表现最好，其次是DeepCyTOF，SVM，AdaBoost和随机森林。表3给出了每种方法的F1评分。3.5. 分子特征3.5.1. 免疫调节概况活化标志物PD-1、CTLA-4和ICOS的表达分别为：表1根据测试数据模拟的6名患者的预测分类、置信度评分（括号内）、真实标签和运行时间。批预测真实标签（s）10[0.94]NLS1.5121[0.83]LS1.2931[0.77]LS1.2540[0.98]NLS1.9951[0.78]LS1.1960[0.97]NLS1.40NLS（0）：非LS综合征结节病。LS（1）：洛夫格伦综合征结节病。作为LS和非LS细胞的组合标志物谱进行检查（图5）。当在LS和非LS样品中激活时，这些选择的标志物显示出对比和相似性。对于AlpterX，在LS和非LS标志物谱之间显示出不同的激活。对于Phenograph，标志物谱（LS和非LS）具有相似的表达水平。DensVM揭示了类似的缩减的标记物谱：活化的变异性很小，LS和非LS标记物谱都具有低表达。在FlowSOM标记物谱中，观察到明显的对比：非LS样品中的表达倾向于相对较低，而LS样品显示较高表达的活化。同样，Xshift揭示了标记物谱之间的明显对比：非LS样品具有较低的表达，而LS样品具有较高的表达。最后，1d-CNN模型在LS样本中显示出更高的表达，而在非LS样本中显示出更低的表达3.5.2. 趋化因子受体谱针对每种聚类方法的LS和非LS标志物谱检查活化标志物CXCR 3、CCR 4和CCR 6的表达（图1B）。 6）。对于AlpterX，与LS样品相比，这些标志物在非LS样品中显示出更高的表达对于Phenograph，LS和非LS方法F1分数时间（h：m：s）1d-CNN0.98时间03：43：12DeepCyTOF0.92时间00：13：09SVM0.72时间00：37：07随机森林0.66时间00：42：31AdaBoost0.70时间00：34：16A. Muppidi和M. 拉德法尔医学信息学解锁19（2020）1003287图五. 免疫调节分子激活信号。FlowSOM、Xshift、QuanterX和1d-CNN模型的分子特征显示了LS和非LS谱在免疫调节分子方面的不同谱（标记物重量强度对比）见图6。趋化因子受体激活信号。分子标记的QuanterX，DensVM，和1d-CNN模型显示LS和非LS之间的对比曲线关于趋化因子受体。见图7。激活和效应分子激活的信号。分子签名的AdjunterX和1d-CNN模型显示不同的配置文件之间的LS和非LS配置文件的激活和效应分子。A. Muppidi和M. 拉德法尔医学信息学解锁19（2020）1003288样品具有相似的低表达。DensVM揭示了与ClonterX相似的特征：LS样品中活化标志物的低表达和非LS样品中高得多的表达。对于FlowSOM配置文件，LS和非LS配置文件之间的对比非常小，Xshift的配置文件也显示出很小的对比。1d-CNN模型揭示了低对比度曲线，非LS样品中的表达略高于LS样品;然而，LS和非LS曲线都具有高表达。3.5.3. 激活和效应分子针对每种聚类方法的LS和非LS标志物谱，检查活化标志物HLA-DR、CD 127、CD 28、CD 161和CD 39的表达（图7）。对于AlterX，观察到LS和非LS谱之间的显著对比：活化的标志物在非LS样品中显示出比在LS样品中高得多的表达。对于Phenograph，两种谱具有相似的低表达。DensVM的标志物谱由显示低表达的群体组成，表明没有对比。同样，对于FlowSOM LS和非LS标记物图谱，几乎没有观察到可变对比度。Xshift显示没有相当大的对比：两个配置文件都有高表达的激活标志物。1d-CNN模型揭示了不同的LS和非LS标志物谱，非LS样品中的标志物表达高于LS样品。3.6. 运行时记录每个方法的运行时间。对于无监督方法，这意味着整个过程都被记录下来，因为每个细胞都是聚类的。相比之下，监督方法的训练时间被排除在外，运行时只记录测试数据。为了在与其他方法相同的标准下比较1d-CNN模型，使用单细胞方法记录运行时间。图8给出了每种方法的运行时以及每种方法获得的F1分数4. 讨论我们的模型在准确性和与生物标志物研究的一致性方面取得了显着的结果。首先，我们能够成功地转移基于NLP的模型，并利用其结构进行细胞训练。生物标志物权重导致分析背景关系而不是单个生物标志物强度的模型。例如，我们发现，当其他共刺激因子如ICOS的表达升高时，免疫调节分子在LS细胞中的表达可能升高，表明这些分子可能在LS和非LS之间的潜在差异中具有更显著的作用。我们还发现，许多效应分子和CD44的高表达导致了在识别非LS细胞中的类似背景关系。本文分析的分子特征揭示了对每种方法如何确定单元格是 LS 还是非LS 。对于免疫调节分子，Phenograph和DensVM谱都显示出很小的变异性，这可能表明这些分子具有很小的或低的免疫调节活性。在他们的签名中没有任何作用。相比之下， Xshift 、 FlowSOM 、QuanterX和1d-CNN显示了不同的特征; LS和非LS特征的这种对比表明免疫调节分子（特别是它们的敏感性）在模型特征中发挥重要作用的可能性DensVM和1d-CNN模型在其特征中利用了趋化因子受体;然而，FlowSOM和Phenograph的特征在其特征中利用了非常少的趋化因子受体，也许没有。对于激活和效应分子，只有cDNAsterX和1d-CNN显示了激活的特征;其他方法在其特征中没有显示这些标记。重要的是要注意，Phenograph在三种分子谱中显示出非常弱的激活，而1d-CNN模型和AnterX是唯一在所有三种谱中显示出不同激活的方法。我们的方法能够在深层背景关系中捕获这些分子，这可能解释了它如何能够显示所有三种配置文件的激活。基于无监督基线法的结果，通过这些聚类的特征，对它们的样本进行分析，可以深入了解各种方法之间的相似性和差异。然而，聚类方法在表征这些群体时仅提供有限的清晰度。高维输入可能很容易与流行特征相关联，并在集群之间共享。虽然一些基线方法具有合理的准确性，但在这个特定的分类问题中，准确地关联结节病的正确亚类是至关重要的，特别是在实际临床应用中。这项研究的另一个考虑因素是样本量和数据。尽管我们的模型是在高质量的大细胞集上训练的，但患者样本很小。我们的模型能够利用来自不同患者的细胞数据的混合集合，以防止可能的过度拟合情况。我们的模型是在一个独特的标准中训练的，允许它预测单个患者的结节病亚类，而无需单独分析每个细胞;这个过程创建了一个更可靠的预测，因为模型是基于细胞的集合而不是每个细胞进行预测。然而，当我们在单细胞的基础上评估我们的模型时，我们看到了性能时间上的巨大差距：与其他基线方法相比，我们的模型在性能时间上受到了很大的性能时间差可以解释为，我们的预测函数是针对34，801个单元迭代地为每个单元调用的;尽管每个单元可能具有快速的预测时间，但运行时间是根据测试集中预测的累积来衡量的为类和分子特征确认并与先前的生物标志物结果一致[13，32因此，支持结果允许对该自动分类模型施加更大的置信度和可靠性。因此，我们的模型可以应用于区分LS和非LS患者。该模型也可以适用于质量细胞计数分析方面的识别问题。见图8。方法的F1分数上的性能运行时。记录每种方法的运行时间，用于对细胞进行聚类或分类，并将样品关联为LS和非LS。最快的方法是Phenograph，其次是已实现的方法：FlowSOM，DeepCyTOF，AdaBoost，SVM，随机森林，QuanterX，1d-CNN，Xshift。关于DensVMA. Muppidi和M. 拉德法尔医学信息学解锁19（2020）1003289þ5. 结论在本文中，我们展示了一个有效的模型，利用机器学习技术的质量细胞计数测量。我们证明了该模型在患者水平上准确可靠地区分结节病类别的能力，这在进行准确的医学治疗时至关重要。我们的模型是独特的，因为它可以用于预测具有不同的多细胞输入维度的患者文件;这为实际的质谱细胞术分析领域提供了独特的视角。使用该模型，我们实现了模拟患者文件的ROC AUC为1.00。此外，在单细胞环境中，与基线方法相比，它获得了最高的F1评分（0.98）。我们进一步评估了我们的模型以可视化LS和非LS样品中的特定生物标志物关联。我们探索了显著的鉴别标志物：PD-1、ICOS、CD127、CD 39、HLA_DR、CD 44、CD 28、CCR6和CXCR3。我们的模型的分子特征包括结节病分化的所有三个主要组：免疫调节分子、趋化因子受体和激活/效应分子。考虑到我们的模型在分类LS和非LS样本方面的令人信服的性能，我们希望它能被考虑用于未来的使用。该模型可以当应用于更多患者数据时，可以进一步细化。我们的模型展示了一个简单的神经网络架构用于训练，就像最初提出的朴素NLP CNN一样，并且，就像CNN和NLP领域的模型一样，我们预计将在本文的基础上构建更复杂的模型来解决这个问题。道德声明我们确认，我们已充分考虑到与本作品相关的知识产权保护，并且在知识产权方面不存在出版障碍，包括出版时间。在此过程中，我们确认我们遵守了我们机构有关知识产权的规定。竞合利益我们确认，本出版物不存在已知的利益冲突，也没有可能影响其结果的重大财务支持。致谢这项研究没有从公共、商业或非营利部门的资助机构获得任何具体的附录A. 补充数据本文的补充数据可在 https ： //doi 网站上找到。org/10.1016/j.imu.2020.100328。参考文献[1] Lofgren S，Lundback H.双侧肺门淋巴瘤综合征212例与结核、结节病关系的研究。医学科学学报1952;142：265-73.https://www.ncbi.nlm.nih.gov/pubmed/14932794网站。[2] Costabel U，Hunninghake GW. ATS/ERS/WASOG关于结节病的声明。结节病声明委员会。美国胸科协会。欧洲呼吸学会。世界结节病和其他肉芽肿病协会。欧洲呼吸杂志1999;14：735-7。http://erj.ersjournals.com/content/14/4/735.abstract网站。[3] Baughman RP，Culver DA，Judson MA.肺结节病的简要回顾Am JRespir CritCare Med 2011;183：573-81. https://doi.org/10.1164/rccm.201006-0865CI。[4] GrunewaldJ， Berlin M，Olerup O，Eklund A.表达T细胞受体AV2S3的肺辅助性T细胞美国呼吸重症监护医学杂志2000;161：814-8。https://doi.org/10.1164/ajrccm.161.3.9906001啊[5] Planck A，Eklund A，Grunewald J.临床恢复的人类白细胞抗原-DR 17阳性结节病患者的活动标志物。欧洲呼吸杂志2003;21：52-7.http://erj.ersjournals.com/content/21/1/52.abstract网站。[6] [10] RiveraNV，RonningerM，ShchetynskyK，FrankeA，No€thenMM，Müller-Quernheim J，et al. 高密度遗传图谱鉴定结节病表型中新的Am JRespir Crit Care Med 2016;193（9）：1008-22。https://doi.org/10.1164/rccm.201507-1372OC。[7] Bandura DR，Baranov VI，Ornatsky OI，Antonov A，Kinach R，Lou X，PavlovS，Vorobiev S，Dick JE，Tanner SD.质谱细胞术：基于电感耦合等离子体飞行时间质谱的实时单细胞多靶点免疫分析技术。Anal Chem 2009.https://doi.org/10.1021/ac901049w网站。[8] Aghaeepour N，Finak G，，The FlowCAP consortium，the DREAMconsortium，Hoos H，Mosmann TR，Brinkman R，Gottardo R，Scheuermann RH.自动流式细胞术数据分析技术的关键评估Nat Methods20

下载后可阅读完整内容，剩余1页未读，立即下载