没有合适的资源?快使用搜索试试~ 我知道了~
工程15(2022)102研究肿瘤诊断和治疗新技术-文章基于人工智能的肺癌NOG/PDX模型驱动基因匹配预测何亚毅a,b,郭皓月a,b,李雕c,陈宇d,朱俊杰e,希兰C.费尔南多g,迭戈冈萨雷斯里瓦斯e,h,Hui Qii,Chunlei Daii,Xuzhen Tangi,Jun Zhua,b,Jiawei Daij,Kan Hej,Dan Chank,Yang Yange,f,Zhanga同济大学医学院,上海200092,中国b同济大学医学院附属上海市肺科医院肿瘤内科,中国上海c上海交通大学电子信息与电气工程学院自动化系,上海200240d上海长征医院骨科脊柱中心,上海200003e同济大学医学院附属上海市肺科医院胸外科,上海200433同济大学材料科学与工程学院,上海201804g美国宾夕法尼亚州匹兹堡阿勒格尼总医院胸外科15212h西班牙科鲁尼亚大学医院胸外科和微创胸外科(UCTMI),科鲁尼亚15006i肿瘤和免疫学BU,研究服务部,WuXi Apptec,上海200131,中国j邮编:200240k美国科罗拉多大学安舒茨医学院医学系肿瘤内科,邮编:80045阿提奇莱因福奥文章历史记录:2020年12月8日收到2021年5月5日修订2021年6月20日接受2021年8月18日网上发售保留字:机器学习患者源性肿瘤异种移植物NOG小鼠A B S T R A C T患者来源的肿瘤异种移植物(PDX)是癌症药物发现和筛选的有力工具。然而,目前的研究导致对PDX基因型错配的了解很少,导致了巨大的经济损失。在这里,我们建立了53例肺癌患者的PDX模型,基因型匹配率为79.2%(42/53)。此外,检查了17个临床病理特征,并将其输入基于最低Akaike信息标准(AIC)、最小绝对收缩和选择算子(LASSO)-LR、支持向量机(SVM )递归特征消除(SVM-RFE)、极端梯度增强(XGBoost)、梯度增强和分类特征(CatBoost)以及合成少数过采样技术(SMOTE)的逐步逻辑回归(LR)模型。最后,通过100个测试组的准确性、受试者工作特征曲线下面积(AUC)和F1评分来评估两个多变量LR模型显示,年龄、驱动基因突变数量、表皮生长因子受体(EGFR)基因突变、既往化疗类型、既往酪氨酸激酶抑制剂(TKI)治疗和样本来源是强有力的预测因素。此外,CatBoost(平均准确度= 0.960;平均AUC = 0.939;平均F1评分= 0.908)和八特征SVM-RFE(平均准确度= 0.950;平均AUC = 0.934;平均F1评分=0.903)在算法中表现出最佳性能。同时,SMOTE的应用提高了除CatBoost外的大多数模型的预测能力.基于SMOTE,单个模型的集成分类器实现了最高的准确度(平均值= 0.975),AUC(平均值= 0.949)和F1评分(平均值= 0.938)。总之,我们建立了一个最佳的预测模型来筛选肺癌患者的非肥胖糖尿病(NOD)/Shi-scid,白细胞介素-2受体(IL-2 R)c缺失 (NOG)/PDX型号,并提供通用建立预测模型的方法。©2021 THE COUNTORS.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版。这是一篇CCBY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。1. 介绍肺癌导致人类大多数癌症死亡,全世界每年有超过100万人死亡[1]。约*通讯作者。电子邮件地址:timyangsh@tongji.edu.cn(Y. Yang)。85%的肺癌是非小细胞肺癌(NSCLC),小细胞肺癌(SCLC)占肺癌的15%[2]。近年来,随着驱动基因的引入和分子检测技术的进步,肺癌患者的化疗治疗模式发生了转变[3,4],特别是在表皮生长因子受体(EGFR)基因突变[5,6]和间变性重排的患者中,https://doi.org/10.1016/j.eng.2021.06.0172095-8099/©2021 THE COMEORS.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表工程杂志首页:www.elsevier.com/locate/engY. 他,H.郭湖,加-地Diao等人工程15(2022)102103××·-大细胞淋巴瘤激酶(ALK)基因[7]。然而,靶向治疗面临一系列困难,包括不同的个体反应和频繁的获得性耐药[8,9]。免疫检查点抑制剂(ICI)被推荐用于肺癌患者[10]。然而,只有大约20%的肺癌患者对免疫治疗有反应。明确肺癌患者的耐药临床前动物模型对于药物筛选至关重要。患者源性肿瘤异种移植物(PDX)已成为一种准确的临床前系统,能够维持亲代肿瘤的分子、遗传和组织病理学异质性[11,12]。此外,称为非肥胖糖尿病(NOD)/Shi-scid的新一代超级免疫缺陷小鼠,白细胞介素-2受体(IL-2 R)c缺失(NOG)小鼠,其特征在于IL-2 R共同γ链的缺失和多种免疫细胞(例如,T细胞、B细胞、自然杀伤(NK)细胞、巨噬细胞和树突状细胞)被认为是构建用于癌症免疫治疗的PDX模型的绝佳选择[13]。与裸小鼠和传统的严重联合免疫缺陷(SCID)小鼠相比,NOG小鼠在ICI、过继性T细胞疗法(ACT)和其他免疫疗法的研究中表现出了突出的潜力,因为肿瘤浸润性T 淋巴细胞(TILs)可以在移植后连续地移植到它们中。异种移植物形成[14,15]。尽管如此,PDX建立的低成功率(20%由于生成PDX模型的方案是耗时的、劳动密集型的和昂贵的[21],驱动基因突变的不一致性对于研究人员、医生和患者来说是非常成问题的。然而,多种因素,包括性别、吸烟史、病理学、肿瘤淋巴结转移(TNM)分期、肿瘤分级、肿瘤样本质量和EGFR基因突变,已被证明与肿瘤植入成功率相关[17,18,22]。这些因素是否有助于PDX模型中驱动基因突变的一致性,特别是在NOG小鼠中建立的那些,尚未得到验证。 本研究旨在使用机器学习(ML)算法,包括多变量逻辑回归(LR)、支持向量机(SVM)递归特征消除(SVM-RFE)、梯度提升决策树( GBDT ) 和 合成 少 数过 采 样 技术 ( SMOTE ) , 以 建立 预 测NOG/PDX模型和患者肿瘤之间驱动基因突变不一致性的强大工具(图11)。①的人。2. 材料和方法2.1. 患者样本2018年8月至2019年10月期间,在上海肺科医院(中国)通过计算机断层扫描(CT)引导下经皮肺活检(CT-PLB)、淋巴结活检(LNB)或胸腔穿刺术获得了53例患者的肺癌组织或细胞。所有患者均提供了书面知情同意书,授权采集和使用其组织用于研究目的。本研究已获得上海市肺科医院伦理/许可委员会批准(批准号:NO K18-203)。此外,本研究按照1964年赫尔辛基的伦理标准进行。2.2. 组织样本将从经支气管活检(TBB)、CT-PLB和LNB中收获的组织分为三块。第一块是切碎的切 成 50-100 mm 3 的 碎 片 序 号 : BBH 01; Nippon Genetics ,Japan),然后保持在液氮中直至植入免疫缺陷小鼠中。将第二片立即在液氮中冷冻用于DNA/RNA提取。第三块用于生成福尔马林固定石蜡包埋(FFPE)载玻片,用于病理评估。2.3. 恶性胸腔积液的准备恶性胸腔积液(MPE)的制备和培养通过胸腔穿刺术抽取约200-1000 mL胸腔积液。将样品以3000转/分钟(rpm)离心10分钟,然后重悬于磷酸盐缓冲盐水(PBS)中。 使用Ficoll-Paque PLUS(GEHealthcare Bio-Sciences,Sweden)通过密度梯度离心从样品的相间层分离肿瘤细胞。 用PBS洗涤后,在含有10%胎牛血清(FBS;Thermo Fisher Scientific , USA )和 10 ng·mL-1 表皮 生长因子(EGF)的Roswell Park Memorial Institute(RPMI)-1640中以1 × 106至2 × 106个细胞/板的密度培养肿瘤细胞。2.4. 设立国家办事处/项目执行办公室本研 究中的所 有动物 实验均遵 循机构 动物护理 和使用 委员会(IACUC)的指南。在6至8周龄雌性NOG小鼠(Charles River,中国)中建立PDX模型。将冷冻的组织在37 °C下解冻,并直接皮下植入NOG小鼠的无菌皮肤中(每个肿瘤样品n = 4-5)。同时,将从MPE分离的肿瘤细胞在PBS中洗涤一次,然后注射(5 × 106个细胞)到每只NOG小鼠的右侧腹(对于每种MPE样品,n= 4最初的肿瘤植入NOG小鼠维持120天,每周测量一次肿瘤。使用以下公式计算肿瘤体积(TV):TV =(长度宽度2)/2(长度是最长直径,而宽度是最短直径)。当肿瘤大小达到约700-800 mm 3时,将异种移植肿瘤传代将每代PDX肿瘤分成三块。将第一块植入另一只NOG小鼠中进行传代。将第二片立即冷冻在液氮中用于DNA/RNA提取。第三块用于生成FFPE载玻片以进行病理学评估。所有动物护理和实验均根据上海市肺科医院伦理/许可委员会批准的动物方案进行。2.5. DNA和RNA提取对肺癌组织和PDX组织进行病理学检查,以确保肿瘤细胞占肿瘤的80%以上,并且在DNA提取之前没有发生显著的肿瘤坏死。使用QIAamp DNA迷你试剂盒(51306; Qiagen,德国)从每个组织样品中提取基因组DNA使用Nanodrop ND-1000 UV/VIS分光光度计(Thermo Fisher Scientific)测量DNA样品的量和纯度使用1%琼脂糖凝胶通过电泳确认DNA 片段完整性 将DNA 浓度标准化为20ng/L,并储存在20 ℃。20°C,直至使用。EGFR(外显子18、19、20和21)和ALK融合(EML 4-ALK)中的“热点”突变均通过扩增难治性突变系统(ARMS)和富含突变位点的液相芯片聚合酶链反应(PCR)进行筛查。Y. 他,H.郭湖,加-地Diao等人工程15(2022)102104Fig. 1.建立肺癌NOG/PDX模型和ML的研究设计和方案。在这项研究中,我们最初通过计算机断层扫描(CT)引导下经皮肺活检(CT-PLB),淋巴结活检(LNB)或胸腔穿刺术获得肺癌组织,然后将所有组织植入NOG小鼠。在成功建立53个NOG/PDX模型后,取所有PDX组织行HE染色基因测序,以确定模型的基因型是否与患者肿瘤的基因型然后,我们将患者的17个临床病理特征输入三种ML方法-LR,SVM-RFE和GBDT。之后,我们执行了这三个模型的五种算法,基于最低Akaike信息准则(AIC)的逐步LR,最小绝对收缩和选择算子(LASSO)-LR,SVM-RFE,极端梯度提升(XGBoost)和梯度提升和分类特征(CatBoost),以选择或排名所有53个样本中的特征。接下来,我们通过分层随机抽样产生了100个训练组和100个测试组。我们还运用SMOTE产生了另外10个阳性类别,其基因型与亲本肿瘤的基因型不同,并将其添加到每个训练组中。最后,我们比较了每种算法在相应的训练组中训练后的整体性能2.6. 基因型匹配和错配在本研究中,基因型匹配定义为PDX模型和相应患者中EGFR和ALK的突变类型完全将基因型错配定义为3种类型:①患者的原始驱动基因突变在PDX模型中不存在;②在PDX模型中检测到驱动基因突变而在相应患者中未检测到;③在PDX模型和相应患者中均出现驱动基因突变,但在PDX模型和患者之间驱动基因的数量和/或类型不一致。2.7. 机器学习2.7.1. 基于最小赤池信息准则的逐步LR赤池信息标准(AIC)是用于评分和选择模型的指标,其通过以下公式计算:AIC1/4- 2=Nω对数似然估计 2K=N其中N是样本的数量,K是模型中变量的数量加上截距,对数似然是模型拟合的度量“群众Y. 他,H.郭湖,加-地Diao等人工程15(2022)102105PP××使用R软件包,基于最低AIC进行逐步LR。2.7.2. 最小绝对收缩和选择算子-LR驱动基因突变用作LR模型中的因变量Y输入,并编码为0表示缺失(一致),编码为1表示存在(不一致)。给定协变量Xi,驱动基因突变不一致的概率计算如下:Y¼b 0b1X1b2X 2b3X3···bkXk逻辑最小绝对收缩和选择算子(LASSO)估计量b0,. . ,bk被定义为负对数似然的最小值:邻居,而d是0和1之间的随机数。在这项研究中,我们使用Python软件的2.7.7. 自助再抽样在 本 研 究 中 , 使 用 Python 软 件 进 行 Bootstrapping , 以 使 用RESISTANCE对100个训练组(n= 35; 7个非匹配样本和28个匹配样本)和100个测试组(n= 18; 4个非匹配样本和14个匹配样本)进行分层。2.8. 模型性能评价为了评估所有预测模型的性能,ni¼1 -yib0b1x1···bkxklg½1expb0b1x1···bkxk]研究中,我们计算了指数(表1)。受kj¼1影响jbjj≤k进行了以下计算(1) 准确度=[真阳性计数(TP)+真阴性计数这里,k> 0是控制估计器的稀疏性的调整参数具有零值的系数的数量),并且在实践中,通过使用验证样本或交叉验证来选择[23]。为了获得logistic LASSO估计量,我们使用R软件中的2.7.3. SVM-RFESVM-RFE是一种基于SVM的特征消除方法,通过从初始特征集中选择具有最佳性能的肽集来据报道,它是生物信息学中解决过拟合问题的最佳分类算法之一在这项研究中,我们使用了“sklearn”。用于SVM- RFE的Python软件的“feature_selection2.7.4. 极端梯度增强(XGBoost)XGBoost用于监督学习问题;在这里,我们用它来分类驱动基因突变是否在PDX模型和亲本肿瘤中匹配。在这项研究中,每次迭代都使用树bytree = 0.25,eval_metric =2.7.5. 梯度提升和分类特征(CatBoost)GBDT库中的另一种算法CatBoost用于特征选择和预测工具的建立 。 在 这 项 研 究 中 , 我 们 使 用 Python 软 件 的 “catboost” 包 进 行CatBoost。CatBoost的详细参数如下:loss_function =t = 1,且reg_lambda = 10。2.7.6. 击杀SMOTE是一种过采样方法,其工作原理是通过随机数据复制应用采样方法来增加正类的数量,使得正数据的量等于负数据的量SMOTE算法首先由Chawla等人提出[24]第10段。这种方法通过构建合成数据小数据复制来工作SMOTE算法通过为每个正类定义k个最近邻,然后为正类和随机选择的k个最近邻之间的期望百分比执行数据合成复制来运行一般情况下,它可以用公式表示如下:Xsyn=Xi+(Xknn-Xi[TP + TN +假阳性计数(FP)+假阴性计数(FN)](2) 精度= TP/(TP + FP)(3) 回忆= TP/(TP + FN)(4) F1评分=(2精度查全率)/(查准率+查全率)(5) 受试者工作特征曲线(ROC)以假阳性率为横坐标,真阳性率为纵坐标。通过Python软件的“sklearn.metrics”计算ROC曲线下面积(AUC)2.9. 统计分析使用配对样本t检验来比较测试组中不同模型之间的本研究中的所有数据分析均使用统计产品和服务解决方案(SPSS)(版本23.0;IBM SPSS,USA)、R软件(版本3.1.0; R Core Team,USA)、MATLAB(版本7.12.0; Mathworks,USA)和Python软件(版本2.7; Python Software Founda- tion , USA ) 进 行 所 有 图 均 用GraphPad Prism(版本8.0; GraphPad Software,USA)产生。统计检验为双侧检验,P< 0.05视为具有统计学显著性。2.10. 计算机代码可用性本研究的所有原始数据和代码可在https://github.com/dddtqshmpmz/PDX上获得。3. 结果3.1. NOG/PDX模型所有53例NSCLC患者的一般临床病理学特征见附录A表S1和S2。患者中位年龄为66岁,83.0%(44/53)为男性。3例(5.7%)患者被诊断为TNM-1期,其他患者被诊断为3/4期(94.3%)。40例(75.5%)诊断为NSCLC,包括9例鳞状细胞癌(SCC),15例腺癌(ADC)和16例其他NSCLC。十三表1本研究中绩效指标的定义。Predicted class True class正负阳性真阳性计数(TP)假阳性计数(FP)阴性假阴性计数(FN)真阴性计数(TN)从k个最近的数据点中随机选取的相邻数据Y. 他,H.郭湖,加-地Diao等人工程15(2022)102106表253例患者的特征和17个临床病理变量的单变量LR,用于确定与PDX模型和亲本肿瘤之间驱动基因不一致相关的因素n级P值和比值比(OR)采用单变量LR进行分析伦理委员会:依托泊苷和卡铂; GC:吉西他滨和顺铂; AC:培美曲塞和卡铂;公关:部分反应; PD:进行性疾病; SD:病情稳定;CI:置信区间; T分期:原发肿瘤的大小或直接范围;N分期:向区域淋巴结扩散的程度;M分期:存在远处转移; TNM分期:根据美国癌症联合委员会(AJCC)的肿瘤、淋巴结、转移(TNM)分期分类可变PDX模型与亲本肿瘤POR(95% CI)是的没有平均年龄(岁)65.3659.730.0500.921(0.848性别男性3950.0101.000女性3615.600(2.938吸烟状态否1290.0101.000是的30211.250(2.113样品CT-PLB的来源4080.0421.000LNB或胸腔穿刺术237.500(1.704病理ADC870.01210.500(1.076SCC900其他NSCLC1332.769(0.252SCLC1211.000EGFR突变编号412<0.001个单位1.000是的19184.500(15.046突变数0411<0.001个单位1.000117287 000(16 0242t台036.620× 10101–21210.1481.0003–430104.000(0.4600510.5461.000140021241.667(0.147-18.874)32161.429(0.139-14.695)M期01310.1731.000129100.223(0.026TNM-1300.2301.0003–43911455 646 925.900远处转移部位数量01311.0001.00011750.077(0.0022520.294(0.0153510.400(0.0164110.200(0.0065111.000(0.020既往治疗否1220.4731.000是的3091.800(0.338既往化疗否1590.0058.100(1.545是的2721.000化疗类型EC700.0371.000GC701.000紫杉醇脂质体301.000AC31538 491 658.700其它化疗712 307 282 139.000没有一159989 284 985.700既往TKI治疗否3960.0051.000是的5310.833(2.040既往治疗的疗效无治疗1220.3871.000PR300.417(0.076PD300SD410未评价2080.625(0.060Y. 他,H.郭湖,加-地Diao等人工程15(2022)102107(24.5%的患者患有SCLC。在所有样本中,10例患者(18.9%)的组织存在EGFR基因突变,1例患者(1.9%)存在ALK融合,其余42例样本为非突变组织(79.2%)。转移39例(73.6%)。48例(90.6%)通过CT-PLB获得,而LNB获得2例(3.8%),3例(5.7%)通过胸腔穿刺获得。有39名患者(73.6%)接受了治疗之前取样,包括化疗(n= 29)、酪氨酸激酶抑制剂(TKI)(n= 8)和免疫疗法(n= 2),而14例患者(26.4%)未接受任何治疗。本研究中包括的所有PDX模型均经病理学家证实成功建立(尺寸达到约700驱动基因匹配的总体比率为84%(42/50)。3.2. 型号1:LR3.2.1. 基因型错配相关因素的单因素分析单变量LR分析表明,PDX模型和亲本肿瘤之间驱动基因突变不一致的风险因素为女性、年龄较小、吸烟史、LNB或胸腔穿刺术获得、NSCLC(SCC除外)、EGFR突变、更多驱动基因突变、既往未接受化疗、既往接受培美曲塞+卡铂化疗和既往接受TKI治疗(表2)。3.2.2. 在所有53个示例中进行多变量选择LR基于AIC。为了平衡预测模型性能和复杂性,我们通过计算AIC进行了逐步模型选择。根据单因素分析,有10个潜在的预测功能。图图2(a)示出了每一个的AIC值。图二、基于最低AIC和LASSO的特征选择(a)逐步多变量LR中所有可能模型的AIC较低的AIC表示更好的拟合。结果显示在由模型中变量数量定义的列中一般而言,排除驱动基因突变数量的模型获得了最差的AIC,而包含年龄、驱动基因突变数量、既往化疗类型、既往TKI治疗和样本来源的模型是所有潜在模型中AIC最低的模型上横坐标是此时模型中非零系数的数量(b)使用LASSO-LR模型选择系数k为最优惩罚系数。绘制二项离差与lg(k)的曲线。根据最小标准和最小标准的一个标准误差,在最佳k值处绘制垂直虚线。左垂直线表示最小误差,右垂直线表示在最小值的一个标准误差选择最小值的1个标准误差的最佳k值上横坐标是此时模型中非零系数的数量(c)在单变量LR中显著的十个候选变量的LASSO系数。右侧垂直虚线在最小值的一个标准误差处绘制,得到两个非零系数:驱动基因突变和EGFR基因突变的数量Y. 他,H.郭湖,加-地Diao等人工程15(2022)102108在向后逐步LR中的步骤,其中十个预测特征被逐一删除,直到AIC不再降低。一般来说,排除驱动基因数量的模型呈现了最差的AIC,这表明驱动基因的数量是一个重要的预测。此外,AIC选择的最佳多变量模型是五变量LR模型,包括图3.第三章。前十个变量的重要性排名以及SVM-RFE和GBDT的建模过程(a)根据三种算法(SVM-RFE、CatBoost和XGBoost)显示十个最关键的变量的图表,其中相同的颜色表示相同的排名。(b)基于100个测试组中不同数量的变量的SVM-RFE的平均预测准确度八特征SVM-RFE以最少的变量表现出最高的准确性(c)SVM-RFE的平均F1分数基于100个测试组中不同数量的变量八个特征的SVM-RFE表现出最高的F1分数与最少的变量。(d)显示通过XGBoost模型训练获得的100个分类和回归树(CART)中的3个的图在将测试样本输入到每个CART中之后,可以在叶节点处获得每个样本对100棵树的总得分进行加权后,即可得到每个样本Y. 他,H.郭湖,加-地Diao等人工程15(2022)102109年龄、驱动基因突变数量、既往化疗类型、既往TKI治疗和样本来源LASSO-LR。我们在LR中进行LASSO正则化,以提高预测精度和可解释性。在这里,我们将来自单变量LR模型的十个重要特征输入到多变量LASSO-LR。十个特征中的两个特征-即EGFR突变和驱动基因的数量-通过LASS 0-LR结合10倍交叉验证筛选出来,其中最佳惩罚系数k值为一个标准误差(图1A和1B)。2(b)和(c))。3.3. 型号2:SVM-RFESVM-RFE从一个完整的特征集开始,根据维度长度的权重向量,在每次迭代中消除对分类最不重要的特征。根据图3(a)中可视化的特征重要性排名,我们首先删除了7个最不重要的变量,然后逐个消除剩余的10个变量,以优化预测精度。根据测试组的平均预测准确率和F1得分,包括八个变量保持最好的性能,最小的复杂性(图2 - 3)。3(b)和(c))。结果表明,八特征SVM-RFE是所有SVM分类器中最好的模型3.4. 型号3:GBDT为 了 实 现 GBDT , 我 们 使 用 了 两 种 常 用 的 算 法 : XGBoost 和CatBoost。大量实验表明,特征之间的多重共线性并不妨碍决策树的预测分类[25]。因此,在这项研究中,我们在XGBoost和CatBoost中输入了所有17个特征。基于XGBoost和CatBoost分类算法的特征等级也在图3(a)中给出。XGBoost和CatBoost生成的决策树的代表性结构如图所示。第 3段(d)分段。3.5. 在训练组中建模,在测试组中评估性能3.5.1. 不同型号根据100个测试组的AUC、准确度和F1评分,CatBoost(平均准确度= 0.960;平均AUC = 0.939;图四、不同模型之间的性能比较(a)单一模型的性能根据100个测试组的预测准确度、AUC和F1评分,CatBoost和八特征SVM-RFE表现出比XGBoost、LASSO-LR和LR更好的性能。(b)模型在训练组和测试组中表现的偏差*P 0.05,**P 0.01,*P 0.001,基于CatBoost和其他模型之间的配对样本t检验Y. 他,H.郭湖,加-地Diao等人工程15(2022)102110平均F1得分= 0.908)和8特征SVM-RFE(平均准确度= 0.950;平均AUC = 0.934;平均F1得分= 0.903)明显优于其他三个模型,XGBoost(平均准确度= 0.951;平均AUC = 0.908;平均F1评分= 0.873),LASSO-LR(平均准确度= 0.937;平均AUC = 0.886;平均F1评分=0.841)和基于AIC的LR(平均准确度= 0.923;平均AUC = 0.850;平均F1评分= 0.789)。虽然八特征SVM-RFE和XGBoost的准确度在统计学上相等,但CatBoost和八特征SVM-RFE具有整体最佳性能。此外,CatBoost和八特征SVM-RFE的平均准确度(P= 0.103)、AUC(P=0.066)和F1评分(P= 0.128)没有显著差异(图4(a)),这表明有望克服不平衡的小样本数据集的局限性。我们还评估了这些模型性能的偏倚(图4(b)),其中训练组和测试组之间的准确度、F1评分和AUC差异保持在8%以下,但基于AIC的LR的F1评分除外(训练组和测试组之间的差异:11.6%)。3.5.2. 用SMOTE改进模型性能SMOTE是一种过采样方法,通过随机数据复制增加正类的数量,使正类和负类的数量相等[26]。在此,我们应用SMOTE将另外10个阳性样本添加到训练组中,以完成特征选择,建立每个模型,然后在原始100个测试组中测试模型(附录A中的表S2和S3)。LASSO-LR在应用SMOTE的平衡训练数据中具有相同的两个特征:EGFR突变和驱动基因突变的数量。相比之下,基于AIC的LR从所有特征中选择了以下7个特征:性别、EGFR突变、驱动基因突变数量SVM-RFE、XGBoost和CatBoost中十个最重要的特性的排名如图所示。 5,驱动基因突变和EGFR突变的数量仍然是主要贡献者。有趣的是,执行SMOTE增强了整体效果,LASSO-LR的准确性(准确度:0.957 vs 0.923; AUC:0.936 vs 0.850;F1评分:0.902 vs 0.789;所有P<0.001),基于AIC的LR(准确度:0.945 vs 0.937; AUC:0.904 vs 0.885; F1评分:0.864 vs 0.841;所有P0.001),八特征SVM-RFE(准确度:0.961 vs 0.958,P= 0.025; AUC:0.940 vs 0.935,P= 0.045; F1评分:0.909 vs 0.903,P= 0.047)和XGBoost(准确度:0.934 vs 0.908,P= 0.004; AUC:0.953 vs 0.952,P= 0.630; F1评分:0.896 vs 0.874,P= 0.108)(图2) 6(a)-(d))。然而,SMOTE的应用并没有影响CatBoost对基因型错配的预测能力(准确度:0.961 vs 0.960;AUC:0.909 vs 0.908; F1评分:0.940 vs 0.939; 均P> 0.05)(图10)。 6(e))。在这种情况下,CatBoost证明了均匀和不均匀样品的相同稳定潜力然而,LR实现了最大的显着的性能增强与SMOTE,这表明LR应该被推荐用于偶数数据。此外,我们描述了一种可以在小的、不均匀的样本中改进SVM-RFE和XGBoost的方法。3.5.3. 集成分类器性能的最终优化考虑到大多数模型在应用SMOTE后性能的显著增强,我们最终在基于AIC,八特征SVM-RFE,XGBoost和CatBoost的LR的基础上进行SMOTE后使用了一个集成分类器。令人惊讶的是,集成分类器的准确度(平均值= 0.975),AUC(平均值= 0.949)和F1评分(平均值= 0.938)与单一模型相比进一步优化(图6(f))。此外,在训练组和测试组中集成分类器的偏差也是优越的(所有差异低于5%)(图11)。6(f))。因此,本文提出了一种基于单一优化模型的集成分类器,克服了样本容量和分布的缺陷,达到了最佳的区分度和稳定性。4. 讨论和结论本研究最初开发了NOG/PDX模型和患者样本之间驱动基因突变不一致性的预测模型。总共53个肺癌NOG/PDX模型被成功移植和切除,包括42个具有与亲本肿瘤中的驱动基因突变匹配的驱动基因突变的NOG/PDX模型和11个具有不匹配肿瘤的NOG/PDX模型。为了分析这个小型不平衡数据库,我们使用了五种算法:基于AIC的LR,LASSO-LR,八特征SVM-RFE,XGBoost和CatBoost。从测试组的各项指标来看,CatBoost和八特征SVM-RFE的性能最好。此外,SMOTE的使用通常提高了除CatBoost之外的所有模型在基本水平上的性能。最后,基于单个模型的集成分类器具有最好的性能(平均准确度= 0.975;平均AUC = 0.949;平均F1得分= 0.938),训练组和测试组之间的偏差可接受(所有差异均在5%以下)。图五、一个图表显示了根据三种算法(SVM-RFE,CatBoost和XGBoost)使用SMOTE的十个最关键的变量,其中相同的颜色表示相同的排名。Y. 他,H.郭湖,加-地Diao等人工程15(2022)102111见图6。不同算法的SMOTE的性能。(a)将SMOTE引入LASSO-LR的性能。(b)在AIC的基础上,将SMOTE引入LR(c)将SMOTE引入八特征SVM-RFE的性能(d)将SMOTE引入CatBoost的绩效(e) 将SMOTE引入XGBoost的性能。(f)通过基于AIC,八特征SVM-RFE,XGBoost和CatBoost的LR进行SMOTE,在训练和测试组中的集成分类器的性能。*P 0.05,**P 0.01,*P0.001,基于配对样本t检验。PDX模型的生成和传代是动态事件,其中经常发生克隆和亚克隆改变,特别是当P1 PDX模型的开发缓慢时,这为肿瘤细胞突变和适应新环境提供了足够的时间[27,28]。除了细胞自主异质性之外,肿瘤微环境(TME)中的基质异质性是PDX驱动基因型与亲本肿瘤不同的关键原因[12]。据报道,SCC在裸鼠中比ADC更容易发生肿瘤[18],这与我们的结论不一致,即SCC 是建立具有遗传匹配的NOG/PDX模型的最易发生的肿瘤类型在SCC肿瘤中检测到的CD8+TIL多于非SCC细胞巢[29],这表明SCC的PDX模型可能在异种移植物植入期间丢失更多的肿瘤基质此外,已发现SCC倾向于携带比ADC显著更多的克隆突变[30],从而有助于更多的克隆选择。虽然年龄在多变量LR中的权重较小,但我们尚未找到适当的方法来说明年龄较小而不是年龄较大是驱动基因匹配的风险因素[31]。大多数PDX模型使用8周龄小鼠而不是老年小鼠(> 8个月),而最近的研究发现,衰老可能会显著改变TME的组分[32]。因此,小鼠和患者年龄的不一致可能是发现年龄在这里是一个预测特征。另一个特征,即来源,也在基因型匹配中发挥了负面作用,这与肿瘤移植不同。尽管已经提出液体来源具有更高的植入率[33],但我们发现在液体来源的肿瘤异种移植物中维持部分肿瘤的驱动基因型更具挑战性驱动基因突变(包括克隆和亚克隆突变)的数量与肿瘤内异质性、基因组不稳定性和染色体不稳定性相关[34]。首先,多变量LR模型中驱动基因数目的最大系数也说明了其在开发非患者匹配基因型中的重要性。其次,据报道,来自EGFR突变肺癌的PDX模型具有较差的组织学差异和频繁的EGFR突变丢失[35],这支持了本研究中NOG/PDX模型中EGFR第三,培美曲塞增加了TIL数量并上调了与抗原呈递相关的免疫相关基因,这一证据可能支持以下结论:接受培美曲塞治疗的患者的PDX模型不太可能保持原始基因型[36]。已证明TKI可改变脉冲TME,包括CD 8+ T细胞和单核骨髓源性抑制细胞(M-MDSC; CD 11b+ Ly 6-G-Ly6C高)增加Y. 他,H.郭湖,加-地Diao等人工程15(2022)102112和M2样巨噬细胞(CD206+)[37]。此外,TKI治疗期间经常发生克隆选择,导致TKI耐药[38]。有趣的是,我们发现在NOG/PDX模型建立过程中,促进TILs的因子促进了基因型稳定性,这需要进一步验证(图1)。(见第7(a)段)。最近,ML已经成为许多领域预测建模的有用方法,因为它使预测模型能够从初始数据中系统地然而,ML尚未广泛用于小样本数据库(每个预测变量少于10个频率),这是成本高且技术复杂的生物医学动物模型的共同特征[40]。最后,我们用于建立肺癌NOG/PDX模型预测工具的ML算法具有出色的性能,这不仅为筛选肺癌患者的NOG/PDX模型提供了预测工具,用于精确的免疫治疗,还提供了一个一般的方法,用于建立预测模型与小生物医学样本(图。 7(b))。本研究仍存在一些局限性。首先,纳入研究的患者数量有限,需要进行更大规模的实验来进一步验证这些结论。其次,由于训练数据有限,该模型的预测结果不能准确到每个驱动基因突变。第三,EGFR突变状态既是一个自变量,也是一个结局,这可能会导致共线性。最后,潜在的选择偏差是不可避免的,本研究的性别比例是不均衡的。应进行更大规模的试验以进一步验证这些结论。综上所述,我们建立了基于ML的NOG/PDX模型与患者样本驱动基因突变不一致性预测模型,有望提高PDX建立的成功率,减少巨大的经济损失。毛皮-图7.第一次会议。TME对驱动基因突变的潜在影响以及在小数据集中构建预测模型的流程图(a)导致驱动基因突变不一致的因素与TME之间的关联根据单变量和多变量LR,SCC、培美曲塞应用和既往TKI治疗是PDX模型和亲代肿瘤之间基因型不匹配的风险因素这三个因素都提高了TILs。此外,TKI可降低TME中Foxp 3+ TcB、单核骨髓源性抑制细胞(CD 11b+ Ly 6-G-Ly(b)在小型生物医学数据集中建立预测模型的流程图:①当数据集不均匀时,首先执行SMOTE。选择功能,使用标准ML算法在所有样本中开发多变量模型,包括基于AIC、LASSO-LR、SVM-RFE、XGBoost、CatBoost等的逐步LR②提出一种基于优化单模型的集成分类器③执行引导重新配置,以避免过拟合,并实现稳定的性能。在训练组中制定预测评分或建立预测分类
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功