预测前列腺癌患者生存期的混合机器学习方法

6 浏览量更新于2024-01-09 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁27（2021）100763预测前列腺癌患者生存期的混合机器学习方法：一项基于SEER的人群研究N. Momenzadeh a，H. Hafezalseheh a，b，M.R. Nayebpour c，*，M. 法西恩河诺罗萨纳aa伊朗科技大学工业工程系，伊朗德黑兰bFacult'edeM'edecine，Universit'eLaval，Qu'ebec，Canadac美国德克萨斯州休斯顿市中心大学玛丽莲戴维斯商学院A R T I C L EI N FO关键词：前列腺癌机器学习FAMD聚类质心SEERA B S T R A C T随着近几个世纪以来癌症的大量发病，仔细分析记录的信息并为患者提供深思熟虑的治疗计划至关重要。前列腺癌是男性中一种常见的癌症，每年夺去许多人的生命。机器学习方法的广泛使用有助于缓解前列腺癌，并最大限度地减少因这种癌症而死亡的大量患者。在这项研究中，我们提出了一种混合方法，通过应用混合数据因子分析（FAMD）算法来预测前列腺癌患者的生存率，以及SEER数据集的欠采样方法作为主要模型之前的预处理步骤，即XGBoost，随机森林（RF），支持向量机（SVM），和逻辑回归（LR）与交叉验证技术的参数调整，以预测二元标记和多类标记（包括其他死亡原因）的情况下，这在其他相关研究中很少调查。敏感性分析是通过聚类质心作为欠采样方法进行的，通过该方法来检查用于训练二进制分类的多数类和少数类的不同比例。该策略表明，使用不同的二进制类的比例可以影响预测的准确性，并防止过拟合。通过适当的标准（如G均值）对模型进行评估后，我们意识到XGBoost（86.28%）和SVM（67.81%）模型分别在两类和三类结果中优于其他模型。与类似的研究相比，我们的方法成功地将患者的死亡状态和他们是否因前列腺癌而死亡区分开来，这对于临床决策或是否需要医学专家改变他们的治疗策略非常重要。1. 介绍前列腺是一个小的腺体，位于膀胱下方和直肠前方的骨盆区域。这些腺体被认为是男性生殖系统的一部分，产生和容纳精液。前列腺由几种细胞类型组成。然而，大多数前列腺癌在腺细胞中发展[1]。前列腺癌被认为是男性中第二常见的恶性肿瘤，在国际上被列为第五大死亡原因[2]。这种癌症也是包括澳大利亚和美国在内的105个国家最常见的癌症类型[3]。此外，它在非洲裔美国人中很常见，与白人男性相比，死亡率增加了一倍[4]。维持一定的饮食标准和体力活动被认为是癌症进展的重要因素[5]。然而，许多未知的事实可能会影响患者的治疗。的因此，这些研究有助医疗当局和医生根据病人的种族或社会地位，决定最需要的治疗方法，从而适当地分配医疗资源。患者和医学专家还需要在使用积极的治疗性治疗或舒适的姑息治疗方面做出自信的决定。做出这样的决定可以高度影响生存风险和治疗结果。因此，使用被证明对患者生存有效的治疗方法可以提高护理质量，同时降低护理和住院费用。为了找到高风险患者，机器学习方法可能是有用的，因为这些技术可以预测患者的生存状态，因为历史数据是可用的。一些研究人员专注于通过医疗手段检测前列腺癌。通过实施基于支持向量机（SVM）的方法，以及特征提取技术[6，7]来识别图像。至于前列腺癌* 通讯作者。电子邮件地址：nayebpourm@uhd.edu（M.R.Nayebpour）。https://doi.org/10.1016/j.imu.2021.100763接收日期：2021年7月15日;接收日期：2021年10月5日;接受日期：2021年10月13日2021年10月21日在线提供2352-9148/© 2021由Elsevier Ltd.发布这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuN. Momenzadeh等人医学信息学解锁27（2021）1007632一项研究的重点是通过采用分类算法来识别高危前列腺癌的存在，例如随机森林（RF），SVM和人工神经网络（ANN）[8]。此外，通过使用最小冗余最大相关性（mRMR）特征选择和SVM，分析了RNA序列，以鉴定前列腺癌进展中差异表达的转录本[9]。其他人通过加性风险模型评价了治疗与工具变量之间的关系，该模型结合了数字和分类特征的两阶段残差包含估计量[10]。在应用AdaBoost之前，使用特征选择、降噪和肿瘤分割技术预处理数据集后，还在一项包含图像和混合特征的研究中研究了治疗反应[11]。其他研究探索了混合数据集，以使用离散化和缺失值去除作为预处理步骤来预测患者的前列腺癌阶段，而RF、线性回归、多层感知器神经网络和SVM被用作主要模型[12]。同样，几位专家对不同数据类型使用朴素贝叶斯检验了前列腺癌复发[13，14]。除此之外，在一项关于图像和非图像（蛋白质组学）数据集的调查中研究了后应用主要组件分析（PCA）和部分最小二乘回归（PSLR）作为预处理方法，然后使用监督正则典型相关和RF [15]开发混合模型。然而，还调查了通过应用LASSO在前列腺癌生存数据中进行特征选择的准确性[16]。虽然在一篇论文中通过多项式模型研究了前列腺癌的死亡原因[17]，但还没有足够的研究彻底探讨这个问题。最近，进行了一些与前列腺癌生存率相关的研究[18-21 ]，但没有讨论其他原因导致的前列腺癌患者的死亡率（考虑两种以上的标签）。更具体地说，其中一个专注于算法，如SVM和ANN，对两个类别（活的和死的）的预测准确率为92.6%[18]。第二项调查采用极端学习机（ELM）和最小二乘极端逻辑回归（LS-ELR），实现了79%的加权准确率[19]，而另一项调查使用深度主动生存分析（DASA）达到了87.9的C指数[20]。最后一项研究使用Greedy Cox和LASSO提供了结果，并获得了72.1的C指数[21]。本研究中检查的数据集是公开可用的国家癌症监测、流行病学和最终结果（SEER）计划数据库院1 该数据集包含临床病理-2010年至2015年期间诊断为前列腺癌的患者的逻辑信息年龄小于40岁的患者被从数据集中忽略，以及不相关的变量，零方差的特征和具有许多缺失值的变量在这样做时，23个分类变量和18个数值变量仍然作为主要数据集。定性变量，有些包含超过15个水平，需要通过方法进行编码，例如独热编码，用作主模型的输入因为这种情况，会产生大量新的主成分分析（PCA）通常用于降低数据的维数，将变量转换到另一个具有较少变量的空间。然而，PCA只有在变量是数值的情况下才是有益的和可解释的，并且对于包含分类特征的数据集不能是有效的因此，需要适当的降维技术来处理混合数据。混合数据集的高效技术之一是混合数据的因子分析（FAMD）[22]。一些研究人员使用这种技术作为他们的主要模型[23在此基础上，通过对表层沉积物中可能存在的X元素的空间分布和来源的研究，使用FAMD作为降维工具，用于发现污染[29]。上述研究使用0.71的阈值作为载荷，认为获得较高值的每个变量对研究人员来说很重要。其他人使用FAMD来减少异常检测之前的特征数量[30]或预测犯罪分布[31]，检查家庭福利状况[32]，评估物种间种子增强处理的效果[33]，计算金融网络中的联系强度[34]，预测跌倒风险在医院[35]，并诊断心脏病[36]。在医学领域，FAMD也被用作识别重要成分的一种方式(with特征值>1）用于囊性癌纤维化[37]和慢性阻塞性肺疾病（COPD）[38]，然后应用分类和回归树（CART）作为主要预测模型。另一项研究使用Cox比例风险模型关注了脊髓液（CSF）、神经丝轻链（NFL）和tau蛋白在肌萎缩侧索硬化症（ALS）患者中的意义[39]。本研究采用FAMD方法，获得CSL NFL不同测量指标之间的协方差模式。在当前的研究中，FAMD被用作大量特征的解决方案。在处理机器学习问题时，变量的数量会对计算速度和时间产生负面影响。因此，FAMD用于产生较少数量的变量。同时利用FAMD和分类方法，这将在后面描述，导致一个混合的方法来预测患者的死亡率状态。由于PCA不能用于包含混合变量的此类癌症数据，因此这种混合方法对于正在寻找患者生存状态的准确预测的政策制定者和医院管理者是有益的。的响应变量在数据集是不平衡，存活的患者人数明显多于死亡人数（由于前列腺癌或其他原因）。该问题可能导致对因前列腺癌或其他疾病而死亡的患者的死亡率状态的预测不佳，因为算法主要识别存活的观察结果，因为模型偏向于大多数类别。因此，应该使用包括欠采样、过采样、两者的组合以及集成学习方法的恢复技术来缓解这个问题[40]。有各种研究应用了重新采样算法，例如合成少数过采样技术（SMOTE）（过采样）[41]和Tomek Link（欠采样）[42]。另一种流行的欠采样技术是聚类质心，在通过朴素贝叶斯对10个数据集进行分类之前使用[43]，并与其他恢复方法一起预测高风险前列腺癌[8]。在SEER前列腺癌数据集的预处理阶段，Tomek Link和Cluster Centroid被证明是有效的，被选为欠采样技术。本文的目的是预测患者的死亡率患有从前列腺癌使用不同的情况下，考虑和不考虑其他原因的死亡标签的响应变量。预处理步骤包括数据清洗，应用FAMD进行降维，最后通过Tomek Link和Cluster Centroid进行欠采样。在下一步中，使用具有不同目标函数的极限梯度提升（XGBoost），RF，逻辑回归（LR）和具有内核的SVM以成本敏感的方式对数据集进行建模，因为它们在相关工作中很有前途[12，17，44]。最后，几个评价标准，即准确率，召回率，F2-措施，和G-均值计算比较的效率检查算法。F2测量用于通过交叉验证系统地调整模型参数，因为它将模型的召回率加权为其精度的两倍，防止偏向大多数类别，而计算G均值以排名模型在第2节中，详细解释了收集的数据集在第3节中，在预处理和初始模型的实现方法进行了深入的讨论，而所获得的结果在第四节中全面介绍。最后，对全文进行了总结，并对今后的工作进行了展望.N. Momenzadeh等人医学信息学解锁27（2021）1007633+2. 数据描述Fig. 1. 拟议方法的示意图。对于第一个分量，该算法找到正交误差最小的轴。该过程一直持续到本研究中使用的数据集最初包含84个变量，包括临床和人口统计学信息，从SEER-Medicare数据库中获得。省略了性别、TNM 7/CS v0204模式、行为代码ICD-O-3等不必要的重复特征以及缺失值较多的特征。通过这样做，总共41个（35个临床和6个人口统计学）特征，包括40岁以上患者的反应变量，仍然是本研究的主要数据集。同时，诊断后存活超过60个月的患者被认为是活着的[45]。关于类别的数量，在确定这些变量后，有33561例存活患者的记录，以及8909例在60个月前死亡的患者（其中2754例死于前列腺癌，6155例死于其他原因）。因此，数据集中79%的记录被标记为存活，而只有6.5%和14.5%的患者死于前列腺癌和其他原因，表明数据集高度不平衡，应采用适当的恢复方法进行处理。3. 方法首先，在清洗数据后，FAMD被用作降维策略。然后在训练和交叉验证阶段之前对数据集进行欠采样。接下来，在通过评估模型完成过程之前完成测试阶段。该程序如图所示。1.一、3.1. 混合数据因子分析（FAMD）针对SEER数据中定性变量和定量变量的混合性，需要对这类数据进行适当的特征提取，在降低数据维数的同时保持不同变量之间的内在联系。一种广泛用于此类问题的方法是FAMD，对连续变量进行PCA，对分类变量进行多重对应分析（MCA）[22]。R版本4.0.1用于实现FAMD。函数PCAmiX应用于R软件包PCAmiX数据版本3.1 [46]，专用于混合数据的多变量分析。因此，该方法基于广义奇异值分解（GSVD），在计算包含定性和定量变量相关性的载荷矩阵时，便于发现因子得分。作为第一步，FAMD对分类特征和尺度进行编码感兴趣的变量。编码过程旨在将每个类别视为一个变量，构建一组二进制特征。使用MCA中使用的标度方法对分类变量进行标度。这种方法导致出现频率较低的特征的权重较大。其次，建立关系矩阵来度量两个定量变量、两个定性变量以及一个定量变量与一个定性变量之间的关系。对于两个定量特征，Pearson相关系数的平方用于测量它们之间的关系，而相关比的平方用于测量定性变量和定量变量之间的关系。在两个分类变量的情况下，使用基于卡方检验的独立性方法。为了找到数据的结构，FAMD识别每个连续的主成分（PC），尽可能多地解释数据的方差，同时与每个PC正交且不相关这么做组件的数量等于数据集中变量的数量。欲了解更多信息，请参阅[46，47]。3.2. 欠采样处理不平衡数据集的方法之一是Tomek Link作为欠采样技术应用[48]。简单地说，这个算法可以解释如下：设r1和r2分别是来自A类和B类的两个记录。假设d（r1，r2）是这两个点之间的计算距离，r3是另一个记录，则（r1，r2）是Tomek Link，如果d（r1，r2）d（r1，r3）或d（r1，r2）d（r2，r3）。<<如果考虑到两个记录在Tomek Link中，其中一个是噪声，或者两者都被视为边界。另一种实用的欠采样方法是聚类质心，它用于减少多数类记录的数量。因此，这一减少的数据将与其他类别的记录相结合，以形成一个平衡的样本。该算法使用K-均值聚类技术将多数类记录划分为几个被认为是“子类”的簇。集群的数量k可以基于偏好来确定。因此，本研究考虑了三种情况。在第一个中，划分多数类的聚类数被假设为等于少数类的成员数。在另外两个场景中，这个比例被改变了;集群的数量被设置为少数类的两到三倍。这些关于二元响应变量的情景是专门为模型的敏感性分析而设置的，以调查抽样对评价措施的影响。因此，K-means算法为多数类生成k个聚类质心。然后，质心将被用来取代大多数类记录。在每个记录与新标签相关联之后，为多数类创建多标签数据集。然后，使用记录选择方法来减少数据集大小。更准确地说，鉴于数据集T包含N个记录，Xi是T的实例，其中Xi=（Xi1，Xi2，在利用记录选择之后，创建记录R的子集，R T和R N.<有关该算法的更多细节，请参见参考文献[49、50]。3.3. 预测模型四种主要技术，XGBoost，RF，SVM和LR，应用于数据集来预测患者的生存状态。选择这些模型是因为它们在类似的研究中有希望的结果，这在第一节中进行了讨论。尽管针对不平衡的二元响应训练的模型（即，当类实例的比率不等于1时）是成本敏感的，对于其他情况（包括平衡的二进制响应和多类响应）不考虑这一点，因此在不平衡的情况下，少数类的成本函数比多数类的成本函数加权更多。随后，这些算法被广泛讨论。3.3.1. 逻辑回归（LR）LR是一种基于线性回归的方法，用于处理二元或多类响应变量[51]。由于响应变量是离散的，因此在响应变量是二进制的情况下，使用S形函数将线性方程转换为等式（3）中所示的LR：N. Momenzadeh等人医学信息学解锁27（2021）1007634-阿吉我∑[（）（）]（）=++（-）+̂（）下一页（掌声）不∑[gw2∑1+h=2l（y（t-1））y（11）（t-1）ii我̂通常在没有数据的先验知识时使用。这两个内核，以及一个线性内核，被用来检查数据集，阿吉岛（）=+2个J2]e（b0+b1x）=1+ e（b0+b1x）计算优化，具有强大的性能，噪音[60]关于参数调整，树的数量由n-estimator参数控制，而maxdepth表示其中b0是截距，b1是X的系数（即，数据点），y是响应变量。LR函数基本上预测来自特定类的记录的概率。如果对于二进制响应变量，某个记录属于某个类的概率超过0.5，则将该记录标记为所述类。为了防止过度拟合和复杂模型，c被用作目标函数中的参数，并被定义为调节强度的倒数。另一个减小模型误差的工具是LR求解器。通过采用适当的求解器，如SAG，SAGA和共轭梯度牛顿（newton-cg），模型的损失函数将被优化。虽然newton-cg使用精确的Hessian矩阵X来计算二阶导数[52]，但SAG或随机平均梯度通过合并先前值的样本来估计损失函数的梯度，从而加快收敛速度[53]。SAGA是另一种优化工具，它基于用于非强凸问题的SAG技术。SAGA被认为是一种有效的求解器;对于大型数据集，SAGA的收敛速度更高，并且能够与L1正则化一起使用[54]。在当前的分析中，在调用SAGA求解器时设置了弹性网络惩罚，因为它是处理同时使用L1和L2正则化[55]。树的深度。同时调整这些参数可以提高模型的性能，同时降低过拟合的机会[61]。3.3.4. 极端梯度增强（XGBoost）XGBoost是一种源自决策树的集成学习算法[62]。该方法是在梯度提升算法之后开发的，该算法使用多个参数来优化特定的目标函数，从而从给定的特征预测响应变量。增强部分是指集成方法，其中添加新的模型来校正现有模型的错误。这些模型依次添加到无法取得进展的点，并获得最佳结果。目标函数由两部分组成;训练损失L，它衡量分类器相对于训练数据集的预测能力，以及正则化项Ω，它控制模型的复杂性以避免过拟合，这是训练模型所必需的O（θ）=L（θ）+Ω（θ）（ 4）其中L通常被选择为均方误差，定义为：3.3.2. 支持向量机SVM是一种机器学习技术，旨在通过识别超平面来有效分离类别来对数据点进行分类[56]。L（θ）=∑（y我y）2（5）最近。该方法首先用于二进制分类，然后通过采用成对耦合技术开发用于多类分类[57，58]。支持向量机的目标是选择具有最大间隔的超平面，以实现对记录的无缝划分。在支持向量机中嵌入一种称为核的工具，如sigmoid和径向基函数（RBF），将记录映射到特征空间，作为处理非线性分类的一种方式。换句话说，内核转换数据特征以创建新的特征，帮助SVM检测非线性决策边界。sigmoid函数的定义类似于LR中的定义：K.xi，xj）=tan h。ηxi，xj+c）（2）假设yi是分类器的预测值，并且yi是真值在损失函数是逻辑的情况下，函数被公式化为：Lθyjln1e-yi1一年一次电子邮件*（6）我在这项二进制分类研究中，研究了三种二进制损失函数，包括logistic，hinge和logit raw，以实现最高性能; softmax损失函数用于多类预测。在正则化方面，首先需要将树f（X）公式化为：f t（x）= w q（x），w ∈T，q：d → {1，2，.， T}（7）其中xi和xj是两个特征向量，η是斜率，c是常数。RBF核被公式化为：其中w、q、t和T分别是叶子上的分数向量、将每个数据点分配给相关叶子的函数、过程的加法步骤和叶子的数量。监管条款K.xi，xj）=exp（-xi-xj22δ2（三）Ωf在XGBoost中很重要，因为它可以调整偏差和方差的权衡，为模型提供适当的复杂度。因此，调节项可以写为：其中xi-xj是欧几里得距离，δ是参数。 RBF是Ω fγ1λ∑w2j=1（八）这项研究。在采用这种技术之后，模型的正则化与LR相同，由c参数表示。增加c的值导致更小的决策函数裕度和更低的复杂度。其中γ和λ是需要调整以实现最佳可能结果的参数。因此，目标函数公式化如下：在有噪声样本的情况下，应减小该值以实现更复杂的模型。目标（t）n我i=1q（xi）+1hiwq（xi）+γT不λ2j=1第二季第9集3.3.3. 随机森林（RF）RF是一种基于决策树组合的集成技术，用于对记录进行分类[59]。在构建大量彼此具有低相关性的个体树之后，RF模型能够使用树的多数投票来标记样本。树的每个分支基于记录在随机状态下的每个分裂处的特征的值来分离记录。该算法从数据集中创建样本（带有替换），这些样本等于训练集中的记录数。接下来，为每个样本形成具有m个随机选择的特征的树。最后，利用群体的智慧RF已知是其中q是将每个数据点分配给相关叶的函数。这里gi和hi定义为：gi=（t-1）l（yi，y（it-1））（10）、yi（一∂yN. Momenzadeh等人医学信息学解锁27（2021）1007635∑⃒拉吉1其中L是所述损失函数。在使用L1正则化的情况不将项αwj添加到目标函数[63]中，使其=N. Momenzadeh等人医学信息学解锁27（2021）1007636TP+FNTP+FNG-平均值=k少数民族，91.59%F2-措施。第二好的二元分类器是具有铰链损失函数和比率2的XGBoost，i=1在参数整定阶段确定α所必需的。此外，α和λ被用作权重的正则化参数。增加这些参数会导致更保守的方法。与RF类似，该算法中的树的适当数量通过n-估计器参数确定;使用maxdepth，显示树的深度。树越深，过拟合的可能性越高。另一个可以减少过拟合和欠拟合的参数是学习率（收缩）[64]。降低学习率通常会得到最优解，但会增加计算时间。在这项研究中，所有场景的学习率都设置为0.001。其他提到的参数通过下一小节中解释的交叉验证技术进行调整。3.3.5. 交叉验证为了调整导致最高性能的参数并实现采样导致的最小偏倚，使用了10倍交叉验证方法[65]。这种方法将数据集分为十个不同的集合。之后，在每次试验中，保留一组来测试模型，该模型是使用剩余的九组来构建和训练的。在为模型评估设定适当的度量之后，选择在评价度量方面具有最佳结果的参数。在本研究中，由于响应变量不平衡，因此使用F-beta测量，特别是F2（精确度和召回率的加权调和平均值）[66]作为评价标准。有关这一措施的详细情况将在下一小节中说明。总体而言，对一系列参数值进行了交叉验证。对于LR和SVM，从集合{0.25，0.5，0.75，1}中选择c参数。RF和XGBoost中的树的数量都是从集合{100，250，500，1000}中决定的。集合{3，5，10，30}被考虑用于选择RF和XGBoost的最大深度。对于XGBoost，{1 e-5，0.1，0}和{0.1，1，5}分别用于确定reg_al- pha（α）和reg_lambda（λ）。3.4. 评价为了研究所应用模型的性能，计算了三个评估指标，包括召回率、准确率和F2指标：图二. 关于年龄范围的每种生存状态的频率。4. 结果结果报告在以下两个小节：二进制分类和多类分类。在前一个模型中，通过敏感性分析考察了不同类别比例对模型结果的影响。将70%的数据分离为训练数据集，剩余的作为测试数据集，以通过交叉验证拟合预测模型，然后基于准确性，召回率，F2-measure和G-mean评估测试数据的拟合模型。如图1所示，数据包含三个标签，指示诊断患有前列腺癌的患者的死亡率状态。存活超过60个月的前列腺癌患者被标记为活着，而死于前列腺癌或其他疾病的人分别被标记为前列腺和其他死亡原因。很明显，Alive类占大多数。显然，50至80岁的男性是这种癌症的主要人群，他们的生存率更高。然而，在图2的尾部，显示了两种不同的趋势：在50岁之前，死亡率处于最低点，而相反的是，召回= TPTP+TNTP+TN+FP+FN（5*precision*recall）（4*precision）+recall（十二）（十三）（十四）对于80岁以上的男性来说是如此4.1. 二元分类在本分析中，标记为“其他死亡原因”的类别从数据中省略。在对数据进行预处理后，将解释方差设置为90%，获得80个因子用于进一步分析。的性能其中，TP、TN、FP、FN分别表示真阳性、真阴性、假阳性和假阴性同时，精密度标准定义为：模型包括在表1中，其中示出了对训练数据中的类别比率的敏感性分析。比率1、2和3表示多数类与少数类的比率，分别为1、2和3。精度=TP（十五）对于每个分类器，基于F2-测量交叉验证的调整参数如表1所示。由于数据集是不平衡的-G-mean是另一个评估指标[67]，用于根据分类性能对模型进行排名，定义为每个类别召回的几何平均值，表示如下：√√1̅∏̅ ̅k̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅ ̅为了对分类器的性能进行排名，我们使用了G-均值，它考虑了每个模型的召回率。图3中描绘了三个比率的分类器的G均值。显然，具有逻辑损失函数和比率1的XGBoost获得了最高的G均值86.28%，准确率91.33%，大多数类召回率92.19%，其中k是类的数量。所有的测量结果都在0和1之间。得分越高，相关模型的性能越好。提供了86.27%的G-均值，但对于多数阶级然而，它对少数类的召回率提高了近3.39%，与逻辑损失函数和比率的XGBoost相比。在核化的SVM模型中，比率为3的线性模型表现出更好的结果，并以86.16%的G均值和82.32%的少数类召回率被评为第三好的分类器。更重要的是，LR与SAGA求解器，弹性网络惩罚和比率3准确度=F2 -测量=雷卡（十N. Momenzadeh等人医学信息学解锁27（2021）1007637最大深度=2C= 0.2531SVM_RBF231SVM_sigmoid231 XGBoost_logistics3，表1二进制分类的结果与调整参数关于卡斯特质心方法的三个比率比率模型调整参数准确度召回率-1召回率-2 F2-测量G均值1 LR_newton-cg C= 0. 25 88. 54% 89% 82. 93% 88. 96%85. 91%2 C= 0.25 88.67% 89.16% 82.69% 89.08% 85.86%3 C= 0.25 89.25% 89.82% 82.32% 89.63% 86%1 LR_SAG C= 0.25 88.53% 88.99% 82.81% 88.94% 85.4%2 C= 0.25 88.74% 89.24% 82.69% 89.15% 85.90%3 C= 0.25 89.23% 89.79% 82.45% 89.61% 86.04%1 LR_SAGA C= 0.25，88.44% 88.88% 83.17% 88.86% 85.98%L1_ratio= 12 C= 0.25，88.62% 89.13% 82.32% 89.03% 85.66%L1_ratio= 13 C= 0.25，89.30% 89.86% 82.45% 89.67% 86.08%1 RFL1_ratio= 15，91.43% 92.35% 80.15% 91.69% 86.03%n_estimator= 1002 max_depth= 5，92.33% 93.41% 79.06% 92.54% 85.94%n_estimator= 1003 max_depth= 10，93.29% 94.96% 72.88% 93.43% 83.19%1 SVM_linearn_estimator= 50089.18% 89.71% 82.69% 89.56% 86.13%C= 0.25 89.46% 90.07% 82.08% 89.83% 85.98%C= 0.25 89.57% 90.17% 82.32% 89.93% 86.16%C= 0.5 89.76% 90.50% 80.63% 90.11% 85.42%C= 0.25 90.05% 90.83% 80.51% 90.39% 85.51%C= 0.5 89.83% 90.53% 81.23% 90.18% 85.75%C= 0.25 91.11% 91.97% 80.51% 91.39% 86.05%C= 0.25 90.15% 90.89% 81.11% 90.48% 85.86%C= 0.25 89.65% 90.33% 81.48% 90.01% 85.79%最大深度=91.33% 92.19% 80.75% 91.59% 86.28%n_estimator= 1000，reg_alpha= 0.1，reg_lambda= 1最大深度=3，90.91% 91.79% 80.27% 91.20% 85.84%n_estimator= 1000，reg_alpha= 0.1，reg_lambda= 0.13 max_depth= 30，91.55% 92.95% 74.58% 91.81% 83.26%n_estimator= 1000，reg_alpha= 1e-5，reg_lambda= 51 XGBoost_hinge max_depth= 3，80.86% 80.15% 89.47% 81.64% 84.68%n_estimator= 1000，reg_alpha= 0.1，reg_lambda= 52 max_depth= 3，88.12% 88.45% 84.14% 88.56% 86.27%n_estimator= 1000，reg_alpha= 0.1，reg_lambda= 53 max_depth= 3，93.13% 94.66% 74.58% 93.29% 84.02%n_estimator= 1000，reg_alpha= 0.1，reg_lambda= 0.11 XGBoost_logitraw max_depth= 3，94.28% 96.21% 70.82% 94.35% 82.54%n_estimator= 1000，reg_alpha= 1e-5，reg_lambda= 0.12 max_depth= 3，94.60% 96.69% 69.13% 94.64% 81.76%n_estimator= 1000，reg_alpha= 0.1，reg_lambda= 53 max_depth= 3，94.68% 96.79 69.01 94.72% 81.73%n_estimator= 1000，reg_alpha= 1e-5，reg_lambda= 5与其他LR模型相比，RF具有竞争力的性能，其次是比率为1的RF，分别实现了82.45%和80.15%的少数类召回率。如图3所示，具有logitraw损失函数的XGBoost记录了所有比率的无效结果，尽管它具有比所有其他模型更高的准确性，这表明准确性标准在评估阶段对于这种类型的问题是不值得信赖的。表2中列出了两个表现优异的模型的混淆矩阵。如表所示，大多数患者在两种模型中均正确分类了癌症。然而，具有逻辑损失函数和比率1的XGBoost正确识别更多存活患者，而具有铰链损失函数和比率2的XGBoost更正确地识别死亡患者对聚类质心方法中的比率参数进行敏感性分析，对于寻找最佳预测模型具有重要意义。如图3所示，由于每个模型在G均值方面反映了不同的结果，因此没有用于选择比率的特定规则。例如，带有sigmoid的2N. Momenzadeh等人医学信息学解锁27（2021）1007638=表2图3.第三章。基于不同比率的二进制分类的G-均值准则。铰链损失函数引入了另一种见解，因为对于该分类器，比率2优于其它比率，最终达到86.27%。混淆矩阵：a）具有铰链损失函数的XGBoost。b）具有逻辑损失函数的XGBoost。（一）预测标签0 10 8905 11631 131 695（b）第（1）款预测标签0 10 9282 7861 159 667图四、前五个二元分类器的AUC曲线。当比率等于1时，内核执行得最好，而比率为3使得具有SAG求解器的LR获得更好的结果（0.64%）。这对于RF分类器可能更显著，其中平衡数据（比率1）将比率3的分类改进了约2.84%。类似地，具有逻辑和logitraw损失函数的XGBoost也出现了相同的趋势。有趣的是，XGBoost与表3前五个二元模型的AUC为了更好地呈现前五个二元模型，图4中绘制了受试者操作特征（ROC）曲线，表明具有线性核（比率1和3）的SVM模型和具有SAGA求解器（比率3）的LR的性能优于具有铰链和逻辑损失函数的XGBoost模型，尽管XGBoost模型在G均值标准方面表现更好。对应于坐标（0，1）的ROC图的左上角指示完美能力正确分类所有实例。因此，曲线越接近这一点，分类器预测类别的效果就越如图4所示，XGBoost模型实现了相同的结果，而SVM和LR模型相似。这可以通过计算每个模型的曲线下面积测量值来确认。AUC是一个基于ROC治愈的标准，它衡量二元模型对每个类别进行正确分类的成功程度。如果模型对记录进行了正确分类，则AUC将为1，而表现完全不佳的模型将获得AUC为0。在最佳二元模型的情况下，各模型的AUC见表3。最佳二元模型（XGBoost_logistic）的散点图与地面实况数据的散点图如图所示。五、4.2. 多类分类与以前的研究相反，其他死亡原因，如阿尔茨海默氏病，心脏病，肺和支气管，膀胱，被认为是其他死亡原因。如图2所示，由于其他原因死亡的患者数量超过了由于前列腺癌而死亡的患者。因此，至关重要的是开发和检查预测模型，以区分这两种死亡原因，以帮助从业人员更准确地决定对这些疾病进行治疗的方式。与二元分类相似，FAMD的解释方差设置为90%，推导出81个因子。然而，聚类质心法的比率被固定为1，从而产生平衡的数据。预测模型的结果总结在表4中，其中具有线性核的SVM优于G均值为67.81%的其他模型。有趣的是，LR模型的性能优于其他内核化的SVM、RF和XGBoost模型。考虑到未经预处理的相同预测模型（FAMD，Tomek Link和Cluster Centroids方法）的结果，我们提出的模型改进了用于预测前列腺模型XGBoost_逻辑比1XGBoost_铰链比2SVM_线性比率1SVM_线性比率3LR_SAGA比率3AUC0.860.860.920.920.92N. Momenzadeh等人医学信息学解锁27（2021）1007639图五. 散点图（二进制）：a）地面实况标签。b）XGBoost_logistic分类标签。表4具有调整参数的多类分类的结果。模型调整参数准确度召回率-1召回率-2召回率-3 F2-测量G均值LR_newton-cg C= 0. 25 71. 31% 73. 85% 75. 91% 55. 42% 72. 03%67. 73%LR_SAG C= 0.25 71.29% 73.87% 75.54% 55.31% 72.01% 67.58%LR_SAGA C= 0.25，70.96% 73.55% 74.70% 55.15% 71.70% 67.17%RFSVM_线性SVM_RBF支持向量机_sigmoidXGBoostL1_ratio= 1最大深度=5，66.33% 66.86% 68.16% 62.62% 67.23% 65.84%n_estimator= 100C= 0.25 71% 73.22% 73.97% 57.58% 71.76% 67.81%C= 0.75 71% 73.67% 71.19% 56.39% 71.79% 66.63%C= 0.25 64.25% 63.30% 64.16% 69.45% 65.04% 65.58%n_estimator= 250，69.03% 71.16% 73.61% 55.42% 69.88 66.21%max_depth= 5，reg_alpha= 1e-5，reg_lambda= 1图六、有无预处理的多类分类的g-均值准则。N. Momenzadeh等人医学信息学解锁27（2021）10076310表5混淆矩阵：a）使用Newton-CG求解器的LRb）具有线性核的SVM（一）预测标签0 1 20 7372 536 21601 74 611 1412 511 272 1063（b）第（1）款预测标签0 1 20 7435 650 19831 75 627 1242 521 302 1023第一步是对数据集进行清洗，第二步是通过FAMD算法对数据集进行降维，保留变量之间的相关性。在接下来的阶段中，Tomek Link和ClusterCentroid被用作欠采样技术。在训练阶段，基于交叉验证方法，使用LR、SVM、RF和XGBoost作为主要分类模型。敏感性分析使用不同的二

下载后可阅读完整内容，剩余1页未读，立即下载