没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁24(2021)100622基于微阵列基因表达数据一种新的自适应L_1-范数弹性网惩罚Aiedh Mrisi Alharthia,b,Muhammad Hisyam Leea,*,Zakariya Yahya Algamal ca马来西亚Skudai,马来西亚技术b沙特阿拉伯塔伊夫,塔伊夫大学数学系c伊拉克摩苏尔摩苏尔大学统计和信息学系A R T I C L EI N FO保留字:自适应弹性网惩罚逻辑回归基因选择癌症诊断A B S T R A C T去除不相关和不重要的基因一直是微阵列数据分析的主要步骤。基因选择方法在生物数据集中的应用大大增加,支持专家系统在癌症诊断中具有高分类精度。近年来,使用弹性网(EN)的惩罚逻辑回归(PLR)已广泛用于高维癌症分类,以估计基因系数并同时进行基因选择。然而,EN估计不满足oracle性质。本文提出了PLR使用自适应弹性网络(AEN),简称PLRAEN,以解决不一致性。我们的方法采用的比率(BWR)作为初始权重内的L1范数的EN模型。对不同数量的预测变量、样本大小和相关系数以及三个公共基因表达数据集进行了模拟研究,以评估有效性。实验结果表明,该方法始终优于其他两个当代惩罚方法的分类精度和选择的基因的数量。因此,我们得出结论,PLRAEN是一个更好的方法来实现基因选择在高维癌症分类领域。1. 介绍新技术解决了数据的巨大增长。这些技术帮助研究人员将大量信息转换为有组织的数据。大数据可能具有不相关或冗余的特征(基因表达)。因此,研究人员更喜欢通过从可用数据集中选择一小部分重要特征来挑选重要基因。基因选择加快了学习过程并改善了模型的工作[1,2]。利用微阵列技术,研究人员可以根据基因表达谱对癌组织和正常组织进行分类。近年来,人们对基因表达数据集进行了许多研究,以确定癌症的种类。他们还预测临床结果以诊断癌症患者[3基因表达的微阵列数据集具有许多阻碍这些技术发展的特性。这些属性之一是数据集的高维性。基因表达数据集涉及几个基因p,只有有限数量的观察值n。这意味着,在代表基因表达的矩阵X中,列的数量远远大于行数pn [6]。另一问题是微阵列数据通常遭受高水平的技术噪声。因此,克服这两个问题以合理地提高与微阵列数据相关的分类准确度(CA)是至关重要的[7]。在过去的三十年里,统计学家们已经开发了许多选择方法来选择重要的基因。这些方法主要分为三大类:第一,过滤器类。它涉及最流行的特征选择方法,其中每个基因都被独立检查,而不管其群体表现如何。第二是包装类。它使用各种算法来评估选择基因组的过程。虽然包装器方法在特征选择方面比过滤器方法更有效,但它们在计算上是昂贵的,例如向前基因选择和向后基因消除。 第三种是嵌入式类别,它结合了过滤器和包装器类别的优点。它包括正则化(惩罚)方法,可以同时执行建模和基因选择[8惩罚逻辑回归(PLR)是最广泛使用基于惩罚的正则化方法。它用于选择基因,* 通讯作者。电子邮件地址:aiedh. gmail.com(上午)Alharthi),mhl@utm.my(M.H. uomosul.edu.iq(Z.Y. Algamal)。https://doi.org/10.1016/j.imu.2021.100622接收日期:2021年4月12日;接收日期:2021年5月18日;接受日期:2021年5月2021年5月29日网上发售2352-9148/© 2021作者。出版社:Elsevier Ltd这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表医学信息学期刊主页:www.elsevier.com/locate/imuA.M. Alharthi等人医学信息学解锁24(2021)1006222∈()()()=()J。 )=1 + exp x β我鼓励群体效应和选择基因的方法n把它们分类。惩罚方法属于嵌入式方法的类别,在选择和分类基因方面是有效的。近年来,logistic回归(LR)得到了广泛的关注。惩罚化方法是在LR中加入一种惩罚项,共同进行选择和分类.许多LR模型可以使用不同的惩罚。其中一个惩罚被称为“最小绝对收缩和选择算子”(也称为LASSO)。LASSO基于L1-范数[11]。另一种惩罚方法是所谓的其他惩罚是弹性网络[13],自适应L1-范数[14]和自适应弹性网络(AEN)方法[15,16]。虽然LASSO能够选择特征,但它有三个短链[17,18]。首先,它与LASSO选择的特征数量有关。当数据集是高维数据集时,LASSO不能选择比样本大小更多的基因。LASSO选择的样本量以n为上限。其次,LASSO在选择基因时没有考虑群体效应。预期LASSO要么选择整个高度相关的基因组(如果它们与疾病相关),要么全部保留(如果它们不相关)。然而,LASSO只选择与研究相关的每个高度相关的基因组中的一个或几个成员。Hastie和Zou [13]提出了EN来克服其中的一些缺点。EN方法采用的惩罚是线性组成的L1-范数和L2-范数。第三,LASSO方法是有偏差的在基因选择中,因为它在平等的基础上惩罚所有的基因系数。由于这个弱点,LASSO缺乏Oracle属性[12]。为了解决由于缺乏甲骨文属性而带来的挑战,邹[14]开发了一种新的正则化技术,称为自适应LASSO技术(ALASSO)。在基于L1范数的惩罚中,使用一些权重来惩罚每个系数。在ALASSO中,修改后的权重用于惩罚基于L1范数的惩罚中的系数。L1范数惩罚模型是惩罚方法中最常用的方法之一. L1范数惩罚模型的缺点是它平等地惩罚所有基因,导致选择过程不一致[12,14]。在这项研究中,惩罚逻辑回归模型与自适应弹性网络(PLRAEN)提出了改善基因选择性能。这是通过使用比率(BWR)作为EN模型的L1范数内的初始权重来完成的,以正确地对与癌症有关的人进行分类。从某种意义上说,这个权重反映了基因个体的重要性。实验结果表明,与其它同类方法相比,该方法具有最高的选择精度.本文的主要贡献归纳如下。本文提出PLRAEN解决基因选择和分类中的不一致性。基因独立在这些方法中,一般的混合自适应分类器集成[19]、具有集成特征选择和分类模型的嵌套交叉验证[20]以及支持向量机(SVM)及其扩展[21,22]通常用于基因选择的癌症分类。L1惩罚逻辑回归在处理大量数据并专注于特征选择和分类性能时变得越来越相关和流行。然而,当各种系数的惩罚都相同且与数据无关时,LASSO估计可能有问题。先前的一些研究已经提出了通过添加各种惩罚技术来更有效地选择基因的方法。LASSO及其扩展[23惩罚逻辑回归已经使用贝叶斯正则化项构建[28,29]。一些这样的方法使用具有L1范数惩罚的多阶段稀疏逻辑回归模型[5],而其他方法使用AEN [15,30],SCAD惩罚[31]和加权L1惩罚。这些方法已成功地应用于基因选择和提高分类精度。然而,没有一个先前的工作提出了一个比率(BWR)作为初始权重内的L1范数与EN模型的基因选择在癌症分类。3. 惩罚Logistic回归模型LR是用于二元分类的最流行的机器学习算法之一,其中响应变量值被编码为零(0)和一个(1)。例如,在对癌症进行分类时,响应变量对于癌症病例取1,对于非癌症病例取0。在各种分类领域中,经典的带惩罚的LR被用来同时进行基因选择和分类。在这项研究中,PLR模型被用来解决基因表达分类问题。它惩罚了模型,因为有太多的基因。在LR中,回归方程与预测变量的线性组合为了说明的目的,基因表达谱通常表示为矩阵XXRn×pn×p,其中每列表示一个基因,每行表示一个样品。条目xi,j表示第i个样品的第j个基因的表达值,并且xi=(xi1,xi2,.,Xip)是第i个输入样本。让我们1,...,ynT是响应向量,其中yi是取值为(0)或(1)的对应分类标签。响应变量y根据n×p矩阵X与实元素的线性组合进行分类;记作XTβ。符号XT表示设计矩阵xX的转置,β是未知系数(β=(β1,...,βp)T)。 在LR中,响应变量y具有伯努利分布,y等于1,给定x的值表示为π(x),比率BWR被用作L1范数内的初始权重,EN模型。。 )exp(xTβj)JJ• PLRAEN与其它常用刑罚处罚相比具有适应性优势pyi=1<$xijπ(xi)=T,j=1,2,.,p(1)在高维数据中与logistic回归模型一致。• 所提出的方法可以有效地看到在不同的范围内f(yi)=πyi(1-πi)1-yi,i=1,2,.,n(2)LR的似然函数如下:相关值。L(β,yi)=αf(yi)=απy(1-πi)1-y(三)除了这个介绍,以前的相关工作进行了审查,ni=1n我我我i=1第2款. 第三节简要介绍了相关的工作然后,对数似然函数为:关于惩罚LR模型。第4节介绍了PLRAEN方法。第5节介绍了一些评价指标。结果和实验研究旨在评估的效率,(β,yi)=∑i=1{yilogπ(xi)+(1-yi) log( 1-π(xi)}(4)PLRAEN与EN和AEN方法的比较在第6节中介绍和讨论。本文在第7节中结束。2. 相关工作传统上,统计学习方法已被用于选择LR是一种用于分类(变量选择)的强有力的判别方法。尽管LR在与常规数据相关的线性模型中是有效的,但当数据集是高维时,LR不适用于作为分类工具,因为设计矩阵是不可逆的。因此,它不能为回归提供可靠的估计··A.M. Alharthi等人医学信息学解锁24(2021)1006223̂=n̂̂np⃒ ⃒n=AElastic=β-{我(i)+(-(一)(-(i))}惩罚项,λ是用于调整惩罚的调节因子wj βj+λ2i=1i=1i=1ijBSS(j)我K (i=)kj-. Jxij-x kjj=1系数另外,当基因的数据集是高维的时,例如,当存在若干基因(或一般特征)时,argmin[∑nylogπx1ylog 1πx出现了过拟合问题此外,它的估计也可能遭受多重共线性[32]。从 一 统计 观点, 的 其他 (无关) 基因可能LASSO=∑λββj{我i=1⎤(i)+((一)(-㈠)}(八)产生噪声并降低分类性能。因此,我们认为,+(初始值)γ,统计学家通常更喜欢应用基因选择方法,去除不相关和冗余的基因以改善CA。除了LR,可用的分类方法包括惩罚逻辑回归-j=1⃒̂βj首字母用于消除高维数并改进CA的方法[33]。虽然惩罚方法通常用于高维数据,但Doerken等人[34]证明了该方法在低维数据中也可以表现良好在PLR中,正惩罚项被添加到对数似然函数中,迫使某些系数变为零以获得稀疏解。PLR对具有太多基因的逻辑斯蒂模型的方程施加惩罚项。因此,在对系数的某些约束下,贡献较小的基因的系数变得非常接近于零或恰好为零。这个过程也称为正则化。方法的设置如下。其中,λ,γ≥0,βj是每个βj的初始估计值,使用LASSO技术或其它收缩技术。这里我们设γ 1,为了简单起见。与EN方法一样,其他惩罚回归方法也可以实现分组效应,如文献[1]提出的AEN方法。[15,16],他提出了两个AEN估计。他们将自适应权重添加到EN中的L1范数惩罚中。这两种自适应神经网络方法的自适应权值不同。Zou和Zhang [15]使用EN估计器构造自适应权重。然而,Ghosh[16]使用最小二乘估计来构造自适应权重。对于固定的λ2,使用β的AEN的 PLR由下式给出惩罚对数似然方程表示为[001 pdf 1st-31files]∑ylog π x1ylog 1πxpi=1其中,将对数似然表示为等式(1) (4),g(β)表示金额然后是Eq的PLR(5)相对于到∑⃒ ⃒∑2]找到系数估计值。惩罚是用来减少损失的。配偶这些惩罚方法来自一类经常用于高维数据集的分类和特征选择的嵌入式选择方法[36]。在解决PLR最小化问题之前,让响应向量y居中,X(基因)列通常是标准化的,其中j=(|β|)-γ,j= 1,2,.,p是由下式产生的修正权重:β初始估计量这里γ是一个非负常数。等式(6)4. 该方法关于 基因 表达 分类, 分级效率的 ∑n y i=0,∑n x ij=1,且 ∑n x2=1,其中j= 1,2,., p.标准化将截距项(β0)设置为零。使用LASSO(L1-范数惩罚)估计β如下。对分类问题有了更深的理解高维度可能会通过提高分类器的分类效率来负面影响[∑∑]过拟合和延长计算时间的可能性βLASSO=argminβ-i=1{yilogπ(xi)+(1-yi) log( 1-π(xi))}+λj=1βj,(六)此外,特定的分类方法并不明确适用于微阵列基因表达数据的研究。当实施分类方法来分析基因数据集的数据时,表达,重要的是从数据集中排除不相关的基因其中,λ是调谐参数。当λ=0时,等式(6)降低到通常的最小似然估计。当λ→∞时,惩罚迫使所有预测变量为零。基因选择中使用的另一个重要的惩罚方法是EN。它是由Hastie和Zou[13]发明的,以解决LASSO的弱点。EN将L2和L1范数结合起来,以解决高相关性的基因,并立即选择相关基因。基于EN惩罚的PLR在以下等式中给出:以保证准确性。值得注意的是,当每对基因之间的相关性非常高时,EN方法有效地工作。[ 38 ]的作者注意到,如果基因不是高度相关的(|R|小于0.95),EN的可靠性有所下降。另一个问题是EN没有考虑基因的相关性[39]。此外,Zou和Zhang [15]注意到EN不满足预言性质,并且分组效应问题仍然存在。为了解决EN问题,AENElastic=argminβ[p-∑i=1p{yilogπ(xi)+(1-yi) log(1 -π(xi))}(七)由Zou和Zhang [15]和Ghosh [16]通过向ALASSO添加L2-范数惩罚最初,为了选择基因,Dudoit et al.”[40]这是根据+λ1∑j=1βj∑j=1 β2]基因组之间的平方和(BSS)与基因组之间的平方和(BSS)之比(BWR)组内每个基因的平方(WSS),定义为当量(7)表明EN估计器取决于两个调节因子仅假设非负值λ的λ。当量(7)给出PLR沸水∑ ∑I yk(xx)2、(十溶液1 2()=WSS(j)=∑ ∑()2通过用加权惩罚代替L1惩罚来解决LASSO的高估问题[37]。Zou通过给不同的系数分配不同的权重来修改L1-惩罚。分配的权重可以基于岭、LASSO或其他收缩技术。与ALASSO相关的惩罚逻辑模型定义如下:在那里,我(。)是一个指示函数,x。j是表示所有样品中基因j的表达水平的列j的平均值,并且k类样本中基因j值的平均值,其中k2ppJPLR=-λ(β,yi)+λg(β)(5)(九+λ1βjj=1应该加强,以提供一个可靠的基因选择过程,ALASSO技术首先由Zou [14]引入,用于解决我kI(yi=k)̂βA.M. Alharthi等人医学信息学解锁24(2021)1006224[40,41]。在这项研究中,我们也有两个类。选择初始重量对于AEN至关重要因此要提高A.M. Alharthi等人医学信息学解锁24(2021)1006225表1分类的混淆矩阵预测(+)预测(-)实际(+)真阳性(TP)假阴性(FN)实际(-)假阳性(FP)真阴性(TN)表2表3当ρ = 0时,PLRAEN和竞争者方法在100个分区上的分类和变量选择性能。95.一千当ρ = 0时,PLRAEN和竞争者方法在100个分区上的分类和变量选择性能。55.方法模式1模式2CA%TP FP CA%TP FPn=100,p= 1, 000阿内88.00(0.09)7 24拟议数92.10(0.05)8 16n=100,p=五千(0.06)90.00(0.11)96.00(0.07)8 299 20EN 91.00(0.08)6 34 92.04 7 37n=100,p= 5,000AEN 90.27(0.09)6 35拟议数94.17(0.07)7 18(0.11)92.07(0.11)96.007 439 22AEN 92.00(0.09)5 22 92.00(0.14)7 34n=100,p=(0.11)n=100,p=一万EN 86.20(0.07)8 29 89.11(0.06)8 38AEN 89.58(0.11)8 28 91.84(0.12)7 39拟议数92.00(0.05)8 21 96.04(0.05)8 22n=200,p= 1,000EN 86.02(0.07)5 29 88.23(0.06)6 26AEN 88.31(0.09)5 21 91.10(0.16)6 25拟议数94.41(0.05)6 17 95.00(0.07)8 18n=200,p= 5,000EN 92.00(0.07)6 23 92.00(0.14)7 36AEN 93.24(0.09)6 22 93.18(0.17)7 33拟议数95.00(0.06)6 14 96.04(0.12)8 21n=200,p=一万EN 86.00(0.07)8 29 88.17(0.06)8 38AEN 91.05(0.09)7 30 91.00(0.16)7 38拟议数95.00(0.07)8 22 94.08(0.08)8 22n=300,p= 1, 000EN 86.77(0.07)5 29 88.64(0.06)6 27AEN 90.20(0.09)5 21 91.26(0.16)6 25拟议数96.00(0.04)6 17 94.57(0.07)7 19n=300,p= 5,000一万EN 88.13(0.06)8 38 92.00(0.14)埃纳90.00(0.09)8 37 92.00(0.11)拟议数94.08(0.07)8 22 96.12(0.10)n=200,p=一千EN 91.82(0.08)8 26 92.65(0.11)AEN 92.00(0.09)6 24 92.10(0.12)拟议数95.04(0.07)(0.11)n=200,p=五千EN 86.72(0.09)6 34 85.21(0.17)AEN 90.11(0.11)7 34 88.00(0.11)拟议数94.20(0.07)8 20 93.12(0.09)n=200,p=一万EN 86.88(0.08)8 38 86.42(0.17)AEN 88.16(012)7 37 90.00(0.11)拟议数93.18(0.07)8 21 94.328 388 419 218 257 249 217 378 339 228 388 329 21n=300,p=一千(0.11)EN 86.14(0.07)8 26 88.00 8 25在保证分类精度的前提下,提出了一种新的基于比率的权重(BWR)作为L1范数内的初始权重。的 j th 组件 的 的 p维 重量 向量 w=(w1,w2,.,W p)T由下式给出:阿内88.00(0.09)7 24拟议数94.10(0.05)8 16n=300,p=五千(0.09)88.00(0.11)94.00(0.07)7 219 18w j=1,j= 1,2,.,p,(11)EN 95.08(0.07)6 34 95.127 37|BWR(j)|其中,BWR(j)是基因j的比率,定义为Eq. (十)、建议的权重分配一个相对较大的权重与低价值的比例和基因与高比率的较小的权重此外,调整后的惩罚的L1部分执行基因选择,AEN95.16(0.09)7 34拟议数96.14(0.06)8 19n=30方法模型1模型2CA%TPFPCA%TPFPn=100,p=EN86.06(0.07)72688.31825EN91.12(0.08)52892.32(0.11)627AEN92.00(0.09)52292.00(0.09)525提出96.00(.007)61794.03(0.07)618EN91.08(0.04)62395.00(0.11)736AEN92.16(0.09)62594.00(0.12)734提出n=300,p=一万96.00(0.07)71498.00(0.11)821EN88.07(0.06)82995.21(0.14)838AEN92.00(0.09)82892.00(0.11)837提出98.00(0.07)82198.00(0.09)823A.M. Alharthi等人医学信息学解锁24(2021)10062260,p=一万(0.14)95.00(0.11)96.23(0.06)7 339 19将某些系数设置为0,惩罚的L2部分EN 86.12(0.07)8 38 88.178 38通过缩小相关基因的系数来鼓励群体选择。因此,L1范数可以减少奥地利先令88.00(0.09)8 35(0.06)88.00(0.12)8 37不一致 在为基因分配权重后,PLRAEN可以选择(接下页)A.M. Alharthi等人医学信息学解锁24(2021)1006227FN+TPTN+FP=×100%表3(续)方法模式1模式2CA%TP FP CA%TP FP表6测试数据集100次以上的平均标准数据集方法测试集拟议数92.00(0.07)(0.09)表49 22% CA %SEN %SPEBip EN 87.97(0.05)88.77(0.05)86.58(0.04)AEN 88.46(0.07)90.72(0.06)88.41(0.06)拟议93.45(0.04)93.69(0.05)92.80(0.04)三个使用的数据集的特征。重要基因的准确性更高。PLRAEN al-出租的细节在这里介绍。PLRAEN方程具有全局最大值,因为它具有凸形式。因此,坐标下降算法被实现来求解PLRAEN。5. 方法评价在这里,我们评估所提出的方法的性能。预测模型的三个常见评估指标,特别是在医疗保健环境中,是分类准确性(CA),灵敏度(SEN)和特异性(SPE)[42]。用于计算这些度量的公式指示混淆矩阵X预测与表1中所示的实际结果。CA是一个关键的效率测量,并使用公式计算。(十三)、平均准确度是从许多交叉验证实验中获得的准确度结果的平均值。由于CA不能区分假阳性和假阴性,因此考虑SEN和SPE测量。SEN计算TP速率,而SPE计算TN速率。SEN和SPE公式由Eqs给出。(14)和(15)。表5训练数据集的平均标准超过100次这些指标(标准)定义为:CATN+TP(13)FP+TP+TN+FNSen=TP× 100%(14)SPE=TN× 100%(15)这里,TP、FP、TN和FN分别表示真阳性、假阳性、真阴性和假阴性的数量。评估标准的值越高,表示分类性能越好。进行单因素方差分析(ANOVA),以证明所提出的方法的结果的稳定性。这是除了Tukey6. 结果和讨论本节使用模拟数据和真实的微阵列数据集表7训练集中50个分区的分类准确度的单因素方差分析数据集源DFSSMSFp值Aut方法20.029350.01467535.180.000(*)误差1470.014110.000523总1490.04346BIP方法20.038580.0192889.5160.0001(*)误差1470.297970.002027总1490.33655SCO方法20.08450.0422588.020.0001(*)误差1470.070570.00048总1490.15507(*)显著。α= 0。05数据集方法基因数量训练集% CA% SEN% SPEBip EN4893.69(0.05)93.70(0.05)93.97(0.05)AEN4495.62(0.06)94.31(0.07)94.51(0.06)提出5297.70(0.04)96.55(0.06)95.98(0.05)Aut EN7295.39(0.001)95.38(0.002)95.82(0.02)AEN7694.28(0.002)95.48(0.003)94.94(0.02)提出7697.64(0.04)98.87(0.02)97.28(0.03)Sco EN24892.63(0.02)91.39(0.04)91.84(0.02)AEN24791.39(0.02)93.86(0.02)92.18(0.04)提出26496.93(0.03)95.80(0.02)95.55(0.03)AutEN90.07(0.05)91.64(0.04)90.55(0.03)AEN90.14(0.04)90.46(0.04)90.64(0.06)提出93.78(0.04)94.57(0.04)92.64(0.05)SCOEN89.58(0.05)88.36(0.07)89.63(0.03)数据集样本(n)基因(p)类BIP6122,28331例对照/30例双相情感障碍SCO5422,28315例正常/39例患病Aut14654,61364例健康/82例自闭症A.M. Alharthi等人医学信息学解锁24(2021)1006228==-∼ () ∼ ()={个表8训练集中分类准确度的Tukey HSD检验的P值表10测试集中分类准确度的Tukey HSD检验的P值数据集拟定与EN拟定与AENEN vs AEN数据集建议与EN建议与AENEN与AENAut0.000(*)0.000(*)0.0184(*)Aut0.000(*)0.000(*)0.9888BIP0.000(*)0.047(*)0.1049BIP0.000(*)0.000(*)0.7407SCO0.000(*)0.000(*)0.0147(*)SCO0.000(*)0.0487(*)0.0677(*)重大 α= 0。05为了说明所提出的方法,PLRAEN的有效性。6.1. 仿真研究数据在以下框架下进行模拟。Logistic回归模型考虑了两种模拟模型,以涵盖两种实际情况:预测变量之间的相关性和一组预测变量之间的相关性。样本量n取三个值:100、200和300,其中每个n随机分为两部分:50%用于训练数据集,50%用于测试数据集。此外,我们认为,number 的 的 预测器 变量 p1, 000, 5, 000和 10, 000,因为这个数字的大小会影响变量选择方面的结果估计量;特别是FP的值[43此外,因为我们对摸索效应感兴趣,其中成对相关值被认为更重要,所以考虑成对相关的三个值ρ= {0. 五十五岁,0的情况。95}。根据创建低和高的相关性,变量,分别选择这些值[45总的来说,我们有两个模型考虑逻辑回归模型,如下所示:模型1:根据逻辑回归模型生成数据,(*)重大 α= 0。05组间相关,而各组间预测变量间不相关。为了确保每组内变量之间的相关性为0.55和0.95,根据εN 0,0生成ε。8,εN 0,0。01,分别。在弹性网络中,存在两个调整参数λ1和λ2,因此需要进行二维曲面交叉验证(CV)。[13,38]首先, 我们FIX λ2 0,0。01,0。一,一,十,一百,然后对于每个λ2值,使用10倍CV来找到λ 1的最佳值。对每个模型重复模拟过程100次。不同n、p和ρ值的CA中位数分别见表2和表3。括号中的值表示相应的标准偏差。记录选择的真正相关变量的数量(TP)和未选择的不相关变量的数量(TN),以量化变量选择性能。为了比较的目的,所提出的方法表2和表3总结了PLRAEN和竞争者方法在100个分区上的分类和变量选择性能。55和ρ 0。分别为95。如图所示,bles2和3,在所有情况下,我们提出的方法始终达到最高的CA逻辑回归模拟模型;因此,它给出了YB(exp(Xβtrue)),(十六)最佳预测性能。对于TP和TN的数量,建议1+ exp(Xβ真)对于训练和测试数据集。在此模型中,我们设置以下内容: 的 真向量β真=(1. 五,一、0的情况。八,0的情况。七,-0.6,9,-3,2,0,.。。,0)T,其中非零变量q= 8,并且零变量=p-q。预测变量矩阵XX由多元正态分布N(0,n)生成,其中n是协方差矩阵X,其中i,j=ρ|I-J|(i,j= 1,2,..., p),因此,预测变量是相关的。模型2:数据由方程2生成。(十六)、在这个模型中,我们设置如下:真实向量βtrue=(1. 五,一,零八,零。7,-0。六,九,- 三,二,一,零,。。,0)T,其中非零变量q= 9并且零变量=p-q。非零预测变量生成为第1组:xj=v1+ε,v1<$N(0, 1),j= 1, 2, 3;第2组:xj=v2+ε,v2<$N(0, 1),j= 4, 5, 6;第3组:xj=v3+ε,v3<$N(0, 1),j= 7, 8, 9,而零预测变量被生成为xj<$N(0,1)、j=十,十一, 。 。 ,p-q。因此,预测变量在每个表9测试集中50个分区的分类准确度的单因素方差分析。数据集来源Df SS MS F P值方法在选择真实的非零相关变量方面表现良好。它减少了所有情况下真零变量的模型选择。这意味着我们提出的方法可以选择真正的相关变量。总之,仿真结果似乎表明,PLRAEN的性能优于EN和AEN的变量选择和CA。它在激励分组效应和一致地选择高维数据中的变量方面具有其它常用惩罚方法所不能比拟的适应性优势。此外,PLRAEN可以成功地用于各种相关值。6.2. 真实数据研究该方法(PLRAEN)被应用到三个著名的基因表达数据集,不同数量的基因和不同的样本量,以评估其性能,并证明其优于其他竞争方法。这些数据集是公开的,以前被许多研究人员使用。在这项研究中使用了三个公共数据集来评估我们的方法的性能。首先,双相情感障碍(Bip)数据集。其样本量为61,包括31个对照观察和30个双相情感障碍观察。使用AffymetriX技术捕获22,283个人类基因的基因表达[48,49]。第二个是肉瘤(Sco)数据集。它涉及对54名患者测量的22,283个人类基因的表达谱;其中15人正常,39人患有疾病[49,50]。第三个是自闭症(Autism,Aut)数据集,它代表了基因表达。对146例小儿外周血淋巴细胞(PBL)进行检测的BIP总共计149 0.2520.04604 42.33 0.000(*)0.00109使用Affymetri× HumanU133Plus2.0获得完整的RNA,包括用于微阵列实验的39个表达阵列。该数据集包含54,613个基因,其中82个患有自闭症,64个健康。此外--(*)电话:+86-021 - 8888888传真:+86-021 - 8888888共计149 0.26457(*)重大 α= 0。05此外,该数据集最近已由参考文献进行了分析。[18、51、52]。表4总结了三个数据集的主要特征。所提出的PLRAEN方法是有效的,通过比较实验与其他两种方法,即EN和AEN,其中,方法20.09209误差1470.15991Aut方法20.022501 50.13 0.000(*)误差1470.06598 0.0004491490.11098A.M. Alharthi等人医学信息学解锁24(2021)1006229[客户端]图1.一、 在CA的训练和测试部分分别对三个数据集采用了三种方法。并将所提出的方法应用于所考虑的数据集每个数据集被随机细分为两个部分,训练(70%)和测试(30%)部分以执行CV。使用训练子集进行10次交叉验证,以选择λ1和λ2的最佳值。结果是平均100次重复实验。每种方法的调优参数的值允许在0, 100的区间内。这些方法的实现是在R中使用Glmnet包完成的表5和表6总结了当应用提出的方法,EN和AEN。相应的标准偏差写在括号中。表5显示,我们提出的PLRAEN方法在所有其他方法中具有最高的平均选择基因数,其中它为Bip数据集选择了52个基因。相比之下,EN和AEN分别选择了48和44个基因表5和表6显示,在每个数据集中,由我们的方法产生的训练和测试部分中的CA,SEN和SPE的平均值高于EN和AEN产生的测量值。例如,所提出的方法的训练(测试)CA在Aut数据集中为97.64%(93.78%),大于EN的95.39%(90.07%)和EN的94.28%(90.14%)。A.M. Alharthi等人医学信息学解锁24(2021)10062210AEN。我们还观察到,测试集中的PLRAEN对Bip、Aut和Sco数据集的灵敏度最高,分别为93.69%、94.57%和93.97%。此外,训练集的最高特异性分别为95.98%(Bip),97.28%(Aut)和95.55%(Sco)。除了Tukey HSD测试,单因素方差分析进行评估我们的方法的分类结果。在拒绝零假设后,Tukey HSD检验为我们提供了关于三种方法中每一对之间差异的更多细节。表7和表9总结了训练和测试部分中CA的ANOVA结果。结果表明,三种方法之间的显着差异,对于所有的数据集,关于CA。此外,Tukey HSD测试被实施以获得关于PLRAEN和其他应用方法之间的差异的细节。表8和表10列出了每对方法的p值。关于EN和AEN,PLRAEN证明了显著的CA性能进一步检查我们的方法的CA性能,图。 1指示我们的方法在所有三个数据集(Aut、Bip和Sco)中的CA平均值高于其他方法的CA平均值。与所提出的方法相关的BOX图表明,CA分布更对称,更稳定,因为它的传播是其他方法中最小的。这表明我们的方法比其他方法性能更好。为了进一步突出PLRAEN的性能,我们将相同数据集(自闭症)获得的结果与其他三种方法进行了比较,关于所选基因和CA的数量:参考文献[26]报道的贝叶斯套索分位数回归(Blassou),参考文献[18]提出的自适应惩罚逻辑回归(APLR)和参考文献[31]提出的使用萤火虫算法的SCAD支持向量机(FFA1)。我们的方法比其他三种方法选择了更多的基因,其中它选择了76个基因,而Blassou,APLR和FFA 1分别选择了13,9和21个基因。重要的是,PLRAEN比其他方法有可能选择更多的基因,这表明这些额外选择的基因中的大多数可能是高度相关的。此外,我们的方法实现了更高的CA 97.64%,而Blassou为 96.20%,APLR为93.27%,FFA为 93.35%的 提出 方法的 优越 分类 性能通常通过三个方面显示:训练和测试数据集的高CA,SEN和SPE。同时满足这三个方面的提名所提出的方法作为一个有前途的基因选择方法。此外,作为一个分类过程,我们的自适应惩罚方法是最好的分类过程相比,竞争对手的方法。这表明我们的方法考虑了基因的权重。7. 结论将所提出的方法应用于模拟数据集和三个著名的数据集(Bip,Aut和Sco)所获得的结果进行比较。与其他方法(EN和AEN)应用于相同的数据集,我们确认,我们的方法作为一个分类和基因选择过程的性能是更有效的比其他方法有关CA和基因的选择。这确保了我们的方法是一种重要的分类和基因选择方法,并且可以应用于其他癌症相关数据集。竞合利益作者声明,他们没有已知的可能影响本文所报告工作确认特别感谢塔伊夫大学的资助。此外,马来西亚技术大学提供设施。引用[1] Sreedevi Potharaju SP采用分布式特征选择(DFS)策略对微阵列基因表达数据进行分类,以提高分类性能.临床流行病学球。痊愈的2019;7:171-6.https://doi.org/10.1016/j的网站。cegh.2018.04.001网站。[2] 刘晓英,梁毅,王松,杨志英,叶海生.一种用于特征选择的包装嵌入混合遗传算法。IEEE Access 2018;6:22863-74.https://doi.org/10.1109/ACCESS.2018.2818682网站。[3] Kourou K,EX archos TP,EX archos KP,V Karamouzis M,Fotiadis DI.机器学习在癌症预后和预测中的应用Comput Struct BiotechnolJ 2015;13:8https://doi.org/10.1016/j.csbj.2014.11.005网站。[4] Tran Q
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功