direpack：Python3中的首个现代统计降维方法包

82 浏览量更新于2024-01-25 收藏 628KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件X 21（2023）101282原始软件出版物direpack：一个Python 3包，用于最先进的统计降维方法Emmanuel Jordy Menvoutaa，a，Sven Serneelsb，c，Tim Verdonckca比利时鲁汶大学数学系b Gallop Data，Inc.，关闭CO，USAc安特卫普大学，Middelheimlaan 1，2020安特卫普，比利时ar t i cl e i nf o文章历史记录：2022年8月9日收到收到修订版2022年10月19日接受2022年关键词：降维投影寻踪充分降维稳健统计能源统计a b st ra ctdirepack包将一组现代统计降维技术作为一个单一的、一致的包引入Python领域。包含的几个方法仅通过direpack作为开源提供，而该包还提供了以前仅在其他编程语言中可用的方法的竞争性Python在其目前的版本中，该软件包是结构在三个子包的不同方法降维：投影寻踪，充分降维和强大的M估计。作为推论，该软件包还提供了基于这些降维空间的正则化回归估计器，以及一组经典和强大的预处理实用程序，包括最近的发展，如广义空间符号。最后，direpack已经被编写为与scikit-learnAPI一致，这样估计器就可以被无条件地包含到该框架中的（统计和/或机器）学习管道中。版权所有©2022作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。代码元数据当前代码版本1.0.20用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-22-00231可复制胶囊的永久链接法律代码许可证MIT许可证（MIT）使用Git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求，操作环境依赖性numpy，matplotlib，scipy，sklearn，pandas，statsmodels，dcor，sympy如果可用开发人员文档/手册链接https://direpack.readthedocs.io/en/latest/index.html问题支持电子邮件tim. uantwerpen.be1. 介绍技术进步已经极大地改变了数据集的尺寸，需要提高这些数据的分析速度。这种维数的大幅增加通常会导致多重共线性和过拟合问题，并使可视化和分析变得非常困难。克服上述挑战的一种流行的解决方案是将数据压缩到一个新的低维特征子空间上，这也将有助于解释数据。因此，降*通讯作者。电子邮件地址：emmanueljordy.menvoutankpwele@ kuleuven.be（Emmanuel Jordy Menvouta），tim. uantwerpen.be（Tim Verdonck）。https://doi.org/10.1016/j.softx.2022.101282是机器学习项目的关键构建块，并被应用于金融、生物信息学和化学计量学等多个领域。虽然scikit-learn包含一些成熟的经典统计降维技术，例如主成分分析（PCA）或偏最小二乘（PLS），它不包含一些最近开发的统计工具的选项，例如基于鲁棒或能量统计的降维技术。这就是direpack通过提供一组与scikit-learnAPI一致的最先进的统计降维和回归技术来补充scikit-learn的地方，这意味着direpack中的方法可以包含在scikit-learn管道中。direpack可用于预处理或特征2352-7110/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softxEmmanuel Jordy Menvouta、Sven Serneels和Tim Verdonck软件X 21（2023）1012822==一ˆˆ我==∈ []= {个={个选择步骤和结果对象可以由scikit-learn估计器使用。此外，direpack遵循scikit-learn估计器API的约定除了是其中一些方法的唯一开源实现之外，该软件包将所有方法统一到与scikit-learn兼容的单个API中，并且包括可以实现更快计算速度和更好准确性的实现，比其他语言的开源版本中的可用实现更快，如附录B所示。在direpack中包含的降维方法目前分为三类。首先，direpack包含一个用于投影追踪（PP）降维的子包，ppdire，它允许通过简单地交换投影索引在不同的估计器之间优雅地切换。第二个子包sudire专注于充分降维（SDR），这是一种降维方法，旨在找到预测块中足以解释预测对象的子空间。它包括基于能量或球统计的SDR方法，据我们所知，这些方法在其他任何地方都不是开源的。第三，sprm子包为降维和回归提供了一组鲁棒的M估计器，以及一元稀疏PLS的有效实现。此外，direpack包含一组用于经典和鲁棒数据预处理的函数，包括最近的发展，如广义空间符号，以及计算协方差和关联的二元度量和能量统计的辅助函数。最后，direpack提供了一组特定于所提供方法的plot函数，以及与scikit-learn2. 一揽子计划概述2.1. 预处理预处理是大多数数据科学管道的第一步。预处理数据的第一种被广泛接受的方法是将它们居中并按列将它们缩放到单位方差，将x变量转换为z分数：zx−µm，（1）σˆ其中μ和σ分别是位置和规模的估计值。对于正态分布的数据，scikit-learn然而，对于偏离该假设的数据，direpack提供了Versa-tileScaler替代方案，该方案允许基于鲁棒的位置和规模估计值进行预处理。位置估计量包括列中位值、空间中位值（也称为L1-中位数）和位置的k步最小二乘（LTS）估计量[1]。作为尺度估计量，已包括尺度的一致性校正的中位数绝对偏差（MAD）和τ估计量[2除了标准化数据之外，将数据转换为空间符号也是有益的在这个意义上，提供了传统的[3]和广义空间符号变换 [4] ，它们可以通过 direpack 的GenSpatialSignPreprocessor访问。2.2. 投影寻踪投影寻踪（PP）是定义和构建统计估计量的框架[5]，包括降维。设X是p维随机变量的n种情况的样本，y是相应的相依变量的样本，如果适用的话。跨越T的列的投影寻踪分数ti是原始数据矩阵的线性组合：T XW，其中wi由下式给出：wi=argmaxP（S（aTX，y）），（ 2a）服从：wTXTXwj=0且WwiXw2=1，（2b）其中，i，j， min（n， p），j> i，P被称为投影指数，并且是表征投影结果的性质的函数，例如当P等于方差时，等式（2）定义了主成分分析（PCA）。集合S（X，y）X，y如果数据为因变量Y 存在，否则为S（X，y）X。由此产生的估计量的性质主要来自投影指数。在direpack中，投影追踪可以通过ppdire子包调用，它允许用户传递任何适当维度的函数作为投影索引。一组流行的投影指数来自（共）时刻，以及通过dicomo子包提供。插入其中一些将导致众所周知的方法，包括主成分分析（PCA），偏最小二乘法（PLS），独立成分分析（ICA），典型相关分析（CCA）和连续回归[6]。请注意，作者不建议使用direpack来实现这些技术，而是使用经过良好优化的开源实现。然而，ppdire允许访问更广泛的投影索引集，例如基于高阶共矩统计的鲁棒投影索引或投影索引，例如CAPI [7]。除了切换投影指数，ppdire允许用户选择用于计算结果的数值优化技术。目前，scipy.optimizeSLSQP优化器将是凸优化的计算效率最高的选择。但是，当预测指标基于排序或排名数据（如中位数）时，或修剪（共）矩，问题不再是凸的，不能通过SLSQP解决。为了这些目的，网格算法被包括在内，它最初是在这种情况下开发的，用于计算鲁棒连续统回归（RCR）[8]。2.3. 充分降充分降维（SDR）的目标是将数据的子空间识别为原始变量TXW的线性组合，其补变量在统计上独立于因变量，从而充分解释因变量。降维的空间称为中心子空间，它包含与因变量相关的所有信息yX|T.（三）sudire子包包含SDR的一系列方法的实现，包括成熟的方法，如切片逆回归（SIR），切片平均方差估计（SAVE），主Hessian方向（PHD），迭代Hessian变换（IHT）和方向回归（DR）（有关详细信息，请参阅[9]）。除此之外，sudire还提供了三种最近的SDR方法的实现，这些方法不需要线性或常数协方差的条件，也不需要分布假设。这些方法基于能量或球统计来优化标准，例如距离协方差（dcov-sdr，[10]），鞅差散度（mdd-sdr，[11]）和球协方差（bcov-sdr，[12]）。类似于PP框架，SDR算法将潜在分量估计为：WhargmaxV2（XB，y），（4a）B服从：BTXTXB=Ih，（ 4b）Emmanuel Jordy Menvouta、Sven Serneels和Tim Verdonck软件X 21（2023）1012823× ∈[ˆσˆ其中B是任意ph矩阵，h1 ， min （ n ，p）和V是能量或球统计。我们注意到，SDR方法通常在单步过程中估计潜在分量，而PP依次估计降维子空间。分布自由SDR方法依赖于最大化非线性目标函数，这可能是一个具有挑战性的优化问题。为了克服这个问题，使用不同的SDR方法（SIR，SAVE或DR）作为优化的热启动，并作为非线性优化器，使用IPOPT的Python绑定器[13我们注意到，公式在Eq. （四）类似于监督PCA [14]。然而，SDR的目的是估计中心子空间的基，而超监督PCA试图估计正交矩阵，使得投影数据与结果之间的依赖性最大化。因此，SDR产生更强的结果，但它们不提供与监督PCA相反的封闭形式的解决方案。2.4. 稳健M估计第三个降维子包sprm以稀疏部分鲁棒M回归（SPRM）的形式实现了稀疏和鲁棒降维。M回归是最小二乘回归的一般化，其最小化允许调整估计器的效率和鲁棒性的更一般的目标。在M回归中，回归系数的向量定义为：βi=argmin∑p（ri（β）），（5）阅读Theatre网站。2更详细的例子在包的examples文件夹中的xmlyternotebook 中为每个核心子包提供： ppdire sudire 和sprm，以及dicomo实用程序通过经典，鲁棒或能量统计来计算（共同）矩。清单1、2和3中的代码片段显示了如何使用ppdire、sprm和sudire包对数据集进行降维。1234567891011121314清单1：ppdire和dicomo子包的使用说明。其中ri是逐事例回归残差，σ是其稳健尺度估计器。ρ函数定义了估计量的属性。SPRM是PLS的稀疏和鲁棒的替代方案，可以有效地计算[15]。由于SPRM结合了稳健回归与稀疏降维在sklearn管道中：用于单变量稀疏偏最小二乘（PLS）的稀疏非线性迭代偏最小二乘（SNIPLS）估计器[16]，以及用于多元线性回归的鲁棒M估计器[1]。该软件包通过不同的加权函数（公平，胡贝尔或Hampel）提供了对所产生的鲁棒性的选择。此外，direpack提供了一个绘图函数sprm_plot，它可以方便地提供奇偶校验图，以及回归系数，分数和案例权重的图。在适用的情况下，图将区分常规情况与那些已被确定为中度或严重离群值的情况，以及训练集和测试集情况，如图所示。1.一、由于该软件包与scikit-learn紧密集成，后者然而，direpack还包含交叉验证实用程序，例如自定义损失函数，该函数将基于M估计量的案例权重进行加权每个子包还提供一组特定的实用程序。3. 代码结构和使用该包被构造成一组子包，对应于不同的风格的降维，以及辅助和效用函数。这些子包中的每一个都是按照PEP8代码标准构建的默认情况下，CI/CD工作流中包含并执行单元测试，设置为GitHub Action 。每个版本都发布到PyPI ，可以在那里安装（pipinstalldirepack）。一份完整的文件-在包的GitHub页面上提供了11 https://github.com/SvenSerneels/direpack123456789101112131415清单2： sprm子包的使用说明。1234567891011清单3： sudire子包的使用说明。2 https://direpack.readthedocs.io/en/latest/index.html从Direpack Importsudireimportnumpyasnp#Generratedummydatasett：X=np。random. rannd（1000，5）y=np.random. rand（1000，1）#I'mnotasufficeiientdimension Reductionbjectdcov_reduce=sudire（#fitobjectondatadcov_reduce。fit（X，y）#Extracthestimated 对中心子空间进行构dcov_reduce. x_lodings_importnumpyasnp从Direpack importdicomo，ppdire#Generatedummydataset：X=np。random. rannd（1000，5）y=np.random. rand（1000，1）#Intantiatearobust projectionPursutdimensionalittleyredion objectlcpca=ppdire（projection_index=dicomo，pi_arguments=\{’\#Perform robust PrincipalComponentRegressionLCPCA fit（X，y=y）#lodingsLCPCA从Direpack Importsprmmportnumpyasnp#Generratedummydatasett：X=np。random. rannd（1000，5）y=np.random. rand（1000，1）#我不是一个小女孩RobustMregressionobjectres_sprm=sprm（2，. 8，' H a m p e l'，. 九点五，975，。999，’100，。01，#如果要将数据的所有部分都打印出来，请执行以下操作：fit（X[：500]，y[：500]）#预处理数据predicted=res_sprm. predict（ X[500：]）transformed=res_sprm. transform（X[500：]）β我Emmanuel Jordy Menvouta、Sven Serneels和Tim Verdonck软件X 21（2023）1012824图1.一、使用Yahoo Finance 中的示例数据说明sprm子包绘图功能。4. 影响direpack软件包是灵活的，可以应用于任何需要分析高维数据的特别是，高维回归或分类问题需要特征工程，而direpack通过提供用于降维的函数的全面列表来帮助研究人员和从业者，同时保持关于特征的相关考虑到direpack与scikit- learn兼容，它可以轻松地包含在建模管道中，这增加了它的可及性和可用性。代码被构造为独立的模块，这些模块可以根据研究人员或实践者的用例进行修改和调整。每个模块还包含帮助函数，可以将任何输入表格数据集转换为库易于使用的格式。direpack不仅包含其他语言的统计方法，还包括其他软件包中无法找到的降维功能，例如MDD-SDR [11]，BCOV- SDR [12]，CR [6]，CAPI [7]，RCR[17]。这些技术在direpack中的实现允许其用户访问已在同行评审期刊上发表的最先进的方法，并且到目前为止还没有在Python中提供。direpack中的一些方法已经从R或MATLAB软件包，因此相关代码已用于工业领域，如光谱[17]。最近，我们的团队使用direpack来开发一个稀疏版本的充分降维，使用能量和球统计[18]。该软件最近被用于计算一般化的β，也可解释高阶矩效应金融市场[7]。如附录B所示，与其他语言的替代方法相比，direpack中的方法在准确性和计算时间方面具有竞争力。在direpack中实现的研究工作的扩展是可能的，因此当前和未来的用户社区很大。附录A中列出了目前在直接包装中可用的一些方法。5. 结论和今后的工作在本文中，我们介绍了direpack，这是一个新颖的软件包，它将几类最先进的降维技术结合在一个软件包和格式中，与scikit-learnAPI的统计和机器学习一致。此外，direpack提供了一些新的预处理功能，以及方便的交叉验证和绘图工具。作者希望由于direpack竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作数据可用性本文中使用的数据可以在包的Github页面上找到Emmanuel Jordy Menvouta、Sven Serneels和Tim Verdonck软件X 21（2023）1012825联系我们j=1JJ1+先生，误差12表A.1通过每个主要的direpack子包可以访问的方法的详尽列表，以及它们最重要的超参数和参考文献和开源实现，以及从direpack导入的相应函数。分装从direpack import方法超参数参考文献开源参考苏迪雷苏迪雷BCOV-SDRH[12个]没有一苏迪雷MDD-SDRH[第十一届]没有一苏迪雷DCOV-SDRH[10个国家]MATLAB3苏迪雷IHTH[19个]MATLAB3苏迪雷博士H[20个]R博士sudireDRh，nslices[21]R，drsudireSAVEh，nslices[22]Python，slicedR，drsudireSIRh，nslices[23]Python，slicedR，drsprmsprmSPRMh，η[15]R，sprm[16]第16话，我的世界rmRMh[1]R，lmrobPpdirePpdireLCPCAh[24]R，pcaPPppdireCRh，γ[6]无ppdireRCRh，γ，α[25]无capiCAPI-GBh，m，w [7]无预处理VersatileScalerk-stepLTS无[1]R3VersatileScalerτ scale无[2]R，robustbaseGenSpatialSignPreProcessorGSS-PP无[4]R3迪科莫迪科莫MDD没有一[26日]R，ED测量迪科莫MDC没有一[26日]R，ED测量附录A.每个子包装的直接包装中包含的方法列表表A.1概述了每个direpack子包中提供的最突出的方法，以及从direpack导入的相应对象和最重要的超参数集。该表还列出了对这些方法的原始出版物的引用，以及以前开发的开源实现的名称对于超参数，h、γ和α分别表示约化空间的维数、连续参数和修剪百分比对于CAPI，w表示矩的相对权重向量，m表示要考虑的矩的最大阶表A.1列出了最能代表direpack唯一性的方法，但其中的方法列表和相应的超参数列表都不是详尽的。特别是ppdire是一个框架太一般，引用通过它访问的所有方法，所以是它的辅助包dicomo，提供了一个方便的包装器访问经典的，强大的和能量估计的时刻和comoment统计。至于超参数，表A-1中列出的是最常需要调整的超参数，例如组件的数量。然而，许多方法具有额外的参数，例如最大迭代次数、收敛容限或Hampel函数中的截止值，所有这些都是用户通常不想调整但偶尔想访问的设置。表A.1中没有提到后者。最后，对于表A.1中列出的大多数方法，在其他语言中，通过相应的软件包存储库分发，但不是所有的。3附录B. 比例比较本节将详细介绍di- repack与其他语言的现有包在以下方面的比较：通过ppdire，ppdire基于这一观察，一组五个方法已被选择用于此比较研究，一个来自ppdire，三个来自sudire和sprm子包。这些方法可以被认为是在无法通过分析推导计算的目标函数之间进行了正确的权衡，但也可以在另一种语言的基准实现中使用这些措施包括：基于绝对偏差中值作为投影指标的投影寻踪鲁棒主成分分析.这种方法最早由[24]发表，并且在R包pcaPP中也有一个基于网格算法的实现。基于距离协方差的充分降维该方法首先由[10]介绍，作者使用MATLAB的序列二次规划（SQP）优化器提供了MATLAB与python包中的切片实现相比，通过切片逆回归（SIR）充分降低了维度。五个切片用于direpack和切片实现。通过切片平均方差估计（SAVE）进行充分的降维，与python包切片中的实现相比。五个切片用于direpack和切片实现。稀疏部分鲁棒M-回归[15]，其代码也已作为R包sprm发布。注意设置参数和起始值，使结果R和Python变得相等。对于3种方法的缩放比较，变量p的数量固定为20，情况的数量变化为n200，400，600，. . .，1600。对于鲁棒PCA，如[27]中所示模拟数据将组件的数量设置为k= 2，然后模拟X <$N（0，diag（λ1，. . . ，λp）），其中λj=1/j2。估计的误差被测量为1/Ik，其中规模和准确性。值得注意的是：（1）几种方法在direpack之外不作为开源提供及（ii）当I k=Σk MAD（a tx1，. . .，a txn），a j是第j个主成分，和x可以计算一些其它公知的方法，例如PCA3 对于这些方法，开源实现只能作为相应出版物的补充材料1，. . . ，xn表示n个观测值。对于SDR，采用[10]中的设置，其中h=2，β1=，0，0，. . . ，0）T，β2=（0，1，0，. . . ，0）T，N（0，1），X N（0，Ip），其中Ip是单位矩阵，Y=（βTX）2+（βTX）+0。对于dcov-SDR和SAVE，Y=（βTX）0。1ϵ·····（一Emmanuel Jordy Menvouta、Sven Serneels和Tim Verdonck软件X 21（2023）1012826≤∥·∥=∈=+=×[客户端]计算为pi=1（βi−βi）2，其中β是回归系数表B.2改变观测数时的缩放比较方法200400600800误差时间（秒）误差时间（秒）误差时间（秒）误差时间（秒）R-pcaPP网格鲁棒PCA0.6070.070.6170.1300.6440.2000.6440.270直接网格鲁棒主元分析0.3751.2730.4051.1410.4221.2580.4241.484MATLABdcov-SDR0.27721.30.193105.90.144287.20.122614.7direpackdcov-SDR0.2732.1860.18627.4450.14537.1950.12882.242切片SIR0.9760.0010.9720.0010.9640.0010.9680.001DirepackSIR0.9760.0010.9720.1250.9650.1250.9680.125切片保存0.4230.0010.1960.0010.1610.0010.1330.001direpack保存0.4820.0010.1980.1250.1620.1250.1330.125RSPRM0.1020.0500.0610.0800.0520.0800.0420.090直接包装SPRM0.0820.0550.0490.0780.0350.0780.0340.109方法1000120014001600误差时间（秒）误差时间（秒）误差时间（秒）误差时间（秒）R-pcaPP网格鲁棒PCA0.6510.3400.6450.4100.6580.5200.6530.565直接网格鲁棒主元分析0.4311.3050.4471.4140.4451.7110.4482.656MATLABdcov-SDR0.1041780.50.0993179.50.0875378.90.0817867.7direpackdcov-SDR0.104181.5230.102253.6950.096464.610.088827.17切片SIR0.9730.0010.9680.0010.9700.0010.9560.001DirepackSIR0.9730.250.9680.250.9700.250.9560.375切片保存0.1120.0010.1090.0010.0970.0010.0920.001direpack保存0.1120.250.1090.250.0970.250.0920.375RSPRM0.0410.1350.0350.1800.0350.2300.0290.240直接包装SPRM0.0300.1560.0270.1800.0260.2030.0220.234估计值的度量为Δm（S1，S2）=P（β1，β2）−P（β1，β2），其中P（β，β）是到由[6]Stone M，Brooks RJ.连续回归：交叉验证顺序构建的预测，包括普通最小二乘，偏最小二乘12平方和主成分回归。 J R Stat Soc Ser B Stat（β1，β2），矩阵的最大奇异值与（β< $1，β< $2）中心子空间的SDR估计基。对于SPRM比较，h被设置为6，并且预测被生成为Y Tγ n，其中T XA，X a np矩阵从多元标准正态分布模拟，列al（l1，. . .（h）ARp×h进行模拟，只有h的前qp个元素对应于信息变量。为此，A的非零部分由下式给出：XTXq的特征向量，其中Xq表示Methodol 1990;52：237-69.[7]瑟尼尔斯湾金融市场分析中高阶共矩效应的投影寻踪广义贝塔。见：JSM议事录，商业和经济统计部分。Alexandria，VA，USA：American StatisticalAssociation; 2019，p. 3009-35[8]Filzmoser P，Serneels S，Croux C，Van Espen PJ.鲁棒多变量方法：投影寻踪方法。In：Spiliopoulou M，Kruse R，Borgelt C，Nürnberger A，GaulW，editors.从数据和信息分析到知识工程。Berlin，Germany ：SpringerVerlag; 2006，p. 270比7Xq[9] 李湾充分降维：R.. γ的分量是从均匀分布中提取的在0。五，一。五、误差项是由独立的标准正态分布产生的。回归系数向量可表示为∑β=Aγ，估计误差为纽约：查普曼&厅/CRC，统计学和应用概率专著; 2018年。[10]盛伟，尹晓.通过距离协方差充分降维。JComput Graph Statist 2016;25：91-104.[11]张毅，刘杰，吴毅，方X.中心均值子空间的一种基于鞅差散度的估计。StatInterface 2019;12：489由SPRM估计的矢量。表B.2显示了不同方法的中位时间（以秒为单位）和中位误差，每个方法重复50次，同时改变观察次数。从这个比较研究得出的结论是，在di- repack中提供的实现是有竞争力的。引用[1] PJ，Leroy AM.鲁棒回归和离群值检测。NewYork：Wiley and Sons.[2] Maronna RA ， Zurich RH. 高维数据集位置和离散度的鲁棒估计。Technometrics2002;44（4）：307-17.[3] Serneels S，De Nolf E，Van Espen PJ.空间符号预处理：一种赋予多变量估计适度鲁棒性的简单方法。J ChemInform Model2006;46：1402-9.[4] Raymaekers J ， PJ. 广义空间符号协方差矩阵。J MultivariateAnal2019;171：94[5] Kruskal JB找到一种实用的方法，通过找到优化新的“凝聚指数”的线性变换，对一组多变量观测值进行优化。In：Milton RC，Nelder JA，editors. 统计计算。New York，NY：Academic Press; 1969.[12] Zhang J，Chen X.基于球协方差的鲁棒充分降维。Comput Statistist Data Anal2019;140：144-54.[13] Wächter A，Biegler LT.关于大规模非线性规划的邻域点过滤线搜索算法的实现。数学课程2006;106：25-57.[14] 张文辉，王晓伟.有监督的主元分析：子空间和子流形上的可视化、分类和回归.Pattern Recognit2011;44（7）：1357-71.[15] Hoffmann I ， Serneels S ， Filzmoser P ， Croux C. 稀疏偏稳健 m 回归。Chemometr Intell Lab Syst2015;149：50-9.[16] Hoffmann I，Filzmoser P，Serneels S，Varmuza K.用于二进制分类的稀疏和鲁棒PLS。化学计量学杂志2016;30（4）：153-62。[17] Serneels S，Van Espen PJ.三线性偏最小二乘回归的Bootstrap置信区间。AnalChim Acta 2005;544：153[18] 张文辉，李晓梅，李晓梅. 基于能量和球统计的稀疏降维。Adv Data AnalClassif 2022;16：951[19] Cook RD，Li B.回归中条件均值的降维。Ann Statistist2002;30：455-74.[20] 李国祥关于数据可视化和降维的主Hessian方向：Stein引理的另一个应用。JAmer Statistist Assumption1992;87：1025-39.[21] 李湾关于降维的方向回归。J Amer StatististAssumption2007;102：997-1008.Emmanuel Jordy Menvouta、Sven Serneels和Tim Verdonck软件X 21（2023）1012827[22] Cook RD. SAVE：一种在回归中进行降维和绘图的方法。公共统计理论与方法2000;29：2109-21.[23] 李国祥用于降维的切片逆回归。J Amer StatististAssumption1991;86：316-27.[24] 陈志，李刚.基于投影寻踪的鲁棒主成分和色散矩阵。哈佛大学统计系研究报告，1981年。[25] Serneels S ， Filzmoser P ， Croux C ， Van Espen PJ. 稳健连续回归。Chemometr Intell Lab Syst 2005;76：197[26] 邵晓，张军 . 鞅差相关及其在高维变量筛选中的应用 . J Amer StatististAssumption2014;109：1302-18.[27] 王文，王文，等.投影寻踪鲁棒主成分分析算法.北京：科学出版社，2001.Chemometr Intell Lab Syst 2008;87：218-25.

下载后可阅读完整内容，剩余1页未读，立即下载