医学信息学中的交叉验证模型：线性回归和人工神经网络

201 浏览量更新于2024-01-06 收藏 868KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁21（2020）100457来自模拟的连续数据的交叉验证模型，用线性回归和人工神经网络Zohreh Zakeria，*，1，Neil Mansfield a，Caroline Sunderland b，Ahmet Omurtaga， 1a诺丁汉特伦特大学科学与技术学院工程系，地址：Clifton Lane，Nottingham，NG 11 8NS，UKb英国诺丁汉特伦特大学科学与技术学院体育科学系，地址：英国诺丁汉克利夫顿巷，NG11 8NSA R T I C L EI N FO保留字：交叉验证线性回归人工神经网络A B S T R A C T我们越来越多地被收集大量数据的传感器所包围，连续变量中的模式通常通过使用人工神经网络（ANN）来发现，而线性回归（LR）对于检测线性关系非常有用。LR还提供了潜在复杂关联的初步估计，并作为ANN性能的基准。我们发现，虽然交叉验证（CV）是必不可少的，以确保所发现的模式的鲁棒性，它系统地导致，当与LR相结合，具体的文物，低估了预测和目标变量之间的关联程度。我们解释了这种以前未被注意到的人工制品类型是如何产生的，特别是从CV与LR的组合，并不影响非线性方法，如ANN。我们还通过模拟证明，ANN能够发现广泛的LR错过了复杂的关联。通过分析从进行腹腔镜检查训练实验的N=1. 介绍线性回归（LR）不仅可以用于发现实验数据中的模式，而且可以作为基准测试和验证新分析技术的基线，特别是新颖或不熟悉的技术。例如，人工神经网络（ANN）可以揭示线性回归（LR）无法访问的多维非线性关系。然而，它可能具有需要通过与替代方法进行比较来进一步研究和验证的特征。作为一种成熟且相对透明的方法，LR特别适合于此角色（例如，参考文献11.1）。[1，2]）。交叉验证（CV）通常用于开发和评估ANN的准确性[3]。它涉及保留部分可用数据用于训练ANN，其余用于测试其准确性。给定一组固定的数据，不同训练/测试组的重复CV可以最大限度地减少过拟合。在对性能进行基准测试时，最好在平等的基础上评估所有的分析技术。这可能涉及使用相同的数据集以及相同的测量精度的方式。因此，使用CV来测量ANN和LR的准确性似乎是明智的。然而，这并不一定是这样，正如我们下面所展示的那样。上述情况并不是想要将LR与CV结合的唯一原因。CV是评估数据模型预测能力的好方法。应用于整个数据集的LR发现的关系可能由少量离群值驱动，并且LR可能过度拟合;即，锁定仅存在于当前数据中的模式。此外，LR可以过拟合数据，特别是当它通过表示相互作用或复合特征的高阶项来增强时。LR的这种增强虽然逐渐产生更好的模型，但往往在新数据上表现不佳。使用不同数据子集的重复LR可能是一个更好的指标，可以表明当新数据到达时，结果将如何保持。事实上，在文献[4-8 ]中推荐了然而，CV与LR的结合具有不可避免的和不足的-与有限样本相关的可识别缺陷：排除部分数据会在实际目标和预测目标之间产生虚假的负相关。这种效应在数据集越小的情况下越强。在本文中，我们说明了这种偏差是如何产生的，使用实验和模拟数据来探索其在各种类型的预测-目标依赖下的影响，并推荐用于量化准确性的替代指标。实验数据来自我们以前的研究，* 通讯作者。电子邮件地址：zohreh. ntu.ac.uk（Z.Zakeri）。1 这些作者对这项工作作出了同样的https://doi.org/10.1016/j.imu.2020.100457接收日期：2020年7月27日;接收日期：2020年10月9日;接受日期：2020年10月14日2020年10月17日网上发售2352-9148/© 2020由Elsevier Ltd.发布这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imuZ. Zakeri等人医学信息学解锁21（2020）1004572==联系我们图1.一、交叉验证对模拟预测目标线性回归的影响。（a）具有ND=10个数据点的线性回归实线显示了对完整数据集的回归。虚线（红色）显示了标记为1的点保持不变时的回归线虚线（蓝色）显示了点2伸出时的回归（b）每个点代表一个目标y（来自子图（a））和通过对全套数据进行回归预测的相应值箭头表示当通过留一交叉验证进行预测时，预测值如何变化ND=10。（c）预测和实际目标之间的相关性r与线性相关预测因子和目标之间的相关性r0蓝色粗实线曲线用于交叉验证线性回归。粗点黑色曲线用于完整数据集的线性回归这些曲线周围的阴影区域表示通过100次模拟获得的变异性的标准差黑色细虚线表示r= ±r0的轨迹。ND=10。（d）与（c）相同，但数据集更大，ND=100。（有关此图例中颜色的解释，请读者参阅本文的Web版本测量腹腔镜手术培训期间新手受训者经历的认知负荷[2]。机器学习社区广泛使用LR，但也开发了广泛的替代算法，包括随机森林[9]，支持向量机[10]，k-最近邻[11]和人工神经网络[12]。在涉及连续变量作为预测目标的问题中，ANN通常是首选。ANN由通过可调权重连接的处理单元（神经元）层组成，其中输入层神经元接收数据并将其输出发送到后续层。输出层生成预测。可以通过将预测误差传播回网络来训练ANN，作为对其连接权重的连续调整。人工神经网络通常需要大量的数据进行适当的训练。在这个高度活跃的研究领域中已经开发了许多训练方法和网络架构[3，13]，其中许多都封装在软件中，例如Matlab Neural Networks ToolboX （ The- MathWorks ， Inc. ，Natick，Massachusetts，United States）。我们相信，我们关于LR-CV缺陷的结果将是在生物医学、医疗保健、农业、工程、能源和环境、天气和气候研究等不同领域，越来越多的研究采用LR、CV和ANN的各种组合[142. 方法给定一组连续值数据xn，yn，n1，一个重要的目标是能够预测目标值，如果预测值变得可用，而不是在当前数据集中。因此，有必要找到可概括的关系。为此，交叉验证（CV）是首选方法K-fold CV包括将数据随机划分为不相交的组，将其中一个作为测试分区，使用所有剩余分区（训练集）开发预测模型，让模型预测测试集中的目标，然后将预测与实际值进行比较。重复此过程k次，并对所得精度进行平均。由于在大数据集中的划分可以以许多不同的方式完成，因此k倍CV可以重复多次以获得更好的统计有效性。当k ND时，这种方法被称为留一交叉验证（LOOCV），每个分区测试数据集的大小为ND1。对于连续值目标，确定预测精度的一个好方法是计算预测值、预测值和实际目标值之间的Pearson相关性r。在本文中，我们使用线性回归（LR）和人工神经网络（ANN）的预测。级联前向人工神经网络使用两个隐藏层和Z. Zakeri等人医学信息学解锁21（2020）1004573adj=n=1======nnn回归分析因此，建议使用R2图二. 模拟具有各种类型相关性的单变量数据。列对应于无依赖性（a-d顶行显示预测因子和目标的散点图。第二行显示了实际目标与使用全数据集（LR-FULL）线性回归确定的预测值。第三行是交叉验证线性回归（LR-CV）。最下面一行是交叉验证的人工神经网络（ANN-CV）。用不同的划分重复交叉验证100次 v = 0。23，ND= 100。Levenberg-Marquard算法在下文中，我们使用缩写LR-FULL表示应用于完整数据集的LR; LR-CV表示交叉验证的线性回归; ANN-CV表示交叉验证的ANN。我们进行了模拟，目标是从预先计算的r0>0。请注意，当y线性依赖于x时，相关性r0描述了数据点在直线附近的接近程度，而不管其斜率如何。对于多变量xn，决定系数往往随着预测因子的数量而增加，而与实际依赖无关。NP2xn和y之间的距离。这是一个著名的人工制品，根据公式y（i）=∑[ax（i）+b（x（i））+cf（x（i））]+nv φi，其中i 1，.，N D.预测因子和噪声（φi）被选择为与标准正态分布或单位区间内均匀分布的随机偏差。数据集的大小为ND，噪声的幅度由v控制。选择其他系数以生成目标对预测因子的不同类型的依赖性：独立性，a=b=c= 0 ;线性依赖性，a= 1，b=c= 0;二次依赖性，a=c= 0，b= 1 ;以及附加的非线性依赖性，aB0，c1），由f xcos6x3给出。预测因子与靶点之间的Pearson相关性表示为r0。的噪声幅度v=r-02-1用于创建线性相关性平方，以补偿这种增加，而不是决定系数[27]。对于多变量预测变量，我们使用Radj，即调整后的R平方绝对值的平方根（可以变为负值）。这个量，我们称之为调整后的R，提供了一个与r相当的值。为了证实我们在实验环境中的结果，我们使用了从先前研究中收集的31名参与者的数据，该研究调查了生理变量跟踪与腹腔镜手术（LS）培训相关的认知负荷的能力[2]。这项研究测量了由心率和前额叶大脑皮层所调整后的R-Z. Zakeri等人医学信息学解锁21（2020）1004574图三. 模拟多变量数据的预测度量作为预测因子数量的函数。（a）预测值与目标值之间无相关性;（b）线性相关性;（c）二次相关性;（d）其他非线性相关性。粗灰色曲线（LR-FULL）是实际目标与通过对完整数据集进行回归预测的值之间的皮尔逊相关性。灰色虚线曲线是调整后的R。细（蓝色）和粗（红色）曲线分别用于交叉验证的线性回归和ANN。23，ND=100。(For关于这一图中颜色的解释，请读者参阅本文的网络版。）表1量化实验数据预测的方法。对于每个预测因子-靶标对，该表显示了预测因子和靶标之间的Pearson相关性（r0）、实际和预测靶标之间的Pearson相关性，用于全数据集的线性回归（LR-FUL）、交叉验证线性回归（LR-CV）和交叉验证神经网络（ANN-CV）。每组有N D= 93个数据点。目标脑源性神经营养因子（BDNF）浓度。该研究假设生理指标（预测因子）将跟踪由传统的次要任务和主观方法（目标）索引的整体努力。数据集由19通道EEG和8通道fNIRS信号组成，考虑国际10-20电极放置系统。EEG数据以2000 Hz采集，fNIRS数据以10 Hz采集，覆盖FP1、FP2、F3、F4、F7和F8周围的额区渠道原始EEG和fNIRS数据集经过处理步骤完成时间错误率反应时间无应答NASA-TLX分开根据基线、腹腔镜任务和静息发作对连续EEG数据进行划时代。高频率片段平均费率皮质醇r10的0.040.010.190.130.13LR-0.040.010.190.130.13CV使用具有识别阈值±200 μ V的滑动窗口去除连续EEG。通过对0.16-40Hz的背景EEG进行滤波和ICA分解来进一步去除伪影。fNIRS数据BDNFCV0.26 0.05-0.01 0.13 0.29重复第一次）。将3个任务的数据合并，因此每个不同的预测-目标分析包含N= 93个数据点。到LR-全LR-CVANN-0.26 0.05 0.01 0.130.19-0.36-0.81 0.030.230.14-0.20-0.02 0.020.34总结描述受试者生理学的预测变量额叶氧合血红蛋白浓度变化（mM）表示CV心脏0.090.19 0.290.29 0.18HbO。目标变量描述了受试者r10的率- -主动状态：任务完成时间（CT）（min），错误率（ER）（min-1），LR-满CVCV0.09 0.19 0.29 0.290.18反应时间（RT）（s）、无反应率（NRR）（s-1）和平均NASA-TLX评分。错误率描述了受试者每单位时间犯下的错误的数量，反应时间是在随机定时的听觉刺激的开始和受试者对它的响应之间经过的时间，并且无响应率是在下一个刺激发生之前受试者未能响应刺激的每单位时间的次数。这些变量的测量方法在参考文献103中有详细描述。[2]的文件。3. 结果氧气化，衍生从并发近红外光谱在本节中，我们首先介绍了基本的（fNIRS）记录从新手受试者。当他们在LS训练机上执行任务时，这些实验中的受试者通过按下踏板对随机定时的听觉刺激做出反应，并记录他们的反应时间。无反应率计算为受试者在下一次刺激开始前未能反应的比率。他们通过填写NASA-TLX问卷报告他们的经验。在基线时和完成所有三项LS任务后立即采集指尖血样，以测定血清皮质醇和皮质醇水平。当CV和线性回归相结合时，产生虚假相关性的机制（图1）。我们在图2中显示了具有各种类型的预测器-目标依赖性的模拟。接下来，我们探讨多变量线性回归（图3），最后，将讨论的概念应用于实验数据（表1）。尽管实际目标和预测目标之间的相关性r通常是所发现的模式的强度的良好指示器，但是当LR和CV组合使用时，它变得不可靠我们的第一个任务是在一个小范围内阐明这个问题的根本原因。充分LR--0.39-0.800.090.01-0.04最初在0.5-2 Hz下进行带通滤波ANN-0.00-0.210.06-0.04-0.04每个参与者执行三项任务（最后一项是LR-CV-0.260.070.240.180.04人工神经网络CV0.04-0.050.270.360.09HBOr10的LR-满0.050.05-0.160.16-0.020.020.010.010.240.24LR--0.280.06-0.59-0.530.16Z. Zakeri等人医学信息学解锁21（2020）1004575=≈===+-仅由ND10个预测器-目标对组成的数据集。根据y x vQ（方法部分中描述的一般形式的特殊情况）生成目标对具有添加噪声的预测因子的线性依赖性。该方程通过重新缩放和移动预测变量和目标变量直接从一般噪声线性相关性得出。我们选择使用它，因为它的优点是只有一个参数v，它决定了相对于预测变量预测值与目标值之间的相关系数r0可以通过改变v来调整。图1a示出了从不相关的目标和预测因子生成的数据集。在这种情况下，由于小样本效应，回归（粗实线黑色）线显示负相关。为了研究交叉验证的效果，我们保留了单个（测试）点，并重新绘制了从剩余（训练）点获得的回归线。该图显示，通过保持标记为1的点，获得了一条新的略微偏移的回归线（红色，虚线）。当第2点保持不变时，回归线发生了另一个偏移（蓝色，虚线）。当数据的任何其他部分被公开时，也会发生类似的变化。正如我们接下来所解释的，正是这些变化的一般模式共同扭曲了r的值请注意，当对完整数据集使用LR时，目标的预测值XNUFFUL由对应于X的粗黑色回归线上的一个点给出。但当LR与CV结合时，同一靶点的预测靶值Δ CV由不同回归线上的一个点给出。因此，在从完整数据集到训练数据集的过程中，预测值会发生变化，变化量为Δ= Δ CV-Δ FULL。有趣的关键问题是，这种偏移并不独立于目标值;事实上，Δθ与y呈负相关。图1b显示了每一个对应的y作为一个点。预测如何随CV变化（即Δ θ）由箭头示出发生这种变化是因为删除一个较低的目标值略微提高了剩余目标集的平均值，导致回归线向上移动。而移除高目标值会导致相反的偏移。因此，目标值越低，预测值越高，预测值越低。这不可避免地导致了r值的向下偏差，r值是实际目标和预测目标之间的相关性。这种向下的偏差通过图1b中拟合到对y CV的虚线与拟合到对y FULL的实线之间的差异来显示。到目前为止所描述的是基于不相关的预测因子和目标。接下来，我们研究了预测变量和目标变量之间的真实相关性r0的不同程度如何影响向下偏差。图1c显示，当r0的大小足够高时（除了r00时的小的正偏差），对完整数据集的回归产生了接近反映r0的r值。这与r作为指示预测方法有效性的度量的公认效用一致。然而，图1c中最显著的特征是交叉验证回归导致的r的负偏差，如粗实线蓝色曲线所示。该图显示，该负偏置随着r0的幅度减小而增大。由于图1a图1d示出了ND10的这种减少的示例。到目前为止所描述的结果是针对目标对以下的线性依赖性：预测器在图2中，我们展示了上面解释的机制如何在各种其他类型的依赖下产生类似的结果。图中的每一列表示不同类型的依赖关系，最左边的一列表示独立的预测目标。图中的顶行显示了预测因子和目标的散点图。在每个子图中，皮尔逊相关性显示在左上方。当目标是独立的（图2a），对完整数据集的回归显示实际和预测目标之间没有相关性（LR-FULL，图2b）。2 b）。当在交叉验证线性回归中使用相同的数据点时，发现了强烈的负相关性（LR-CV，图2c）。如果没有图1中提供的解释，这个发现可能会令人困惑。图2d证实ANN没有这种伪影。人工神经网络发现了一个小的，正相关，这是虚假的，可能是一个有限的样本效应。图2的第二列（线性依赖性）显示，当靶标与预测因子强相关时，LR-CV的负偏倚最小化（如图1c所预期的）。在二次和其他非线性依赖性的情况下（图2的第三列和最右边的列），LR-CV与LR-FULL相比显示出小的负偏差。在这些情况下，LR无法发现目标接下来，我们研究了图1中解释的效应如何在多变量预测的情况下发挥作用，具有多种类型的模拟依赖性。图3a显示，对于独立的预测因子-靶标，LR-CV（细蓝色曲线）具有负偏差，其倾向于随着预测因子NP数量的增加而减小，而ANN-CV（红色虚线）对于任何NP产生r0≤LR-FULL（深灰色）随NP增加而增加。虽然图中显示了多达10个预测因子，但我们验证了r 1为NP ND。调整后的R（灰色虚线）没有增加，但不像ANN-CV那样接近零。图3b表明，所有讨论的方法都成功地发现了线性关系。在二次依赖的情况下（图3c），LR-CV显示出强烈的负伪影，LR-FULL显示出随NP增加的正偏差，调整后的R保持接近零，表明LR无法找到二次依赖。ANN-CV能反映这种依赖性，但随着NP的增加，这种依赖性越来越难体现。类似的情况下获得的其他非线性依赖（图。 3 d），但随着NP的增加，人工神经网络的效果更差。在通过模拟检查了CV与LR组合的不利影响之后，我们接下来转向方法部分中解释的实验数据集。表1显示，对于皮质醇-错误率对，LR-FULL为0.01，表明两个变量是独立的。这可能导致预期交叉验证的LR-CV也接近于零。然而，LR-CV0.80.表中举例说明了许多其他类似情况，例如HbO和反应时间对以及心率和完成时间对。事实上，对于每个预测-靶对，LR-CV都小于LR-FULL。在ANN-CV的情况下没有观察到如此大的差异。LR-CV和LR-FULL之间的平均差异为-0.28，而ANN-CV和LR-FULL之间的平均差异为-0.08。4. 讨论和结论实际值和预测值之间的相关性r通常用作预测质量的度量。在本文中，我们证明了当预测方法是线性回归交叉验证时，r是负偏的。较小的数据集和预测因子与目标之间的真实相关性较低时，偏倚较大。该偏倚是由于以下事实引起的：作为CV过程的一部分，删除部分数据（测试集）导致剩余数据（训练集）的统计数据发生变化，这导致与目标实际值反相关的预测值发生变化。线性回归和交叉验证都是广泛使用的技术，它们的组合似乎在一些教科书中被推荐（例如参考文献[4，7]）作为减轻过度拟合的一种方式，并且它们经常在预测中联合使用（例如参考文献[4，7]）。[14、15、19据我们所知，我们在同行评议文献中首次表明，这种组合可能会在实验数据分析中产生严重问题（例如表1）。我们还解释了潜在的原因（图1），并通过模拟证明了其效果（图1和图2）。2和3）。减少偏差的最明显的方法是使用更大的数据集Z. Zakeri等人医学信息学解锁21（2020）1004576=（图1d）;然而，在实践中，这往往是不可能的，因为数据可能很难或昂贵的获得。交叉验证中的另一种众所周知的方法是在划分期间使用分层。通过这种方式，每个分区的成员都被选择，尽可能地代表总体。然而，对于连续数据，分层并不明确（Witten等人，2016年）。我们实施了分层（在任意分组目标之后），但这并没有消除问题。为了进一步减轻偏倚，我们设计了一种改进的CV程序，该程序涉及成对选择分区的成员，以便每对的平均值尽可能接近群体平均值。例如，图1a中的点1和2可以形成这样的一对。这种配对CV程序减少了但没有消除问题，因此没有进一步研究。尽管如此，通过配对CV降低偏倚有助于进一步证实图11中给出的解释。1.一、我们的研究结果表明，交叉验证应避免时，通过线性回归进行预测。相反，我们建议在实现避免过拟合的替代方法（例如删除离群值）后，将回归应用于完整数据。图1为了理解这种偏差的起源，请注意，尽管预测值和目标值可能不相关（r00），但有限样本通常会包含它们之间的正相关或负相关（通常很小）。无论预测目标与预测目标的相关性是正还是负，它都会导致实际目标与预测目标之间的正相关性;因此，r将倾向于从零向上偏离对于多变量预测因子，也不能使用完整数据中实际目标和预测目标之间的相关性，因为该数量随着预测因子类型的增加而虚假地增加。在这种情况下，调整后的R是量化线性回归结果的首选指标（图3）。我们的研究结果表明，只要注意这些预防措施，线性回归仍然是发现数据模式的有效方法，也为更复杂的分析技术提供了性能基准。最后，请注意，虽然人工神经网络在准确性方面通常优于LR，但人们对人工神经网络等复杂预测算法缺乏透明度和倾向于充当不可理解的黑框的问题越来越关注。LR分配的权重可以公开和检查，但ANN的决策不容易被仔细检查，例如，隐含的偏见。在采用算法（例如参考文献[28]）时对问责制的需求日益增加，表明性能可能不是有用性的唯一标准，并且性能可能需要通过简单性和可解释性来补充[29]。竞合利益没有人申报。致谢作者要感谢Bethany Twigge在执行实验中提供的宝贵帮助。这项研究是由引用[1] Friedman N，Fekete T，Gal K，Shriki O.基于脑电的智力测验认知负荷预测。《前沿神经科学》2019;13：191。https://doi.org/10.3389/fnhum.2019.00191.[2] Zakeri，Z.，Mansfield，N.桑德兰角，和OmurtagA.腹腔镜手术中认知负荷的生理学相关性n.d.[3] Witten IH，Frank E，Hall MA，J.数据挖掘：实用的机器学习工具和技术。爱思唯尔公司2016. https://doi.org/10.1016/c2009-0-19715-5网站。[4] Kleinbaum DG，Kupper LL，Muller KE，Nizam A.应用回归分析和其他多变量方法。Belmont，CA：Du X bury Press，1988.[5] MarkJ，Goldberg MA. 多元回归分析和质量评估：问题回顾。AppraisJ1988;56：89.[6] Martinez WL，Martinez AR. C. MATLAB计算统计手册。Chapman and Hall/CRC;2015.[7] MyersJL，Well AD，Lorch Jr RF. 研究设计和统计分析。Chelsea;2013.[8] 龙冈MM，Lohnes PR。多元分析：教育和心理研究的技术。MacmillanPublishing Co，Inc;1988.[9] LiawA，Wiener M. RandomForest的分类和回归 2001年[10] 什么是支持向量机？Nat Biotechnol 2006;24：1565-7.https://doi.org/10.1038/nbt1206-1565网站。[11] 杜达RO，哈特PE，鹳DG。模式分类与场景分析，第3卷。NewYork：Wiley.[12] 放大图片作者：Lecun Y，Bengio Y，Hinton G.深度学习Nature 2015;521：436-44. 网址：//doi. org/10.1038/nature14539。[13] Russell S，Norvig P. Artificial Intelligence：A Modern Approach.国际版;2002年。[14] 阿比亚奈赫多元线性回归和人工神经网络在水质参数预测中的应用评价。JEnviron Heal Sci Eng 2014; 12：1-8. https://doi.org/10.1186/2052-336X-12-40网站。[15] 吴伟杰，李晓梅，李晓梅.利用多元线性回归与人工神经网络预测溴酸盐的形成。臭氧科学工程2007;29：353-62.https://doi.org/10.1080/01919510701549327网站。[16] Sousa SIV，Martins FG，Alvim-Ferraz MCM，Pereira MC.基于主成分的多元线性回归和人工神经网络预测臭氧浓度。环境模型软件2007;22：97-103.https://doi.org//j.envsoft.2005.12.002.[17] 张文龙，王文龙，王文龙.柴油机燃用生物柴油-乙醇混合燃料的线性回归与人工神经网络模型比较。2016. https://doi.org/10.1016/j.aej.2016.08.011网站。[18] 王军，王芳，刘勇，徐军，林华，贾斌，等。多元线性回归和人工神经网络预测超重患者血糖 E X p临床内分泌糖尿病2016;124：34-8。https://doi.org/10.1055/s-0035-1565175网站。[19] Jahandideh S，Jahandideh S，Asadabadi EB，Askarian M，Movahedi MM，Hosseini S，et al. The use of artificial neural networks and multiple linearregression to predict rate of medical waste generation.废物管理2009;29：2874-9。https://doi.org/10.1016/j.wasman.2009.06.027网站。[20] MataJ.用人工神经网络和多元线性回归模型解释混凝土坝行为。工程结构2011;33：903-10。网址：//doi. org/10.1016/j.engstruct.2010.12.011。[21] Matsumura K，Gaitan CF，Sugimoto K，Cannon AJ，Hsieh WW.吉林省玉米产量J Agric Sci 2015;153：399-410.https://doi.org/10.1017/S0021859614000392网站。[22] OüzdemirU，OüzbayB，VeliS，ZorS. 十二烷基苯钠的吸附模型用多元线性回归和人工神经网络方法研究了聚苯胺（PANI）与十二烷基苯磺酸钠（SDBS）之间的相互作用Chem EngJ 2011;178：183-90.https://doi.org/10.1016/j.cej.2011.10.046。[23] [10]杨文辉，杨文辉. 基于人工神经网络和多元线性回归的生物柴油十六烷值预测。能源转换管理2013;65：255-61. 网址：//doi.org/10.1016/j.enconman.2012.07.023。[24] Pino-MejíasR，P'erez-FargaloA，Rubio-BellidoC，Pulido-ArcasJA. 线性回归和人工神经网络模型预测供热和制冷能源需求、能耗和CO2排放的比较。能源2017; 118：24-36.https://doi.org/10.1016/j.energy.2016.12.022网站。[25] Shahid N，Rappon T，Berta W.人工神经网络在卫生保健组织决策中的应用：范围审查。PloS One 2019;14：e0212356.https://doi.org/10.1371/journal.pone.0212356网站。[26] Shaikhina T，Khovanova NA.在医疗应用中使用神经网络处理有限数据集：小数据方法。Artif Intell Med 2017;75：51英格兰高等教育资助委员会（HEFCE）https://doi.org/10.1016/j.artmed.2016.12.003。[27] Chatterjee S，Hadi AS. 回归分析举例。John Wiley&2015年，儿子。特伦特大学，科学技术学院。[28] 议会在利益和福利决策中取消使用算法|社会|卫报https://www.theguardian.com/society/2020/aug/24/councils-scrapping-algorithms-benefit-welfare-decisions-concerns-bias. [2020年10月7日]。[29] 施皮格尔哈尔特湾统计学的艺术：从数据中学习 Penguin UK; 2019.

下载后可阅读完整内容，剩余1页未读，立即下载