没有合适的资源?快使用搜索试试~ 我知道了~
地球科学中的人工智能预测方法:基于随机森林的响应变量空间预测
地球科学中的人工智能2(2021)115截尾响应变量空间预测的随机森林弗朗基·富埃吉奥Kaplan Business School Pty Ltd,Perth Campus,1325 Hay St,West Perth,WA,6005,AustraliaA R T I C L E I N F O保留字:删失观测值EX act观测值主成分分析二次规划空间预测A B S T R A C T在许多地球科学领域,当空间上详尽的预测变量在所研究的区域内可用时,连续响应变量的空间预测已经变得无处不在。由于测量仪器或所用采样协议的限制,响应变量因此,响应变量的观测值被删失(左删失、右删失或区间删失)。专门用于未删失响应变量的空间预测的机器学习方法不能显式地解释响应变量的删失观测。在这种情况下,它们通常通过特殊方法应用,例如忽略响应变量的删失观测值或用任意值替换它们因此,响应变量的空间预测可能是不准确的,并且对那些任意选择中涉及的假设和估计敏感本文介绍了一种基于随机森林的机器学习方法,用于空间预测删失响应变量,其中响应变量的删失观测值被显式地考虑。其基本思想是通过在仅包含响应变量的未删失观测值的数据子集上训练经典回归随机森林来构建回归树预测器然后,主成分分析应用到这个合奏允许翻译的响应变量的观察(未经审查和审查)到一个线性等式和不等式系统。这个线性等式和不等式系统通过随机二次规划来解决,这允许获得重建的回归树预测器的集合,这些预测器完全符合响应变量的观测值(未删失和删失)。响应变量的空间预测,然后通过平均后一个合奏。所提出的机器学习方法的有效性在模拟数据上进行了说明,其中地面实况是可用的,并在现实世界的数据上进行了展示,包括地球化学数据。结果表明,建议的机器学习技术允许更大的利用响应变量的删失观测比特设的方法。1. 介绍随着地学数据采集平台的不断发展,利用研究区域内随处可见的预测变量对连续响应变量进行空间预测已引起许多地学学科的兴趣。 机器学习方法越来越多地用于这一目的。事实上,可以帮助解释响应变量空间变化的预测变量的数量急剧增加,使得其他方法难以使用。 Kirkwood等人,2016 a,2022,Taghizadeh-Mehrjardiet al. (2016),Ballabio etal. (2016),Barzegar et al. (2016),Khan et al. (2016),Wilford 等 人 ( 2016 ) , Hengl 等 人 ( 2015 ) , Appelhans 等 人(2016),(2015),Li(2013),Li等人(2011)证明了机器学习方法的相关性(例如,随机森林、支持向量机和神经网络)用于地球科学应用中的空间预测(例如,地球化学制图、土壤制图、水文制图,以及地图绘制)。 Talebi等人(2021),Sekul i'cetal. (2020),Hengl etal. (2018)开发了用于空间预测的机器学习方法,其中考虑了空间相关性。 后者在地球科学数据领域发挥着至关重要的作用。Fouedjio(2020)介绍了一种用于空间预测的机器学习技术,其中响应变量完全以数据为条件。在许多地球科学应用中,响应变量的观测值通常低于或高于仪器的检测限(DL)。这些观测值称为删失观测值(左删失、右删失或区间删失)。截尾是指测量或观察值仅部分已知的情况。左删失表示观测值低于某个值,但不知道低于多少。右删失意味着一个观察值高于某个值,但不知道超过多少。区间删失表示观测值位于两个值之间的某个区间上删失数据在处理时是一个众所周知的问题,因为电子邮件地址:francky. kbs.edu.au。https://doi.org/10.1016/j.aiig.2022.02.001接收日期:2021年12月31日;接收日期:2022年2月13日;接受日期:2022年2022年2月23日在线提供2666-5441/©2022作者。出版社:Elsevier B.V.代表科爱通信有限公司公司这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表地球科学中的人工智能杂志主页:www.keaipublishing.com/en/journals/artificial-intelligence-in-geosciencesF. 富埃吉奥地球科学中的人工智能2(2021)11511622ð≥ Þ22F2克ð Þ2¼例如,使用地球化学数据(Sanford等人,1993年)。许多地球化学元素的分析结果低于(或高于)检测限(DL)。也就是说,某些样品的浓度报告为 当分析方法的灵敏度不足以检测少量元素或当技术非常灵敏以至于大浓度压倒检测系统时,通常会删失结果。删失观测给用于空间预测的经典机器学习方法带来了困难,因为后者需要完整的未删失观测集。处理这一问题的方法相对而言是临时性的。删除和替换方法是在使用传统的机器学习技术进行空间预测时处理响应变量的删失观测值的特别方法。在删除过程中,将丢弃响应变量的删失观测值,仅使用未删失观测值。替代方法将响应变量的删失观测值替换为任意值。通常,删失观测值被设置为等于某个常数值。该常数值是检测极限的某种函数(例如,DL,DL/2,2DL),并取决于删失类型(左删失,右删失,区间删失)。因此,在替换法下,删失观测被视为未删失观测。传统的空间预测机器学习技术通常通过这些特别策略应用于删失响应变量。因此,响应变量的空间预测可能是不精确的,并且对这些主观选择中涉及的假设和估计。特别是,响应变量的空间预测可能与删失观测值不一致,因为响应变量在删失采样位置的预测值不符合删失观测值。换句话说,响应变量在删失抽样位置的预测值可能在约束区间之外。虽然特设方法易于实施,但它们很难准确预测低于(或高于)检测限(DL)的值到目前为止,还没有替代特设技术的方法。当空间详尽的预测变量在研究区域内可用时,目前存在仅在单变量背景下专用于删失响应变量的空间预测方法,其中在研究区域内没有预测(辅助这些方法尤其基于具有不等式约束的克里金法、数据增强方法和马尔可夫链蒙特卡罗(MCMC)算法(Ord on~ ezetal., 2018;Schelin和Luna,2014; Toscas,2010; Fridley和Di X on,2007; Rathbun,2006;Abrahamsen和Benth,2001; De Oliveira,2005; Militino和Ugarte,1999; Kostov和Dubrule,1986; Dubrule和Kostov,1986)。本文提出了一种基于机器学习的方法,用于空间预测的删失响应变量,其中响应变量的删失观测(左删失,右删失,区间删失)显式考虑,也就是说,因为他们是。在所提出的机器学习方法下,进行响应变量的空间预测,使得响应变量的预测值精确地遵守响应变量在采样位置处的观测值(未删失和删失)。所提出的机器学习方法自然地解释了响应变量的删失观测(不等式数据)。所提出的机器学习方法开始于构建一个通过在仅包含响应变量的未删失(精确)观测值的数据子集上训练经典回归随机森林来接下来,进行主成分分析,以根据主成分系数和因子创建回归树预测器集合的正交分解。然后,将响应变量的观测值(未删失和删失)转换为线性等式和不等式系统,其中主成分系数作为未知变量。然后求解线性等式和不等式系统通过随机二次规划,允许对新的主成分系数进行采样,然后重建回归树预测器,这些预测器完全符合采样位置的响应变量的观测值(未删失和删失)。然后通过对重建的回归树预测器集合求平均来获得响应变量的空间预测。结果响应变量的空间预测有效地遵循响应变量在采样位置的观测值(未删失和删失)作为副产品,提供响应变量的预测不确定性。所提出的机器学习方法的空间预测的删失响应变量的说明和比较模拟和真实世界的数据的特设方法。文章的其余部分组织如下。节中2,描述了应用所提出的机器学习技术所需的不同第3节展示了所提出的机器学习方法在模拟和真实世界数据上的有效性。与特设方法的比较被认为是。最后,在Sect。 四是总结性意见。2. 方法令{Z(x):xG}表示定义在Rpp1的固定连续地理域G子集上的连续响应变量除了响应变量之外,还有一组q预测变量{f1(x),G. 我们考虑的情况下,数据收集机制是这样的,响应变量Z是不完全量化的,由于测量设备或使用的采样协议的限制。对于任何采样位置,响应变量Z可以被完全测量或可以不被完全测量,其中在后一种情况下,响应变量仅知道一组值。因此,响应变量的观测数据由在某些采样位置测量的“精确观测”(硬数据)和作为删失结果在其他采样位置测量的“区间观测”(不等式数据)组成响应变量的观测数据表示为{Z(xi)2Ai,i1/4 1,…, 以下两种情况是常见的用途:Ai被简化为a单值z i(精确或未删失观测)或A i是已知Z(x i)所属的区间(区间或删失观测)。对于响应变量,可以考虑三种类型的不等式约束,其涵盖了实践中遇到的许多删失机制。当Ai是区间时,它将等于(-∞,ui],[li,对于左删失、右删失和区间删失,分别为[li,ui];li2R;乌伊河Ai可以随位置而变化(多重删失)。目标是使用响应变量的观测值(未删失和删失)和预测变量数据,在表示为N个位置的网格的地理域G上预测响应变量{ Z(x):x G }。此外,响应变量的预测值必须遵循响应变量在采样位置s的观测值(未删失和删失),即,Z^xiAi;i1;.; n. 本节描述了实现所提出的用于空间预测的机器学习方法所需的基本实现在R平台上进行(R核心团队,2021)。2.1. 回归随机森林在存在空间穷举预测变量的情况下,所提出的用于空间预测删失响应变量的机器学习方法的起点是回归随机森林(Breiman,2001)。回归随机森林是一种集成机器学习方法,该方法使用可用预测变量的不同子集在训练数据集的各个子集(bootstrap样本)上构建大量回归树模型,然后进行聚类。在随机森林下,每个建立的回归树模型是F. 富埃吉奥地球科学中的人工智能2(2021)115117fgf ggð Þ2¼--~我 爱你不2 g¼l¼1...LLθ2RLi¼1;no唯一的(与其他人的相关性较低),由于自举的训练数据和随机选择预测变量的子集Z轴X轴X 轴Lθx;8x2G;(2)将多元回归树模型编织在一起,减少了预测方差,提高了预测精度。回归随机森林的预测是通过对所有回归树的预测求平均来获得的随机森林在空间预测中的流行依赖于其有效处理许多预测变量的能力,处理复杂的非线性关系和相互作用,需要较少的数据预处理,并且是非参数方法(无模型)。 回归随机森林有一些调优参数,可以通过交叉验证过程进行优化。其中,有树的数量,在每个节点随机选择的预测变量的数量,每个回归树中样本的观察比例,以及最小数量。回归树的终端节点中的观测值通常主张其中θll1;在Eq中给出的参数(一). 考虑了所有PC因素,因此没有截断。我们要给每个系数fθlgl1/4;...; L在f Z = x x x 2 G g处完全遵循响应变量的观测值(未经审查,截尾),即,ZxiAi;i1;为了实现这一点,响应变量在采样位置的观测值(未删失和删失)被转换为一组等式和不等式约束,使用方程。(二)、因此,下面的等式和不等式系统8θ11x1θ22x1θLLx1 2A1为了将树的数目设置为较大的数目,允许预测误差收敛到稳定的最小值(Hengl等人,2018年)。的R...:θ1<$1<$xn<$$> θ2<$2<$xn<$$><$$><$L<$L <$xn<$2An(三)软件包ranger(Wright和Ziegler,2017)和tuneRanger(Probst等人,2018)实现回归随机森林。所提出的用于空间预测的机器学习方法首先在仅包含响应变量的未删失(精确)观测值的数据子集上训练经典回归随机森林。结果是回归树预测器的集合fZ~b<$x<$:x2Ggb<$^1;...; B,其中B是树上回归i的个数. 在这个其中fθlgl<$1;Ai(i<$1,因此,等式和不等式系统定义在方程。(3)由响应变量的观测值(未删失和删失)引起。 通过这种方式,响应变量的删失观测值自然被纳入帐户. 条件PC系数θ<$θ;阶段,响应变量的删失(区间)观测值尚未<1L考虑了此外,个体回归树预测因子并不完全尊重响应变量在未删失采样位置的观察值。因此,fZ~bx:x2Ggb1;...;B将被称为“无条件回归树预测器”。接下来的步骤旨在生成条件回归树预测器,完全尊重响应变量的响应变量的观测值(未删失的和删失的)通过求解以下随机二次优化问题(Fouedjio等人,2021 a; Fouedjio,2021):min.θ-β受fθ2Aig;在截尾和未截尾抽样位置的观察。2.2. 主成分分析所提出的机器学习方法的第二步包括对非线性系统的集合执行主成分分析(PCA)树预测函数fZ~b的条件回归i=x ~2Ggb ~1B安排为A¼其中βNμ;多元正态分布的平均值μ和协方差矩阵x使用无条件PC系数fαb;lgl<$1;...; L计算,该系数来自无条件回归树预测因子的PCA,(一).特别是,μ¼“1XBα#;β1 XBα-μ...矩阵XΓ(B×N),每行表示一棵回归树Bb¼1b;ll¼1;B-1b¼1B b预测器Z~bx:xG. 我们可以得到如下的分解有限尺寸:(5)(a)(b)(对于每个蒙特卡罗样本βt~Nμ;t1;Z~ 100×1 0 0 ×100(1)A、B、C、D、E编程(Goldfarb和Idnani,1983年)进行,以找到解决方案B其中fαl¼1Gb;lL是主成分(PC)得分(系数),满足复合约束(等式和不等式)并最小化等式中定义的二次目标函数的θt(4)、的b;ll¼1;flx:x2Ggl1;tions); Lmin(B,N)。当量(1)可以解释为一组图像的分解Z~bx:x2Gb1B分解为一组特征图像flx:x2Ggl<$1;...; L和系数f α b ; l g l <$1;...; L。PC因子被认为是固定的,而PC系数被认为是随机的。可以看出,PCA是一种...在这里被表示为正交分解方法而不是降维技术。保留所有PC因子,如方程式所示(一). PCA的双射属性允许从PC系数重建回归树预测器。换句话说,一旦使用了所有PC因子和系数,就可以重建图像2.3. 随机二次规划所提出的机器学习方法的第三步包括在由等式描述的PCA分解下生成新的主成分(PC)系数(1)使得回归树预测器精确地遵守响应变量在采样位置处的观测(未删失和未删失)。让方程中的协方差矩阵(4)是一个对角矩阵,因为PC系数与结构无关。 条件PC系数θt也可以通过Gibbs采样方法生成(Fouedjio等人,2021年b)。然而,这种方法对于非常大的数据集可能是耗时的,因为吉布斯采样器生成高度相关的样本。正如我们在Eq中所看到的。(3)响应变量的观测值无条件回归树预测器B的数量应该足够大,以便在求解方程中定义(三)、实际上,不相关回归树预测因子的数量越大,方程中定义的线性等式和不等式系统的解空间就越宽(三)、此外,相对于太少的无条件回归树预测器,太多的复合约束(硬和不等式数据)将导致低不确定性。 值得一提的是,在随机二次规划下,条件回归树预测子T的数目不依赖于无条件回归树预测子B的数目。也就是说,T可以小于或大于B。F. 富埃吉奥地球科学中的人工智能2(2021)1151182 g22×不l¼1t;lL不t1/2不给定条件PC系数fθtgt <$1;表1模拟数据示例-模拟参数。均值协方差函数类型比例门槛Z轴X轴X 轴Lθx;8x2G:(6)f1(λ)10高斯11.5 1f2()10EXponential6.51响应变量在地理域G上的预测是通过对来自所有单独的重构回归树预测器的预测进行平均来获得的:f3(正)10基本正弦1.5 1f4()10立方20 1η(λ)0球形30 100Z^XX X1XTZx;8x2G:(7)在Eq中强调这一点很重要(7),所有个体重建回归树预测因子fZ ttttxmax:x 2 Ggt<$1;...; T完全符合响应变量在采样位置的观测值(未删失和删失)。因此,Z^x:xG也是。除了提供预测之外,所提出的机器学习方法自然地提供了与预测相关的不确定性的量化作为副产品。预测不确定性表示目标位置预测的不确定性,反映无法准确定义未知值。评估目标位置响应变量值的不确定性以及将此评估纳入后续研究或支持决策的必要性变得越来越重要(Fouedjio和Klump,2019; Szat m'ariand dP'asztor,2019;Veronesi和Schillaci,2019)。在所提出的机器学习方法下,在任何目标位置产生条件回归树预测器的集合因此,任何目标位置处的响应变量的条件分布都是可用的。因此,预测使用,例如,可以评估期望值、众数或中值,并且可以获得使用集合条件回归树预测器的四分位距或方差的总而言之,所提出的用于在存在空间穷举预测变量的情况下对删失响应变量进行空间预测的机器学习方法使用以下伪算法来执行算法1.删失响应变量3. 应用实例所提出的机器学习方法的能力,空间预测的删失响应变量说明使用模拟和真实世界的数据。 使用一些众所周知的预测精度统计来评估预测性能 : 平 均 绝 对 误 差 ( MAE ) , 均 方 根 误 差 ( RMSE ) 和 Lin'sconcordance correlation coefficient(CCC)。MAE和RMSE越低,预测方法越好。CCC越接近1,预测技术越好与两个ad hoc方法的预测性能进行了比较3.1. 模拟数据示例响应变量和预测变量的数据生成过程由以下模型给出:Z=50sinusf1x3f1xf2x0:5f3x210sinusf4xxn;8x2½0;100];(八)其中,Z(Z)是响应变量。预测变量f1(f)、f2(f)、f3(f)和f4(f)以及潜变量η(f)是独立的高斯各向同性平稳随机函数(Chiles和Delfiner,2012),均值和协方差函数见表1。预测变量、潜在变量和响应变量在地理域[0,100]中的250250规则网格上进行模拟。有关高斯随机函数的背景,请参见Chiles and Delfiner(2012)。的F. 富埃吉奥地球科学中的人工智能2(2021)115119¼≥þ使用R包RGostats(Renard等人, 2020年)。 该模拟数据示例(其基础事实在研究域内的任何地方都可用)指的是响应变量和预测变量之间存在非线性关系且预测变量之间存在一些相互作用的情况。同时,响应变量也表现出一定的空间自相关性,其分布是非高斯的。图1显示了250X 250规则网格上的模拟数据(62500个观测值)。随机抽取n 300个观测值,并将其作为训练数据(图1)。 (1)如下。响应变量的观测值分为三组:(-∞,λ]、[γ,∞∞)和[λ,γ],其中λ<$220.86和γ<$442.40分别为第1和第99个- 是的从组(-∞,λ]并作为左删失观测值(Z≤λ)。从[γ,∞)组中随机抽取45个观测值,作为右删失观测值(Zγ)。210个观测值是从组[λ,γ],并视为未删失观察。因此,删失数据(左删失和右删失)在训练数据中的比例为30%其余数据(62200个观察结果)保留用于测试。特别方法1丢弃响应变量的删失观测值,仅考虑未删失观测值。特别方法2用界限(λ和γ)替换响应变量的删失观测值在特别方法1和2中,经典回归随机森林是用等于5000的树的数目来执行的 其他超参数通过交叉验证进行了优化。下Fig. 1. 模拟数据示例-(a)、(b)、(c)、(d)预测变量,(e)响应变量,以及(f)采样位置。(f)中的黑点、红点和绿点分别表示未删失、左删失和右删失的采样位置。F. 富埃吉奥地球科学中的人工智能2(2021)115120图二. 模拟数据示例-B<$5000无条件前四个PC评分和T<$1000有条件前四个PC评分。图3. 模拟数据示例-由(a)特设方法1、(b)特设方法2和(c)提出的方法提供的预测图。F. 富埃吉奥地球科学中的人工智能2(2021)115121......¼所提出的机器学习方法,仅使用响应变量的未删失观测值构建的回归随机森林模型由B1/45000个无条件回归树预测因子fZ~bx:x2½0;100]2gb1的集合组成五百根据第2节中描述的方法,对该集合进行PCA,然后随机二次规划生成T1/41000个新的PC分数,从而给出T1/41000个重建的(新的)回归树预测器1000个完全符合响应变量的观测值(未删失和删失),取样地点。 响应变量的空间预测,定义为重建(新)回归树预测因子的平均值,也遵循响应变量的观测值(未删失和删失)。必须强调的是,B5000无条件回归树预测因子与特别方法1中生成的预测因子相同。非条件PC评分fαbgb<$1;fθtgt<$1;...;1000如图所示。 二、条件PC评分的点云比无条件PC评分的点云更不分散,这有效地归因于对响应变量的观察值(未删失和删失)的精确条件化图图3呈现了由特设方法1和2以及所提出的方法提供的预测图。从特别方法1得到的预测图与其他两种方法不同,因为前者仅使用响应变量的未删失观测值。由特设方法2和所提出的方法产生的预测图的一般外观看起来类似。然而,由于所提出的方法的精确条件特性,在删失观测占主导地位的区域中存在一些局部差异。特设方法1和2以及所提出的方法的预测不确定性(四分位距)图见图1。 四、由所提出的方法产生的预测不确定性图与其他方法有很大不同这是解释所提出的方法的确切条件性质。在所提出的机器学习方法下,响应变量的空间预测完全符合响应变量在采样位置的观测值(未删失和删失)。因此,预测的不确定性是零,在未经审查的采样位置(精确的观察)的建设,这是不是特设方法的情况由于特别方法可以提供在截尾采样位置处的约束区间之外的响应变量的预测值,因此它们倾向于高估预测不确定性。图图5显示了在特别方法1和2以及提议方法下,响应变量的观测值与测试数据中的预测值。人们可以注意到,特设方法很难预测以下值(分别为上,下,上,下。上限)检测极限,这不是所提出的机器学习方法的情况图图6提供了特定方法1和2以及所提出的方法在训练位置(左删失)处的响应变量的预测集合的直方图。人们观察到,在特设方法1和2下,许多预测值大于检测下限(220.86)相比之下,所有预测值均小于所提出方法的检测下限 图图7描绘了针对特设方法1和2以及所提出的方法的在训练位置(右删失)处的响应变量的预测集合的直方图。类似地,特设方法1和2提供小于检测上限(442.40)的预测,而所提出的方法提供大于检测上限的预测。因此,所提出的机器学习方法与响应变量的删失观测值比ad hoc方法更一致。 图如图6和7所示,可以看出,所提出的方法提供了比特设方法更可靠的置信区间(预测不确定性)。表2显示了特别方法1和2以及所提出的方法对测试数据(62200个观察结果)的预测性能对不同比例的删失数据(30%、40%、50%、60%和70%)重复相同的实验可以看出,拟议图四、 模拟数据示例-由(a)特别方法1、(b)特别方法2和(c)建议方法提供的预测不确定性图。F. 富埃吉奥地球科学中的人工智能2(2021)115122~~图五. 模拟数据示例-测试数据集中响应变量的观察值与响应变量的预测值,用于(a)特定方法1,(b)特定方法2和(c)拟定方法。见图6。模拟数据示例-由(a)ad hoc方法1、(b)ad hoc方法2和(c)建议方法提供的训练位置(左删失,Z≤红线表示响应变量的真值。方法提供了更好的预测性能比特设的方法。特别是,特别方法1是最差的,因为它只使用可用数据的一小部分。表3显示了特设方法1和2以及拟定方法对低于检测下限的响应值(625个观察值)和高于检测上限的响应值(625个观察值)的检测数据的预测性能人们可以注意到,所提出的方法和特设方法之间的预测性能非常大。因此,所提出的方法更好地处理响应变量的截尾观测比特设的方法。3.2. 地球化学数据实例在该应用示例中,响应变量是在英格兰西南部的研究区域的568个采样位置处观察到的钪(Sc)地球化学浓度(Kirkwood等人,2016年b)。响应变量的检测下限为3 mg/kg(左删失)。响应变量的删失观测值占总观测值的6%。将观察值划分为训练集75%,测试集25%。由于我们对删失观测值的附加值更感兴趣,因此测试集由以下组成:F. 富埃吉奥地球科学中的人工智能2(2021)115123¼¼¼见图7。模拟数据示例-由(a)ad hoc方法1,(b)ad hoc方法2和(c)建议方法提供的训练位置(右删失,Z≥红线表示响应变量的真值。表2模拟数据示例-包含62200个观测值的测试数据集中的预测性能统计,根据特设方法1和2以及所提出的方法。删失数据百分之三十百分之四十百分之五十百分之六十百分之七十MAE 113.1514.1514.2914.4515.03MAE 211.2712.1311.9712.6713.58Mae10.3211.1111.3611.6111.32RMSE117.5518.7818.9319.1819.81RMSE214.8416.0715.9516.8317.54RMSE13.3314.4214.7214.9414.42CCC 10.9240.9110.9090.9080.901CCC 20.9520.9440.9450.9440.939CCC0.9630.9570.9560.9570.960表3模拟数据示例-在特设方法1和2以及拟定方法下,测试数据集中的预测性能统计量,删失数据机器学习方法生成B 5000无条件回归树预测器的集合,随后是T 1000有条件回归树预测器的集合。无条件和有条件PC评分如图所示。 10. 如模拟数据示例中所述,包含条件PC评分的包络的大小小于包含无条件PC评分的包络,因为观察值的条件是精确的(未删失和删失)。 需要强调的是,B5000无条件回归树预测值与从特定方法1生成的预测值相同。由特设方法1和2以及所提出的方法提供的预测图在图中描绘。 十一岁特别方法1产生的预测图与其他两种方法不同,特别是在删失观测占主导地位的区域。由特设方法2和所提出的方法生成的预测图的一般外观然而,人们注意到,由于所提出的方法的精确条件性质,在删失观测占主导地位的区域中存在一些局部差异。图12显示了特设方法1和2以及提议方法下的预测不确定性(四分位距)图由所提出的方法产生的预测不确定性图与其他方法显著不同正如模拟数据示例中所强调的,这可以通过所提出的方法的在提出的机器学习百分之三十百分之四十百分之五十百分之六十百分之七十方法,响应变量的空间预测完全遵循MAE 145.7246.4647.2449.9849.55抽样时响应变量的观察值(未删失和删失)MAE 219.4618.7017.8017.2416.51地点相比之下,临时方法可以提供响应变量的Mae8.678.669.559.188.68在删失sam时超出约束区间的预测值-RMSE 1RMSE 247.8722.9748.5422.5249.1521.8651.5421.8951.1421.22地点。因此,他们倾向于高估预测RMSE12.4112.4913.0112.7212.03不确定性CCC 10.8930.8990.8860.8720.874图图13描绘了响应的预测集合的直方图CCC 2CCC0.9800.9950.9810.9950.9820.9940.9820.9950.9830.995在特定方法1和2的训练位置变量(左删失)以及所提出的方法。人们可以注意到,许多预测是未删失观测在地理上接近删失观测,如图所示。早上8 图 8 b提供了响应变量的未删失观测值的空间图。 图 8 c和8 d分别显示响应变量的未删失观测的直方图和变异函数。预报变量包括高程、重力、地磁、Landsat、辐射及其导数,共计26个预报变量。一些预测变量显示在图中。第九章在此应用示例中,特设方法1忽略响应变量的删失观测值,仅考虑未删失观测值。 特别方法2将响应变量的删失观测值替换为检测下限的一半,因为这对于地球化学数据很常见。 在特别方法1和2中,经典回归随机森林被执行,树的数量被设置为5000。其他超参数已通过交叉验证进行了优化。拟议大于特设方法1和2的检测下限(3 mg/kg)相比之下,所有的预测都小于所提出的方法下的检测下限 图图14显示了特定方法1和2以及所提出的方法在一个测试位置(未删失)处的响应变量的预测集合的直方图。可以看出,所提出的方法提供了比特设方法更可靠的置信区间(预测不确定性)表4显示了特定方法1和2以及拟定方法对测试数据的预测性能所提出的机器学习方法显示出比其他方法更好的预测性能因此,所提出的方法可以准确地尊重响应变量的观测值(未删失和删失)在采样位置,同时实现良好的样本外预测性能。即使在一小部分删失数据的情况下,所提出的方法和特设方法之间的差异也是巨大的。F. 富埃吉奥地球科学中的人工智能2(2021)115124图八、地 球化学数据示例:(a)未删失与删失采样位置,(b)响应变量的未删失观测值的空间图,(c)响应变量的未删失观测值的直方图,(d)响应变量的未删失观测值的变差函数。图第九章地 球 化学数据实例-一些预测变量:(a)海拔,(b)陆地卫星8号波段5,(c)重力测量高通滤波布格异常,(d)伽马射线光谱测定法的钍计数。4. 总结发言本文提出了一种基于随机森林的机器学习方法,用于对删失响应变量进行空间预测,其中响应变量的删失观测值被显式地计入。在所提出的机器学习方法下,响应变量的空间预测精确地尊重响应变量在采样位置处的观测(未删失和删失)这是通过结合传统的回归随机森林,主成分分析和随机二次规划。所提出的机器学习方法的有效性已被显示在模拟和真实世界的数据上。该方法允许更好地使用截尾数据比特设方法。所提出的机器学习方法具有与特设方法相比自然地结合响应变量的删失观测的优点(例如,删除和替换方法)。不存在替代、插补或丢弃删失观测值的情况,如采用特别方法。它可以完美地尊重F. 富埃吉奥地球科学中的人工智能2(2021)115125见图10。 地球化学数据示例-无条件和有条件的前四个PC分数。图十一岁地球化学数据示例-由(a)特别方法1、(b)特别方法2和(c)建议方法提供的预测图。变量的观察(未经审查和审查)在采样位置,同时实现良好的样本预测性能相比,特设的方法。它还提供了现实的预测不确定性的响应变量相比,特设技术。 它具有允许响应变量预测图的快速更新的优点,添加了一些观察结果(未删失的和删失的) 只有所提出的方法的最后一部分,即,随机二次规划,应该执行。所提出的机器学习方法很容易实现,因为它结合了众所周知的现有机器学习,蒙特卡罗采样和优化技术。它可以处理任何F. 富埃吉奥地球科学中的人工智能2(2021)115126图12个。地 球 化学数据示例-由(a)特别方法1、(b)特别方法2和(c)建议方法提供的预测不确定性图。图13岁地 球 化学数据示例-由(a)特设方法1、(b)特设方法2和(c)建议方法提供的训练位置(左删失)处响应变量的预测集合直方图。响应变量的检测下限等于3。图14个。地 球 化学数据示例-由(a)特别方法1提供的测试位置(未删失)响应变量的预测集合直方图,(b)特别方法2,以及(c)建议方法。红线表示响应变量删失类型(右删失、左删失和区间删失观测),并允许多次删失。所提出的机器学习方法是从回归随机森林中构建的无条件回归树预测器的数量当对响应变量的观测值(未删失和删失)执行无条件回归树预测器的集合的精确条件化时,应足够大,以良好地事实上,响应变量的观察结果F. 富埃吉奥地球科学中的人工智能2(2021)115127表4地球化学数据示例-包含147个观测值的测试数据集中的预测性能统计。标准特别方法1特别方法2该方法Mae3.132.892.54RMSE3.913.973.49CCC0.650.730.78(未删失和删失)定义等式和不等式约束的数量。无条件回归树预测因子的数量越大,解空间越宽。因此,相对于几个无条件回归树预测器的太多约束将导致太小的不确定性。 生成大量的无条件回归树预测器不是问题,因为这个参数是自由的。利益冲突不存在利益冲突申报利益作者声明,他们没有已知的竞争性经济利益或个人关系,可能会影响本文报告的工作。致谢作者感谢匿名审稿人和编辑的有益和建设性的意见,帮助改进了手稿。引用Abrahamsen,P.,Benth,F.E.,2001. Kriging不等式约束Math.Geol.33,719- 744.Appelhans,T.,Mwangomo,E.,Hardy,D.R.,Hemp,A.,Nauss,T.,2015.评估机器学习方法用于Mt月气温插值。乞力马扎罗山,坦桑尼亚。Spatial Statistics 14,91- 113.巴拉比奥角,Panagos,P.,Monatanarella湖,2016.利用LUCAS数据库绘制欧洲尺度的表土物理特性图。 Geoderma 261,110- 123.巴泽加尔河Asghari Moghal,A.,Adamowski,J.,Fijani,E.,2016. 预测地下水中氟化物污染的机器学习模型比较。史托奇Environ.资源风险评估 1- 14号。布莱曼湖,2001年随机森林马赫学习. 45,5- 32。Chiles,J.P.,Del finer,P.,2012.地理统计学:空间不确定性建模。John Wiley&个儿子De Oliveira,V.,2005.基于删失数据的高斯随机场的贝叶斯推断和预测。J. Comput. 图表统计14,95- 115。Dubrule,O.,Kostov,C.,1986.一种考虑不等式约束的插值方法:I. 方法论数学Geol. 18,33- 51.Fouedjio,F.,2020年。回归随机森林空间预测的EX作用条件第情报员吉奥西。1,11- 23。Fouedjio,F.,2021.分类随机森林与分类变量的空间预测的精确条件。第情报员吉奥西。2,82- 93.Fouedjio,F.,Klump,J.,2019.地统计学和机器学习方法中空间数据预测不确定性的探索。Environ. 地球科学。78,38。Fou edjio,F.,Scheidt,C., 杨湖, Achtziger-Zupa nci c,P.,Caers,J.,2021年a.三维地质域边界不确定性量化的地质统计隐式建模框架:应用于斑岩铜矿的岩性域。Comput.吉奥西。157,104931。Fouedjio,F.,Scheidt,C.,杨湖,王玉,Caers,J.,2021b的最后一页。使用截尾多元正态分布的Gibbs抽样对线性不等式约束下的分类空间变量进行条件模拟。史托奇Environ.资源风险评估35,457- 480。Fridley,B.L.,DIXon,P.,2007.包含删失观测的贝叶斯空间模型的数据扩充。环境指标:关闭。J. Int. Environ. Soc. 18,107- 123。Goldfarb,D.,Idnani,A.,1983.解严格凸二次规划的数值稳定对偶方法。数学程序. 27,1-33。Hengl,T.,Heuvelink,G.B.M.,Kempen,B.,李纳斯JGBWalsh,M.G.,Shepherd,K.D.,Sila,A.,麦克米伦,R.A.,Mendes de Jesus,J.,塔梅内湖Tondoh,J.E.,2015年。以250米分辨率绘制非洲土壤特性:随机森林显著改善了当前的预测。 PLoS One 10,1-26。Hengl ,T.,Nussbaum,M.,Wright,M.,Heuvelink ,G., Gr€aler,B. ,2018年。Random提出了一个空间和时空变量预测建模的通用框架。PeerJ 6,e5518。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功