没有合适的资源?快使用搜索试试~ 我知道了~
地球科学中的人工智能2(2021)82分类变量空间预测的具有精确条件的分类弗朗基·富埃吉奥AngloGold Ashanti Australia Ltd.,成长与探索,140街。Georges Terrace,珀斯,澳大利亚,A R T I C L E I N F O关键词:分类变量分类行为条件反射主成分分析二次规划A B S T R A C T机器学习方法越来越多地用于在空间上预测分类目标变量时,空间上详尽的预测变量在研究区域内可用尽管这些方法表现出有竞争力的空间预测性能,但它们并不完全尊重分类目标变量在采样位置的观测值。另一方面,竞争对手的地统计方法在本质上完全在许多地球科学应用中,通常希望在采样位置处完全匹配分类目标变量的观测值,特别是当分类目标变量的测量值可以合理地被认为是无误差时。本文讨论了机器学习方法在分类变量空间预测中的精确条件问题它引入了一种基于分类随机森林的方法,其中分类目标变量完全取决于数据,因此具有与竞争对手地理统计方法一样的精确条件属性。所提出的方法扩展了以前的工作,致力于连续的目标变量,通过使用隐式表示的分类目标变量。其基本思想包括将传统分类随机森林产生的分类树预测器的集合(分类的)转换为与分类目标变量的每个类别相关联的有符号距离的集合(连续的)然后,通过主成分分析创建了一个正交表示的有符号的距离的合奏,从而允许重新制定的确切的空调问题作为一个系统的线性不等式的主成分分数。然后,通过随机二次规划对新的主成分得分进行采样,以确保数据的精确条件得到的条件有符号距离被转换为分类输出的集合,其完美地尊重分类目标变量在采样位置处的观察值然后,使用多数投票来聚集分类输出的集合所提出的方法的有效性示出了一个模拟数据集的地面真相是可用的,并展示在现实世界的数据集,包括地球化学数据。与地统计学和传统机器学习方法的比较表明,所提出的技术可以完美地匹配分类目标变量在采样位置的观测值,同时保持竞争力的样本外预测性能。1. 介绍当辅助空间信息在所研究区域内的任何地方都可用时,分类目标变量的空间预测在地球科学中变得普遍存在 典型的例子包括预测土地利用类别、土地覆盖类别、排水类别、植被种类、滑坡类型、岩石类型、土壤类型、岩相、水文相和地质单元。分类变量的制图在各种地学应用中起着至关重要的作用。它被用来帮助许多领域的风险意识决策,如环境研究和自然资源管理。当空间详尽的预测变量在研究区域内可用时,已经提出了用于空间预测分类目标变量的各种方法。 这些方法包括地质统计学方法(Goovaerts,2001; Hengl等人, 2004年,Hengl等人,2007)、基于广义线性混合模型的方法(Cao等人, 2011,Cao等人, 2014)和分类机器学习技术(Kanevski,2008; Kanevski et al., 2009; Hengl等人, 2018; Maxwell等人, 2018年; Du等人, 2020; Giaccone等人,2021年)。在辅助空间信息无处不在的情况下空间预测分类变量的电子邮件地址:ffouedjio@anglogoldashanti.com,francky. gmail.com。https://doi.org/10.1016/j.aiig.2021.11.003接收日期:2021年8月13日;接收日期:2021年10月25日;接受日期:2021年11月30日2021年12月11日在线提供2666-5441/©2021作者。出版社:Elsevier B.V.代表科爱通信有限公司公司这是CC BY-NC-ND下的开放获取文章许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表地球科学中的人工智能杂志主页:www.keaipublishing.com/en/journals/artificial-intelligence-in-geosciencesF. 富埃吉奥地球科学中的人工智能2(2021)8283Fig. 1. 符号距离变换方法-(a)具有两个类别的类别空间变量;(b)与类别0相关的符号距离函数;(c)与类别1相关的符号距离函数。表1模拟数据示例-模拟参数。是说协方差函数类型规模窗台X1()10高斯121X2(X)10EX ponential71X3()10基本正弦11X4()10立方201(0球形10500在研究区域内的主要方法包括带外部漂移的指标克里格法(IKED)、指标回归克里格法(RKI)和成员回归克里格法(RKfM)。带外部漂移的指示克立格法(IKED)假设辅助变量与分类目标变量的类出现率线性相关(Goovaerts,2001)。辅助变量作为确定性线性函数被纳入指示克里格系统。 它的实现是具有挑战性的,因为它往往是有问题的,同时估计外部漂移的参数和随机分量的协方差函数。指标回归克里格法(RKI)将分类目标变量对预测变量的多项逻辑回归与回归残差的克里格法相结合(Hengl等人, 2004年,Hengl等人, 2007年)的报告。因此,回归建模补充了回归残差的变异函数建模,然后将其内插并加回回归估计。RKI已经通过用连续隶属度值替换清晰指示值而适应于隶属度的回归克里金法(RKfM)(Hengl等人,2007年)的报告。事实上,在RKI方法下,残差的插值可能导致物理范围之外的值(<0或> 1)。虽然易于实现,这些基于指示克里金法的方法具有一些众所周知的短-- 是的目标变量类别的预测概率不保证属于[0,1]区间,并且总和为1。因此,需要预测概率的后处理方法(Bogaert,2004; Allard等人,2011年)。此外,在这些方法下,条件累积分布函数的结果值可能不是单调的。通常需要通过高斯变换或逻辑回归模型对所得条件概率进行后验校正(Pardo-Igúzquiza and Dowd,2005)。用于在感兴趣的空间域内可用的空间详尽辅助信息的背景下空间预测分类响应变量的另一替代方案包括使用基于通用线性混合模型的方法。Cao等人(2011)提出了一个空间多项逻辑混合模型,其中假设空间相关的潜变量来解释分类目标变量中的空间依赖性。所提出的模型表示为目标和采样位置之间空间协方差的多项式逻辑函数。目标位置的热门类别发生概率函数被写为目标和源数据位置之间的协方差值的多项式逻辑线性组合,这可以类似于克里金方法的对偶形式。该方法后来被扩展为结合用于分类变量的空间预测的异质辅助信息(Cao等人, 2014年)。 这些广义线性混合模型为基础的方法是免费的上述固有问题的指标克里金为基础的方法。然而,与基于指示器克里金的方法相比,它们是计算密集型的当辅助信息在研究区域内的任何地方都可用时,机器学习技术越来越多地用于空间预测分类响应变量事实上,有助于解释目标变量空间变化的预测变量的数量急剧增加,使得其他方法难以应用。此外,一些机器学习方法以处理复杂的非线性关系和交互而闻名,并且需要较少的数据预处理。分类机器学习方法已被证明与许多研究工作中的空间预测分类变量相关,包括Albrecht等人。(2021); Kumar et al. (2020); Henglet al. (2018); Jumfovic et al. (2018); Kuhn et al. (2018);Sahoo 和 Jha ( 2017 ) ; Othman 和 Gloaguen ( 2017 ) ; Cracknell 和Reading(2015,2014); Yu等人(2012)。即使分类机器学习方法(例如,随机森林,支持向量机)表现出竞争性的空间预测性能,它们并不完全尊重分类目标变量在采样位置的观测值。另一方面,竞争对手的地质统计技术(如指标的回归克里格法从本质上完全匹配分类目标变量在采样位置的观测值在许多地球科学应用中,期望在采样位置处完全匹配分类目标变量的观测值,特别是当分类目标变量的测量可以合理地被认为是无误差的(硬数据)时。这项工作解决了机器的精确调节问题分类变量空间预测的学习方法它介绍了一种基于分类随机森林的方法,在该方法中,分类目标变量完全适应于数据,因此具有与竞争对手地质统计方法一样的精确条件属性。随机森林在空间预测中的流行依赖于其有效处理许多预测变量、处理复杂的非线性关系和相互作用、需要较少的数据预处理以及非 参 数 方 法 的 能 力 所 提 出 的 方 法通 过 使 用 分 类 目 标 变 量 的 隐 式 表 示(Fouedjio,2020)扩展了以前致力于连续目标变量的工作对数据的精确调节是通过一步一步的方法实现的第一,分类F. 富埃吉奥地球科学中的人工智能2(2021)8284图二. 模拟数据示例-(a)、(b)、(c)、(d)预测变量,(e)穷举分类目标变量,以及(f)采样分类目标变量。从传统分类随机森林得到的树预测器的集合(分类的)被变换为对应于分类目标变量的每个类别的有符号距离的集合第二,通过主成分分析创建带符号距离的集合的正交表示第三,精确条件问题被重新表述为主成分分数的线性不等式系统,从而允许新的主成分分数的采样(通过随机二次规划),确保对数据的精确条件第四,将所得到的条件符号距离转换为分类输出的集合,其完全符合分类目标变量在采样时的观察值地点最后,多数投票被用来聚合分类输出的集合。最终输出还通过构造匹配目标变量在采样位置处的观测值。一方面,所提出的方法的有效性说明了一个模拟数据集,地面真相是可用的。 另一方面,所提出的技术展示在现实世界的数据集,包括地球化学数据。还与地质统计学和经典的机器学习方法(回归克里格指标,随机森林,支持向量机)进行了比较。本文件其余部分的结构如下。第2节描述了应用拟定方法所需的不同成分。F. 富埃吉奥地球科学中的人工智能2(2021)8285图三. 模拟数据示例-通过(a)经典随机森林和(b)支持向量机在训练位置处预测的分类目标变量;(c)分类目标变量传统的随机森林和支持向量机在训练数据中的误分类率分别为18.20%和35.00%见图4。 模拟数据示例-B¼10 000无条件首次PC评分和T¼1000有条件首次PC评分。F. 富埃吉奥地球科学中的人工智能2(2021)82862ð Þ¼图五、 模拟数据示例-(a)传统分类随机森林的预测图,(b)支持向量机,(c)指标的回归克里格法,以及(d)具有精确条件的随机森林分类。第3节演示了所提出的方法的有效性上的合成数据集以及现实世界的数据集。 与地理统计和经典的机器学习方法的比较。第4节是结论性意见。2. 方法设{C(s):s2D}是定义在感兴趣的固定连续空间域D Rd上的分类目标变量,具有有限组可能的分类输出(类别){c1,存在n个分类目标变量的观测值fCsigi<$1;除了分类目标变量之外,还有一组预测变量{X1(s),我们解决的问题,预测的分类目标变量在空间域D表示的N个网格位置使用分类目标变量的观测值和预测变量的数据。此外,分类目标变量在采样位置的预测值必须与分类目标变量在采样位置的观测值相同,即,C^si;i 1;本节描述了实施所提出的精确调节方法所需的不同成分是的。在R平台(R核心团队,2020)中执行2.1. 随机森林分类器所提出的方法的第一步包括在数据上训练传统的随机森林(RF)分类器。 随机森林分类器是一种集成方法,其中使用可用预测变量的不同子集在训练数据集的各个子集(bootstrap样本)上训练几个单独的决策树,然后进行聚合(Breiman,2001)。训练数据的自举和预测变量子集的随机选择确保了随机森林中的每个决策树是唯一的,这降低了随机森林分类器的总体方差。对于最终决策,RF分类器通过投票方案(例如多数投票)汇总各个树的决策,即,对于每个观察,每个决策树为一个类别投票,并且RF选择具有最高票数的类别分类随机森林有一些可以优化的调优参数。其中,存在树的数量、在每个节点处随机选择的预测变量的数量、每个决策树中要采样的观测的比例以及决策树的终端节点中的观测的最小数量。这些超参数通过交叉验证进行优化。在实践中,不需要调整决策树的数量;通常建议将其设置为较大的数量,从而允许预测误差收敛到稳定的最小值(Hengl等人,2018年)。分类随机森林的实现是使用R包ranger(Wright和F. 富埃吉奥地球科学中的人工智能2(2021)8287¼ 2≤c1;见图6。模拟数据示例-预测不确定性(熵)图(a)传统分类随机森林,(b)支持向量机,(c)回归-指标克里格法,以及(d)具有精确条件的分类随机森林表2模拟数据示例-包含39500个观测值的测试数据集中的预测性能统计方法准确度Rand指数对应于分类目标变量的每个类别的无条件有符号距离函数(连续)的集合具有K个类别fckgk<$1;.; K的类别目标变量{C(s):s2D}被视为一个变量,在研究中创建不同的边界,随机森林0.619 0.734支持向量机0.602 0.729指标的回归克立格EX act条件下的随机森林Ziegler,2017)和tuneRanger(Probst等人, 2018年)。经典的随机森林分类器的训练结果是分类树预测器的集合fC~bs:s2Dgb<$1;...;B,其中B是决策树的数量。 由于传统的随机森林分类器没有明确地设计为完美地匹配数据,因此分类树预测器和聚合分类树预测器不一定匹配分类目标变量在采样位置s处的观察值。 由于fC~b预测子:s2Dgb1;...;B不完全匹配数据,因此它们将被称为“无条件分类树预测子“。接下来的步骤旨在生成条件分类树预测器,这些预测器完美拟合分类目标变量在采样位置的观察值。2.2. 符号距离变换所提出的方法的第二步包括将无条件分类树预测器吉昂湾每个类别ck(k<$1,每个范畴ck可以用一个带符号的距离函数φk(k)表示,使得ck{sD,φk(s)0}。 符号距离变换方法(Grevera,2007; Davies, 2012 )可 以用 于将每 个类 别c k ( {I k(s):s 2 D})变换为符号距离函数φk(k)。事实上,每个类别ck定义了一个p维二进制图像。{Ik(s):s2D},其中每个点(piX el)具有值1,指示类别ck的存在,或者值0指示类别ck的不存在。对于设置为1的每个点(piX el),距离变换分配一个值,该值指示从该点(piX el)到设置为0的最近点(piX el)的带负符号的距离。类似地,对于设置为0的每个点(pi X el),距离变换分配指示从该点(pi X el)到设置为1的最近点(pi X el)的正负号距离的值。图1给出了符号距离变换方法的说明。此外,符号距离变换是一对一的。使用以下规则获得双射性Csargminφ1s;因此,无条件分类树预测器fC~bs:s2Dgb1;F. 富埃吉奥地球科学中的人工智能2(2021)8288K.Σ¼K.ΣKl;¼×.ΣK¼l¼1l;kl;kKK.- 是的Σ图第七章真 实 世界数据实例-一些预测变量:(a)海拔,(b)陆地卫星8号波段6,(c)重力测量高通滤波布格异常,(d)伽马射线光谱测定法的钾计数。见图8。 真实世界数据示例-(a)分类目标变量和(b)训练和测试位置。符号距离函数通过前面描述的带符号距离变换方法,下面的想法使用主成分分析来创建无条件的集合的正交表示,有符号距离函数那么,确切的条件反射问题是φ~bs:s2Db<$1;... ; B k <$1; ... ; K. 这导致以下有限维分解:φ~b≤s≤XLab将其转化为关于主成分得分的线性不等式问题。然后,通过随机二次规划生成新的主成分得分,以确保对硬数据的精确调节。由于主成分正交化是双射的,通过重构得到公式中定义的组合规则应用公式(1)获得条件分类树预测因子(分类),这些预测因子与分类目标变量在采样位置的观测值完全2.3. 主成分分析该步骤包括对无条件符号距离函数其中fαbkgl<$1;对于每个类别ck(k1,φ~b≤s≤2D。 PCA对每个矩阵Xrk(k1,...,K)都是可并行的.由方程式(2),系综φ~b<$s<$:s2Db<$1;...; B可以看作是一组图像,φ ~ b <$s<$:s 2Das an image图像.因此,由此产生的主成分因子fl;ks:s2Dgl<$1;...; L也是图像。因此,Eq. (2)提供了将图像分解为一组特征图像和一组系数。重要的是要注意,在PCA框架中,本征函数被认为是固定的,而系数被认为是F. 富埃吉奥地球科学中的人工智能2(2021)8289ðÞ ≤l;Bbl<$1θl;kl;ksl;8s 2D;k1;...;...KBb¼1l;kKB-1b¼1KKKKl;kl¼1;ðÞ ≥ 8 ¼ð¼ÞKfgfgθk2RL见图9。真实世界数据示例-通过(a)经典随机森林和(b)支持向量机预测训练位置处的分类目标变量;(c)训练位置处的分类目标变量观测值。随机PCA在这里更多地用作正交分解方法而不是降维技术,因为所有的主成分因子都被保留,如等式(1)所示(二)、PCA的双射性质允许从系数重建有符号距离函数。换句话说,一旦使用了所有的主成分因子和分数,就可以重建图像类别c2在位置s1(φ 2s 10)处应该是负的,并且与其他类别相关联的有符号距离函数在位置s1(φks10; k2; k1;...; K)处应该是正的。对于每个φkk1;.; K,对所有数据位置的条件由以下不等式表示:8φks1θ1;k1;ks1θ2;k 2;ks1θL;k L;1s1≤0or≥02.4. 随机二次规划...:φksnθ1;k1;ksnθ2;k 2;ksnθL;k L;ksn≤0or≥0:(4)给定如在Sect.2.3,该步骤包括生成新的主成分分数,使得等式2.3中定义的带符号距离函数(2)数据的完美让XL由方程式(4),对应于n个硬数据的n个不等式可以概括为:~kθk≤0;k1/4;与数据匹配的新PC评分向量θk<$θ1;k;通过求解以下随机二次优化生成其中θl;kl1L是随机系数,θl ks: sDl1L是从等式中给出的无条件符号距离函数的PCA分解导出的(二)、分类目标变量在采样位置的观测值(硬数据)通知有符号距离函数关联的符号问题(Fouedjio等人,2021年a):min.θk-βk~kθk≤0;k¼1;(六)在抽样地点用一个类别来表示因此,硬数据集可以被转换成一组不等式约束使用方程。(三)、 假设在采样位置s1处,观察到类别c2,即,C(s1)¼c2.这意味着与其中βk~N<$μk;<$k<$,平均值μk和协方差矩阵X<$k为使用无条件PC得分fαbkgl 1;...; L计算,该无条件PC得分f α b k g l1;(二)、具体来说,μ¼“1XBαb#1. XBα-μT;其中αb<$hαbi:(7)φkφsl¼1;kF. 富埃吉奥地球科学中的人工智能2(2021)8290KKKKl¼1l;kKl;k见图10。 真实世界数据示例-无条件和有条件的前两个PC分数与每个类别相关。对于每个样本βt~Nμk;kt1;(Fouedjio等人,2021年b)。然而,这种方法对于非常大的数据集可能是耗时的,因为吉布斯样本高度相关。给定条件PC分数fθtgt <$1;在Eq. (六)、方程中的协方差矩阵(7)是对角矩阵,因为PC分数与构造无关。系数θt也可以通过吉布斯采样法生成通过重构获得函数:φtφs×Lθts;8s2D:(8F. 富埃吉奥地球科学中的人工智能2(2021)8291)F. 富埃吉奥地球科学中的人工智能2(2021)8292图十一岁真 实 世界的数据示例-由(a)传统分类随机森林,(b)支持向量机,(c)指标的回归克里格法,以及(d)具有精确条件的分类随机森林提供的预测图。见图12。真实世界的数据示例-预测不确定性(熵)图由(a)传统分类随机森林,(b)支持向量机,(c)指标的回归克里格法,以及(d)具有精确条件的分类随机森林F. 富埃吉奥地球科学中的人工智能2(2021)82932gc1;1K不条件分类树预测器通过应用等式中定义的组合规则来给出。(1):C t =0.00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000φt;由于所有单独的重构符号距离函数fφk kkk:s2Dgt<$1;使用多数表决规则的条件分类树预测器的聚集导致最终outcomeC^s:sD. 后者与采样位置的分类目标变量观察值一致无条件分类树预测器B的数量应该足够大,以便在执行精确条件时能够很好地覆盖解空间。事实上,分类目标变量的观测值的数量(4)、无条件分类树预测器的数量越大,方程的解空间越宽。(六)、因此,相对于太少的无条件分类树预测器,太多的约束(硬数据)将导致太小的不确定性。值得一提的是,条件分类树预测器T的数量不依赖于无条件分类树的数量。表3真实世界数据示例-包含140个观测值的测试数据集中的预测性能统计数据方法精度兰德指数随机森林0.3860.649支持向量机0.3420.575指标的回归克立格法0.3360.672EX act条件下的0.4210.710随机二次规划下的预测值B也就是说,T可以小于或大于B。总而言之,使用以下伪算法来执行所提出的具有精确条件的分类随机森林3. 经验实例使用模拟和真实世界的数据集来说明所提出的具有精确条件的分类随机森林。 利用地统计学方法(指标的回归克里格法)和传统的机器学习技术(随机森林和支持向量机)进行预测性能比较。 与每种机器学习方法相关的超参数已通过交叉验证进行了优化。所提出的具有精确条件的分类随机森林使用与经典随机森林生成的决策树相同的集合每种方法的预测性能都是使用第一个评估统计量在测试数据集上评估的,即,准确性准确度对应于被正确分类的观测值的百分比。它的值介于0和1之间。精度越高,模型越好除了准确度外,还计算了Rand指数Rand指数通过考虑在预测分类和真实分类中分配在相同或不同类别中的所有点对和计数对,来衡量测试数据上的预测分类和真实分类之间的相似性。兰德指数的值在0和1之间,0表示两个分类在任何一对点上都不一致,1表示相同的分类。3.1. 模拟数据示例在这个模拟案例研究中,我们考虑了一个具有四个类别的分类目标变量,以及定义的四个连续预测变量F. 富埃吉奥地球科学中的人工智能2(2021)829422¼×¼¼Kno¼f=2.5gK不在空间域上[0,100]2.分类目标变量根据以下模型生成:8s2½0;100];Csck如果Y=2½qk;q k=1½;k¼1;... ; 4;(10)以Y约1/4 50辛伐他汀X1辛伐他汀X2辛伐他汀X3辛伐他汀50辛伐他汀X4辛伐他汀;X1(k)、X2(k)、X3(k)和X4(k)是预测变量; k(k)是潜在(未观察到的)变量;极限q j取为随机函数Y(k)的0、0. 25、0. 50、0.75和1分位数,因此可以定义完整的事件系统c k(k1,. ,4)。四个预测变量和潜在变量在空间域[0,100]2上进行模拟,基于五个独立的高斯各向同性平稳随机函数(Chiles和Del finer,2012),具有不同的均值和协方差函数,如表1所示。使用R包RGostats包(Renard等人,2020年)。图2显示了模拟数据,200 200常规网格。图2e中显示的分类目标变量的图被认为是参考图。为了证明所提出的方法能够精确匹配分类目标变量在采样位置的观测值,将n500个分层随机样本作为训练数据(图11)。 2)。 n500个分层随机样本的集合占参考地图中总位置的1.25%,每个类别包含125个样本。其余数据(39 500个样本)保留用于测试。目标是使用采样的类别(图2 f),借助观察到的四个空间辅助变量(图2f),重建分类目标变量的参考图(图2 e)。2a-d),使得分类目标变量的预测值与分类目标变量在采样位置处的观测值一致。图3显示了分类目标变量在训练位置的观察值以及传统随机森林和支持向量机预测的值在训练位置,分类目标变量的观察值和预测值之间存在显著差异。传统的随机森林和支持向量机在训练数据中的误分类率分别为18.20%和35.00%。 对于传统的随机森林,决策树的数量被设置为10000,并通过交叉验证优化超参数。关于支持向量机,核函数和超参数已经使用交叉验证来选择。传统的分类随机森林是在训练数据上执行的,其中大量决策树设置为B 1/410 000。因此,一个B/410 000无条件分类树的集合,表示为线性不等式系统图 5展示了传统分类随机森林、支持向量机、指标的回归克里格法和建议的具有精确条件的分类随机森林提供的预测图。 人们可以注意到由指标的回归克里格法提供的预测图(图1)。 5 c)和建议的分类随机森林(图5 d)完全以训练数据为条件(图2 f),而传统的分类随机森林(图5 a)和支持向量机(图5 b)提供的情况并非如此。从传统的分类随机森林和提出的具有精确条件的分类随机森林产生的预测图的一般外观看起来相似。然而,由于所提出的方法的精确调节性质,存在一些局部差异。重要的是要强调,所提出的具有精确条件的分类随机森林使用由经典随机森林生成的决策树集合作为起点。总的来说,所提出的分类随机森林的预测地图表现出与参考地图中更相似的空间模式(图1)。 2 e)比指标的回归克里格法。传统的分类随机森林、支持向量机、指标的回归克里格法和建议的具有精确条件的分类随机森林提供了分类目标变量在任何空间位置的每个可能结果因此,预测不确定性可以通过信息熵量化(Wellmann andRegenauer-Lieb,2012)。 图 6给出了与每种方法相关的预测不确定性图。指标的回归克里格法和提出的分类随机森林通过构造在采样位置提供零熵,而传统的分类随机森林和支持向量机则没有。传统的分类随机森林、支持向量机和建议的分类随机森林在由单一类别主导的局部邻域中提供的熵低于指标的回归克里格法。表2中报告了传统分类随机森林、支持向量机、指标回归克里格法和具有精确条件的拟议分类随机森林的测试数据集(包含39500个观测值)中的预测性能统计。 除了精确拟合分类目标变量在采样位置的观测值外,所提出的分类随机森林还保持了具有竞争力的样本外预测性能。3.2. 真实数据示例C~b的指示符:s2½0;100]2gb110000人建成。后一...系综被转换成一个无条件的有符号距离函数系φ~bφ:s2½0;100]2b¼1;.;ck(k1,.,4)类每类10000,根据第12节所述方法计算。二、对该集合进行主成分分析,然后进行新PC评分的采样确保数据的精确调节。T¼生成1000个新的PC分数,从而给出T1/41000的总体在这个真实案例研究中,分类目标变量是Tl(铊)地球化学浓度,通过分位数转换为五个类别,并在英格兰西南部研究区域的568个地点观察到(Kirkwood等人,2016年)。预测变量包括海拔、重力、地磁、地球资源卫星、辐射及其导数,共计26个预测变量。一些预测变量显示在图第七章 图图8 a显示了分类目标变量的观察结果。的条件带符号距离函数nts:s2½0;100]2o¼(k个观测值被划分为训练集(约75%)和测试集φt1;K(~25%),如图8b所示。测试集的构建使得所有1/4,...,4)。后者被转化为条件分类树类别具有大致相同数量的观察结果。预测因子fCttt =s2½0;100]2gt11000个完全匹配的cate-...gorical目标变量在采样位置的观测值。然后使用多数投票方案来获得预测的分类目标变量C^s:s0;100 2. 后者还通过构造完美地匹配分类图4显示了每个类别c k(k <$1,...,4)在调节前(无条件PC评分fαlgl<$1;...; 10 000)和调节后(条件PC评分f θ k g t <$1;...; 1000)的PC评分。可以注意到,由于精确的条件化,条件PC分数的点云比无条件PC分数的 点 云 更 不 分 散 。图9显示了分类目标变量在训练位置的观测值以及由经典随机森林和支持向量机预测的值。分类目标变量在训练位置的观测值和预测值之间存在相当大的差异。对于经典的随机森林和支持向量机,训练数据的错误分类率分别为33.80%和52.58%。对于经典的随机森林,决策树的数量被设置为10 000,并通过交叉验证优化了超参数。关于支持向量机,核函数和超参数已经使用交叉验证来选择。F. 富埃吉奥地球科学中的人工智能2(2021)8295¼¼学习的传统随机森林模型由B10000分类树预测器的集合组成。后一个集合被转换为每个类别的无条件符号距离函数的集合,然后进行PCA和随机二次规划,如方法部分(第2节)所述。 这导致无条件和条件PC评分,如图所示。 10;生成T 1000条件PC评分。如模拟数据示例中所述,由于精确条件化,条件PC分数的点云比来自无条件PC分数的点云更不分散传统分类随机森林、支持向量机、指标的回归克里格法和建议的具有精确条件的分类随机森林提供的预测图如图所示。十一岁每种方法提供的预测图有显著差异。特别地,所提出的分类随机森林的预测图不同于传统分类随机森林所提供的预测图。这是解释所提出的方法的确切重要的是要强调,所提出的具有精确条件的分类随机森林使用与传统分类随机森林生成的决策树相同的集合 尽管指标的回归克里格法提供了精确的条件,但其预测图显示了类别的噪声空间分布(图11c)。相比之下,所提出的具有严格条件的分类随机森林提供的预测图描绘了更规则和连续的轮廓(图1)。 11 d),并与图中所示的训练数据一致。 9 c.图图12展示了传统分类随机森林、支持向量机、指标的回归克里格法和建议的具有精确条件的分类随机森林下的预测不确定性(熵)图。由所提出的具有精确条件的分类随机森林产生的预测不确定性图与其他图明显不同。特别是,传统的和建议的分类随机森林提供的预测不确定性地图显着不同,由于在建议的方法,而不是在传统的方法的精确条件。在提出的分类随机森林下,仅由一个类别主导的局部邻域比由目标变量的几个类别主导的局部邻域显示出更低的熵表3提供了传统分类随机森林、支持向量机、指标的回归克里格法以及在测试数据集(包含140个观测值)中具有精确条件的拟议分类随机森林的预测性能从准确度来看,本文提出的分类随机森林方法比其他三种方法在这种情况下,不使用建议的分类随机森林的成本是不可忽略的。与指标的回归克里格法和传统分类随机森林相比,准确性分别提高了25%和9%因此,所提出的方法可以准确地匹配分类目标变量的采样位置的观察值,同时实现良好的样本预测性能。4. 结论本文提出了一种基于分类随机森林的分类变量空间预测方法,其中分类目标变量完全以数据为条件。 精确条件是指分类目标变量在采样位置的预测值与在采样位置观察到的值相同。该性质在地质统计学方法中是众所周知的。该方法结合了分类随机森林、符号距离函数、主成分分析和随机二次规划,以实现分类目标变量对数据的精确调节仿真和真实数据集上的实验结果表明了该方法的有效性所提出的方法的典型特征如下。它可以完美地匹配分类目标变量的观测值,采样位置,同时与竞争对手的地统计方法(如指标的回归克里格法)相比,实现了良好的样本外预测性能。 它很容易实现,因为它结合了众所周知的现有统计和机器学习方法。它可以通过符号距离表示轻松地处理大量的类别。所提出的方法可以提供分类目标变量的真实预测不确定性。 它的优点是不产生嘈杂的空间预测图,正如人们可以观察到的指标回归克里金法。所提出的方法是免费的固有问题的回归克里格的指标,如预测概率的目标变量的类别,不能保证属于[0,1]区间和总和为1。当添加很少的观测,可以快速地执行分类目标变量预测图的更新。只有所提出的方法的最后一部分,即,随机二次规划,应该执行。与指标的回归克里格法和传统的分类随机森林相比,所提出的方法是计算密集型的。然而,它包括可以根据目标变量的类别并行执行的组件,包括条件主成分得分生成。所提出的方法要求无条件分类树预测器的数量应该足够大,以便在执行精确条件时能够很好地覆盖解空间。事实上,分类目标变量观测值的数量定义了不等式约束的数量。无条件分类树预测器的数量越大,精确条件的解空间就越宽。因此,相对于太少的无条件分类树预测器,太多的约束(硬数据)将导致太小的不确定性。尽管如此,满足这个约束总是可能的,因为无条件分类树预测器的数量是一个自由参数。 虽然所提出的方法使用随机森林作为基础学习者,但它可以与其他集成机器学习方法(例如,升压)。竞合利益作者声明,他们没有已知的竞争性经济利益或个人关系,可能会影响本文报告的工作。引用Albrecht,T., Gon z'alez-A' lva rez,I.,Klump,J.,2021年 使用机器学习绘制西澳大利亚州的矿产勘探景观。ISPRS Int. J. Geo-Inf. 10.Allard,D.,D'Or,D.,弗罗伊德沃河,2011.分类变量预测的有效最大熵方法。EUR. J. 土壤科学62,381- 393.Bogaert,P.,2004.分类变量的空间预测:bme方法。In:Sanchez-Vila,X.,Carrera,J., 戈麦斯-赫尔南德斯(编辑),geoENVIV-环境应用地质统计学。Springer Netherlands,Dordrecht,pp. 271- 282.布莱曼湖,2001年随机森林马赫学习. 45,5- 32。曹,G.,Kyriakkov,P.,古德柴尔德,M.,2011.分类空间资料预测之多项逻辑斯谛混合模式。Int. J. 地理学INF. Sci. 25,2071- 2086。曹,G.,Yoo,E. H.,王,S.,2014.分类变量空间预测的数据融合统计框架。史托奇Environ.Res. 风险评估。28,1785- 1799.Chiles,J.P.,Del finer,P.,2012.地理统计学:空间不确定性建模。John Wiley&个儿子克拉克内尔,M.,Reading,A.,2015.探索了空间背景监督分类器:岩石地层学分类的一个具有挑战性的例子。IEEE J. Select.主题应用地球观测Remote Sens. 8,1- 14.Cracknell,M.J.,上午,雷丁,2014.使用遥感数据进行地质测绘:五种机器学习算法的比较,它们对训练数据空间分布变化的响应以及显式空间信息的使用。Comput.吉奥西。63,22- 33。Davies,E.,2012.第9章-二进制形状分析。在:Davies,E. (Ed.)、计算机与机器视觉,第四版北京:北京大学出版社. 229- 265杜,P.,Bai,X.,谭,K.,Xue,Z.,Samat,A.,夏,J.,Li,E.,苏,H.,刘伟,2020年。空间数据处理的四种机器学习方法研究进展。J. 地理视觉。空间肛门四、Fouedjio,F.,2020年。回归随机森林空间预测的EX作用条件Arti fi.英特尔吉奥西。1,11- 23。Fouedjio,F.,Scheidt,C., 杨湖, Achtziger-Zupa nc ic,P. 供稿:J. ,2021a。三维地质不确定性量化的地质统计隐式建模框架F. 富埃吉奥地球科学中的人工智能2(2021)8296þþ地质域边界:应用于斑岩铜矿的岩性域。Comput.吉奥西。157,104931。Fouedjio,F.,Scheidt,C.,杨湖,王玉,Caers,J.,2021b的最后一页。使用截尾多元正态分布的Gibbs抽样对线性不等式约束下的分类空间变量进行条件模拟。史托奇Environ.资源风险评估35,457- 480。Giaccon e,E.,Oriani,F.,Tonini,M.,Lambiel,C., 马里埃托兹,G.,2021年 使用数据驱动算
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功