地球科学中的空间半监督学习框架

44 浏览量更新于2023-12-06 收藏 21.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0地球科学中的人工智能3（2022）162–1780munications Co. Ltd. 本是CCBY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）0目录可在ScienceDirect上找到0地球科学中的人工智能0期刊主页：www.keaipublishing.com/en/journals/artificial-intelligence-in-geosciences0原创研究文章0地统计学半监督学习用于空间预测0Francky Fouedjio a，�，Hassan Talebi b0a Rio Tinto，数据与分析，152-158 St Georges Terrace，珀斯，WA 6000，澳大利亚 b RioTinto，开发与技术，152-158 St Georges Terrace，珀斯，WA 6000，澳大利亚0文章信息0关键词：有标签空间数据无标签空间数据空间自相关伪标记空间预测0摘要0地球科学家越来越多地被要求使用监督机器学习算法在辅助信息的存在下对目标变量进行空间预测。通常，由于获取测量数据的过程相对耗时且昂贵，目标变量仅在少数采样位置上被观测到。相反，通过遥感平台和传感器网络的不断发展，辅助变量在研究区域内通常是全面观测的。监督机器学习方法并未充分利用这大量的辅助空间数据。事实上，在这些方法中，训练数据集仅包括有标签的数据位置（其中目标和辅助变量均被测量）。同时，在模型训练阶段不考虑未标记的数据位置（其中仅测量了辅助变量而未测量目标变量）。因此，在模型训练阶段仅利用了有限数量的辅助空间数据。作为监督学习的替代方案，半监督学习可以用于解决这一问题，它从有标签和无标签数据中学习。然而，传统的半监督学习技术未考虑空间数据的特殊性。本文介绍了一种空间半监督学习框架，其中地统计学和机器学习结合起来利用大量未标记的空间数据，通常与较小的有标签空间数据集相结合。其主要思想是利用目标变量的空间自相关性，在地理上接近有标签数据点的未标记数据点上生成伪标签。这是通过地统计条件模拟实现的，其中生成了一组伪标签来考虑伪标记过程中的不确定性。观察到的标签通过这组伪标签增强，以创建一组伪训练数据集。然后在每个伪训练数据集上训练监督机器学习模型，然后聚合训练模型。所提出的地统计半监督学习方法应用于合成和真实世界的空间数据集。其预测性能与一些经典的监督和半监督机器学习方法进行了比较。似乎它可以有效利用大量未标记的空间数据来改进目标变量的空间预测。01. 引言0在各种地球科学领域（Giaccone等，2021年；Du等，2020年；Maxwell等，2018年；Kanevski，2008年；Kanevski等，2009年）中，通过观测到感兴趣区域内的辅助变量，对整个研究区域的感兴趣变量进行预测已成为一项无处不在的任务。监督机器学习方法（例如随机森林、支持向量机、神经网络）已广泛用于各种地球科学应用，如地球化学制图（Kirkwood等，2022年，2016a年；Wilford等，2016年），土壤制图（Wadoux等，2020年；Taghizadeh-Mehrjardi等，2016年；Ballabio等，2016年；Khan等，2016年；Hengl等，2015年），水文制图（Barzegar等，2016年；Appelhans等，2015年），环境制图（Li，2013年；Li0*对应作者。电子邮件地址：migrainefrancky.fouedjiokameni@riotinto.com（F.Fouedjio）。0等人，2011年），地质制图（Albrecht和González-Álvarez，2021年；Kumar等人，2020年；Latifovic等人，2018年；Sahoo和Jha，2017年；Othman和Gloaguen，2017年；Cracknell和Reading，2015年，2014年；Yu等人，2012年）。特别是，针对空间数据量身定制的监督机器学习方法因其能够考虑空间数据的特殊性而引起了很大的兴趣，比如空间自相关（Fouedjio，2021b年；Talebi等人，2021年；Fouedjio，2021a年；Sekulić等人，2020年；Hengl等人，2018年；Fouedjio和Klump，2019年；Fouedjio，2020年）。后者在空间数据领域起着至关重要的作用。目标变量的观测通常只在少数采样位置上可用，因为相对较高的获取成本和获得测量的时间。相反，辅助变量通常在研究区域内的任何地方都是可用的，通过更广泛的0https://doi.org/10.1016/j.aiig.2022.12.002 2022年11月3日收到；2022年12月21日收到修订稿；2022年12月21日接受1630地球科学中的人工智能3（2022）162-1780F.Fouedjio和H.Talebi0图1.合成案例研究-（a）-（d）空间详尽的辅助变量和（e）空间详尽的目标变量。0遥感平台和传感器网络的发展。因此，可用的空间数据包括非常少量的标记空间数据（主要空间数据）和非常大量的未标记空间数据（次要或辅助空间数据）。这种情况很常见，因为获取辅助空间数据相对便宜，而收集主要空间数据很昂贵。监督机器学习技术并没有充分利用这一大量的辅助空间数据。实际上，在这些技术中，训练数据集仅包括标记数据位置（即目标变量观测和辅助变量观测都可用的数据位置）。同时，未标记数据位置（即目标变量观测不可用但辅助变量观测已知的数据位置）在模型训练阶段不被考虑。换句话说，在训练阶段只考虑了共位的辅助空间数据。因此，除了共位的数据外，辅助空间数据提供的信息被忽略了。因此，在模型训练阶段使用的辅助空间数据（未标记的空间数据）的数量是有限的。有效利用大量未标记数据的机器学习方法备受关注。其中一种方法是0半监督学习，它从标记和未标记的数据中学习，以构建更好的预测模型（Chapelle等人，2010年；Zhu和Goldberg，2009年）。它对比了监督学习（所有数据都标记）和无监督学习（所有数据都未标记）。半监督学习在机器学习中非常感兴趣，因为除了标记数据外，它还可以利用现成的未标记数据来改进监督学习任务，特别是在标记数据稀缺或昂贵的情况下。可以区分两种一般形式的半监督学习：归纳式和传导式半监督学习。它们在训练阶段想要获得预测的数据可用性上有所不同。归纳式半监督学习的目标是从一组标记和未标记的数据中找到将辅助变量映射到目标变量的函数。然后可以使用该函数对在训练阶段不可用的新数据点进行预测。传导式半监督学习旨在推断给定未标记数据的正确标签，这些数据在训练阶段已经存在。半监督学习方法可以分为六类：自我训练，共同训练，多视图学习，期望最大化与生成混合模型，基于图的方法和传导支持1640地球科学中的人工智能3（2022）162–1780F. Fouedjio和H. Talebi0图2. 合成案例研究-（a）-（d）辅助变量和（e）在�=1,000个采样位置的目标变量。0向量机（Chapelle等，2010；Zhu和Goldberg，2009）。特别是，自训练将未标记数据的信息与标记数据结合起来，迭代地识别数据集中未标记数据的标签。因此，每次迭代时，标记的训练数据集都会扩大，直到整个数据集都被标记。自训练算法可以作为任何给定监督基础学习器的包装器应用。共训练方法基本上训练两个模型，而自训练只训练一个模型。因此，自训练可以被视为共训练的一个特例，只训练一个模型。为了利用未标记数据，必须存在一些与数据的基础分布相关的关系。半监督学习的一个必要条件是，属性空间中的基础边际数据分布包含有关后验分布的信息。半监督学习算法利用以下假设中的至少一个：平滑假设（如果两个数据点在属性（特征）空间中接近，则它们的标签应该相似），低密度假设（决策边界不应通过属性空间中的高密度区域），流形假设（在相同低维流形上的数据点应具有相似的标签）。这些假设是大多数，如果不是全部，半监督学习算法的基础，通常取决于其中一个或多个被满足的假设，无论是显式地还是隐式地。因此，如果有足够的未标记数据可用，并且对数据的分布有一定的假设，未标记数据可以帮助构建更好的预测模型。另一方面，如果不满足这个条件，基于额外的未标记数据来提高预测的准确性是固有的不可能的（Zhu和Goldberg，2009）。值得指出的是，盲目地为特定任务选择半监督学习方法不一定会比监督学习提高性能。事实上，未标记数据可能会导致由于错误的链接假设而性能更差。有关半监督学习的详细评论，请参阅VanEngelen和Hoos（2020），Pise和Kulkarni（2008）。虽然非空间数据的半监督学习受到了很多关注，但迄今为止，专门用于空间数据的半监督学习还很少见（Kobs等，2021；Asghar等，2020；Vatsavai等，2007）。经典的半监督学习技术是在非空间环境中开发的。因此，它们不考虑空间数据的特性，特别是广泛被忽视的空间自相关性。在空间框架中，除了属性空间，还需要考虑地理空间。实际上，空间数据通常显示出研究区域内的空间依赖性特性。在地理空间中彼此接近的观测可能具有相似的特征。将地理坐标视为其他辅助变量来考虑空间信息并不是考虑空间信息的最佳方式，正如许多研究作品所示（Hengl等，2018）。在空间数据领域应用传统的半监督学习方法可能会导致预测的准确性降低。事实上，半监督学习的成功在很大程度上取决于一些基础假设（Chapelle等，2010；Zhu和Goldberg，2009）。利用未标记的空间数据的一个基本方法是将未标记的空间数据作为监督学习任务中的额外预测变量。因此，将标记数据位置周围（最近的位置）的预测变量观测定义为额外的协变量。然而，在这种方法下，协变量的数量急剧增加，而观测（样本）的数量仍然相同且有限。这种情况可能导致所谓的维度灾难（Keogh和Mueen，2017）。随着维度的增加，任何监督机器学习算法要获得良好性能所需的数据点数量呈指数增长。因此，维度的边际上升也需要数据量的显著增加才能保持相同水平的性能。本文提出了一种地统计半监督学习框架，允许在许多地球科学用例中利用大量可用的未标记空间数据与通常较小的标记空间数据相结合。它侧重于半监督回归（即目标变量是连续的），但所提出的框架可以很容易地调整为半监督分类（即用于分类目标变量）。它遵循了伪标签生成的一般思想，这是经典半监督学习方法（如自训练和共训练）固有的。核心思想是利用目标变量的空间自相关性，在地理上接近标记数据点的未标记数据点上生成伪标签。这是通过地统计条件模拟实现的，其中生成了一系列伪标签来考虑伪标签过程中的不确定性。这些模拟（伪）标签的集合由观测（真实）标签增加，以创建一组伪训练数据集。0流形应具有相似的标签）。这些假设是大多数，如果不是全部，半监督学习算法的基础，通常取决于其中一个或多个被满足的假设，无论是显式地还是隐式地。因此，如果有足够的未标记数据可用，并且对数据的分布有一定的假设，未标记数据可以帮助构建更好的预测模型。另一方面，如果不满足这个条件，基于额外的未标记数据来提高预测的准确性是固有的不可能的（Zhu和Goldberg，2009）。值得指出的是，盲目地为特定任务选择半监督学习方法不一定会比监督学习提高性能。事实上，未标记数据可能会导致由于错误的链接假设而性能更差。有关半监督学习的详细评论，请参阅VanEngelen和Hoos（2020），Pise和Kulkarni（2008）。虽然非空间数据的半监督学习受到了很多关注，但迄今为止，专门用于空间数据的半监督学习还很少见（Kobs等，2021；Asghar等，2020；Vatsavai等，2007）。经典的半监督学习技术是在非空间环境中开发的。因此，它们不考虑空间数据的特性，特别是广泛被忽视的空间自相关性。在空间框架中，除了属性空间，还需要考虑地理空间。实际上，空间数据通常显示出研究区域内的空间依赖性特性。在地理空间中彼此接近的观测可能具有相似的特征。将地理坐标视为其他辅助变量来考虑空间信息并不是考虑空间信息的最佳方式，正如许多研究作品所示（Hengl等，2018）。在空间数据领域应用传统的半监督学习方法可能会导致预测的准确性降低。事实上，半监督学习的成功在很大程度上取决于一些基础假设（Chapelle等，2010；Zhu和Goldberg，2009）。利用未标记的空间数据的一个基本方法是将未标记的空间数据作为监督学习任务中的额外预测变量。因此，将标记数据位置周围（最近的位置）的预测变量观测定义为额外的协变量。然而，在这种方法下，协变量的数量急剧增加，而观测（样本）的数量仍然相同且有限。这种情况可能导致所谓的维度灾难（Keogh和Mueen，2017）。随着维度的增加，任何监督机器学习算法要获得良好性能所需的数据点数量呈指数增长。因此，维度的边际上升也需要数据量的显著增加才能保持相同水平的性能。本文提出了一种地统计半监督学习框架，允许在许多地球科学用例中利用大量可用的未标记空间数据与通常较小的标记空间数据相结合。它侧重于半监督回归（即目标变量是连续的），但所提出的框架可以很容易地调整为半监督分类（即用于分类目标变量）。它遵循了伪标签生成的一般思想，这是经典半监督学习方法（如自训练和共训练）固有的。核心思想是利用目标变量的空间自相关性，在地理上接近标记数据点的未标记数据点上生成伪标签。这是通过地统计条件模拟实现的，其中生成了一系列伪标签来考虑伪标签过程中的不确定性。这些模拟（伪）标签的集合由观测（真实）标签增加，以创建一组伪训练数据集。1650地球科学中的人工智能3（2022）162–1780F. Fouedjio和H. Talebi0图3.合成案例研究-原始训练数据集（�=1,000）中目标变量�的实验和拟合变程图。拟合的变程模型对应于具有实际范围和坎的各向同性指数模型，分别等于155.010和346.489。0ensemble of simulated (pseudo) labels is augmented by the observed(true) labels to create an ensemble of pseudo training datasets. A0然后在每个伪训练数据集上训练监督机器学习模型，然后对训练好的模型进行聚合。作为副产品，提供了目标变量的预测不确定性。所提出的地统计半监督学习方法在合成空间数据上进行了说明，该数据的真实情况在研究区域内随处可得。它被应用于地球化学制图的实际空间数据。其预测性能与一些经典的监督和半监督学习方法进行了比较。本文的其余部分组织如下。第2节描述了所提出的地统计半监督学习方法的不同要素和步骤。第3节说明了所提出的半监督机器学习方法在合成空间数据上的应用。在第4节中给出了一个真实空间数据的应用示例。第3节和第4节还包括与经典的监督和半监督学习方法的比较。结论摘要在第5节总结。02.方法论0设{�(�)∶�∈�}为定义在固定连续空间域��R�(�∈N�)上的目标变量（连续）。在空间域�中穷尽已知的有�个预测（辅助或解释）变量{�(�)=(X1(�),…,X�(�))∶�∈�}。假设我们有标记的空间数据�(�1,…,��)={(�(�1),�(�1)),…,(�(��),�(��))}，其中{��∈�}�=1,…,�表示目标变量的采样位置。�(�1,…,��)描述了原始的训练数据集。除了标记的空间数据，还有未标记的空间数据�(��+1,…,��)={�(��+1),…,�(��)}可用。数据位置{��∈�}�=1,…,�将指代标记数据位置，而{��∈�}�=�+1,…,�将表示未标记数据位置。我们处理的情况是有相对较少的标记空间数据可用，但有大量的未标记空间数据可用（��）。目标是利用标记和未标记的空间数据，试图改进目标变量在空间域�上的空间预测。本节描述了实施所提出的地统计半监督学习用于空间预测的不同步骤和要素。实施是在R平台上进行的（R核心团队，2021年）。02.1.生成伪训练数据0利用未标记数据的基本方法首先是预测它们的标签，并将最有信心的预测标签添加回标记数据。这个过程在经典的半监督学习方法中被称为伪标记，比如自训练和协同训练（Van Engelen andHoos，2020年）。在这些方法中，伪标记包括首先在标记数据上训练监督机器学习模型。然后，使用训练好的机器学习模型的预测结果生成额外的标记数据。最后，原始的标记数据（观察到的）和伪标记数据（生成的）被合并用于最终模型的重新训练。之所以使用伪标记这个术语，是因为这些伪标签不是真实的（观察到的）标签。我们采用了一种不同的策略来生成伪标签。在空间上下文中，可以利用目标变量的空间自相关性在未标记数据位置生成更有信心的伪标签。空间自相关性是指地理学的Tobler第一定律（Tobler，1970年），意味着一切都与一切相关，但附近的事物比远处的事物更相关。在存在空间自相关性的情况下，更接近的事物往往更可预测，变化性更小。相反，较远的事物往往更难预测，相关性更小。因此，并非所有未标记数据位置都能以高置信度标记。对于距离标记数据位置太远的未标记数据位置的伪标签的不准确性可能会引入错误到机器学习模型中，并导致其退化。因此，并非所有未标记数据位置对模型训练都有益。我们的方法1660地球科学中的人工智能3（2022年）162-1780F. Fouedjio和H. Talebi0图4.合成案例研究——伪标记的选定未标记数据位置的辅助变量。0图5.合成案例研究——通过地统计条件模拟在选定的未标记数据位置生成的四个随机选择的伪标签实现。1670地球科学中的人工智能3（2022年）162-1780F. Fouedjio和H. Talebi0图6.合成案例研究——（a）地统计半监督随机森林提供的预测地图，（b）传统随机森林，（d）具有未标记空间数据作为额外协变量的随机森林，（e）自训练随机森林。0图7.合成案例研究——（a）地统计半监督随机森林提供的预测不确定性地图，（b）传统随机森林，（c）具有未标记空间数据作为额外协变量的随机森林。黑点代表训练数据位置。预测不确定性对应于95%预测区间的宽度。1680地球科学中的人工智能3（2022年）162-1780F. Fouedjio和H. Talebi0图8.合成案例研究——标记数据位置处的目标变量观测值与未标记数据位置处的目标变量预测值，分别为（a）地统计半监督随机森林，（b）传统随机森林，（c）具有未标记空间数据作为额外协变量的随机森林，（d）自训练随机森林。红线表示1:1线。0涉及利用目标变量的空间自相关性，在接近标记数据位置的未标记数据位置生成伪标签。目标变量的空间依赖结构用于定义与标记数据位置的接近程度。后者通常使用地统计工具（如变异函数（Chiles和Delfiner，2012年））来描述。变异函数的主要特征之一，即范围，用于定义与标记数据位置的接近程度。范围是变异函数趋于平稳的距离。范围的物理含义是，距离大于或等于这个距离的位置对空间上不相关。换句话说，距离范围更远的点是空间独立的。地统计半监督学习方法的起点是利用目标变量的观测值估计和建模目标变量的空间依赖结构（变异函数）。这是通过计算样本（实验）变异函数，然后拟合（例如，手动或自动拟合）到一类理论参数变异函数模型（有关变异函数估计和建模的更多细节，请参阅Chiles和Delfiner（2012年））。给定标记数据位置，任何落入以标记数据位置为中心、半径等于目标变量变异函数四分之一范围的邻域内的未标记数据位置都被选中进行伪标记。因此，只有具有0具有标记数据位置的强空间依赖性被考虑。让{��∈�}�=1，…，�；��∈{�+1，…，�}为伪标记选择的未标记数据位置集。伪标记是通过地统计条件模拟进行的。地统计模拟是蒙特卡罗模拟概念的空间扩展。除了复制数据直方图外，地统计模拟还遵循数据的空间依赖结构（变异函数）。在采样位置上模拟值与观测值完全匹配的模拟方法称为条件模拟。相反，不遵循数据的模拟方法称为无条件模拟。值得强调的是，地统计模拟考虑了非高斯数据。在后一种情况下，目标变量的高斯转换是模拟过程的一部分（有关地统计模拟的更多细节，请参阅Chiles和Delfiner（2012年）和Lantuejoul（2013年））。用于生成伪标签的地统计条件模拟方法是著名的克里金条件模拟，它是非条件模拟方法（例如，谱转动带方法）和克里金的组合（Chiles和Delfiner，2012年）。让{��(��1)，…，��(��)}0� =1 , … ,� 是伪0在选择的未标记数据位置生成的（合理的）标签。地统计模拟允许在每个选择的未标记数据位置获取多个伪标签，而不是单个伪标签。169𝐬0地球科学中的人工智能3（2022年）162–1780F. Fouedjio 和 H. Talebi0图9. 合成案例研究 —预测区间覆盖概率图（准确性图）。方法1指的是地统计半监督随机森林；方法2指的是经典随机森林；方法3指的是将未标记的空间数据作为额外协变量的随机森林。0因此，考虑了伪标记过程中的不确定性。给定伪标签集合 { � � ( � � 1 ) , … , � � ( � 0形成以下伪标记的空间数据集的集合 {( � ( � � 1 ) , � � ( � � 1 ) ) , … , ( � ( � � � ) 0用于增强原始训练数据集 � ( � 1 , … , � � ) 。这导致以下伪训练数据集的集合：{ � 1 , … , � � , � � 1 ,0� =1 , … ,� 其中每个 � � ( � 1 , … , � � , � � 1 , … , � � � ) = { ( � (0… , ( � ( � � ) , � ( � � )) , ( � ( � � 1 ) , � � ( � � 1 ) ) , … , ( � ( � � � ) , � � ( 。因此，原始训练数据集的大小增加了 �，即选择的未标记数据位置的数量。通过将受监督的机器学习模型暴露给尽可能多的数据，可以改善其训练。伪标记的空间数据提供了有助于受监督的机器学习模型训练的上下文。重要的是要注意，每个伪训练数据集都包含原始训练数据集。地统计条件模拟在这里用作标签生成器和数据增强方法。在许多情况下，至少 � = 50次模拟将提供足够的信息来解释伪标记的不确定性。更多的模拟可以更好地解释不确定性，但需要更多的计算时间。然而，需要注意的是，伪标签的生成可以并行进行。02.2. 训练受监督的机器学习模型0给定伪训练数据集的集合 { � � ( � 1 , … , � � ,0� =1 , … ,� 在前一节生成的伪训练数据集的集合，这一步是0在每个伪训练数据集上训练受监督的机器学习模型。我们选择回归随机森林，但也可以使用其他任何受监督的机器学习方法。空间预测的回归随机森林受欢迎的原因在于其能够高效处理许多预测变量，处理复杂的非线性关系和交互作用，需要较少的数据预处理，并且是一种非参数方法（无模型）。回归随机森林是一种集成机器学习方法，它在各种预测变量子集上构建了大量的回归树模型0使用可用预测变量的不同子集构建训练数据集（自举样本），然后进行聚合。在随机森林中，由于训练数据的自举抽样和预测变量子集的随机选择，每个构建的回归树模型都是独特的（与其他模型相关性较小）。组合的多个回归树模型降低了预测方差并提高了预测准确性。回归随机森林的预测是通过对所有回归树的预测进行平均得到的。对于每个伪训练数据集 � � ( � 1 , … , � � , � � 1 , … , � � � )，构建一个随机森林回归器 { � � � ( � ( � )) ∶ � ∈ � } （ � = 1 , … , �）。树的数量设置为1,000，并且通过交叉验证优化其他超参数。它们包括在每个节点随机选择的预测变量的数量，每个回归树中抽样的观测比例，以及回归树终端节点中的最小观测数。随机森林回归器的集合 { �� ( � ( � )) ∶ � ∈ � }0� =1 , … ,� 被聚合以提供0�� ( � ) = � � ( � (0� =1 �� ( � ( � )) , � � ∈ �. (1)0随机森林回归器的集成 { �� ( � ( � )) ∶ � ∈ � }0� =1 , … ,�也可以用于生成预测的不确定性。这可以通过计算预测集合的百分位数范围来实现。让 � � ( � ; � ) 为目标位置 � ∈ � 的目标变量 � 的预测分布，从预测集合中获得。0� =1 , … ,� . 目标的 100(1 − � )% 预测区间0位置 � ∈ � 的变量 � 的表达式为 [ � � � ∕2 ( � ) , � � 1− � ∕2 ( � )](0 < � < 1) ; 其中 � � � ∕2 ( � )表示 � � ( � ; � ) 的 � -分位数，并定义为 �� ∕2 ( � ) = inf{ � ∶ �� ( � ; � ) ≥ � }。因此，百分位数范围 �� 1− � ∕2 ( � )− �� ∕2 ( � )可以被视为预测不确定性的度量。特别地， � � 0 . 975 ( � )− � � 0 . 025 ( � )对应于95%预测区间的宽度 [ � � 0 . 025 ( � ) , � � 0 . 975 ( � )]将被用作在第3和第4节中呈现的案例研究中的预测不确定性的度量。以下的R软件包用于执行回归随机森林：ranger（Wright andZiegler，2017）和tuneRanger（Probst etal.，2018）。重要的是要注意，随机森林回归器的集成 { �� ( � ( � )) ∶ � ∈ � }0� =1 , … ,� 可以进行0同时，地统计半监督学习方法的概述使用伪算法1实现。02.3. 评估机器学习模型的性能0为了评估所提出的空间半监督学习方法准确预测目标变量的能力，将与传统的监督和半监督机器学习方法进行比较。比较将使用测试数据进行，即为整个分析保留的数据。用于定量评估预测准确性的标准包括：平均绝对误差（MAE），均方根误差（RMSE），确定系数（R-square）和Lin's一致性相关系数（CCC）（Steichen andCox，2002）。MAE和RMSE越低，模型越好。R-square和CCC接近1表示一个完美的模型。这些标准的计算如下：0�� = 10�0� =1 | � � − � � � | , (2)0�� =0√ √√ √10�0� =1 ( � � − � � � ) 2 , (3)0� 2 = 1 −0∑ � � =1 ( � � − �� ) 20∑ � � =1 ( � � − � � ) 2 , (4)0�� = 2 × 0� 2 �� + � 2 � + ( � � � − � � ) 2 (5)170,…,𝐿𝑙=1,…,𝐿;0地球科学中的人工智能3（2022）162–1780F. Fouedjio 和 H. Talebi0图10. 实际案例研究 — 空间详尽的辅助变量：(a) 海拔，(b) Landsat 8波段5，(c) Landsat 8波段6，(d) 重力勘测布格异常，(e) 重力勘测高通滤波布格异常，以及(f) 来自γ射线谱的铀计数。0Algorithm 1 地统计半监督学习用于空间预测0输入：标记的空间数据 � ( � 1 , … , � � ) = {( � ( � 1 ) , � ( � 1 ) ) , … , ( � ( � � ) , � ( � � )) } 和未标记的空间数据 � ( � � +1 , … , � � ) = { � ( � � +1 ) , … , � ( � � ) } ;0� � ∈ � � R � , � = 1 , … , � ; � � � . 1. 估计并建模目标变量的变程，使用观测值 { � ( � � )} � =1 , … ,� ; 2.选择未标记的数据位置，其到最近标记的数据位置的距离小于目标变量变程的四分之一；结果是一组 { � � � ∈ � } � =1 , … ,� ; � � ∈{ � +1 , … ,� } ;0伪标记的空间数据 {( � ( � � 1 ) , � � ( � � 1 ) ) , … , ( � ( � � � ) , � � ( � � � ) ) }04. 形成伪训练数据集的集合 { ( � ( � 1 ) , � ( � 1 )) , … , ( � ( � � ) , � ( � � )) , ( � ( � � 1 ) , � � ( � �1 ) ) , … , ( � ( � � � ) , � � ( � � � ) ) }05. 为每个伪训练数据集训练一个监督式机器学习模型；这将产生一组回归器 { �� ( � ( � )) ∶ � ∈ � }06. 通过平均化聚合回归器的集合： � � ( � ( � )) = 10输出：在空间域 � 上的预测目标变量 { � � ( � ) = � � ( � ( � )) ∶ � ∈ � }。1710地球科学中的人工智能3（2022）162-1780F. Fouedjio 和 H. Talebi0图11. 实际案例研究——采样位置上的辅助变量：（a）海拔，（b）Landsat 8波段5，（c）Landsat 8波段6，（d）重力勘测布格异常，（e）重力勘测高通滤波布格异常，以及（f）来自伽马射线谱的铀计数。0图12. 实际案例研究——（a）采样位置上的目标变量；（b）训练和测试数据位置。0其中 { � � } � =1 , … ,� 是测试位置上目标变量的实际值0位置 { � � ∈ � } � =1 , … ,� ; { � � � } � =1 , … ,� 是在测试位置 { � � ∈ � } �上目标变量的预测值； � 是测试位置的总数； � � 和 � 2 �分别是测试位置上目标变量的均值和方差0测试位置上目标变量的实际值； � �� 和 � 2 ��分别是测试位置上目标变量的预测值的均值和方差； �是测试位置上预测值和观测值之间的相关系数 { � � ∈ � } � =1 , … ,� 。172symmetric 𝑝-probability interval̂𝑄 (1−𝑝) (𝑗) , ̂𝑄 (1+𝑝) (𝑗) ; ̂𝑄 (1−𝑝) (𝑗) and̂𝑄 (1and (1ofe at te𝑗variable’s true values falling into the symmetric 𝑝-probability intervalis given as: ̄𝜅(𝑝) =1𝑟=1 𝜅𝑗(𝑝), where 𝜅𝑗(𝑝) = 1 if ̂𝑄 (1−𝑝) (𝑗) < 𝑌𝑗 <̂ (10地球科学中的人工智能3（2022）162-1780F. Fouedjio 和 H. Talebi0图13.实际案例研究——原始训练数据集中目标变量的变程图（实验和拟合）。拟合的变程模型对应于具有实际范围和坎的各向同性稳态指数模型，分别等于22，551.842和12,983.605。0用于评估预测不确定性准确性的工具是预测区间覆盖概率图，也称为准确性图（Fouedjio和Klump，2019年）。给定测试位置上目标变量的测量值 { � � } � =1 , … ,�，准确性图（即散点图）比较测试数据集中值落入对称 �-概率区间（PI）的比例与期望概率 � 的概率。按照构造，存在概率 � (0 ≤ � ≤ 1) 使得目标变量的真实值落入02 ( � ) 是（1− � ）02 预测分布的分位数02 ( � ) ，否则为 0 。点越接近45度线，0在准确性图中，线越接近双分量的模型就越校准。具体地，使用良好度统计量（G-统计量）来量化准确性图中点与双分量的接近程度： � = 1− ∫ 1 0 [3 � ( � )−2][ ��)− � ] �� , 其中 � ( � ) = 1 �� ( � ) >� . � 的值位于区间 [0 , 1] 内。当 �� ( � ) =1] 时，� = 1 ，对应于最大的良好度。当任何PI中都不包含真实值时，即 �� ( � ) = 0, � � ∈ [0 , 1] 时，� = 0 。� 的值越高，模型的校准度越高。03. 合成案例研究0首先，基于随机森林的地统计半监督学习首先应用于合成空间数据，该数据在研究区域内的地面实况是全面可用的。将其与经典随机森林、将未标记的空间数据视为附加协变量的随机森林以及自训练随机森林进行比较。前两种机器学习方法是监督的，而最后一种是半监督的。所有竞争的机器学习方法都基于随机森林。决策树的数量（1,000）对所有竞争的机器学习方法都是相同的。其他超参数通过交叉验证进行优化。经典随机森林是在R软件包ranger（Wright andZiegler，2017）和tuneRanger（Probst etal.，2018）中实现的。自训练随机森林是在R软件包ssr（Garcia-Ceja，2019）中实现的。0表1 合成案例研究—模拟参数。0变量平均值变程类型变程尺度变程坑0�1(�) 0 立方体 300 1 �2(�) 0 球状 300 1 �3(�) 0 基本正弦 15 1 �4(�) 0 线性 0.003 – �(�) 0 指数130 4000使用以下模型生成合成空间数据：0�(�)=5�1(�)×�2(�)+5�3(�)2+15sin(�4(�))+�(�)，0��∈[0，800]×[0，500]，（6）0其中�1(�)、�2(�)、�3(�)和�4(�)是辅助变量，�(�)是潜在（未观察到的）变量，�(�)是目标变量。�1(�)、�2(�)、�3(�)、�4(�)和�(�)是具有在表1中指定的均值和各向同性稳态变程模型的独立高斯随机场。有关高斯随机场的背景，请参阅Chiles andDelfiner（2012）。辅助、潜在和目标变量在空间域[0，800]×[0，500]的400×250正则网格上生成。模拟是通过R软件包RGeostats（Renard etal.，2021）中实现的转向带方法进行的。这个模拟的例子描述了目标变量与辅助变量之间存在非线性关系，并且存在一些辅助变量之间的相互作用。此外，目标变量显示出一定的空间自相关性，并且其分布是非高斯的。0图1显示了目标和辅助变量地图。共有� = 100,000个数据位置。图2描述了� =1,000个随机抽样的数据位置，形成标记的空间数据�(�1，…，��)={(�(�1)，�(�1))，…，(�(��)，�(��))}（原始训练数据集）。其余的数据位置（�−�=99,000）被视为未标记的空间数据�(��+1，…，��）={�(��+1)，…，�(��)}，在隐藏相应目标变量的观测值{�(��+1)，…，�(��)}后。因此，标记的和未标记的空间数据分别表示数据的1%和99%。因此，我们处于��的情况。目标是使用标记的和未标记的空间数据来预测相同的400×250正则网格上的目标变量。预测将与隐藏的目标变量的观测值{�(��+1)，…，�(��)}进行比较。地统计半监督学习方法的第一步是从目标变量的观测值中估计和建模目标变量的变程。对应的变程图（实验和拟合）显示在图3中。可以清楚地看到目标变量显示出

下载后可阅读完整内容，剩余1页未读，立即下载