地球科学中的人工智能：高分辨率遥感数据的机器学习应用

158 浏览量更新于2023-12-06 收藏 2.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

地球科学中的人工智能4（2023）9从高分辨率遥感数据通过机器学习：应用于威特沃特斯兰德金矿区Steven E. Zhang a，b，*，Glen T. 放大图片作者：Julie E. 布尔多a，b，优素福·古尔巴尼c，d，伊曼纽尔·约翰·M 卡兰萨ea加拿大自然资源部，加拿大地质调查局，601 Booth Street，Ottawa，Ontario，K1A 0E8，CanadabWits矿业研究所，威特沃特斯兰德大学，Private Bag 3，2050，Wits，南非c土木、环境和自然资源工程系，吕勒诺布尔理工大学，SE 97187，吕勒诺布尔，瑞典d林肯大学化学学院，Joseph Banks Laboratories，Green Lane，Lincoln，Lincolnshire，LN 6 7DL，United Kingdom南非自由州大学地质系，地址：205 Nelson Mandela Dr，Bloemfontein，9301，South AfricaA R T I C L EI N FO保留字：遥感大地球化学数据机器学习尾矿储存设施威特沃特斯兰德盆地干实验室A B S T R A C T遥感数据是一种廉价的地表地球科学数据形式，从准确性、速度和数量上看有时也可以被认为是大数据。随着时间的推移，其空间和光谱分辨率不断提高，一些现代卫星，如哥白尼方案的哨兵 - 2 号遥感卫星，在其许多光谱波段上提供 1 0 米的空间分辨率。遥感数据的丰富性和质量与积累的原生地球化学数据相结合，为遥感数据向地球化学数据的间接反演提供了前所未有的机遇。从遥感数据中获取地球化学数据的能力将提供一种次级大型地球化学数据，可用于许多下游活动，特别是在数据及时性、数量和速度很重要的情况下。二次地球化学数据的主要受益者是环境监测以及人工智能和机器学习在地球化学中的应用，目前完全依赖于主要由科学还原指导的手动数据。此外，它允许使用从地球化学到遥感的成熟数据分析技术，从而允许提取超出通常与严格的遥感数据分析相关的有用见解。目前，在地球科学领域还没有一种普遍适用的、系统的方法来从大尺度遥感数据中获取化学元素浓度。在本文中，我们证明了融合地质学增强的地球化学和遥感数据会产生丰富的数据，从而能够生成更通用的基于机器学习的地球化学数据。我们使用的黄金品位数据从南非尾矿存储设施（TSF）和数据从Landsat-8和哨兵遥感卫星。我们证明了在训练数据丰富的情况下，可以使用各种机器学习算法。因此，我们能够产生一个高分辨率（10米网格大小）的金浓度图的TSF，这表明我们的方法用于指导提取规划，在线资源勘探，环境监测和资源估计的潜力。1. 介绍遥感提供了一些最便宜的，有时是开放的勘探数据。遥感平台的多样性包括基于卫星的遥感，并被用于许多目的（Rajesh，2004年; Song等人，2020; Ge等人，2020; Shirmard等人，2022年）。从跨学科的角度（以数据为中心的方式，这些类型的数据是现代的（机器可读和高质量）和丰富的（结合足够的速度接近或达到大数据的水平）。这类数据是以数据为中心的实验室的关键投入，这些实验室可以快速消耗数据，并依赖于及时获得地球科学数据（例如，干实验室; Ghorbani等人，2022年、2023年）。遥感数据的其他好处包括其广泛的（空间和时间）覆盖面，* 通讯作者。加拿大自然资源部，加拿大地质调查局，601 Booth Street，Ottawa，Ontario，K1A 0E8，Canada。电子邮件地址：ezhan053@uottawa.ca（S.E.Zhang）。https://doi.org/10.1016/j.aiig.2023.01.005接收日期：2022年10月31日;接收日期：2023年1月31日;接受日期：2023年1月在线预订2023年2月6日2666-5441/© 2023作者。Elsevier B. V.代表KeAi Communications Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表地球科学中的人工智能杂志主页：www.keaipublishing.com/en/journals/artificial-intelligence-in-geosciencesS.E. Zhang等人地球科学中的人工智能4（2023）910它们在能力上的不断改进（例如，空间和光谱分辨率）。例如，Landsat1至Landsat 8的Landsat卫星在其分辨率和传感器能力方面不断地和反复地改进（NASA 1997; Barsi等人，2014年）。我们期望卫星遥感技术的改进将继续下去。然而，尽管地球化学和遥感探测地球表面，它们的数据包含高度不同的内容。在可变域中，光谱带是矿物和化学元素的复合响应（以及其他分子响应，例如，水、人为和生物反应），而地球化学数据通常描述元素或氧化物浓度。遥感对于地质测绘和/或矿物勘探已经是期望的，特别是在勘测阶段（Diaz-Rodriguez等人，2021年）和必要的物理访问是困难的，季节性的，或存在政治和环境敏感性（Ciampalini等人，2013; Ali等人，2015年）。反相远程感测数据成二次地球化学数据创造了许多好处，本研究实现的最相关的好处是：(1)二次地球化学数据的空间分辨率、速度和数量远远超过一次地球化学数据;三次地球化学数据的成本大大低于一次地球化学数据。这些好处对于维持人工智能在地球科学中的使用至关重要，因为初级地球科学数据是昂贵的，机会主义的（Deme-trides等人，2018; Dramsch，2020），并且不切实际或不可能向大数据扩展。尽管地球化学数据对许多用途都很重要，例如探矿制图（Zuo，2020年; Lawley等人，2021），这样的数据通过手动和全接触过程（例如， Govett ， 1983; Friske 和Hornbrook，1991; Moon等人，2006），并根据科学还原的哲学进行设计（朝向增加准确性和精确度，例如，从光谱分析到质谱分析; Cohen等人，2010年）。还原数据和机器学习是不匹配的，因为机器学习在系统级别处理数据。例如，对动物物种进行分类的深度学习任务使用各种背景和视角中的动物图像（例如，Hou等人，2020; Prudhivi等人，2021年）。这项任务不依赖于昂贵的还原数据，如基因测序数据。随着地球科学数据消费者从领域内转向跨学科专家（Ghorbani等人， 2022年，例如， Lawley等人， 2021年），数据一般-也必须相应地发展（Ghorbani等人，#20203;理想的。获得一些大数据特征（He等人，2022年）。对地球科学界采用人工智能引起的数据要求变化的认识尚不成熟，但正在不断增长（Chen和Lin，2014年; Karpatne等人，2018; Zhang和Lu，2021; He等人， 2022年）。干尾矿库为遥感数据反演地球化学数据提供了理想的方法开发环境。这是因为：（1）TSF化学和矿物成分部分是人为的;（2）地球化学调查通常用于描绘资源分布并指导废物再利用;（3）它们显示出表面特征，通常远离城市基础设施，这有利于遥感而不利于人工调查方法（Ciampalini等人，2013年）。还有其他动机，包括：（1）尾矿可能成为一种非常规资源（Nwaila等人，2021 a，2021 b）的关键原材料（Rachidi等人，2021和其中的参考文献），特别是历史尾矿，因为提取方法的选择性较低，矿体的品位通常较高（Prior等人，2012; Nwaila等人，2019年）;（2）与常规矿产资源不同，TSF的资源品位较低，地球化学调查的成本效益比不太有利;（3）有管理的TSF需要不断进行环境监测和评价;（4）遥感的网格性质意味着下游地质统计处理可能是不必要的，因此，可以消除估计误差的额外来源。由于这些原因，卫星遥感数据可能是有用的。遥感图像的分析包括诸如假彩色合成、图像处理、波段比和主成分分析等技术（Ciampalini等人，2013年; Beiranvand Pour和Hashim，2014年）。这些方法利用矿物的不同光谱响应，以及整个电磁波谱中土地覆盖的一般成分。显示区域岩性和矿物学的带比图（Agar和Coulter，2007年; Asokan等人，2020; Marghany，2022）已经与下游处理相结合，以识别物体，包括矿床（Amer等人， 2010; Noori等人，2019年）。因此，波段比分析是一种知识驱动的遥感数据反演矿物成分的方法。知识驱动反演的前提是存在目标矿物及其光谱响应形式的局部知识（Marghany，2022年;例如，Cao等人，2020年）。在适当的情况下，可以将遥感数据反演为地球化学数据（例如：例如，在一个实施例中，良好的覆盖率和微不足道的土地覆盖）。这依赖于这样一个事实，即在岩石和矿物成分相似的情况下，光谱响应也相似，因此元素浓度是可预测的（Marghany，2022）。仅仅使用知识将遥感数据转化为地球化学似乎很难，因为的催生带比分析不能明确地将一般光谱反射与材料化学联系起来，因为光谱反射光谱响应在宏观尺度（光子-矿物相互作用）而不是微观尺度（元素）编码信息（Marghany，2022）。然而，缺乏一般知识驱动的解决方案并不能消除具体的解决方案。一个不同的视角是数据驱动的视角，它将反演问题视为推理建模问题（例如，Guo等人， 2016; Shen等人，2019年;Cheng等人，2021; Xiao和Wan，2021）。虽然光谱响应的物理学从宏观尺度向上是尺度不变的，但是在提取到受益阶段（例如，Xiao等人，2019年、2021年）。使用非接触式传感器的期望是由工业过程的苛刻性质引起的，尽管传感器变化，例如，近红外光谱（Bath，2007; Cao，2013）、中红外傅里叶变换光谱（Griffiths等人，2007）和拉曼光谱（Rudolph和Hefter，2009）。机器学习是一门与机器的能力有关的学科模仿生物学习（Mitchell，1997）。机器学习算法通过对由数据编码的模式进行建模来学习，这对各种任务都很有用，包括预测建模、异常检测、降维等。机器学习在遥感中的常见用途是土地利用或覆盖、植被和水的分类（Mather和Tso，2009年; Sehgal，2012年; Al-doski等人，2013; Madhuanand等人，2021年）和发现矿藏（Cracknell和Reading，2014年; Harvey和Fotopoulos，2016年; Bachri等人，2019; Chakouri等人，2020年; Song等人，2020; Madhuanand等人，2021年）。遥感和机器学习的组合可以克服知识驱动方法的一些缺点，例如解释器的主观性，模型和手动导出的模型（例如，波段合成物），以及遥感特有的问题（Beiranvand Pour等人， 2016，2019; Lary等人，2016; Dai等人，2017年）。遥感数据到地球化学数据的推理反演在文献中是罕见的，但已经记录了一系列金属（例如，Fe、Cu、As、Hg、Mo、Pb和Zn）和非金属（例如，P）元素（例如，Guo等人，2016; Shen等人，2019年;Cheng等人，2021; Xiao等人，2021; Xiao和Wan，2021）。所有方法（Guo等人， 2016; Shen等人， 2019年; Xiao等人， 2021年;肖和Wan，2021）采用高质量的标记数据（例如，丰富，帽-建立必要的关系并代表部署区域）。虽然遥感数据的丰富性和现代性适合于基于机器学习的遥感反问题解决方案，但局限性是地球化学数据的缺乏。的方式现有方法克服地球化学数据缺乏的能力是它们的主要区别。使用参数化模型，特别是多元线性回归（例如， Cheng等人，2021年）减少了S.E. Zhang等人地球科学中的人工智能4（2023）911相对于具有更多自由度的机器学习模型所需的数据。另一种流行的方法是采用训练数据有效的算法，例如极端学习算法的变体。表1陆地卫星8/9业务陆地成像仪和热红外传感器的能力（美国地质勘探局，2022年）。chine（Xiao等人，2021; Xiao and Wan，2021），这并不需要-波段、常用缩写和波长决议状态反向传播然而，有限的训练数据排除了更广泛的适用算法的好处。解决地球化学数据短缺的办法并不独特。一种解决方案是数据扩充（例如，Shorten等人，2019年），它为预测建模提供了许多功能，并已成功地用于其他领域，以克服数据稀缺性（例如，Bird等人， 2020年）。在我们的案例中，通过使用地质统计建模来增强训练数据。这一过程将稀疏的地球化学数据转换为高分辨率的空间模型，当与遥感数据融合时，为各种机器学习算法创建了足够的训练数据。地质统计学增强数据原则上与遥感数据完全匹配，因为这两类数据都能捕捉到空间平均响应，而且都是网格化的。因此，地质统计建模也是支持度变化问题的一种特殊解决方案（例如，通过逐点样本表示区域），并实现严格的地理空间数据融合（Gelfand等人，2001年;Gotway和Young，2002年）。克服数据稀缺的解决方案可以使人工智能在地球科学中得到更广泛的应用。本研究展示了一种使用机器学习、增强的遗留地球化学数据和基于卫星的遥感数据从遥感数据中获得高分辨率地球化学图的方法。我们使用Landsat-8和Sentinel-2卫星数据的组合和遗留地球化学数据，用于南非威特沃特斯兰德金矿区反过来，这将协助矿山废物的价值评估，实现在线资源评估在提取和持续监测时空变化的过程中，并创建地球化学图。此外，我们的方法使地球化学数据能够作为真正的大数据提供。2. 方法2.1. 遥感数据本研究中使用的遥感数据来自两颗卫星，因为它们对TSF的时间覆盖不同的卫星是 Landsat-8 （以下简称 Landsat ）和哥白尼计划的哨兵 -2（Sentinel）。TSF的推出时间早于Sentinel卫星的发射时间，这在Sentinel数据和地球化学数据之间造成了很大的空间差异，从而妨碍了空间数据的融合（整合）（Abdalla，2016）使用Sentinel数据。相反，大地卫星数据被用来优化空间对齐。在优化地球化学和遥感数据集的空间排列之后，使用了分辨率较高的哨兵数据进行预测建模。虽然高光谱数据也是可用的，但我们采用多光谱数据有两个原因：（1）多光谱数据具有更高的空间分辨率，在我们的情况下，重要的是最大化训练数据的量;以及（2）高光谱数据的波段数量意味着机器学习特征的量更高，因此特征空间中的数据密度更低。如果我们采用来自类似来源的高光谱数据，与多光谱数据相比，从10 μ m到30 μ m的分辨率意味着训练数据将是原始体积的大约1/9。如果将每个波段视为机器学习特征，则由于维数灾难而导致高光谱数据中相对于多光谱数据的波段数量增加，这将大大加剧（Trunk，1979年;Anglasekaran和Jain，1974年;McLachlan，2004年）。在这些因素不成问题的其他应用中，则可以使用高光谱数据来代替多光谱数据。有关Landsat-8卫星的信息，请参阅USGS（2022），其操作陆地成像仪和热红外传感器，请参阅Irons等人。（2012）和Roy等人（2014）。关于哨兵卫星的描述（μm）（m）频带1 -沿海气溶胶0.43带2-蓝色0.43波段3-绿色0.53波段4-红色0.64波段5 -近红外0.85波段6-短波红外1（SWIR 1）1.57 - 1.65 30波段7 -短波红外2（SWIR2）2.11波段8-全色0.50第9波段波段10 -热红外110.6波段11 -热红外211.50-12.51 100（2 A和2 B），参见Ge et al.（2018），其单个多光谱传感器，参见Vaiopoulos和Karantzalos（2016）和Park et al.（2017）。Landsat 8/9和Sentinel光谱仪器的光谱和空间能力总结见表1和表2。哨兵数据在从可见光和近红外（VNIR）到短波红外（SWIR）范围的光谱、空间和时间分辨率方面超过了来自传统地质多光谱成像卫星的数据，如大地卫星和高级星载热发射和反射辐射计（ASTER）（Beiranvand Pour等人，2016年，2019年）。此外，Sentinel是第一个能够在红边显示三个波段的民用地球观测任务。13个波段内的10米空间分辨率使得能够与SPOT-5和大地卫星飞行任务不断协调（Van der Meer等人，2014; Van der Werff和van der Meer，2015）。Landsat和Sentinel卫星的辐射分辨率均为12位。对于这两颗卫星，我们利用大气层顶部的子集，这是无云的，并进行了大气校正，以亲，使用欧洲航天局Sen2Cor 处理算法的 ATCOR 模型 (ESA; 克里斯托拉里和Karathanassi，2020）。所有图像都是无云的1级T（L1 T，地形校正），并从美国地质勘探局地球资源观测和科学中心（USGS-EROS，http：//earthexplorer）收集。usgs.gov/）上提供。概念验证区域以南非Witwa- tersrand金矿区的传统TSF为中心，周围有一些植被，人为结构（图1）。哨兵和大地卫星数据覆盖面积为1.86 平方公里（458.39英亩）。这两个数据集都使用了通用横轴墨卡托（UTM）地图投影和世界大地测量系统84（WGS 84）基准面。本研究中使用的Landsat图像于2013年5月5日收集（元数据：来自欧洲石油调查组（EPSG）的坐标参考系统（CRS）32，735，变换：仿射[30，0，536，985，0,-30,-2765 ， 085];身份证号：LANDSAT/LC08/C01/T1_SR/LC 08_170，078_20，130，505;版本号：1522720687378920.0。本研究中使用的Sentinel图像于2015年8月24日采集（元数据：来自欧洲石油调查组（EPSG）32，735的坐标参考系（CRS），变换：仿射[20，0，499，980，0，-20，7，200，040];ID：COPERNICUS/S2/20150824T082656_20150824T082659_T3 5 JNM;版本： 1 ， 618 ， 001 ， 523 ， 716 ， 097; 数据采集标识符：GS2A_201508 24T082656_000890_N02.04;的本研究中使用的陆地卫星数据波段包括波段1到波段27.全色波段（波段8）、卷云波段（波段9）和全反射红外光谱波段的分辨率远低于波段1至7，因此不包括在内类似地，除1、9和10外，条带1至12用于Sentinel数据。使用Rasterio和GEEMAP Python库对遥感数据进行预处理（Wu等人，2019年;吴，2020年），并包括辐射校准，大气校正，几何校正通过仿射平移和噪声去除。对于矿物勘探和岩性分类，辐射校正对于最小化光谱数据中的像素误差很重要（Rajendran和Nasir，2014年;Cooley等人，2002; Salem等人，2016年）。辐射S.E. Zhang等人地球科学中的人工智能4（2023）912表2Sentinel-2卫星的光谱带（Clerc等人， 2022; https://sentinel.esa.int/web/sentinel/missions/sentinel-2）。Sentinel-2A Sentinel-2B中心波长（nm）带宽（nm）中心波长（nm）带宽（nm）空间分辨率（m）波段1第二组第三组第4组第5类第6类波段7波段8波段8 A第9类波段10波段11波段12Fig. 1. 本研究中使用的尾矿储存设施（TSF）在（a）2012年，（b）2015年与土地覆盖分类叠加，（c）2022年与土地覆盖分类叠加，以及（d）2022年成像。扇形特征从左向右延伸（在（d）中最明显的是主存储区）。校准优化遥感图像的最佳辐射率，反射率或亮度温度。为此目的，使用基于第一性原理的光谱超立方体快速视线大气分析方法处理遥感数据，该方法可校正可见光、近红外和短波红外范围内最长3米的波长（环境和植物研究所，2009年）。对于我们的数据，热带大气和农村气溶胶模型用于FLAASH算法（Manakos等人，2011年）。因此，光谱仪辐射率数据被转换为反射率数据。波段重新定标是遥感数据的一种常见程序，如果数据将用于波段比分析（例如，Pohl和Van Genderen，2014; Salem等人， 2016年）。然而，我们采用频带幅度归一化作为机器学习（特征重新缩放）的一部分。关于遥感数据的可视化，见图。二、2.2. 地球化学数据源和训练数据包含目标（金[Au]）浓度的地球化学数据需要与遥感数据整合，使得融合数据呈成对特征和标签格式的形式（He等人，2010;例如，Aiazzi等人，1999; Bannari等人，2016年），为预测建模做准备。数据融合已被用于其他类似的任务，S.E. Zhang等人地球科学中的人工智能4（2023）913图二. 将（a）哨兵和（b）大地卫星遥感数据叠加在当地卫星图像上进行可视化。请注意，与陆地卫星数据相比，哨兵数据的空间分辨率较高。此外，由于植被茂密，尾矿体西北部的响应在（b）中的陆地卫星数据中大部分缺失（见图1a）。为简洁起见，未示出所有条带。例如岩性制图（Wang等人，2021年）。在数据融合之前（Abdalla，2016），遥感和地球化学数据存在于不同的数据集中，具有不同的投影和空间偏移。Silbanye-Stillwater以两种形式提供地球化学数据：（1）Au分析的岩心数据;（2）从（1）和额外的抓斗取样中得出的地质统计资源模型。这些数据说明了TSF选定地区内所含资源的特点。地质统计学模型通过提供分辨率偏向较浅深度的高分辨率3D点云，增强了主要岩心（和抓斗样品，这是本研究不可用的）数据。增强的地球化学数据是由276，622个网格点的散点云组成的可变密度3D资源模型，分辨率为0.5m（图3 a）。由于保密协议，坐标是部分修改以保护西班耶-斯蒂尔沃特的专有信息。此外，提供的坐标是基于企业使用的高斯共形投影的本地坐标参考系统（图3a）。由于维度和投影不匹配，3D模型不能与2D遥感数据直接整合/融合，因此，我们对3D模型进行降维，通过将3D模型分割成分辨率为1 m的离散3D垂直列（X和Y坐标），并从每个列的顶部10 cm处略读数据，从而产生2D模型（图2）。 3 b）。这产生了薄的表面模型，图三. 尾矿储存设施内金资源的（a）3D和（b）2D模型。X坐标和Y坐标都在本地专有坐标参考系中。见图4。使用Spearman秩相关系数来确定2D资源模型与遥感数据 Y轴偏移量是2.89 × 10 6常数的补充m观察。然后将其垂直平均以产生2D资源模型。2D资源模型保留了原始3D模型数据的63.65%，共计176，071个数据点。当地CRS到UTM坐标的转换是简单的，除了在资源模型中检测到相对于遥感数据的恒定偏移。质量上，偏移量为2.89×S.E. Zhang等人地球科学中的人工智能4（2023）914表3所用机器学习算法的参数网格算法参数网格kNN k={2到16，间隔为1}SVM C={10，100，200，400，600，800，1000}，ε={0.00001，0.0001，0.001，0.01，0.1，0.5，1.0}，核={线性，径向基函数（RBF）}随机森林AdaBoost包围圈大小={1000，1500};最大深度={9，11，13，15，无限}，最大特征数={2，3，4，5，6，7，8，无限}，分割的最小样本数={2，3，4，5，6}，叶的最小样本数={1，2，3，4，5，6}分类器的数量={100，200，300}，基本算法=具有与随机森林算法ANNα={0.0001，0.001，0.01，0.1，1.0}，激活={identity，logistic，tanh，relu}，学习率={constant，inverse scaling，adaptive}，最大迭代次数={1500，2500}，隐藏层大小={1500，2500}{100，150，200}图五. （a）二维资源模型（图3b）与大地卫星遥感数据最佳对齐的可视化。(b)使用二维资源模型（图3b）和标准化的哨兵遥感数据（例如，图2a）.该多边形描述了在数据集成之后丢弃的资源模型部分，因为该区域已经被提取。在Y方向上为106m，在X方向上为10 m。然而，由于数据的私人性质，我们无法验证确切的偏移量。相反，我们执行了网格搜索，以最大限度地匹配的2D模型与遥感数据使用斯皮尔曼排名，平均在所有波段（图4）。请注意，这是一种启发式方法，并且鉴于所提供的地球化学数据的模糊背景，这是必要的。这个过程一般不是我们方法的要求。网格搜索使用Landsat数据进行，因为它是时间上与资源模型的最佳匹配。虽然大地卫星数据与资源模型最匹配，但其分辨率（30米分辨率）低于哨兵数据（10米分辨率）。此外，TSF的未提取的西北部部分被陆地卫星数据捕获的植被覆盖（图1和图2）。图1a和图5a，左上角，注意到TSF西北部缺乏遥感响应）。Sentinel数据是TSF状态的最新表示。一旦2D资源模型与遥感数据最佳匹配，就使用资源模型和Sentinel数据集原生分辨率（10米网格大小）的Sentinel数据进行数据整合。这导致创建了17，346个空间匹配的像素，其中包含Sentinel数据的波段振幅和研究期间每个网格单元内Au品位的未加权平均值区此后，由于部分TSF已被提取，当哨兵卫星发射时，我们去除了失配部分（图5b）。在删除不匹配的数据后，数据集包含14，721个数据点，是原始数据集的84.87%。2.3. 基于机器学习的预测建模机器学习算法被用来建立遥感响应（特征）和地球化学浓度（数据标签）。有许多合适的监督算法，在算法的复杂性和合理性的范围。更简单的算法构建模型或产生更人性化的结果。复杂的算法在设计上不太容易解释，但在某些情况下，可能会产生更高性能的模型。我们有意探索了几种用于科学目的的特征浅层学习算法，其中预测建模性能不是单一的基本结果，而是方法的可解释性和可复制性。在这项研究中探索的算法是：k-近邻（kNN），支持向量机（SVM），随机森林，自适应提升决策树（AdaBoost）和人工神经网络（ANN）。这些算法代表了潜在有用方法的多样性，包括简单的非参数方法（kNN）、参数方法（SVM）、集成和增强方法（分别为随机森林和AdaBoost）以及简单的基于神经网络的方法（ANN）。这些算法及其超参数的详细信息在Zhang et al. （2021年，2022年）。在我们的案例中，使用机器学习算法来构建模型，以捕获光谱响应与Au品位之间的关系。每个波段的光谱响应数据使用特征重新缩放进行重新缩放，使得重新缩放的数据跨越数值范围从0到1（图） 5 b）。算法和模型选择以及性能使用10倍交叉验证进行评估。我们采用了决定系数（CoD或R2）度量进行模型调整和选择，此外，还采用了绝对误差（MedAE）和平均绝对百分比误差（MAPE）来分析交叉验证结果。训练数据是由资源模型和Sentinel数据（其中存在Au等级）的空间数据集成产生的整个数据集。除了使用训练数据进行交叉验证外，我们还将最佳模型部署到TSF的其余部分，其中没有已知的资源信息。算法的参数网格如表3所示。数据预处理、机器学习和可视化在Python中实现，特别是对于机器学习，使用Scikit-Learn库（Bui-tinck等人， 2013年）。3. 结果在训练数据生成之后，各个波段与Au品位之间的关系是复杂的，并且通常是非线性的（图6）。如图6所示，随着带振幅的增加，Au品位有增加的趋势。然而，这种关系不是单音调的，因为响应在高频带幅度处可以反转。例如，频带幅度之间存在负相关性在高波段振幅（图6 c中2215 ~ 3375波段振幅和0.4-0.6 g/t）下的金品位特别是，似乎有两个可辨别的数据簇，一个簇出现在相对较低的波段振幅，另一个簇出现在相对较高的波段振幅（图6）。基于对整合/融合数据集的探索性分析，我们预计，S.E. Zhang等人地球科学中的人工智能4（2023）915图第六章综合数据集的Au品位（g/t）与波段振幅1至12（分别为a至i）的关系。表4最佳预测结果和模型超参数。算法COD MAPE MEDAE参数KNN 0.667 0.068 0.017k= 3随机森林0.8530.0450.012最大深度=无限，最大特征数=7，叶的最小样本数=1，分割的最小样本数=5，估计数=1500见图7。比较几种机器学习算法的各种指标，用于100次随机交叉验证。ADABOOST 0.917 0.027 0.006最大深度=无限，最大要素数=4，叶的最小样本数=1，分割的最小样本数=4，包围大小=300在带放大器和Au等级之间将存在非平凡的空间关系。特别是，虽然我们预计金品位一般与局部带幅度相关，但更详细的变化将是非线性的，可能违反直觉（例如，更高的频带幅度并不总是导致更高的Au等级）。算法选择表明，该任务的最佳算法是kNN，随机森林和AdaBoost算法。阻止-S.E. Zhang等人地球科学中的人工智能4（2023）916见图8。使用（a）kNN、（b）随机森林和（c）AdaBoost算法预测黄金分布图。基于平均100次运行获得的交叉验证结果进一步支持了这一发现（图7）。表4总结了三种最佳算法及其性能。支持向量机和人工神经网络不能得到令人满意的结果。交叉验证结果表明，AdaBoost al-tase的MedAE测量的中位误差通常为0.006 g/t，MAPE为0.027或2.7%。相比之下，随机森林的误差大约是两倍，kNN算法的误差大约是三倍。对于三种最佳算法（图8a中的kNN; b中的随机森林; c中的AdaBoost），预测图显示出与训练区域内的资源模型的良好一致性。特别是，在随机森林和AdaBoost预测图（分别见图8b和c）中，可以观察到两个高金品位的东西向线性延伸之间的分离。对于kNN预测图，这种描绘不太明显（图8a）。值得注意的是，高金品位的两个东西向延伸段的物理位置与峰带振幅的两个东西向延伸段不重叠（见图5）。很明显，高Au品位区域不仅仅是遥感数据也表现出高振幅的地方，正如TSF南端Au品位的东西渐变所证明的那样，这在遥感数据中是没有观察到的（例如，图 3和5）。这种行为是有质量的-通过综合的探索性数据分析，数据（图6）。所有部署模型（图8）预测，图右下方多边形内已开采的TSF部分（图5b）的金品位低到可忽略不计，因此无意中用作部署测试。这种行为，结合交叉验证分数和TSF中两个明显可分离的富Au延伸的观察，增加了我们对模型可部署性的信心。TSF之外的预测清楚地表明，尽管训练数据没有捕获TSF之外的任何部分，但性能良好的算法通常可以正确地分配这些地区的金品位很低。虽然我们可以只呈现与TSF内部相关的结果，但我们希望了解地形上的算法行为，这些行为与训练数据中的行为截然不同。这一点很重要，因为手动验证物理位置的性质（它们是否与训练数据中的地形相当）并不总是发生，特别是在远程设置中。因此，考虑到在无法到达的地点使用遥感，在任何培训中消除所有看不见的地形并不总是实际的，甚至是不可取的。4. 讨论4.1. 从遥感数据推导地球化学本案例研究中使用TSF的预测性能对于概念验证研究而言非常出色（表4）。CoD、MAPE和MedAE等典型指标表明，平均和中位数预测误差均较低（约为0.01 g/t MedAE，MAPE小于10%;图7）。一些关键特征是可以观察到的随机森林和AdaBoost的结果，例如TSF南端Au浓度的两个东西趋势的分离（图8b与c分别比较）。然而，TSF之外的预测在随机森林和AdaBoost算法之间形成了更大的对比。在TSF之外的金的轻微富集（在本研究中可能是不真实的和物理上无法验证的）更具选择性，但相对于其他算法，AdaBoost结果中的浓度通常更高（图8c）。在Witwa tersrand TSF（开放/未覆盖）的情况下，大量的表面侵蚀和灰尘的散布（例如，Oguntoke等人，2013; Kneen等人，2015）可以在TSF之外创建富集签名。尽管如此，对训练数据中未采样的地形进行预测通常是不好的做法，S.E. Zhang等人地球科学中的人工智能4（2023）917=当数值范围超过训练数据所覆盖的数值范围时（因此预计会发生外推），这一点非常明显。这对于外推性较差的算法（如随机森林算法）来说更为重要。尽管在遥感数据的情况下，一般来说，未采样的地形将表现出在数值上超出训练数据的响应是不明显的。这一观察结果与预测结果相结合的一个含义是，在物理位置无法进入的地方（恰好在遥感更有用的地方），验证训练数据对部署地区的代表性将是一个挑战。遥感数据相对于传统地球化学数据的优势包括：覆盖范围、空间分辨率和数据速度。然而，将遥感数据反演到特定的矿物和元素是一个挑战。我们提出的使用机器学习的推理方法利用了一个关键的认识，即数据增强是克服合适空间数据的数据稀缺性的有效方法。一旦数据稀缺问题得到解决，许多机器学习算法就可以用于工作流开发。在我们的案例中，我们探索了几种合适的浅层学习类型的机器学习算法。然而，情况不一定如此，并且在数据甚至更丰富并且可解释性不重要或次要的情况下（例如，为了工程目的而不是科学目的），可以应用深度学习，只要成本效益分析支持其使用。对于我们的应用程序，考虑到通过交叉验证观察到的高CoD，很难实现更高性能的好处。遥感数据可能仍然是最负担得起的，在勘探和环境监测方面，最容易获得的地球科学数据类型。同样，传统的（原始的）地球化学数据也不可能被推断的地球化学数据所取代。然而，在传统地球化学数据的高精度与遥感数据的大数据特征之间，仍然存在着海量、高速的二次（推断）地球化学数据的缺口。将遥感数据反演为地球化学数据可以填补这一空白，从而在地球化学和遥感之间架起一座桥梁。双方的好处包括利用遥感数据的地球化学数据分析技术的能力（例如，资源评估或远景图），并将真正（在我们的情况下，免费）的大数据带入地球化学。大的地球化学数据是持续发展和部署特定于地球化学的人工智能方法的关键。此外，重新利用传统的地球化学数据可以使遗留的地球化学数据恢复活力，并提取额外的且有时不可替代的价值（例如，在物理访问不再可能的情况下从遥感数据生成地球化学数据，通过提供高分辨率、及时（包括历史可用性）和数量级的廉价，与当前实践相关的地球化学知识。高质量训练数据的可用性是机器学习的先决条件，这与知识驱动反演技术对先验地形知识的要求相同。例如，对于基于波段比率的矿物地图（例如，氧化铁或粘土），用户必须知道目标矿物存在于一个区域中。否则，结果不太可能被接受。使用地质统计学插值创建高分辨率地球化学模型是创建足够数量的训练数据的关键。在跨学科方法的背景下，这种方法可以被视为特定于学科的数据增强形式。使用地统计学进行数据扩充是克服数据稀缺性的一种新方法。由于生成传统地球化学数据的成本很高，因此数据增强可能有助于在地球化学中更广泛地采用人工智能。重新利用遗留数据还需要良好的数据管理，使得数据（特别是昂贵且通常不可替代的数据，例如，对已枯竭的矿藏进行适当管理，以促进其重新利用。在原始数据不可用的情况下，已变得不相关（例如，不代表当前的身体状况），或者质量差（例如，数据不足或不一致），额外的主要在使用我们的方法之前需要地球化学数据遥感

下载后可阅读完整内容，剩余1页未读，立即下载