没有合适的资源?快使用搜索试试~ 我知道了~
–0走向完全数据驱动的远景映射方法:东南丘吉尔省魁北克和拉布拉多的案例研究0张艺,朱莉∙布尔多,格伦∙恩瓦伊拉,大卫∙科里根0a SmartMin有限公司,南非1759年赫利孔公园基维特街39号 b 加拿大地质调查局,加拿大安大略渥太华布斯街601号 c南非约翰内斯堡金山大道1号,威特沃特斯兰德大学地球科学学院 d 加拿大魁北克加蒂诺林恩街79号0文章信息0关键词:机器学习,矿产远景映射,主成分分析,地球化学异常,稀土元素0摘要0矿产勘探活动在财务上存在风险。已经开发了几种最先进的方法来减轻风险,包括使用主成分分析(PCA)和地理信息系统(GIS)进行矿产远景预测建模。PCA和GIS方法目前被认为是生成矿产勘探目标的可接受方法。然而,它的一些局限性包括依赖样本的化学计量(例如,矿物的存在),处理组成数据时需要对数比转换,以及手动解释和使用主成分来增强潜在的地球化学异常以进行远景映射。在本研究中,我们通过开发一种新的数据驱动方法使用机器学习来概括PCA和GIS方法的基本思想。我们展示了一种新的工作流程,能够使用加拿大东南部丘吉尔省(魁北克和拉布拉多)的多元素地球化学数据生成中间证据图层或最终的远景地图,该地区以其稀土元素资源而闻名,并且收集了用于远景映射的数据。与已建立的基于多元数据和知识的混合方法相比,我们的新数据驱动程序在大致相当的手动工作量基础上,能够更准确地识别单变量和多变量应用中的地球化学异常。我们的远景映射结果与研究区域已知的地质异常相一致。这些发现对勘探目标生成可能具有更广泛的影响,其中必须使用稳健和有效的数据驱动方法来量化项目风险(财务、环境、政治等)和地球化学异常。此外,我们的方法更具可复制性和客观性,因为在检测地球化学异常时不需要手动地球科学解释。01.介绍0远景映射将地球科学数据转化为地图,描绘出矿床或其代理物(例如指示元素)的区域潜力或有利性,使用一些知识驱动和数据驱动方法的组合(例如,Chung和Agterberg,1980年;Bonham-Carter,1994年;Harris和Pan,1999年;Wright和Bonham-Carter,1996年;Brown等,2000年;Carranza等,2008年;Harris等,2015年;Grunsky和deCaritat,2019年)。一个关键结果是勾画出有趣的区域(例如异常),可以优先用于进一步的调查和解释。知识驱动的方法使用学科特定知识的启发式模型,例如矿床特征0旨在指导数据的使用(例如地球化学和地球物理图)。数据驱动方法通常利用现有的地面真相来训练勘探模型(Bonham-Carter,1994年;Wright和Bonham-Carter,1996年;Carranza,2008年,2009a,b),这使得这些方法更适用于棕地而不是绿地勘探。然而,发现空间一致的地球化学异常是一种异常检测任务,可以在变量和空间空间的某种组合中使用无监督的机器学习来进行,这不需要地面真相。存在一种基于多元统计方法的数据驱动技术来发现异常过程(例如Carranza,2008年;Grunsky和deCaritat,2019年)。然而,它需要手动解释,因此依赖于某些学科知识。这0缩写词:ML,机器学习;REEs,稀土元素。*通讯作者。电子邮件地址:glen.nwaila@wits.ac.za(G.T. Nwaila)。0ScienceDirect提供内容列表0地球科学中的人工智能0期刊主页:www.keaipublishing.com/en/journals/arti�cial-intelligence-in-geosciences0https://doi.org/10.1016/j.aiig.2022.02.002 2021年12月8日收到;2022年2月16日修订稿收到;2022年2月17日接受 在2022年3月1日在线提供 2666-5441/ © 2022年作者。由ElsevierB.V.代表KeAi Communications Co. Ltd.提供出版服务。本文是根据CC BY-NC-ND许可的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。0地球科学中的人工智能2(2021)128-147“”–1290方法(例如Carranza, 2008; Grunsky and de Caritat,2019)可能通过使用机器学习方法进行概括,从而减弱了该技术对地球科学知识和手动解释的依赖。在本文中,我们演示了使用地球化学组成数据进行基于变量和地理空间的异常检测的泛化,该方法消除了多元方法的一些关键弱点,并且不需要地面真相(异常)。因此,我们的技术可以用于绿地或褐地勘探。勘探地球化学数据包含空间信息和样品化学(例如基岩、冰碛、水、土壤、河流和湖泊沉积物),旨在捕捉可能控制元素分布的地质过程的影响,例如岩性变化、变质或热液改造和其他次生过程。一些过程可能导致与矿床存在相关的化学异常(Grunsky and deCaritat,2019)。当样品化学以组成数据的形式呈现时,浓度被报告为相对比例。数据驱动的技术可以使用组成数据识别地球化学异常(Harris et al., 2015; Chen et al.,2018; Grunsky and de Caritat, 2019; Grunsky and Arne,2020)。然而,如Grunsky和deCaritat(2019)总结的方法存在一些关键弱点。首先是将地球化学视为通过元素化学计量学的矿物学代理,这在某些情况下可能无法满足(例如火山岩或富含粘土的岩石和/或在高度改造的区域中,参见Zhang等人,2021年)。随着矿物学控制的变异性的增强,产生有用且可解释的多元素关联的能力逐渐丧失。尽管这并不使该技术在这种情况下无效,但它确实增加了手动解释和验证的负担。第二个是使用关键化学计量的手动地质和地球化学解释,这增加了映射主观性并使该方法更加知识驱动(Carranza, 2008; Harris et al., 2015, Chen et al., 2018; Grunsky andde Caritat, 2019)。这是由于对主成分的依赖0分析(PCA),更类似于多元统计分析而不是机器学习(ML;例如Carranza,2008; Zuo, 2011; Harris et al., 2015; Grunsky and de Caritat,2019)。对于数据驱动的方法,PCA有两个主要目的:(1)减少特征空间的维度,(2)自动提取多元关系。当PCA应用于地球化学数据以提取多元关系时,主成分的解释是不可避免的,以区分背景过程和异常(例如,形成矿床的)过程(Carranza, 2008; Zuo, 2011; Grunsky et al., 2014; Harris et al., 2015; Grunsky andde Caritat, 2019)。与这种方法相反(例如Grunsky和deCaritat,2019),存在一系列基于深度学习的方法来生成远景图(Zuo等,2019年及其中的参考文献)。这些方法使用高度抽象和强大的神经网络来提取可能指示相关地质过程的模式。这些方法可能是性能最高的(超过人类表现,Zuo等,2019年),因此在许多领域(例如He等,2015年和Lundervold和Lundervold,2019年)中处于数据驱动应用的最前沿。然而,它们产生的模型本质上复杂且难以解释(Zuo等,2019年),针对这一点,存在一个完全的可解释人工智能领域,驱动因为需要能够理解决策(例如Linardatos等,2021年)。对于勘探,远景图的不确定性通常是一个未解决的问题,这可能会受到复杂ML模型(例如神经网络和集成)解释能力的限制。然而,可以同时利用调用一些学科知识的算法上的可取之处(Grunsky and de Caritat,2019),同时容纳复杂和强大的算法(例如Luo等,2020年和Zuo等,2019年及其中的参考文献)。为此,我们使用ML开发和泛化Grunsky和deCaritat(2019)技术,以自动划分地球化学异常,从而克服该方法的主要弱点,并明确提供多种ML算法的使用。0图1.东南丘吉尔省的位置和简化地质图。缩写:新魁北克造山带(NQO);TorngatOrogen(TO)。研究区域的位置和范围(图2)由方框表示。图像修改自James和Dunning(2000)以及Corrigan等人(2018)。0S.E. Zhang等人 地球科学中的人工智能2(2021)128-147–1300改进使我们的技术能够在解释性和性能之间提供选择。为了证明我们的技术相对于控制方法的优势,我们提供了使用我们的方法和Grunsky和deCaritat(2019)多变量方法生成的地球化学图之间的定性比较。除了我们的技术生成更具选择性和更少噪音的找矿潜力图之外,我们还证明了我们的方法更具数据驱动性,更具自动化性,是0可扩展到复杂的地质环境,不需要数据转换和填充,并且可以用于非化学计量组成。02.背景和区域地质0我们的数据来自对东南部丘吉尔省湖泊沉积物的采样0图2.研究区域(UTM 20区,NAD 83)简化的基岩地质图。本研究中使用的湖泊沉积物样品均位于拉布拉多(NTS 13-L,13-M,14-D,23-I和23-J)。Mistastin岩体(标有MB)位于魁北克和拉布拉多的省界附近(地图中心附近)。0S.E. Zhang等人 地球科学中的人工智能2(2021)128-147–––1310丘吉尔省位于魁北克北部和拉布拉多之间的边界(图1)。这是一个冰蚀地貌,正在进行稀土元素(REEs)的勘探,重点是奇怪湖过碱性岩体(图2)周围的勘探。湖泊沉积物和湖水中的异常以及伽马射线光谱分析导致1980年发现了奇怪湖矿床(Friske等,1996a,b;Zajac,2015),这是世界上最大的锆,钇和重稀土元素(Zajac,2015)矿床之一。由于它们在高科技,交通和能源行业中的作用(Balaram,2019),稀土元素对现代社会至关重要,并且需要通过多样化供应链来减轻地缘政治不稳定性(Balaram,2019;Overland,2019)。因此,欧盟,美国,澳大利亚,中国和加拿大已颁布了立法和政策,以确保其稀土元素的供应链(欧洲委员会,2011,2014,2017a,2017b,2020;Ghorbani,2018;美国地质调查局,2018;Rizzo等,2020;加拿大自然资源部,2021)。对奇怪湖矿床的先前了解提供了0必要,尽管是定性的地面真相,用于验证地球化学异常图。东南丘吉尔省是太古宙到早古元古代大陆地壳的一个细长片段,是通过苏必利尔(西部)和北大西洋(东部)克拉通的碰撞在早古元古代聚合而成的(图1;James等,1996;James和Dunning,2000;Wardle等,2002;Hammouche等,2012;Corrigan等,2018)。在西部,东南丘吉尔省被新魁北克造山带(1.83-1.80Ga;Hoffman,1988;Perreault和Hynes,1990;Moorhead和Hynes,1990)所包围,在东部被Torngat Orogen(1.87-1.86Ga;Wardle等,2002)所包围。这些造山带对核心区域(图1)的影响程度相对较少,尽管新魁北克造山带的覆盖似乎更为广泛(Corrigan等,2018)。由于聚合,该地区有许多褶皱和大型剪切带(图1)。该地区的岩石主要由片麻岩,正长片麻岩,变质岩和低至中等变质级别的超壳和侵入岩组成,这些岩石被后造山期的中元古代侵入岩所侵入(Hammouche等,2012;Corrigan等,2018)。Mistastin岩体(图2中的C27;1400Ga)是研究区域的特别重要部分,呈两个半圆形侵入岩体,占地5600平方公里。按平面尺寸最大的侵入岩体(位于南部)呈椭圆形(长轴朝N20E方向),大约144乘65公里。北部是一个较小的圆形侵入岩体,大约26乘27公里。Mistastin岩体主要由中性钾侵入岩组成,少量的单斜辉长岩,石英正长岩,花岗岩,辉长岩和白辉岩(Van derLeeden,1995)。值得注意的是,这个岩体在当地富含稀土元素,锆,钇,铍,铌,铀和钍(Hammouche等,2012)。其中一个富集区由Misery湖托管0表1 网格搜索中使用的模型参数0算法参数网格0kNN k = {1, 3, 5, 7, 9, 11} SVM C = {10, 100, 250, 500, 750, 1000}, ε = {0.01, 0.1, 0.5, 1.0},kernel = {linear, RBF} Elastic net ρ = {0.1, 0.25, 0.5, 0.75, 1.0} Random forest Ensemble size =500; maximum depth = {5, 4, 3, 2, 1, unlimited}, maximum number of features = {1, 2, 3, 4, 5},minimum number of samples for a split = {2, 3, 4}, minimum number of samples for a leaf ={1, 2, 3} AdaBoost Number of classifiers = {50, 250, 500}, base algorithm = decision tree withthe same parameter grid as the random forest algorithm ANN α = {0.001, 0.01, 0.1, 1.0},activation = {identity, logistic, tanh, relu}, learning rate = {constant, inverse scaling, adaptive}0图3. 所有元素的CoD指标预测性能比较0张等人。地球科学中的人工智能2(2021)128-147–1320Fig. 2中的过铝质正长岩(C27a;1409.7±1.2Ma),位于最大侵入体的南部(David等,2012年)。已知的最显著矿床是由StrangeLake过铝质复合体(图2中的C27b;1240±2Ma)托管,其指示矿产资源为278Mt,总稀土氧化物含量为0.93%(Miller,1990年;Gowans等,2014年;Zajac,2015年)。这个岩体高度风化,可能是由于第四纪冰川事件前与稀土矿化有关的区域中强烈的水热改造。劳伦蒂德冰盖的冰川侵蚀0整个威斯康星冰川时期重新搬运了水热改造的基岩,以及大量富稀土元素的碎屑物质向东北方向。湖泊沉积物和湖水地球化学、巨石分布、基质堆积物地球化学、指示矿物和航空伽马射线光谱数据显示,这种扩散趋势可以在冰下超过50公里的地方被检测到(加拿大地质调查局,1980年;Batterson,1989年;Zajac,2015年;Paulen等,2017年;McClenaghan等,2017年,2019年)。03. 方法03.1. 源数据0本研究使用的湖泊沉积物地球化学数据、采样协议、分析方法、质量控制和质量保证程序已在McCurdy等人(2016年)的文件中有所记录。该调查包括3441个样本,包括现场重复采样,并以大约每13平方公里一个样本的分辨率进行采样。本研究中使用的数据来自于一项重新分析湖泊沉积物样品的活动,使用现代分析方法,作为加拿大地质调查局GEM计划的一部分(GEM,2019年)。地球化学分析是在加拿大温哥华的BureauVeritas进行的。共分析了65种元素:Ag、Al、As、Au、B、Ba、Be、Bi、Ca、Cd、Ce、Co、Cr、Cs、Cu、Dy、Er、Eu、Fe、Ga、Gd、Ge、Hf、Hg、Ho、In、K、La、Li、Lu、Mg、Mn、Mo、Na、Nb、Nd、Ni、P、Pb、Pd、Pr、Pt、Rb、Re、S、Sb、Sc、Se、Sm、Sn、Sr、Ta、Tb、Te、Th、Ti、Tl、Tm、U、V、W、Y、Yb、Zn和Zr。所有微量元素以百万分之一(ppm)表示,主要元素以重量百分比(wt%)表示。经过粉碎的样品在热水浴中使用改良的王水溶液(HCl、HNO3和H2O的等比混合物)消解1小时。冷却后,用5%HCl补充至最终体积,并使用ICP-质谱仪进行分析(McCurdy等人,2016年)。通过精度和数据的准确性来评估数据的可靠性,使用现场重复样品、分析重复样品和认证参考材料进行确定。现场重复样品进一步用于通过方差分析(ANOVA)在每个元素基础上确定数据用于区域制图的适用性。湖泊沉积物地球化学数据旨在捕捉岩性变化、次生过程(如改造)以及与基岩矿化相关的地球化学异常。对于我们的一个工作流程,数据使用中心对数比(CLR)进行了转换(Aitchison,1982年)。被审查的数据用检测限的一半替换。关于应用的适当性和对数比转换的影响的讨论,特别是它对数据嵌入(例如,特征空间几何)、算法选择和我们旨在进行的地球化学异常检测的ML任务的性能影响,参见Zhang等人(2021年)。03.2. 预测建模和映射0在可解释的数据驱动前景预测映射方法中,PCA是一种常见的算法,因为它重新沿着变化的方向重新调整数据,并减少化学坐标的维度(Carranza,2008;Zuo,2011;Grunsky等,2014;Harris等,2015;Grunsky和deCaritat,2019)。对于大部分由矿物组成的样本,样本间的化学变异性主要由矿物组成和化学变异性所主导。因此,区域地球化学变异性可以由主成分来捕捉,这些主成分基本上描述了样本化学计量的关键组合。如果这些多变量关系在空间上是一致的(Grunsky,2010),那么这些关系可能是可靠的进一步使用。主要成分可能捕捉区域岩性变化、蚀变和矿化(Grunsky和Smee,1999;Grunsky,2010),而次要成分可能捕捉了未被采样或随机过程。特征向量通常是手动解释的(例如Grunsky等,2014)。之后,可以构建用于勘探目的的模型,例如感兴趣元素的回归残差图(例如Harris等,2015;Arne等,2018;Grunsky和deCaritat,2019)。0表2 所有算法中元素Y和Rb的选定最佳超参数。原始 ¼ 非转换数据;CLR ¼ CLR转换数据。0元素 数据类型 方法 CoD 参数0Y原始kNN 0.358 k ¼ 11 Y原始弹性网络0.303 ρ ¼ 1.0 Y原始SVM 0.373 C ¼1000,ε:1.0,核函数 ¼ RBF Y原始随机森林0.455 最大深度 ¼ 0,最大特征数 ¼4,叶子最小样本数 ¼ 2,分裂最小样本数 ¼ 3 Y原始AdaBoost 0.419 最大深度 ¼无限,每次分裂的最小样本数 ¼ 2,叶子最小样本数 ¼ 1,分类器数量 ¼ 250 Y原始ANN 0.433激活函数 ¼ tanh,α ¼ 0.01,学习率:常数 Y CLR kNN 0.419 k ¼ 11 Y CLR弹性网络0.346 ρ ¼0.75 Y CLR SVM 0.429 C ¼ 500,ε:1.0,核函数:RBF Y CLR随机森林0.453 最大深度 ¼0,最大特征数 ¼ 3,叶子最小样本数 ¼ 3,分裂最小样本数 ¼ 2 Y CLR AdaBoost 0.393 最大深度¼ 无限,每次分裂的最大特征数 ¼ 3,叶子最小样本数 ¼ 3,分类器数量 ¼ 250 Y CLR ANN0.441 激活函数 ¼ tanh,α ¼ 0.01,学习率:常数 Rb原始kNN 0.933 k ¼ 5Rb原始弹性网络0.971 ρ ¼ 1.0 Rb原始SVM 0.975 C ¼ 1000,ε:0.1,核函数:RBFRb原始随机森林0.962 最大深度 ¼ 0,最大特征数 ¼ 4,叶子最小样本数 ¼ 2,分裂最小样本数 ¼4 Rb原始AdaBoost 0.969 最大深度 ¼ 无限,每次分裂的最大特征数 ¼ 4,叶子最小样本数 ¼2,分类器数量 ¼ 250 Rb原始ANN 0.971 激活函数 ¼ tanh,α ¼ 0.001,学习率:常数 Rb CLRkNN 0.834 k ¼ 5 Rb CLR弹性网络0.664 ρ ¼ 0.75 Rb CLR SVM 0.894 C ¼1000,ε:0.5,核函数:RBF Rb CLR随机森林0.875 最大深度 ¼ 0,最大特征数 ¼4,叶子最小样本数 ¼ 2,分裂最小样本数 ¼ 2 Rb CLR AdaBoost 0.869 最大深度 ¼无限,每次分裂的最大特征数 ¼ 4,叶子最小样本数 ¼ 2,分类器数量 ¼ 250 Rb CLR ANN 0.871激活函数 ¼ tanh,α ¼ 0.001,学习率:常数0S.E. Zhang等人 地球科学中的人工智能2(2021)128-147–1330为了我们的目的,我们展示了ML技术的有效性,这是由张等人(2021年)开发的前景映射技术,该技术利用ML来预测主要和次要元素浓度。他们观察到0训练好的模型有效地充当地球化学基线,因此地球化学异常的相对大小与预测残差(预测值减去实际值)成比例。使用预测残差生成的地图展示了选择性地改变的地球化学对比度0图4.使用(a)CLR转换数据和(b)原始数据进行算法选择和性能评估的结果,使用确定系数(CoD)进行测量。每个元素显示了前三个表现最佳的算法。0图5.(a)Th,(b)La,(c)Y和(d)Tm的预测结果的散点图。每个元素使用最佳算法。图中显示了每个元素的确定系数(CoD)和中位绝对预测误差(MAPE)。可以看到在高元素浓度下的低预测。0S.E. Zhang等人 地球科学中的人工智能2(2021)128-147––1340抑制大区域变异并增加地球化学异常与背景之间的对比度(Zhang等人,2021)。Zhang等人(2021)做出的一个关键的学科特定认识是,不同元素携带不同类别的地质信息-主要和次要元素携带样品的岩石形成信息,而微量元素携带有关地质和地球化学过程的信息,这些信息可能与岩石形成(甚至次生)过程无关。因此,使用岩石形成元素作为ML特征(预测因子)和微量元素作为目标,有效地自动构建了能够抑制微量元素数据中大规模(例如岩性)变异的地球化学基线。这可以被认为是ML上的学科特定特征工程或前景评价映射上的知识应用的一种形式。在我们的观察中,这种学科特定知识的应用有效地消除了手动划分普遍背景过程和有针对性的异常的要求(例如,使用特征值向量解释)。0根据Zhang等人(2021)的研究,我们使用主要和次要元素浓度来预测类似于Grunsky和deCaritat(2019)的假设下的微量元素浓度,即区域岩性和次生过程对大多数观察到的地球化学变化具有很高的解释能力。因此,我们假设主要和次要元素浓度的数据捕捉了岩性、蚀变和矿化的关键变化。因此,不能用岩石形成元素解释的异常必须构成噪音或者额外的地质或地球化学过程,其中一些可能与进一步探索感兴趣的矿化过程相关。在我们的技术中,训练好的ML模型充当隐式和动态的(它们能够预测许多岩性或岩石类型的微量元素浓度,参见Zhang等人,2021)区域地球化学基线,而预测残差是元素浓度的偏差。尽管使用了监督方法,但严格来说,它们仅用于构建地球化学基线,而不用于训练0图6.(a)数据集中大多数亲铜元素的堆叠元素浓度地图,以及(b)相应的预测残差地图。两个堆叠地图使用统一权重和标准化图层。0图7.(a)数据集中大多数稀土元素的堆叠元素浓度地图,以及(b)相应的预测残差地图。两个堆叠地图使用统一权重和标准化图层。0S.E. Zhang等人 地球科学中的人工智能2(2021)128-147’–1350通过示例识别异常的ML算法。因此,我们的异常检测方法是无监督的,因为该地区已知存在异常(并且已经被广泛研究),但数据没有标签。根据每个元素的基线,负预测残差(预测值小于实际值)意味着存在超出区域基线的过度浓度,根据定义,这不能被一个或多个模型解释。预测残差的符号选择是任意的,并取决于残差的计算方式(实际值减去预测值或预测值减去实际值)。通过算法选择和参数调整来最大化模型的质量,以最小化使用指标的预测残差。更具解释性的模型相对于较少具解释性的模型更好地抑制了数据中的大规模变异。因此,模型的解释能力越强,地理空间中产生的异常就越有选择性。此外,模型的可解释性可以在每个应用程序的基础上明确地与模型性能进行平衡。这意味着可以通过模型选择和模型调整来调整区域地球化学基线。在我们的方法中,使用一个以上的算法来预测单个元素,每个元素可以使用表现最佳的算法和模型(或者,可以使用一种算法适用于所有的方法来减少计算要求)。可以生成每个微量元素的预测残差的单变量地图,直接用作异常地图或作为遵循此阶段的其他方法的中间证据图层。为了生成多变量异常地图,可以使用PCA等算法来总结该地区的主要异常。在这种情况下,由表现最佳的模型组合产生的多变量地图是多个算法在多个元素上的堆叠输出。负预测残差的空间一致区域是异常元素富集的区域,值得进一步调查。理论上也可能检测到耗尽过程,尽管本文未探讨这一方面。由于该地区存在定性地实际情况(例如,已知的目标是稀土元素,分散趋势已有充分记录),因此可以理解我们结果的有效性。我们创建了一个ML工作流程,实现了数据预处理、预测建模和可视化。对于本研究,特征是所有主要和次要元素(Fe,Mg,Al,Ca,Na,K,Ti,P,S)。对于我们的ML任务,特征是不重要的,无论特征是否是CLR-0是否转换为特征工程的一部分(Hastie等,2009年;Domingos,2012年),因为预计它不会显著改变一系列ML算法的预测建模性能(在Zhang等人的研究中更详细地研究)。然而,在我们的工作流程中,我们利用CLR转换来实现并行多元建模方法,以进行比较,并比较原始和CLR转换的ML特征的使用结果。CLR转换后,对特征进行了重新缩放,使每个特征跨越相等的数值范围。在预测建模阶段,使用特征来训练回归算法(Russell和Norvig,2010年)。本研究中使用的回归算法包括:k最近邻(Cover和Hart,1967年;Fix和Hodges,1951年;Kotsiantis等,2007年;Witten和Frank,2005年),随机森林(Ho,1995年;Breiman,1996a,1996b;Kotsiantis,2014年;Freund和Schapire,1995年;Sagi和Rokach,2018年),弹性网络(Santosa和William,1986年;Tibshirani,1996年;Tikhonov,1943年;Zou和Hastie,2005年),支持向量机(SVM;Vapnik,1998年;Hsu和Lin,2002年;Karatzoglou等,2006年),决策树的自适应增强(AdaBoost;Freund和Schapire,1995年)和人工神经网络(neuronet;Hastie等,2009年;Curry,1944年;Lemar�echal,2012年;Rosenblatt,1961年;Rumelhart等,1986年;Cybenko,1989年)。有关这些算法的详细描述、它们对特征空间属性的假设(例如欧几里得几何及其相关度量)和它们的参数,请参见Zhang等人(2021年)。对于模型选择和调优,我们采用了交叉验证。为了在我们的技术中检测异常,不严格要求交叉验证,因为数学归纳不会发生,而是需要地球化学基线(拟合模型)。可以通过度量值(例如预测残差)来衡量与基线的偏差。然而,为了了解预测性能、模型的泛化能力并防止过拟合(对基线的夸大),我们使用交叉验证来进行算法选择和模型调优。我们采用决定系数(CoD)指标来评估预测准确性。性能指标的选择对于异常检测很重要,因为CoD指标对异常值很敏感,因此,使用CoD指标优化预测性能意味着地球化学基线被调整以抑制异常值,因此,这种优化抑制了模型对稀疏采样的敏感性。0图8。多元地球化学异常检测和制图方法与我们的流程的工作流程比较。0S.E. Zhang等人地球科学中的人工智能2(2021年)128-147–1360异常。中位绝对预测误差(MAPE)是中位预测误差的度量,我们在这里将其用作额外的指标来评估预测性能,但不用于算法选择或模型调优。我们使用了穷举式网格搜索(见表1)结合n折交叉验证(n=4)来确定算法的排名顺序。然后,对于每个元素,选择排名前3的性能最佳的算法来进行预测,使用10折交叉验证进行100次运行。然后对结果进行平均,并计算每个性能水平、每个元素的预测残差。随后,预测结果以两种方式用于生成地球化学异常图,第一种方式使用预测残差图或单元素残差图的加权证据层,模拟基于知识的方法来组合证据层以针对一个或多个特定指示元素。第二种方式使用基于PCA的方法来生成预测残差的线性组合(跨所有预测的元素,并使用各种算法来生成给定性能水平的地图),以创建最显著的地图。0多元地球化学异常。我们的方法进一步推进了使用组成地球化学数据的数据驱动型远景图绘制(Grunsky和deCaritat,2019),因为它不假设基础的化学计量学,也不需要主成分解释。此外,我们的程序允许使用任何回归算法,并不假设元素关系的线性性,这意味着我们的程序可以结合一系列参数、非参数、线性、非线性和基于神经网络的算法,制图的质量将直接与算法和模型的性能相关联,而不是与特征向量的可解释性、操作者的专业知识或学科特定知识相关联。最后,我们证明了CLR转换对于我们的技术是不必要的。04. 结果0预测结果表明,Ta、Pd、Au、Pt和B通常是0图9. 使用多元方法的Y区域远景图。区域远景图中包括岩性边界(图2)和冰川分散趋势(黑色箭头)。缩写:Strange Lake侵入(SL); Mistastin岩体(MB)。来自富稀土StrangeLake过碱侵入的冰川分散趋势可见,并向东北方向延伸约100公里。0张等人。2021年地球科学中的人工智能2(2021)128-147–1370由于普遍的数据审查,不可预测(CoD<0.1)。因此,它们被排除在进一步的分析和制图之外。比较使用原始数据与CLR转换后数据的结果表明,平均而言,原始数据产生更准确的预测(图3)。最佳算法及其最佳超参数取决于目标元素和使用的数据类型(图4,另见表2)。然而,在参数网格内,随机森林回归器通常是最佳的,无论是使用CLR转换还是原始数据(图4)。这很有趣,因为随机森林算法在特征空间中并不具有空间意识,因此没有启发式来建议任何特定的嵌入几何形状。第二和第三最佳算法没有明显的趋势。然而,支持向量机、神经网络和AdaBoost往往比k最近邻和弹性网络表现更好,尽管所有算法之间的性能差异通常只有几个百分点,有时与两位小数相同。因此,复杂模型可以被更简单和更可解释的模型替代0异常选择的微小损失。使用CoD指标意味着预测性能受异常值的影响很大。然而,如果预测残差将用于检测异常,这是可取的,在这种情况下,抑制大异常比产生更多的假阳性风险小。预测结果显示,在该地区稀土元素指标元素的高浓度处存在系统性的低预测(如McClenaghan等人所确定的),例如Th、La、Tm和Y(图5)。这意味着岩石形成元素不足以解释稀土元素指标元素的高浓度,这些元素很可能包含真实的区域地球化学异常,如果它们也是空间一致的。因此,在该地区可能存在采样不足的地质和地球化学过程,这些过程使一些样品相对于地球化学基线富集了稀土元素。此外,各种算法及其最佳模型在地球化学异常的相对大小上存在一致的共识(预测残差通常在统计上相似)。0图10. 使用我们基于机器学习的程序的Y区域远景图。区域远景图中包括岩性边界(图2)和冰川分散趋势(黑色箭头)。缩写:Strange Lake过碱侵入(SL);Mistastin岩体(MB)。来自富稀土StrangeLake侵入的冰川分散趋势可见,并向东北方向延伸约100公里。此外,另一个冰川分散趋势可见,从Mistastin岩体南部延伸约140公里向东北方向。0S.E. Zhang等人 地球科学中的人工智能2(2021)128-147–––1380为了进行过程验证并展示我们的技术与知识驱动方法的整合,我们创建了两组元素的原始浓度和预测残差图 -稀土元素(Sc、Y、La、Ce、Pr、Nd、Sm、Eu、Gd、Tb、Dy、Ho、Er、Tm、Yb和Lu)和亲铜元素(Cu、Zn、Ga、As、Se、Sn、Sb、Te、Bi、Tl、Pb、In、Hg、Cd、Ge和Ag)。在制图过程中,只使用表现出可靠方向半变异图并可用球模型拟合的元素。地图的范围被选择为包含从西向东的冰川传播趋势(加拿大地质调查局,1980年;Batterson,1989年;Zajac,2015年;Paulen等,2017年;McClenaghan等,2017年,2019年)。元素地图使用逐层归一化和均匀加权堆叠,以使每个元素对最终地图具有相等的影响。预测残差和元素浓度的最终地图显示类似的模式;然而,残差图的噪声较小,选择性更强,从而产生更高的可见对比度(图6和7)。传播趋势在亲铜元素地图中不可见,但在稀土元素地图中可见(图7)。根据勘探的性质(绿田或褐田),有其他方法可以创建异常地图。在褐田环境中(例如,已知目标元素的地方),可以绘制指示元素或矿床定向元素的异常地图,例如,单变量预测残差地图。对于绿田勘探,需要额外的步骤来自动提取最突出的区域地球化学异常。为此,有许多算法可用,例如PCA。然而,与PCA在多变量地球化学过程发现中的应用不同(例如,Carranza,2008年;Grunsky和deCaritat,2019年),预测残差的主成分只预计包含调查范围内的地球化学异常。在模型能力范围内,通过使用主要和次要元素建立的多变量元素关联模型,已消除了所有可以由此模型化的微量元素的区域变异性。因此,无需解释地图的特征向量,除了理解异常的组成。我们使用了一种多变量方法(例如,Grunsky和deCaritat,2019年)和我们的技术制作了两套地图。完成这两种方法的步骤总结在图8中。为了进行单变量比较,我们选择比较从多变量和我们的方法产生的Y异常地图。对于前一种方法,我们从CLR转换的数据构建了主成分,并验证了前几个主成分捕捉了大规模的地球化学变化。随后,我们使用Y浓度对前几个主成分进行多元回归,以产生地图化的回归残差(图9)。使用这种方法产生的地图,直到第3个主成分与使用第1个主成分最大化对比度的地图在质量上是相同的。对于我们的方法,Y预测残差直接被绘制(图10)。两张地图的比较显示,使用我们的方法产生的地图捕捉了从奇怪湖过碱侵入物散发出的冰川传播趋势,并且与以前使用γ射线光谱、湖泊沉积物和湖水识别的模式相对应。相比之下,多变量方法产生了与西部冰川传播趋势相似的Y富集模式,但与东部的一个大体连接。使用我们的技术未观察到这个大体,并且在以前的冰川传播趋势研究中未记录,这些研究使用了冰川石块制图、矩形地球化学、指示矿物和航空γ射线分光数据(加拿大地质调查局,1980年;Batterson,1989年;Zajac,2015年;Paulen等,2017年;McClenaghan等,2017年,2019年)。对于多变量比较,不可能比较异常的主成分地图与多变量方法产生的地图,因为这些主成分具有不同的含义。相反,我们根据大致相同数量的手动工作进行了两组地图的比较(我们认为这是一个公平的标准,因为不太数据驱动的方法可以使用更好的知识进行任意调整)。对于两种方法,一个或多个主成分应该包含已知的区域地球化学异常 -稀土元素散布趋势。因此,我们选择了所有方法产生的地图中表现出最高相似度的散布趋势。对于我们的方法,最佳性能算法产生的结果(见图4)具有单一显著主成分(主成分1),捕捉了该地区约24.74%的异常。对于多变量方法,主成分1解释了32.42%的数据变异性
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功