基于机器学习的Karoo大火成岩省微量元素浓度预测及远景图绘制方法

116 浏览量更新于2023-12-06 收藏 2.33MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

地球科学中的人工智能2（2021）60基于机器学习的Karoo大火成岩省微量元素浓度预测及其在远景图绘制Steven E.Zhanga，Glen T.Nwailab，*，Julie E.放大图片作者：Lewis D.阿什瓦尔湾aSmartMin有限公司，地址：39 Kiewiet Street，Helikon Park，1759，South Africab威特沃特斯兰德大学地球科学学院，2000年1月1日，约翰内斯堡，南非加拿大地质调查局，601 Booth Street，Ottawa，Ontario，K1A 0E8，CanadaA R T I C L E I N F O保留字：机器学习预测建模成分数据探矿权测绘异常检测Karoo火成岩省A B S T R A C T在这项研究中，我们提出了一种基于机器学习的方法来预测微量元素浓度的主要和次要元素的浓度数据，使用遗留的岩石地球化学数据库的岩浆岩卡鲁大火成岩省（冈瓦纳超大陆）。我们证明，各种微量元素，包括大多数的镧系元素，亲铜，亲石，亲铁元素，可以预测具有良好的准确性。这一发现表明，存在可靠的高维元素组合，可用于预测一系列深成岩和火山岩中的微量元素由于采用了常量元素和微量元素作为预测因子，因此预测效果可以作为地球化学异常的直接指标因此，我们提出的方法是适用于通过识别异常微量元素浓度的前瞻性勘探与多元成分数据分析方法相比，新方法不依赖于数据中元素化学计量组合的假设来发现地球化学异常。因为我们不使用多变量组成数据分析技术（例如，主成分分析和主要，次要和微量元素数据的组合使用），我们还表明，对数比变换不增加所提出的方法的性能，是不必要的算法，在特征空间中的空间感知因此，我们证明，高维元素协会可以通过数据驱动的方法，在没有假设的数据内的化学计量自动化的方式建模在这项研究中提出的方法可以被用来作为一种替代方法的多元成分数据分析技术，用于远景映射，或被用作预处理器，以减少检测虚假的地球化学异常，特别是在数据是可变的质量。1. 介绍地球化学数据是地球科学的主要内容，以各种形式用于研究地球动力学、地壳过程、地表过程和矿物系统。在系统的测量和勘探计划之外，确实存在广泛的地球化学数据集，但访问和使用它们需要大量的用户努力。我们将这些数据称为“遗留地球化学数据”。这种类型的数据的一个例子是收集世界各地的各种研究人员手中的地球化学分析，其在质量、生产方法和意图上是可变的（Adcock等人， 2013; Ashwal 2021; Chen等人，2020年）。数据驱动技术为重新利用遗留地球化学数据、提取更多见解和创建预测模型提供了新的机会方法学（Karpatne等人，2018年; Chen等人，2020年）。已使用四类主要方法来分析地球化学数据，其中一些方法采用数据驱动的方法;这些方法是：（a）地质统计学，(b)分形/多重分形模型，（c）成分数据分析，以及（d）机器学习。在本文中，我们通过创建一种特定的方法来说明机器学习对传统地球化学数据分析的有用性，该方法使用主要（>1重量%）和次要（1 该数据集包含卡鲁大火成岩省（冈瓦纳苏- percontinent）的火山和深成单元，是分析方法，准确性和精度以及数据水平方面高度可变数据的集合。这种数据量的可变性将对现有* 通讯作者。电子邮件地址：ezhan053@uottawa.ca（S.E. Zhang），Glen.Nwaila@wits.ac.za（G.T. Nwaila）。https://doi.org/10.1016/j.aiig.2021.11.002接收日期：2021年9月26日;接收日期：2021年11月29日;接受日期：2021年11月30日2021年12月2日在线发布2666-5441/©2021作者。出版社：Elsevier B.V.代表科爱通信有限公司公司这是CC BY-NC-ND下的开放获取文章许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表地球科学中的人工智能杂志主页：www.keaipublishing.com/en/journals/artificial-intelligence-in-geosciencesS.E. Zhang等人地球科学中的人工智能2（2021）6061成分数据分析方法，统一假设高质量和可制图的地球化学数据（例如Grunsky和de Car-itat，2019）。火山岩对于探矿制图方法的开发特别感兴趣，因为它们不一定表现出基于矿物的化学计量，因此对于目前专门解释和利用化学计量组成的多变量成分数据分析工作流程来说并不理想（例如Grunsky和de Caritat，2019）。在本文中，我们表明，我们的方法可以用来检测地球化学异常，因此可用于远景填图。与成熟的方法相比（例如，Grunsky，2013; Grunsky等人， 2014; Harris等人， 2015年; Chen等人，根据《地质勘探》（2018年; Grunsky和de Caritat，2019年），我们的方法有多个好处，包括：（a）更简化的工作流程，不需要对数比转换和相关的数据预处理任务;（b）不依赖或假设样品中存在化学计量;（c）区域地球化学变异性的解释力高，这应该会降低地球化学异常检测的假阳性率;以及（d）容忍低质量、非原始数据（不适合传统探矿制图的二级数据）。数据可变性对于机器学习方法的开发非常重要，以便最大限度地提高新方法对其他数据和应用程序的通用性（Therrien和Doyle，2018; Hyontai，2018）。此外，由于本研究中提出的方法独立于任何特定的机器学习算法，因此如果新的机器学习算法可用，则很容易通过使用新的机器学习算法来提高所提出方法的性能2. 矿产资源评价和远景制图许多地球化学数据分析技术在学术研究和化探项目中得到了试验和应用一般而言，应考虑地球化学数据的特性，例如：（a）偏离正态分布的统计分布（Reimann和Filzmoser，2000年）;（b）异方差性（即，不相等的方差或方差的异质性表明不同的分布模式（Thompson和Howarth 1973，1976 a，b，1978;Thompson 1973，1982;Fletcher1981;Stanley和Sinclair 1986;Stanley 2003）;（c）空间非平稳性（例如，Ellefsen和Van Gosen，2020年）;以及（d）数据的组成特性（例如，关闭问题，Aitchison，1982）。处理大型数据集的第一种方法是Matheronian geo- statistics，它始于20世纪50年代（Krige 1951，1952，1955; Matheron，1962），随后是Bennel（1974，1980），Isaaks和Srivastava（1989），Go'mez-Her n'ande z（1991），Deutsch和Bennel（1992，1997），Goovaerts（1994）和Pyrcz和Deutsch（2014）的开创性工作。地质统计学致力于使用空间插值分析和解释地球物理特性的可能空间分布及其不确定性，通常用于创建地图或体积。它假设在较短距离处的样本之间的某些属性更相似。地质统计学应用于许多领域，例如水文地质学、水文学、气象学、海洋学、地球化学、地理学、土壤科学、林业和景观生态学（Isaaks和Srivastava，1989年）。然而，在某些应用中，地质统计学的使用具有挑战性，例如：(a)块金效应显著的情况;（b）同时使用高维数值和分类类型的数据来估计目标的情况;或（c）非传统数据，如描述性地质数据在资源估计过程中可能有用的情况（Nwaila等人， 2020; Zhang等人， 2021年）。第二种方法使用地球化学系统的分形模型Cheng等（1994）首次提出了地球化学中的分形和多重分形模型，用于地球化学异常的检测这是通过考虑地球化学数据的频率和空间变化来实现的，并被称为浓度-面积模型或Cheng-Agterberg模型。该方法的进一步发展包括引入谱面积多重分形模型（ Ch e n g 等人，2000 ）和局部奇异性分析（Cheng，2007年）的报告。像任何其他数学和几何学为基础的技术，分形建模的使用可能会受到数学复杂性的限制。最近，分形模型已被添加到地理信息系统软件库中，以提供方便的最终用户访问，以帮助分析大型地球化学勘探和环境污染数据（Carranza，2009年; Chen等人，2017年; Yu等人，2019年）。第三种技术涉及特定学科的成分数据，通常是地理空间标记的成分数据，这些数据是作为整体比例测量的样品成分，因此，每个成分只携带相对信息（Aitchison，1982）。大多数岩石地球化学和矿物化学的主要，次要和微量元素的数据受到“常数和”或“封闭”的问题，并在其数值范围的限制。这导致相关性测量和基于欧几里德几何的分析的结果不可靠 Aitchison（1982）引入了基于对数比的数据转换，其原理是，对于成分数据，单个成分的浓度是无关紧要的，因为信息在于它们的相对比例。到目前为止，使用了几种转换，包括：中心对数比（centeredlog-ratio，ALR）和等距对数比（isometric log-ratio，ILR）（Pawlow-sky-Glahn et al.，2015年）。这些变换将组合的严格正部分映射到实数集。在欧氏空间中，双线性变换和ILR变换虽然ILR变换也创建了对一些传统的多变量分析技术有用的全秩协方差矩阵，但是根据正交基的选择，变换后的数据可能难以解释（Egozcueet al.，2003年; Flzmoser和Hron，2009年）。包括主氧化物和次氧化物（SiO2、TiO2、Al2O3、FeO总量、CaO、MgO、Na2O、K2O和P2O5）的成分地球化学数据通常在用于多元分析之前进行转换（对于痕量元素数据不太常见），通常使用转换（例如Grunsky，2013; Grunsky等人， 2014; Harris等人， 2015年; Chen等人， 2018年; Grunsky和deCaritat，2019年）。对于某些任务，ALR转换也可能起作用（Templ，2021）;然而，其在组成部分中的不对称性质需要手动探索转换中分母的选择。值得注意的是，闭合对使用预测建模预测痕量元素的影响尚未确定（Filzmoser等人，2009; McKinley等人，2016）以及这种特定类型的数据转换和数据驱动的预测建模技术之间的相互作用在很大程度上尚未探索。处理大型地球化学数据集的第四种技术-主要涉及机器学习（例如， Lawley等人， 2021年）。机器学习是人工智能（AI）和计算机科学的一个分支，它专注于使用数据和算法来模仿学习（Burkov，2020; Chen等人， 2020年）。与静态模型不同，机器学习模型能够通过暴露于附加数据来自我改进（Karpatne等人， 2018年）。阿瑟·塞缪尔（Arthur Samuel）在他对跳棋游戏的研究中创造了“机器学习”一词还值得一提的是，地球科学早在其他行业之前就已经处理了大数据，例如，在矿产资源勘探中通过在过去的十年中，机器学习在许多学科中都有了扩散与地质统计学、分形/多重分形分析和成分数据分析相比，关于将机器学习用于地球化学分析的研究和出版物要少得多，尽管该技术在理论上对于所有尺度的地球化学制图都非常强大（Chen等人， 2020年）。机器学习的力量主要在于它能够识别和利用高维模式来执行推理。然而，使用机器学习的额外和有时关键的好处在于它能够容忍一定程度的数据变化，例如，通过使用多源数据引入的数据（Therrien和Doyle，2018; Hyontai，2018），其影响通过算法选择和对模型过度拟合的显式控制来抵消。机器学习工作流程需要特定于应用的开发，机器学习的典型任务是创建一种方法，S.E. Zhang等人地球科学中的人工智能2（2021）6062Fig. 1. 卡鲁超群地球化学数据的采样点覆盖在一张带阴影的地形图上。样本总数为7917。最大化一些回报的概念演出3. 地质背景卡鲁超群岩石（300- 180 Ma）发现于南美洲南部、福克兰群岛、南部非洲和南极洲的几个盆地中，这些盆地共同用于定义晚古生代冈瓦纳大陆的西南部（图1 ; Smith等人， 1993年）。南非的主要卡鲁盆地是最大的盆地，包含保存完好且几乎连续的大陆沉积记录，跨越100 Ma（Smith等人， 1993; Catuneanu等人， 2005年）。鉴于卡鲁盆地的范围和保存状况，它被用作卡鲁超群地层序列的代表卡鲁的地层序列分为五个组：（a）Dwyka（ca. 300 -290 Ma），（b）Ecca（290-255 Ma），（c）Beaufort（255-237 Ma），（d）Stormberg（230-183 Ma），（e）Drakensberg（183-180 Ma）（SACS，1980）。主卡鲁盆地的形成始于开普海槽的复兴，导致开普超群向南隆起和侵蚀，并在北部形成前陆盆地（Smith等人，1993年）。Dwyka群（800米厚）由混合岩和相关的水冰沉积物组成，记录了冈瓦纳大陆漂移到南极导致冰川作用的时间（Visser，1991年）。Ecca群（<3000 m厚）以泥岩、粉砂岩、砂岩和少量砾岩为特征，反映了冰川作用后浅海的形成，随后三角洲逐渐向前进入该海域（Smith等人， 1993; Johnson等人， 1996年）。 Beaufort群（<7000 m厚）是由前级三角洲聚结成广阔冲积平原而形成的泥岩、粉砂岩和砂岩交替的水下衍生序列（Johnson等人，1997; Rubidge等人，2000年）。之后，Stormberg群的向上变细的粉砂岩和砂岩（1200m厚）反映了盆地的逐渐变干，导致风成沙丘景观（Johnson，1994）。最后，随着德拉肯斯堡食物玄武岩和大量侵入岩床和岩墙（厚达6600米）的挤出，沉积作用被广泛的火山作用所取代，这些都定义了卡鲁大火成岩省（SACS，1980年; Smith等人， 1993; Catuneanu等人， 2005; Svensen等人， 2012年）。岩浆的起源与冈瓦纳大陆解体后深地幔柱的上升有关（ Storey ， 1995; Storey 和 Kyle ， 1997; Buiter 和Torsvik，2014）。纹理从无定形到从斑状到粗晶状和辉长岩的外观，在一些较厚的岩床的中心发现了较粗的粒度一些席状侵入体是层状的，由岩浆分异引起（Smith等人，1993年）。在南部非洲，德拉肯斯堡玄武岩被分为四个区域，即（a）拉斑玄武岩（主要卡鲁和阿拉诺斯盆地），（b）贫橄榄玄武岩和流纹岩至英安岩熔岩（Lebombo盆地），（c）富橄榄玄武岩（Lebombo和Zimbab-wean盆地），以及（d）富硅玄武岩（Huab盆地）（Duncan等人，1984年）。德拉肯斯堡玄武岩最初在晚侏罗世覆盖了非洲南部的大部分地区，但今天仅与卡鲁盆地一起保存下来（Du Toit，1954年）。4. 数据和方法4.1. Karoo遗留地球化学数据数据集中卡鲁的火成岩有6650个火山岩和1266个深成岩样本（图1）。 1和补充数据S1）。该数据库是多年来从其他主要出版物和数据库中汇编而成的，首次用于Ashwal等人。（2021年）。对数据库中的样品进行了主要、次要和微量元素分析火山岩和深成岩是从钻芯和露头中取样的，用于一系列目的，其中不包括大规模绘图。Ashwal等人引用的原始数据来源的文献调查。（2021）显示，样本的制备和分析均经过严格的程序。尽管这种情况下的数据不适合使用多变量分析的传统地球化学制图，但它是机器学习的理想选择，特别是在方法开发环境中，因为在存在足够数据的情况下，在原始数据上训练的算法可以产生更适用于新环境的模型（Gong等人， 2019; Therrien和Doyle，2018; Hyontai，2018）。不可能详细说明所有来源的取样和分析方法。相反，我们总结了Ashwal等人的许多主要数据源所使用的一般方法。（2021年）。用蒸馏水洗涤样品，干燥并目视检查将无矿脉、风化和/或矿化迹象的样品粉碎成粗碎片（3-10 mm）。然后手工挑选碎片以去除被取样工具污染的表面（即，原始钻芯表面）。然后将剩余的碎片用蒸馏去离子水洗涤（数次以除去附着的灰尘），干燥并在玛瑙研磨机中研成粉末在每次研磨运行之间，将粗石英砂加工成S.E. Zhang等人地球科学中的人工智能2（2021）6063图二、总碱与卡鲁（a）火山单位和（b）深成单位的硅石（TAS）图，显示对从南非、莱索托、斯威士兰（前斯威士兰）、津巴布韦、博茨瓦纳、莫桑比克、纳米比亚、南极洲、澳大利亚、塔斯马尼亚和福克兰群岛采集的样品进行的全岩主要和次要元素分析汇编碱性-亚碱性系列划分来自Irvine和Baragar（1971）。尽量减少样品之间的交叉污染。主要和次要元素的浓度通过X射线荧光（XRF）光谱法在熔融玻璃盘上测定通过热重分析法测定烧失量大多数元素的分析误差为<0.10%（相对），MgO（0.50%）除外。根据分析期间可用的仪器，使用XRF、电感耦合等离子体质谱法（ICP-MS）或电感耦合等离子体发射光谱法（ICP-OES）测定痕量元素浓度，例如：在20世纪80年代，使用XRF分析痕量元素在主要、次要和痕量元素分析期间使用了各种经认证的参比物质。对于数据集，只有主元素和次元素被归一化为1。一些微量元素的大部分数据接近仪器检测下限，因此，其浓度数据被大量量化（例如，镁铁质岩石中U、Th和放射成因Pb浓度较低4.2. 岩石分类和岩石地球化学在这项研究中，主要、次要和微量元素分析必须涵盖一系列岩石类型。由于数据源是次要的，岩石类型在主要数据源中没有一致的记录。为确保岩石类型的一致性，我们使用TAS（总碱与总碱）对数据库中的岩石类型进行分类。二氧化硅）分类方案，坐标如Le Bas等人（1986）（图2 a）所示，同样，我们使用Middlemost（1994）（图2 a）所示的坐标和标签对深成岩进行分类。 2 b）。在岩石分类过程中，通过使用四分位数范围将高度蚀变岩石的成分与数据库中的大块岩石成分进行比较，将其从数据库中删除。卡鲁火山岩套和深成岩套都覆盖了从超镁铁质到长英质的广泛成分范围。S.E. Zhang等人地球科学中的人工智能2（2021）6064þþ¼图3. AFM三元图显示了氧化物的相对比例。黑线代表拉斑玄武岩（黑色曲线上方）和钙碱性（黑色曲线下方）系列之间的不同岩浆演化程度的划分岩浆系列划分（黑色曲线）来自Irvine和Baragar（1971）。仅使用少数元素的二元和三元判别图可用于岩浆作用的地球化学判别（Wood，1980; Agrawal等人，2008; Vermeesch，2013）。拉斑玄武岩岩浆系列中的岩石与钙碱性岩浆系列中的岩石的区别在于母岩浆的redoX状态（拉斑玄武岩岩浆被还原;钙碱性岩浆被o X化）（Sisson和Grove，1993年; Chin等人，2018年）。这两个岩浆系列之间的差异可以在Na 2O K2 O（A为碱金属），FeO Fe 2 O 3（F为总铁含量）和MgO（M）三元系上看到，称为AFM图（图10）。 3）。该数据集包含拉斑玄武岩（黑色曲线上方）和钙碱性（黑色曲线下方）岩石。岩石的这种多样性对于理解预测模型的普遍性是重要的，并且理想地，预测建模应该包括属于两种趋势的数据（Gong等人， 2019年）。4.3. 一般数据预处理不同实验室对所有分析元素的分析之间的系统差异无法用现有数据确定，因为原始分析和现场重复无法获得，采样方法也各不相同。然而，这是我们的应用中的预期挑战，因为本研究的关键目标是理解一些常见机器学习算法容忍高度可变的低质量遗留数据的能力，并因此推断我们的方法对其他类似类型的数据（例如， Karpatne等人， 2018年）。对于机器学习算法，通过使用与测试数据的可变性匹配的训练数据来获得最佳模型性能，并且在一些应用中，有目的地将噪声注入到干净数据中以提高模型性能（Goodfellow等人，2016年）。使用高质量数据获得的预测建模性能无法推广到使用遗留数据的应用程序。此外，通过使用低质量的数据集，可以将模型的性能解释为对我们方法能力的保守估计。对于显著高于实验检测限的元素浓度，数据调平差异相对于测量值本身可能很小。因此，对于预测建模，大多数制备和分析方法的准确性是通常足以在实验室之间比较主要和次要（岩石形成）元素因此，我们认为，数据水平的差异对于主要和次要元素来说并不重要。对于高浓度的微量元素，这可能是正确的。在分析的元素之间存在差异的数据调平差异（例如，由于污染或基质效应导致的某些微量元素的富集）通常不能通过使用成分比率（例如，对数比变换）。然而，接近检测限的几种元素（例如，U和Th）可能更受数据水平差异的影响，特别是由于仪器检测下限和制备方法的差异。总的来说，我们没有证据表明我们的数据集是均匀分层的，这对于创建一种方法是理想的，这种方法可以很好地推广到类似类型的数据集。所有氧化物均按无水物重新计算缺失数据在主元素和次元素数据中是稀疏的。我们的方法需要完整的主要和次要元素（训练特征），但不需要完整的痕量元素（预测目标）。因此，使用k-最近邻算法（Hron等人，2010年）。考虑到需要插补的数据点比例较小以及主要和次要元素的性质（因为它们是成岩元素），所得插补令人满意，因为插补后闭合的最大偏差小于2%。插补后的闭合检查不是为了强制闭合，而是为了确保结果是现实的。这不应该影响我们现在的工作，因为我们没有在多变量意义上使用所有4.4. 特征工程、机器学习算法和工作流程所有岩石形成元素（主要和次要元素）都用作机器学习特征。元素的比率或作为数据预处理的一部分的特征的任何其他数学操作被称为特征工程，其目的是可测量地改进算法的性能（Hastie等人，2009; Domingos，2012）。特征空间是向量空间（Hastie等人， 2009），并且在对数比转换的成分数据的情况下，特征空间不受影响S.E. Zhang等人地球科学中的人工智能2（2021）6065lnxi;j;：：：;lnxD;j通过数据封闭的属性（例如，范围限制被删除）。然而，一般来说，机器学习算法不假设特征空间的特定几何形状，也不假设特征变量分布（例如正态性）。嵌入向量空间的几何形状（及其相关属性，如线性变换和度量）的选择是基于数据的结构进行的，并通过算法性能分析进行验证。将数据嵌入到更适合于数据结构的几何结构中通常但不总是导致更好的算法行为，并且各种几何结构是可用的，诸如欧几里得几何结构、双曲几何结构和球面几何结构（Gu等人， 2018年）。4.4.1. CLR转换与未转换（原始）数据对于成分数据，Aitchinson几何（Aitchison，1982）是原生向量空间几何。组合数据的使用通常发生在其原生向量空间之外，通过选择对数据的对数比变换，使得所得向量空间是欧几里得的。在机器学习之外，这种转换传统上促进了多变量分析技术的使用，其中大部分最初是为欧几里得几何构建的（例如，Aitchison，1982;Grun-skyand de Caritat，2019）.对于机器学习算法，如果算法不明确要求任何特定几何的属性（例如线性变换），那么将数据留在其原生向量空间中是没有问题的。为了使用一组一致的训练数据用于机器学习算法，我们选择将数据的特征部分（即，主元素和次元素），这消除了Aitchison几何的范围限制（Aitchison，1982）。在传统的多元地球化学数据分析程序中，成功地使用了这种变换。在 Grunsky 和 de Caritat （ 2019 ）和其他类似研究（例如Grunsky，2013; Grunsky等人， 2014; Harris等人， 2015年; Chen等人， 2018），过程发现例程包含主成分分析（PCA）的应用，这是一种也属于机器学习的算法（取决于其应用和目的）。出于这些原因，我们遵循这个既定的数据预处理惯例（Grunsky，2013; Grunsky etal.， 2014; Harris等人， 2015年; Chen等人， 2018年; Grunsky和deCaritat，2019年），还利用了这是本研究的一部分在转型中，所有使用地球化学数据的预测建模：（a）监督和（b）无监督学习。半监督机器学习是一种混合(a) （b）也是可能的。在无监督学习中，类别标签（例如，浓度或岩石类型）是未知的，并且机器尝试推断数据内的分类以创建分类方案，然后可以使用该分类方案来对新数据进行分类（Hastie等人， 2009年）。在监督学习中，数据被标记，算法自动推断特征和标签之间的关系（Russell和Norvig，2010）。该算法的超参数通过交叉验证进行调整（Hastie等人， 2009年）。然后使用所得模型来归纳预测连续（例如元素的浓度）或离散（例如元素的浓度）。岩石类型）标签。可以通过另一个与训练和交叉验证数据集不重叠的数据集来评估预测结果的准确性。对于我们的目的，能够回归的监督机器学习算法是合适的。有许多监督回归算法。算法选择基于许多因素，例如（a）计算时间，（b）包括特征空间密度的数据密度，（c）偏差-方差权衡，（d）函数复杂度，（e）特征空间维度，（f）输入和预测噪声，以及（g）特征交互。实验方法通常用于最大化某些因素的组合。预测误差可以通过偏差、方差和噪声模型来解释。偏差是模型默认为某个类标签的趋势。方差度量给定模型输入变化时模型输出的相对变化噪声是预测误差中既不是偏差也不是方差的部分。总预测误差是三个误差源的正交和算法通常在它们的偏差和方差方面表现出不同的行为，并且在特定上下文中，可能希望用一些偏差来换取方差的更大减少。用于回归的k- 最近邻算法（ KNN; Cover and Hart ，1967; FXandHodges，1951）是一种非参数方法，其使用特征空间（模型的超参数）中的k个相邻训练样本来构建共识（通过平均），该共识用于估计落入邻域内的未知目标（Kotsiantis等人， 2007; Witten and Frank，2005）.KNN算法利用一系列步骤：（a）评估目标与每个目标之间的特征空间距离，将组合物xi：xD除以向量的几何平均值，即训练样本（例如，欧氏距离sPkxy2，althoug hothergxpDxi：xD，并且最后，对比率取对数，即¼ ði-iÞ“#i¼1gxjgxj（c）这些数据点的平均值是对目标的预测大在上下文中，这种类型的数据预处理（或任何其他形式的特征工程）是否有保证取决于其对预测建模性能的影响（Karpatne等人， 2018年）。在这项研究中，我们使用两个并行工作流来评估机器学习算法的性能，一个采用了Euclidean变换来设计适合于欧几里得几何感知算法的特征，另一个没有它（即使用原始数据）。4.4.2. 机器学习算法和工作流程k的值可能导致模型过拟合（Hastie等人，2009），这增加了预测方差。Elastic-Net是一种正则化回归方法，它分别线性组合了套索（最小绝对收缩和选择算子;Santosa和William，1986;Tibshirani，1996）和岭（ Tikhonov 正则化 ;Tikhonov ， 1943 ）算法的 L1 和 L2 惩罚（ Zou 和Hastie，2005）。Elastic-Net的目标函数是：minω12N.Xω-Y2;我们采用了一系列的算法，其中一些是几何意识=2 2并采用欧几里德度量，而其他人则完全不知道特征空间几何。预测目标（即要预测的痕量元素）不被变换，因为它们不是特征空间的一部分。如果这些特征编码岩石的特征，这些特征也因岩石类型而不同，那么机器可以识别这些差异及其关系，这些差异及其关系可以用于预测建模。嵌入向量空间的选择（以及因此对数比变换）是否合适应该使用性能度量来经验性地评估（Gu等人，2018年）。在这项研究中，我们采用了两个性能指标，决定系数（CoD或R2）来评估模型拟合，以及中位数绝对预测误差（MAPE）来评估典型的预测性能。与CoD度量相比，MAPE对离群值更鲁棒。两种主要类型的机器学习算法适用于其中X是输入特征，Y是回归输出，ω是系数，N是样本数，α是正则化参数，ρ是脊和套索贡献的混合比Elastic-Net集成了岭回归唯一确定有用特征的能力，同时保留了套索回归完全删除无用特征的能力。在正则化项和测量数据点到模型的距离中使用L2度量意味着原生特征空间几何是欧几里得的。支持向量机（SVM; Vapnik，1998）算法类似于其他欧几里得度量回归算法，并且通常用于在高维特征空间中定义非线性决策边界或回归模型（Hsu和Lin，2002; Karatzoglou等人， 2006年）。SVM最大化训练样本（支持向量）的数量对于样本xj，.在机器学习度量也是适用的）;（b）选择最接近的k个数据点;S.E. Zhang等人地球科学中的人工智能2（2021）6066ðÞ在由ε定义的边界区域内最接近回归超平面的。目标函数测量模型系数的L2范数和裕度，裕度是超平面与边界外数据点之间的欧几里得距离之和乘以参数C。增加C会使模型变得越来越复杂。由于支持向量机只使用支持向量，它可以自动忽略一些离群值。支持向量机的核心是另一种算法hyper-参数和许多参数函数可以使用，包括表1网格搜索中使用的模型参数算法参数网格KNNk¼ {1，2，4，6}SVMC¼ {10，50，100，150，200，250，300，350，400，450，500，750，1000}，ε 1/4{0.00001，0.0001，0.001，0.01，0.1，0.5，1.0}，内核ε 1/4{linear，RBF}弹性-净L1比1/4 {.1，.5，.7，.9，.95，.99，1}高度可伸缩的径向基函数（RBFs）。决策树是递归地划分树的类似于树形图的层次结构内部节点表示要素，分支表示随机森林围隔尺寸为<$500;最大深度为<$4{5，4，3，2，1，无限制};特征的最大数量为1/4{1，2，3，4，5};分割的最小样本数量为1/4{2，3，4};叶的最小样本数量为1/4 {1，2，3}发送决策规则，每个叶子代表一个结果。该算法学习基于特征值划分数据。类似于图表的结构很容易解释和可视化。分割节点的决策规则是基于一个度量，以最大化所得到的叶子之间的差异的一些概念。对于回归，均方误差度量可用于测量叶对其周围样本的拟合优度树的深度是一个超参数。决策树是弱回归，因为它们回归的概率高于概率，但不是实质性的。如果每个弱回归量都优于随机猜测，则可以使用各种统计方法将弱回归量转换为强回归量，例如集成方法（Ho，1995;Breiman，1996a，1996 b;Kotsiantis，2014;Freund和Schapire，1995;Sagi和Rokach，2018）随机森林是一种袋装决策树，只要树不相关，它通过构建树的集合并平均输出来减轻单个树的噪声敏感性（Ho，1995）。各个树之间的相关性的去除是通过对特征的随机子集（例如，bootstrapsampling）。这导致了比决策树更好的模型性能，因为模型方差减少了，但没有引入额外的偏差。除了从决策树继承的树深度参数之外，每棵树的最大特征量、树的数量和每次分裂的最小样本数量是模型超参数。AdaBoost可以使用决策树作为基础弱回归器，在这种形式下，它是一种使用自适应提升的提升决策树（Freund和Schapire，1995），它将弱回归器的输出组合成代表最终输出的加权和。自适应通过根据当前预测的误差调整后续回归量的权重来进行，以专注于更困难的情况。适应率和树的数量是模型的超参数。基于树的方法不假设特征空间几何。多层感知器分类器（MLP）是一类前馈人工神经网络，它是松散地类似于生物大脑的连接节点（人工神经元）的集合（Hastie等人， 2009年）。神经元之间的连接将实数传输给其他神经元，每个神经元的输出是其输入之和的非线性函数（类似于生物神经元中的激活电位连接和神经元输出通常被加权，并且权重通过经验来调整。神经元根据某种功能激活，其可以表现出阈值或可以是线性的（Hastie等人， 2009年）。神经元通常是逐层连接的，每一层对它们的输入执行不同的转换在其他人工神经网络设计中，信号可以多次循环地通过同一个网络，尽管前馈设计是单程的。人工神经网络是通用函数逼近器，在图像分类和自然语言处理等数据丰富的应用中是非常有用的算法。到目前为止，在越来越多的应用中，人工神经网络能够在几项任务中超越人类的表现（例如， He等人， 2015年; Lundervold和Lundervold，2019年）。MLP至少包含三层神经元：输入级;隐藏层;输出层，由于其简单性，它是人工神经网络的一个简单示例。输入节点是线性激活的，而后续层是非线性的。监督学习技术使用目标函数和反向传播进行模型训练。目标函数是评估输出的可取性的任何度量（例如，是说AdaBoost学习率<$1，分类器数量<$100，基本分类器<$4最大深度为1/4{0，2，4，6}MLPα1/4 {0.001，0.01，0.1，1.0}，激活α 1/4{同一性，逻辑，双曲正切，relu}，学习率<$4{常数，逆缩放，自适应}回归的平方误差反向传播通过使用链式规则计算每个训练示例的目标函数的梯度，每次迭代每一层。它允许在梯度下降方法之后更新权重以最小化目标函数（Curry ，194 4;Lema r'echal，2012; Rosenblatt，1961;Rumelhart等人， 1986年）。MLP能够区分不可线性分离的数据（Cybenko，1989）。有几个超参数，包括以下：激活，这是一种用于激活隐藏层和最终层的数学函数，可以包括恒等式（fxx），逻辑函数（f）和逻辑函数（f）。sigmoid函数（fx1= 1e-x），双曲正切函数（fxtanhx）和线性单位函数（relu，fxtanhx）max0;x）;基于L2范数的正则化参数α，可以是调整以平衡模型偏差和方差;学习率参数可以是恒定的，使用幂函数（invscaling）在每个时间步长上减小，并且自适应，将学习率保持在初始恒定速率，直到损失函数停止减小，此时，学习率降低五倍。MLP不像任何特征空间的几何图形。监督机器学习算法的模型选择和调整通常通过交叉验证来完成，交叉验证是一种样本外测试技术。在交叉验证中，数据集被分成几个不重叠的集合，其中较大的是用于训练模型的训练数据集。然后使用剩余验证数据集来描述模型的预测性能，并调整模型超参数。随后，重新训练和重新验证模型以优化超参数。通过这一过程，可以最大限度地减少过度的模型方差和选择偏差等问题。在大多数机器学习应用中，建议使用5倍或5重交叉验证是优选的，因为它最小化了计算时间，特别是在预测精度在可接受水平内的情况下，这取决于研究或应用的目的（Zhang et al.， 1999;An等人， 2007年）的报告。我们使用网格搜索（表1）结合5折交叉验证来确定最佳算法。5. 结果5.1. 微量元素浓度使用各种机器学习算法预测了总共32种微量元素（Sc，V，Cr，Co，Ni，Cu，Zn，Rb，Sr，Y，Zr，Nb，Ba，La，Ce，Pr，Nd，Sm，Eu，Gd，Tb，Dy，Ho，Er，Tm，Yb，Lu，Hf，Ta，Pb，Th和U）（图11）。4）。整个数据集被划分为训练和测试数据集，其中训练数据集被进一步划分为交叉验证和使用5倍交叉验证的训练子集。使用CoD确定每个元素的最佳算法最好的算法，然后用于性能评估。对测试数据集进行最终模型测试，以获得稳定的结果。最终测试使用5重交叉验证，重复25次（每个元素共125个结果），S.E. Zhang等人地球科学中的人工智能2（2021）6067见图4。使用（a）KNN

下载后可阅读完整内容，剩余1页未读，立即下载