没有合适的资源?快使用搜索试试~ 我知道了~
地球科学中的人工智能3(2022)86使用机器学习的高级地球化学勘探知识:未知元素浓度的预测和再分析活动的Steven E. 张a,b,Julie E. Bourdeau a,b,Glen T. Nwaila b,*,Yousef Ghorbani ca加拿大地质调查局,601 Booth Street,Ottawa,Ontario,K1A 0E8,Canadab威 特 沃 特 斯 兰 德 大 学威特矿业研究所,1 Jan Smuts Ave.,南非约翰内斯堡c瑞典吕勒诺布尔理工大学土木、环境和自然资源工程系,SEA R T I C L EI N FO保留字:机器学习重新利用遗留数据先进的勘探知识加拿大地球化学数据A B S T R A C T在勘探地球化学中,检测限、可分析元素的广度、分析仪器的准确度和精密度的进步促使对遗留样品进行重新分析,以提高地球化学数据的可信度,并对潜在矿化区获得更多的了解。虽然地球化学勘探计划中的再分析活动通过提供更可信和更高维的地球化学数据来使遗留地球化学数据现代化,特别是在现代数据与遗留数据显著不同的情况下,但这是一项昂贵的工作。与这种遗留数据现代化相关联的风险在于其回报的不确定性(例如,新发现的可能性,主要是在绿地环境中)。由于对尚未分析的元素没有任何先进的知识,重新分析的重要性仍然是模糊的。为了解决这种不确定性,我们将机器学习应用于来自加拿大不同地区的多变量地球化学数据(即,丘吉尔省和跨哈德逊造山带),以便在计划的重新分析之前使用遗留的地球化学数据来预测现代和更高维的多元素浓度。我们的研究表明,传统和现代地球化学数据可以被重新利用,以预测将从重新分析中实现的尚未分析的元素,并以显着减少现代地球化学数据下游使用的延迟的方式(例如,前瞻性映射)。这项研究的结果作为勘探地质学家预测性勘探和优先考虑潜在矿化区的框架的支柱,以便在采用更具侵入性和昂贵的技术之前及时进行进一步的勘探。1. 介绍地球化学勘探需要有条理地收集、处理和分析所收集的样品。在大型勘探项目(区域或国家、十年期项目)中,这一过程需要几年到几十年的时间来绘制目标区域的重要部分。巧合的是,分析仪器的发展从研究到开发,再到部署,大约经历了十年(Balaram,2021)。不幸的是,分析仪器的进步和大型勘探项目的实施的时间尺度的这种重叠意味着,以周期性的方式,地球化学数据变得过时,并且需要重新测量和/或重新分析。过时的地球化学数据是在分析上不再是最先进的数据(例如,比现代数据更少的分析元素)。我们在此将过时的地球化学数据称为在数据生成过程中需要手工劳动。在地球化学勘探的数据生成部分,方法学经历了巨大的变化,主要是在与取样和处理方法相关的分析方面,因为分析仪器在准确度和精密度、检测限和可分析元素的广度方面都有了很大的改进(Cohen等人,2010年; Balaram,2021年)。目前,仍有进一步的研究正在进行中,以采用新技术,如拉曼光谱;以及朝着仪器小型化的方向发展(Balaram,2021)。地球化学勘探数据的周期性现代化在某些情况下是必要的,例如, 额外 元件 的 是 缺席 在 遗产数据然而,在这方面,* 通讯作者。电子邮件地址:glen.nwaila@wits.ac.za(G.T.Nwaila)。https://doi.org/10.1016/j.aiig.2022.10.003接收日期:2022年5月19日;接收日期:2022年10月30日;接受日期:2022年10月31日2022年11月5日在线发布2666-5441/© 2022作者。Elsevier B. V.代表KeAi Communications Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表地球科学中的人工智能杂志主页:www.keaipublishing.com/en/journals/artificial-intelligence-in-geosciencesS.E. Zhang等人地球科学中的人工智能3(2022)8687Fig. 1. 加拿大的简化地质图,以及本研究中使用的湖泊沉积物数据集的位置。对应于丘吉尔省东南部的数据集(标记为1的阴影区域)位于拉布拉多。包括在东南丘吉尔省的位置是米斯汀巨石(红色)。对应于西南丘吉尔省和跨哈德逊造山带(阴影区域标记为2)的数据集位于萨斯喀彻温省。仅使用人工重新采样和/或重新分析来完成该任务是昂贵的,并且对于某些元件来说可能是不合时宜的。然而,预测数据的生成可以用来指导化探数据的现代化,在某些应用中,甚至可以替代实际的原始数据。大型区域和国家地球化学调查项目是地球化学数据的重要来源。例如,能源和矿产地理测绘(GEM)计划(Lebel,2020年;加拿大地质调查局,2022年)是加拿大的一项国家调查计划,最初于2008年构想,旨在提供现代、公开的地球科学加拿大北部的知识,以支持增加资源勘探(现在称为GEM-GeoNorth计划[2020-2027])。世界各地都有类似的项目。例如,南非地球科学理事会进行了一系列地球化学调查,这项研究一直持续到21世纪初,现在正在使用现代方法扩大调查范围,更好地涵盖微量元素,特别是能源过渡金属和电池金属(地球科学委员会,2022年)。将GEM计划视为原型,这些计划产生的数据的下游目的似乎是:构建数字地图;提供可能与评估矿化潜力相关的信息;以及提供对一般土地使用做出明智决策所需的信息(GEM-GeoNorth,2022)。根据被调查地区的自然景观, 根据测量人员的能力,可以获得许多类型的样品介质,例如:散装岩石、湖泊沉积物、冰碛物和水。每一种媒体都有自己的优势和劣势,都有自己的收集和处理方法。选择样本介质的主要决策标准是其在目标区域内的丰富性和可访问性。对于每一种类型的样本介质,一般来说,结果数据(包括遗留数据)是通过从收集到仪器分析应用高度严格和标准化的方法产生的。这大大有助于数据使用,包括数据融合。一般来说,在地球化学取样中,存在一种做法,即取样超过严格必要的材料,以预期样品重复使用,从而避免重新取样,部分原因是分析能力的不断提高。为了提供最新的(现代的)数据,必须开展再分析活动,这会给地球化学勘探方案带来高昂的持续运营成本,特别是在国家一级。然而,由于样品在后续分析之间没有变化(存在足够的残留材料),因此它们提供了前所未有的机会,可以利用机器学习在重新分析之前预测元素浓度,以通过目标优先级来帮助活动规划。这使得更好的资源分配和规划,在勘探计划具有特定和直接焦点方向的情况下至关重要发现含有重要原材料的矿床对于这种应用,在遗留数据不包含属于关键原材料列表的元素的情况下,机器学习、遗留地球化学数据和现代地球化学数据可以用于预测到未知区域,或以前勘探矿藏的目标区域。除了优先化之外,这可以帮助早期检测与矿床相关联的潜在相关化学特征,甚至在物理分析属于化学特征的元素之前。这项概念验证研究使用了GEM项目的湖泊沉积物数据。加拿大湖泊沉积物地球化学数据因其良好的空间覆盖性,已用于近十年的地表地质研究。到目前为止,重新分析分别在2016年和2021年产生了两个完全现代化的数据集:拉布拉多丘吉尔省东南部的一部分(McCurdy等人,2016年);以及西南丘吉尔省和萨斯-卡彻万的跨哈德逊造山带的一部分(Bourdeau等人,2021年、2022年)。1978年和1982年(丘吉尔省东南部)以及1984年和1986年(丘吉尔省西南部和哈德逊河外地区)进行了初步采样。S.E. Zhang等人地球科学中的人工智能3(2022)8688图二. 位于拉布拉多的丘吉尔省东南部数据集的样本位置。图三. 来自西南丘吉尔省和跨哈德逊造山带数据集的样本位置,位于萨斯喀彻温省东北部作为1990年代重新分析运动的一部分,拉布拉多地区的丘吉尔省东南部也被重新分析。通过这种方式,GEM计划打算重新分析其收集的湖泊沉积物样品,以使其表面活性剂地球化学数据现代化。然而,GEM目前并没有在其程序执行中以任何可能对现代经济感兴趣的能力和目标(例如,最好在部分基于目标地区地质先验知识(知识驱动)的基础上,对含有关键原材料的矿床进行优先排序。据我们所知,目前没有任何地球化学勘探项目正在进行预测数据生成。除了科学数据质量的差异外传统地球化学数据集与现代地球化学数据集(沉积物或其他)之间的差异在于前者缺乏元素的广度。例如,在20世纪70年代和80年代之间,加拿大地质调查局的湖泊沉积物地球化学分析数据通常包含多达14种 元素,并且不包括任何稀土元素元素类似地,对于地球科学理事会在2000年代生成的地球化学数据,常见配置是23个元素(例如,van Rooyen等人,2004年)。这使得无法利用这些遗留的地球化学数据来了解未分析微量元素的国家分布,其中许多已成为表1本研究中使用的地球化学数据集的详细信息样品重要的是,如原材料。相比之下,来自GEM的最新湖泊沉积物地球化学数据集现在包含65种元素,包括亲石元素、亲铁元素和亲铜元素(例如, McCurdy等人,2016年)。使用例如元素图、元素比率、多元和人工智能方法进行的勘探分析和下游建模都受到遗留地球化学数据集中可用元素的稀疏性的限制。如果一个地区可能有数据,其中含有目前无法获得的元素的浓度,则可以利用这些数据执行许多任务,例如创建相对简单的元素图。这是一个适合预测的任务。打开报告编号年NTS地区数量重新分析分析要素5571978013 L,M1,425Ag,As,Co,Cu,F,5591978014D1,001Fe、Hg、LOI、Mn、5601978023 I,J1,239钼、镍、铅、铀、锌9041982023 I,J43013591986074-A,1,286Ag,As,Au,Cd,B、G和Co、Cu、Fe、Hg,HLOI、Mn、Mn、Mo,镍,铅,锑,铀,钒,Zn16431984064-E,1,177Ag,As,Au,Ba,074A溴、镉、铈、钴、铬,和HCs,Eu,Fe,Hf,Ir,La,Lu,Mo,Na,Ni,Rb,Sb,Sc,Se,Sm,Sn,Ta,Tb,Te,Th,U,W,Yb,80262016014 D,3,441557,559,锌、锆Ag,Al,As,Au,B,013M560,904钡、铍、铋、钙、镉,和L,Ce,Co,Cr,Cs,Cu,023 I和Dy,Er,Eu,Fe,Ga,JGd,Ge,Hf,Hg,Ho,In,K,La,Li,Lu,Mg,Mn,Mo,Na,Nb,Nd,Ni,P,Pb,Pd,Pr,Pt,Rb,Re、S、Sb、Sc、Se,Sm,Sn,Sr,Ta,Tb,Te,Th,Ti,Tl,88372021074-A,1,2861359Tm,U,V,W,Y,Yb、Zn、ZrAg,Al,As,Au,B,B、G和钡、铍、铋、钙、镉,HCe,Co,Cr,Cs,Cu,Dy,Er,Eu,Fe,Ga,Gd,Ge,Hf,Hg,Ho,In,K,La,Li,Lu,Mg,Mn,Mo,S.E. Zhang等人地球科学中的人工智能3(2022)8689表2位于萨斯喀彻温省东北部的丘吉尔省西南部和跨哈德逊造山带的旧(1984-1986)和新(2021)地球化学数据之间的精度比较LDL=检测下限,RSD=相对标准偏差。除非另有说明,否则所有元素平均值均以ppm给出计算精密度的方法详见McCurdy和Garrett(2016)。元件19842020-元素均值删失LDLRSD(%)元素均值删失LDLRSD(%)AG0.2495.4249.220.01013.62作为8.3958.174.084.7121.9714.15Au1000.0037.8867.67CD0.3743.7926.420.5106.38Co7.282.6111.658.1303.56Cu14.3108.0014.0603.62铁(%)5.1507.485.1704.29Hg0.01011.050.01014.11MN911.42021.22480.561.526.89莫4.0955.5621.393.2404.40Ni13.5206.1017.3604.55PB7.5390.26.853.3107.66SB0.2594.129.430.088.3341.33U8.241.318.657.7404.27V38.242.619.9637.4504.45Zn100.7307.72101.5305.14表3随机森林参数网格。参数范围最大深度5,7,9,11,无限最大功能2,3,4,5,6,7,8,无限每次拆分的最小样本数3、4、5、6,无限制每片叶1、2、3、4、5、6的最小样本数使用机器学习建模。在过去,各种机器学习算法已经被证明能够预测元素浓度(Zhang等人,2021 a,2022)。特别地,为了我们的目的,机器学习算法可以用于对新旧地球化学数据集中的元素之间的关系进行建模,以匹配样本。然后,可以部署这些模型,以在实际重新分析之前推断其他区域中尚未分析的元素的可能浓度。在这项研究中,我们研究了在使用机器学习,传统和现代地球化学数据集进行重新分析之前预测遗留数据区域中元素浓度的可行性。我们表明,一系列的元素可以预测一系列的性能配置文件(使用指标测量)。此外,预测和实际元素浓度之间的空间一致性一般比变量域中的一致性好得多,这是一个充分的过程,因此预测的元素浓度图提供了先进的勘探知识,可用于操作优先级和其他下游用途。我们希望我们的方法可以推广到其他环境和勘探项目,前提是遗留数据和现代数据都存在,并且它们可以被重新利用和融合以提供训练数据集。2. 数据和分析方法2.1. 数据来源和说明GEM计划内部计划使用国家地形系统(NTS)定义的空间区域进行采样和再分析,该系统是加拿大自然资源部的标准(https://www.nrcan.gc.ca/earth-sciences/geography/topographic-information/maps/national-topographic-system-maps/9767)。丘吉尔省东南部湖泊沉积物数据集包含位于拉布拉多的样本,包括NTS 014D,013 M和L,023 I和J的部分(图1和2)。1和2号文件)。丘吉尔省西南部和跨哈德逊造山带湖泊沉积物数据集位于萨斯喀彻温省东北部,包括NTS 064 E,074 A,B,G和H的部分地区(图1和2)。1和3)。两个调查区域共有6,558个样本的数据可用,并用于此概念验证研究,其中空间见图4。模型选择性能总结元素顺序按平均度量分数从最低到最高排列。在所有较旧数据集中发现的元素以橙色粗体文本显示(包括Pb、Mo、Ag、Hg、Mn、Ni、Zn、Co、Cu、Fe和U)。S.E. Zhang等人地球科学中的人工智能3(2022)8690-图五. 013 M区元素的预测值与实际值:Cu(a); Y(b); Gd(c);和Er(d)。CoD(R2)和MedAE指标评分见散点图。 STD(标准差)和中值显示在直方图中。见图6。最终测试性能总结在所有较旧的数据集中发现的元素以粗体橙色文本显示(包括Pb、Mo、Ag、Hg、Mn、Ni、Zn、Co、Cu、Fe和U)。分辨率约为每13平方公里1个样本(Friske和Hornbrook,1991年)。对14-34种元素进行了传统地球化学分析,而现代分析包含65种元素(数据描述总结见表1)。将收集的用于所有分析的湖泊沉积物样品风干、研磨并过筛(80目)。从1978年到1986年,Chemex Labs进行了地球化学分析。有限公司(现为ALS Global)。 所有元素都是通过原子吸收光谱法(AAS)测定的,其中一小部分(多达1,176个样品)还进行了仪器中子活化分析(INA)。然而,绝大多数的人-使用INA分析的所有元素的分析均低于检测限,使得两种受影响最小的元素- U烧失量(LOI)通过热重法测定,U通过INA(延迟计数)测定。1984年进行的地球化学分析(1643年)由Barringer Magenta Ltd.进行在安大略省。地球化学2016年至2022年进行的再分析使用了相同的制备材料纸浆,并在温哥华的Bureau Veritas进行采用改良王水溶液(1:1:1,HCl:HNO3:H2O)消解纸浆样品使用电感耦合等离子体质谱仪(ICP-MS)(McCurdy等人,2016; Bourdeau等人,2021年、2022年)。通过使用参比物质、现场重复样品和分析重复样品,在重新分析的数据集中实现了质量保证和质量控制(QA/QC)(McCurdy和Garrett,2016)。旧数据集不包含经认证的参比物质的分析,这意味着无法估计其准确度,但可以比较旧数据集和新数据集的精密度,如表2所示。数字化数据集是开源的,可以从加拿大地球化学调查数据库获得:https://geochem.nrcan.gc.ca/。在每个样本的基础上融合了传统和现代地球化学数据,以构建用于预测建模的S.E. Zhang等人地球科学中的人工智能3(2022)8691±±±见图7。最终测试性能总结在所有较旧的数据集中发现的元素以粗体橙色文本显示(包括Pb、Mo、Ag、Hg、Mn、Ni、Zn、Co、Cu、Fe和U)。见图8。所有预测元素的模型选择与交叉验证CoD(R2)评分。虚线是1:1线。绘制在线下方的点表示交叉验证性能相对于模型 选择 和 反之亦然2.2. 地质环境本研究中使用的数据旨在捕获采样区域的表面活性剂地球化学变化。在这里,我们提供了一个高层次的描述地质背景,以协助评估预测数据除了纯粹的性能指标。丘吉尔省东南部位于拉布拉多(图1),被解释为太古代至早元古代大陆地壳的细长长条,在古元古代期间在碰撞的上(西)和北大西洋(东)板块之间增生(James等人,1996; James和Dunning,2000; Wardle等人,2002; Corrigan等人,2018年)。岩性主要包括副片麻岩和正片麻岩、混合岩和低至中等变质等级的表壳岩和深成岩。随后,中元古代时期的各种成分的侵入体(斜长岩-辉长岩-长岩、花岗岩和正长岩)侵入该地区(Hammouche等人,2012年)。值得注意的是,Mistastin火山岩(1.4 Ga)局部高度富集稀土元素[REE]、Zr、Y Be、Nb、U和Th(Hammouche等人,2012年)。其中一个富集带是米瑟里湖过碱性正长岩(1409.71.2马;大卫例如,2012;Hammouche等人,2012年),最值得注意的是奇异湖过碱性复合体(1240 2 Ma),它表明矿物资源为278 Mt,总稀土氧化物含量为0.93%(Miller,1990年; Gowans等人,2014; Zajac,2015; McClenaghan等人,2017年,2019年)。 威斯康星冰川期的冰川侵蚀使大量的向东北方向移动,形成一个分散的火车,在冰层下超过50公里处被检测到(McClenaghan等人,2017,2019和其中的参考文献; Zhang等人,2022年)。然而,2016年重新分析之前的遗留数据不包含稀土元素分析。丘吉尔省西南部和跨哈德逊造山带位于萨斯喀彻温省东北部(图1)。西南丘吉尔省的特点是太古宙片麻岩,花岗岩类,见图9。根据(a)预测浓度(ppm)和(b)实际浓度(ppm)绘制了丘吉尔省西南部和跨哈德逊造山带地区的镍元素浓度图。S.E. Zhang等人地球科学中的人工智能3(2022)8692见图10。根据(a)预测浓度(ppm)和(b)实际浓度(ppm)绘制了丘吉尔省东南部地区Ni元素浓度图。见图11。根据(a)预测浓度(ppm)和(b)实际浓度(ppm)绘制了丘吉尔省西南部和跨哈德逊造山带地区的Y元素浓度图。被古元古代表壳序列覆盖的表壳岩(Card等人,2007; Eglington等人,2013年)。该省拥有几个矿床,特别是Au(Ithingo湖矿床)和Fe(Nyberg湖和Ithingo湖矿床)(萨斯喀彻温省地质调查局,2018年)。丘吉尔省与苏必利尔省在东南方向被古元古代的哈德逊造山带分隔开(1.83-1.80 Ga; Corrigan等人, 2005年)。外哈德逊造山带本身是一个拼贴的幼年表壳带,大陆边缘沉积物以及来自太古代Superior和Churchill地区的重新活化的岩石(Hoffman,1988; Corrigan等人, 2005年; Yeo和Delaney,2007年)。一基底金属的数量(例如,元 素 [PGE] 和 稀 土 元 素 ) 的 产 状 发 现 于 跨 哈 德 逊 造 山 带 ( Yeo 和Delaney,2007年;萨斯喀彻温省地质调查局,2018年)。 这些基底岩石被古元古代覆盖,中元古代 阿萨巴斯卡群岛 岩石(1.75Krstic,1992; Rainbird等人,2007; Ramaekers等人,2007年)的报告。紧邻基底和阿萨巴斯卡群岩石之间的不整合面之上或之下的地层区域以阿萨巴斯卡不整合面型铀矿床而闻名(Jeanneret等人,2016年)。该区域的遗留地球化学数据同样不包含许多元素,如稀土元素。2.3. 机器学习工作流程据我们所知,没有研究存在,具体检查的可行性,预测高维地球化学数据从低维和遗留的地球化学数据。然而,已经尝试使用机器学习和辅助/辅助数据来预测地球化学元素浓度以用于绘图的目的(例如,Kirkwood等人,2016)和资源估算(Nwaila等人,2019年;Zhang等人,2021年b)。为了我们的目的,我们采用并重新设计了适合我们任务的基于ML的工作流程,该工作流程由Zhang等人开发。(2021a,2022)。在其原始公式中,它使用主元素和次元素来预测痕量元素浓度,在这种情况下,ML工作流程旨在以每个元素为基础重建痕量元素浓度。线性重建误差(预测残差)用于检测地球化学异常,主要用于绿地环境,以无监督方式描绘潜在勘探目标。在这项研究中,我们重新调整了ML工作流程,以尚未在棕地环境中进行分析的元素的元素浓度的形式生成高级勘探知识(在存在遗留数据的意义因此,工作流程的关键预测建模部分与Zhang等人(2021 a,2022)中的相似,除了机器学习算法的特征选择和数据删除之外S.E. Zhang等人地球科学中的人工智能3(2022)8693见图12。根据(a)预测浓度(ppm)和(b)实际浓度(ppm)绘制了丘吉尔省东南部地区的Y元素浓度图。图十三. 根据(a)预测浓度(ppm)和(b)实际浓度(ppm)绘制了丘吉尔省西南部和跨哈德逊造山带地区的Gd元素浓度图。基于重构的异常检测修改后的ML工作流使用在遗留分析(1970年至1980年之间分析)中分析的元素作为特征,并使用现代分析中的元素作为目标。而不是系统地探索所有可行的机器学习算法,其中有许多(例如,Zhang等人,2021 a,2022),我们选择专注于随机森林算法的调整和结果(Ho,1995; Breiman,1996 a,b; Kotsiantis,2014; Freund和Schapire,1997; Sagi和Rokach,2018)。我们的选择基于这样一个事实,即随机森林被证明相对于许多其他算法为该任务提供了通常良好的并且通常是最好的性能(Zhang等人,2021 a,2022)。关于随机森林算法的完整讨论,以及其他探索过的合适算法,请参见Zhang et al.(2021a,2022)。对于我们的任务,Zhang等人(2021 a)总结了随机森林算法的一些理想属性,其中包括一个没有原生几何形状的特征空间,因此对地球化学数据的嵌入空间没有先验要求。因此,经验表明,对于痕量元素的预测任务,随机森林算法通常使用中心对数比转换数据和原始数据在大量元素上表现出相当的性能,并且在许多情况下,原始数据亲在一系列指标上产生了 更好的结果(Zhang等人,20 2 1 年a,2022年)。因此,我们选择使用原始数据进行预测建模。模型构建遵循张先生建立的方法论等(2021a,2022)。本研究中使用的特征和目标是在传统和新分析中完成95%以上(5%缺失值)的所有元素从遗留物分析来看,其特征为:Hg、Fe、Mn、Ni、U、Co、Zn、Cu。来自新分析的目标是:Cr、Dy、V、Tm、P、Th、Ni、Ti、Cs、Al、Na、Nb、Zn、Ce、Tl、Be、Co、Mg、Ag、Y、Rb、Sr、Ga、Fe、Er,Yb,U,Ca,Mn,Se,Mo,Cd,Pr,Sm,Gd,S,Hg,Nd,Eu,Ba,Sc,K,Pb,Cu,Zr,Li,Tb,Lu,La和Ho。根据数据集,所有分析都用于其原始形式(wt%或ppm)。我们按照Zhang等人(2021 a)的方法,使用k-近邻估算器估算了这些特征。目标元素未进行估算。如果目标中缺少数据,则这些数据点不用于预测或绘图。对于模型选择和调整,我们采用了使用网格搜索的4重交叉验证(表3)。我们选择执行模型选择和调优的度量标准是决定系数(CoD或R2)。然而,我们还采用了平均绝对百分比误差(MAPE;例如, 德·梅特Naere等人,2016)和中位绝对误差(MedAE)对曲线预测性能的影响。为了评估空间域中的预测建模性能,我们使用空间交叉验证,其中数据沿着现有NTS边界被划分为区域;每个区域中的目标元素使用来自其他区域的数据进行预测,并且可变域性能度量和映射都用于理解预测性能。按NTS区域进行的细分类似于GEM计划如何规划调查和再分析活动。因此,我们认为,S.E. Zhang等人地球科学中的人工智能3(2022)8694图14. 根据(a)预测浓度(ppm)和(b)实际浓度(ppm)绘制了丘吉尔省东南部地区Gd元素浓度图。图15. 根据(a)预测浓度(ppm)和(b)实际浓度(ppm)绘制了丘吉尔省西南部和跨哈德逊造山带地区的Er元素浓度图。使用这一方法的空间交叉验证类似于在重新分析之前如何操作预测建模。3. 结果模型选择结果表明,最佳预测元素是传统和现代之间重叠的元素地球化学分析相比之下,其他元素是根据元素和NTS区(图4)用变量CoD(R2)预测的。一些元素预测不佳(CoD(R2)0.3;例如,< Sr和S)。 一些区域在某些元素上一致预测更差,例如013 M区和元素:Ho; Eu; Sm; Gd; Nd; Pr; Er; Dy; Tb; Y; Ce和Yb。已知该区域含有一些与Mistastin岩石有关的含稀土元素的地球化学异常(McClenaghan等人,2017,2019和其中的参考文献)。因此,预测性能的降低是预期的,并且实际上,数据重建性能被用于识别矿化异常(Zhang等人,2021 a,2022)。使用空间交叉验证的测试结果表明,在NTS区水平的各种元素的预测一般是可能的。 特别是,013 M区稀土元素的预测浓度倾向于低于预测值(图1)。 5)。 在Zhang et al.(2022年)。的 预测 性能 观察到 通过 空间 交叉-验证与模型选择大致一致(图6)。在不使用空间交叉验证(例如,数据分割是随机的,从所有NTS区域),性能通常基本上接近模型选择的性能(图6)。总体而言,总体性能有所下降,并且某些区域在一系列元素中的预测结果往往优于其他区域,例如大多数预测的稀土元素的区域074A(图6)。023J区是许多元素(如稀土元素)的平均可预测性最低的区域(图6)。这是因为区域023J包含大量的数据,这些数据在化学上与其他区域中的数据非常不同。因此,在来自区域023J之外的区域的数据上训练的模型不能很好地推广到区域023J。使用MAPE度量也可以观察到这种行为(图7)。对于除Th、Mo和Zr之外的大多数元素,所有其他元素的MAPE的加权平均值均低于1(图7)。这表明,大多数元素的中位误差平均低于其浓度值。更好地了解性能预期,如模型的泛化能力,我们检查了模型选择和交叉之间的CoD(R2)得分的变化验证阶段(图8)。一些元素(例如,Cd、Cs、Cr、Nb和Na)在交叉验证中表现出相对于模型选择的相对显著的性能损失(图11)。(八)。大多数使用预测的元素浓度生成的地图显示出与实际元素浓度S.E. Zhang等人地球科学中的人工智能3(2022)8695图16. 根据(a)预测浓度(ppm)和(b)实际浓度(ppm)绘制丘吉尔省东南部地区Er元素浓度图。图17. 根据(a)预测浓度(ppm)和(b)实际浓度(ppm)绘制了丘吉尔省西南部和跨哈德逊造山带地区的锌元素浓度图。浓度图(图9-20)。对于既包含在传统数据集中又包含在现代数据集中的元素,如Ni,空间一致性的程度很高(图2和3)。 9和10)。事实上,在奇异湖地区(丘吉尔省东南部),预测和实际元素浓度的地图是定性难以区分的(图2和3)。9和10)。在丘吉尔省西南部和跨哈德逊造山带地区,镍的分布图在性质上是相似的,但预测表明,在分布图的中心区域,镍的浓度更高(图9)。然而,预测已经存在于遗留数据中的元素的浓度不如预测当前未知的元素浓度有趣。 对于稀土元素,空间相关性的程度,舞蹈通常是好的定性,因为已知的区域是丰富的一些元素被预测为这样(图1和图2)。11-16)。特别是,在丘吉尔省东南部地区,已知的稀土元素异常的位置,如奇怪的湖过碱性 复杂 和 痛苦 湖 过碱性 正长岩岩石),以及他们的传播列车预计将富集这些元素(图。12、14和16)。对于贱金属,空间一致性的程度取决于传统数据集和现代数据集之间的元素重叠,在某些情况下,例如对于Zn和Pb,丘吉尔省东南部地区的空间一致性相当好(图1和2)。18和20),但在丘吉尔省西南部和跨哈德逊造山带地区(主要是西半部)的部分地区更穷。 17和18)。由于遗留和重新分析的地球化学数据主要用于区域制图,因此预测性能的评估也可以在图像域中进行。图像域包含网格化的数据,并且网格中的块已经使用插值来估计。与变量域中的原始预测数据的性能评估相比,网格化和插值过程(诸如在该概念验证中采用的网格化和插值过程)更适合于理解我们的方法的性能,其中映射是可预期的下游活动(例如,前瞻性映射)。 然而,网格化和内插过程引入了两个额外的机制,这可能会改变相对于原始预测数据的性能。一种机制是由插值引起的误差,这在很大程度上取决于所使用的插值方法。另一种机制是从多个相邻的支持点估计单个块的空间平均效应。当在图像域中测量时,如果预测数据表现出基本上关于零对称的残差(使得在随机样本上求平均趋于收敛到平均值或更接近零)并且存在一定量的空间相关性(否则映射是不必要的),则预期这将增加预测数据的性能。残差的对称性通常是可以观察到的,但对于某些元素来说,其它(例如,图中的Cu。 5相对于其他元素)。一般来说,是一个显着改善的所有指标时,测量的图像域相对于原始预测数据(图21-23)。的S.E. Zhang等人地球科学中的人工智能3(2022)8696--图18. 根据(a)预测浓度(ppm)和(b)实际浓度(ppm)绘制丘吉尔省东南部地区Zn元素浓度图。图19. 根据(a)预测浓度(ppm)和(b)实际浓度(ppm)绘制了丘吉尔省西南部和跨哈德逊造山带地区的铅元素浓度图。可以通过相对差(图像域分数减去原始预测数据分数,除以原始预测数据分数)来测量差异。CoD(R2)度量的相对差为约42.21%; MAPE度量约为69.24%; MedAE度量约为37.83%。这意味着MAPE指标的改进最大,其次是CoD(R2)指标.此外,对于MAPE和MedAE指标,除了Mn(图1和图2)。22和23),相对于在原始预测数据上评估的相同度量,所有元素在图像域中系统地改善。这意味着预测的地球化学数据一般适合于制图。4. 讨论这项研究表明,在存在遗留地球化学数据但缺乏相应现代数据的地区,预测一系列元素的元素浓度是可能的。交叉验证可用于使用各种度量来预测预测性能在可变结构域中(图6-8)。存在于训练数据中的要预测的元素通常在任何给定区域中的预测都比在训练数据中不存在的元素(图第6和7段)。这并不奇怪,因为关于这种元素的信息比目前未分析的元素的推断更直接。因此,预测的元素浓度 地图 变化 定量 在 其准确性(图2)9-20)。变量域中的高CoD(R2)评分(原始预测数据的预测浓度与实际浓度)通常转化为一致的预测浓度图 到与实际浓度图几乎相同(图1和图2)。9 -20,与图中的度量分数相比。21-23)。在图像域中(网格化和插值预测数据与非网格化数据),所有指标得分普遍大幅改善相对于在可变域(图21-23)。这突出了空间相关性和局部平均的积极影响,在我们的情况下,这似乎通常有利于使用预测数据渲染地图随着CoD(R2)评分(在所有领域)降低,预测的和实际的元素图之间的空间一致性(例如,图10中的Ni与图19中的Pb相比)。在较低的CoD(R2)值下,两个关键机制导致了预测和实际浓度图。这些是:(1)对浓度热点的预测不足或过度(例如,图18,西半部地图)和(2)预测实际浓度地图中不存在的浓度热点(例如,图16,地图的较低的西部部分)。然而,(2)在我们的结果中似乎不太常见,并且在某些元素存在看似假阳性热点的情况下,位置对于其他类似元素(例如,图16,与图12b相比,图的较低西部部分,同一区域显示Y的少量富集)。在这个意义上,(2)的大部分情况更好地描述为:S.E. Zhang等人地球科学中的人工智能3(2022)8697图20. 丘吉尔省东南部地区的铅元素浓度图是根据(a)预测浓度(ppm)和(b)实际浓度(ppm)绘制的。见图21。原始预测数据和映射数据之间基于每个元素的CoD(R2)度量分数的比较。在所有较旧的数据集中发现的元素以粗体橙色文本显示(包括Pb、Mo、Ag、Hg、Mn、Ni、Zn、Co、Cu、Fe和U)。多元/多元素浓度热点,其中一些元素的浓度非常低。无论如何,很明显,因为 的 预测 浓度 地图 一般 熊 空间与实际浓度图相似,这些图可用于计划重新分析,甚至是额外的采样活动(图1和图2)。9-20)。此外,预测和实际热点几乎总是相同的数量级,这在数量上得到了MAPE度量得分(几乎总是小于100%,见图7),这意味着可以使用预测的浓度图做出高级目标决策,而不是等待重新分析区域。这对于时间敏感的元素,例如属于关键原材料的元素,可能特别重要。在任何情况下,多变量浓度图通常可能比单一元素图更稳健,因为堆叠几个图将减弱元素之间的空间不一致并增强元素之间共有的热点。对于大多数稀土元素,它们的地球化学行为是可比的。因此,将它们分组在一起以生成最终的多元元素图是对预测结果的良好利用。 这将有助于进一步探索没有现代多元素地球化学分析的地区,特别是整个元素组(例如,稀土元素)缺失,但在操作上是重要预测性能高度依赖于训练数据的质量,特别是它与目标区域的关系。通常,为了最大化预测性能,训练数据应该包含尽可能代表目标区域的数据为了增加模型的通用性(例如,阶级不平衡问题)。此外,对于不能外推超出目标的数值范围的算法(例如随机森林算法和一般的基于树的算法),训练数据理想地应该包含沿着每个特征和目标的数据范围,这些数据范围部署数据集。这可能与预测输出的定性使用不太相关(例如,发现地球化学热点,但其确切浓度并不重要)。就地球化学数据而言,这意味着测试样品的成分应大量包含在训练样品中。就湖泊沉积物样本而言,这进一步意味着,训练数据集应充分涵盖换句S.E. Zhang等人地球科学中的人工智能3(2022)8698图22. 原始预测数据和映射数据之间基于每个元素的MAPE度量分数的比较。在所有较旧的数据集中发现的元素以粗体橙色文本显示(包括Pb、Mo、Ag、Hg、Mn、Ni、Zn、Co、Cu、Fe和U)。图23. 原始预测数据和映射数据之间基于每个元素的MedAE指标评分的比较。在所有较旧的数据集中发现的元素以粗体橙色文本显示(包括Pb、Mo、Ag、Hg、Mn、Ni、Zn、Co、Cu、Fe和U)。词、使用样本的对比成分的预测和训练,例如,对来自母岩火成岩的沉积物样品进行培训,对来自砾岩的沉积物样品进行测试,不太可能产生最佳性能。有几类因素可能以这
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功