地球科学中的人工智能：利用伽马射线属性增强岩相机器学习预测

98 浏览量更新于2023-12-06 收藏 3.39MB PDF 举报

机器学习预测

测井曲线特征

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

地球科学中的人工智能2（2021）148利用伽马射线属性增强具有有限多样性记录测井的钻孔的岩相机器学习预测David A. 木材DWA Energy Limited，Lincoln，United KingdomA R T I C L E I N F O保留字：滚动平均导数测井曲线波动性岩相测井特征混淆分析伽马射线属性测井曲线特征增强。A B S T R A C T衍生物和波动性属性可以从记录的伽马射线（GR）数据中有效地计算出来，以增强穿透多种岩性的井筒中的岩相分类这样的属性提取关于测井曲线形状的信息评价了一个测井井该部分展示了GR属性对于机器学习（ML）岩相预测的价值五个特征选择配置被认为是。包括GR、DT、PB和SIXGR属性的9变量配置以及GR和SIXGR属性的7变量配置提供了最准确和可重现的岩相预测。评价的其他三个特征配置不包括GR特征，而仅包括记录的日志特征中的一至三个。七个ML模型和两个回归模型的结果表明，K-最近邻（KNN），随机森林（RF）和极端梯度提升（XGB）是性能最好的模型。他们从9-var模型的8911个数据记录中产生了14到23个错误分类多层感知器（MLP）和支持向量分类（SVC）在7变量模型中表现不佳，该模型缺乏PB特征，显示与相类的注释混淆矩阵显示，KNN、RF和XGB模型可以有效区分9变量和7变量配置（包括GR属性）的所有相类，而没有一个模型可以实现3变量配置（不包括GR属性）的结果利用测井资料在沉积剖面中准确识别岩相是应用地学的重要目标提出的简单的GR属性方法可根据有限的测井记录数据提高ML岩相分类的置信度。1. 介绍岩相分类是沉积学解释的关键要求，自20世纪70年代以来一直是石油和天然气工业中应用沉积学和沉积环境解释的基石（Selley，1978年）。利用记录的测井数据来辅助岩相分类的可能性可以追溯到20世纪中期（Russell，1944年; Krumbein和Sloss，1951年）。当时，能够为岩相解释提供合理分辨率的测井记录仅限于伽马射线（GR）和提供走时（DT）的纵波速度/声波测井。然而，从那时起，这些测井记录已被广泛用于岩相分析和地层测序（Scholle和Spearing，1982; Rogers等人， 1992;Emery和Myers，1996）。测井资料在碎屑岩沉积层序中识别岩相的应用最为成功，自然伽马测井曲线对砂泥岩相层序的形态和敏感（Rider，1986，1990;Cant，1992）。此外，GR对碎屑地层粒度的响应（Hurst，1990年）使得区分重要的岩相特征成为可能，例如向上变细或变粗（Kesslar和Sachs，1995年; Faga和Oyeneyin，2000年）。在碳酸盐岩和其他更多样化和异质的岩性序列中，通常需要额外的地质和矿物学信息来充分补充测井数据，以提供可靠的岩相分类（Reverdy等人，1983; Halotel等人， 2020年）。这种分析通常需要能够区分矿物学的岩心数据和专门的测井记录，这是昂贵且耗时的。大多数钻井，特别是开发井，不记录整个钻井井段的综合测井曲线。因此，对于所钻的大多数井段，只有有限的一组测井记录可用。由于测井数据有限，试图预测多岩性层序中岩相类别的传统模型往往缺乏精度和可靠性。统计方法，特别是回归和聚类分析电子邮件地址：dw@dwasolutions.com。https://doi.org/10.1016/j.aiig.2022.02.007接收日期：2022年2月1日;接收日期：2022年2月27日;接受日期：2022年2022年3月7日在线发布2666-5441/©2022作者。出版社：Elsevier B.V.代表科爱通信有限公司公司这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表地球科学中的人工智能杂志主页：www.keaipublishing.com/en/journals/artificial-intelligence-in-geosciences地方检察木材地球科学中的人工智能2（2021）148149¼ð Þ ¼DNDD-n方法（Goncalves等人， 1995），自20世纪80年代以来已经应用于测井数据以辅助岩相预测（Busch等人，1987年）。然而，在多岩性段中，测井数据通常显示与岩相的非线性关系，使得这种方法不可靠且相对不准确。各种人工神经网络模型，特别是多层感知器（MLP），被广泛用于从测井数据预测相类（Rogers等人， 1992; Puskarczyk，2019; Hossein等人， 2020年）。MLP的一个吸引力是，2.1.1. GR衍生属性一阶导数（d（一）.d0GR1/4GRd-GRd-1=Absd-d-1（1）其中：GRd¼记录GR曲线位置d处的GR值（以英尺或米为单位的深度）;GRd-1¼记录GR曲线位置d-1处的GR值。二阶导数（d（二）、碳酸盐序列，它们通常可以优于回归，可能，双语的（例如，贝叶斯分类）和模糊分类器方法，d00GR 1/4d0GR-d0GR=绝对值1/4d-绝对值2/4 d-绝对值2/4 d（2）使用多个测井曲线的岩相分类任务（Dubois等人，2007; Agrawal等人，2022年）。神经网络也已经与马尔可夫转移矩阵有效地混合（Feng等人， 2018; Feng， 2020 ），以形成贝叶斯神经网络（ Feng，2021），用于使用测井数据进行岩相分类。其中：η一个特定的深度间隔。在本研究中应用了10个数据点或1 m的n值，通过试验和误差分析建立一阶导数的移动平均度量（SMA）用等式计算。（三）、近年来，集成和基于提升树的算法的高岩相预测性能已经变得明显（Xie等人，2019年）。对于碳酸盐和络合物，情况尤其如此。SMAd联系我们1/1d0GRd-i！，n（3）几项研究的岩性序列（Hall，2016; Hall和Hall，2017; Al-Mudhafar，2017; Bestagini等人， Shashank and Mahapatra，2018）. 调整提升树模型的控制参数，例如使用贝叶斯优化的极端梯度提升（XGB），可以提高其用于岩相分类的集成学习性能（Sun等人，2020年）。此外，无回归K-最近邻（KNN）（Merembayev等人， 2021年）及透明开放区块算法Wood（2019年，2020年）已成功应用于具挑战性的岩相及地层分类以及使用测井数据进行数据挖掘。数据匹配算法与聚类技术的组合也已经被有效地应用（ Potratz 等人， 2021 年）。集成 ML 模型、聚类技术（Fadokun et al.， 2020）、地质数据（Ippolito等人，2021）和生物地层信息（Tran等人，在有足够数据可用的情况下，使用测井数据进行的分类（2020年）最近（Wood，2022）已经证明，从GR测井计算与高度可变的碎屑岩序列相关的衍生物和波动性属性，在对砂岩和页岩通常显示的几种相特征进行分类时非常有效，而无需求助于其他测井。这种方法对于评估记录很少的测井曲线和/或缺乏岩心、矿物学和生物地层学数据的井眼段特别有吸引力。本研究的目的是在GR方法的基础上，特别是为了证明它在岩相方面也非常有效同样，在本研究中应用了10个数据点或1 m的n值，通过试验和误差分析建立。n的最佳值可能取决于所钻岩性段的性质。具有高波动性的细互层可能通过相对较低的n值来更好地表征。另一方面，大规模层状层序可以更有效地用较高的n值来表征。需要进行试错测试，以确定最适合特定钻孔段的n值或值范围2.1.2. GR波动属性Wood（2022）建议在分析交易市场指数的趋势时使用金融部门计算的波动性属性GR信号的瞬时运动或变化（LnGR i）代表建立波动性的中间步骤。它是用Eq. （四）LnGRi=GRd-1（4）其中：I d深度d-1和d之间的间隔（即，在连续的GR记录点之间）。标准差用于计算特定GR数据点序列的LnGRi波动率（σi）它是用Eq.（五）、sPnLdi-Lidmean2测井资料有限的多岩性段分类覆盖不同岩性（碎屑岩、碳质岩、我们的服务1/1-n- 1（五）盐，盐和蒸发岩）进行了评估与这种新的GR属性技术，以评估其潜力，应用七个不同的ML模型和两个线性回归模型。这项研究的新颖之处在于，它首次将GR属性、岩相分类技术应用于由多种岩性组成的复杂沉积剖面2. 方法和材料其中：σi=深度d-1和d-n之间的间隔波动率; Ld-1和d-n之间的间隔中的每个GR数据点的Ld-1/4LnGRi=d;Lid平均值=深度d-1和d-n之间的LnGRi=d的算术平均值;n=计算σi的间隔在本研究中应用了10个数据点或1 m的n值，通过试验和误差分析建立第三个波动率属性是GR波动率属性的简单移动平均线（SMAσi）它是用Eq.（六）、2.1. 测井特征增强最近已经使用合成GR测井证明，公司简介联系我们σd-i！，n（6）从伽马射线曲线中提取的衍生和挥发性属性可以有效地用于区分一般的相特征（例如，在碎屑岩部分（Wood，2022）中向上）该方法适用于从穿透不同岩性序列（即，石灰岩、灰泥岩、岩盐、蒸发岩、页岩、粉砂岩和砂岩）。根据记录的GR日志计算Six属性：三个衍生属性;以及三个波动性属性。同样，在本研究中应用了10个数据点或1 m的n值，通过试验和误差分析建立。对于导数SMA（Eq.（3）），可以改变n值以适合所考虑的钻探地质段。此外，对于等式2，η的值也可以不同（5）和（6），如果试验和错误分析表明这一点。三个衍生GR属性和三个波动率GR属性由方程定义。（1）-（6）在本研究中用作补充记录的GR数据点的额外测井特征。这一切成功都.X.X地方检察木材地球科学中的人工智能2（2021）148150-属性强调GR趋势的微妙变化，因为它随深度而变化，这些微妙之处可以通过机器学习算法有效地利用，以更精确地对岩相进行分类。2.2. 评价的钻孔测井剖面在本研究中评价的测井井眼段来自1981年在英国南部的含石油的威塞克斯盆地的西部钻探的Winterborne Kingston 1（WK-1）井眼中穿透的三叠系段（Rhys等人， 1982年）。感兴趣的部分代表了测量深度1560-2460 m之间约900 m的间隔选择它来评估GR属性对多种岩性相预测的潜在益处，原因如下该剖面在相对较小的深度区间内包括大量主要为非碎屑岩的某些相显示出非常相似的绝对GR范围和模式;该部分的大部分涉及与相当快速和广泛振荡的GR信号相关的薄互层这使得一些岩相很难通过机器学习方法和/或使用GR测井结合DT和PB测井的聚类分析来区分，如前所述（Newell等人， 2021年）。WK-1三叠系剖面的这些特征对检验GR属性在多岩性剖面中改善岩相预测的能力提出了有意义的挑战，与最近成功开发和应用GR属性方法的碎屑（砂/页岩）层序截然不同（Wood，2022年）。西威塞克斯盆地的三叠纪地层总结见图1。1.一、所评估的测井层序的最低地层组是Sherwood砂岩组的向上变细的碎屑岩层序，不整合地位于Aylesbeare泥岩组的页岩上。Sherwood砂岩，特别是局部的Otter砂岩地层）被Mercia泥岩群的可变岩性覆盖这一多塞特/萨默塞特岩盐在岩盐带上方，在Bran- scombe泥岩组内，约1865 m深处存在一个薄但独特的（根据其测井特征）硬石膏和石灰石带。这是一个代表性的红色岩石石膏层零星分布在威塞克斯盆地（豪恩斯洛和Ruffell，2006年）。蓝锚地层是麦西亚泥岩群的最上层地层。其灰色/绿色的泥质粉砂岩与零星的硬石膏/石膏层显示出测井特征（Howard等人，2008年）的GR、DT和PB值，难以与Otter砂岩的GR、DT和PB值区分评价的测井序列的最上层地层组是Penarth组（也称为WhiteLias）的奶油色/灰色、细粒Lilstock石灰岩。该石灰岩代表了最上层的三叠纪地层（雷梯期），其上覆有蓝利亚（侏罗纪）的页岩。以10 cm的间隔（10个数据记录/米）对~900 m厚的感兴趣段的GR、PB和DT、测井曲线进行采样，并区分出五个岩相类别。这些岩相被划分为1至5类：1石灰岩和稀疏硬石膏2白云质泥岩/粉砂岩3 页岩4 盐5 泥质砂岩和粉砂岩这是由评估的ML模型预测的岩相类编号1至5图2显示了从记录的曲线与深度的关系中取样的记录的测井曲线。属于岩相1、4和3的石灰岩、硬石膏、盐/蒸发岩和页岩的层段显示出非常独特的GR、PB和DT信号，并且可以通过大多数ML算法容易地区分。然而，Mercia泥岩和Sherwood砂岩地层的泥质泥岩/粉砂岩和泥质砂岩和粉砂岩岩相（2和5）之间的GR、PB和DT值存在大量重叠。因此，ML算法难以区分岩相2和岩相5的部分。每种岩相之间都有内在的过渡带（图1）。 2），其在一些间隔之间更具有梯度（例如，舍伍德砂岩的顶部和麦西亚泥岩的底部），Fig. 1. 与Winterborne Kingston WK-1井眼位置相关的威塞克斯盆地三叠系剖面的地层和岩性摘要。来自Underhill和Stoneley（1998年）、Hounslow和Ruffell（2006年）; Howard等人的补充信息。（2008）; Kaya（2015）。BSPB指的是Budleigh Salterton Pebble Beds。●●●地方检察木材地球科学中的人工智能2（2021）148151-我...þ--图二. 记录了WK-1井眼三叠系剖面的GR、PB和DT测井曲线，其中5个不同的岩相序列被区分为1至5类。在其它间隔之间是突变的（例如，Somerset岩盐顶部与上覆的碳酸盐质泥岩接触从自然伽马记录数据中提取和使用自然伽马属性的优点之一是它们比单独记录的自然伽马数据更能够表征岩相之间的梯度过渡带图图3和图4分别显示了针对每个数据记录计算的三个GR导数和三个GR波动率属性与深度的关系。请注意，Branscombe泥岩地层中的硬石膏/石灰石带在所有计算的衍生物/波动性属性中均为极值。此外，这些属性显示了蓝锚地层（靠近剖面顶部）和水獭砂岩（在剖面底部）的非常独特的分布这种区别不能孤立地从自然伽马射线数据中辨别出来表1比较了所考虑的九个测井特征的分布统计数据（三个记录的测井GR DT和PB;SIX计算的GR属性）。这些变量和岩相数的累积概率分布如图所示。五、特别是衍生属性，显示了相当广泛的值范围为了计算移动平均属性，间隔的前几个数据点被排除在所评估的数据记录评价的序列（表1）涉及8911个数据记录（1565.9 m-2456.9 m）的连续序列。这些数据记录中约有53%属于分布在后水獭砂岩序列中的相类2（泥岩图图6显示了测井变量与相类之间计算的相关系数值的热图。图中所有列的值。图6中，除了最后一列是皮尔逊相关系数（R），它假设变量分布是参数分布，基本上是基于线性关系。右侧栏（图。 6）显示斯皮尔曼等级相关系数（p），一种更能代表分布的非参数统计量非线性关系的变量 GR与其属性之间的R值较低（<0.2，左侧列，图1）。（六）。GR属性与相类之间的R值远低于GR、DT、PB记录的测井数据所显示的R值。PB显示最高的负R值与相类（0.49），相比之下，GR和DT的 0.21GR（0.07）、DT（0.26）和PB（0.54）与相类的p值与R值非常不同。该差异指示在确定三个测量的测井曲线与相类之间的关系时的非线性，使得p值比R值更能代表那些分布关系。GR属性在R和p值（0.15）方面与相类的相关性很差这种关系表明，回归型模型，特别是那些基于线性假设的模型，不太可能能够使用记录的测井变量和/或特别是计算的GR属性变量准确地预测相类2.3. 应用回归和机器学习算法使用两种线性回归算法以及应用不同ML方法进行分类的七种算法，对WK-1井三叠系剖面记录的测井数据以及六个计算的GR属性进行建模。这些算法是用Python编写的，并围绕SciKit Learn函数开发（SciKitLearn，2022a）。评估的算法有独特的方法，可以分为基于回归（OLR，SGD和SVC），树/集成（ADA，DT，RF，XGB），数据匹配（KNN）和神经网络（MLP）。这九种模型现在按字母顺序定义，每种方法的第一个引用参考文献都是指原始的地方检察木材地球科学中的人工智能2（2021）148152--¼¼我我2星级。x-x我图3. WK-1井眼三叠系剖面每个GR数据点计算的三个GR导数属性。这些导数属性是一阶导数（d 'GR）、一阶导数的每米移动平均值（SMAd'GR）和二阶导数（d'GR）。ML应用程序算法的开发人员，以及随后引用每个模型用于解决岩相分类问题的最新应用实例。ADA：Adaboost（Freund和Schapire，1997; Wrona等人，2018年）。DT：决策树（Quinlan，1986;Sarkar and Majundar，2020）。KNN：K-最近邻（FIX和Hodges，1951; Merembayev等人，2021年）。MLP：多层感知器（Rosenblatt，1958; Hossein等人， 2020年）。OLR：普通最小二乘回归（Goldberger，1964;Gao，2011年）。RF：随机森林（Ho，1998; Kim等人， 2018年; Farzi和Bolandi，2016年）。SGD：随机梯度下降多线性回归（Bottou，1998; Agrawal等人，2022年）。SVC：支持向量分类器（Cortes和Vapnik，1995;Mandal和Rezaee，2019）。XGB：EX treme梯度提升（Chen和Guestrin，2016;Bestagini和贝叶斯优化（SciKit Learn，2021 b），以快速评估指定范围内的各种控制值这些技术可以为研究数据集的每个模型定位最佳控制参数值，表2中显示了本研究中使用的模型。应用最佳配置和控制参数，然后可以使用K倍交叉验证（SciKit Learn，2022 b）评估模型，以建立其可重复性，将数据集随机分为训练和测试子集。2.4. 数据预处理作为输入馈送到模型的测井数据和计算的GR属性这种标准化消除了比例偏差的可能性，该比例偏差导致某些变量在相类预测中比其他变量发挥更大的该标准化是用Eq. （七）、例如， 2017年）。所有评估的算法已被广泛部署为岩相建模和预测。这些算法被很好地描述规格m¼M m我xmaxm-xminm- 第一章（七）在文献中（例如，参见与上面列表中的模型相关的引用），因此，这里不描述它们的详细方法然而，模型确实需要配置和调优调整以适应每个数据集。这是通过建立控制/超参数的最佳值来实现的模型架构和超参数选择涉及几种技术。试错法对于建立一系列合适的结构和控制值很重要。使用网格搜索可以快速实现试错结果的进一步细化（SciKit Learn，2021a）其中：Normxm/4变量值调整到-1至101刻度;第m个变量分布中第i个数据点的实际记录/计算值;第m个变量分布的xminm最小值;第m个变量分布的xmaxm2.5. 用于评估分类绩效和错误分类在本研究中，采用几种广泛使用的性能指标对岩相分类中的错误进行了评估，地方检察木材地球科学中的人工智能2（2021）148153PP图四、针对WK-1井眼三叠系剖面的每个GR数据点计算的三个GR波动率属性。这些波动率属性是瞬时变化（LnGRi）、波动率（σGR）和波动率的每米移动平均值（SMAσ GR）。表1WK-1井三叠系测井段测井变量统计特征及相类分布记录的测井曲线和自然伽马属性变量8911数据点GR DT PB d'GR SMAd'GR d''GRDn LnGRi（d）σi（dn）SMAσ i（dn）相<类最小值13.8 50.7 1.80-18.617-9.362-9.863-0.435 0.00000 0.00000 1第五百分位数21.4 58.3 2.08-4.071-2.504-0.803-0.048 0.00000 0.00007 2第十百分位数26.7 60.5 2.10-2.217-1.694-0.405-0.024 0.00002 0.00038 2第二十五百分位数74.8 66.1 2.39-0.708-0.658-0.082-0.008 0.00021 0.00228 2百分之五十105.6 69.9 2.56-0.054-0.032 0.000-0.001 0.00541 0.00830 2第75百分位数第90百分位数第95百分位数最大值197.3 111.2 2.95 88.282 8.396 9.533 1.726 0.61501 0.59969 5平均值101.7 70.1 2.48-0.001 0. 001 0.000 0.000 0.01910 0.01912 2.8标准差44.3 7.0 0.20 3.354 1.552 0.540 0.044 0.03617 0.03085 1.1标准误差0.4689 0.0745 0.0022 0.0355 0.0164 0.0057 0.0005 0.0004 0.0003 0.0117变异系数0.435 0.100 0.082-4002 2545 3425-2669 1.894 1.614 0.397计算公式以diX A提供。这些指标是：均方根误差（RMSE）平均绝对误差（MAE）测定系数（R2）预测误差总数（误差）准确度（A）精确度（P）召回率（R）平衡F分数（F1）重要的是要考虑预测误差的统计度量（误差、RMSE、MAE和R2）以及与错误分类（A、P、R、F1）相关的度量。3. 结果3.1. WK-1三叠系测井资料WK-1三叠系剖面相类预测的基本情况特征配置是地方检察木材地球科学中的人工智能2（2021）148154P图五、累积概率分布：（A）记录的GR和DT测井;（B）记录的PB测井和岩相数;（C）计算的GR衍生属性;以及，(D) 计算GR波动率属性。一些GR导数和GR属性分布的极端被排除在外，以便于在有意义的尺度上显示见图6。与WK-1井三叠系测井间隔相关的变量的皮尔逊相关系数。Pearson和Spearman系数均显示为变量与相类的相关性。记录GR、PB和DT测井数据。使用此配置训练和测试了九个模型：两个线性模型（OLR和SDR）和七个ML分类模型（ADA，DT，KNN，MLP，RF，SVC和XGB）。所有模型的3变量配置的训练和测试子集的相预测结果如表3所示。ADA、DT、KNN和RF模型对训练子集的完美结果以及对测试子集的实质性预测误差表明，这些模型倾向于过度拟合训练子集。然而，就具有不可见测试子集的训练模型所实现的分类准确度而言，RF、SVC和KNN模型的表现大大优于其他模型，因为这些模型实现的RMSE、MAE和误差值较低。基于这些误差度量，线性模型为3-var测试子集生成最差的相预测性能在计算机执行时间方面，XGB和MLP模型的执行时间比其他模型长得多在高性能模型中，KNN对于3-var配置的执行时间最短（<6秒）。除了3-var基础案例评估外，使用九种模型中的每一种对配置进行评估评价和比较的配置为：● 9-变量：（GR）（DT）（PB）（d' GR）（● 7-变量：（GR）（d' GR）（● 3-变量：（GR）（DT）（PB）[基本情况]● 2-变量：（GR）（PB）● 1-变量：（GR）还评价了另外两种2变量配置（GR + DT和DT + PB）。然而，GR与PB组合的预测结果优于其他配置，因此仅列出了GR与PB 2-var配置的结果。使用所考虑的九个预测模型中的每一个，将所定义的五个特征配置的相类预测性能与3变量配置（基本情况）进行基准测试地方检察木材地球科学中的人工智能2（2021）148155表2对WK-1三叠系测井评价剖面进行了岩相预测的回归和ML算法参数设置和控制。应用的算法控制参数值Adaboost（ADA）估计器数量：<$750;学习率：<$0.01;基本估计器是深度为<$250的DT;拆分器<$4最佳决策树（DT）最大深度为<$5000;拆分器<$4最佳;拆分标准基尼系数K最近邻（KNN）使用曼哈顿距离加权;邻居评估值（K）2变量和3变量模型为K¼5; 7变量和9变量模型为K¼2; 1变量模型为K¼可再现的结果。试验和错误测试进行了不同的子集分裂和K倍的方法。这些结果表明，80%：20%（训练：测试）为九个模型中的每一个提供了最佳结果因此，5倍交叉验证的结果如表4所示。5重交叉验证程序将数据集（8911条数据记录）随机分为五个部分。其中四个隔间分配给训练子集（7168个数据记录），一个分配给测试子集（1743个数据记录）。分配重复五次，以便每个隔室在一种情况下作为测试子集。这意味着每次运行都要评估五个案例，以确保每个数据记录都被视为训练记录和测试记录。多层感知器（MLP）普通最小二乘回归（OLR）3个隐藏层，分别有100、50和25个神经元;激活fn。<$relu;求解器<$adam; 2-var、3-var、9-var模型的alpha<$40.001;1-var和7-var模型的alpha<$40.001;自适应学习率无需控制参数考虑到所有五个案例。在这项研究中，5倍程序重复了三次，总共产生了15个病例的结果数据集的这种全面采样提供了对所评估的每个模型的相类预测性能的有意义的统计评估（所有15种情况的平均值和标准偏差这5倍随机森林（RF）估计器数量<$750;最大深度<$150;分割标准<$gini交叉验证统计量可以有效地进行比较（表4）。表4显示了平均MAE值和MAE标准差随机梯度下降分类器（SGD）学习率/正则化α<$0.0001;最大迭代次数<$4 10000每个ML模型生成的15个病例的（σ2MAE）MAE值以与相类（1 - 5）相关的标度表示显然支持向量分类器1-var、2 -var和2-var型号的内核rbf; C750;gamma 50（SVC）2-var、3-var伽马<$475（适用于7-var型号）;伽马<$49-var模型为在所有情况下，σMAE都很低，并且超过一个数量级低于平均值。这表明，所有的模型XG Boost（XGB）估计器数量<$2000;最大深度<$7;eta< $0.01;子样品<$0.7;色谱柱取样依据树¼0.53.2. 五重交叉验证分析相分类分析的第一步是使用不同的训练对九个模型中的每一个进行K折交叉验证：测试子集分裂以建立产生最可靠/最可靠的分类的分裂。可以依靠任何随机选择的80：20数据集分割成训练和测试子集来生成可重现的结果对于3变量（基础情况）和2变量配置，SVC模型生成的5倍平均MAE值最低，但σ2MAE值高于其他一些模型。例如，对于这些变量配置，KNN和RF模型生成的平均MAE值略高于SVC模型，但σ2 MAE值较低。此外，XGB模型不是var-3和var-2配置的最佳性能模型。然而，对于9变量和7变量配置，XGB模型表3WK-1三叠系测井剖面的岩相分类性能，使用9个模型对基本情况3变量（3-var）模型进行评估，在训练和测试子集之间应用最佳89%：20%的数据记录分割（测试子集包括8911个可用数据记录中的1783个）。WK-1三叠系剖面GR、DT、PB单井测井岩相预测（三变量模型）训练子集（80%）和测试子集（20%）应用于所有8911个数据记录模型R2RMSEMae∑误差R2RMSEMae∑误差R2RMSEMae∑误差Ex TimeADA1.000000.000000.0000000.578200.761530.227711790.907950.340640.045561795.5DT1.000000.000000.0000000.578680.760050.224341750.908250.339980.044891755.5KNN1.000000.000000.0000000.662290.665220.176671430.929120.297560.035351435.6MLP0.543100.811240.254917930.536280.801010.252382020.541750.809200.25440995208.2OLR0.260400.956100.6912229330.267080.940320.674877240.261740.952960.6879536578.2RF1.000000.000000.0000000.672630.652020.169381370.931790.291660.0338913775.4SGD0.097581.195880.5729519570.133381.129080.523284580.101351.187650.5670524333.4SVR0.856520.427720.070432220.670060.657580.171061350.818270.482550.0905635729.3XGB0.774910.541750.114483710.468750.856500.295012460.710320.617700.15060617320.3注：（1）RMSE和MAE以1-5的相类范围表示它包括5重交叉验证所需的时间;（3）错误#是指相类分类错误的数据记录的数量。表4五重交叉验证评估，涉及15例训练和测试子集之间的数据集随机分割标准差（σ2）用于表示评价的9个模型中每一个的15个病例之间的变异程度。应用于8911个数据记录的回归和ML模型的5重交叉验证结果（每个模型运行15个案例9输入变量7输入变量3输入变量2输入变量1输入变量模型Maeσ2MAEMaeσ2MAEMaeσ2MAEMaeσ2MAEMaeσ2MAEADA0.09790.01280.18640.02140.25350.01540.41190.01900.79280.0243DT0.09540.01270.18520.01890.25370.01570.41180.02130.79290.0244KNN0.02050.00600.13080.01040.19730.01050.35780.01510.68130.0167MLP0.15840.01420.43280.01460.26200.01970.34560.02060.62890.0168OLR0.69000.00850.91490.01010.68800.00900.70940.00870.91780.0110RF0.03070.00920.06430.01090.19800.01320.34980.01520.79170.0243SGD0.55750.02350.67200.01500.56070.02310.62340.01930.66270.0205SVC0.05010.00920.22580.02130.19410.01730.33090.01780.62240.0154XGB0.02450.00540.04990.00680.33000.02190.38940.02000.63170.0162地方检察木材地球科学中的人工智能2（2021）148156PPP生成最低σ2 MAE值，以及7变量配置的最低平均MAE值和9变量配置的第二低平均MAE值。KNN、RF和XGB模型在9变量和7变量配置下的表现优于其他模型，表明SVC模型在涉及GR属性的9变量和7变量配置下的表现较差。毫不奇怪，就平均MAE而言，对于var-1（仅GR）配置，没有一个模型在岩相分类中表现良好然而，SVC、MLP和XGB模型的性能优于其他模型。普通最小二乘回归（OLR）模型显示出最差的预测性能为所有考虑的变量配置。梯度下降回归模型（SGD）在9变量、7变量、3变量和2变量模型中的表现不如所有ML模型，尽管它在1变量情况下优于几个ML模型。除了确认所评价模型的重现性外，5重交叉验证分析的关键结论是，对于几乎所有模型，其岩相预测性能可以排序如下：（最佳）9-变量>7-变量>3-变量>2-变量» 1-变量（最差）这一总体趋势有两个例外：SVC和MLP模型对7-var配置的预测性能比3-var配置差。然而，根据表4的结果，观察到的这种总体排名趋势证实，将计算的GR属性添加到可变配置中，大大提高了所评估的WK-1三叠系剖面3.3. 测试子集通过考虑MAE以及随机选择的测试子集的其他预测性能度量值，可以更清楚地了解具有不同变量配置的不同模型的相对岩相预测性能。这些结果是针对四个性能最好的模型（KNN、RF、SVC和表5四个性能更好的模型的岩相类预测性能，应用于随机选择的1783个数据记录（数据集的20%）的测试子集，用于评估五种不同的变量其他五个预测表现较差的模型的结果包括在计算表中。更好地为测试子集执行ML模型结果KNN9-变量7-变量3-变量2-变量1-变量检验R20.97410.76370.66230.45270.0680测试RMSE0.17720.55130.66520.87721.2718试验MAE0.01460.12560.17670.31860.6798错误总数14110143280613EX时间（秒）RF检验R27.10.96046.60.90785.60.67265.70.45315.30.0462测试RMSE0.21960.33740.65200.87911.3815试验MAE0.02240.04990.16940.31630.7835错误总数2346137274702EX时间（秒）SVC检验R2113.60.924894.30.684575.40.670161.30.460392.30.1047测试RMSE0.30330.64160.65760.86011.1898试验MAE0.03930.18840.17110.30340.6046错误总数37197135262580EX时间（秒）XGB检验R220.20.960952.70.935129.30.468783.10.4098192.70.0962测试RMSE0.21830.28220.85650.91601.2080试验MAE0.02190.04040.29500.35670.6259错误总数2245246326605EX时间（秒）486.8466.5320.3321.062.5XGB）在表5中。其他性能较差的模型的结果见表B1中B1X B。将四个性能指标（R2、RMSE MAE和Error）放在一起考虑，可以更清楚地表明每个模型相对于建模数据集的性能这些性能指标之间的关系如图1和2所示。七比九从表4中可以明显看出，KNN在所有误差度量方面为9变量配置生成了最佳岩相预测性能，导致测试子集的1743个数据记录中仅出现14个预测误差。对于7变量配置，XGB在所有误差度量方面优于其他模型。对于3-var模型，SVC以最低的误差优于其他模型。然而，RF模型生成的RMSE和MAE值略低，R2值略高于SVC模型。 SVC模型优于var-2和var-1配置的其他模型。SVC模型对于7变量模型的相对较差的性能表明，PB测井（显示最高R和p值的测井，具有相类）需要参与SVC模型执行的变量配置好.图 7显示，在评估的不同模型中，MAE的误差有明确的增加趋势。除配置变量1外，OLR和SGD模型对所有其他变量配置的预测性能均低于ML模型。图图8以放大的比例显示了图7所示趋势的高表现端。该图证实，与var-3配置相比，ML模型（不包括var-7配置的MLP和SVC）都能提高var-9和var-7配置的相类预测性能。图9揭示了R2与RMSE的相同结果，ML模型遵循明确的趋势。结果见表4和图10。因此，图7- 9证实了5倍交叉验证分析的结果（表3）。从计算的GR属性在将ML模型应用于有限的一组测井曲线以改进岩相类别预测方面的有效性的角度来看，这一发现非常令人鼓舞特别重要的是var- 7模型结果，因为该

下载后可阅读完整内容，剩余1页未读，立即下载