优化特征选择对岩相机器学习的帮助

108 浏览量更新于2023-12-06 收藏 2.55MB PDF 举报

人工智能

特征选择

身份认证购VIP最低享 7 折!

30元优惠券

地球科学中的人工智能3（2022）132优化的特征选择有助于岩相机器学习，其中稀疏测井数据与分级中的计算属性相结合河流层序David A.木材DWA Energy Limited，Lincoln，United KingdomA R T I C L EI N FO保留字：衍生/波动性测井属性稀疏测井数据集多k-折分析优化器比较岩相不平衡。A B S T R A C T在油气田横向和纵向非均质储层中，利用机器学习（ML）从稀疏的测井数据集预测岩相是困难的。由于相对狭窄的砂岩河道的连续移动，曲流、辫状河相沉积环境倾向于形成具有横向不连续层的碎屑岩序列。在一个大型油田中钻过这样一个储层的三个取心井眼，只有四个记录的测井记录可用，使用ML模型对四种岩相进行分类。为了增加测井数据，根据记录的伽马射线和密度测井计算了六个衍生物和波动性属性，为ML模型提供了六个测井特征供选择。开发了一种新颖的多优化器特征选择技术，以识别高性能的特征组合，使用7个ML模型在多k折交叉验证的辅助下预测岩相。对于用于训练和验证的两口井，仅具有七到九个选定测井特征的特征组合实现了0.87的总体ML岩相精度。当将训练的ML模型应用于第三口井进行测试时，对于具有七个特征的表现最好的极端梯度提升模型，岩相ML预测准确度下降到0.65。然而，该模型在预测测试井中含油气砂岩和粉砂岩岩相的存在时达到了~0.76的准确度。仅使用四个记录的测井曲线的模型仅能够以约0.6的精度预测含油岩相。注释混淆矩阵和特征重要性分析为ML模型性能提供了额外的见解，并确定了在增强岩相预测方面最具影响力的测井属性。1. 介绍井筒中的岩相分类是储层表征的基本组成部分（Dubois等人，2007年）的报告。广泛使用记录的测井数据集对碎屑岩储层（Rider，1990）和碳酸盐岩储层（Stowe和Hock，1988）进行分类。这是非常有效的，特别是在岩相在岩心和测井方面很容易区分，横向延伸到整个储层，相当均匀，并在多个井筒中记录了足够多样的测井特征。如果这些要求中的一些缺失，则通常需要用附加地质信息补充可用岩心/测井数据（Reverdy等人， 1983年）。一个常见的问题是缺乏从储层回收的岩心材料。对储层取芯大大增加了钻井成本，并且在某些地层中岩心回收率很差。因此，在大多数油田岩心仅从所钻开发井的一小部分中收集。收集的测井数据也经常存在类似的数据限制问题。在勘探和评价井筒中，标准做法是收集足以在油田范围内表征储层的大量测井曲线然而，当涉及到开发钻井时，为了节省成本和时间，通常只收集稀疏的测井曲线。出于全岩系岩相分类的目的，这些数据集限制引入了大量的不确定性，特别是在非均质储层序列中（Ma，2019）。最近的研究表明，稀疏的测井数据集可以通过添加选定测井的计算导数和挥发性属性来增强，以提高岩相分类的可靠性（Wood，2021，2022）。这些研究代表了第一次这样的测井属性被应用于协助岩相分类。选择哪些特征用于岩相分类、地质（Halotel等人， 2020年）和/或测井（伍德，2021年）具有电子邮件地址：dw@dwasolutions.com。https://doi.org/10.1016/j.aiig.2022.11.003接收日期：2022年9月25日;接收日期：2022年11月27日;接受日期：2022年11月27日2022年12月2日在线发布2666-5441/© 2022作者。Elsevier B. V.代表KeAi Communications Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表地球科学中的人工智能杂志主页：www.keaipublishing.com/en/journals/artificial-intelligence-in-geosciences地方检察木材地球科学中的人工智能3（2022）132133==（）=（（）=i=0----i=1-对它的有效性和准确性有很大影响。在岩相分析中进行特征选择的方法有多种.在最简单的层次上，如果可供选择的特征相对较少，则可以使用试错法。然而，随着可用特征数量的增加，这些特征的可能组合会达到数千种，这使得试错法既低效又不可靠。事实上，特征选择是一个NP难的组合挑战（Cortes和Vapnik，1995）;随着可用特征数量的增加，可能的特征组合数量呈指数级增长。更有效的方法是应用优化器来进行更全面的特征选择（Abiodun等人，2021年）。近几十年来，机器学习（ML）方法已经成为一种新的学习方法。在基于测井记录的岩相预测的统计和回归方法的基础上进行了改进（Goncalves等人，1995年）。然而，结合聚类和主成分分析来大幅减少特征的数量可以提高一些ML模型的效率（Ma，2011）。不同类型的ML算法现在用于基于测井的岩相预测。这始于三十年前的神经网络（Rogers et al.，1992; Agrawal等人，2022），并已多样化，包括支持向量分类（Sarkar和Majundar，2020），K-最近邻（Merembayev等人，2021），优化数据匹配（Wood，2019）和各种树集成方法其中α 深度d以上的指定数量的采样间隔，并且对于该数据集，α被分配值10，如通过试错法确定的。利用等式（2）计算属性GR2和PB2。2.1.3. 二阶导数属性（AL3）AL3 dβ=.其中，β是深度d以上的采样间隔的指定数量，并且对于这个数据集，被分配了一个值10，这是通过反复试验确定的。利用等式（3）计算属性GR3和PB3。2.1.4. 相邻测井记录值之间变化的自然对数（AL4）AL4i（d）=Ln（AL0d/AL0d-1）（ 4）其中，i d是深度d-1处记录的测井值之间的间隔，D. 利用等式（4）计算属性GR4和PB4。2.1.5. 指定重叠间隔AL5的AL 4标准差;“volatility”）你知道吗？̅A̅L4̅ i̅(̅d̅-̅j)-̅̅̅A̅L̅4̅i̅(γ)mean)2（Farzi和Bolandi，2016; Al-Mudhafar et al. （2022年）。本文提出了一种新的多优化器特征选择方法AL5i（γ）=j=0γ-1（五）涉及对沉积在蜿蜒辫状河环境中的垂直和横向非均质碎屑岩储层进行采样的三口井数据集。井数据包括一个岩心衍生的岩相分类和四个记录的测井记录，并增加了十二个计算的导数和波动率美德.先知-愿的多优化器特征选择技术提出并开发了涉及测井属性，其中i γ对于该数据集，在深度d-γ和d i和γ处记录的测井值之间的间隔被指定为值10，如通过试错法确定的。利用等式（5）计算属性GR5和PB5。2.1.6. 波动性属性的移动平均值（AL6）应用于七个ML模型的多k折交叉验证实现了改进的岩相分类。这也使得更有影响的测井属性的识别更有效。AL6 i（δ）=（∑i=δAL5i（d-i））/δ（6）2. 材料方法&2.1. 考虑的测井导数和波动性属性最近提出并开发了从记录的伽马射线（GR）测井中获得的计算属性，以增强ML模型的岩相分类（Wood，2022）。本研究扩展了该方法，包括密度（PB）日志的属性。它评估了GR和PB测井属性对显示油藏横向和纵向梯度的取心三井碎屑岩层序岩相分类的影响。在所研究的三口井中，只有四口记录的测井曲线，这些曲线来自伽马射线能谱测井曲线。所记录的测井曲线为总伽马、伽马-伽马系统（PB）和钍（TH）和钾（K）的伽马能谱。这些记录的对数值被称为GR 0、PB 0、Th0和K0。SiX属性（等式（1）术语“AL“一般是指计算属性的2.1.1. 一阶导数属性（AL1）AL1d=（AL0d-AL0d-1）/Abs（d-（d-1））（1）其中，AL 0 dAL 0值在深度d，AL 0 d1AL 0值在深度d -1。每个取样测井值之间的深度间隔约为15厘米。利用等式（1）计算属性GR1和PB1。2.1.2. 一阶导数属性的移动平均值（AL2）AL2dα=（∑i=αAL1di）/α（ 2）地方检察木材地球科学中的人工智能3（2022）132134=层序或那些具有快速变化的岩相和岩性，其中δ对于该数据集，如通过试错法确定的，在深度d1和δ之上的指定数量的采样间隔被分配值10。利用等式（6）计算属性GR6和PB6。考虑到SIX计算的GR属性（GR1至GR6），计算出的6个 PB属性（PB 1至PB 6）与4个记录的测井记录（GR 0、PB 0、TH 0和K 0）一起，有16个影响变量供ML岩相分类算法考虑。没有特定的地质因素用于定义或控制所选的任何测井属性。然而，每个属性的波动值确实倾向于对不同的地层岩性、结构和层压程度做出不同的响应。选择的属性是通用的，可应用于显示其绝对值随深度波动的任何测井曲线，这些波动与岩石物理性质有关。因此，与电阻率和中子测井相比，伽马射线、体积密度和声波测井计算的属性更有可能为多口井的地层提供一致的响应。其原因是电阻率和中子测井受多孔地层中存在的流体类型的强烈影响。因此，对于岩相分析，应用于许多井中通常记录的伽马射线、体积密度和声波测井的属性是最明显的测井，其属性可以为原始测井值提供有用的补充信息。选定的日志属性旨在提供补充这些信息与原始测井值的瞬时变化率（一阶和二阶导数）、绝对值波动（波动性）以及这些值在指定深度间隔内的移动平均值有关。为波动率和移动平均属性指定的深度间隔可以有效地变化，以适应正在研究的特定岩石序列例如，在薄层中地方检察木材地球科学中的人工智能3（2022）132135适用于计算波动率和移动平均线在相当窄的深度区间。另一方面，在具有更多块状地层和相和岩性以相对低的频率变化的层序中，计算较宽深度间隔的波动率和移动平均值是合适的。以这种方式考虑的深度间隔的调整提供了灵活性，并且使得能够调整某些属性以适应地质条件。2.2. 三口井储层数据集三个取心井眼V、W和X对厚度达95 m的河流碎屑岩储层进行取样，每口井均含有多个油饱和砂岩和粉砂岩。使用了岩心伽马射线和体密度数据以确保岩心和测井深度得到适当校准。生产油田延伸到约100平方米的封闭产油区。这些油井相距5公里至10公里。岩心分析研究表明，碎屑岩储层序列由区域性广泛泛滥平原中沉积的堆叠的曲流辫状河道组成（图1）。每条河道以砂岩为主，向河道边缘逐渐变细，在蜿蜒的水流方向上延伸，但横向范围有限（最大约1 km）。辫状河道不会合并形成横向连续的砂岩，而是区域性地彼此切入，形成广泛的储层系统，其中孔隙流体在许多河道之间压力连通。河道的横向不连续性给从一个井眼到另一个井眼的特定河道的对比和岩相分类带来了困难。通道沉积条件在特定井眼中从一个通道到另一个通道变化很大。沉积条件取决于河槽中的流态和能量（快速流动或缓慢流动），河槽中的每个位置受河槽在曲流系统中的位置控制。河道被区域性广泛的页岩包裹，最初是富含粘土的泥岩，随着时间的推移在泛滥平原上广泛沉积。其中一些泥岩是在湖泊条件下沉积的，与广泛的孤立湖泊有关，这些湖泊不时存在，并在洪泛平原上周期性地改变位置。在洪水期间，由于活动河道溢出河岸，也会不时出现孤立的决口扇（图1）。这种沉积环境导致了四种不同岩相目前保存在水库段约3000米深处。这些是：富含粘土的页岩（Sh），形成横向扩展的层;粉砂岩（Slt）主要分布在保存河道的边缘和顶部;砂岩（Sd）主要分布在保存河道的大部分区域;砂质页岩（SSh）主要与裂隙扇有关，在某些地方还含有薄粉砂岩和砂岩带。表1详细列出了三口取芯井中Sh、Slt、Sd和SSh岩相的分数分布，如图2所示。研究表明，该储层中50%以上为Sd，Sh略低于30%另一方面，Slt和SSh以少量分布在储层中。Slt组分在井与井之间变化很大（6%SSh是最不丰富的岩相，变化范围约为3%-6%，平均约为4%。这些岩相分布构成了ML分类模型的类不平衡问题，使得它们更难以预测最少丰度的岩相。图3显示了井V、W和X中取芯岩相的垂直分布，表2统计总结了这三口井取芯剖面中记录的测井曲线和计算的GR和PB属性。V、W和X井是该油田中唯一钻透储层并回收岩心的井眼。岩心分析和解释使得有可能为这些井的位置建立详细的沉积模型。然而，在油田中钻探了多个其他非取芯生产井，并记录了光谱伽马射线测井。在这些非取芯井中，表1三口井曲流辫状河碎屑岩数据集岩心资料四种岩相的分数分布。取心岩相井V井W井X井3井组合的数据记录6233622511236富粘土页岩（Sh）0.31780.21270.27890.2791粉砂岩（Slt）0.05620.26520.11550.1294砂岩（Sd）0.59230.47510.54180.5477砂质页岩（SSh）0.03370.04700.06370.0437分数总数1.00001.00001.00001.0000Fig. 1. 与碎屑岩储层序列相关的曲流辫状河沉积环境示意图，其特征在于四种岩相在纵向和横向上的梯度。地方检察木材地球科学中的人工智能3（2022）132136=图二. V、W、X井相分布对比。关于岩相分布以及生产性Sd和Slt层序之间的关系仍然存在不确定性。在取芯岩相解释和记录的测井记录之间建立可靠的校准是非常可取的，因为它提供了将岩相解释可靠地扩展到非取芯井的机会。但要这样做时，重要的是确保用于此目的的测井记录针对钻孔中的环境条件进行适当校正，以消除由钻井条件引起的明显异常。还需要结合可用岩心中识别的相仔细检查测井响应，以确保每口井中记录的测井套件之间的测井值没有系统性偏移。使用的数据集满足这些要求。从图3中可以明显看出，Sd形成了每口井中最厚的储集层，在某些情况下可达10- 15 m。Sh构成了一些厚度达6 m的储层区，但也有一些厚度约为1 m的较薄储层区。然而，Slt和SSh以几个厚度小于2m的薄层存在，除了W井中包括一个几乎10m厚的Slt区。表3中平均值和P50值的比较表明，PB0值分布大致对称（平均P50）。对另一方面，其他记录的日志平均值大于P50值，表明它们形成正偏态分布。计算的GR和PB对数属性分布的类似比较表明大多数人都是近似对称，尽管GR1和GR2略有负偏（P50>均值），GR3略有正偏。在大多数情况下，三口井的测井和属性变量的平均值相似。然而，对于GR0、TH0和K0，存在实质性差异。对于GR 0和K 0，图三. 三口井碎屑岩层序数据集中取芯岩相与深度的分布：（A）V井;（B）W井;（C）X井每口井都由一个更大的砂岩（Sd）、富含粘土的页岩（Sh）与更薄、更分散的粉砂岩（Slt）和砂质页岩（SSh）层间的互层序列表2曲流辫状河三井碎屑岩数据集相关变量的值分布统计V、W和X井1236记录取芯数据集的测井特征统计汇总，包括GR和PB属性最小最大范围平均值P10 P50 P90 SD SE CoV平均值孔V平均孔W平均孔X深度3003.2 3098.9 95.7 3045.6 3017.8 3042.9 3080.1 23.074 0.65631 0.008 3051.1 3044.4 3033.8电话：+86-10 - 88888888传真：+86-10 - 88888888粤ICP备16036666号-1粤ICP备05018888号-1粤ICP备16036666号-1粤ICP备05016888号-10.014 0.238 0.223 0.083 0.030 0.075 0.148 0.046 0.00131 0.553 0.082 0.087 0.079电话：+86-021 - 88888888传真：+86-021 - 88888888电话：021 - 88888888传真：021 - 88888888电话：0510 - 8888888传真：0510 - 8888888电话：0511 - 8888888传真：0511 - 8888888电话：+86-021 - 88888888传真：+86-021 - 88888888电话：0511 - 8888888传真：0511 - 8888888电话：+86-510 - 8888888传真：+86-510 - 8888888电话：+86-021 - 8888888传真：+86-021 - 8888888电话：0510 - 8888888传真：0510 - 8888888粤ICP备05016888号-10 3 3 1.356 0 2 2 1.342 1.356 1.390表2的注释：P10=第10百分位数; P50=第50百分位数; P90=第90百分位数; SD=标准差; SE=平均值的标准误差;CoV=变异系数;岩相编号表示为每个数据记录的数字（Sh= 0、Slt= 1、Sd= 2和SSh= 3）地方检察木材地球科学中的人工智能3（2022）132137我（x个 -xmin表3其中，Nxm是基于以下各项调整到-1至+1的标度的对数优化算法应用于特征选择例程。Im13个优化器应用于具有16个特征的第m次测井曲线值分布的最小值和最大值Xi是指第m个数据点的第i个数据点的记录值或计算1263条数据记录EX 100次，每个优化器可变分配， xmin m 是第m个变量分布的最小值，和xmax m是第m个变量的最大值秒分布优化算法首字母缩略词N=10N=100源图4显示了变量与岩相类别之间的皮尔逊计算Bat Flight BF 14 113Wood（2016a） Cuckoo Search CS 26 226Wood（2016b）在这些相关性中，每个岩相都被赋予一个数值，（相#：Sh= 0，Slt= 1，Sd= 2和SSh= 3）。R计算使差分进化花粉遗传学算法DE1490Zhang et al. （ 2020年）GA22147Mandarin et al. （ 2015年）参数假设，而p计算是基于排名值的非参数计算。对于对称变量分布，近似正态分布，R和p值通常非常相似。另一方面，对于高度偏斜的分布，指示非参数条件的R和p值通常是非常不同的。对于大多数的sixteen测井变量考虑R和p值Grey Wolf GW 14 80Mirjalili等人（2014）HarrisHawkHH22224Hussien等. （2022年）02 TheFantasy（2016）ParticleSwarmPS25133Atashnezhad等. （二零一四年）Sine Cosine SC 8 62Abualigah Diabat（2021）&SALPSP15126Faris等. （2020年）与相#相对相似，指示适当的沉积参数条件。然而，对于变量GR1、GR2、PB2、PB5和PB6，具有相#的R和p值确实显示出更大的差异，这表明那些计算属性变量做涉及非参数回归关系变量GR0和TH0显示出高度负相关鲸鱼优化WH 15 114曹宁（2021&）注：N是指所用的人口规模对平均值进行排序，使得孔X>孔W>孔V。（-0.6），而PB 0和K 0显示与相#的中度负相关（-0.4）（图4）。GR 0与TH 0和K 0具有高度正相关性（>+ 0.78），与TH 0和K 0具有中度正相关性（>+ 0.78）。PB0（+0.42）。从机器学习的角度来看，平均值的顺序是W井>X井>V井。这是由于三口井中岩相的相对分布不同（表1）。记录的测井曲线和计算的属性显示的分布范围的实质性变化使得必须将它们的值归一化以用于ML分析。对于本研究，使用公式（7）将所有变量标准化为-1至+1的量表。所有记录的测井记录与相#的负相关性以及记录的测井记录之间的相对高的相关性不是有益的。ML模型在与某些测井变量正相关而与其他变量负相关的情况下能够更好地区分相。与记录的测井相比，计算的测井属性与相#的R和p相关性较差（在-0.33和+0.17之间Nxm=2mmM m我xmaxm-xminm- 第1（7）条（图 4）。这些相关性大多是负的，但GR5，GR6，PB5和PB6为阳性。属性GR2和PB2拥有最多）萤火FF15787木（2018）花FP19115Alyasseri等人（2018年）地方检察木材地球科学中的人工智能3（2022）132138图四、显示所记录的测井曲线和测井曲线属性的选定相关系数的热图，观察到的相用数字表示（相#：Sh=0; Slt= 1，Sd= 2，SSh= 3）。地方检察木材地球科学中的人工智能3（2022）132139∑==-=-maxZ=∑∑被配置为最小化由等式（8）计算的FS。与所考虑属性的相#负R和p相关。基于这些相关性，可以预期属性GR2、GR5、GR6、PB2、PB5和PB6对ML算法最有用，因为ML算法试图根据可用变量对岩相进行分类，并有效地补充记录的测井变量。其他可能影响相划分的对比关系有的高负p 相关性 K0 随深度（-0.64）和GR 0与深度的中度负p相关（-0.28）。K0与深度的负相关性是由于V井中两个最低的厚砂岩（图 3）显示物质;FS=σε+μ（Z）（ 8）其中，σ是略小于1的常数，ε（1-精度）表示总体误差分数，μ1-σ，Z是解决方案中涉及的特征数量，maxZ是可用特征的最大数量。配置FS的目的是根据解决方案涉及的功能数量对其进行惩罚。应用的小惩罚随着Z值的增加而增加因此，第一部分的FS计算，σε，略微调整的绝对误差占主导地位，K0值略低于中部砂岩，FS值，但计算的第二部分μ。Z ），加罚在所有三口井的储层上部。从核心分析来看，这是一个最下面的砂岩比其他砂岩更缺乏长石矿物，这表明在整个储层段的沉积过程中，沉积物的来源发生了变化。 GR 0与深度的负相关性反映了储层段上部的高GR值页岩比例较高，特别是在最上部的页岩区。砂岩和页岩成分随钻探储层剖面深度的这些轻微变化使得ML模型更难以使用可用的记录测井曲线准确表征Sh和Sd岩相。2.3. 优化特征选择在多达六个潜在影响的测井变量可供选择的情况下，进行特征选择以确定是否可以忽略那些变量中的一些影响最小的变量是适当的，从而有助于使ML模型更高效和有效。有多种可能的变量组合可以考虑。两个用作基准的组合是Case0使用仅四个记录的测井曲线（GR 0、PB 0、TH 0、K 0），而案例1使用所有六个可用变量。优化是一种有效的方法来评估大量可能的特征组合的潜在性能，并确定性能最佳的特征组合。有许多优化器可用于进行该分析，所有优化器都使用略微不同的算法，包括梯度下降或进化方法。对于大多数优化器来说，可能陷入局部最小值是一个问题，并且证明了运行几次和多次运行的价值，以建立一组潜在的十三个进化优化算法，以前应用于一系列的工程和地球科学数据集进行了这项研究。表3列出了这些算法，以及应用这些算法的研究的引文，其中包括对每种算法所涉及的方法和功能的详细描述。优化器使用其标准函数在Python中为本研究编码，并使用K-最近邻（KNN）ML算法应用于整个三孔数据集（1236个数据记录）。使用KNN是因为它执行迅速，需要相对较少的控制参数来工作maxZ到随解决方案中的特征数量增加而增加的FS。这是一种鼓励优化者用更少的特征来寻求好的解决方案的有效方法。2.4. 机器学习算法在岩相预测中的应用采用七种监督ML算法基于十六个定义的变量（四个记录的测井曲线和十二个计算的测井曲线属性）对三口井数据集的岩相进行单独分类。这些算法是因为它们基于不同的数学原理，可以相对快速地进行评估，使用公共函数库中的标准Python代码（SciKit Learn，2022 a）。这些ML模型是：自适应增强（ADA），由Freund Schapire（1997）&引入的树集成方法;Quinlan（1986）引入的决策树（DT）;（FX和Hodges，1951）引入的K-最近邻（KNN）;COX（1958）引入的逻辑回归（LR）;Ho（1998）引入的随机森林（RF）;Cortes Vapnik（1995）&引入的支持向量回归（SVC）;以及Chen和Guestrin（2016）引入的极端梯度增强（XGB）。这些模型已被广泛应用于岩相分类研究，其数学公式在文献中有很好的描述。最近的一些研究已经评估和充分描述了这些算法。Al-Mudhafar等人（2022年）应用ADA和XGB，使用测井数据对非均质碳酸盐岩储层进行分类。Sarkar和Majundar（2020）根据电缆数据比较了DT、RF和SVC在岩相分类中的表现。Merembayev等人（2021）比较了DT、KNN、RF和XGB在预测挪威和哈萨克斯坦油气田岩相方面的表现。Masapanta（2021）比较了多种ML模型（包括LR、KNN、SVC、DT和RF）的性能，以分类北海油田储层的岩相。每个ML模型都有决定其性能的超参数对于特定的数据集。这些参数（表4）已表4用于从测井变量分类岩相的ML算法的设置和超参数值。应用的ML模型应用的超参数值有效地每个优化器都运行多次，具有不同的population-100次迭代的距离大小（N值从10到100变化），将相同的KNN配置应用于三孔数据集。随着人口自适应增强（ADA）估计器数量=750;学习率=0.1;分割标准=基尼;基本估计器为深度=15的DT;分割器=最佳优化器的大小（每个迭代中评估的解决方案的数量）-决策树（DT）最大深度=无限制;拆分器=最佳;拆分n）从N= 10增加，执行时间也增加。EX XK近邻标准=基尼系数表3中列出了用KNN和N= 10和N=100的每个优化器建模的三个井数据集的以秒为单位的时间。优化器评估的最近邻数量K= 3;距离度量=Minkowski，p= 1（曼哈顿）;邻快速执行，人口较少（N = 10时为8Logistical回归选择算法=自动（LR）惩罚=elasticnet（应用L1和L2惩罚对于高种群，执行时间更高（对于N 100为62-787 s）。优化器模型的输出是生成最高总体精度的要素组合（准确度：正确岩相分类的分数）。与准确度值一起最优解包括的特征的数量和适应度得分（FS）。而不是简单地试图优化∑精度，优化器是随机森林（RF）支持向量分类器（SVC）EX tremeGradientBoosting（XGB）术语）; L1比率=0.5;公差=0.0001估计数=750;最大深度=20;分裂标准=基尼系数内核=径向基函数; C= 750;伽马=0.2;公差=0.001估计数=500; eta= 0.3;最大深度= 15;拆分标准=基尼子样本= 0.4;列（KNN）采样/树=0.9地方检察木材地球科学中的人工智能3（2022）1321310∑==-通过结合网格搜索分析（SciKit Learn，2022 b），贝叶斯优化器优先级（Sci Kit Learn，2022 c）和应用于三口井数据集的试错测试案例进行一旦建立了超参数，就有必要建立适当的数据记录分割，以用于训练和验证数据集。进行多k折交叉验证技术以确定要使用的适当拆分。评估了四种不同的k值：3倍、4倍、5倍和10倍。利用来自井V和X（训练和验证子集）的组合数据记录计算多次运行的每个折叠，以提供相#的平均绝对误差（MAE）和均方根误差（RMSE）的平均值和标准偏差。所考虑的四个不同k倍的平均值和标准差MAE和RMSE值的比较指示要使用的适当分割。通常，具有最低平均值加标准差的分割是最佳分割。同时，k折叠产生高的平均值和/或标准偏差值通常标识要应用的最低效率的分割。Python中可用于SciKit Learn（2022 d）的ML包的K-fold-cross-validation函数被定制为执行multi-k-fold技术。2.5. 分类性能指标确定了两组预测误差度量，以评估ML算法与所研究的三口井数据集的相对岩相分类性能。这些是：1）使用岩心解释的（实际的）和预测的相#计算的误差度量，包括MAE、RMSE和相关系数平方（R2）;以及，2）分类-考虑到所有类别的阳离子准确度测量（准确性;达到的正确分类的分数），以及考虑测量准确度（A）、精确度（P）、召回率（R）和F1分数（F1）的特定岩相类别的那些。用于确定这些广泛使用的度量的等式在图1中提供。虽然在分类问题中通常关注与准确性相关的度量，但通过使用误差和准确性度量的组合，通常可以提取关于ML模型预测性能的补充信息。表53. 结果3.1. 高性能功能选择用13个优化器中的每一个与应用于与井V、W和X共同相关的1236个取芯数据记录的KNN算法一起进行多次运行。对于每个优化器，运行包括一系列的群体大小（从N 10到N 100）和80%：20%的训练：验证分裂。基于最低适应度分数（FS）和最高岩相预测准确度识别的八个性能最佳的特征选择在表5中以从左（等级1）到右（等级8）的等级顺序显示。FS使用公式（8）计算，σ0.99，以提供较小的惩罚，鼓励模型找到具有尽可能少特征的高性能解决方案。这八个高性能功能选择包括16个可用功能中的7到10个。它们实现了在0.92和0.94之间的近似X射线的预测精度。对三个性能最佳的特征选择进行了更详细的评估：排名1（SC）作为具有九个特征的情况2;作为具有七个特征的情况3的等级2（DE）;以及作为具有九个特征的情况4的等级3（PS）。这些案例在方面的他们的岩相预测性能与情况0（仅涉及四个记录的测井曲线）和情况1（涉及所有六个可用特征）。3.2. 用KNN模型对选定病例进行多K折分析针对应用于训练/验证子集的7个ML模型（孔V和X; 874个数据记录），评估了4个K折交叉验证分割。结果记录为多次运行的MAE和RMSE的平均值和标准差。表6显示了KNN模型的结果，其在情况2、3和4中达到了最高的准确度。其他ML算法（未显示）的交叉验证结果显示与KNN显示的分布相似从表6中可以明显看出，在相对较低的平均值和标准偏差MAE和RMSE值方面，获得了由KNN模型评估的优化器找到的具有最低适应度分数的特征选择。优化算法缩写是表3中定义的缩写。最佳性能优化器的功能选择优化器SCDEPSJYCSGWWHSP秩12345678壳体2壳体3壳体4GR0XXXXXXXXGR1XXGR2XXXXXGR3XGR4XGR5XXXXGR6XXXXXXXPB0XXXXXPB1XXPB2XXXXXXXXPB3XX XPB4XXPB5XXXX XPB6XXXXXXXTH0K0XXXXXXXXX XX评分（FS）注：“Optimizer FF找到了与CS类似的解决方案，但需要更长的时间才能完成。所选功能的数量9799108910精度0.93950.93150.93150.93150.92740.92340.91940.9194人口规模201005050101001510迭代100100100100100100100100健身0.06550.07220.07350.07350.07810.08080.08550.0861时间（秒）15.686.669.8561.625.879.619.314.6地方检察木材地球科学中的人工智能3（2022）1321311∑∑∑表6以平均绝对误差（MAE）和均方根误差表示的五个岩相分类特征选择的多K倍结果。KNN模型应用于五个数据集的多重交叉验证结果，每个数据集预测四种岩相所有的K折都进行了评估。然而，对于五种情况中的每一种情况，5倍结果被认为是最有吸引力的，因为它产生了与相对低的标准偏差相关的相对低的平均值。因此，在本研究中，训练和验证案例的比例为80%：20%。图 5显示最佳性能的RMSE与MAE值Mae是说Mae标准偏差RMSE是说RMSE标准偏差评估的五种情况（情况0至情况4）的ML模型评估-通过5倍交叉验证进行评估。对于情况0（仅四个记录的测井曲线），RF模型提供案例0（四个变量：仅记录的测井记录）三重验证0.2731 0.0391 0.7287 0.06734倍验证0.2807 0.0592 0.7379 0.10705倍验证0.2700 0.0506 0.7209 0.0943最低MAE和RMSE值（图5）。然而，该情况基本上优于包括测井属性的四种情况。然而，SVC模型生成的RMSE和MAE值最低，情况1，对于其他三种情况（情况2、3和4），KNN模型10倍验证2017年12月31日产生了最好的5倍交叉验证结果。这五个十字架案例1（十六个变量：包括所有属性）三重验证0.1686 0.0150 0.5523 0.0394四重验证0.1682 0.0255 0.5545 0.05715倍验证0.1674 0.0294 0.5452 0.0718关于计算的测井属性可能在改进岩相预测方面做出的积极贡献，验证比较是令人鼓舞的。10倍验证2016年12月31日3.3. 训练/验证子集的岩相分类结果案例2（九个变量：正弦余弦优化器最佳解）三重验证0.1858 0.0311 0.5757 0.0618四重验证0.1838 0.0367 0.5740 0.07345倍验证0.1751 0.0241 0.5557 0.0593表7显示了达到的准确度和统计误差测量值用于随机验证子集选择。包括使用来自井V的数据训练（80%）和验证（20%）的七个ML模型10倍验证2016年12月31日和X.每个模型分别应用于具有不同特征选择的五种情况。案例3（七个变量：差分进化优化器最佳解）三重验证0.1968 0.0274 0.5898 0.0612四重验证0.1952 0.0442 0.5875 0.08485倍验证0.1857 0.0338 0.5746 0.0767对于表7中报告的验证子集，KNN模型在岩相预测中实现了最高的准确性。应用于案例0至4的KNN模型的准确度与MAE结果如下：10倍验证2015年12月31日如图6所示。图6中病例结果的相对位置与5重交叉验证结果一致（图4）。案例0第1页-案例4（九个变量：粒子群优化器最佳解）三重验证0.1838 0.0173 0.5724 0.0431四重验证0.1948 0.0454 0.5895 0.08645倍验证0.1823 0.0337 0.5690 0.0761随机选择的验证子集的相预测比案例1至4实现的相预测差，案例1至4实现了更高的准确度（~0.87-0.88 ）和更低的 MAE （ ~0.17-0.19）和RMSE。（~0.55-0.57）。对于情况0，应用于随机10倍验证1999年12月31日生成的验证子集与RF模型匹配（表7），RF模型也显示出比KNN模型更低的MAE和RMSE值。即基于RF模型在案例0的5重交叉验证分析中的性能，对于情况1，SVC模型的MAE和RMSE值略低于KNN模型，但图五. RMSE与MAE结果实现了5倍交叉验证，显示了评价的5种情况中每种情况的最准确模型。仅使用四个记录的测井曲线的情况0与包含测井曲线属性的情况不同地方检察木材表7地球科学中的人工智能3（2022）132140∑===-验证子集岩相分类结果的七个ML模型应用于五个功能选择的情况下。样品验证子集结果（20%的微孔V和X）∑精度0.7829∑精度0.8114∑精度0.7714∑精度0.7886∑精度0.8114图第六章对评价的5个病例进行随机验证子集，获得准确度与MAE结果。仅使用四个记录的测井曲线的情况0与包含测井曲线属性的情况KNN模型比SVC模型具有更高的精度。预计模型之间的误差和准确度性能之间会有细微的差异。这些都是解释的数据记录，是错误的模型预测的错误分类的程度。预测错误分类涉及数字的情况-相邻岩相（如Sd 2误分类为SSh 3）将具有对MAE、RMSE和R2的影响小于涉及更多数值分离相（例如Sh0误分类为表3）。另一方面，准确性度量仅考虑每个数据记录的预测是正确还是不正确。3.4. 独立测试子集的岩相分类结果岩相分类的决定性测试评估每个模型如何用来自一组井的数据训练和验证（即，井V和X）在应用于来自独立数据集（井W）的数据时执行。应用于W井的所有362个数据记录的经训练/经验证的ML模型的结果如表8所示。应用于案例0至4的最佳性能模型的准确度与MAE结果如图7所示。当ML模型应用于测试子集ADADTKNNLR

下载后可阅读完整内容，剩余1页未读，立即下载