主成分回归和梯度提升分类器的水质预测模型

73 浏览量更新于2024-01-27 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于主成分回归和梯度提升分类器的马里兰州Saikat Islam Khana，d，Nazrul Islamb，d，Jia Uddinc，Sifatul Islama，d，Mostofa Kamal Nasira，da计算机科学与工程系，Santosh，Tangail-1902，孟加拉国b信息和通信技术部，Santosh，Tangail-1902，孟加拉国c韩国大田Woosong大学Endicott学院技术研究系dMawlana Bhashani科技大学，Santosh，Tangail 1902，孟加拉国阿提奇莱因福奥文章历史记录：2021年1月29日收到2021年5月11日修订2021年6月3日接受2021年6月14日在线提供保留字：水质指标主成分回归分类算法箱形图分析A B S T R A C T近几十年来，水质评估一直是世界面临的重大挑战之一。本文提出了一种利用主成分回归技术的水质预测模型。首先，采用加权算术指数法计算水质指数。其次，对数据集进行主成分分析（PCA），提取最具优势的WQI参数。第三，为了预测WQI，对PCA输出使用不同的回归算法。最后，利用梯度提升分类器对水质状况进行建议的系统进行实验评估的Gulshan湖相关的数据集。结果表明，主成分回归方法的预测准确率为95%，梯度提升分类器方法的分类准确率为100%，与现有技术模型相比，这显示出可靠的性能。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍地球上没有任何生物可以在没有水的情况下生存。来自河流和湖泊的水流对人类福祉和渔业都有显着或隐含的贡献（Kar，2019;Kar，2013）。然而，水经常受到污染，因为该行业在需求螺旋上升的背景下每年都在增长，这些行业将危险废物排放到由于水污染，每年有数百万人死亡，无数的收入损失，农业用地恶化（Dzwairo等人，2006年）。近年来，多项研究表明，大多数国家的地下水质量显著下降（Adimalla，2019年; Gaikwad等人，* 通讯作者：Mawlana Bhashani科技大学信息和通信与技术系，Santosh，Tangail1902，孟加拉国。电子邮件地址：gmail.com（男，女）Islam Khan），nazrul. islam@ieee.org（ N. 伊斯兰教）， jia. wsu.ac.kr （ J. Uddin ）， sifat. gmail.com （ S.Islam ），kamal@mbstu.ac.bd（M.K. Nasir）。沙特国王大学负责同行审查2020; Moon等人，2004年）。在孟加拉国，许多城市地区由于无计划的城市化和工业化而受到水污染的影响。2015年，城市污染导致孟加拉国损失65亿美元，占GDP的3.4%，根据世界银行报告（世界银行报告，2018年），达卡损失14.4亿美元，占GDP的0.72%。因此，水质监测是强制性的。虽然可以使用传统技术来测试水质，例如手动收集水样，然后在实验室中进行分析（Wu和Liu，2012）。但它可以被认为是耗时和昂贵的。传感器也可以被视为另一种常规方法。然而，使用传感器测试所有水质变量被认为是昂贵的，并且通常显示出低精度（Oelen等人，2018年）。监测水质的另一种解决方案是使用机器学习和深度学习方法进行预测建模与其他传统方法相比，它具有几个优点：成本较低，在旅行和收集所需的时间方面是有效的，能够在系统的各个阶段进行预测，并且在访问站点不方便时预测期望值（Sinshaw等人， 2019年）的报告。在过去的几年里，研究人员在水质管理系统的研究中广泛使用了预测模型，包括人工神经网络（Sinshaw等人，2019年; Barzegar和Moghlobal，2016年; Barzegar等人，二○二○年;https://doi.org/10.1016/j.jksuci.2021.06.0031319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com马里兰州Saikat Islam Khan，N. Islam，J.Uddin et al.沙特国王大学学报4774Hameed 等人， 2017; Kadam 等人， 2019 年 ; Zhang 等人，2019）、多元线性回归（Choubin，2016; Ewaid等人，2018）、最小二乘法（Salari et al.， 2018），决策树（Saghebian例如，2014）、随机森林方法（Yajima和Derot，2018）、小波神经网络方法（Xu和Liu，2013）、递归神经网络方法（Li等人， 2019），神经模糊技术（Aghel等人，2019; Khadr，2017; Kisi等人，2019年 ; Zhu 等人，2019 ）和支持向量机方法（ Leong 等人，2019;Mohammadpour，2015）。近几十年来，这些方法对水生气候产生了巨大影响但大多数模型，包括人工神经网络、小波神经网络、递归神经网络、决策树等，都需要大量的输入参数和计算能力，而这些参数和计算能力都被认为是构建此类模型的昂贵成本。基于这一动机，本文采用水质指数（WQI）这一反映特定区域水质状况的不同水质指标的组合，并应用预测和分类模型对WQI进行预测和水质状况分类。主成分回归（PCR）被用来预测WQI在这个分析中，结合监督和无监督技术。PCR的基本概念是将主成分分析应用于数据集以最小化维度。同时，回归算法用于PCA输出。由于它可以解决数据集的多重共线性问题，并允许更少的水质样本，PCR可以预测WQI比其他技术更有效。在这项研究中使用的梯度提升分类器方法的分类任务。它是一种集成技术，可以使用少量数据进行操作。此外，本文本研究首次将主成分回归方法应用于水质指标的预测。使用PCR方法减少水质参数，该方法允许使用任何水质样本。为了对水质状况进行分类，提出了一种水质状况分类模型。还对数据集进行箱形图分析，以确定最主要的WQI参数。本文的结构如下：作者在第二节中讨论了文献综述。然后，第3节介绍了所提出的模型的体系结构，并对小节进行了适当的解释。此外，作者还在第四节中讨论了实验装置和结果分析.最后，作者在第5节中总结了本文的局限性和未来范围。2. 相关作品本节展示了现有的文献综述。作者采用了最常用的方法进行水质检测和分类，包括深度神经网络，递归神经网络，神经模糊推理和支持向量回归。例如，Barzegar et al. （2020），应用CNN-LSTM amal-gam模型来预测两个水质变量，命名为溶解氧（DO）和叶绿素a。结果表明，CNN-LSTM混合模型的性能优于单独的CNN和LSTM模型以及机器学习模型，如SVR，决策树。 Oladipo等人（2021），比较了两种统计方法，包括模糊逻辑推理（FLI）和WQI方法，用于评估尼日利亚Ikare社区的水质。他们使用FLI发现了中等和较差的水质条件和WQI方法。他们还发现，由于测量值与WQI标准值之间的关系，FLI方法优于WQI方法。对于水产养殖中溶解氧的估计，Li等人（2018）建议通过结合稀疏自动编码器和长短期记忆网络（LSTM）来建立一个合成模型。尽管CNN-LSTM和Sparse-autoencoder-LSTM模型都表现出出色的性能，因为它们只预测了DO和叶绿素，但使用这些模型处理更多的水质变量可能具有挑战性。在另一项研究中，Asadollah等人（2021）应用了一种称为额外树回归（ETR）的集成机器学习方法，该方法结合了多周学习器（如决策树）来预测香港荃湾河的WQI值他们将ETR方法应用于10个水质变量。结果表明，ETR方法达到了98%的预测准确率，优于其他最先进的模型，如支持向量回归和决策树。此外，Hameed等人（2017）开发了两种神经人工网络技术：径向基函数神经网络（RBFNN）和反向传播神经网络（BNN），用于预测马来热带地区的 WQI 。在这项研究中， WQI 是使用分项指数方程测量的（Agamuthu和Victor，2011年）。在RBFNN和BNN策略中，训练速度更快，但预测需要很长时间，使模型变慢。Bui等人（2020）提出了一种结合随机树和装袋（BA-RT）技术的混合机器学习算法。BA-RT方法使用10倍交叉验证技术实现了94%的预测准确度，超过了15个独立和混合算法。Rajaee等人（2020）对机器学习方法在河流水质建模中的应用进行了更全面的研究，他们回顾了2000年至2016年发表的51篇文章。根据这项研究，人工神经网络和小波神经网络是最广泛使用的水质预测方法。此外，Samsudin等人（2019）开发了一种人工神经网络。在这项研究中，最显着的水质参数，发现通过空间判别分析（SDA）。但这些研究只能勉强显示71%的准确率。在另一项研究中，Yilma等人（2018）应用人工神经网络预测埃塞俄比亚Akaki河的WQI。在该分析中，具有8个隐藏层和15个隐藏神经元的人工神经网络预测WQI，90%的准确率。此外，Imani等人（2021年）应用具有单个隐藏层的人工神经网络来预测巴西圣保罗的水质恢复力。应用神经网络预测水质质量指数需要大量的水质数据，这是昂贵和耗时。Ho等人（2019年）应用决策树对马来西亚巴生河的水质状况进行分类。他们考虑了三种情景，在第一种情景中使用了六个水质变量。之后，在每个过程中，他们删除了水质参数，如NH3-N，pH值和SS，以评估决策树算法在不同情况下的能力。他们在每个场景中分别实现了84.09%、81.82%和77.27%的分类准确率此外，为了预测WQI，Ahmed et al.（2019）使用了几种有监督的机器学习方法。他们对四个水质参数进行了模型研究。他们发现，通过使用梯度提升和多项式回归，可以更成功地预测WQI，其中多层感知器可以更有效地对水质类别进行分类。然而，这项研究的水质参数较少，但提出的预测和分类模型都没有显示出超过75%的准确性。另一方面，Wang等人（2017）应用支持向量回归预测WQI。在该分析中达到了90%以上的准确度。在这项研究中，使用了22个水质样本，这使得模型的计算成本很高。Li等人（2019年），提出了一个汞合金模型的时间研究-●●●●●马里兰州Saikat Islam Khan，N. Islam，J.Uddin et al.沙特国王大学学报4775将递归神经网络与Dempster-Shafer理论（DST）相结合，对一系列水质数据进行预测，其中RNN能够有效地分析时间序列数据，以预测WQI和DST，这是一种用于融合结果的概率方法的RNN。使用RNN和DST预测WQI可能具有挑战性，因为在拟合和测试模型时需要专门处理数据。此外，Ahmed等人（2019）提出了一种基于小波去噪技术的神经模糊推理方法来预测水质参数。结果表明，该模型优于其他神经网络模型，如RBF和MLP。但神经模糊推理方法在对高维数据进行分析和分类时会产生维数灾难问题。总之，从上述研究中，大多数目前的方法是基于预测模型，但没有提供任何分类模型。大多数模型显示出较低的准确性，并使用了许多水质样本。所提出的方法被应用于解决上述当前方法中描述的限制。此外，该模型给出了一个动态的方法来使用任何数量的水质标本。3. 该方法在本节中，作者简要讨论了用于预测和分类WQI的拟议架构，如图1所示。本节还介绍了主成分回归方法的一种新算法。下面的小节介绍了与所提出的模型相关的块的描述。3.1. 区域分析和数据集Gulshan湖位于孟加拉国达卡的最北部它被认为是达卡市的重要组成部分，因为它是达卡市剩余的水体之一它被 Baridhara ，Tejgaon Thana和Shahjad-pur的外交区所包围在这些地区，古尔山湖被认为是地表水补给的重要古尔山湖长3.8公里，总面积约100公顷。它位于北纬23° 48和东经90°25，平均深度为2.5米，密度为12图2显示了孟加拉国的湖泊在这项分析中，2016年每个月都测量了水质变量。 WQI 已经利用诸如 pH 、悬浮固体（ SS ）、电导率（EC）、总溶解固体（TDS）、浊度、图二.在达卡市的湖泊位置。3.2. WQI的计算本节说明了WQI的测量方法。共使用9个参数来估计WQI，包括pH、DO、COD、TDS、EC、浊度、氯化物、SS和碱度。然后根据估计的WQI [如表2所示]将水这里，WQI 是使用“加权算术指数法 ”计算的（ Tyagi 等人，Horton（1965）首先提出的。根据该技术，水质等级（Qj）是WQI的组成部分，并使用以下表达式确定QjMj-lj =Sj-lj×1001其中，Qj被认为是第j次水质测量的质量等级，Mj被认为是来自Gulshan湖的测量值，Sj被认为是WHO推荐的水系数的标准值（World HealthOrganization et al.，2004），并且lj被称为水质参数的理想值。pH和DO的理想值为7，14.6 mg/l，而对于其他水质测量，它等于零。在计算Qj之后，使用以下表达式估计单位权重WjWj¼1=Sj2其中，W 被称为相对单位重量，S被视为溶解氧（DO）、碱度、氯化物和对化学品的需求化学需氧量（COD）。在本分析中，数据集由108份标本组成。采集的样本来自孟加拉国环境部（DOE ）和环境与森林部（数据集，2016）。表1提供了数据集的详细统计概述。第j个参数的标准值，1定义为比例常数。将单位权重因子（Wj）和质量等级（Qj）组合以形成WQI，WQI用以下表达式表示图1.一、水质指标的预测与分类马里兰州Saikat Islam Khan，N. Islam，J.Uddin et al.沙特国王大学学报4776¼ð Þn¼¼¼¼J6J12n7P表1水质标本统计描述。参数计数MinMax是说SD重量相对重量pH1086.858.277.35.2422.54.1204做108015.35.203.764.09.1938Cod1082430389.8744.552.0947TDS108122.5432274.7256.112.75.1303浊度108168251.2319.892.4.1137氯化10815.876.933.4311.031.0473SS1082414256.8124.481.5.0711碱度108104210150.6819.821.6.0758EC108250869557.97108.933.22.1526WQI10863144109.5220.86表2WQI类别和应用（Tyagi等人， 2013年）。WQI范围水质状况应用050–7575100以上不宜饮用使用前需处理提出的预测WQI的PCR方法作为算法给出。1.一、算法1. PCR算法1：输入：Af是f中模型的预测矩阵。2：输出：aj，预测WQI3：B covAf其中，cov（）是协方差矩阵WQI¼XW Q=XWð3Þ4：n = select_component（PC）5：fb¼bPC1+bPC2++bPCn其中，b=（PCsT PCs-1）PCsT z3.3. WQI预测模型本节演示了主成分回归模型的发展，以预测水质指数。PCR的想法是在数据集上执行PCA，然后在新的PC上执行回归模型。数据预处理：数据集包含一些空值。为了处理这种空值，在该分析中使用中值方法。此外，降低失真度：对于降维，主成分分析（PCA）应用于数据集，提取最主要的水质参数。主成分分析是一种统计分析，它减少了受多相关变量影响的数据集的维数。由于PCA需要所有相互关联的变量，它将它们转换为描述所有方差的少量不相关变量。从PCA中获得的不相关变量被称为主成分（PC）。数据分割：在对数据集进行PCA后，将收集的数据分为两组：训练集和测试集，比例分别为80%和20%。学习算法：为了预测WQI，可以使用机器学习算法在该分析中，使用了几种机器学习算法，包括线性回归，梯度提升回归，随机森林回归和支持向量回归。这些算法独立地与PCA方法配对并在数据集上实现最后，通过比较各预测模型的性能，选出最佳预测模型。表3列出了用于这些模型的实验参数。表3回归模型的实验参数。n n n6：aj<$N1bncn;j其中，cn;j是第n个主项成分7：返回a然而，在使用select_component（）来选择组件数量的情况下，它允许使用任何数量的组件，但是它必须小于或等于最初使用的特征的数量掌握PCR模型的最好方法是从理论上看它。我们可以使用以下公式推导出回归方程：公式：y<$bXs4从简单线性回归，可以使用以下表达式导出多元线性回归：y<$b0X0b1X1b2X2···bkXks5这里，y被表示为预测变量的期望值。b0;b1;b2.. . bk是与独立的X0;X1;X2，.相关的回归系数函数。. Xk变量，分别。然后b用于确定预测变量和自变量之间的相互作用。最后，s表示为随机误差向量在PCR中，我们的第一步是在执行PCA之前规范化数据，因为PCA对数据是反应性的因此，我们使用其中一个预处理步骤来归一化数据，以使r1和l0。我们在下一步中对矩阵X进行PCA，这是我们的自变量。我们可以通过对自变量X进行奇异值分解来获得XPDV0. 这里，D是由q个非负奇异值组成的对角矩阵，q表示为随机变量。2D10···03模型参数值D diagonalD0D1···0D6 76..多元线性回归fit_intercept True四分之一;2;. .q] 1/4。四、..ðÞ... 5支持向量回归核，C，度聚，200，3Gradient Boosting Regression learning_rate，n_estimators.1，60随机森林回归n_estimators 100 0·· ·DQ●●●●J马里兰州Saikat Islam Khan，N. Islam，J.Uddin et al.沙特国王大学学报4777¼×Þ Þ¼¼¼-1/4×这就是如何以V作为特征向量得到q q矩阵。在下一步骤中，可以使用特征向量V来获得矩阵KXV，其中每列被表示为q的主要部分这些列在矩阵中是正交的，不能保证变量之间的我们可以减少PRIN-UNR分量的数目来减少变量之间的共线性在矩阵V中，我们必须将分量切为r。在切割分量之后，矩阵看起来像Kz×r¼Xz×qVz×r;其中z表示为观测值的数量。然后，我们在下一步中对由主成分q或r组成的K矩阵进行回归。可以使用以下公式确定系数ing式后进行回归对校长使用统计参数如R2、RMSE、MAE、召回率、精确度和F1分数选择4.1. 评估指标三个统计参数，包括R平方误差（RSE），均方根误差（RMSE）和平均绝对误差（MAE），被用来测试的PCR模型的效率。这些标准表述如下：RSE¼1- 解释变量的最小值=总变量的最小值 10成分bkK 0K-1K 0y7从EQ。（7）计算公式为：RMSE¼qXyobs-ypred2=nXð11ÞyXbx8最后，我们可以推导出以下表达式：bx¼Vbk9其中，yobs=实际值，ypred=预测值，n =样本总数。四个分类指标，包括准确率，召回率，精度和F1分数，用于测试分类模型的性能。这些指标表示如下：3.4. WQS分类本节演示了一个分类模型的发展，以分类水质状况。水质状况分为五组，如表2所示。恢复：由于大部分数据属于组4和组5，因此对数据集执行恢复以消除数据不平衡问题。在对数据集进行重新分类后，第1、2、3、4和5组总共包含10、18、19、29和29个样本。准确度TPTPTNFPFN召回TPTPFFN精密TP公司简介F1score2精确度×召回率精确度和召回率ð13Þð14Þð15Þð16Þ32个水质样本。数据预处理：在这种技术中，中值方法用于处理空值和最数据分割：数据集分为两组：训练和测试，比例分别为80%和20%。同样为了验证所提出的模型，我们在分割数据集的过程中多次更改了随机状态值（如0、1或41），以便每次运行时，训练和测试数据集都具有不同的值。最后，我们从所有的运行中获得平均精度分类算法：对于水质状态（WQS）的分类，使用了几种在这些算法中，通过比较性能，选择最佳算法表4给出了用于这些算法的实验参数4. 实验装置及结果分析本节的目的是评价PCR和分类模型的性能。在本节中，实现了不同的PCR和分类模型，最好的模型是表4分类模型的实验参数。模型参数值随机森林分类器n_estimators，Criterion15，吉尼支持向量分类器C，内核，度2，线性，1梯度提升分类器learning_rate，n_estimators一千一百AdaBoost分类器learning_rate，n_estimators1，50其中，TP =真阳性，TN =真阴性，FP =假阳性，FN =假阴性。4.2. 数据和箱形图分析表1提供了数据集和影响水质的因素的详细统计概述。TDS、EC和COD的标准偏差最大，而DO和pH的标准偏差最小。最小和最大DO值分别为0和15.3 mg/ l，平均值为5.20 mg/ l。转化率范围为16至82NTU，平均值为51.23 NTU，这意味着这些值分布不充分（世界卫生组织等， 2004年）。相对权重有图三.水质变量异常值检测。●●●MAE¼●jjyobs-ypredjjj马里兰州Saikat Islam Khan，N. Islam，J.Uddin et al.沙特国王大学学报4778表5不同PCR模型预测WQI的比较。模型R2RMSEMaePCA+多元线性回归.9325.725.42PCA+随机森林回归.8398.877.82PCA+支持向量回归.9504.934.37PCA+梯度提升回归器.72211.69.15表6使用各种组件进行PCR模型性能评估模型组件R2RMSEMaePCR1n = 1.04221.6419.56PCR2n = 2.41116.9714.57PCR3n = 3.56914.5212.51PCR4n = 4.56414.5912.54PCR5n = 5.56514.5811.67PCR6n = 6.70911.929.44PCR7n = 7.9275.975.33PCR8n = 8.9325.725.42PCR9n = 9.9325.725.42手动测量WQI。WQI使用Eqs. （1）从表1中，发现最小WQI值为63，其中最大值为144，标准偏差为20.86。WQI平均值为109.5，表明大部分地区水质不适宜饮用和灌溉。为了建立水质参数之间的复杂关系，对数据集进行了异常值检测。图3展示了箱形图分析，以找到水质参数的异常值。根据该分析，发现pH、DO、氯化物和浊度等参数呈正态分布。这些参数对估计WQI具有积极影响，因为它们符合WHO推荐的标准值（WorldHealth Organization et al.，2004年）。其他参数如COD、TDS、SS、碱度和EC与标准值相比极度失真且具有高偏斜值。因此，古尔山湖水质质量指数的平均值较高，这主要是由于COD、TDS、SS、碱度和EC的影响。因此，它需要适当的照顾。4.3. PCR模型结果评估所提出的PCR方法使用Python实现。不同PCR模型的结果示于表5中。从该表中可以看出，与其他PCR技术相比，具有支持向量回归的PCA实现了最高的准确性。虽然其他PCR模型也表现良好，但具有梯度提升回归的PCA被证明是一种不太有用的模型。由于PCR模型提供了更少的参数，所以我们减少了组件的数量，而不是采取所有的功能。采取不同特征的结果示于表6中。对于该技术，选择具有多元线性回归的PCA，因为PCA主要与多元线性回归相关以创建新的主成分。表6显示，对于9个和8个组分，PCR9和PCR8模型显示出最佳性能，其中PCR9澄清了所有方差。PCR 8模型给出了与PCR 9模型相同的结果，参数也减少了。测试步骤中PCR8模型的R2值为0.932。如果我们从PCR8模型中再减少一个组件，该模型产生的结果几乎与操作相同与所有组件一起工作PCR 7模型中的R2值为.927.再减少一个组件后，在测试阶段减少的R2这表明与PCR7和PCR8模型相比准确性较低。然而，在水样中，PCR 6仍然表现良好。如果我们减少更多的组件，见图4。水质指数的预测和分类观测值与预测值之间的关系图a. PCA+多元线性回归模型PCA+随机森林回归模型PCA+支持向量回归模型PCA+ Gradient Boosting回归模型马里兰州Saikat Islam Khan，N. Islam，J.Uddin et al.沙特国王大学学报4779表现不佳。由于PCR 7和PCR 8显示出与使用PCR 9相同的结果，因此我们可以推断PCR方法允许使用更少的参数而不是采用所有特征进行操作为了更好地理解这些模型，图4显示了观察到的和预测的WQI值之间的图。其中，PCA+ SVM回归模型由于训练和测试精度高，其值更接近回归拟合线。4.4. 分类模型结果评估表7图五. PCR模型中各部分的准确性比较。不同的分类算法是使用python实现的。不同分类模型的结果见表7。其中，梯度提升分类器取得了最高的精度，证明是一个有效的模型来预测水质状况。第二个最好的模型是随机森林分类器，但在计算召回率方面，支持向量分类器的性能优于随机森林分类器。Ada-Boost分类器被发现与其他技术相比效果较差不同分类模型的比较。模型精度精度召回F1得分随机森林分类器.91.96.85.89支持向量分类器.86.82.91.84梯度提升分类器1.01.01.01.0AdaBoost分类器.77.53.60.56PCR模型的R2值仅为50%，表明PCR模型效率较低PCR模型在各主成分中的准确度比较如图所示。五、从图中可以看出。 5，该模型表现良好，有六个，七个和八个组件。之后，它尼克。这些模型的混淆矩阵如图6所示。从图6中，我们可以观察到梯度提升分类器根据水质水平对所有测试数据进行分类，而其他模型对一些测试数据进行了错误分类4.5. 与其他研究的从表8中可以清楚地看出，PCR和GBC方法在预测和分类WQI方面都优于先前开发的模型，例如独立机器学习（SVR，GB，DT），深度神经网络（NN，MLP）和混合（SDA-ANN，BA-RT）。Bui等人（2020）发现了最佳准确度（准确度= 94%）。但是，它们没有提供任何分类模式。 Yilma等人（2018）和Wang et al.（ 2017年）达到93%图六、分类算法的混淆矩阵A. 随机森林分类器b.支持向量分类器C.梯度提升分类器d.AdaBoost分类器。马里兰州Saikat Islam Khan，N. Islam，J.Uddin et al.沙特国王大学学报4780表8所提出的方法和以前的文献工作的性能比较。名称位置样本总数预测方法分类方法预测精度分类精度Wang等人（2017年）中国22SVR–百分之九十二–Yilma等人（2018年）埃塞俄比亚12NN–百分之九十三–Samsudin等人（2019年）马来西亚13SDA-ANN–百分之七十一–Ahmed等（2019年）巴基斯坦4GBMLP百分之七十四百分之八十五Ho等人（2019年）马来西亚6–DT–百分之八十一Bui等人（2020年）伊朗10BA-RT–百分之九十四–提出方法孟加拉国9PCRGBC百分之九十五百分百使用人工神经网络和支持向量回归技术的预测准确率为92%。但是这些技术12和22个水的标本，可以被认为是昂贵的，因为大多数标本在实验室进行了检查。Fur-10，Samsudin et al.（2019），Ahmed et al.（2019）and Ho et al. （2019）使用较少的水样来预测和分类WQI。然而，他们的模型准确率低于85%。与以前的方法相反，所提出的模型在这项研究中只使用了9个水样，并表现出95%的预测精度和100%的分类精度。5. 结论本文提出了一种利用机器学习算法对水质进行预测和分类的方法。本研究中使用的水质指标包括PH、DO、SS、EC、浊度、氯化物、COD、对于数据预处理，使用中值技术来处理空值和为了预测的目的，我们采用了主成分回归（PCR）方法。通过对多个PCR模型的性能分析，主成分分析与支持向量回归相结合的方法更为有效，准确率达到95%。然而，如果分量的数量减少，则PCA与多元线性回归模型被证明是更有效。为了达到分类的目的，采用梯度提升分类器对水质状态进行此外，为了检验模型的性能，将该模型与Ada-Boost分类器、支持向量分类器和随机森林分类器等几种最新的分类器进行了比较。实验结果表明，梯度提升分类器能更有效地对水质状况进行分类。尽管本文概述了一些成就，但仍然可以进行一些改进，包括我们可以收集更多的训练样本，使模型更加稳定，并在预测模型上取得更多进展。这些问题将在未来的研究中得到解决，也许可以通过适当调整PCR模型和使用深度神经网络来解决。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用Adimalla，Narsimha，2019.饮用和灌溉用地下水质量及潜在健康风险评估：印度南部半干旱地区的案例研究。暴露与健康11（2），109-123。Agamuthu，Pariatamby，Victor，Dennis，2011.马来西亚生产者责任延伸的政策趋势。废物管理&研究29（9），945-953。Aghel，B.，雷扎伊，A.，Mohadesi，M.，2019年。基于混合粒子群优化-神经模糊方法的水质参数建模与预测。International Journal of Environmental Science andTechnology 16（8），4823- 4832.Ahmed，Ali Najah等人，2019.机器学习方法用于更好的水质预测。水文学杂志578，124084。Ahmed，Umair等人，2019.使用监督机器学习进行有效的水质预测。水11（11），2210。Asadollah，Seyed Babak，Seyed，Haji，et al.，2021.河流水质指数预测和不确定性分析：机器学习模型的比较研究。环境化学工程学报9，（1）104599.Barzegar，Rahim，Moghoun，Asghar Asghari，2016. 结合神经网络的优点，利用委员会机的概念进行地下水矿化度预测。模拟地球系统和环境2（1），26。Barzegar，Rahim，Mohammad Taghi，Aalami，Jan，Adamowski，2020.使用混合CNN-LSTM深度学习模型进行短期水质变量预测随机环境研究和风险评估，pp。1-19号。Bui，Duie Tien等人，2020年。使用新型混合机器学习算法改进水质指数预测。环境科学721，137612。Choubin，Bahram等人，2016.基于大尺度气候信号的多元线性回归、多层感知器网络和自适应神经模糊推理系统降水预测。水文科学杂志61（6），1001-1009。数据集， Gulshan Lake ， 2016 。发布于 2018 年 5 月网址： http://www.doe.gov 。bd/site/publications/5132a8d7- 68e9 - 469d - a9af - 8981306b3b9f/ Surface -and - Ground -Water-Quality-Report-2016.Dzwairo，Bloodless等人，2006.农村地区坑式厕所对地下水质量影响的评估：津巴布韦Marondera区的案例研究。地球的物理和化学，A/B/C部分31（15-16），779-788。Ewaid，Salam Hussein，Abed，Salwan Ali，Kadhum，Safaa A.，2018.利用水质指数和水质指数预测伊拉克巴格达境内底格里斯河水质回归分析环境技术&创新11，390-398。Gaikwad，Satyajit等人，2020.印度马哈拉施特拉邦热带西海岸地下水中离子的地球化学流动性：对地下水质量的影响。环境，发展和可持续性22（3），2591-2624。Hameed，Mohammed等人，2017.人工智能技术在水质指数预测中的应用：马来西亚热带地区的案例研究。Neural Computing and Applications 28（1），893-905.Ho，Jun Yung等人，2019.一种时间和成本有效的水质指数类别预测方法。Journal ofHydrology 575，148-165.Horton，Robert K.，1965.水质等级的指数系统。水污染控制联合会杂志37（3），300-306。Imani，Maryam等人，2021.一个新的机器学习应用：水质恢复力预测模型。科学的总环境768，144459。Kadam，A.K.例如，2019.在印度Shivganga河流域使用人工神经网络和多元线性回归建模方法预测水质指数。模拟地球系统和环境5（3），951-962。Kar，Devashish，2013. 世界上的湿地和湖泊印度新德里。卡尔，2019年。阿萨姆邦的湿地及其鱼类多样性。《系统与生态研究的跨大西洋评论》21（3），47Khadr，Mosaad，2017. Manzala湖水质参数的自适应神经模糊推理系统和随机模型建模。埃及沿海湖泊和湿地：第二部分。施普林格，pp.47比69Kisi，Ozgur等人，2019.用混合神经模糊方法模拟地下水水质参数。水资源管理33（2），847-861。Leong，Wei Cong等人，2019年。基于支持向量机和最小二乘支持向量机的水质指数预测。国际河流流域管理杂志，1-8。Li，Zhenbo等人，2018.结合稀疏自动编码器和LSTM网络的水质预测模型。IFAC-PapersOnLine 51（17），831-836.Li，Lei等人，2019.基于递归神经网络和改进证据理论的水质预测--以钱塘江为例。环境科学与污染研究26（19），19879-19896。Mohammadpour，Reza等人，2015年。人工湿地水质指标的支持向量机预测。环境科学与污染研究22（8），6208-6219。文尚基吴南春Lee，Kwang S.，2004.水文线与地下水位变动之统计分析以估算地下水之补给量。Journal of Hydrology 292（1-4），198-209.Oelen，Allard，van Aart，Chris J.，De Boer，Victor，2018.在非洲农村地区使用低成本传感器套件测量地表水质量。在：P-ICT 4D @ WebSci。马里兰州Saikat Islam Khan，N. Islam，J.Uddin et al.沙特国王大学学报4781约翰逊？奥拉迪波例如，2021.模糊逻辑与水质指数方法的比较：尼日利亚西南部Ikare社区水质评价实例。环境挑战3，100038。Rahman，Shafkat Shamim，Hossain，Md Mahboob，2019. Gulshan湖，达卡市，孟加拉国，持续污染的开始及其环境影响：文献综述。可持续水资源管理5（2），767-777。Rajaee，Taher，Khani，Salar，Ravansalar，Masoud，2020年。基于人工智能的单一和混合模型预测河流水质：综述。化学计量学与智能实验室系统 200 ，103978。Saghe

下载后可阅读完整内容，剩余1页未读，立即下载