基于深度学习的人工湿地水质预测及多源数据融合方法

188 浏览量更新于2024-01-02 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

环境科学与生态技术13（2023）100207环境研究基于深度学习的人工湿地水质预测杨博文a，肖子杰a，孟庆杰b，袁媛c，王文倩a，王浩宇d，王咏梅a，冯晓驰a，*哈尔滨工业大学（深圳）土木与环境工程学院城市水资源与环境国家重点实验室，广东深圳，518055b深圳市神水水水资源咨询有限公司，广东省深圳市，518022，中国c北京工业大学生物工程学院，北京，10076d南方科技大学环境科学与工程学院地表水-地下水污染综合控制国家环境保护重点实验室，深圳，518055我的天啊N F O文章历史记录：接收日期：2022年5月31日接收日期：2022年2022年9月16日接受保留字：LSTM人工湿地水质预测深度学习多源数据融合A B S T R A C T数据驱动的方法，使人工湿地的出水污染物浓度的及时预测是必不可少的，以提高人工湿地的处理性能。然而，在实际的水质预测中，气象条件和水流变化的影响往往被忽略。为了解决这个问题，在这项研究中，我们提出了一种基于多源数据融合的方法，考虑以下指标：水质指标，水量指标和气象指标。本研究建立了四种有代表性的方法来同时预测实际大规模人工湿地出水中三种代表性污染物的浓度：（1）多元线性回归法;（2）反向传播神经网络法（BPNN）;（3）遗传算法结合BPNN解决局部极小问题;（4）长短期记忆（LSTM）神经网络，考虑过去结果对现在的影响。结果表明，LSTM预测模型的表现明显优于其他基于深度神经网络的模型或线性方法，具有令人满意的R2。此外，针对不同污染物浓度波动较大的特点，采用移动平均法对原始数据进行平滑处理，成功地提高了传统神经网络和混合神经网络的精度。本研究结果表明，将智能和科学的数据预处理方法与深度学习算法相结合的混合建模概念是实际工程中预测水质的可行方法。©2022作者出版社：Elsevier B.V.我代表中国环境科学学会哈尔滨工业大学、中国环境科学研究院。这是一个开放在CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）下访问文章1. 介绍与污水处理厂相比，人工湿地因其建设和运行成本低、处理能力强、生态效益高等优点，在发展中国家被广泛应用于城市水污染的深度净化[1，2]。此外，在全球变暖的背景下，对废水处理提出了新的要求，即减少温室气体（GHG）排放[3，4]。在这种情况下，CWs作为一种低碳和绿色的材料被广泛使用。*通讯作者。哈尔滨工业大学（深圳），中国。电子邮件地址：fengxiaochi@hit.edu.cn（X. Feng）。污水处理方法，以解决各种点源和非点源污染[5]。为了最大限度地提高污水处理效率，有必要及时预测污水处理效率的潜在变化，并调整污水处理系统的运行参数，以保证城市供水系统的安全[6]。因此，基于对CW的先前有效质量数据的优化，建立令人满意的模型来预测未来的突然变化，将为CW的调控提供有效的策略，从而间接地提供控制城市水污染的方法[7e9]。数学模型不仅经常用于模拟CW净化机制，还用于预测有效质量[10，11]。然而，为了预测CW的有效质量，https://doi.org/10.1016/j.ese.2022.1002072666-4984/©2022作者。由Elsevier B.V.代表中国环境科学学会、哈尔滨工业大学、中国环境科学研究院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表环境科学与生态技术期刊主页：www.journals.elsevier.com/environmental-science-and-www.example.comB. 杨，Z.Xiao，Q.Meng等人环境科学与生态技术13（2023）1002072n在数学模型的基础上，不仅要连续监测一系列关键水质指标（五日生化需氧量（BOD5 ）、化学需氧量（ COD ）、氨氮（ NH4-N ）和总磷（TP）），而且要测量湿地植物的吸收和细菌，消耗大量的时间和能量[12，13]。例如[14]，建立了一个物理-数学水质模型，以模拟水平潜流CW中发生的地表和地下潜流之间的相互作用。这一过程不仅需要一系列具体公式来模拟生化过程，而且还需要建立一个水力学模型，这是非常繁琐的。因此，耗时的采样和测量是感知水质和及时调整CW的主要障碍。与此同时，各种数据驱动模型已被用于预测化学武器的净化能力[15]。虽然模型需要许多数据点作为机械或物理模型，但数据驱动方法不需要详细的基础和机械知识。因此，数据驱动模型具有更广泛的应用潜力，并且在预测实际CW的水质方面比数学模型实现更好的预测性能[16，17]。在多种数据驱动的方法中，深度学习因其强大的非线性映射和预测能力、更高的容错性和更好的泛化能力，已成为水文时间序列预测中广泛使用的技术[18]。例如[19]，在废水处理过程中使用基于多目标蚂蚁优化和深度学习算法的新型动态优化控制来优化能耗和有效质量[20]。应用人工神经网络（ANN）模拟CW的滤失率，并得出结论，由于ANN对非线性问题具有出色的回归能力，其模拟效果远优于传统的多元线性回归（MLR）模型或简化的机理模型[21]。采用遗传算法与人工神经网络模型相结合的方法对造纸过程进行模拟和预测进行废水处理。结果表明，深度学习算法和多源数据驱动方法的组合。首先，考虑到影响CW处理能力的多源数据，研究了前一天的数据与次日CW流中污染物浓度的映射关系。然后，我们开发了各种典型的方法来预测三种常规污染物的浓度，并将它们相互比较，以便我们可以确定在大空间尺度上这种复杂环境的最佳模型。最后，针对CWs有效浓度波动性大的特点，提出了数据预处理模块，该模块能够对原始数据进行平滑处理，去除高频噪声，有效提高模型预测精度。该研究为提高水质模型在实际场景中大规模应用的预测精度提供了新的方法和思路。2. 材料和方法2.1. 原始数据在本研究中，我们将资料预处理方法分为两部分：移动平均法与正规化法。移动平均是一种数据平滑方法，能够平滑高频噪声，并使模式比原始模式更明显，以确保模型性能的稳定性[30]。平滑公式如公式（1）所示。由于指标之间的维度差异，在建模过程中忽略了一些指标，并通过对原始数据进行线性变换对原始变量进行归一化（Zhou2020）。例如，如果存在表示j个对象的属性的i个指示符v1，v2，...，vi，则原始数据集如等式（2）所示。“Min“和“max“分别是索引的最小值和最大值。这些值通过最小-最大归一化将索引的原始值vij映射到区间[0，1]中的值v'ij，如等式（3）所示：由于遗传算法具有良好的全局搜索能力，可以大大减少BP神经网络的误差，提高精度，使其成为一种Yt¼XtXt-1Xt-2：Xt-n（一）预测复杂问题的强大工具 [22] 。此外 [23] ，使用长短期记忆（LSTM）模型结合小波域阈值去噪方法来预测湖水中叶绿素A的历史变化，并预测未来的浓度变化。[24]提出了一种综合经验模式分解（EMD）-LSTM模型预测式中，Xt为第t天的有效浓度，Yt为平均后第t天的有效浓度，n为平均天数;0V11 /V1j1结合以EMD为中心的数据预处理模块和LSTM神经网络，Vi×j¼@«1«Vi1/VijA;（2）预测模块，以提高基于模型的检测方法的准确性。这些结果表明，LSTM在多时间步预测问题中表现良好。其中i表示指标的数量，j表示每个指标的属性的数量;到目前为止，深度学习方法的大规模应用V;¼Vm-minVm（三）预测实际垂直对流连续波的有效质量还没有得到系统的研究。以前的应用要么是在实验室的小规模CW中，要么主要集中在基于几个可获得的参数（如温度、流速和溶解氧）预测特定污染物的浓度[25e 29]。然而，考虑到实际条件下水煤浆中高浓度的水具有很强的挥发性，并且在大规模应用中，大量的参数影响水煤浆的处理能力，如温度、降雨量、大气压力和湿度，因此建立一种合适的方法来同时预测多个污染物仍然是一个挑战。因此，我们在这项研究中的目的是模拟和预测大规模CW的有效质量，通过一个mmaxVm-minVm其中V'm表示归一化值，max（Vm）和min（Vm）分别是样本的最大值和最小值。2.2.预测模型2.2.1.多元线性回归在回归分析中，如果使用一个以上的自变量（输入变量xj）通过线性回归预测因变量（输出变量Y），这称为MLR [31]，可以表示为：B. 杨，Z.Xiao，Q.Meng等人环境科学与生态技术13（2023）1002073¼K.X100%-xen FJPY¼k1x1k2x2k3x3：kjxjk0（4）其中k1，k2，每个变量的系数反映了其对预测结果的影响。多重共线性是MLR中常见的问题。当变量间存在较强的共线性时，模型的预测性能下降。因此，有必要计算变量之间的变异系数（VIF）值。每个自变量的VIF值计算如下：VIF11 -R2（五）其中，Rk是自变量xk的负相关系数，用于剩余自变量的回归分析VIF越大，科林的可能性就越大独立变量之间的早期性。因此，必须保证剔除具有高VIF（VIF> 5）的变量，以确保变量最终相互独立。模型[32]。2.2.2.反向传播神经网络如图1a所示，BPNN是具有大量神经元的神经网络。每一层中的所有神经元都是直接连接的因此，BPNN也可以被称为一个完全连接的神经网络BPNN包含输入层、输出层和一系列中间层或隐藏层。每层神经元包含一个或多个神经元。在训练过程中，根据梯度下降来更新BPNN的权重和偏差。BPNN的每个部分都被划分为几个连接神经元层[33]。每个神经元的值为Y¼fn1/1Xi*Wijbj！（六）其中Xi是输入变量，n是当前层中的神经元数量，Wij是神经元与下一层神经元之间的连接的权重，bj是神经元的偏置，*表示两个向量的标量积，f是激活函数。前一层中的神经元都连接到当前层中的每个神经元。sigmoid函数是一种常用的激活函数，其输出值介于0和1之间。具体公式如下：乙状结肠1：（7）反向传播是一种广泛使用的训练算法。同时，BPNN是最基本的神经网络模型。它的输出是向前传播的，而误差是向后传播的. 在返回误差的帮助下，可以更新权重和偏差，最终达到优化模型的目的。对于误差的反向传播，通常使用梯度下降法来更新权重。计算误差函数的所有函数变量的一阶和二阶偏导数以获得梯度下降方向Fig. 1. 深度学习神经网络模型的结构。a、反向传播神经网络（BPNN）。b.遗传算法（GA）。长短期记忆（LSTM）网络模仿生物进化，在所有可能的解决方案中选择最合适的结果。优化过程主要包括通过选择、交叉和变异获得大量，以及选择具有最佳拟合度的个体，如图所示。 1 b.选择：选择过程基于群体中个体的适合性评估：个体越适合，他们产生的后代越多，如等式（8）所示。交叉：交叉是重组两个单独的染色体以创建一个新个体的过程计算过程如公式（9）所示。突变：突变操作随机改变染色体上的一些值以创建新的个体。其计算如公式（10）和（11）所示：F和速度的函数，以确定最快的下降方向，并校正网络的权重和阈值。PI（八）2.2.3.遗传算法-反向传播神经网络在这项研究中，我们采用遗传算法作为优化方法来调整初始BPNN的权重和偏差GA是一个a/akj1-baijbaij1-bakjb（九）.B. 杨，Z.Xiao，Q.Meng等人环境科学与生态技术13（2023）1002074阿伊杰amin-aij*f gr≤0： 5程序2输入门（I）：从输入层输入的信息，t1/2你好。-Gtttta国际法院。a i jj。. aij-a最大值xfgggr>0： 52f g r2*1G（十）（十一）Ft¼f.XtWfHt-1WfhMt-1Wfmbf（15）Mt¼Ft*Mt-1It*tanhouseXtWmHt-1Wmhbm;（16）其中X 表示输入变量;f是激活函数Max其中Pi是个体i的选择概率，fi是个体i的适合度，n是总体中的个体数。ij是第i个个体的第j个基因，kj是第k个个体的第j个基因，min和max分别是基因的上限和下限。G是当前迭代次数，Gmax是最大生成次数，r是区间[0，1]中的随机数。优化过程包括对输入进行编码和解码，创建初始种群，计算拟合度，迭代操作和调整参数。得到第一代后，根据适应度结果从每代中选出最合适的个体，然后通过迭代运算得到新一代，直到达到设定的代数因此，GA-BPNN是一种首先使用GA优化BPNN需要预先设置的权重和偏差，然后使用预先设置的最合适的系数来完成BPNN的训练和测试的方法2.2.4. 长短期记忆（LSTM）LSTM的数据流与其他递归神经网络（RNN）的数据流类似，因为数据流在训练期间使用前向传播通过每个LSTM与其他RNN之间的结构差异是其神经元的结果和功能的差异，这使得它成为一个优秀的解决梯度消失和爆炸的问题[34]，不在该模型中，我们选择S形函数（如等式（7）所示）;Wf、Wi、Wm和Wo分别是遗忘门、输入门、存储器单元状态和输出门中的Xt的权重;Wfh、Wih、Wmh和Woh分别是遗忘门、输入门、存储器单元状态和输出门处的Ht-1的权重;Wfm、Wim和Wom是与存储器单元状态和不同结构之间的连接相关的权重;bf、bi、bc和bo分别是每个结构中的偏置;*表示两个向量的标量积（未给出的其他变量在前面的方程中定义。在LSTM的整个训练过程中使用反向传播算法，并不断优化相关的变量矩阵，以最终确定最佳变量集。在训练和学习过程中梯度爆炸和消失的问题很容易通过LSTM解决[35]。2.3.模型性能评价在这项研究中，我们使用两个性能评价指标：相对均方根误差（RMSE）和决定系数（R2）。RMSE测量观测值与真实值之间的偏差;公式如公式（17）所示。R2通常用于回归模型中，以评估预测值与实际值之间的一致性，其计算如公式（18）所示：vu1X。ﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃΣﬃﬃﬃﬃﬃ法如图 1杯LSTM神经网络的核心方面是它的存储单元RMSE¼tnt1/2yt-YT（十七）形式和栅极结构。存储单元是传播先前数据的一种方式，可以被认为是网络的存储器。栅极结构可大致分为三种类型的栅极：输入门、输出门和遗忘门。每一个门，其中yact是实际值，ypre是预测值;以及Pn. yact-ypre2002¼不不R2¼ 1-t1tt.（十八）存储单元详细描述如下：PNYACT-YACT每个时刻首先通过输入门，输入门确定信息是否被输入到存储单元，如等式（12）所示。输出门（O）：从存储单元输出的信息在每一个时刻都是由这个门决定的，它的计算是如公式（13）和（14）所示。遗忘门（Forget Gate，F）：每次存储单元中的值都将经历一个选择是否被遗忘的过程。如果数据被标记，则存储单元中的值被清除，即被遗忘。计算过程如公式（15）所示。记忆单元（M）：记忆单元中的信息取决于前一时刻的输入和遗忘门。此外，此时，信息通过输出门输入到训练过程中其计算如等式所示第十六条：It¼ fXt WiH tWi mb（12）Ot¼fXtWoHt-1WohMt-1Womb（13）Ht¼Ot*tanhetumMt-1（14）Σ2ΣB. 杨，Z.Xiao，Q.Meng等人环境科学与生态技术13（2023）1002075不其中，yact表示实际值，ypre表示预测值，值，yact表示实际数据值的平均值。2.4. 实验数据本研究中使用的植物数据集来自CW位于中国南方某城市，总建筑面积42,500平方米（31,000平方米为垂直流水线）（如图所示）。 2 a）。每日承接上游龙华污水处理厂一期工程我们每天上午10点取样该数据集包括以下环境指标：气象指标（温度、相对湿度和降雨量）、水量指标（流速）、水质指标（NH_4-N'in f、TPin f、CODin f、S Sinf、PH、BOD_5-inf、NH_4-N'eff、TPeff和CODeff）。我们在下列地点调查和收集气象指标：从当地气象局采样点，而水质指标和水量指标采样和收集的采样点。数据收集的累计天数为186天（从2021年1月28日至2021年8月31日），但是，一些原始数据显示出多样化和不规则的模式，这意味着数据驱动的建模将无法B. 杨，Z.Xiao，Q.Meng等人环境科学与生态技术13（2023）1002076图2. 人工湿地示意图及模型说明。卫星照片。b、预测模型。实现出色的模型性能。我们模型的结构如图所示。 2 b.我们对每种水进行移动平均处理平均指标加上13个环境指标，共提供16个指标，共计2960个指标。表1显示了16个指标的平均值、标准差、最小值和最大值我们将数据集分为两个子集，即训练集（2021年1月29日至2021年7月13日，166天）和测试集（2021年7月14日至2021年8月31日，19天），分别对应90%和10%的训练和测试数据。我们主要使用训练集来训练神经网络中与输入输出模型相关的参数。我们使用测试集来验证模型的性能。在训练集上训练之后，我们使用测试集比较和评估每个模型的性能。2.5. 计算环境我们使用SPSS22.0软件实现了MLR模型。我们在MATLAB 2020 b中使用神经网络优化器、遗传算法优化器和深度学习优化器实现了BPNN、GA-BPNN和LSTM模型。3. 结果和讨论3.1. 原始数据分析通过对大型污水处理厂水质的连续监测，分析了污水处理厂水质变化的基本规律。图 3显示了TP、COD和NH_4-N的浓度以及各指标的去除效率（正文S1）。很明显，在在大多数情况下，水煤浆对污染物有一定的去除效果，但也有无去除效果的情况。造成这一结果的主要原因可能有三个：（1）入湖水体中污染物浓度过低，导致湿地原土中物质的描述，导致西部污染物浓度升高; 例如，TP和NH_4~--N的浓度在水量太低，导致去除率低第145至180天的湿地（2）污水处理厂尾水COD：TP比值过低。例如，在第5天和第40天左右，COD：TP比明显低于100：1，这导致碳源不足，不利于水中磷的去除（3）化学垃圾的除污效率受外界条件如温度及降雨量影响较大。在强降雨期间，水中污染物的浓度受到影响。为使用等式（1）计算有效指标。因此，三个移动这些原因，的有效质量的的CW在实际表116个变量的汇总统计量。指标最大值Min值平均值标准偏差v1温度32.814.425.994.72v2相对湿度1003064.5811.98v3降雨量84.804.013511.82v4气流速度35,44210,57617,372.8164211.12v5NH4eN'inf0.90.0090.15850.1456v6TP inf0.830.0040.094270.073v7COD信息25.310.05315.143.277v8SS inf713.3570.88v9PH7.985.617.210.327v10BOD 5-inf5.60.83.01960.637v11NH4eN'eff0.5460.0060.1210.104v12TP效应0.3250.0120.08890.039v13COD效应220.07613.9353.14v14NH4eN'eff（ma）0.3510.0330,12110.0694V15TP eff（ma）0.2130.02530.0890.0257V16COD eff（ma）17.3936.5813.9031.943B. 杨，Z.Xiao，Q.Meng等人环境科学与生态技术13（2023）1002077图3. 对人工湿地的进水和出水水质参数进行了测定。 a，NH_4-N. b，COD。 c，TP.环境与实验室的特定环境相似，即总体上仍低于排放标准。然而，在数据驱动模型的构建过程中，实际环境中的数据和模型特征的复杂性远高于实验室环境3.2.结构确定和模型结果3.2.1.MLR建模结果对于MLR模型，必须确保变量相互独立，不受多重共线性问题的影响。幸运的是，十个独立变量的VIF值MLR模型中的表均较小，如NH_4~-Ninf和PH分别为1.11和1.07。其余的VIF值在1.18和2.119，也就是都小于5。这表明自变量之间的相关性很小，不存在多重共线性问题。所有结果示于表2中。因此，我们使用第3.2节中描述的两个子集来训练和测试模型，并使用回归分析计算模型的回归系数。MLR建模的详细结果如表3所示。3.2.2.神经网络建模结果在整个训练过程中，两种反向传播算法（BPNN和LSTM）使用神经网络模型。此外，我们使用遗传算法来优化作为第三个网络模型的BPNN的权重和偏差。据我们所知，网络模型的结构是由层数、每层神经元总数和传递函数特性决定的，并且是一个至关重要的表2MLR模型中自变量的多重共线性分析结果输入指示符TempRH降雨流NH4-NinfTP感染CODinfSSinfPHinfBOD5-inf独立X1X2X3X4X5X6X7X8X9X10可变VIF1.181.301.341.171.111.252.121.171.072.09B. 杨，Z.Xiao，Q.Meng等人环境科学与生态技术13（2023）1002078表3MLR模型方程。输出指示器响应变量模型方程NH4-N（ma）NH4-NCOD（ma）CODY-NH4-N'eff（ma）YNH4-N'effYCODeff（ma）YCODeff-0.002x10.001x2-0.001x3-1.904×10-6x4英寸0.184x5英寸0.001x6-0.003x7英寸0.007x8英寸0.018x9英寸0.025x10-0.065-0.002x10.001x2-0.001x3-9.459x10-7x40.253x50.164x6-0.001x70.009x8 0.052x9 0.008x10-0.346-0.079x10.038x20.011x34.994x10-5x4-1.479x50.734x60.448x7-0.077x81.337x9-0.697x10-5.9180.139x10.036x20.003x3 4.222 x 10-5x4-3.669x51.933x6 0.119x70.046x80.214x90.086x103.939TP（ma）TPYTPeff（ma）YTPeff0.000314x1-0.001x20.00046x35.143x10-7x40.009x50.108x60.001x7-0.000359x8-0.002x9-0.001x100.1120.000348x1-0.000482x20.001x36.324× 10-7x40.025x50.274x6-1.138× 10-5x70.001x8-0.001x9 0.001x100.069模型开发的一部分。增加神经元数目可以提高非线性拟合的精度。然而，过于复杂的网络会导致过度拟合并延长训练时间。因此，本研究中所有应用的模型都有一个包含10个神经元的输入层，对应于温度、相对湿度、降雨量，Flo w、NH34-Ninf、TPinf、CO Dinf、S S inf、PHinf和BO D5-inf。输出层由6个神经元组成，分别对应于输出神经元和输出神经元。NH_4-Neff、TPeff、CODeff、NH_4-Neff（ma）、TPeff（ma）和CODeff（ma）的浓度。此外，对于这三个模型，我们进行了在一到四个隐藏层结构上进行实验，其中我们尝试在每个隐藏层中使用3个E30神经元。考虑到训练效率和预测精度，BPNN模型的隐藏层的最佳拓扑结构是三层结构，隐藏层1中有18个神经元，隐藏层2中有14个神经元，隐藏层3中有6个神经元（图S1）。此外，性能最好的GA-BPNN具有三个隐藏层，其中第1层中有16个神经元，第2层中有11个神经元，第3层中有8个神经元（图1和图2）。 S2和S3）。LSTM的最佳结构有三个隐藏层，第1层有17个神经元，第2层有14个神经元，第3层有12个神经元（图1和图2）。S4和S5）。3.3.原始测试集上的预测性能对三个水质指标（CO_D_eff、NH_4-N_eff和TP_eff）的预测值与实测值进行了比较。第四章不同类型的模型预测结果差异很大。 MLR预测值有很大的振荡，其R2值均小于0.32（如图1所示）。 4）。当预测NH_4-Neff时（如图1B所示）， 4 a）的预测值仅为0.225，说明对连续波的有效质量的预测不是一个简单的线性问题。相比之下，BPNN的预测结果结果表明，R2值大于0.7，但仍远不能令人满意。在预测COD有效（如图所示）。 4 b），BPNN低估了峰值COD eff浓度，这导致了平滑的线。BPNN的不一致性表明它与LSTM相比表现不佳。然而，当我们添加GA来优化BPNN时，尽管GA-BPNN无法匹配LSTM的精度，但GA-BPNN仍然达到了0.81的R2如图4所示，使用GA生成的权重和偏差来降低RMSE的预测效果远高于随机生成的权重和偏差生成的神经网络。LSTM在所有指标的预测方面都优于其他模型，特别是在COD eff的预测方面（如图4 b所示），其中LSTM大幅优于其他模型，R 2为0.93。LSTM性能令人满意的原因可能是它可以考虑过去结果对现在的影响，这在时间序列问题中起着重要作用。3.4.移动平均线对预测性能对搬迁后的三个水质指标（CO_D_（eff（ma））、NH_4-N）的eff（ma）和TPeff（ma））在图5中示出。在我们使用移动平均法后，处理后的数据比原始数据平滑得多。我们使用处理后的数据重新创建了新的模型，每个模型的准确性都大大提高了。在四种模型中，采用移动平均法时GA-BPNN的改进最为显著，三类水质指标的R2均接近0.9，甚至更高。相比之下，LSTM的准确性也有所提高;然而，幅度的增加并不像其他型号。仅在NH_4-Neff（ma）的预测中，R2与原始数据相比增加了0.013（如图11所示）。图4a和5a）。我们推测，移动平均法的应用使除LSTM之外的其他三个模型能够考虑过去结果的影响，从而消除高频误差，从而提高准确性。3.5.模型的比较通过比较RMSE和R2（如图6所示），我们可以更直观地识别四种模型的可预测性的强度。对于原始数据集，基于MLR模型，BP模型的RMSE大大降低，CODeff，TPeff，NH+4-N有效预测值提高了49.1%，47.2%，43.2%。这表明传统的机器学习可以比线性方法更好地解决多元回归问题，因为机器学习可以适应更复杂的函数并实现更高的准确性。然而，由于可能存在的局部极小值问题的影响，仅用BP神经网络得到的预测结果的精度仍然不能令人满意。经过遗传算法优化后，各模型的均方根误差进一步降低，三个预测因子的R2分别提高了8.55%、6.4%和7.31%。其原因是我们优化了网络的权重和偏差，目的是降低预测结果的RMSE。与GA-BPNN相比，LSTM的RMSE下降幅度更大，每个指标的R2这是因为水质数据是复杂的时间序列数据，LSTM考虑了过去结果对现在的影响，从而实现更高的预测精度。最后，我们使用移动平均法对原始数据进行处理后GA-BPNN的改进效果最显著，R2平均提高了8%以上，而LSTM的R2仅为2%。我们假设这是因为我们在平滑过程中平均了三天的数据，将之前的影响转移到了其他模型中;然而，LSTM考虑了之前数据的影响，因此实现了无意义的改进。3.6.未来前景在未来，我们将尝试开发RNN的混合算法此外，神经网络的预测效果也较好，B. 杨，Z.Xiao，Q.Meng等人环境科学与生态技术13（2023）1002079图第四章将MLR模型、BPNN模型、GA-BPNN模型和LSTM模型预测的3种水质指标与实测结果及其对应的R2值进行比较。 aeb，NH 4 -Neff的散点图（a）和线图（b）。 ced，CO Def f的散点图（c）和线图（d）。 eef，T P eff的散点图（e）和线图（f）。与输入数据量相关性高，但数据量过高会导致人力物力的大量消耗。因此，在不影响模型预测效果的前提下，我们也会尝试减少使用的数据量。此外，我们将进一步改善化学废物的预测模型，以分析温室气体排放。及时预测碳排放量或对CW的吸收对于帮助整个城市系统实现碳中和以及进一步提高城市水环境的智能化管理具有重要意义。4. 结论深度学习网络成功预测了大规模CW的次日有效质量，并揭示了收集的多源数据集与有效质量之间的映射关系。通过比较四种模型对（1）在实际大规模应用中，可以针对波动较大的原始数据，采用滑动平均法去除高频噪声，并对数据进行平滑处理，提高预测效果。（2）与MLR、后向反馈神经网络和基于GA优化的神经网络相比，可以考虑先前训练结果的深度学习神经网络（LSTM）（3）通过收集大量简单易获取的水质指标，可以快速建立深度学习网络，预测真实场景下的水质LSTM神经网络可以解决在CW建模中进行微型实验以获得各种参数所随着城市生活污水处理方法的广泛应用，城市生活污水处理厂出水水质的预测B. 杨，Z.Xiao，Q.Meng等人环境科学与生态技术13（2023）10020710图5. 将MLR模型、BPNN模型、GA-BPNN模型和LSTM模型预测的3个水质指标移动平均后与实测结果及其相应的R2值进行比较。 aeb，NH_4-Neff（ma）的散点图（a）和线图（b）。ced，CO D eff（ma）的散点图（c）和线图（d）。 eef，TP eff（ma）的散点图（e）和线图（f）。图第六章MLR、BPNN、GA-BPNN和LSTM模型的准确性评估。 a，R2c，m。 b、RMSE比较。 c，具有更多细节的NH_4-N和TP的RMSE比较。B. 杨，Z.Xiao，Q.Meng等人环境科学与生态技术13（2023）10020711同时也为解决城市面源污染提供了可行的依据。竞争利益作者声明，他们没有已知的竞争性经济利益或个人关系，可能会影响本文报告的工作。确认本研究得到了国家自然科学基金（No.5190816152100044&）、广东省基础与应用基础研究基金（No.52100044）的资助（编号：2019A1515010807），城市水资源与环境国家重点实验室（哈尔滨工业大学）（ 2021 TS 30 ）和深圳市科技计划（编号： KQTD20190929172630447 、 KCXFZ20211020163404007 、 GXWD20201230155427003 - 20200824100026001）。附录A. 补充数据本文的补充数据可以在https://doi.org/10.1016/j.ese.2022.100207上找到。引用[1] J.L. Han，Z.N. Yang，H. Wang，H.Y. Zhong，L.等，中国山杨D. Xu，S.于湖，加-地高，水解酸化耦合人工湿地微生物燃料电池组合系统降解生活污水中的污染物，J. Clean.Prod. 319（2021），https://doi.org/10.1016/j.jcliepro.2021.128650。[2] D. Li ， Z.Chu ， M.Huang ， B.Zheng， Multiphasic assessment of effects ofdesign configuration on nutrient removal in storage multi-pond artificialwetlands，Biologyour.Technol.290（2019），https://doi.org/10.1016/j.biortech.2019.121748。[3] A.德尔湾滕赫夫角Scheutz，Scandi- navian废水处理厂的特定地点碳足迹，使用生命周期评估方法， J. Clean 。 Prod. 211 （ 2019 ） 1001e 1014 ，https://doi.org/10.1016/j.jclepro.2018.11.200。[4] H.- T.施，X。- C. 冯，Z.- J. Xiao，W.- Q. 王玉- M. Wang，X. 张玉- J. Xu，N.-Q. Ren，从底物代谢、电子转移和铁获取的角度分析b-环糊精增强生物降解，Chem.Eng. J. 446（2022），137358，https://doi.org/10.1016/j.cej.2022.137358。[5] Y. Liang，H. Zhu，G.巴努埃洛斯湾Yan，B.舒特斯，X。Cheng，X. Chen，使用人工湿地去除含盐废水中的营养物质：植物物种，在污染负荷和盐度水平中作为污染因子，Chemosphere187（2017）52e61，https://doi.org/10.1016/j.chemosphere.2017.08.087。[6] W.S. Birch，M. Drescher，J. Pittman，R.C. Rooney，城市化环境中湿地转化的趋势和预测因子， J 。经理。310（ 2022 ） 114723 ，https://doi.org/10.1016/j.jenvman.2022.114723。[7] J. B.J. Wittgren，水文和水力条件如何影响池塘性能，生态工程21（4-5）（2003）259e 269，https://doi.org/10.1016/j.ecoleng.2003.12.004。[8] T.- M. Su，S.- C.杨，S.- S.施，H.- Y. Lee，自由水面人工湿地水力效率性能的优化设计，生态工程 35 （ 8 ）（ 2009 ） 1200e1207 ，https://doi.org/10.1016/j.ecoleng.2009.03.024。[9] X. Wang，F. Zhang， J. Ding，H.- t. Kung ，黄毛菊 A. V.C. 巴夫 Johnson，基于Bootstrap-BP神经网络模型和最优光谱指数的艾比湖湿地国家级自然保护区土壤盐分含量估算，Sci.TotalEnviron615（2018）918e930，doi.org/10.1016/j.scitotenv.2017.10.025.[10] H. Wang，中国山杨D. Xu，J. Han，R. Xu，L. Han，亚表层潜流人工湿地中微生物群落结构的重塑提高水温：耦合水源热泵提高低温性能，Sci. Total Environ 781（2021），doi.org/10.1016/j.scitotenv.2021.146798.[11] J. Zhang，H.太阳，W。Wang， Z. Hu，X. Yin，N. Huu Hao，W.郭军，范文，季节性植物配置对人工湿地低温性能的影响，生物多样性。Technol.224（2017）222 e228，https://doi.org/10.1016/j.biortech.2016.11.006。[12] A.N. Ahmed，F. B.奥斯曼，H.A.Afan，R.K.Ibrahim，C.M.辉，M.S.侯赛因，M. Ehteram ， A. Elshafie ， Machine learning methods for better waterquality prediction，J. Hydrol. 578（2019），https://doi.org/10.1016/j.jhydrol.2019.124084。[13] M. Hameed，S.S. Sharqi，Z.M. Yaseen，H.A. Afan，A. Hussain，A. Elshafie，人工智能（AI）技术在水质指数预测中的应用：马来西亚热带地区的案例研究，神经计算。28（2017）S893和S905，https://doi.org/10.1007/s00521-016-2404-7。[14] R. Samso，J. Garci

下载后可阅读完整内容，剩余1页未读，立即下载