没有合适的资源?快使用搜索试试~ 我知道了~
多参数、多地点水质监测技术及应用
环境科学与生态技术14(2023)100231环境研究利用多参数、多地点水质监测李梓琳a,b,刘海兴a,*,张驰a,付光涛ba大连理工大学水利工程学院,辽宁大连116024b英国埃克塞特大学水系统中心,埃克塞特,EX4 4QF我的天啊N F O文章历史记录:2022年9月13日收到2022年12月6日2022年12月6日接受保留字:污染检测生成对抗网络多站点时间序列数据供水系统水质A B S T R A C T配水管网(WDN)中的污染事件可能对供水和公共健康产生巨大影响;越来越多的在线水质传感器被部署用于实时检测污染事件。机器学习已被用于整合多个监测站的多变量时间序列水质数据进行污染检测;然而,准确提取水质信号中的空间特征仍然具有挑战性。提出了一种基于生成对抗网络(GANs)的污染检测方法。建立了GAN模型,模拟考虑了传感器位置与水质指标时间信息之间的空间相关性。该模型由两个网络d生成器和一个神经网络d的输出被用来衡量水质数据的异常程度在每个时间步,称为异常得分。贝叶斯序贯分析用于根据异常分数更新事件发生的可能性。然后,从单站点和多站点模型的融合中生成警报。所提出的方法进行了测试,对WDN的各种污染事件具有不同的特点。结果表明,高检测性能的建议GAN方法相比,最小体积椭球基准方法的各种污染幅度。此外,GAN方法对于具有不同振幅和异常水质参数数量的各种污染事件以及来自不同传感器站的水质数据实现了高精度,突出了其对实时污染事件的实际应用的鲁棒性和潜力。©2022作者出版社:Elsevier B.V.我代表中国环境科学学会哈 尔 滨 工 业 大 学 、 中 国 环 境 科 学 研 究 院 这 是 一 篇 基 于 CC BY-NC-ND 许 可 证 的 开 放 获 取 文 章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍配水管网(WDN)是向居民和商业客户安全可靠地输送淡水的关键基础设施[1,2]。然而,特别是在发展中国家,WDN管理中的一个固有挑战是由于老化的管道、缺乏操作和维护管理以及施工质量差而发生污染事件[3,4]。当WDN中发生污染事故时,除非检测到并及时启动响应,否则受污染的水可以在整个网络中快速传播这些事件不仅*通讯作者。电子邮件地址:hliu@dlut.edu.cn(H. Liu).中断供水并可能造成巨大的经济损失,但也会导致环境破坏和公共卫生问题[5]。实例包括2010年3月在湖北(中国)发生的事件,其中含有亚硝酸钠的水意外地被吸回WDN,影响了400多人,以及2012年5月和12月在浙江(中国)报告的污染事件,其中上游工业的化学排放物在WDN内造成持续气味,影响了200多万居民[5]。因此,快速准确地检测WDN污染可以促进采取补救措施,从而减少与污染事件相关的经济损失[6,7]。可以分析从传感器接收的水质信号以检测污染事件[8,9]。随着无线网络和在线传感器的发展,多参数https://doi.org/10.1016/j.ese.2022.1002312666-4984/©2022作者。由Elsevier B.V.代表中国环境科学学会、哈尔滨工业大学、中国环境科学研究院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表环境科学与生态技术期刊主页:www.journals.elsevier.com/environmental-science-and-www.example.comZ. Li,H.Liu,C.Zhang等人环境科学与生态技术14(2023)1002312可以低成本和近实时地获得水质数据[10]。然而,单个参数通常用作污染事件的替代指标[11,12]。此外,异常的准确检测通常会受到传感器故障、信号传输异常和导致整体检测精度低的许多其他因素的几个早期的实验研究[13e16]调查了对各种污染入侵的反应(例如,农药,除草剂,细菌和无机化学品)的多个水质参数,包括电导率,总有机碳(TOC),游离氯,氯化物,氧化还原电位,氨和硝酸盐。他们发表的结果表明,不同污染物的入侵会引起水质指标的不同响应,并导致多个参数的同步变化为了提高检测污染事件的方法的性能,最近的工作集中在使用多参数融合算法来检测异常水质[17,18]。在最近的研究中,由六个水质参数表示的时间序列水质数据(即,总氯、pH值、电导率(EC)、温度、TOC和浊度)进行分析,以提供污染事件的融合异常警报[19e23]。这样的多参数融合算法通常表示来自个体参数的异常结果的简单融合此外,WDN的时空范围很大,并且现有的异常检测方法大多仅针对有限数量的监测站执行,并且它们排除了某些因素,例如水源、操作水力变化、水箱水位以及长期和径向混合,这可能导致水质参数的非常高的变化性[24]。小罗尔等人 [25]发现,使用来自多个站点的传感器数据的异常检测模型可以降低假阳性/阴性率,并克服单站点事件检测模型的一些缺点,例如缺乏对多个站点之间的水力条件和传感器数据相关性的考虑。因此,使用来自多个站点的多变量水质数据对于准确检测污染事件至关重要。污染事件检测方法可以大致分为统计、基于水力模型和基于机器学习的方法。在统计方法中,污染事件检测的确定通常基于水质参数数据的分布[7,13,26]。然而,由于水质的非线性和非平稳特性,统计方法通常不适合检测WDN中的微小异常变化[21]。基于水力模型的方法通过比较观察到的实时数据与使用水质和水力网络模型的预测值来检测污染事件[27e29]。水力模型需要校准以正确模拟WDN的行为然而,由于网络拓扑结构的复杂性和数据限制,在实践中很难实现适当的校准,特别是对于机器学习方法被认为是预测水质参数的实时数据各种机器学习算法已被应用于WDN中的污染事件检测,例如人工神经网络[10,27,30],支持向量机[31,32],集成堆叠模型[21]和长短期记忆[33]。这些模型可以捕捉水质时间序列数据的特征,基于测试使用数据库编译从单站点传感器的输出然而,这些模型没有利用多站点传感器数据的空间关系,并且当监测站在正常运行期间经历高水力变化时,它们可以增加误报率当污染事件发生时,它通常会导致监测的水质波动,传感器在多个站点,并且传感器在不同站点的响应时间不同。因此,研究多点多传感器信息的时空分布规律,对于提高污染事件的预测精度和识别性能具有重要意义。目前,大多数多站点检测方法使用一些半监督[19]或无监督[34]单站点方法来独立地分析来自每个站点的时间序列数据,然后评估上下游水质数据的空间相似性以检测污染事件。水力和水质模拟用于多站点传感器数据生成[35,36]或纳入空间分布传感器的整体事件检测过程[27]。 对于从多个传感器站进行的空间分析测量,必须事先知道接收污染水的时间间隔。虽然多站点异常检测是提高检测性能的一种有前途的方法,但实际应用受到精确的水力和水质模型的要求的限制。最近,生成对抗网络(GAN)被提出作为一种新的框架,用于估计生成模型以学习给定数据的潜在空间分布[37],这允许进一步探索来自多个站点的多个传感器的信息的时空分布模式,以进行异常检测。基于GAN的异常检测方法由于能够模拟图像的复杂高维分布而在图像识别中占据主导地位[38e41]。此外,近年来,GAN也被用于时间序列异常检测[42e45]。深度学习神经网络,如卷积神经网络,可以插入到GAN框架中,用于输入数据的特征提取以往的研究表明,多组时间序列数据的变化往往是同步的,而在一个WDN中,多个站点的水质数据变化的时间存在滞后性因此,需要建立一个能够学习多站点传感器数据时空分布模式的GAN模型来识别污染事件。在这里,我们提出了一种新的基于GAN的多变量多站点污染事件检测方法,可以有效地捕捉时空模式的水质数据。主要贡献可归纳如下。提出了一种求和图像变换方法,将不同站点的多个数据流按一定的时间步长进行变换,将多个站点的多变量水质数据合并起来进行卷积计算。提出了一种新的基于GAN的模型,该模型由生成器和卷积器组成,用于分析时间序列数据的时间相关性和使用卷积滤波器的多个变量之间的相关性,并计算每个时间步的异常得分。引入贝叶斯序贯分析,在对异常进行分类后,分别更新单个和多个站点的事件概率,并将异常评分融合生成异常事件报警。使用真实的WDN数据评估所提出的基于GAN的污染事件检测方法的性能,并与多变量无监督方法的性能进行比较;即基于最小体积椭球(MVE)的事件检测模型[34]。2. 方法基于污染事件的发生导致水质在WDN上的多个感测点处改变的假设,Z. Li,H.Liu,C.Zhang等人环境科学与生态技术14(2023)1002313¼¼×ð Þ ð ÞGF污染事件是基于GAN开发的。基于GAN的污染事件检测方法包括三个步骤:(1)数据转换:将来自单个站点和多个站点的水质参数的时间序列数据转换为图像;(2)离群值识别:基于GAN计算的异常分数识别正常和异常条件;以及(3)事件分类:使用贝叶斯序贯分析更新事件发生概率,单个传感器站和包含所有传感器数据的附加组。本地和空间事件分类的数据转换过程是一致的。水质参数的数据是在不同的单元中测量的。为了在同一尺度上绘制不同的水质参数,使用z分数方法进行输入参数的归一化:通过融合单站点和多站点事件的警报进行分类X轴xi;jt-mi;j(一)分类。这些步骤在图1中更详细地描述。i;j Þ¼si;j2.1. 数据转换空间事件分类需要从多个传感器站收集水质数据。假定水质传感器站的位置已事先确定;否则,可使用最佳传感器位置方法来解决此问题[46,47]。污染物可能通过多条水流路径在网络中传播,这意味着到达不同站点所需的时间将不同。因此,网络内的相邻站被分组在一起用于事件检测。所提出的基于GAN的方法结合了局部事件分类和空间事件分类的结果。局部事件分类和空间事件分类之间的区别在于使用数据集。局部事件分类应用于每个传感器站的数据集,而空间事件分类应用于所有传感器的数据集。因此,所选择的N个传感器站被分成N^1组;也就是说,N个组各自包含来自一个传感器站的数据Fig. 1. 拟议的基于GAN的空间污染事件检测方法示意图。其中,Xi;jt和Xi;jt分别是在时间步长t处的传感器站j处的水质参数i的归一化数据和原始数据,并且mi;j和si;j分别是从训练数据集获得的传感器站j处的水质参数i摘要求和图像变换是将多变量时间序列数据在每个时间步长上叠加,从而得到图像的方法。假设每个传感器站测量Nr个水质参数。然后,对于每个时间步长,可以从分析的N个传感器站获得水质参数的V归一化数据(V Nr N),并将其转换成求和图像。当N1时,求和图像变换用于局部事件分类。如果X是表示水质数据的长度为V的列向量,则m t可以是用于事件分类的时间步长t处的求和图像,其可以定义如下:mt<$X×I0I×X0;mt2RV×V( 2)其中0是转置,I表示大小为V的列向量,每个元素都等于1。为了减少噪声的影响,每个时刻的总和图像在前一时刻上被平均d时间步长。该变换通过叠加各变量的信号,将水质参数与传感器站之间的关系编码为空间信息在污染期间,可以利用不同传感器站之间的水质信号叠加来放大异常趋势此外,噪声被时间轴上的平均过程洗掉,使得该方法在某些点处对脉冲噪声具有鲁棒性。2.2.异常识别2.2.1.GAN模型GAN模型是使用深度学习方法(如卷积神经网络)构建的生成建模,广泛用于图像处理任务。标准的GAN模型由两个网络组成:生成器和节点。生成器(G)被训练以学习从若干历史求和图像到当前预期求和图像的映射,其中k表示在当前时间步长t之前考虑的先前图像的数量。在训练过程中只使用正态数据来学习正态分布的潜在向量空间该图像(D)的目的是将所生成的图像与实际的正常图像区分开。考虑非平稳水质量特征,通过与历史总和图像mt-k;mt-k1;:;mt-1的比较,确定当前水质状况,认为其代表背景水质。因此,求和图像的历史系列被用作参考信息,D可以针对该参考信息来识别生成和实际正常图像。图2中所示的所提出的GAN模型的架构是CycleGAN架构的修改[39,48],其实现了Z. Li,H.Liu,C.Zhang等人环境科学与生态技术14(2023)1002314BBBð Þb½吉吉tt1~B~Bb~t令人信服的结果在图像到图像的翻译。G由一个压缩编码器和一个扩展解码器组成,它使用sym-用实和象作为D;Em~2的输入,PM~ 是测量长跳跃连接作为特征连接的一种手段,以恢复预测过程中的细粒度细节G使用历史求和图像fmt-k;mt-k1;:;mt-1g并输出当前重构的求和图像mt. D由一个常规的下采样卷积网络组成,并输出一个向量D●,对给定图像序列的真实性进行历史求和图像fmt-k;mt-k1;:;mt-1g与当前测量的mt(真实的)或重建的mt(估计的)求和图像作为D.对于G和D,在网络的顶部采用逐点卷积层来从求和图像序列中捕获时间信息而不改变图像的大小,然后使用常规卷积层来提取多变量水质参数的空间信息。卷积块注意力模块(CBAM)[49] d的注意力机制用于卷积神经网络,通过关注重要特征和抑制不必要的信息来提高卷积神经网络的表示能力。在每个卷积运算之后,卷积特征被馈送到CBAM中,以使用通道和空间注意力模块突出重要特征,并输出细化的卷积特征。在生成器网络中没有使用CBAM,因为G中的自动编码器和跳过连接结构有助于生成器进行特征学习,并且添加CBAM只会使网络复杂化。采用改进的Wasserstein GAN损失[50,51]作为对抗性损失以稳定训练过程:当随机插值相同时的数学期望将m~t作为D的输入;VDm~ t是等式(4)中插值求和图像的梯度n t; ε在区间[0,1]中均匀随机生成; lGP是梯度惩罚项的系数,在[ 51 ]中设置为10。G被训练产生图像,通过最小化对抗损失来欺骗D此外,采用LG作为生成图像和真实图像之间的重建损失,以帮助G学习训练数据的正态分布重建损失的定义如下:LG1/4Ekm-mk1( 5)在GAN模型中,G和D网络同时训练和更新。模型训练的最终目标不是最小化任何单个网络的损失,而是找到一个稳定的状态,使G和D的损失收敛。2.2.2.基于GAN的异常评分只有在正常条件下收集的训练数据才用于训练GAN模型。因此,当测试数据与训练数据集中的正常数据相似时,经过良好训练的生成器应该理想地生成图像,该图像几乎不能与真实图像当测试数据集偏离正态数据分布时,生成图像和真实图像的重建损失将增加,并且重建器将能够更容易地区分生成图像和真实图像。因此,训练的G和D都被用来使用基于以下的异常分数来检测测试数据集中的异常:LD¼E mb~Pg Dm]-Em~Pr½D[m]嗯~PM~H. kVDm~k2-12号(三)G中的重建损失和D中的特征损失。t时基于GAN的异常分数j定义如下:我不知道你在说什么。我是D。(6)m1-m2(4)其中,Pg表示由G生成的求和图像的概率分布;Pr表示真实求和图像s的概率分布;Pm表示概率分布。公式(4)中的插值求和图像的分布;是由D输出的特征向量;Em~Pg/2Dm]是当由G生成的求和图像用作D的输入时的数学期望;Em~Pr/2Dm]是当图2. 所提出的GAN模型的架构。其中Is是调节重建损失和特征损失对异常分数的相对重要性的加权参数。这里,发电机和发电机被认为是同等重要的,因此ls被设置为0.5。2.2.3.异常检测基于GAN的异常得分可以衡量水质数据在每个时间步的异常程度。在正常状态下,异常评分接近0。理想情况下,在训练过程中计算的所有异常分数都应该限制在一个小的区间内,因为训练数据集是在正常操作条件下获得的。然而,由于原始数据没有被清理,并且模型可能没有得到很好的训练,因此会有一些计算出的异常分数相对较大的时刻因此,根据计算的异常分数设置阈值以分类正常条件和异常值是重要的。大多数以前的相关研究[22,34,36]采用经验预定值作为分类阈值,包括大多数(例如,95%或99%)的计算出的异常分数。此外,标准偏差的三倍值通常用作阈值[13]。然而,这些方法难以应用,因为正常操作数据集中的离群值数量是随机的,并且异常评分不呈现正态分布。 考虑到异常时计算的异常评分与正常时相比有实质性的跳跃 , 提 出 了 一 种 序 贯 递 增 比 较 法 来 选 择 异常识别的 阈 值 。 设G<$fj<$1<$;j<$2<$;:;j<$T<$g是一个集合,Z. Li,H.Liu,C.Zhang等人环境科学与生态技术14(2023)1002315公司简介¼产品名称:100-TPR¼训练数据集的异常分数。 我们在这个集合中从最小到最大排列异常分数,以获得一个新的集合:G排序j1;j2;:;jT (j 1)J2;:::;jT)。在正常时间和异常时间之间的分界点处,相对增量有很大的增加因此,阈值是基于连续增量:Pt¼aPt1-aPt( 9)其中平滑参数确定给予最近更新的事件概率的重要性。由于水质参数Dji-ji-1我(七)与常规操作或传感器故障相关的ji-1其中Di是相对增量。首先描绘增量阈值Dthre,而不是直接描绘离群值阈值。将G排序中的异常分数计算的增量与Dthre进行比较。假设Dj是第一个增量,如果大于Dthre,则将jj-1设置为异常分数分类阈值jthre.当计算出的异常分数超过预设阈值j thre时,识别出离群值。因为一个小的异常分数表明时间点cor.响应于正常状态,不需要从开始执行增量比较在本研究中,从G分类中第80百分位异常评分j80%开始进行增量比较(训练数据集中80%的异常评分低于j80%)。2.3.事件检测2.3.1.事件发生可能性计算污染事件检测应与离群值识别区分开来。在正常运行过程中,由于外部电磁信号感染、数据传输故障等技术故障,水质监测数据时间序列中会产生临时异常值事件发生的可能性随着一系列异常值的出现而不断加强贝叶斯序贯规则[19]用于根据离群值分类的结果更新事件P(t8>TPR×Pt-1 ;如果jt是离群值不通过平滑处理。a的值越小,将需要对事件概率的变化做出反应,并且将需要更多的异常来将事件概率更新到警报阈值。 这里,平滑参数被设置为遵循Ref.[21].2.3.2.多告警融合基于GAN的污染事件检测模型分别应用于一组单站点和多站点测量。单站模型能更好地反映各站水质参数随时间的变化规律,而多站模型能更好地反映多站水质参数的时空变化规律在每个时间步,单站点和多站点污染事件检测模型都可以提供单变量事件概率。为了充分利用传感器站之间和传感器站内的水质关系,将由单站点和多站点模型计算的事件概率进行融合,以提供组合事件概率,该组合事件概率反映基于来自所有分析站点的多变量水质参数的污染事件的可能性通常,必须给单点和多点模型分配不同的权重,以反映它们对同步决策的相对影响。在这里,单站点和多站点模型是无监督的模型,它们事先没有污染信息;因此,使用统一的权重来反映先验信息的缺乏。当从单站点和多站点模型计算的任何事件概率超过预设阈值时,启动最终警报。2.4.用于比较的P¼TPR×Pt-1FPR× P1-Pt-1>(八)由Oliker和Ostfeld提出的MVE分类模型[34]作为比较基准模型。 这是一个:>t-1;否则多元无监督方法的结合了MVE1-TPR其中TPR是真阳性率,计算为被正确分类为异常的时间步长数与WDN受到污染的时间步长总数的比值。这里,假定没有关于污染事件的先验信息可用,TPR被设置为0.5FPR是假阳性率,计算为被错误分类为异常的时间步数与WDN处于正常状态的时间步总数的比率;因此,它相当于超过阈值的异常分数与训练数据集大小的比率Pt是时间t的事件概率。最初,污染事件的先验概率P0被设置为小值(例如,P010-5),因为污染事件很少。当计算的概率超过特定阈值P thre时,启动事件警报。高阈值可以提高事件警报的可靠性并减少误报的数量。这里,阈值概率被设置为Pthre0: 8。WDN的常规运行水力变化可能导致水质参数的短期高变异性[23,27]。为了区分正常背景变异性与污染事件,使用简单的指数平滑模型[52]对计算的概率进行平滑,该模型考虑了前一个时间步长的影响:分类器进行离群值识别,随后执行利用MVE二进制输出进行事件分类的序列分析。基于MVE的检测模型已应用于单站点[34,53]和多站点模型[35,36],因为它具有高准确性和检测能力,并且因为模型构建和训练不需要关于污染事件的信息。对于每个传感器站,MVE分类器可以同时分析水质参数。它是通过寻找最小的椭球,包括99%的时间序列数据的水质参数的训练数据集。椭球体尺寸对应于监测的水质参数的数量。分类器仅利用在正常操作条件下获得的数据来构建椭圆体。使用Khachiyan算法[54]通过迭代构造一系列递减的椭圆体直到满足最小边界来找到椭圆体。找到椭球参数后,如果新的测量值位于椭球内部(外部),则可以将其归类为正常(异常)。事件分类基于序列分析,因为一连串异常值代表事件发生的更强证据。序列分析使用比例计算污染事件的发生概率,Z. Li,H.Liu,C.Zhang等人环境科学与生态技术14(2023)1002316¼ ×¼P1i滑动窗口中离群值的连续性。分析序列长度为25 min测量,计算公式和参数在参考文献[34]中有全面描述。当计算的概率超过预定的事件阈值时,将触发警报。这里,事件阈值被设置为0.8,其高于参考文献[34]中的值(0.6),因为较高的事件阈值可以减少误报警的数量基于MVE的污染事件检测方法独立地应用于每个传感器站的测量数据集。当任何传感器站的计算概率超过预定阈值时,触发最终警报2.5.绩效评价采用四个指标来评价检测方法的性能:(1)虚警数,(2)事件检测率,(3)F1分数,(4)平均检测时间。虚警数表示正常情况下触发的报警数;虚警数越少意味着模型越可靠。事件检测率计算如下:pW事件检测率¼中文(简体)其中p是污染事件的数量,wi表示第i个污染事件的检测(由1表示)或未检测(由0表示)。事件检测率是根据事件级别而不是时间步长级别计算的(对于一个检测到的污染事件,即使多个时间步长发出警报,警报也只计数一次)。F1评分可以解释为精确度和召回率的调和平均值,其计算方法如下:3. 为例所提出的基于GAN的污染事件检测方法被应用于中国的一个典型的真实世界WDN案例研究:盐田网络(YTN)(图10)。 3)。YTN有两个水源(S1和S2):952个需求节点和1175个管道。总的来说,在YTN部署了33个水质传感器站。重力给水S1供水的平均需求是36,000 m3 d-1。S1的总水头为59.02 ~ 61.62m,净出口流量为238 ~ 660L·s-1。S2有两个出口,它在重力和压力的作用下供水。总平均需求量为42,000m3 d-1。S2压力式出口的总水头范围为76.99 ~ 89.03 m,净出口流量范围为27 ~ 245 L s-1。S2的重力式出口的总水头范围为54.03 ~55.44 m,净出口流量范围为104 ~ 539 L s-1。YTN有一个24小时的需求模式,与需求间隔为5分钟。3.1. 水质模拟理想情况下,污染事件检测方法的性能应基于真实的污染事件进行评估。然而,由于缺乏记录的污染事件在WDN中,模拟数据通常用于模型训练和性能评估。在本案例研究中,两个水源(S1和S2)的水质数据集包括6个水质参数,时间步长为5分钟。监测的水质参数为总氯、pH、EC、TOC、温度和浊度。EPANET模型[55]用于水力模拟,多物种扩展[56]用于模拟复杂的水质反应,并为网络的所有节点生成空间水质数据库EPANET输入文件包含网络拓扑、初始压头、需求模式、泵和阀曲线以及操作规则。多物种扩展的主要输入包括一组平衡和F12查准率×查全率查全率TP(十一)常微分方程的质量参数和碳酸盐体系和游离氯对pH值的影响。氯由一级衰变表示,速率常数K为1(d-1),而pH由一系列平衡方程表示,精密度¼TP精密度FP( 12)召回TP(13)TPFFN其中TP表示真阳性(归类为异常的实际污染事件的观测值数量),FN表示假阴性(归类为正常事件的污染事件的观测值数量),FP表示假阳性(归类为异常的正常事件的观测值数量),精度是正确归类为污染下的时间步数与分类为污染下的时间步总数的比率,召回率是正确归类为污染下的时间步数与WDN污染期间的时间步总数的比率。这个分数范围从0到1,1是最好的分数。平均检测时间是在一些实施例中,污染检测模型用于成功地检测污染事件,并且不考虑未检测到的污染事件对于每个检测到的污染事件,检测时间定义为从污染事件开始到首次识别污染的时间。与氯和碳酸盐有关的问题[27,57]。其他水质参数(除氯和pH值)被认为是保守的成分。描述反应动力学的水质模型的主要方程可以表示如下:图三. 真实世界WDN案例研究(盐田网络)。Z. Li,H.Liu,C.Zhang等人环境科学与生态技术14(2023)1002317DTDT¼¼×d1/2二氢卟酚e]14-K×1/2氯]( 14)d1/2碱度]1/4-K×1/2碱度]( 15)半碱度]半OH-]半HCO3-]半2×半CO3-]-半HO]( 16)其中碱度(mgL-1,以CaCO3计)被设定为恒定值(例如,260 mg L-1(以CaCO3计)。污染事件是通过向正常数据集添加随机干扰而人为生成的,与大多数其他相关研究中的方法相同[19,21,22]。通过考虑振幅、持续时间、方向(例如,水质参数值的增加或减少),以及受影响的水质参数的数量通过将振幅乘以常规操作期间水质参数的标准偏差来计算扰动的峰值(在本案例研究中,TOC:0.93 ppb,pH:0.20,EC:49.52 mS cm-1,温度:1.15℃,总氯:0.15 mg L-1,和浊度:0.84NTU)。受污染的水质参数是从每个污染事件的6个水质参数中随机选择的在S1附近进行随机事件生成过程,以确保大多数传感器站可以接收污染水。每个产生的污染事件持续10小时,至少有一个水质参数受到影响,并与正常模式的偏差为每个水质参数的随机样本范围在1.0和3.0之间的事件振幅。每个受影响的水质参数的偏差方向是随机选择的每个事件。参考文献[21]描述了污染事件的产生。每次污染事件之间的间隔为3 e4 d,以消除以前污染事件的影响。由于稀释过程,污染源附近的污染事件的振幅可能会被压低时,传递到下游节点。 为了测试基于GAN的污染事件检测模型在不同传感器站组合下的性能,选择了两组距离污染源不同距离的传感器站作为事件检测系统(EDS)站。靠近污染源的第一组EDS站包括传感器1、2和3(传感器组1),而远离污染源的第二组EDS站包括传感器7、10和14(传感器组2)。网络模拟(水力学和水质),80 d,5 min时间步长。对前14 d进行模拟,以获得整个网络中各组分的稳定初始值。剩余的66 d数据分为训练数据集(67%)和测试数据集(33%)。3.2.GAN模型应用将多变量时间序列的水质数据叠加成d5时间序列的叠加图像,GAN模型采用k30的历史时间窗对水质现状进行预测和识别.采用图像填充(填充值设置为0)来保持相同大小(32 32个参数)的图像用于训练GAN模型。单站点和多站点测量都被馈送到相同的GAN架构中。案例研究中使用的GAN模型的超参数包括从一系列试验中确定的最佳参数(表1)。训练GAN模型的运行时间约为25分钟。评估一个新的观察和触发事件警报是即时的,表1案例研究中使用的GAN模型的超参数超参数值激活函数ReLU(修正线性单元)学习率0.0001小批量的大小时代150优化器亚当过滤器尺寸3× 3G中的通道32、32、64、128、256、256、128、64、32、1D通道10、10、20、40、80、80规范化实例规范化步幅2动量0.5DCBAM中的注意力模块这 个 过 程 是 完 全 自 动 的 所 有 实 验 都 使 用 Google Colab Pro(Google)进行,这是一种可用于深度学习研究的云服务。4. 结果和讨论4.1. 基于GAN的污染事件检测模型通过在识别一系列异常之后执行事件概率更新可以通过对分数水平进行阈值化来从基于GAN的异常分数中识别异常。 图图4显示了使用正常训练数据集的单站点和多站点测量的基于GAN的异常分数的分布和顺序增量。在图从图4 a、b可以看出,单点和多点分布的分布模式相似,大部分异常分数集中在少数几个区域。然而,由于计算的异常分数的范围有很大的不同,直接为单站点和多站点GAN模型设置阈值是困难的。一个连续的增量比较,以获得单站点和多站点GAN模型的异常得分阈值。如图4c、d所示,排序后的异常分数中间的大多数增量都很小。一见图4。使用单站点(a,c)和多站点测量(b,d)的基于GAN的异常分数的分布和顺序增量。Z. Li,H.Liu,C.Zhang等人环境科学与生态技术14(2023)1002318¼¼在异常分数的百分比的两端可以看到相对增量的大幅增加异常分数越接近0,测试时间点对应于正常状态的可能性越大因此,在确定增量阈值时,仅考虑异常分数的较大部分。由于异常评分增量的分布不同,因此对单个位点设置了不同的增量阈值(D)2%)和多部位(Dthre6%)GAN模型。打谷-可以基于单站点和多站点GAN模型的递增阈值来确定异常分数的年龄。由于传感器故障等因素,原始水质数据中存在一定的异常。因此,在计算的异常分数中很少增加用于获得异常的阈值的高增量阈值将减少假警报的机会,但导致模型不报告轻微污染事件。低增量阈值能够检测较小的污染事件,但会增加误报的机会因此,当监测站在操作期间没有经历高水力变化时,并且当水质传感器的精度高时,较小的增量阈值可以通过增加微小异常检测的机会来改善模型性能当监测站在运行过程中遇到高水力变化时,或者当与水质传感器相关的误差很大时,设置更高的阈值更好,以避免报告更多的假警报。单站点模型为每个传感器站训练单独的GAN模型,并且当在任何站触发警报时发出警报,而多站点模型为多个所提出的基于GAN的事件检测模型集成了单站点和多站点模型的结果。图5示出了用于具有污染事件的训练和测试数据集模型首先使用正常条件下的训练数据集进行训练,然后使用包含生成的污染事件的训练和测试数据集进行测试请注意,随机污染事件被添加到训练和测试数据集中,振幅在1.0和1.5之间,每个事件图五. 单站点、多站点和组合模型的事件警报,用于训练(a)和测试(b)具有污染事件的数据集。随机影响3E6水质参数。传感器组1的监测数据用于训练和测试基于GAN的模型。可以看出,对于训练和测试数据集,组合模型比任何单位点和多位点模型检测到更多的污染事件对于同一污染事件,多站点模型的报警持续时间通常长于单站点模型。单点模型更关注单个点的多个水质参数的时间变化,而多点模型检测多个点的水质参数的时空变化然而,多位点模型不能完全取代单位点模型,因为存在多位点模型错过事件或在单位点模型正确提供警报时触发错误警报的情况(在图中的红框中突出显示)。 5)。然而,组合模型可以利用单站点和多站点模型的优势。通过比较污染事件期间异常分数的变化,可以进一步阐明单站点和多站点模型的特征图6显示了由传感器组1监测的归一化水质参数的时间序列,以及图5中突出显示的事件的单站点和多站点模型的基于GAN的异常分数。在污染事件结束时,单站点和多站点模型都产生了类似大小的增加的异常分数;然而,由于阈值不同,只有单站点模型触发真正的警报即使没有污染事件,在大约1000个时间步长后,水质参数也明显发生了实质性变化这表明,在正常条件下,某些操作水力变化可能导致水质参数的高度变化,类似于污染事件。单站点模型在过程的开始和结束时生成小的增加的异常分数,但是不触发警报,而多站点模型触发假警报。单站点模型更容易检测水质的突变,而多站点模型通过叠加多个站点在不同时刻的水质变化特征,可以在水质变化的持续过程中不断放大异常信号为了减少误报,在触发警报之前可以检查相关的常规操作不同污染范围从1.0到3.0的事件(即,1.0e 1.5、1.5e 2.0、2.0e 2.5和2.5e3.0),以比较单中心、多中心和组合模型之间的事件检测性能。将随机事件添加到训练和测试数据集两者中,每个事件随机地影响3个和6个水质参数。表2列出了基于探头组1数据的单部位、多部位和组合模型对不同振幅事件的检测性能详情。对于振幅较小(2.0)的污染事件,单站点模型的检测性能较差,多站点模型可以检测到更多的污染事件。随着污染事件振幅的增加,单站点模型的性能显着提高。单站点模型检测到大多数污染事件,并对高幅度(>2.5)的污染事件产生较少的假警报多点模型的检测性能随污染事件幅度的增加变化不大,但多点模型比单点模型具有更高的F1得分和对于所有污染事件幅度,使用训练和测试数据集,组合模型具有比单站点或多站点模型更高的事件检测率、更高的F1得分和更短的平均检测时间;即,组合模型提高了检测精度,增加了检测到的事件的数量,并且缩短了检测时间。但Z. Li,H.Liu,C.Zhang等人环境科学与生态技术14(2023)1002319见图6。由传感器组1监测的归一化水质参数的时间序列以及事件的单站点和多站点模型的基于GAN的异常分数在图中突出显示。 5.表2基于传感器组1数据的不同振幅事件的单站点、多站点和组合模型的检测性能。数据振幅模型虚警事件检测率F1评分平均检测时间(min)培训1.0e 1.5单位点60.360.1357.4多站点60.710.5052.3组合100.790.5051.61.5e 2.0单位点40.570.2146.5多站点50.860.5947.2组合70.930.6145.52.0e 2.5单位点30.860.3046.8多站点51.000.6843.3组合61.000.6940.52.5e 3.0单位点30.930.4443.2多站点41.000.7339.0组合51.000.7436.1测试1.0e 1.5单位点10.290.0263多站点20.710.4255.6组合20.860.4253.81.5e 2.0单位点10.570.1165.3多站点30.860.5347.3组合30.860.5347.32.0e 2.5单位点10.710.1951.4多站点30.860.5641.7组合30.860.56402.5e 3.0单位点10.860.3947.3多站点30.710.5938组合30.860.5940Z. Li,H.Liu,C.Zhang等人环境科学与生态技术14(2023)10023110在大多数情况下,组合模型比单站点模型或多站点模型生成更多的假警报,因为单站点模型和多站点模型的所有假警报被组合。当单站点和多站点模型都具有较少的误报时,组合模型提高了事件当这些模型产生不同程度的虚警时,可以分配不同的权重以反映它们对基于检测精度的同步决策的相对影响。此外,如图5所示,可以通过验证是否存在任何正常的操作液压变化来减少一些错误警报。4.2.基于GAN的模型与基于MVE的模型的比较在相同的多个实验中,将组合的基于GAN的污染事件检测模型的性能与基于MVE的模型的性能进行了比较图7描绘了在针对具有四个不同幅度(1.0e 1.5、1.5e 2.0、2.0e 2.5和2.5e 3.0)的污染事件的测试实验期间,使用传感器组1和2的组合的基于GAN的模型和基于MVE的模型的受试者操作特征(ROC)曲线ROC曲线描绘了不同事件概率阈值的真阳性率和假阳性率之间的性能权衡ROC曲线是在时间步长水平而不是在事件水平构建的将警报与真实情况进行比较,并将每个时间步长的警报分类为真阳性或假阳性结果表明,基于GAN的模型优于基于MVE的模型的所有污染事件实验具有不同的振幅。对于具有相同幅度的污染事件,对于基于GAN和基于MVE的模型,使用传感器组1(靠近污染源)计算的ROC曲线的基于GAN和基于MVE的模型的性能都随着污染幅度的增加而提高事件振幅可能会被压低,由于稀释过程,从而影响事件检测模型的性能。表3中列出了使用传感器组1和2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功