没有合适的资源?快使用搜索试试~ 我知道了~
SENSIPLUS平台:基于物联网的智能传感器废水监测系统的研究
沙特国王大学学报基于物联网就绪的SENSIPLUS平台Luca Gerevinia,Gianni Cerrob,Alessandro Briaa,Claudio Marroccoa,Luigi Ferrignoa,Michele Vitellic,Andrea Riad,Mario Molinaraaa部。电子和信息工程,卡西诺和南拉齐奥大学,03043卡西诺,意大利b部医学和健康科学 Tiberio“,莫利塞大学,86100 Campobasso,意大利cSensichips s.r.l.,04011 Aprilia,意大利d信息工程系,56122 Pisa,Italy阿提奇莱因福奥文章历史记录:2022年9月3日收到2022年12月23日修订2022年12月24日接受2023年1月5日上线关键词:机器学习智能传感器废水异常检测物联网监督学习A B S T R A C T检测废水中的非法污染物的问题对于公共健康和安全至关重要。分布式、低成本和低功耗监控系统的可用性因此,这里提出了用于感测、本地处理和传输收集的关于废水中的污染物的数据的端到端IoT就绪所提出的系统,组织在传感和数据处理模块中,可以识别和区分污染物与通常存在于废水中的未知物质。这在分类阶段中特别重要,因为区分背景(不感兴趣的)和前景(感兴趣的)物质极大地提高了分类性能,特别是在假阳性率方面。测量系统,即,传感部分,以基于SENSIPLUS芯片的所谓Smart Cable Water为代表,该芯片集成了一系列传感器,通过阻抗谱检测各种水溶性物质。数据处理基于商业微控制单元(MCU),包括异常检测模块、分类模块和误报减少模块,所有这些都基于具有适合于低成本硬件实现的计算复杂度的机器学习算法。对不同的污染物进行了广泛的实验活动,以训练机器-适合低成本、低功耗MCU的学习算法相应的数据集已公开供下载。所获得的结果显示出出色的分类能力,平均准确率超过95%,并且是用于分布式监控的普适物联网系统的可靠©2022作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍水覆盖了地球表面的70%以上沙特国王大学负责同行审查制作和主办:Elsevier电子邮件地址:luca. unicas.it(L. Gerevini),gianni. unimol.it(G.Cerro),a. unicas.it ( A.Bria ) , c. unicas.it ( C.Marrocco ) , fer-rigno@unicas.it ( L.Ferrigno),michele. sensichips.com(M.Vitelli),Andrea. ria@ing.unipi.it(A.Ria),m. unicas.it(M. Molinara)地球上的生命。因此,水质监测是一项关键任务,解决它的方法在科学文 献 中 广 泛 传 播 ( Ighalo 等 人 , 2021; Budiarti 等 人 , 2019;Saravanan等人,2018; Akhter等人,2022; Ferdinandi等人,2019年)。特别关键的是与废水有关的问题(Trubetskaya等人,2021年),即,由于家庭、工业或医院过程而遭受污染的水。随着COVID-19大流行在世界各地蔓延,其监测已经成为两年来的热门话题(Bogleret al.,2020; Farkas等人,2020年)。获得详细和准确的监测和检测可能的污染物的能力与三个不同的组成部分有关:传感系统、地理渗透性和数据处理。至于传感系统(Tyszczuk-Rotko等人,2022年;Kamaruidzaman和Rahmat,2020年5月; Vikesland,2018年; Alamhttps://doi.org/10.1016/j.jksuci.2022.12.0181319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comL. 盖雷维尼湾Cerro,A.Bria等人沙特国王大学学报500例如,2020年),可以体验不同的成本和性能水平。面临的问题涉及灵敏度、选择性和小型化。大多数解决方案更倾向于采用传感器阵列来增加辨别不同物质的能力。为了得到广泛的监测,并确保以分布式方式进行水质评估和污染物检测,采用高成本的系统似乎是不合适的。物联网就绪的低成本平台能够实现地理普及,这可以受益于高水平的能源自主性,低计算负担和高数据传输能力。它们的灵活性允许通过创建监控网络在感兴趣的区域中分布设备。用于水监测的物联网能力很普 遍 ( Junior 等 人 , 2021; Dupont 等 人 , 2018; Overmars 和Venkattera,2020)。在数据处理方面,所获取的测量通常被处理以成为特征,以馈送用于分类的机器学习(ML)/深度学习(DL)算法(Lowe等人,2022;Koditala和Pandey,2018; Bansal和Geetha,2020; Dilmi和Ladjal,2021; Bria等人,2021; Bria等人,2020年)。主要的挑战是寻找具有快速数据交换的途径,以可接受的计算复杂度几乎实时地进行分类,并且能够区分可以在流动的废水中发现的本文拟议的系统是:- 实时,因为它可以在单个样本的基础上响应,为每组十个测量生成分类:单个采集/分类所需的总时间等于约1.6秒;低功耗、低成本和物联网就绪,这要归功于SENSIPLUS的耦合(Ria等人,2022; Manfredini等人,2021)(在下文中讨论)与商业MCU;能够处理未知物质,这要归功于异常检测模块;考虑到废水中所考虑的污染物的溢出是罕见的事件,基于这一概念,本文的结构如下。第2节包含通过机器学习检测水和废水中污染物的最新技术的完整综述。第3节强调了本文提供的主要贡献。第4节描述了测量设置以及数据处理阶段,以便为分类做好数据准备。第5节给出了实验结果。对所得结果的讨论见第6节。结论和未来的方向将在第7节中讨论。2. 相关作品近年来,在文献中已经提出了几种用于在污水处理厂(WWTP)系统的背景下监测废水组成的传感器原型(Ferdinandi等人,2019;Bourelly等人,2020; Betta等人,2019; Molinara等人,2020; Bria等人,2020; De Vito等人, 2018年;用于跟踪合成药物实验室的污水监测系统,2022年; Hoes等人,2009; Lim,2012; Lepot等人, 2017; Ji等人,2020; Drenoyanis等人,2019; Pisa等人,2019年; Desmet等人,2017年)。所提出的传感器基于不同的技术,例如电化学传感器、光学传感器、基于质谱或离子光谱法等,并且可以安装在井内,目的是检测某些污染物的存在或浓度。 在Ferdinandi et al. (2019),Bourellyet al.(2020)、Betta等人(2019)、Molinara等人(2020)、Bria等人(2020)介绍了SENSIPLUS作为空气和水监测系统的应用,并初步证明了其有效性。在De Vito等人(2018)中,作者描述了一种基于低成本技术的分布式污水监测系统。在这种情况下,作者不进行特定物质的识别,而仅限于进行一般污染物的检测。在用于跟踪合成药物实验室的污水监测系统(2022)中,描述了污水系统中的药物检测系统,以识别药物工厂的存在。这种解决方案的弱点恰恰在于它处理的是一个非常具体的问题,而不是为检测一般污染物而设计的。在Hoes等人(2009年)中,开发了一种使用分布式温度传感来发现荷兰地区非法家庭污水与雨水系统连接的技术。在Lim(2012)中,提出了一种用于检测废水中污染物的通用系统。该系统缺乏区分不同物质的能力,并且基于过时的技术。在Lepot等人(2017)中,提出了一种用于检测污水系统非法连接的系统。该解决方案基于红外摄像机的使用,并不是为检测特定物质而设计的。 在Ji et al. (2020),提出了一种基于图像分析的废水量测量系统。在这种情况下,不同物质之间的区别完全消失,并且通常,视觉系统虽然不受腐蚀现象和传感器上的材料沉积的影响,但通常以高能耗为特征,因此不太适合于低功率的连续监测系统。在Pisa等人(2019)中,作者提出了一种专门设计用于检测氮源成分(特别是铵和总氮)的系统,而不考虑其普及性和低功耗/低成本。在Drenoyanis等人(2019)中,提出了一种独立的便携式雷达设备,可以对污水泵站泵进行无创基准测试。该系统旨在在污水处理厂附近的废水流量异常时及时发出警报。它不包括任何污染物检测系统。在Desmet等人(2017年)中,提出了一种用于检测爆炸前体的系统,即,恐怖分子可以用来制造初级炸弹的物质在这项工作中,传感器功能化与金,钯,铂被使用,伏安法被用来检测物质。3. 本文的主要贡献从对机器学习在水分析中应用的科学文献的回顾来看,异常检测的问题被忽视了。不考虑真实系统中的异常意味着使它们在实验室以外的环境中不可用,因为系统将无法对训练阶段未考虑的物质做出正确反应,可能会产生假阳性。总而言之,废水分析中的未决问题主要与通常需要的复杂而昂贵的设备有关,不适合物联网和普遍的范例,以及缺乏异常检测步骤。本文针对这两个问题提出了在物联网准备方面,建议采用SEN-SIPLUS芯片,这是一种由意大利公司Sensichips s.r.l.开发的专有设备其已被证明在空气和水中的污染物检测的可靠测量中是有效的(Ferdinandi等人,2019; Bourelly等人,2020; Betta等人,2019; Molinara等人,2020; Bria等人,2020年)。SENSIPLUS芯片与商用微控制单元(MCU)一起成为低功耗、低成本、物联网就绪的小型化传感平台。需要MCU来运行SEN提供的C++ API●●●●L. 盖雷维尼湾Cerro,A.Bria等人沙特国王大学学报501SIPLUS芯片和装备系统与外部系统通信(例如,与USB或MQTT通过TCP/IP),并用于各种机器学习算法的推理阶段第二个问题是解决了一个双阶段的分类系统:一个异常检测器和一个多类分类器,从想法开始,一些污染物是有趣的,而其他只是干扰物,不需要分类。异常检测允许声明被分析的物质是否可以是感兴趣的物质或其他物质(为简单起见,未知)。每当这样的模块声明该物质不是异常时,多类分类器模块被激活,并且其计算负担被包括在系统负载中。两个模块的组合允许具有显著的假阳性减少,同时保持感兴趣物质的非常高的准确度值。所开发的平台和监督双阶段分类的新概念的结合代表了这项工作对最新技术的主要贡献。4. 方法4.1. 检测链图1示出了基于图2中可见的智能电缆水(SCW)的整体检测系统,该SCW是Sensichips s.r.l的专有物联网就绪智能传感器系统,由叉指电极(IDE)组成并基于SENSIPLUS(Ria等人, 2022年)。后者是一个1.5 mW功率吸收的微型分析传感平台,具有SPI、I2C和SEN-SIBUS(专有单线通信协议)等通信功能SENSI- PLUS需要一个MCU来运行其C++ API,其中包括用于机器学习算法推理的引擎。选择了具有USB和WiFi通信功能的ESP 32/ESP8266作为MCU。ESP32/ESP8266还可以保证通过(例如)TCP/IP上的MQTT进行数据传输。在这种配置中,MCU可以充当简单的桥梁,将通过传感器收集的数据传输到云端(例如,通过MQTT),并作为执行本地处理以检测物质的设备通过执行合适的机器学习算法,在运行期间,SCW可以淹没在水中,通信和控制信号通过合适的电缆传输。SENSIPLUS是一种微芯片,能够通过其多功能和精确的电阻抗谱仪(EIS)在3.1 mHz和1.2 MHz之间的频率范围内询问片上和片外传感器。使用SENSI-PLUS,可以进行多个测量图二.智能电缆水(SCW)与交叉指状电极功能化,他们与六种不同的金属涂层。图三. Randles等效电路Fig. 1. 整个探测系统部署完毕。L. 盖雷维尼湾Cerro,A.Bria等人沙特国王大学学报502多个传感器;特别地,SCW系统具有6个IDE。用于检测和识别一组给定物质的物理这种现象可以作为电行为来观察。图3示出了浸没在水溶液中的两个电极的建模的等效电路,在文献中称为Randles电路(Alavi等人, 2017年)。从电路中可以看出,每个电极通过双层电容Cd和感应电阻Rf来建模,这考虑了水溶液(称为本体)和电极本身之间的界面模型值取决于电极组成、几何形状、本体组成等。其中Re是体相的等效电阻,主要取决于体相组成和电极面积。为了最大限度地提高对感兴趣的物质和RedOx动力学的灵敏度,SCW的6个IDE已经通过用六种不同的金属涂覆它们来功能化:(M1)金,(M2)铜,(M3)银,(M4)镍,(M5)钯和(M6)铂。(M1)至(M5)IDE各自为3mm乘7mm,而(M6)为12mm乘12mm。8 mm(见图 2)的情况。4.2. 用于培训的该系统的目的是检测和识别物质泄漏的废水。因此,为训练阶段构建良好数据集的最佳解决方案是直接在污水管网的受控排水中获取所有测量值。然而,这不是一个可行的解决方案,主要有两个原因:测量观点:所有测量均应在相同且可靠的条件下进行;然而,由于污水背景环境成分的典型不稳定性,不可能达到可接受的可靠性条件水平卫生观点:由于存在病毒、细菌等危险,直接在污水管网中操作会产生生物危害。为了解决上述问题,我们创建了合成污水(SWW)来模拟污水成分,并进行了测量如图4中所描述的设置来创建合适的数据集。SWW采用的配方受到了Nopens等人创建的配方的简化版本的启发。(2001年)的第10页。此外,为了更好地再现真实废水情景,已根据Janna(2016)对每批SWW的pH值进行了校正,其中报告了对真实废水的关于SWW的更详细化学成分,请参见表1。在SWW背景下有14种物质溢出:(1)乙酸;(2)丙酮;(3)乙醇;(4)氨;(5)甲酸;(6)磷酸;(7)硫酸;(8)过氧化氢;(9)合成废水;(10)次硫酸氢钠;(11)氯化钠;(12)餐具洗涤剂;(13)洗衣机洗涤剂;(14)Nelsen。所列物质可分为两类:物质1第1组仅包括我们的系统应该能够识别的物质,而第2组仅包括我们的系统应该能够拒绝的离群值样本。用于数据集创建的每种物质的测量程序由两个阶段组成:预热阶段:为了使所有传感器稳定,600个样品,0.5 Hz频率(总预热时间:900 s),在纯SWW的采集。表1合成废水化学成分。化合物浓度[mg/l]肥料91.74氯化铵12.75三水合乙酸钠131.64磷酸氢镁三水合物29.02磷酸二氢钾23.4硫酸亚铁(II)5.80淀粉122.00奶粉116.19酵母52.24豆油29.02见图4。数据集采集的测量设置。●●●L. 盖雷维尼湾Cerro,A.Bria等人沙特国王大学学报503测量阶段:在前600个样品之后,将感兴趣的物质溢出到SWW中,并且为了记录注入后整个传感器的演变,以相同的采样速率采集另外1000个样品(总测量阶段时间:2000s)。获取的数据集已在此处公开提供(下载获取的数据集的公共链接,2022)。与机器学习相关的主要问题之一与特征识别有关,即,从传感器导出的信息属性的选择,能够最大化分类精度。在本例中,根据上一节中描述的等效电路,我们选择记录以下特征:在78 kHz频率下测量Gold和Plat- inum IDE的电阻。在200 Hz频率下测量的电阻和电容,与金、铂、银和镍有关。获得大小为10的特征向量(6电阻和4电容)。钯和铜IDE未用于本实验活动。所引用的特征是由于等效电路在低频和高频下的不同行为而选择的。特别是,两个Cd在低频下都表现出高阻抗,可以表示为开路(见图5a)。因此,测量取决于感应电阻或体电阻(Re)。另一方面,在高频下,两个Cd呈现低阻抗,可以看作短路(见图5b):测量主要取决于体电阻。4.3. 数据集结构和使用对于每种物质,收集了通过上述测量程序获得的1600个样品的10次采集,总共获得16000个样品。出于评价目的,采用了k重交叉验证程序。交叉验证主要用于应用机器学习,以估计机器学习模型对未知数据的技能。它的应用通常会导致模型效率的偏差较小或不太乐观的估计比其他方法,如简单的训练/测试分裂。通常,k折交叉验证的第一步是随机洗牌收集的数据。在我们的情况下,考虑到属于同一实验的测量是强相关的,我们倾向于假设所有物质的整个采集(1600个样本)作为k倍的单位。为了找到用于整个系统的最佳异常检测和多类分类器模型,整个数据集被组织成十个折叠(折叠0,折叠1,.. . ,折叠9)。每个折叠包含九个额外的拆分(拆分0,拆分1,. . ,拆分9)和一个测试。给定的Split组织如下:训练数据:用于训练异常检测和多类分类器模型。测试数据:用于为异常检测和多类分类器找到最佳模型对于最终评估问题,它由以下样本组成:这些样本既不包含在与给定折叠相关的所有拆分的训练数据中,也不包含在与给定折叠相关的所有拆分的测试数据中。为了保持清晰,我们使用了固定的命名法:给定Fold对于训练数据问题,它由所有实验组成,除了用于相关测试集的实验和用于最终评价的实验,如前所述,最终评价包含从相关折叠的训练和测试数据中看不到的数据。例如,Fold0包含从1到9的拆分,不包括拆分0,因为所有物质的实验0用于构建相关的测试集。分割1的测试数据由所有物质的实验1组成,而训练数据由所有剩余实验组成(不包括用于测试的实验1和用于最终评价的实验0)。这样,Split 2的Test数据由实验2生成,而相关的Training数据将排除实验2和0,依此类推。Fold 0的最终评估由所有物质的实验0生成。数据集分割的图形表示见图6。值得说明的是,在图6中,Exp 0、Exp 1、. . ,Exp9分别表示采集0,1,. . 9、所有物质。最后,值得指出的是,对于多类分类器和异常检测模型,在学习阶段的训练、测试和最终评估集的比例分别为:80%;10%;10%。此外,为了正确验证和测试学习的异常检测模型,验证和测试集已被来自属于第2组的物质的离群点污染4.4. 分类分类系统分为两个阶段:㈠数据预处理; ㈡分类。如图7所示,数据预处理阶段(i)将来自传感器的原始数据归一化,并通过有限状态机(FSM,参见图五. 在不同的频率。●●●●●L. 盖雷维尼湾Cerro,A.Bria等人沙特国王大学学报504图六、数据集结构。 实验0,实验1,... . ,Exp 9分别表示采集0,1,. . 9、所有物质。见图7。 系统的总体视图见图8。 有限状态机。L. 盖雷维尼湾Cerro,A.Bria等人沙特国王大学学报505>图8)是否应提交至分类阶段(ii)。4.4.1. 数据预处理数据预处理阶段分两步实现通过创建稳健的基线信号,对来自传感器的原始数据进行归一化决定是否将标准化样本转发到异常检测器或直接分类。基线信号bt是根据以下等式通过FSM与指数移动平均(EMA)的应用的联合生成的:8>stt¼0更新距离矢量,并且一旦矢量的可变性(计算为平均值加上标准偏差的三倍)低于给定阈值,系统就可以移动到下一个状态。在这一点上,系统将检查是否有物质溢出到水中,这是通过检查当前距离何时大于给定阈值来完成的。一旦FSM移动到BSP状态,为了不将物质溢出与测量尖峰或简单噪声混淆,系统将检查当前距离是否保持在五个连续样本(BSP)的阈值以上,否则,系统返回到BT状态。最后,一旦FSM处于BS状态,则当前归一化样本在检测系统的输入中给出。在此状态下,如果样本分类等于背景物质,FSM将返回BA状态。到目前为止描述的整个系统如图所示。9.第九条。其中S指示FSM的状态,Ct是bt¼bt-1t>0;S2fBS;BSPg:astt1-a·st-1;t>0;S2fWT;BA;BTgð1Þ时间t的样品和BKG是背景物质。其中st是传感器FSM旨在构建一个能够应对以下情况的稳健基线:传感器/芯片之间的可变性、传感器漂移、环境噪声、干扰等。前两个状态(WT和BA)保证基线不受噪声和/或干扰的影响。一旦FSM达到BT状态,系统将尝试检测物质的注入,这通过原始数据中相对于EWA生成的基线的峰值来揭示(见下文)。BSP状态是BT和BS之间的中间状态,如果一组样本确认存在溢出物质,则BSP状态试图通过等待来滤除信号尖峰。一旦系统确信存在物质溢出(5次采集后),FSM将移至BS状态。因此,归一化样本作为输入被传递到分类阶段算法。关于EMA,参数a是EMAc的倒数(系数经验性地设置为25)。归一化值由以下公式给出ft¼st=bt2其中ft是归一化特征向量,而st是原始传感器数据,bt是如等式所述计算的基线信号。1.一、图图8显示了整个FSM系统。特别地,t是当前时间样本,而s是阈值,在我们的情况下,已经根据经验设置为等于0: 05。对于dt参数,它表示归一化特征vec之间的欧氏距离torft和单位向量u(一个1的向量)在一个10维空间中,它是向量st的大小(见等式1)。3)。从特征空间中的st和bt之间评估的欧几里德距离dt开始,当dt大于阈值s(根据经验建立到0: 05)时,存在揭示注射的峰值看看EQ。很明显,当b,t等于s,t时,向量f,t等于单位向量。为此,已经相对于单位向量计算了欧几里得距离,因此当dt等于零时意味着基线信号bt完美地跟踪传感器信号st。dtkft-uk3如图所示。 8,FSM的当前状态可以根据给定的规则改变。特别地,FSM以WT状态开始在这种状态下,分类系统将简单地计算并存储到向量中,在st 个测量样本上计算的第一EMAc二、一旦填充了距离向量,FSM就可以进入BA状态。在这里,系统将保持4.4.2. 检测阶段在实际情况中,有大量的物质在污水管网中流动,因此能够区分感兴趣的物质和其他物质至关重要。在这个意义上,这个阶段的主要目标是确定给定的流动物质是否是感兴趣的物质之一,以便能够正确地预测其名称检测阶段基本上分为两个主要部分:● 异常检测● 多类分类异常检测关于异常检测算法,我们主要可以通过两种方法来区分它们:见图9。有限状态机流程图。●●L. 盖雷维尼湾Cerro,A.Bria等人沙特国王大学学报506¼ðÞðÞð ðÞ半]¼ðÞ¼ðÞ● 离群点检测● 新奇检测在离群点检测算法中,训练数据中含有离群点样本。在这种情况下,估计器试图拟合训练数据最集中的区域,忽略偏差观测。在新颖性检测算法中,训练数据不受异常样本的污染.在这种情况下,我们想确定一个新的观察值是否是离群值。 在这个意义上,一个离群值也被称为一个新奇。根据我们的数据集和应用领域,我们的案例更好地代表了新颖性检测方法。这是因为,在我们的应用领域,我们希望丢弃所有那些通常存在于污水系统中的物质,我们只想确认那些在废水中所能找到的物质中占最小比例的物质,最后,整个系统,包括数据处理和检测系统,如图所示。 10个。最终,为了找出最佳的异常和多类分类器模型,使用了数据集的十个子集的交叉验证技术(更多细节见第4.3一旦找到了每个分类器的最佳模型,整个系统就在测试数据上进行了测试。重要的是要指出,所提出的检测系统不中继任何模式/轨迹识别或时间序列,或者换句话说,它是时间无关的。该功能允许我们构建能够仅基于当前样本检测和识别给定溢出物质的IoT就绪系统,如图10所示。从这个意义上说,我们可以将我们的系统称为实时污染物泄漏检测的物联网就绪平台算法1.训练过程之三. 为了有尽可能完整的观点,我们训练了以及使用新颖性或离群值方法构建的测试异常检测模型:新颖性检测:单类SVM,局部离群因子和KNN● 孤立点检测:椭圆包络和孤立森林所有算法都取自sci-kit learn库(Pedregosa等人,2011),除了KNN之外,其取自Python异常检测(PyOD)库(Zhao等人,2019年)。如第4.3节所述,我们将整个数据集划分为10个交叉验证文件夹,每个文件夹包含另外9个包含训练集和验证集的对于离群值检测数据集问题,它与第4.3节中描述的相同,只是在训练中添加了一些离群值样本输入:表示单个Fold的数据集F,要训练的分类器列表,超参数输出:最佳分类器开始Fn/4归一化DataSetFn;对于clf 在分类器中,X列车;Y列车;X验证;Y验证loadValidationDataFn;对于超参数中的参数,clf:set params设置参数;clf:fit设置Xtrain设置;Ypred<$clf:预测X验证结果;准确度:附加100%clf;evaluate[预测值];Yvalidation[验证值];clfbest¼getBestClf精度;returnclfbest;端设置(约10%)。多类分类从以前的工作中得到的结果开始,我们有在所描述的数据集上训练和优化KNN的准确性。注意,与异常检测不同,训练和验证集仅由感兴趣物质的样本形成。在这两种情况下,异常检测和多类分类,网格搜索方法已被选择,以优化模型的准确性。所有模型参数详见表2和表3。表2异常检测模型参数。分类器参数KNN污染[0.01、0.05、0.1、.. . ,0.5]N个邻居[10,一百,两百,.. . ,500]SVMM内核[0.01、0.05、0.15、.. . ,1.0]径向基函数局部离群因子Cr污染[auto,标度,0.01,0.05,0.15,. . ,1.0][0.01、0.05、0.1、.. . ,0.5]N个邻居[10,一百,两百,.. . ,500]椭圆包络污染[0.01、0.05、0.1、.. . ,0.5]孤立森林污染[auto、0.01、0.05、0.1、.. . ,0.5]N估计量[50、100、150、. . ,500]表3多类分类模型参数。分类器参数KNN算法球树N个邻居[10,100,150,.. . ,500]重量[均匀,距离]算法2. 测试程序输入:测试集T、最佳异常模型(anly)、最佳多类模型(clf)、doAnomaly输出:[精度,CM]开始groundtruth<$getGroundtruthn对于Tn中的样本,如果doAnomaly,则outClass:append onlineClassidication示例;其他samplen¼normalizesamplen;stategetFsmStatesamplen;ifstateoutClass:appendBKG;其他outClass:append_clf:predict_sample_numerical;ConfusionMatrix_evaluate_outClass;groundtruth;return_Accuracy;CM;端算法3. 在线分类程序输入:样本S、异常检测分类器(anly)、多类分类器(clf)●L. 盖雷维尼湾Cerro,A.Bria等人沙特国王大学学报507¼¼ðÞ¼¼ðÞð ω ÞðωÞ¼输出:预测类(outClass)开始Sn¼normalize_BS;state getFsmStateSn;ifstateoutClassBKG;其他如果anly:predict= Sn=1/4inlier,则outClass clf:predictSn;其他outClass未知;returnoutClass;端见图10。整个系统流程图。核支持向量机与支持向量的数量n是线性的,特征的数量d和可以表示为O ns d。在ESP8266上,两个步骤的运行时间约为500ms,允许在两次采集之间进行完整评估5. 实验结果对于每种情况(异常和多类分类器),已选择最佳模型来验证整个系统的测试集。在以下小节中,报告了获得的结果5.1. 异常检测结果算法2和1示出了关于训练和测试过程的伪代码。如前所述,异常检测和多类分类器的训练过程是相同的相反,对于测试过程的关注,它已经被构建为能够测试整个系统(异常检测和多类分类器),而不仅仅是多类分类器。出于这个原因,测试过程将一个额外的参数"doAnomaly“作为输入在后一种情况下,调用在线分类程序(算法3)值得说明的是,算法3表示在端到端系统上实现的过程,以执行整个系统的在线测试在最坏的情况下,整个链的时间复杂度是kNN与SVM在推理时间的时间复杂度之和,其与所选择的MCU的计算能力相兼容(Ray等人,2021年)。 kNN算法的时间复杂度为O n d,其中n是训练集中的样本数,d是特征总数。我们的时间复杂度在Fold0情况下获得了最佳结果。在Fold0的情况下,在交叉验证技术之后,1至9之间的所有实验都被用作训练和验证集,而所有物质的实验0都被用作测试集。表4中报告了最佳结果,而表5中报告了在Fold0数据集的所有分割上获得的平均值加标准偏差(STD)。值得注意的是,所获得的结果在所使用的算法中显示出几乎相同的性能。因此,不可能轻易宣布获胜者。出于这个原因,由于所提出的系统的应用领域最适合的新颖性检测方法,测试整个系统已被使用的一类SVM分类器。此外,为了在统计学上验证所获得的结果,我们进行了Wilcoxon秩和检验(a0: 05)。实际上,表5还显示了Wilcoxon检验的p从表中可以看出,表现最好的三种算法(单类SVM、椭圆包络和隔离森林)之间的性能差异不具有统计学显著性(p值>0.05)。关于局部离群值因子和KNN算法,可以注意到p值为0.05,突出显示了所得结果之间的统计差异<最后值得L. 盖雷维尼湾Cerro,A.Bria等人沙特国王大学学报508MCC公司¼¼(¼¼表4异常检测的最佳结果。N个邻居400N估计量350表5交叉验证0结果。算法准确度F1得分MCCp值单类SVM 0.93580.01710.84740.03520.81150.0497-KNN 0.56510.02260.09020.0018- 0.2762 0.01885:6e-6局部离群值因子0.82010.03460.71370.03820.65190.04635:6e-6椭圆包络0.93250.01570.84480.03110.80690.04450.4860隔离森林0.94630.01300.86890.02770.84230.03910.7317注意通过评价所有选择的品质因数(准确度、F1评分和MCC)进行Wilcoxon检验。关于报告的优值,它们是通过以下公式计算的:TPTNFPFNPTPFPTPFNTNFPT NFNNFNð6Þ准确度TPTPTNFPFNF1Score 2查准率·查全率查全率哪里精密TP公司简介召回TPTPFNð4Þð5Þ其中真阳性(TP)是被分类为离群值的所有离群值样本,真阴性(TN)是被分类为内点的所有内点样本,假阳性(FP)是被分类为离群值的所有内点样本,并且假阴性(FN)是被分类为内点的所有离群值样本见图11。 多类分类器结果。方法算法精度F1分数MCC参数分裂新奇单类支持向量机0.95460.88680.8675M内核0.01RBF6C0.45KNN0.59820.0938-0.2485污染N个邻居0.45101局部离群因子0.86240.76390.7123污染0.017异常值椭圆包络0.95450.88640.8671污染0.056孤立森林0.95470.88720.8679污染0.14L. 盖雷维尼湾Cerro,A.Bria等人沙特国王大学学报509见图12。 整个系统的结果。5.2. 多类分类器结果在Fold0中获得的最佳结果是通过KNN算法获得的,使用等于10的邻居数(N)并采用均匀权重。所获得的准确度等于99.37%。在Fold0中包含的9个折叠的平均准确度和标准偏差方面,获得的结果为A%=(91.0 ± 5.7)%。5.3. 整个系统的结果已经完成了两个主要的测试,以突出从使用异常检测,其次是多类分类器的整个系统的关注所获得的好处。一次只使用多类分类器,一次使用异常检测加多类分类器。所获得的结果示于图1A和1B中。11和12从两个混淆矩阵可以看出,使用的离群物质为:● 餐具洗涤剂(DW_DETERGEMT)● 内尔森(INT_NELSEN)● 洗衣机洗涤剂(WM_DETERGENT)● 氯化钠(氯化钠)● 次氯酸钠(次氯酸钠)仅在多类分类器的情况下,离群物质与已知物质之一错误地混淆,产生许多假阳性警报。为了解决这个问题,如在前面的部分中所描述的,在多类分类器之前,已经添加了能够作为假阳性减少过滤器工作的异常检测系统。如图所示。 12,随着异常检测系统的增加,大多数离群样本被正确地标记为“未知”。更准确地说,79:4%的异常值样本已被正确标记为“未知”,而剩余的20:6%,代表所有次氯酸钠样本,大多数与过氧化氢混淆(根据图1所示)。 11)。最后,如第5.1节所述,由于所获得的结果(见表4和表5)显示出在所使用的算法中几乎相同的性能,并且考虑到所提出的系统的应用领域,在报告的结果中使用了单类SVM分类器。6. 现场试验为了获得现场测试,在真实场景中进行了两个初步实验:一个在Borgopiave(Latina,意大利)的Acqualatina处理厂(见图13),第二个在位于Via Castelbottaccio(罗马,意大利)的一系列井上,与ACEA S.p.A. 合 作 。 ( Azienda comunale energia eambiente ,2022)(见图1)。 14)。如图所示,设计了一个漂浮系统,使超临界水能够浸入适当深度的水中。 十五岁为了能够将传感系统完全安装在人孔内,已经开发了测量系统的原型,如图16所示。可以看出,测量系统由IP 56防水证书盒、RaspberryPi 4、基于SIM 7600 E-H的具有两个外部天线的Raspberry Pi的GSM帽子、20000 mAh移动电源、经由10 m SENSIBUS电缆连接到SCW的ESP8266板组成。这种配置可以确保连续测量和传输约1周这里介绍的原型是为现场测试而设计的,不考虑能耗。完全基于MCU(无乌藨子)和LoRaWAN(远程广域网)标准的解决方案可以连续工作数月,通过定期传输进行连续监控,利用足够的本地内存。在此背景下,对许多物质进行了检测:磷酸、次硫酸氢钠、乙酸、甲酸、氨和过氧化氢。与实验室测试不同的是,在真实环境中,他们遇到了许多问题,例如SCW传感器附近的水垢或气泡积聚。经过初步测试,部分问题得到解决,L. 盖雷维尼湾Cerro,A.Bria等人沙特国王大学学报510图十三. Borgopiave。绿色圆圈代表传感人孔,而红色圆圈代表位于距离传感人孔60 m处的扣眼人孔。图十四岁卡斯泰尔博塔乔绿色圆圈代表传感人孔,而红色圆圈代表分别位于传感人孔50 m、75 m和150 m处的尖刺人孔虽然还存在其他问题,但仍有可能达到80%以上的准确率。7. 讨论从实验结果部分,给定一个离群样本作为多类分类器的输入,输出将属于已知的类之一。这种行为会导致生成与异常值样本数量相等的错误警报,使系统在实际场景应用中毫无用处。图11所示的结果阐明了仅使用多类classi的缺点。一个系统来识别一个给定的物质。在这种情况下,实际上由餐具洗涤剂、Nelsen、洗衣机洗涤剂、氯化钠和次氯酸钠代表的100%的异常值样品主要与硫酸和过氧化氢混淆,产生大量的假警报。当然,单独使用的多类分类器不能拒绝任何离群样本。为此,引入了一个异常检测模块作为虚警过滤器来解决这种行为。表4和表5显示了异常检测系统获得的结果可以看出,单类SVM、椭圆包络和隔离森林的性能非常相似,这意味着L. 盖雷维尼湾Cerro,A.Bria等人沙特国王大学学报
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功