基于物联网的自适应增量学习框架用于智能水质分类系统

86 浏览量更新于2024-01-16 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报一个基于物联网的高效预测系统，用于使用新型自适应增量学习框架Deven Shah？Bhushankumar Nemade印度孟买Thakur工程技术学院信息技术系阿提奇莱因福奥文章历史记录：2021年9月21日收到2021年12月3日修订2022年1月18日接受2022年1月28日在线提供保留字：CPCB水质预测自适应增量学习框架G-SMOTEMDLNNWBPCBWIS前向特征选择综合少数过采样技术水质物联网水质监测智能水环境监测分类A B S T R A C T创建一个自适应的、准确的和可靠的模型是一个普遍的问题。机器学习模型对看不见的数据的准确性很差，因此，训练模型的测试准确性受到影响。该研究提出了一种新的自适应增量学习框架，用于基于物联网的智能水质分类系统，以预测水对不同应用的适用性最初，使用物联网传感器收集水质数据之后，通过移除缺失值和异常值来执行数据清理接下来，获得与感测到的数据相关联的特征，并且去除不想要的特征。然后，G-SMOTE技术，提出了混合的SMOTE和遗传算法来解决不平衡的数据集问题。之后，使用改进的深度学习神经网络分类器执行多类分类，该分类器使用超参数调整技术以最小的验证损失获得更好的准确性最后，该研究提出了一种新的框架，用于对未知数据进行自适应增量学习。实验结果表明，该方法是一种新的多类水质分类方法，分类准确率为99.34%，验证损失为0.0415。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍水是最重要的自然资源，是继空气之后生命的必需品。水对于以下方面同样重要：动植物的生存。虽然地球的大部分被水覆盖，但只有一小部分可用于人类和其他动物的各种活动。我们正在耗尽水资源，不久，这将成为农村和城市地区长期增长的主要障碍（Nemade和Shah，2020）。许多国家的农村地区无法获得纯净和可持续的水源。*通讯作者。电子邮件地址： bnemade@gmail.com （ B.Nemade ），sir. gmail.com（D.Shah）。沙特国王大学负责同行审查水质评估和管理对于饮用水，种植蔬菜植物和树木，工业水处理等至关重要。由于工业废物排放到河流，运河和海洋等水体中，印度主要地区的水质恶化。人类和动物废物、植物肥料、核电站废物等，自动与蓄水池混合，同样的水被释放到水体中。因此，水污染对人类、野生动物和环境的安全和福祉是危险的一个模型可以基于一定的数据训练分布来建立泛化能力，并且由于它的测试集也来自相同的分布，所以它在理想情况下表现良好。但是在生产环境中，当输入来自一个非常不同的分布时，由于完全不同的环境条件，模型从未见过，模型的性能开始下降。当统计模型与其训练数据完美拟合时，就会出现过拟合问题。每当它发生时，模型预测就会对新的（看不见的）数据出错，从而破坏了算法的目的。这导致了一个被称为“数据泄漏”的问题. 当统计特性https://doi.org/10.1016/j.jksuci.2022.01.0091319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comB. Nemade和D. Shah沙特国王大学学报5122模型试图预测的目标变量的变化会随着时间的推移而变化。因此，机器学习模型对看不见的数据的准确性很差，并且训练模型的测试准确性受到影响。随着信息和通信技术的发展，用于水质评估和管理的物联网（IoT）解决方案变得越来越重要（Geetha和Gouthami，2017）。基于其物理、化学和生物特性来检查水质（Chabuk等人， 2020年）。基于物联网的水质评估系统执行水质参数检查，以使用对收集的数据的实时分析来发现水质的偏差和持续退化的风险，以建议适当的纠正措施（Menon等人，2017年）。由于物联网在水质监督应用方面的发展，报告变得更加可行（Parameswari和BalasinghMoses，2017）。使用无线传感器网络（WSN）和物联网，低成本的实时监控系统可以通过短信和电子邮件发送及时的警报（Ali和Ramadhan，2020）。分类技术是一种重要且广泛使用的监督学习方法，在该方法中，具有相似属性的对象被分类到一个或多个类中。这是机器学习和基于深度学习的应用中常见且高度执行的任务（Huang等人，2018年）。因此，文献中已经提出了许多分类方法，主要集中在有效的结构化或非结构化数据洞察的提取和预测上。诸如J48决策树分类器、随机森林分类器、SVM、KNN、人工神经网络分类器（ANN）和朴素贝叶斯分类器的分类方法用于执行来自基于IoT的系统的数据的分类，所述基于IoT的系统如智能环境监测、废物管理监测、智能健康监测、智能家居、工业机械等等（Huang等人，2018; Saritas和Yasar，2019; Chikio等人，2002;Dutta等人，2021年）。研究人员专注于将各种分类方法应用于公共医疗数据集，以分析医疗数据，从而对相关的健康相关疾病进行分类。基于物联网的系统采用分类技术来预测心脏相关疾病（ Jabbar 和Chandrab，2012），以帮助医生实时监测患者，并根据收集的数据给出适当的医疗建议、锻炼和治疗，而癌症诊断和预后的分类方法也已经提出（Majali等人， 2015年）。Akinola和Oyabugbe，2015年的研究旨在通过采用决策树（DT）分类器、多层感知器（MLP）神经网络和朴素贝叶斯分类器，评估分类技术对高维输入数据的效率。具有BM 3D去噪算法的改进的KMV-Cast可以用于使用水质图像来预测水质中存在的浊度水平（Huang等人，2018年）。因此，所提出的方法可应用于农产品和自动化的分类、远程医疗和保健、安全、监视、管理系统、环境监测等。基于实验室的水质评估是不方便的，因为耗时，高运营和维护成本。河流水质分类是解决水污染问题和确定其用途的关键。大多数情况下，由于没有过滤设备，无法处理水，但如果水质已知，相同的水可以用于特定的应用。研究人员给出的用于多类分类的现有方法由于与数据集、数据预处理技术以及模型设计和训练相关的各种问题而提供较低的准确性。提出了基于粗糙集假设的表征技术来处理信息不确定性，但是大的且不平衡的数据集降低了分类准确性（VijaySuresh等人，2012年）。Yoann Pitarch等人提出了一种改进的数据挖掘技术，用于提取多维模式以构建分类器来命名数据标签。尽管如此，分类算法在处理不平衡的数据类别方面表现不佳（Pitarch等人，2015年）。Asmaa Fawzy等人介绍了一种用于具有资源约束网络的WSN中的离群值检测问题的方法，但是由于较大的数据集，准确性受到影响（Asmaa等人，2013年）。水质预测使用最小二乘支持向量机（LS-SVM）与粒子群优化（PSO）混合进行，以克服多层感知器的缺点，但它耗时且无法实现学习未知数据的自适应性（梁忠和云荣，2009）。事件驱动的无线传感器网络的自适应策略，用于获取和利用传感器数据，其中利用分类过程的训练来改进预定义的数据驱动的WSN（Yoon，2015）。提出了一种基于决策树的分层分类方法来构建局部分类器，该方法使用合成生成的数据来提高分类器的准确性，同时具有较少的存储需求和无通信开销（Cheng et al.，2010年）。Hong-Gui Han等人提出了一种创建自组织RBFNN体系结构的系统，该体系结构基于神经元活动和互信息在本质上是自适应的，以促进RBFNN的结构优化过程来预测水质（Han等人， 2011年）。许多研究人员致力于解决这些问题，但需要改进水质管理方法准确性、可用性、有效性和可靠性（Khan等人，2016年）。如果对水进行分析并提前进行水质预测，就可以有效地解决水污染问题。水质数据具有复杂性和非线性的特点。因此，我们认为，单个机器学习预测模型很难对给定的多样化数据集产生实质性影响（Sheng例如， 2020年）。本文其余部分计划如下。第二介绍了智能水质监测领域的研究现状，包括传感器、通信技术和应用等。第3简要讨论了拟议的系统。第四节对实验结果进行了分析。最后，第五部分对本文进行了总结。2. 相关工作Andreea-Mihaela Dunca（Andreea-Mihaela Dunca，2018）介绍了一项基于水质指数（WQI）及其子指数的空间格局的水质管理研究，以确定导致水质下降的重要污染源的区域。WQI使用DO、pH、BOD、温度、总磷、N-NO2和浊度等参数计算。WQI趋势由农业、工业和居民的经济活动决定。克里斯托弗·O Akinbile等人（Akinbile等人，2013年）提出了一个系统，对水质进行分析和分类，以确定污染程度，并了解利用前必要的处理水平。使用现场设备和其他方法评估参数，如pH、DO、COD、BOD、NH3-N、磷、悬浮固体和总氮。利用水质指数作为水质定性调查和分类的评价指标。实验是使用标准的实验室方法进行的，因此，该系统缺乏实时水质监测支持，这是该研究的主要限制。B. Nemade和D. Shah沙特国王大学学报5123Khadijah Sulaiman等人（Sulaiman等人，2019）提出了一种利用人工神经网络对水质进行分类的方法-表2水质等级和指定最佳用途。人工神经网络（ANN）对六种水进行了实验室分析质量参数：pH、氨、TSS、DO、COD和BOD。的班级（年级）预测（指定最佳用途）训练模型的准确率为80%，RMSE为0.468，这是该研究的局限性。Mohamed ladjal等人（Ladjal等人，2016）研究了使用SVM和ANN多类模型对阿尔及利亚tilesdit大坝进行水质监测。这些模型的性能和准确性进行了测试的水质参数，即pH值，总粪大肠杆菌，iform，温度和浊度。性能评估是使用不同的技术，如人工神经网络，支持向量机和证据理论（DSTE）的准确性分别达到85.76%，82%和98.76%。该系统不考虑水质多类模型性能评价的关键化学参数。仅使用pH、TC、温度和浊度等四个参数来评估多类模型的性能是本研究的主要限制Consolata Gakii等人（Gakii和Jepkoech，2019）提出了一个模型来检查水质。使用分类器，即J48决策树，随机森林，Hoeffding树和DecisionStump开发模型，以比较这些模型的准确性使用J48决策树获得的最高准确率高达94%，而DecisionStump的准确率高达83%。这些分类器使用WHO和KEBS指南进行模型验证，以检查饮用水是否卫生。该研究的局限性在于仅使用三个水参数进行基于模拟的实验：碱度、pH和电导率。此外，该研究没有对不同用途的水质进行分类，如饮用、户外洗浴、野生动物和渔业繁殖、灌溉、工业冷却等。Eirini Eleni Tsiropoulou等人（Tsioropoulos等人，2017）提出了物联网和机器学习分类技术，用于交通监控、空气质量监控、智能停车、能源监控系统、噪声监控、智能铁路控制系统等多个应用领域，为社会提供更好的生活环境。供应商选择和资源管理（PROSREMA）算法可以结合资源管理方法并预测各种水质参数（Tsiropoulos等人，2017年）。3. 拟议方法每个应用都需要特定的水质。在印度，中央污染控制委员会（CPCB）制定了一项规范，根据水的条件参数，将特定的水用于各种用途（指定的最佳用途）。根据用途确定最高质量的水用于指定用途，这被称为指定的最佳用途，这是非常重要的。已经发现了五种最佳用途。水质管理人员和规划人员可以使用此A未经常规处理但经过消毒的B户外洗浴C常规处理消毒D渔业和野生动物E灌溉，工业冷却分类，以设定水质目标，并确定不同水体的适当管理技术印度政府水文和水资源信息部（国家水文研究所，2019年）提供了不同应用的水质要求标准，见表1和表2。水质适宜性分为五类（级）。该系统旨在测量重要的水质参数，包括物理和化学特性。因此，它被用来确定不同应用的水的可用性。建议的系统预测饮用水，户外洗浴，渔业和野生动物繁殖，灌溉和工业冷却的适用性。该系统由六个部分组成，即实时数据收集，数据清洗，特征选择，不平衡数据处理，以及使用改进的深度学习神经网络（MDLNN）分类器进行水质分类。框图所提出的方法是显示在图。1.一、最初，传感器设备用于获取感测到的数据。数据清理过程用于删除离群值和缺失值。使用特征选择来选择必要的特征，然后使用G-SMOTE来解决类不平衡问题。对于水可用性的预测，所提出的系统采用多类分类。3.1. 实时水质数据采集水质参数最初使用IoT传感器设备从各个位置的传感器节点收集所感测的数据在数学上表示如下：Ds¼ fD1;D2;D3;：其中，Ds表示数据集，并且Dm表示m个传感器数据D。实时水质参数的数据采集过程如下图2所示。表1不同用途的水质要求。水质范围pH6.5-8.56.5-8.56–96.5-8.56至8.5TDS<= 500<=1000200–2000一<=1500做>=6>=5>=4>=4>=6BOD<=2个<=3个<=3个<=15个<=30个氨氮<≤ 0.5个<=1个<=1.5<=1.2<=1.5电导率<=400<=1000<=700<=500<=2250钠<=30个<=60<=60<=30个<=26个硼0.52.41.5<=1个<=2个态氮<=10个<=45人<=45人<=50<=45人氯化<=250<=350<=1000<=250<=12个班级（年级）一BCDEB. Nemade和D. Shah沙特国王大学学报5124Fig. 1.水质可用性框架。图二. 实时水质数据采集。数据采集模块包括各种设备，如水质传感器，模数转换器，Raspberry Pi 4微处理器，5 V锂离子电池（电源），GSM模块和实时数据库（firebase）。水质传感数据从模拟转换为数字形式，并传递到Raspberry Pi 4微处理器。Raspberry Pi 4微处理器使用MQTT协议将水质传感数据发送到实时数据库（firebase）。感知数据是包含连续数值的结构化数据。3.2. 数据清洗建议的系统使用数据清洗过程来处理离群值和缺失值。数据集中缺失值的百分比略高，因此，所提出的系统使用替换策略来保留数据集中的实例。五个最近的样本，呈现上一个和下一个对缺失值进行采样，并计算这些样本的平均值以替换缺失值。进行数据集分析以找出离群值的数量。发现数据集中离群值的百分比小于0.15%。因此，所提出的系统从数据集中去除离群值3.3. 特征选择使用前向特征选择（FFS）方法来获得最佳性能特征的子集，以最佳地拟合模型。如果数据集中有n个特征，则基于先前发现的推断来所提出的系统评估模型然后选择性能最好的特征（或特征组）。所提出的因此，FFS技术是选择最佳特征子集的包装方法。3.4. 不平衡数据处理拟议的系统使用Selenium库从西孟加拉邦污染控制委员会水质信息系统（WBPCBWIS）（国家水文研究所，2019年）门户网站中删除数据，以收集用于模型训练，验证和测试目的的基准数据集。Selenium和Pandas库用于从WBPCB水质信息门户中删除数据，并以结构化格式（.csv格式）存储。这个过程被称为它是可能的B. Nemade和D. Shah沙特国王大学学报5125123p站点原始水质数据集大小为845 KB，有8835个实例和10个属性（维度），数据集包含连续的数值。经过数据清洗后，系统获得了7338个实例，并将其分为5类。所提出的系统将数据集分成70：20：10的比例，即，70%的数据用于训练模型，20%用于验证模型，10%用于测试模型。在分析训练数据集之后，发现训练数据集的分布是不均匀的。因此，所提出的系统的训练数据集是不平衡的，由于多类分类的类的不均匀分布。在更多数据上训练深度学习神经网络模型可以产生更熟练、更强大的模型。G-SMOTE增强技术创建数据点的变化，可以提高模型概括新的实时输入数据点的能力。因此，所提出的G-SMOTE技术仅应用于训练数据集（原始数据集的70%）以使其成为平衡数据集。所提出的系统推荐不同的方法来解决数据不平衡问题，例如使用许多性能参数，如精度，召回率，F1-Score，Cohen不平衡数据集问题也可以通过用过采样和欠采样方法对数据集进行采样来解决。在过采样过程中，通过替换从少数类中随机添加实例（行），并将其添加到训练数据集。欠采样过程从具有更多实例（行）副本的类中删除实例（行）。少数类实例的选择、样本属性、样本类型、采样率以及少数类样本分布这些问题需要数学建模来找到最佳解决方案。遗传算法是一种随机优化算法，它使用随机搜索技术来找到多维非线性复杂问题的解决方案（Kubat和Holte，1998）。遗传算法通常用于操作和工程优化问题（Wang和Ge，2010; Gong和Cai，2009）。因此，我们提出了G-SMOTE方法，它混合了smote技术和遗传算法来处理不平衡数据集。G-SMOTE的算法在自然语言中描述如下。G-SMOTE算法步骤1：开始步骤2：读取数据集步骤3：分析数据集的分布第四步：初始化：用包含多数和少数样本的样本初始化种群。此外，初始化决策变量，用于设置采样范围步骤5：SMOTE：该步骤使用支持向量机将合成生成的样本添加到少数类步骤6：使用SMOTE获取更新的数据集。第7步：选择：开发适应度函数来设置少数类实例的适应度得分的阈值。此函数查找每个少数类的唯一和重复样本步骤8：检查收敛：如果每个少数类中重复样本的概率小于适应度分数阈值，则该数据集被认为是平衡的，并且该算法停止;图3.第三章。G-SMOTE工作机制。第十步：变异：在0.98-0.99范围内随机选择变异概率步骤11：转到步骤8以检查收敛条件。G-SMOTE算法的工作机制在图中以图解形式表示。3 .第三章。该系统将初始训练集的各个实例（行）与采样率联系起来，以达到最佳的分类准确率。下面给出所提出的G-SMOTE方法的数学建模。所提出的系统使用遗传算法来实现各种情况下的最佳可能采样率，如等式（2）所述。最大化：Z = G（H）; minX XimaxX 2XH =（X1，X2，X3，，XP）; i = 1，2，3P.其中函数G（H）是表示少数类分类和整个数据集分类的准确率的目标函数。H表示采样率。P表示少数类实例的总数。Xi表示少数类实例hi的采样率。minX描述采样率Xi的下限，maxX描述采样率的上限。该系统使用G-SMOTE算法，该算法将SMOTE和遗传算法混合以获得改进的采样率，从而使用过采样方法创建新的平衡数据集。下面给出G-SMOTE算法3.4.1. 步骤1：初始化该步骤用于产生用于遗传算法的大小为N的群体。Xj描述了少数类实例hj的采样率从遗传算法的角度来看，所提出的系统使用来自群体的个体来描述所有示例的采样率的混合，如等式（3）所示你好。Xi;Xi;Xi;···：··：：;Xi=其中i= 1; 2; 3···· ·· N= 1;3否则，删除重复样本。步骤9：交叉：所提出的系统使用欧几里德距离从每个少数类实例中选择k个样本，并找到k个样本的平均值以生成要添加的新样本。在等式（3）中，P表示染色体长度，其被解释为总少数类样本。染B. Nemade和D. Shah沙特国王大学学报5126色体的每个节点被分配在采样率的上限和下限之间的整个随机数以初始化每个个体，并且在等式（4）中描述B. Nemade和D. Shah沙特国王大学学报5127J××我12Kk1k2p<>XkMaxX-Xk×1-rand0;1葛Xi1/4轮最小X最大X;最小X最大×随机数0; 1随机数4随机数其中，i = 1，2，3，4.. . . P和j= 1，2，3，4..... N。在这里，round（）函数-执行舍入。每一列Hi代表一个个体。3.4.2. 步骤2：选择和适应度函数这一步计算种群中每个个体的适应度值。种群根据适应度值降序排列。Ps表示所选的概率。生成两个副本。第一种方法包含排序后的种群中的个体NPs，第二种方法从排序后的种群中删除最后的个体NPs，保留中间的个体以创建新的种群。3.4.3. 3.交叉该步骤从如等式（5）和等式（6）所示的描述为Hi和Hj的群体中随机选择两个个体。3.5. 改进的深度学习神经网络（MDLNN）水质分类系统使用改进的深度学习神经网络（MDLNN）来测试预处理的数据。现有的水质分类系统（Sulaiman等人，2019）使用人工神经网络（ANN），它只包含一个隐藏层（HL），这会消耗更多的时间来训练数据，并且提供更低的准确性。现有的系统（Sulaiman等人，2019）在ANN中使用大权重来表示一个非常复杂的网络，它很容易过度拟合训练数据。这会导致在新数据上评估模型时增加训练时间和性能差，从而导致准确性降低。此外，由于过拟合，泛化误差增加。一种改进的深度学习神经网络（MDLNN）使用超参数调整技术执行多类分类任务，以减少训练时间并提高模型准确性。所提出的系统不同地使用超参数，即，用于模型设计和训练。通过选择合适的超参数进行模型训练，可以使神经网络学习速度更快，从而提高整定过程的性能.超参数相关Hi<$Xi;Xi;Xi···Xi;Xi···;X其中i< $1; 2; 3···N 5到神经网络架构，如隐藏层的数量12Kk1k2p每一层中的神经元和神经元用于模型设计。亲-设定的系统使用诸如激活函数的超参数，Hj ¼.Xj;Xj;Xj·· ·Xj;Xj···;Xj···，其中j= 1; 2·· · N：优化器，学习率，批量大小，丢弃，批量归一化，以及用于模型训练过程的时期参数。修改后的初始交叉的节点是随机选择的，并描述为K。在K个节点之后进行Hi和Hj的交叉，并且当进行Hi和Hj的交叉时获得新的个体，并且如等式（7）和（8）所示，深度学习神经网络分类器通常由输入、隐藏和输出等各个层组成，如图所示。四、所提出的系统使用大量的训练数据，因此，使用多个隐藏层。所提出的方法使用具有输入维度为10的数据集。拟议的系统创建Hi^^Xi;Xi;Xi;············· Xj;Xj* ;Xj2007年7月超参数优化后的优化模型。一个选择-12Kk1k2p得到了具有四个隐藏层的混合模型，HjXj;Xj;Xj;·················Xi;Xi：：;Xi一个输出层。12Kk1k2p如果在500个epoch之后在准确性方面没有进展，则调用提前停止回调来停止学习过程。除了最后一层，模型冻结是基于高-3.4.4. 第四步：突变操作适合度概率基于0到1之间的随机数计算。如果每个个体的适应度概率小于变异概率，则发生不平衡变异。如果所有个体的适应度概率等于突变概率，则发生均匀突变，并在数学上表示为等式（9）。在给定范围内，以最小的验证损失来估计特定时期的准确度。因此，使用检查点获得最佳模型。每个隐藏层中的神经元数量是第一个要调整的超参数。在这种情况下，每层中的神经元数量设置为相同。它也可以定制。神经元的数量应该与答案的复杂性成正比。在更高水平上进行预测的目标需要8>iXi¼I.1-ge使用额外的神经元。神经元的数量被选择为在10到750之间，步长为16。隐藏层的数量根据交叉验证增加，K>Xi.Xi最小X1rand011-ge3rad2 1测试集的准确性线性激活函数用于>：k-k-[化 ][化]ð Þ¼ð9Þ回归问题的神经网络输出层。交叉熵激活函数适用于二进制分类，在等式（9）中，ge表示当前世代，并且Ge是最大世代。3.4.5. 步骤5：终止条件如果当前世代（ge）高于最大世代，则最佳个体是算法的输出，并且算法满足终止条件;否则，重复步骤2。如果获得最佳采样率，则在最佳采样率的帮助下使用SMOTE过采样生成新的数据集。SMOTE创建了更大和更少的特定决策边界，增加了分类器的泛化能力，从而提高了性能。然而，SMOTE有一个一些相关的问题，如过度泛化的问题和增加噪声区域的机会。G-SMOTE方法使用遗传算法来解决SMOTE的过度泛化问题。见图4。 MDLNN的结构;rad1.2± 0.5B. Nemade和D. Shah沙特国王大学学报5128因为它们输出0和1的值。该系统的目的是解决多类分类问题，需要两个以上的类标签的类成员。因此，所提出的方法需要一个非线性的激活函数。所提出的系统使用relu作为输入层中的激活函数，泄漏relu在隐藏层中，和SoftMax激活函数在输出层中。选择Leaky Relu函数而不是sigmoid和Tanh函数，因为sigmoid和Tanh函数遭受死亡Relu和消失梯度问题。Leaky Relu激活功能解决了这些问题。泄漏relu需要更少的计算时间，更有效，并提供一个更好的最优解。所提出的系统使用Soft-Max作为输出层中的激活函数，因为它为输出层中的每个节点提供输出作为一个值。输出值被解释为概率，概率之和等于1.0。所提出的系统使用批量归一化来确保没有激活变得非常高或非常低。因此，更高的学习率可以与批量归一化一起使用。它通过向所考虑的层的激活添加一些噪声来添加正则化效果。它还减少了协变量的偏移。批量归一化有助于降低对初始起始权重所提出的系统使用dropout正则化来使用更大的网络来减少过拟合问题。dropout方法忽略了在训练过程中随机选择的神经元，因此它们被随机丢弃。这意味着它们对下游神经元激活的贡献在前向传递上暂时被移除，并且任何权重更新在后向传递上不应用于神经元。由于dropout的影响，网络变得对神经元的特定权重不太敏感。因此，所提出的系统改进了网络，以减少训练时间，实现更好的泛化，提高准确性，并具有更少的机会过拟合的训练数据。3.6. EW-服务拟议的系统使用云平台部署，并提供电子邮件和WhatsApp服务。3.7. 增量自适应模型实现该系统采用了一种新的增量学习方法，使模型自适应。自适应模型可以根据新类型的数据进行演化。这样我们就可以适应性模型。数据分布根据地理和气候条件而变化，这不是数据训练分布的一部分。在这种情况下，模型似乎不能很好地收敛以处理这样的条件，因此，我们提出了一个自适应增量学习框架，如图5所示。数据漂移降低了模型的准确性。数据漂移可能由于各种原因而发生，例如校准问题，灵敏度和物联网传感器的故障。3.7.1. 模型部署3.7.1.1. 客户端部署。在将物联网传感器产生的输入数据馈送到模型之前，必须对其进行评估。所提出的系统使用基于规则的逻辑来执行数据漂移分析，这取决于数据范围。如果观察到数据漂移，则忽略此类记录并告知用户以采取纠正措施。如果没有数据漂移，则输入是可接受的和正确的。将此输入提供给训练模型，并获得输出。使用输出评估和反馈模块通过采用手动注释或模型漂移分析来检查模型的输出。由于模型的准确性不是100%，预测结果可能是错误的。产出评估和反馈模块包括两种技术，即，手动注释和模型漂移分析，这是检查预测输出的正确性的自动化过程。这项研究使用模型漂移分析来评估预测的输出，如果失败，使用手动注释技术模型漂移使用欧氏距离作为相似性度量来计算实时输入与数据集（D）中呈现的记录之间的相似性。然后，使用来自数据集的高度相似的N个记录来比较预测输出和实际输出。如果预测输出和实际输出之间的相似性指数大于阈值百分比P，则预测输出是正确的。模型漂移分析提供相似性指数百分比，并且如果小于阈值百分比，则使用手动注释技术对输入数据进行验证。手动注释使用手动干预来验证预测输出是否正确。如果输出是错误的，那么它将被纠正，并将其记录在新的数据库中。在执行输出评估和反馈模块之后，检查输入数据，并且如果发现它是不可见的，然后将其写入新的数据库。如果新数据库中的条目数达到K（阈值），则将包含未见过的数据点的新数据库发送到服务器端模块。图五.自适应增量学习框架。B. Nemade和D. Shah沙特国王大学学报5129-×3.7.1.2. 服务器端的模型部署。每当客户端的数据大小达到K阈值时，API就会将新数据集从客户端推送到服务器端模块。来自边缘设备的新数据集与旧数据集连接。使用新样本重新训练现有模型所提出的系统保持神经网络的最后一层的突触权重不冻结要求模型更新权重，并使其可基于新样本进行再训练。通过对重新训练后的模型进行验证，得到了更好的精度，从而得到了优化的模型。优化后的模型将取代客户端的模型。所提出的系统将模型部署在边缘设备上的多个站点（客户端部署），以获得各种数据，从而增强模型3.8. 理论分析的计算复杂性的建议框架所提出的框架的复杂性是在水质可用性框架中使用的所有算法的计算复杂性的增加。首先，数据清理过程处理缺失值和离群值。在缺失值之前和之后取五个相邻样本，并使用这些样本的算术平均值来替换缺失数据。这种计算操作是线性的。因此，处理缺失值的计算时间复杂度为O（n）。离群值的数量明显较少，因此直接从数据集中删除。因此，算法的复杂度是O（n）的。两个线性函数的和也是线性的。因此，数据清洗过程的计算复杂度表示为O（n）。在所描述的前向特征选择过程中，特征被划分为所选择的集合与候选集合。所选集合在开始时为空，并且所有N个特征都是候选。每个候选特征在每个阶段被临时添加作为试验特征，并且选择最佳特征被保留。因此，在每次迭代之后，从候选集合中移除1个新特征。这意味着第一次迭代测试N个候选者，第二次N 1，第三次N-2，第四次N-3等，并且这种操作的行为在数学上表示在等式（10）中。G-SMOTE的T（N）= O（N log2 N）+O（P×C）<$15 π在MDLNN中，N表示训练样本的数量，F表示特征的数量，Nlk表示神经网络中第k层的神经元的数量因此，MDLNN的计算复杂度在等式16中表示。MDLNN复杂度<$OF1ωNlkF2ωNlkF3ωNlk···ð1 6Þ4. 结果和讨论本节分析了所提出的基于物联网的预测系统的实验结果，以对不同用途的水适合性进行分类。该方法是使用Python平台实现的。该方法使用西孟加拉邦污染控制委员会水质信息系统（WBPCBWIS）（国家水文研究所，2019年）的水质基准数据集进行性能评估，具有7338个实例。所提出的系统将数据集分成70：20：10的比例，即，70%的数据用于训练模型，20%用于验证模型，10%用于测试模型。为了实现目的，Keras（GPU兼容的Python库）用于在TensorFlow上运行以执行数值计算。mat-plotlib和seaborn python库提供图形可视化和绘图数据。本节比较（i）MDLNN分类器与超参数优化的性能，（ii）所提出的系统的性能使用性能指标，如精度，召回率，F1分数iii）我们提出的工作和现有工作的比较。i) 超参数优化的MDLNN分类器性能表3描述了如何使用使用超参数优化创建的不同人工神经网络架构来训练该模型。用于获得优化模型的超参数是隐藏层的数量，每个隐藏层中的神经元数量，学习率和epoch的数量该模型的性能进行评估的基础上的几个指标，并得到七个训练模型。一个选择-N N 1 N 23 2 1N N-1得到了具有4个隐层362个神经元的混合模型10我...你好，你好···： þ þ¼2ð Þ在每个隐藏层中，学习率为0.0001和500个epoch。优化模型的验证损失为0.04，因此，前向特征选择方法的复杂度是通过忽略常数项来近似，并在等式11中表示时间复杂度O（N）G-SMOTE的计算复杂度分为两部分。第一部分，T1（N）是SMOTE所花费的时间，T2（N）是遗传算法所花费的时间。假设N表示少数类的样本数SMOTE的计算复杂度被给出为O（Nlog2 N）并且在等式（12）中表示。时间复杂度O（N log2 N）遗传算法的计算复杂度被给出为O（P C）并且在等式（13）中表示;其中P表示群体大小，并且C表示少数类的数量（染色体大小）。T2（P）= O（P× C）× 13 πT（n）表示G-SMOTE的计算复杂度，其由等式（14）和（15）表示。T（n）=T1（N）+T2（N）14训练和测试的准确率分别为99.3481和98.886。精确度、召回率和F1得分都是0.99，科恩的Kappa得分是0.98。训练和测试的错误率分别为0.006519和0.01114，这是相当低的。优化模型的训练和分类时间分别为760.501666和0.0155 s。ii) 所提出的系统的性能进行了比较，使用性能指标，如精度，召回率和F1分数所提出的系统的性能进行评估的精度，召回率，和f分数，并在表4所提出的研究进行多类分类与23类。实验采用10折交叉验证方法进行，并使用精确度、召回率和F1得分等参数对每个类的性能进行评估F1- score用于平衡准确度、精确度和召回率。表4中的结果表明，MDLNN分类器是水质多类分类的几乎完美的分类器。iii) 超参数优化前后分类评分的比较B. Nemade和D. Shah沙特国王大学学报5130表3超参数优化的MDLNN分类器性能模型1模型2Model 3模型4模型5模型6模型7地层4455236单位362432512400256176224学习率0.00010.00010.010.010.0010.010.01历元50030030010101010验证损失0.040.0667520.0826640.4343910.4660070.4416890.543909训练精度99.348198.6898.2285.9585.985.0483.44测试精度98.88697.8197.4385.4785.7284.7983训练错误率0.0065190.01320.01780.14050.1410.14960.1656测试错误率0.011140.02190.02570.14530.14280.15210.17精度0.990.980.970.870.860.850.84召回0.990.980.970.850.860.850.83F1得分0.990.980.970.850.850.840.83科恩卡帕0.9883530.9770970.9731280.8480750.8506770.8409820.822309训练时间（秒）760.501666544.536645.37616.8066610.7562667.3949339.4117333分类时间（秒）0.01550.01380.01430.0130.0120.010.0122表4使用精度，召回率，F1分数的建议系统的性能。标记因变量因变量精度召回F1得分0F0.980.910.951E0.970.980.982D0.970.980.983DE0.990.990.994C0.970.990.985CE0.99116CD0.99117B0.980.980.988被1119BD0.980.980.9810BDE0.991111BC0.980.980.9812公元前11113BCD0.9910.9914BCDE11115AB0.990.990.9916安倍0.9910.9917Abd10.990.9918Abde0.990.990.9919ABC11120ABCE11121ABCD11122ABCDE111表5显示了我们在有和没有超参数优化过程的情况下进行的实验的结果。实验结果表明，经过超参数优化处理后的结果有了很大的改善。应用随机搜索超参数优化方法后，结果有了明显的改善。表5显示优化前的准确度为81.78%，而优化后的最佳准确度为99.34%。在超参数优化之前，精确度，召回率和F1分数都是0.81，而优化后它们提高到0.99Cohen科恩表5超参数优化前后分类得分的比较。性能测量优化前优化后（随机搜索）精度81.7899.3481精度0.830.9

下载后可阅读完整内容，剩余1页未读，立即下载