没有合适的资源?快使用搜索试试~ 我知道了~
WEUSEDTO水终端使用数据集和工具:开放的水终端使用消费数据及分析工具
软件X 20(2022)101214原始软件出版物WEUSEDTO-水终端使用数据集和工具:开放的水终端使用消费数据集和数据分析工具Anna Di MauroPados,Salvatore Venticinque,Giovanni Francesco Santonastaso,Armando Di NardoUniversità della Campania Luigi Vanvitelli,Via Roma,29,81031,Aversa(CE),意大利ar t i cl e i nf o文章历史记录:接收2四月2021收到修订版2021年12月31日接受2022年保留字:数据集水管理用户a b st ra ct全球化、气候变化、创新技术和新的人类习惯增加了对水资源保护和管理的关注。因此,行为研究成为一 个关 键 因素 ,了 解如 何 以及 何 时 在住 宅 环境 中 使用 水 。 Water End USE Dataset and TOols(WEUSEDTO)是一个开放的水终端使用消费数据集和数据分析工具,已发布,以帮助研究人员,水务公司和公司在真实的用水量数据上测试模型和算法。该数据集与一些笔记本Python相结合,能够分析高分辨率的水数据(每秒记录1个样本的数据),以提供多种工具来管理原始数据,计算统计分析,学习夹具使用和生成合成模拟模型。此外,洗脸盆流量数据被用作测试案例,以说明WEUSEDTO的主要功能:提供单次事件的量和持续时间,分类使用和模拟用户©2022作者(S)。由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。代码元数据当前代码版本v1.0用于此代码版本的代码/存储库的永久链接https://codeocean.com/capsule/9225099/tree/v1代码海洋计算胶囊10.24433/CO.3634054.v1https://codeocean.com/capsule/9225099法律代码许可证GPL v3使用git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求,操作环境依赖matplotlib,pandas,numpy,scipy,sklearn,joblib如果可用,链接到开发人员文档/手册https://water-end-use-dataset-tools.github.io/WEUSEDTO/docs/html/问题支持电子邮件anna. unicampania.it,salvatore.unicampania.it,ing. gmail.com1. 动机和意义全球化、城市化和气候变化增加了人们对水资源短缺和环境可持续性问题的关注。水资源管理已经发展到将水资源消耗数据(WCD)作为配水系统决策过程的一个输入,以实现节水战略,提高供水网络效率,促进需求管理行动并降低成本[1,2]。城市地区的水资源保护是一个持续的挑战。取决于对*通讯作者。电子邮件地址:anna. unicampania.it(Anna Di Mauro).https://doi.org/10.1016/j.softx.2022.101214由于过去几十年的经济和社会变化导致了人类行为对WCD [3]的影响,人们对最终用户消费数据建模越来越感兴趣,以调查用户如何驱动用水量[4]。在这方面,智能水计量技术的进步提高了WCD的可用性,为水需求建模带来了可观的好处[5]。这些措施包括,例如,行为研究、客户细分、数据驱动模型和面向用户的水需求管理策略。从智能电表数据中提取有关用水行为的信息,可以了解住宅环境中用水的方式。在文献中,已经提出了几种分析智能水表数据的方法来提取水事件信息,例如流迹2352-7110/©2022作者。 由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softx放大图片作者:Anna Di Mauro,Salvatore Venticinque,Giovanni F.Santonastaso等人软件X 20(2022)1012142×分析[6]、导数信号[7]、分类技术[8,9]和压力传感[10,11]。尽管智能电表不断发展,但由于评估案例研究的复杂性[12],即智能电表的侵入性、隐私问题、传感器放置的困难等,在家庭和最终使用层面缺乏开放数据集。水需求研究需要以适合研究人员需求的格式,以有助于探索水问题的相关空间和时间分辨率轻松获得数据此外,可用的数据需要软件和/或统计工具来提取有意义的信息,以用于更有效的决策[13]。出于这个原因,收集和使用WCD的巨大兴趣伴随着能够管理它们的软件的开发的传播。已经提出了许多工具来分析具有不同目的的水终端使用数据:水需求预测[14],数据过滤[15],统计工具[16],物联网监测系统管理[17],综合城市水建模[18],特别是水需求分解[7]。这些工具使用调查或家庭一级的数据,以进一步了解居民用水模式。如[19]所述,据作者所知,既没有相关的开放数据存储库,也没有基于在夹具水平实时收集的数据的研究。文献[19]中缺乏此类数据,这对开发需求侧管理和预测的创新算法/技术以及提供能够准确描述最终用户用水量概况的数据分析工具构成了障碍。然后,这项工作的主要贡献是提供了第一个开放水域最终用途数据集,并提供了用于分析的开源软件。本文介绍了水终端使用数据集和工具(WEUSEDTO),这是一个开放的水终端使用数据集和工具集,可用作训练数据集工具,以研究机器学习技术,表征终端使用的水消费概况,以及测试,分析和识别创新的水解决方案和管理策略。WEUSEDTO有助于识别对用户分析至关重要的客户行为。此外,如[20]中所报告获得的数据集,其有可能适合作为训练和测试水固定装置特征的数值基准,而该软件可用于识别可用于合成模拟模型的固定装置相关统计数据,如[21]中所报告。此外,该软件允许下载/收集时间序列,运行分析,提供可视化笔记本。2. 软件描述所提出的软件允许分析的水需求,mand时间序列获得的原始措施,在固定装置的水平。它已被用来试验一种方法,旨在通过综合使用统计参数和机器学习技术来建立水消费概况模型。最终目标是利用这些模型来模拟和预测更大规模(几个用户、建筑物等)的用水量,而且在今后的工作中设计和发展分类技术。该软件在Zenodo[22]和这个公共GitHub存储库中提供:github.com/Water-End-Use-Dataset-Tools/WEUSEDTO。该软件可以在任何操作系统上运行,Python解释器(V3.8)已用于运行当前版本,以及用于数据分析的公 共 库 ( pandas , scipy , numpy , sklearn , mat-plotlib ,joblib)。are required.所需python库和其他资源的详细列表可以在上面报告的GitHub存储库中找到。2.1. 软件构架该软件由四个Python包组成,如图所示。1.一、时间序列包包括用于处理原始数据的代码,以检测相关的样本序列或计算时间序列的定义特征列表。模型包用于抽象应用程序域中允许构建消费配置文件的对象。根据用户的行为,提供了三个模型此外,还讨论了时间序列曲线的参数化建模学习包使用机器学习技术进行时间序列聚类和夹具使用预测。最后,模拟包利用生成的模型和机器学习技术来模拟多个用户的用水情况,这些用户的行为可以与从措施中提取的行为相类似。提供了一些使用核心软件包的程序示例,以演示如何使用该软件从数据分析到模型生成以及最终的仿真。2.2. 软件功能软件功能分布在前面介绍的软件包中。timeseries包允许检测每个灯具使用的发生(开始和停止)。一个简单的分裂功能的工作原理是比较样品与一个emptums阈值,这表示一个单一的液滴的流速。阈值等于6 ml/s,并且它对应于由传感器记录的流量的最小值此外,还开发了一种更复杂的算法,以考虑传感器传输的延迟和体积低于预定义最小值的切割用量还开发了用于计算每次使用最后,支持与异常使用检测相对应的覆盖过滤例如,考虑其持续时间、样本数量或消耗的水量结果低于可以由软件设置的定义值的使用该软件允许从检测到的使用的集合中提取统计参数,用于在该器具的使用方面对用户的行为进行建模。三种类型的用户最适合用户行为的模型是在一天中的某个研究学习技术以从数据中理解不同类别的用水量,其可以与特定用户的活动(例如,刷牙,洗手,. .),可以区分。特别是聚类技术被用来识别组相似的时间序列和质心的每个集群表示的样条近似。聚类的样条表示补充了统计表示,一个完整的夹具使用模型。机器学习还用于推断使用的时间发生(例如,一周中的一天和一天中的一小时)。所提供的实现使用随机森林算法。软件的最后一个功能是模拟使用m个固定装置的n个人的用水量。人的数量n是先验建立的,并且对于每个模拟随时间保持恒定。对于每一个n米灯具的相关统计模型被利用来生成一个可能的分布,在一天中的用户的使用。随机森林算法允许预测每个使用将属于哪个集群。该聚类的样条表示用于再现用水流量的时间序列。放大图片作者:Anna Di Mauro,Salvatore Venticinque,Giovanni F.Santonastaso等人软件X 20(2022)1012143Fig. 1. 统一建模语言(UML)类图。2.3. 原始数据图二. 耗水量参数。WEUSEDTO数据。这些数据是以Creative Commons Attribution 4.0International License CC-BY-4.0发布的。软件存储库包含9个导出为CSV文件的原始测量时间序列。它们对应于作为案例研究的公寓中监测的固定装置,以及整个房屋的总消耗。收集的数据对于分解时间序列具有1秒分辨率,对于聚合测量具有10秒分辨率,从2019年3月到2020年10月跨越1年。 如[20]所述,使用物联网(IoT )水终端使用监测系统收集固定装置级别的WCD。处的WCD家庭级的数据是使用基于长距离(LoRa)无线传输技术的超声波水表收集的。数据规范和WEUSEDTO时间序列可在此公共GitHub存储库中获得:https://github.com/AnnaDiMauro/3. 说明性实例为了解释WEUSEDTO的主要功能,报告了以下软件包的输出:模型,学习和模拟。洗脸盆被用作测试用例来显示软件的结果。在图2中,表示了由模型包检测到的洗脸盆固定装置的使用情况,具体地,使用量[L]、持续时间[s]和使用次数以两个时间尺度显示:一天中的小时和一周中的天学习包的输出如图所示。3 .第三章。洗脸盆使用的聚类结果是根据使用的持续时间相对于消耗放大图片作者:Anna Di Mauro,Salvatore Venticinque,Giovanni F.Santonastaso等人软件X 20(2022)1012144图3.第三章。 用聚类和样条近似法模拟时间序列的使用。图四、 在八 月 的 一个随机的 日子里 , 六 个用户使用脸盆的模拟结果。水(图)3(a)),鉴定了三个簇:C1、C2和C3。此外,图3(b)示出了属于集群C1的十个时间序列和表示集群的水消耗事件的平均分布的样条。具体而言,回归函数样条使用[23]中报告的方法计算为了模拟6个表现出相同行为的用户,我们利用统计模型为每个用户生成一天中灯具使用的时间分布。使用随机森林算法,训练模型用于将洗脸盆使用的每次出现与相应的聚类相关联。然后由相应的样条函数生成不同用途的水量剖面。然后,仿真包结果如图所示。第4(a)段。同样的时间序列被放大图4(b).对软件的准确性进行了初步估计,并使用另一个类似的数据集进行了测试,并提供了可接受的结果。不过,在今后的工作中将开展进一步的调查感兴趣的读者可以访问GitHub存储库,以获取有关原始数据集和属于Almanac of Minutely Power数据集(AMPdS)的水数据的所有阐述的进一步和更新信息[24]。4. 影响水务公司、利益相关者和研究人员努力寻找对研究应用有价值的可用高分辨率数据集和工具,以调查和验证创新解决方案,从而改善水需求管理、估计需求高峰时间、识别需求模式、表征用户在这方面,了解水资源消耗是如何分配的,在各个固定装置之间(即,淋浴、卫生间、水龙头等) 代表了一个关键因素,开发分解算法,能够分解WCD计量在家庭层面到单一的最终用途类别,避免传感器的位置在固定装置的水平。利用高分辨率时间采样为住宅家庭的每个灯具收集的WCD包括与单个使用事件相对应的水特征,其需要使用能够将水需求与用户习惯相关联的新数据分析工具由于传感器的侵入性,水的使用经常通过调查、审计和水事件日志来定义,而分解则是一个盲目识别的问题[5]。在水研究文献中,出现了识别无监督或半监督学习方法的需求[25],该方法避免数据采集,允许识别典型的消费行为和模式,对设计个性化需求管理策略有价值。WEUSEDTO将软件与高分辨率数据结合在一起,解决了开放式水终端消费数据和数据分析工具的需求,能够改善水的分解并研究新的机器学习技术。5. 结论WEUSEDTO是一个开放水域终端使用数据集和软件,基于1s时间分辨率的家庭固定装置的实际测量。该软件由时间序列、模型、学习和模拟四个Python包组成,已用于测试基于时间序列统计分析和机器学习技术构建用水量分布模型所获得的模型用于理解如何使用高分辨率数据来模拟和预测不同尺度的数据集加上软件放大图片作者:Anna Di Mauro,Salvatore Venticinque,Giovanni F.Santonastaso等人软件X 20(2022)1012145对研究人员和水务公司来说是一个很好的机会,因为它代表了为水数据开发定制的机器学习、验证分解算法和提供创新管理策略的起点。事实上,详细的需求分析和预测允许采取先进的供水措施,旨在仅在真正需要时提供更多资源,在可用压力,成本和减少水损失方面具有几个优势。资金该研究是坎帕尼亚大学Luigi Vanvitelli的V:ALERE:2019项目竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作引用[1] Inman D,Jeffrey P.住宅节水工具性能及其对实施有效性的影响。城市水J2006;3(3):127[2] Sharma SK,Vairavamoorthy K.城市水需求管理:发展中国家的前景和挑战。水环境J2009;23(3):210-8.[3] Willis RM,Stewart RA,Panuwatwanich K,Williams PR,HollingsworthAL 。 量 化 环 境 和 水 资 源 保 护 对 家 庭 最 终 用 水 量 的 影 响 。 J EnvironManag2011;92(8):1996-2009.[4] 放大图片作者:Koop SH,Van Dorssen AJ,Brouwer S.增强家庭节水行为:影响策略的实证研究综述。JEnviron Manag2019;247:867-76.[5] Cominola A,Giuliani M,Piga D,Castelletti A,Rizzoli AE. 使用智能电表推进居民用水需求建模和管理的好处和挑战:综述。环境模型软件2015;72:198-214。[6] DeOreo WB,Heaney JP,Mayer PW.用于评估水用途:通过分析住宅水表的水流轨迹,研究人员能够收集有关单个装置用水的精确数据。《美国水 利 工 程 杂 志 》 1996;88 ( 1 ) : 79-90. http://dx.doi.org/10.1002/j.1551-8833.1996.tb06487.x。[7] Bethke GM,Cohen AR,Stillwell AS.新兴研究者系列:Dis-通过无监督机器学习将住宅部门的高分辨率智能水表数据聚合到家电终端用户中。环境科学:水资源技术2021;7(3):487-503。http://dx.doi.org/10.1039/d0ew00724b.[8] 作者:David J.使用次计量水和重合电力数据的水事件分类。水(瑞士)2018;10(6)。[9] Meyer BE,Jacobs HE,Ilemobade A.从基本数据中提取家庭用水事件特征。JWater Supply:Res Technol - AQUA2020;69(4):387-97.[10]Larson E,Froehlich J,Campbell T,Haggerty C,Atlas L,Fogarty J,et al.HydroSense : Disaggregated water sensing from a single , non-intrusivepressure-based sensor. 2010 年 , 任 正 非 。 http://dx.doi.org/10 的 网 站 。1016/j.pmcj.2010.08.008。[11]Froehlich J,Larson E,Saba E,Campbell T,Atlas L,Fogarty J等人,压力传感的纵向研究,以推断家庭中的真实用水事件。于:计算机科学讲义(包括人工智能子系列讲义和生物信息学讲义),第6696卷LNCS。2011年,第50-69页。http://dx.doi.org/10.1007/978-3-642-21726-5_4.[12]Fagiani M,Squartini S,Gabrielli L,Spinsante S,Piazza F.智能天然气和水网的数据集和负荷预测技术综述:分析和实验。神经计算2015;170:448-65. 网址://dx.doi.org/10.1016/j.neucom.2015.04.098网站。[13]Grover P,Kar AK.大数据分析:对文献中使用的理论贡献和工具的评论。Glob J Flexible Syst Manag 2017.[14]Pesantez JE,Berglund EZ,Kaza N. 智能仪表数据用于在用户层面建模和预测水需求。125.第一百二十五章[15]Pastor-Jabaloyes L,Arregui FJ,Cobacho R.高分辨率水流轨迹的过滤算法,以改善水的最终用途分析。水科学技术:供水2019;19(2)。[16]Kossieris P,Makropoulos C.探索精细时间尺度下居民需水量的统计和分布特性。水(瑞士)2018;10(10)。[17]Pacheco CJ,Horsburgh JS,Tracy JR.一个低成本的开源监测系统,用于收集高时间分辨率的水资源使用数据的磁驱动住宅水表。传感器(瑞士)2020;20(13):1[18]Mostafavi N,Shojaei HR,Beheshtian A,Hoque S.城市综合代谢分析工具(IUMAT)中的居民用水量建模。Resour Conserv Recy2018;131:64-74.[19]Di Mauro A,Cominola A,Castelletti A,Di Nardo A.多时空尺度下的城市用 水 量 。 对 现 有 数 据 集 的 审 查 。 水 ( 瑞 士 ) 2021;13 ( 1 ) : 1-31 。http://dx.doi.org/10.3390/w13010036.[20]Di Mauro A,Di Nardo A,Santonastaso GF,Venticinque S.用于监测和收集居民最终用水量数据的物联网系统。在 :会议记录-计算机通信和网络国际会议,卷。2019年7月IEEE; 2019,p.1比6[21]Di Mauro A,Di Nardo A,Santonastaso GF,Venticinque S.开发物联网系统 ,用 于生 成 居民 最终用 水量 时间 序列 数 据库 。 Environ Sci Proc 2020;2(1):20.[22]Di Mauro A,Venticinque S,Santonastaso G,Di Nardo A. WEUSEDTO-水终端使用数据集和工具:开放的水终端使用消费数据集和数据分析工具。2021年,可在线获取:http://dx.doi.org/10.5281/zenodo.4651443。[23]Horn G,Venticinque S,Amato A.从测量推断电器负载分布。In:Di FattaG,Fortino G,Li W,Pathan M,Stahl F,Guerrieri A,editors.互联网和分布式计算系统。Cham:SpringerInternational Publishing; 2015,p. 一一八比三十[24] Makonin S,Ellert B,Bajić IV,Popowich F. 2012年至2014年加拿大住宅的电力,水和天然气消耗。SciData2016;3.http://dx.doi.org/10.1038/sdata.2016.37网站。[25]Carboni D,Gluhak A,McCann JA,Beach TH.在住宅环境中使用水的背景 : 非 侵 入 性 技 术 和 方 法 的 调 查 。 传 感 器 ( 瑞 士 ) 2016;16 ( 5 ) 。http://dx.doi.org/10.3390/s16050738网站。
下载后可阅读完整内容,剩余1页未读,立即下载
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)