没有合适的资源?快使用搜索试试~ 我知道了~
软件影响15(2023)100468原始软件出版物使用FBProphet在python中开发智能仪表合成数据生成器Ezhilarasi P.a, Ramesh L. b,刘秀峰c,Jens Bo Holm-Nielsen da电子&通信工程,M.G.R.博士 教育和研究所,Chennai 95,印度b电气和电子工程,M.G.R.博士印度金奈95教育研究所c丹麦技术大学技术系,管理和经济学,丹麦林比丹麦奥尔堡大学能源技术系,6700 Aalborg,A R T I C L E I N F O关键词:智能电表数据发生器时间序列综合数据A B标准数据科学是现代科学的关键组成部分,因为它为人工智能,机器学习和数据分析等提供了动力。随着电网现代化成为智能电网,它也越来越依赖数据科学来监测和控制电网活动。真实的数据对于评估算法的可行性至关重要,但它由于许多国家严格的隐私和安全政策,很难获得真正的智能电表数据。在本文利用prophet库,编写并开发了一个基于预测的综合数据生成器GUI,用于生成综合数据集。代码元数据当前代码版本V1.1用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-132可复制胶囊的永久链接https://codeocean.com/capsule/0796106/tree/v1GNU通用公共许可证(GPL)使用git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求、操作环境和依赖Python 3.9.12 Pandas Tkinter Prophet如果可用,请链接到开发人员文档/手册问题支持电子邮件ezhilarasihg@gmail.com1. 介绍智能电网由于其对消费者和公用事业的巨大利益而成为能源领域研究最多的领域[1]。由于从所有连接的智能节点实时收集的大量数据(大数据),智能电网变得越来越数据密集。具体而言,智能电表对于将电网现代化为智能电网至关重要。[2]大数据将在智能电网中发挥重要作用,因为更多的分布式能源系统和电动汽车将连接到电网。随着大数据问题的增长,越来越需要强大的算法来处理它们。因此,智能电表数据分析研究进行得更深入。 在智能电表数据分析领域,使用智能电表数据测试算法以提高性能。为了测试开发的算法的有效性,需要大量的实时数据[3]。本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。*通讯作者。电子邮件地址:ezhilarasi. drmgrdu.ac.in(Ezhilarasi P.),ramesh. drmgrdu.ac.in(Ramesh L.),xiuli@dtu.dk(X. Liu),jhn@energy.aau.dk(J.B.Holm-Nielsen)。https://doi.org/10.1016/j.simpa.2023.100468接收日期:2022年12月27日;接收日期:2023年1月12日;接受日期:2023年1月15日2665-9638/©2023作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsEzhilarasi P.,拉梅什·LX. Liu等人软件影响15(2023)1004682表1论文分析处理季节性和和Pandas是这个项目中使用的主要库。使用FBprophet库进行时间序列预测数据清理框架使用方案趋势移除[5] Spark AR中心移动平均线[2] Spark AR移动平均线CSV文件的处理使用Pandas完成,Tkinter用于为所提出的数据生成器开发GUI。该源数据集来自英国电力网络[6]生成对抗性ARIMA2011年至2014年2月,这是一个10 GB的CSV文件,包含167 mil-5600个独特的半小时能量消耗记录的狮子行[8]。网络(GAN)不幸的是,许多国家都有隐私和安全相关的政策,这使得很难获得智能电表数据集[4]。合成数据被广泛用于缓解上述问题,而不会损害隐私和安全问题。下表1。总结了不同作者在合成数据生成方面的研究工作如今,AI算法可以用来生成合成数据,但它们是随机生成的,它们相似的可能性与原始数据的差距非常小。 有许多大数据框架可用于生成 合 成 数 据 , 包 括 Hadoop-Hbase , Cassandra , Elasticsearch ,MongoDB和Spark。 除此之外,各种时间序列分析模型已被用于产生上述合成数据,包括AR-自回归、MA-移动平均、ARMA-自回归移动平均和ARIMA-自回归积分移动平均。在上述模型中,源数据集用于基于时间约束预测未来数据集。为了实现对输入数据集的预测,源数据集中不应存在恒定均值和方差等平稳性条件[7]。此外,源数据集应该没有季节性和趋势,以获得更好的预测数据集[6]。ARIM是最常用的合成数据生成模型。然而,重要的是在预处理中适当地选择p、d和q,以去除季节性和趋势。 如果没有这种预处理,预测结果将与原始结果有很大差异。各种编程语言可用于生成合成数据生成器,包括Python、R、Scala、Julia、Java、SQL、MATLAB和JavaScript。但最重要的是,Python是最常用的,因为它是开源的性质和其巨大的库支持基础,它是最常用的编程语言。 本文使用Python中的Facebook prophet(FBprophet)库对智能电表合成数据生成器(Smart meter-SDG)进行建模。 使用Python的一个主要优点是它接受pandas的库,这是处理大型数据集的理想选择。Pandas框架能够调优数据集。此外,根据程序的要求,这两个库的使用方式也不同。与上述处理预测的库模型相比,Prophet库提供了最大的优势,因为它自动删除了季节性和趋势。Prophet库消除了预先计算的需要,以去除趋势,季节性和其他影响时间序列分析的因素。使用FBprophet库,我们编码和开发基于预测的合成数据生成器GUI,其生成合成数据集。源CSV(实时)文件用于根据要计算的仪表数和天数生成CSV格式的合成数据。使用FBprophet,可以基于将季节性、年度、每周和每日趋势以及假日效应集成到非线性趋势中的加性模型来预测时间序列数据。该算法在有多个季节时最有效 历史数据和数据序列中的强烈季节性影响2. 软件描述2.1. 方法合成数据生成器的编程包括两个主要部分:1. 数据清理2.合成数据生成。Tkinter,FBprophet,在5600个唯一客户ID中,选择20个消费者数据集作为合成数据生成的输入源。初始CSV文件包含用户ID、电价模式以及每半小时的能耗数据和读数的日期时间。 图1说明了综合数据发生器的工作模型。2.2. 执行2.2.1. 预处理算法作为预处理的一部分,使用Pandas数据框架导入Hugh数据源文件。与Pandas相比,Pandas可以有效地处理大型数据文件,而不会出现时间延迟。编码的初始部分主要集中在基于消费者用户ID分离20个不同的消费者。每个消费者的每周能耗数据被过滤并转换为唯一的源CSV文件。对其余20个消费者遵循类似的过程,从而产生20个不同的源CSV文件。这些过滤后的文件用作Smart meter-SDG的输入文件,并使用该源文件FBProphet库预测结果第一阶段使用Pandas框架重新编译raw源文件第二阶段 根据消费者id选择20个不同的消费者并保存 它使用pandas框架作为单独CSV文件第三阶段使用pandas的filter命令从每个消费者ID过滤每周数据集,并将其存储为数据生成器预测的源数据文件第四阶段对所有20个消费者重复第3阶段的过程,以生成20个不同的CSV源文件2.2.2. 数据生成在此代码块中,将处理来自CSV的数据,以获得合成数据生成器的预测结果。为了与用户进行交互,Tkinter库及其依赖关系被合并到GUI中。创建了两个输入小部件,用于从用户处获取要预测的仪表数量和天数的数据。根据用户输入的仪表数量即,n= 20个csv文件中的20个,n个文件被选择并作为输入文件到生成器进行预测。预测是通过FBPprophet库根据输入的天数进行的。没有必要检查数据集中的季节性和趋势,因为库本身在使用FBProphet库时会自动删除它们。CSV文件应包含两个列名为ds(数据和时间)和dns(变量使用FBProphet预测同样,ds列也会在继续之前转换为实际的日期时间数据类型。由于源数据集是基于30分钟的,因此在T= 48*t的时段内执行预测,其中t=天数。在输入数据集中总共包括337行能耗信息。共划分337个数据点分为300个测试点和37个训练点。在Python中,机器学习算法和神经算法使用训练和测试来预测未来的值。通过使用pandas数据框,会根据天数创建多个单独的csv文件。除此之外,还生成了n个CSV文件,其中包含库预测的所有组件。第一阶段 使用Tkinter库第二阶段用户需要两个输入参数来决定需要多少天和多少仪表数据Ezhilarasi P.,拉梅什·LX. Liu等人软件影响15(2023)1004683Fig. 1. 数据生成器软件的工作模式。图二. GUI用于获取用户输入。表2这种必要性被扩展到需求方管理,预测能源消耗,以提醒消费者拉屎他们的负载论文申请[11]生成合成负载模式[12]聚类方法[13]智能家居中的合成数据生成[14]消费者隐私缓解[15]家庭非侵入式负荷监测[16]ML需求数据生成[17]综合电力系统[18]智能电表数据分析第3阶段:提交后,根据用户输入的血糖仪数量,确定要加载到数据发生器的CSV文件数量阶段4从源文件数据集计算训练和测试数据点以进行预测阶段5根据天数(T),使用FBProphet库第六阶段:最后根据仪表数(n),利用panda的数据框架,将预测结果以CSV文件的形式保存为n个不同的数据集3. 影响概述3.1. 实时应用多项研究[9,10]已经表明,合成数据如何有助于智能电网数据分析,以提高科学研究和模拟的效率下表2列出了一些研究文章,这些文章强调了智能电网数据分析中合成数据的必要性,以改进智能电网中的数据分析算法。到非高峰期能源消耗的细节也预测使用合成数据。我们在这项研究中提出的软件的直接受益者是智能电网数据分析和公用事业的研究人员,他们需要实施预测能源消耗的需求侧管理。ML和AI在智能电网中的渗透,研究人员需要在智能电网模型和管理程序上测试各种算法。开发成功的AI和ML模型需要访问大量高质量的数据。因此,对于他们的决策过程,他们严重依赖实时数据集来训练开发的AI和ML。但缺乏这种实时数据限制了智能电网分析的研究范围。为了缓解这些问题,需要与实时数据非常相似的合成数据。一项研究[19]报告称,70%的情况下,合成数据产生的结果与真实数据相当随着开发的软件研究人员可以得到所需的预测或预测数据集的数量通 过 与 GUI 进 行 交 互 与 适 当 的 输 入 。 从 https : //github 。com/pogog/sythic-da-generar. git,软件框架可以下载并在任何python编辑环境下执行。成功运行框架后,以CSV文件的形式生成所需的输出,以供研究之用。此外,我们的方法可以很容易地适应需求侧管理与预测输入(合成数据),以提高能源效率的消费者侧。基于历史数据的需求侧管理是智能电网中较为常用的一种方法。但是收集和访问这些历史是非常困难和耗时的。 在这种情况下,开发的软件可以预测的数据的基础上,实时数据,它可以用于DSM。开发的智能电表SDG使用FBProphet库来处理非常基本的能源消耗细节数据集,不会延迟200天。该软件开发了一个简单的GUI与用户交互,以从用户处获得运行程序所需的详细信息。图2.说明了所开发软件的图形用户界面。Ezhilarasi P.,拉梅什·LX. Liu等人软件影响15(2023)1004684图三. 生成的CSV数据集具有365天的预测值。3.2. 成果通常,收集用于测试的实时数据是繁琐且耗时的。因为合成数据是测试数据分析中各种算法的更好选择,因为它很容易获得,并且可以在没有时间延迟的情况下收集。此外,我们的软件可以处理大量的数据集,延迟更少,并产生所需的输出CSV文件。与[2,5,20]中所述的其他方法相比,图图3显示了3个房屋的CSV文件成功生成了365天,图3显示了3个房屋的CSV文件成功生成了365天。4显示了使用FBProphet库预测的所有组件。在该开发的软件中,基于以下各项预测和生成与原始数据集密切相关的合成数据集:用户的需求和他们的比较分析是可视化的图。五、FBProphet库用于生成合成数据集,其中自动消除了时间序列数据计算中的挑战,如季节性和趋势。这个库减少了计算量图四、生 成 的CSV数据集包含3 6 5 天 预 测 值 的 所有组成部分。图五、 实际消耗量与不同生成的 CSV文件中的预测数据的比较。Ezhilarasi P.,拉梅什·LX. Liu等人软件影响15(2023)1004685所开发的软件产生合成数据的时间和复杂性。科学家、研究人员和开发人员可以使用合成数据集测试智能电表算法,而不会影响隐私或安全。该软件可以进一步开发,如季节选择,集群选择等更多的控制参数竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作引用[1]S. Jain,K.N. Vinoth,A. Paventhan,V. Kumar Chinnaiyan,V. Arnachalam,M.Pradish,智能电网技术调查-智能计量,物联网和EMS,在:2014年IEEE学生会议电子电子计算。Sci. SCEECS 2014,2014年。[2]M.H. Ansari,V. Tabatab Vakili,B. Bahrak,评估智能电网分析的大数据框架,J.Big Data 6(1)(2019)。[3]T. Sirojan,S. Lu,B.T. Phung,E. Ambikairajah,用于实时智能电表数据分析的嵌入式边缘计算,在:2019年智能能源系统和技术国际会议,SEST,2019年,pp. 1比5。[4]D. Lee,D.J. Hess,数据隐私和住宅智能电表:比较分析和协调潜力,Util。政策70(2021)101188.[5]N.伊夫提哈尔角Liu,S. Danalachi,F.E. Nordbjerg,J.H. Vollesen,一种使用spark的可扩展智能电表数据生成器,在:Lect. Notes Comput. Sci.(包括Subser。Lect.Notes Artif.内特尔Lect. Notes Bioinformatics),10573 LNCS,2017,pp. 21比36[6]C. Zhang,S.R.库潘纳加里河Kannan,V.K. Prasanna,智能电网中合成时间序列数据 生 成 的 生 成 对 抗 网 络 , 在 : 2018 IEEEInt. Conf. Commun 。 控 制 Comput.Technol.智能电网,SmartGridComm2018,2018,pp. 1比6[7]S. Mohanasundaram,G.S.库马尔湾Narasimhan,一种新的去季节化时间序列模型,改进了地下水位预测的季节估计,H2OpenJ. 2(1)(2019)25-44。[8]联合电力网络,伦敦家庭智能电表能源消耗数据,2015年,[在线]。可用网址:https://data.london.gov.uk/dataset/smartmeter-energy-use-data-in-london-households。[9]C. Zhang,S.R.库潘纳加里河Kannan,V.K. Prasanna,智能电网中合成时间序列数据生成的生成对抗网络,2018年IEEE智能电网通信,控制和计算技术国际会议,SmartGridComm,2018年。[10] S. Asre,A. Anwar,使用时变生成对抗网络的合成能源数据生成,电子学11(3)(2022)355。[11] S.E. Kababji,P. Srikantha,用于生成合成负载模式和使用习惯的数据驱动方法,IEEE Trans. 智能电网11(6)(2020)4984[12] K. Mason,S. Vejdan,S. Grijalva,一个有效生成合成大数据集的“动态”框架,2019年IEEE大数据国际会议,大数据,2019年。[13] M. Razghandi等人,变分自动编码器生成对抗网络用于智能家居中的合成数据生成,在:ICC 2022 - IEEE国际通信会议,2022年。[14] S. Desai等人,使用基于混淆的生成对抗网络减轻智能电网中的消费者隐私泄露。Eng.19(4)(2022)3350-3368。[15] C. Klemenjak等人,一个用于家庭非侵入式负载监测的合成能源数据集,Sci。数据7(1)(2020).[16] B.耶尔马兹河Korn,针对个体电力消费者的合成需求数据生成:生成对抗网络(GANs),能源AI 9(2022)100161。[17] H. Li等人,综合电力系统负荷时间序列的建立和验证,IEEE Trans. 电源系统36(2)(2021)961[18] J.N. Kahlen,A. Muhlbeier,M. Andres,A. 莫泽湾Rusek,D. 昂格尔,K。Kleinekort,合成数据-一种无故障状态测量的高压设备列车诊断系统解决方案,CIGRE Sci。Eng.2022(24)(2022)1-28.[19] N.帕特基河Wedge,K. Veeramachaneni,The synthetic data vault,in:2016IEEEInternationalConference on Data Science and Advanced Analytics,DSAA,2016。[20] N. 伊夫提哈尔角 Liu,F.E. Nordbjerg,S. Danalachi,一个基于预测的智能电表数据生成器,在:2016年第19届基于网络的信息系统国际会议,NBiS,2016年,pp. 173-180。
下载后可阅读完整内容,剩余1页未读,立即下载
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- BSC关键绩效财务与客户指标详解
- 绘制企业战略地图:从财务到客户价值的六步法
- BSC关键绩效指标详解:财务与运营效率评估
- 手持移动数据终端:常见问题与WIFI设置指南
- 平衡计分卡(BSC):绩效管理与战略实施工具
- ESP8266智能家居控制系统设计与实现
- ESP8266在智能家居中的应用——网络家电控制系统
- BSC:平衡计分卡在绩效管理与信息技术中的应用
- 手持移动数据终端:常见问题与解决办法
- BSC模板:四大领域关键绩效指标详解(财务、客户、运营与成长)
- BSC:从绩效考核到计算机网络的关键概念
- BSC模板:四大维度关键绩效指标详解与预算达成分析
- 平衡计分卡(BSC):绩效考核与战略实施工具
- K-means聚类算法详解及其优缺点
- 平衡计分卡(BSC):从绩效考核到战略实施
- BSC:平衡计分卡与计算机网络中的应用
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)