没有合适的资源?快使用搜索试试~ 我知道了~
软件影响15(2023)100458原始软件出版物TS-Evolutionary_Prototyping:一个Python模块,用于在大量时间序列路易斯·罗德里格斯-贝尼特斯a,帕布·莱昂-阿尔凯德a,埃斯特·德尔卡斯蒂略a,路易斯·卡瓦涅罗-戈麦斯a,Jun Liub,Luis Jimenez-Linaresaa信息和系统技术系,Escuela Superior de Informatica,Universidad de Castilla-La Mancha,Paseo de la Universidad s/n,Ciudad Real,西班牙b英国北爱尔兰阿尔斯特大学计算机学院A R T I C L E I N F O保留字:时间序列汇总遗传算法弹性距离PythonA B标准时间序列分析已成为科学和工程技术领域的基本组成部分之一。因此,存在大量软件工具,其涵盖数据的准备、对数据的大量处理任务的执行、数据集的生成以及最后实施必要的评估技术。在上述任务中,是原型或总结的时间序列集,因为它们有直接的应用程序在解决集群问题。在这项工作中,我们介绍了一个Python包,它实现了一个进化策略找到原型。给定一组时间序列,所实现的软件使用动态时间规整(DTW)作为序列之间的距离度量来查找原型,并且不将原型的搜索空间限制在输入集的序列该软件还包括用于聚类和分类的用例代码元数据当前代码版本0.3.1用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-270Code Ocean computecapsulehttps://codeocean.com/capsule/7671671/tree/v1法律代码许可证MIT使用git的代码版本控制系统使用Python和C的软件代码语言、工具和服务编译要求、操作环境依赖性源代码中的文件requirements.txt(如果可用)源代码中的开发人员文档/手册的问题支持电子邮件luis. uclm.es1. 动机和意义一般来说,数据原型已被广泛用于许多领域,以发现模式,这将允许在大型和复杂的数据集中识别最重要的信息。鉴于近年来大型数据集的可用性,这种变化是彻底的,因为来自真实应用程序的信息过去不可存储,现在可以存储。此外,随着时间的推移,迫切需要删除它,以便存储一个更新的。如此大量的数据和时间序列之间的关系是,原文DOI:https://doi.org/10.1016/j.ins.2019.09.044。许多应用程序以时间序列的形式存储该信息。典型的例子包括收集运动数据、经济数据、生物特征数据[1],甚至是组成视频的图像。所有这些不同领域的大量数据及其在公共数据集中的可用性使得大量的科学贡献能够联系起来时间序列。在与时间序列相关的研究子领域中,我们可以确定降维、表示技术、使用具有不同特征的距离、不同的聚类算法和原型的定义,这是这里介绍的软件本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗通讯作者。电子邮件地址: luis. uclm.es(L. Rodriguez-Benitez)。https://doi.org/10.1016/j.simpa.2022.100458收稿日期:2022年11月30日;接受日期:2022年12月13日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsL. Rodriguez-Benitez,P.Leon-Alcaide,E.d.Castillo et al.软件影响15(2023)1004582关于处理时间序列的工具的可用性,在[2]中,提供了一个独立于域的Python工具,其中包含必要的预处理例程,用于进一步处理多变量时间序列。在[3]中,也是在Python中实现的,称为时间序列特征提取库(TSFEL)。它允许提取特征,这是稍后使用机器学习管道。一个Python实现 在[4]中,使用深度学习工具执行时间序列分类,其主要特征是超参数的选择 自动完成。另一方面,为了使用两个熵度量来量化两个时间序列之间的信息流,创建了RTransferEntropy包[5]。其他相关软件是时间序列实验室[6],它允许使用先进技术对时间序列另一方面,有些工具不再那么通用,而是针对更具体的应用领域,例如[7],它允许识别和解释沉积代用数据集中的古气候信号。在[8]中,作者专门研究了速度时间序列,并描述了一套创新的软件开发,用于自动解析、过滤(削峰)和计算平均流和湍流参数。在[9]中,提出了一个时间序列生成器(TiSeG),它分析了所有适用于时间序列生成的MODIS网格地面产品(MODLand)的像素级QA科学数据集。所提出的软件实现了一个函数库来获得质心,这是一个可以作为使用弹性距离的一组时间序列的原型的东西,特别是DTW [10]。 为了实现这一点,一系列的进化算法编程,研究不同的策略和方法来解决这个问题。一 关键点是通过段来表示序列,这就是为什么有必要使用弹性距离,例如 DTW。此外,在这些距离中使用的对齐概念是遗传算法实现的算子中的主要元素,例如评估和交叉。该库还包含最近质心(NC)算法的实现[11],最近邻(KNN)算法[12],使用DTW作为距离度量。[13]第十三话 储存库允许任何用户使用,而不管他们在这一领域的知识水平如何。2. 软件描述2.1. 软件功能在这一部分中,介绍了软件的主要功能。2.1.1. 实现了一种遗传算法在一组序列中寻找原型遗传算法(GA)是进化算法集的一个子集[14]。在这项工作中,遗传算法的实现,以获得一组时间序列使用DTW作为距离测量的代表。为此,一组运营商已实施管理操作的每一个遗传方法:变异,交叉,选择和评估的适应度函数。2.1.2. 为使用原型打字功能为了将该算法应用于序列质心计算以外的任务中,提出了一系列用于时间序列分组和分类的学习算法。软件中提供了两个100yter笔记本作为此任务的使用示例其内容详见第3节。2.1.3. 弹性距离计算两个时间序列之间的距离是至关重要的,而且它必须尽可能准确,因为它是图1.一、 模块GA的架构。图二. 使用NC算法进行原型设计和分类的架构。图三. 遗传算法的参数定义。更复杂的过程,如集群的基础。刚性距离,如曼哈顿,欧几里得,闵可夫斯基或切比雪夫[15],无法捕捉两个系列之间的变形,似乎类似于一个人类正因为如此,其他距离,称为弹性距离,已经出现,寻求更灵活和自然地测量距离。 DTW是属于集合的两个时间序列之间的距离的度量,FastDTW是[16]中提出的算法。最后一个算法的复杂度为π(π),它使用了全局和局部条件的思想,并结合了降维。这允许获得由经典DTW算法获得的对准的良好估计。2.2. 软件构架库TS-Evolutionary_Prototyping包括两个主要模块。ga模块,如图所示。1、包含遗传算法L. Rodriguez-Benitez,P.Leon-Alcaide,E.d.Castillo et al.软件影响15(2023)1004583见图4。 加载数据集并绘制Class 1的系列。3. 说明性实例提供了两个100字节的笔记本电脑。 第一个是在一组数据序列中搜索原型的例子(3.1节)。第二个(3.2节)包含两个分类示例:一个在两个类之间,另一个在五个类之间。3.1. 搜索一组数据序列的原型在此示例中, ‘50 words’ dataset [数据集图五、' 50 wo r d s ' 数 据 集 的聚类示例的 结 果 原 型 , Cl a s s 1。它允许使用动态时间规整(DTW)作为距离的度量来计算一组序列的质心。模块NC,如图所示。2,包含最近质心算法的实现,该算法通过确定每个类的质心与要分类的系列关于遗传算法模块,现在我们详细介绍实现遗传算法基本操作子模块fitness.py计算单个C的适应度函数,也就是说为此,有必要通过使用FastDTW算法来计算DTW距离。该距离在C和集合S的每个系列之间计算;子模块交叉,交叉两个个体。子模块突变通过三种类型的突变来修饰遗传时间序列的术语指的是“个体”:在这里,每个个体都是时间序列之一。作为辅助子模块,我们有:dtw,它简单地调用dtw. c,其中DTW和FastDTW是使用C编程语言实现的,因为Python实现这些距离的效率很低。插值子模块������通过线性插值从序列中获得长度序列。标准化子模块对时间序列集进行标准化和反标准化:对于标准化,使用平均 值 和 标 准 差 最 后 , 子 模 块 gen-erate.py 包 含 两 个 函 数 :random_generate随机生成长度为L的个体,sample_generate从集合中随机选择一个序列。图图3示出了具有100个个体的遗传算法的参数,代数等于30,并且交叉和变异概率分别具有值0.1和0.05。此外,在Fig. 4.可以观察到属于具体类(数据集的类1)的整组时间序列的图形表示。此外,在同一图中,显示了加载数据集、选择类编号1并绘制属于该类的系列的代码。最后,图5显示了聚类过程完成后3.2. 最近质心在该示例中,最近质心(NC)算法用于对癫痫发作识别数据集的系列进行分类[18]。使用Euclidean和DTW距离。在DTW的情况下,我们的图书馆是用于计算数据集中每个类的质心的方法。 但是欧几里得距离的使用来自于库sklearn [19]中的NC的实现,这允许比较精度这两种方法。在这本笔记本中提出了两个问题。第一个是两个类别之间的二元分类:癫痫与非癫痫,而第二个例子是多类分类的情况。 在自己的数据集中,可以找到关于类性质的具体信息。图六、(a)示出了二元分类的原型,质心0对应于癫痫类,而质心1表示非癫痫类。此外,Fig. 六、(b)提供了有关准确度的信息。使用我们的原型制作方法,实现了0.947随后,L. Rodriguez-Benitez,P.Leon-Alcaide,E.d.Castillo et al.软件影响15(2023)1004584见图6。(a)使用“癫痫发作诊断”数据集获得的癫痫与非癫痫二元分类原型。 (b)使用DTW和我们的方法的准确性与使用sklearn中的最近质心实现的准确性与欧几里得距离。见图7。 通用框架的可能扩展。与sklearn库提供的NC算法的实现相比,sklearn库在这种情况下不使用弹性距离,而是使用欧几里得距离。运行它的代码和结果精度显示为精度等于0.633,4. 影响我们认为该软件是显着的,其贡献的搜索一组时间的原型。时间序列摘要试图通过一个单一的代表性,在几个聚类算法的共同任务,浓缩一组时间序列。由此获得的概要可以提供便于在其他应用中识别频繁模式的高级信息。考虑到软件从科学角度的贡献,在[20]中,我们提出了整个理论框架和算法的正式规范,现在已经在这个库中实现。必须强调的是,该套原型系列并非一个属于自己的系列此外,进化算法中的基因是基于系列的形状,定义段概念并使用弹性距离。这种技术的有效性主要是基于考虑通过仅提取所述系列集合的子集来近似所述适应度函数。然后将该子集与原型人群进行比较,这使得该方法具有可扩展性,并且可以与大型时间序列集一起工作。这可以被认为是该软件工具的最大优势之一。最后,所获得的结果允许模型的可解释性,这在某些领域变得越来越重要。相反,黑盒模型(如神经网络)的使用在可解释性方面受到限制5. 结论和今后的工作已经实现了能够使用DTW距离测量从一组时间序列获得质心的软件。此外,所实现的算法可扩展到大的系列集合,有效地实现准确的表示,并且库可以L. Rodriguez-Benitez,P.Leon-Alcaide,E.d.Castillo et al.软件影响15(2023)1004585与机器学习算法一起使用,包括聚类和分类。例如,对于时间序列分类,NC算法集成了遗传算法已经实现。拟议的原型可以扩展,设计一个更通用的方法框架,建立在拟议的原型之上。例如,在Fig. 7、绿色文本框显示我们在这项工作中实施的内容。相反,其余的文本框表示将来可以合并的一些扩展。现在,我们给出一个更详细的想法,其中一些扩展和其他可能性的扩展工作。例如,新的功能可以添加到这个库中,因为新的可能性可以通过使用合作策略的遗传算法来探索。此外,这将是有趣的实现DTW或最近在文献中提出的时间序列的一些核距离度量的此外,随着新的时间序列表示(如SAX、motif等)的出现我们可以通过集成tslearn [21]库的示例来扩展笔记本的数量,切实贯彻今后工作的另一个可能性是建立原型之间的关系和一袋的话,模糊集理论和他们的语言变量可以纳入。最后, 通过关注特定应用领域中的时间序列,可以实施特别优化技术竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作确认这项工作得到了西班牙卡斯蒂利亚-拉曼恰大学信息和系统技术系以及研究副校长的资助。引用[1]N.恩纳莫科岛作者:J.Liptrott,CyberSignature:一种基于行为生物识别的用户身份验证工具,Softw。影响(2022)100443,http://dx.doi.org/10.1016/j.simpa.2022.100443。[2]A. Ahmadzadeh,K.辛哈湾Aydin,R.A. Angryk,MVTS-Data Toolkit:用于预处 理 多 变 量时 间 序 列 数 据 的Python包 , SoftwareX 12(2020)100518,http://dx.doi.org/10.1016/J.SOFTX.2020.100518。[3]M. Barandas,D.福尔加多湖Fernandes,S.桑托斯,M。Abreu,P. Bota,H.Liu,T.舒尔茨,H。Gamboa,TSFEL:时间序列特征提取库,SoftwareX 11(2020)100456,http://dx.doi.org/10.1016/J.SOFTX.2020.100456。[4]D. van Kuppe丙酮角Meijer,F. Huber,A. van der Ploeg,S. Georgievska,V.T.van Hees , Mcfly : Automated deep learning on time series , SoftwareX 12(2020)100548,http://dx.doi.org/10.1016/J.SOFTX.2020.100548。[5] S.贝弗莱特, T. Dimpfl,F.J. Peter,D.J. Zimmermann,RTransferEntropy -Quantifying information flow between different time series using effectivetransferentropy,SoftwareX10(2019)100265,http://dx.doi.org/10.1016/J.SOFTX.2019。 100265[6]R. Lit , S. Koopman , A. Harvey , Time Series Lab , 2021 , URL https ://timeserieslab. com.[7] M. 利湖,加-地欣诺夫湖Kump,Actuator:用于古气候研究和教育的时间序列分析软件吉奥西。127(2019)12http://dx.doi.org/[8] M.A.作者:J.Sterling,高容量速度时间序列自动化后处理的新型软件开发,高级工程软件。89(2015)36http://dx.doi.org/10.1016/J.ADVENGSOFT.2015.06。007.[9]R.R.寇地兹角Conrad,T. Wehrmann,M.施密特,S。Dech,TiSeG:一个灵活的软件工具,利用质量评估科学数据集的时间序列生成的MODIS数据,IEEE Trans.Geosci。RemoteSens.46(10)(2008)3296http://dx.doi.org/10.1109/TGRS.2008.921412[10] Y.赵湖,加-地林,W. Lu,Y. Meng,改良动态时间规整下的Landsat时间序列聚类,2016年第四届地球观测和遥感应用国际研讨会,EORSA,2016年,第100页。62//dx.doi.org/10.1109/EORSA.2016.7552767网站。[11] M. Thulasidas,最近的质心:统计学和机器学习之间的桥梁,在:2020年IEEE国际 会 议 教 学 , 评 估 和 工 程 学 习 , TALE , 2020 年 , 第 10 页 。9http://dx.doi.org/10.1109/[12] Y.尹平,尚平,交通量时间序列的多元预测方法,应用数学计算。291(2016)266http://dx.doi.org/10.1016/[13] H. Fangohr,T. Kluyver,M. DiPierro,计算科学中的计算机,Comput。Sci.Eng.23(2)(2021)5http://dx.doi.org/10.1109/MCSE.2021.3059494[14] X. 蔡氏N. Zhang,G.K. Venayagamoorthy,D.C. Wunsch,使用混合PSO-EA算法训 练 的 递 归 神 经 网 络 进 行 时 间 序 列 预 测 , Neurocomputing 70 ( 13http://dx.doi.org/10.1016/j.neucom.2005。十二点一三八[15] O. Rodrigues,Combining Minkowski and Cheyshev:New distance proposal andsurvey of distance metrics using k-nearest neighbors classifier,Pattern Recognit.Lett. 110(2018)http://dx.doi.org/10.1016/j.patrec.2018.03.021。[16] S. Salvador,P. Chan,Toward accurate dynamic time warping in linear time andspace,Intell.数据分析11(5)(2007)http://dx.doi.org/10.3233/ida-2007-[17] H.卡亚河,巴西-地Gunduz-Oguducu,A distance based time series classificationframework,Inf.Syst.51(2015)27 http://dx.doi.org/10.1016/j.is.2015.02。005.[18] R.G. Andrzejak,K. Lehnertz,F.摩曼角Rieke,P. David,C.E. Elger,脑电活动时间序列中非线性确定性和有限维结构的指示:对记录区域和脑状态的依赖,Phys.Rev.E64(6)(2001)http://dx.doi.org/10.1103/PhysRevE.64.061907。[19] J. Hao,T.K.机器学习变得简单:Python编程语言中Scikit-learn包的回顾,J。教育。行为举止。国家主义者。44(3)(2019)http://dx.doi.org/10.3102/1076998619832248网站。[20] P. Leon-Alcaide , L. Rodriguez-Benitez , E. Castillo-Herrera , J.Moreno-Garcia,L. Jimenez-Linares,大型时间序列数据集高效原型的进化方法,Inform 。 Sci.511 ( 2020 ) 74http://dx.doi.org/10.1016/J.INS 。2019.09.044。[21] R. Tav e n a r d ,J. Faouzi 湾Vandewiele,F.迪沃湾安德罗斯角Holtz,M.佩恩,R.尤尔查克,M.鲁斯武姆湾Kolar,E. 伍兹,Tslearn,时间序列数据的机器学习工具包,J.Mach。学习.Res.21(118)(2020)1http://jmlr.org/papers/v21/20-091.html
下载后可阅读完整内容,剩余1页未读,立即下载
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 基于单片机的瓦斯监控系统硬件设计.doc
- 基于单片机的流量检测系统的设计_机电一体化毕业设计.doc
- 基于单片机的继电器设计.doc
- 基于单片机的湿度计设计.doc
- 基于单片机的流量控制系统设计.doc
- 基于单片机的火灾自动报警系统毕业设计.docx
- 基于单片机的铁路道口报警系统设计毕业设计.doc
- 基于单片机的铁路道口报警研究与设计.doc
- 基于单片机的流水灯设计.doc
- 基于单片机的时钟系统设计.doc
- 基于单片机的录音器的设计.doc
- 基于单片机的万能铣床设计设计.doc
- 基于单片机的简易安防声光报警器设计.doc
- 基于单片机的脉搏测量器设计.doc
- 基于单片机的家用防盗报警系统设计.doc
- 基于单片机的简易电子钟设计.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)