sci-FTS：模糊时间序列软件建模工具的研究与发展

195 浏览量更新于2024-01-25 收藏 584KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件影响11（2022）100230原始软件出版物sci-FTS：基于内模函数的软聚类建模模糊时间序列Marcos Vinícius dos Santos Ferreira，Ricardo Rios Rios，Tatiane Nogueira Rios巴西巴伊亚联邦大学计算研究所自动清洁装置保留字：时间序列模糊化分解模糊聚类RPythonA B标准本文介绍了一个新的软件sci-FTS，它结合了信号处理工具和模糊集理论对时间序列进行建模。首先，将时间序列分解为固有模态函数（IMF），突出瞬时频率和瞬时幅值.其次，sci-FTS结合IMF提取确定性影响，去除噪声。接下来，sci-FTS执行一个算法，找到一个适当的空间划分产生的模糊集.最后，模糊时间序列的步骤被认为是预测的意见。我们的贡献是双重的：SCI-FTS发现了类似的模式，在观察，以更好地模拟宇宙的话语; ii）SCI-FTS产生的模型克服了文献研究代码元数据当前代码版本1.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-208Reproducible Capsule的永久链接https://codeocean.com/capsule/6544699/tree/v1GNU通用公共许可证（GPL）使用GitHub的代码版本控制系统使用R和Python的软件代码语言、工具和服务编译要求，操作环境依赖性pyFTS（v1.6），PyEMD（v0.2.13），fuzzy-c-means（v1.6.3），pandas（v1.3.5），NumPy（v1.22）如果可用开发人员文档/手册链接marcosvsf@ufba.brricardoar@ufba.br支持电子邮件www.example.com，https://github.com/Marcos001/Filtered-Fuzzy-Time-Series/blob/main/README.md1. 介绍本文介绍了sci-FTS软件的实用方面和贡献，该软件使用信号处理和模糊工具对时间序列进行建模。总之，sci-FTS代表将软C聚类应用于IMF（固有模式函数），以便稍后在模糊时间序列建模中使用。如[1]中的理论证明，sci-FTS使用模糊聚类来解决时间序列的确定性分量中存在的不精确性和不确定性时间序列行为的特征通常是根据过去发生的事件（确定性分量）和随机影响（随机分量）[1，2]。总之，确定性成分在回归任务中被广泛考虑，以更精确地预测未来的观测结果，而随机性成分通常与噪声相关[1，2]。在文献中经常发表的方法模型的时间序列，首先分离其组件。然而，它们缺乏数据可解释性，例如隶属函数所提供的，并且不能确保提取的确定性分量完全没有不精确性和不确定性[1]。这种局限性促使了模糊时间序列（FTS）的应用，从而产生了sci-FTS软件，该软件结合了时间序列分析工具和模糊集理论来处理数据的不精确性和不确定性。本文中的代码（和数据）已由Code Ocean认证为可复制：（https://codeocean.com/）。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。*通讯作者。电子邮件地址： marcosvsf@ufba.br（M.V. dos Santos Ferreira），ricardoar@ufba.br（R. Rios），tatiane. ufba.br（T.N.Rios）。https://doi.org/10.1016/j.simpa.2022.100230接收日期：2022年1月1日;接收日期：2022年1月5日;接受日期：2022年1月9日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsM.V. 多斯桑托斯费雷拉河Rios和T.N.里奥斯软件影响11（2022）1002302Fig. 1. sci-FTS体系结构。来源：改编自[1]。FTS最初由Song和Chissom（1993）[3]提出，他们将模糊集理论的概念引入到时间序列建模中。FTS与传统方法的主要区别在于采用模糊集来表示观测值，而不仅仅是收集的值。总之，FTS的特征在于三个步骤：（i）模糊化，涉及时间序列的话语论域的划分;（ii）模糊逻辑关系（FLR），设计模糊关系来表示观测之间的时间关联;以及（iii）解模糊化，将模糊推理转换为用于预测观测的数值如[1]中所述，我们注意到模糊化是最重要的步骤，可用于解决确定性组件中存在的数据不精确性和不确定性。这一发现促使我们使用经验模式分解（EMD）从原始时间序列中分离出确定性分量，从而通过模糊聚类改进时间序列建模。每个得到的聚类被映射到一个模糊集，这是描述的隶属函数。每个观测值可能与一个或多个聚类相关联，这允许对其固有的不精确性和不确定性进行建模[1]。在sci-FTS中提出的组合上使用模糊聚类，我们能够自动找到适当的空间划分以产生模糊集并改善时间序列预测。根据相对于[1]中的结果，sci-FTS产生的模型克服了文献中的研究，并强调了减少时间序列观测中噪声影响的重要性。在下一节中，我们将展示sci-FTS的实际用法2. 软件描述图1总结了sci-FTS架构，其中用R和Python实现的完整源代码作为CodeOceancap-tags发布在https://codeocean.com/capsule/6544699/tree/v1上。使用Code Oceancapsules的主要优点是可以在不配置所有库和基础设施的情况下研究我们的代码正如人们可能会注意到，第一步提出的图。1的目的是在执行预测之前对分析的时间序列进行预处理。这个步骤被称为“模糊化”，它开始应用EMD（经验模式分解）从时间序列中提取单分量。基本上， EMD 提取一组单分量，称为作为内在模式函数（IMF），从时间序列中尝试研究其瞬时频率[1，4]。接下来，我们通过将它们重组为[2]中提出的随机和确定性分量来分析清单1所示的代码演示了上述任务，由图1中的阶段（a）和（b）表示。1.一、1234567891011清单1：正在提取确定性组件。在此代码中，时间序列由变量“ala "表示确定性分量由清单1中的第11行估计，原始时间序列的所有分量如图所示。二、如[1]中所讨论的和图1步骤1-（c）中所示，我们提出的方法将原始时间序列（k）和确定性分量'（k）组合到高维联合空间（k）×'（k）中，然后在上运行模糊C均值[5]（FCM）聚类算法点云的顶部。FCM的不同实现，如图所示在清单1中，可以在目录“code/FTS/Models”中找到1234567891011121314151617181920清单2：用于运行模糊C均值算法的函数在下一步中，模糊关系（图。 1-步骤2）以A ��→A��，��，��= 1，��...，的形式产生，其中A作为-1具有最大隶属度的组，A作为具有最大隶属度的组，并且作为组成划分的组的总数[ 1 ]。这一步骤如图所示。3，其表示来自一维和二维场景的示例。#DecompompotIMFsemd=EMD（）imfs=emd。emd（ala[col]. （values）#SelectdeterministicIMFsdf_fts=pd. DataFrame（ala[col]. copy（））df_fts[col]=alacol_imf=' r e s i du e'df_fts[col_imf]=imfs[1]+imfs[2]defclustering_FCM（self）：Self. fcm=FCM（n_clusters=self.C、对m=2）Self. fcm. fit（self.十）、#输出Self. fcm_centers=self. fcm.中心Self. u=self. fcm. uSelf. fcm_labels=self. fcm.联合argmax（axis=1）Self. col=' t s'Self.col_imf= ' i m f s' e l f.col_term=#createmembershipfunctionself.terms=[' A.’Inrange（self.C）]Self.mf=pd。01-02{self. col：self.fcm_centers[：，0]，self.col_imf：self. fcm_centers[：，M.V. 多斯桑托斯费雷拉河Rios和T.N.里奥斯软件影响11（2022）1002303图二、（ a）原始时间序列;（b- d ）从 EM D 中提取的 IM F 成分。来源：发表于[1]。图3.第三章。为 F C M 获得的隶属函数的示例：（a）二维和（b）一维场景。资料来源：该图发表于[1]。所有这些模糊关系和去模糊化都是基于[6，7]，在将模型阶数设置为1之后。最后，所得到的FTS模型改进了时间序列表示，就其固有的不精确性和不确定性以及预测而言（图11）。1下面的代码（清单3）显示了用于执行图1中所示的所有任务的指令。1.一、在这个例子中，我们使用了Chen [6]提出的规则和去模糊化模型1234清单3：由sci-FTS进行预测。下面的清单4显示了用于执行去模糊化步骤的方法，该方法基于Lee例如，考虑到观测值λ在模糊集合Aλ，λ= 1，��...，λ中具有其最大隶属5678910111213141516清单4：sci-FTS中实现的基于Lee方法的解模糊方法和某些FLR的结果（A 1，A��2，��...，A 1）的平均点（ A 1，A2，...，A 1）的加权平均值��1234读者可以通过访问https：//codeocean上名为“IlustrativeExample.ipynb”的代码来重现所有这些步骤。com/capsule/6544699/tree/v1.在这个链接中，可以在三个不同的时间序列上使用sci-FTS：（i）阿拉巴马大学的入学人数，包含从1971年到1992年每年收集的22个观测值;（ii）TAIEX股票价格，包含1992年收集的281个观测值;以及（iii）德国来自FTS。时尚。MV_ChenimportSTFMV_Chenional_Chen在l _ C h e n（）模型上，模型l=STFMV_Cconvenci。fit（X=df_fts[[col，col_imf]]. 通过这种方式，k=7）莫德湖predict（）defdefuzzification_LEE（self，consequentes）：““”第8节：一个有意义的世界。Consequentes：listwithco nseq uenttermsreturn：defuzzyfied value“weigths=np. arange（1，（len（conseuentes）+1），dtype=np.float32）weigths/=np. sum（weigths）mid_points=[]对于m_consinconsentes：mid_points。apend（float（self.mf[self.mf[self. col_term]==term_cons][self.c〇l]。values[0]）cons_midpoints=np. array（mid_points）如果您的系统中有一个错误，请重新输入。T）M.V. 多斯桑托斯费雷拉河Rios和T.N.里奥斯软件影响11（2022）10023041990年1月至12月期间每月收集的观测数据2006年。可替代地，代替使用预定义数量的聚类，还可以通过使用验证索引来估计组的最佳数量，例如，轮廓[1]。设计用于处理这种情况的代码在“Index.R”中进行了说明可以在“EstimeAmountFuzzySets.ipynb”中访问此代码的说明性此外，我们还创建了三个笔记本，以教学方式演示网格搜索过程，从而更好地估计sci-FTS中实现的整个过程中考虑的所有参数：最后，我们设计了三个笔记本，总结了sci-FTS和文献中先前发表的众所周知的方法之间的比较3. 影响概述软件sci-FTS的动机是使用模糊聚类来解决时间序列的确定性分量中存在的不精确性和不确定性的可能性[1]。如前所述，我们的软件的贡献是双重的：（i）通过从聚类中生成具有不同特征的模糊集，sci-FTS在时间序列观测中发现了相似的模式，以更好地模拟它们在话语领域的分布;以及（ii）根据结果，sci-FTS生成的模型克服了文献中的知名研究使用FTS模型的重要性，因此，我们的sci-FTS软件在几个应用领域中受到关注。通过进行文献综述，可以认识到，由于其操作中自然存在不精确性和不确定性，使用sci-FTS对股票市场产生的时间序列建模是非常合适的[8总之，这些手稿通过执行sci-FTS中实现的三个步骤来预测新值：模糊化，模糊逻辑关系（FLR）和解模糊化。最近，医学界也考虑采取这些措施，以更好地了解新型COVID-19大流行引起的新病例和死亡的发生情况[13例如，在[13]中，作者使用sci-FTS也提到的一阶模型来预测印度COVID-19造成的新病例和死亡除了在市场贸易和流行病情景中使用外，FTS的建模还在另一个相关主题中进行了考虑，该主题通过了解全球范围内的温度变化来寻找有利于全球人口的解决方案[17这些解决方案与模拟和预测全球气候变化和全球变暖造成的影响和问题非常相关。最后，值得强调的是，sci-FTS主要关注时不变和一阶模型，如清单5所示。然而，它被设计为易于扩展，以支持模型的特点是随时间变化的，更高的订单。此外，它本质上是实现使用不同的模糊逻辑关系，软基聚类算法，和defuzzification方法。由于sci-FTS中使用的面向对象的编程策略，通过简单地改变相应的类就可以实现这种变化。我们强调，在sci-FTS中实现的所有源代码都可以免费用于学术和工业目的。12classFirstOrder：3def __init__（self）：4通过56def create_rules（self，ts_terms）：7’’’8：paramts_terms：与它的时间同步linguisticsterms（[A1，A2，. . ，AN]）910111213141516171819清单5：用于运行一阶模型的代码。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢这项工作得到了CAPES（巴西联邦政府机构，高等教育人员改进协调）、CNPq（巴西国家科学技术发展委员会）和FAPESP（圣保罗研究基金会）的支持，巴西的资助号为2013/07375-0。本材料中表达的任何观点、发现、结论或建议均为作者的观点，不一定反映CAPES、CNPq和FAPESP的观点。引用[1]M.V. dos Santos Ferreira，R.里奥斯河，巴西-地T.N.梅洛应用模糊聚类方法解决时间序列中确定性成分的不精确性和不确定性，应用软件计算。113（2021）108011.[2] R.A. 里奥斯 de Mello，应用经验模态分解和互信息分离随机和确定性的影响嵌入在信号中，信号处理。118（2016）159-176.[3] Q. Song，B.S.李文，模糊时间序列及其模型，中国科学技术出版社， 2 0 0 1 。[4] N.E. Huang，Z.沈先生长，M。li C.吴惠熙希角，澳-地Zheng，N.春Yen，C.C.董希洪刘文，非线性和非平稳时间序列的经验模态分解和希尔伯特谱分析，中国科学院学报。 Soc. L o n d . 序列数学。Phys. Eng. Sci. 454（1998）903[5] J.C.吴文，模糊目标函数算法在模式识别中的应用，北京&科技大学出版社，1998。[6] S.- M.基于模糊时间序列的招生预测，模糊集系统。81（3）（1996）311-319。[7]M.H.利河，巴西-地Efendi，Z. Ismail，Modified Weighted for EnrollmentP r e d i c t i o n Basedon Fuzzy Time Series，Matematika 25（2009）67-78.[8] 杜尔索湖德乔瓦尼河基于动态时间弯曲的金融时间序列的修剪模糊聚类，Ann. 操作员Res. （2019）1[9] Q. Dong，X.马，基于延迟微分模糊集和误差学习的增强型模糊时间序列预测模型，专家系统。Appl. 166（2021）114056.[10] H. Wu，H.龙江，基于模糊时间序列模型和模型误差学习的预测问题处理，应用。软计算78（2019）109[11]R. 杨，J.他，M。Xu，H.Ni，P.琼斯，N。萨玛托娃，一个聪明的混血儿基于经验模式分解的加权模糊时间序列模型用于金融市场预测，在：P.Perner（Ed.），数据挖掘的进展。应用和理论方面，施普林格国际出版社，Cham，2018年，pp。104-118[12]W. Wang，X.基于自动聚类和公理化的模糊预测模糊集分类，Inform. Sci. 294（2015）78-94，人工神经网络在工程中的创新应用。[13]N. 库马尔， H. Kumar ， A novel hybrid fuzzy time series model for predictionofCOVID-19infected cases and deaths in India，ISA Trans. （2021年）。：return：规则的基础flrg={}frtermoinset（ts_terms）：flrg[termo]=[]forinrange（ts_terms. [0]第一次见面1）、ante=ts_terms[i]cons=ts_terms[i+1]如果cons不在flrg[ante]中：flrg[ante]。append（cons）回油M.V. 多斯桑托斯费雷拉河Rios和T.N.里奥斯软件影响11（2022）1002305[14]A. 库马尔K。 Kaur，一种用于COVID-19病例未来预测的混合SOM-模糊时间序列（SOMFTS）技术和基于MCDM的COVID-19预测模型评估，载于：2021年计算，通信和智能系统国际会议，ICCCIS，2021年，pp. 612-617[15]M.M.阿拉姆，S.M.S.侯赛因，M.R.R. Shishir，S. Hasan，E. Huda，S. Yeasmin，A.Motaleb ， R.M. Rahman ， COVID-19 疫情的模糊时间序列预测模型， in ： M.Tuba，S. Akashe，A. Joshi（Eds.），ICT Systems and Sustainability，SpringerSingapore，2021，pp. 779-789[16]N.库马尔，S。Susan，粒子群优化的划分和模糊排序对于COVID-19的模糊时间序列预测，Appl. 110（2021）107611.[17]S.- M.陈杰R.黄，模糊时间序列在温度预测中的应用，IEEETrans. 系统曼·赛伯恩B（Cybernetics）30（2）（2000）263[18]Y.张，S。 Chen，基于模糊聚类和模糊规则插值技术的温度预测，2009 IEEEInternational Conference onSystems ， Man and Cybernetics ， 2009 ， pp. 3444-3449[19]O.卡格卡格Yolcu，E.埃格里奥卢Aladag，一种新的季节性模糊时间序列方法预测安卡拉的空气污染数据，美国。J. Intell。系统3（1）（2013）13[20] N.G.丁塞尔岛Akkuanshan，一种基于鲁棒聚类的空气污染预测模糊时间序列模型，生态学。告知。43（2018）157

下载后可阅读完整内容，剩余1页未读，立即下载