没有合适的资源?快使用搜索试试~ 我知道了~
软件影响11(2022)100197原始软件出版物使用MrSQMThach Le NguyenZhao,Georgiana Ifrim爱尔兰都柏林大学A R T I C L E I N F O保留字:时间序列分类PythonC++线性模型解释显着图A B标准本文介绍了MrSQM,一个用于时间序列分类和解释任务的Python工具。 时间序列分类问题不仅在科学研究中,而且在许多实际应用中都是一个关键问题。 然而,包括深度学习和集成架构在内的最先进的时间序列分类器由于其复杂性通常是不切实际的。MrSQM可以提供一个替代的轻量级解决方案,同样准确,但更快,并且易于解释。该工具主要用C++编写,但使用Cython包装,以提供更易于访问的Python接口。代码元数据当前代码版本v0.1用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-172Reproducible Capsule的永久链接https://codeocean.com/capsule/3624844/tree/v1GNU通用公共许可证使用git的代码版本控制系统使用C++、Python的软件代码语言、工具和服务编译要求,操作环境&依赖性FFTW(http://www.fftw.org/),Cython>= 0。29,numpy>= 1. 18、熊猫>= 1。0的情况。3,scikit-learn>= 0. 22如果可用,链接到开发人员文档/手册问题支持电子邮件thach. ucd.ie1. 介绍时间序列是在一段时间内收集的数字数据值的序列(例如,人每分钟走的步数[1])或基于诸如空间排序的值的某种其它排序(例如,咖啡叶或历史文物的形状[2])。时间序列分类是指为一个看不见的时间序列分配一个类的问题。时间序列数据几乎无处不在,时间序列数据库是增长最快的数据系统之一。1时间序列分类的应用包括人体运动分类[3],心脏病发作检测[4],音素识别[5],地震预测,2鲸鱼叫声检测,3等等。 图1显示了爱尔兰都柏林大学学院的体育科学家收集的时间序列数据的示例。这些数据是使用佩戴在身体上的单个基于加速度计的传感器捕获的 研究的参与者。参与者被要求在优势脚上佩戴传感器的同时进行反向运动跳跃(CMJ)。目的是评估参与者是否使用可接受的技术进行CMJ。有关此数据集的更多详细信息见[3]。时间序列分类器通常在以下情况下被认为是有用的:(1)准确,(2)高效,(3)可解释。解释能力本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗通讯作者。电子邮件地址: thach. ucd.ie(T. Le Nguyen).1https://venturebeat.com/2021/01/15/database-trends-the-rise-of-the-time-series-database/。2 https://ncedc.org/。3https://www.kaggle.com/c/whale-detection-challenge/data。https://doi.org/10.1016/j.simpa.2021.100197接收日期:2021年11月29日;接受日期:2021年11月29日2665-9638/©2021作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsT. Le Nguyen和G.伊夫里姆软件影响11(2022)1001972图1.一、基于加速度计的时间序列数据捕获从三个 不同的 执行的反向运动跳。为了理解分类器的决策过程,例如,为什么模型会做出这样的预测呢?在时间序列分析的情况下,一种常见的解释方法是通过显着图。显着图基本上是一个权重向量,时间序列中的每个数据点都有一个权重。使用显着图的可视化(图。1)突出时间序列中与预测有关的重要部分。要实现所有三个业绩目标,无疑是一项挑战。经典的线性模型是可解释的和有效的,但有时不准确。最先进的深度学习或集成架构非常准确,但通常需要大量的计算资源(例如,时间、记忆、空间)。此外,从如此复杂的模型中获得解释并不是微不足道的[3,6,7]。MrSQM [8]是一个用于时间序列分类的Python工具。MrSQM的核心模块是用C++编写的,为了方便起见,使用Cython包装。该工具是快 速 和 准 确 。 其 性 能 可与 最 先 进 的 时 间 序 列 分 类 器 ( 例 如 ,[10][11][12][13][14][15][16][17][18][19]][19][19]此外,它可以还提供了一个显着图,通过突出显示时间序列中对分类决策影响最大的部分来解释分类预测。2. 描述2.1. 方法图2说明了MrSQM的架构。MrSQM的三个主要组成部分是:符号转换模块、特征选择模块和训练模块。符号转换模块(SAX [13]或SFA[14])将数值时间序列转换为多个符号表示(即,sym-1的序列)。特征选择模块从符号表示中选择特征(以符号序列的形式)。训练模块(逻辑回归)训练线性分类模型以进行未来预测。2.2. 执行该工具是用C++和Python编写的。虽然我们已经在C++中实现了算法以最大限度地提高速度,但我们意识到Python通常更容易访问。此外,对于SFA转换,我们重用了SFA4作者提供的C++代码这比Java和Python的替代品快得多。 因此,我们在C++中实现了核心模块(符号转换和特征选择模块),并用Cython包装它们。我们使用scikit-learn5进行逻辑回归模型训练4 https://www2.informatik.hu-berlin.de/~schaefpa/boss/。5https://scikit-learn.org/stable/。3. 例如在本节中,我们提供了一个使用MrSQM在样本数据集上进行训练和测试的示例。6此外,我们还展示了如何获得时间序列的显着性图以进行解释。包含样本数据集的更详细示例可以在我们的github存储库中找到。71导入mrsqm2#假设数据I s加载I nskt ime格式3# http://www. skt ime . org / en/ s t a b l e / examples / l oa d i n g_d a t a.html#s k t i m e_d f_f o r m a t4#f i t测试数据5c l f = mrsqm。Mr SQMClassifier(). f i t(t rain_X,t r a i n_y)6# make关于我们对测试数据7pred_y = c l f . p r d i c t(t e s t _ X)8# 获得 sal l i e n c y 地图 福或他不F I R S T时间是我的时间是我的9SM = c l f . get_saliency_map(t e s t _ X . i l o c [ 0,0])4. 软件影响研究:虽然机器学习研究通过复杂的深度学习架构取得了巨大的成功和影响,但我们仍然相信简单的方法有其自身的优势。MrSQM是一组线性时间序列分类器(包括WEASEL [15],MrSEQL [3]和ROCKET [12])的一部分,这些分类器不仅与深度学习对应的分类器一样准确,而且通常快一两个数量级。通过引入MrSQM,我们的目标是证明线性模型及其特性(快速,可解释)也可以是准确的,因此更适合于现实生活中的应用。此外,我们的方法可以很容易地适应时间序列回归问题。这在[16]中得到了展示,其中我们成功地应用MrSQM从国际数据挑战中的牛奶光谱数据预测数字质量性状。 值得注意的是,我们是研讨会中唯一一个没有背景的小组。在食品光谱学和化学计量学中的应用。尽管如此,我们使用MrSQM的实验产生的结果在准确性上与该领域的传统方法相当,同时也是快速和可解释的。6http://timeseriesclassification.com/description.php?数据集=咖啡。7 https://github.com/mlgig/mrsqm/。T. Le Nguyen和G.伊夫里姆软件影响11(2022)1001973图二. MrSQM行业:在我们的工作中,我们已经成功地用传感器数据测试了MrSQM(图1)。①的人。在这种类型的应用中,解决方案必须准确、快速、轻量(因此可以部署在移动电话等资源受限的设备上),并且能够向用户提供反馈(即,解释)。 因此,我们相信MrSQM可以有效地解决许多具有类似要求的实际问题。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作确认这 项 工 作 由 爱 尔 兰 科 学 基 金 会 通 过 VistaMilk SFI 研 究 中 心(SFI/16/RC/3835)和爱尔兰数据分析洞察中心(12/RC/2289_P2)资助。出于开放获取的目的,作者已将CC BY公共版权许可应用于由此提交的任何作者接受的Mandarin版本。引用[1]A. Bagnall , H.A. Dau , J.Lines , M. Flynn , J.Large , A. Bostrom , P.Southam,E. Keogh,UEA多变量时间序列分类存档,2018,2018,arXiv预印本arXiv:1811.00075。[2]L. Ye,E. Keogh,时间序列形状:一种新的技术,允许准确,可解释和快速分类,数据Min.Knowl.Discov。22(1)(2011)149-182。[3]T.黎阮山格斯波内尔岛Ilie,M.奥莱利湾,加-地Ifrim,使用线性模型和多分辨率多 域 符 号 表 示的 可 解 释 时 间 序 列 分 类, Data Min。 知 道 。 发 现 。 33( 4)(2019)1183[4]室温奥尔谢夫斯基河Maxion,D. Siewiorek,时间序列数据中结构模式识别的广义 特 征 提 取 , ( 博 士 学 位 。 论 文 ) , 卡 内 基 梅 隆 大 学 , 美 国 , 2001 ,AAI3040489。[5]H. Hamooni,A. Mueen,语音时间序列的双域层次分类,2014年IEEE国际数据挖掘会议,2014年,pp. 160-169.[6]T.T.阮氏T. Le Nguyen,G. Ifrim,一种模型不可知的量化方法时间序列分类解释 方 法 的 信 息 量 , 在 : V 。 Lemaire, S. Malinowski, A. Bagnall, T.居 耶 河Tavenard , G. Ifrim ( Eds. ) , Advanced Analytics and Learning on TemporalData,Springer InternationalPublishing,Cham,2020,pp. 第77-94页。[7]S. T.T. Agarwal阮氏T. Le Nguyen,G. Ifrim,通过聚合裁判排名:评估时间序列分类解释方法的信息性,在:高级分析和时间数据学习,2021年。[8]朗 格阮 湾 , 澳 -地 Ifrim, MrSQM: 快 速时 间 序 列分 类 与 符号 表 示, 2021,https://Arxiv.Org/Abs/2109.01036。[9] H.I.法瓦兹湾卢卡斯湾,加-地福雷斯蒂埃角Pelletier,D.F. Schmidt,J. Weber,G.I.韦伯,L.作者:P.Petitjean,InceptionTime:FindingAlexNetforTimeSeriesClassification,Data Min. 知道。发现。34(6)(2020)1936[10] A. 希 法 兹 角 Pelletier , F. Petitjean , G. Webb , TS-CHIEF : a scalable andaccurateforest algorithm for time series classification,Data Min. Knowl. Discov.34(2020)742-775。[11] J. Lines,S.泰勒,A. Bagnall,HIVE-COTE:时间序列分类的基于转换的集合的分层投票集体,在:2016 IEEE第16届数据挖掘国际会议,ICDM,2016年,pp。1041-1046[12] A. Dempster,F.士兵佩蒂让Webb,ROCKET:使用随机卷积核进行异常快速和准确的时间序列分类,Data Min. Knowl。发现。34(5)(2020)1454-1495。[13] J.Lin , E. 基 奥 湖 Wei , S. Lonardi , Experiencing SAX : a novelsymbolicrepresentation of time series , Data Min. 知 道 。 发 现 。 15 ( 2 )(2007)107[14] P. Schäfer,M. Högqvist,SFA:符号傅里叶近似和指数 对于高维数据集中的相似性搜索,在:Proceedings of the 15th International Conference on ExtendingDatabase Technology , 在 : EDBT , vol.12 , ACM , New York , NY , USA ,2012,pp. 516http://doi.acm.org/10.1145/[15] P. Schäfer,U. Leser,使用WEASEL进行快速准确的时间序列分类,in:Proceedings of the 2017 ACM on Conference on Information and KnowledgeManagement,in:CIKM,vol. 17,ACM,New York,NY,USA,2017,pp.637http://doi.acm.org/10.1145/3132847.3132980[16] M. Frizzarin,A.贝维拉夸湾Dhariyal,K.Domijan,F.Ferraccioli,E.海耶斯G. Ifrim,A.Konkolewska,T.Le Nguyen,U.Mbaka,G.Ranzato,A.辛格,M. Stefanucci,A.卡萨,中红外光谱和牛奶质量性状:在“2021年光谱学和化学计量学国际研讨会”上的数据分析竞赛, C h e m o m e t r 。内特尔实验室系统219(2021)104442.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功