时间序列分类：尺度空间理论与特征袋技术结合的新方法

84 浏览量更新于2023-12-20 收藏 869KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

工程科学与技术，国际期刊24（2021）1490全文文章‘‘A new feature-based time series classification method作者：TayipAltay，MustafaG. 巴伊多·格鲁坎土耳其伊斯坦布尔BogZaziçi大学工程学院工业工程系阿提奇莱因福奥文章历史记录：收到2020年2021年2月21日修订2021年3月30日接受2021年4月22日在线提供保留字：时间序列分类的尺度空间理论Bag-of-Features技术SiZer基于数据的分类A B S T R A C T时间序列数据挖掘在过去的十年中受到了极大的关注，许多方法都集中在分类任务上，其目标是定义测试时间序列的标签，给定标记的训练数据。时间序列分类方法可以大致分为基于实例的方法和基于特征的方法两大类。基于实例的方法利用最近邻设置中的相似性信息来对时间序列数据进行分类。虽然这类方法提供了准确的结果，但它们的性能会随着长时间和噪声的时间序列而下降。另一方面，基于特征的方法提取特征来处理基于实例的方法的限制;然而，这些方法与预定义的特征一起工作，并且在某些分类问题中可能不成功。本研究提出一种结合尺度空间理论与特征袋技术的时间序列分类方法。该方法从寻找尺度空间极值点（即，根据SiZer（导数的显著零交叉）方法，每个时间序列的关键点）在提取每个关键点的局部特征后，构造每个时间序列的特征包表示我们评估的成功，从各个领域的时间序列分类问题的我们的实验结果表明，我们的pro-optimum提供了竞争力的结果相比，在文献中广泛使用的方法©2021 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍时间序列可以被定义为按时间顺序产生的数据点的集合。在数学上，时间序列T是n个实值变量的n元组，即T1;t2;···;tnnn;tisR;i<$1; 2; 3;···;n：10时间序列数据挖掘的目的是试图从数据的形状中提取所有有意义的知识。人类有自然的能力做到这一点，但它仍然是一个复杂的问题，计算机[1]。时间序列分类（TSC）可以被定义为一个监督学习任务，它涉及基于预先标记的时间序列类构建一个模型，然后使用这个模型将时间序列的新实例分配给那些预定义的类。TSC有很多实际应用，例如通过脑电（EEG）数据分析对正常和异常大脑活动进行分类或识别眼睛状态[2，3]，心电图（ECG）*通讯作者。电子邮件地址：tayip. boun.edu.tr（T. 阿勒泰）。由Karabuk大学负责进行同行审查（心电图）数据分析[4，5]，音素分类[6，7]和股票市场趋势识别[8，9]。此外，与这些研究类似的独立于领域的TSC研究现在越来越受欢迎[10时间序列分类方法可以分为两大类：基于实例和基于特征的方法。在基于实例的方法中，时间序列之间的距离通过使用基于形状相似性的度量来计算。例如，广泛使用的k-Nearest Neighbors（k-NN）根据此原则运行，并通过使用实例空间中最近邻居的标签对其进行标记来定位未知实例。k-NN分类器在分类过程中使用的主要工具是相似性度量，例如欧几里得距离（ED）或动态时间扭曲（DTW）[14]。当与DTW结合时，1-NN呈现出非常有竞争力的结果。虽然k-NN分类器对于小数据集是快速和有效的，但对于大数据集，它变得缓慢和低效，因为它需要存储和搜索整个集合，因为一个实例应该与训练集中的每个实例进行比较。为了克服这一困难，近年来进行了许多研究。例如，Ye和Keogh[15]引入了一个新的时间序列原语，称为时间https://doi.org/10.1016/j.jestch.2021.03.0172215-0986/©2021 Karabuk University.出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页：www.elsevier.com/locate/jestchT. 阿勒泰和M.G. 巴伊多·格鲁坎工程科学与技术，国际期刊24（2021）1490-149714912-fg！ﬃﬃN22！Xi2pt序列形状，这是可能最大限度地代表一个类的时间序列顺序。基于时间序列形状的技术是可解释的，比最先进的分类器更准确并且显著更快，但是发现这些形状是一个非常耗时的过程为了解决这个问题，提出了例如，Rakthanmanon ve Keogh[16]创造了术语快速shapelet，并提出了一种快速shapelet细化算法，该算法产生类似的精度，尽管运行速度比当前最先进的算法快三倍该算法通过将原始实值和高维数据转换为离散和低维表示来解决shapelet发现问题。第二类中的分类器包含基于时间序列的结构相似性的度量。在这些基于特征的方法中，在通过使用诸如离散小波变换[17]、离散四阶变换[18]、小波包变换[19]以及甚至来自训练示例的DTW距离[20]的技术确定用于分类的特征之后，构建时间序列的高级表示。在这些表示中，在每个时间序列被表示为特征向量之后，这些特征向量集合与分类模型（诸如用于时间序列分类的支持向量机（SVM））-起使用[21分类中使用的特征可以分为两部分：局部特征和全局特征。局部特征的提取是通过使用时间序列的片段，而对于全局特征，则使用整个时间序列。例如，Deng等人。[23]提出了一种树集成方法，称为时间序列森林（TSF），用于对具有局部特征的时间序列进行分类。TSF使用了一个称为“入口”的概念，它是熵增益和距离度量的组合，用于识别高质量的分割。此外，作者提出了时间重要性曲线来提取区间特征，这可能有助于识别分类中的重要时间特征。然而，这些方法有可能误分类模式随时间推移而滑动的实例（即位置入侵）。特征袋（Bag-of-Features，BoF），也称为模式袋（Bag-of-Patterns，BoP）或词袋（Bag-of-Words，BoW），是文本挖掘和计算机视觉领域中处理位置不变性问题的一种非常常用的技术。最近，使用这种技术已经增加了时间序列数据挖掘，由于其简单性，可解释性的操作，以及更快的运行时间相比，其他基于实例的算法。例如，Baydogan等人。[24]提出了一个BoF框架来对称为TSBF的时间序列进行分类，该框架引入了新的区间选择和局部特征提取策略来探索时间序列表示。作为TSBF的第一步，通过将时间序列划分为长度和位置随机变化的连续序列来提取局部特征。从这些连续性计算的特征测量与原始序列相比在不同位置和膨胀处的性质，从而提供了一种在基于特征的方法中处理模式的时间扭曲的方法。在下一步中，通过来自监督学习器的类概率估计和类概率估计生成总结子，适用于时间序列领域。虽然SiZer是计算机视觉领域中用于发现图像的显著变化区域的二维视觉映射，但是我们已经将其适应于时间序列域，用于发现平滑的尺度空间极值。所提出的方法的关键思想，NSIBOF，在之前的一篇论文[27]中介绍过。NSIBOF是来自两种方法的名称的首字母缩写，这两种方法构成了本研究的基础，SiZer和Bag-of-Features，据我们所知，这是第一个将这两种方法结合起来用于时间序列分类问题的研究。该方法大致包括三个主要步骤：通过使用SiZer检测关键点，基于围绕这些关键点构建的区间生成特征，以及根据BoF框架表示时间序列。相比结果表明，NSI-BOF的结果与目前广泛使用的TSC方法相当或更好。第二部分介绍了本研究的理论基础。第3节描述了NSIBOF方法。第四节通过实验验证了NSIBOF的结果。结论见第5节。2. 理论背景在本文的这一部分，我们将介绍NSIBOF的基础概念，即尺度空间理论，SiZer和特征袋方法。2.1. 标度空间理论在世界地图上，你不能指望看到城镇甚至小城市，因为世界地图的目的是在小区域中显示大面积的土地。要实现这一点，它必须以小比例构建;也就是说，必须增加比例以获得对象的详细视图。尺度-空间理论是计算机视觉界为表示多尺度方面而开发的一个框架真实世界的图像数据，类似于人类的视觉。时间序列分类问题也存在类似的问题，其中定义类的某些模式可能出现在不同的位置（即空间）或长度（即时间）。scales）。信号的尺度空间表示通过信号与具有变化宽度的单参数高斯核族的卷积来生成。在数学上，信号的尺度空间表示构造如下：f：R N！ R表示给定信号。然后，该信号的尺度空间表示L：RNXR<$R由以下等式定义：L：;0.00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000和L：;tg：;tωf3其中tR是尺度参数，g：RNXR0R是高斯核，即1-xTx=2t1-PNx2=2tN序列信息。最后，时间序列的表示是在包含全局特征和监督分类器g/cmx;t/cm22012年12月22日N=2e1/4N=2eð Þi¼1i;xsR;xisR在新的表示上进行训练，以分配每个时间序列。在这项研究中，我们采用了一种与以前使用随机间隔来生成特征的基于特征的方法完全不同的方法[24，25]，因为我们在尺度空间极值点（关键点）周围使用了特定的间隔。使用关键点的基本原理是找到我们通过利用以下因素来确定这些关键点：SiZer方法[26]在其他替代方案中，由于其简单性，尺度参数的平方根，pt，是标准devi。并且是尺度t处的平滑信号中的空间尺度的度量。尺度空间族L可以等价地定义为以下扩散方程的解@tL<$1rTrL<$1X@2L× 5mm1/1T. 阿勒泰和M.G. 巴伊多·格鲁坎工程科学与技术，国际期刊24（2021）1490-14971492ðÞ ¼在初始条件下，L：;0f.这个问题可以用变分方法来解决[28]。2.2. SiZer简介基于特征的表示可以解决模式的平移和扩张问题;然而，基于特征的算法的主要问题是确定数据的哪些特征实际存在。为了解决这个问题，关键点检测器是计算机视觉领域常用的方法。尺度不变特征变换（SIFT）[29]或加速鲁棒特征（SURF）[30]是广泛使用的方法来检测图像中的局部特征。另一方面，Rondonotti et al.[31]介绍了SiZer作为单变量时间序列统计推断的尺度空间可视化工具SiZer分析的目的不仅是找到真实基础曲线中的特征，而且还对其平滑版本进行推断。为此，进行了一系列假设检验，以评估不同尺度下潜在回归线的估计斜率是否具有局部统计显著性。然后，基于这些测试，创建二维SiZer图，以直观地显示位置（t）和尺度（h）上特征的统计显著性。可能会出现四种不同的情况1. 如果置信区间大于0，则得出结论，曲线显著增加;因此标测图位置为黑色。2. 如果置信区间低于0，则得出结论，曲线显著下降;因此标测图位置为白色。3. 如果置信区间包含0，则可以得出结论，（t，h）位置处的曲线不具有统计学显著性斜率;因此使用中间灰色阴影4. 最后，如果数据集中没有足够的信息，则使用较暗的灰色阴影表示数据太稀疏而无法得出结论。SiZer地图还有一个彩色版本，它使用蓝色表示增加的间隔，红色表示减少的间隔，粉红色表示不确定的间隔，灰色表示太稀疏的间隔。2.3. 特征袋法特征袋（ Bag-of-Features ， BoF ）方法起源于词袋（ Bag-of-Words，BoW）方法，用于文本信息检索中的文本表示。在BoW中，每个文本被表示为其词的无序袋，袋中每个词的频率被用作文本分类的特征。换句话说，文本的词袋表示是组成词（词汇）的归一化直方图。在过去的十年中，BoF方法已经被应用于许多计算机视觉任务，例如图像分类、视频搜索、机器人局部化和纹理识别。BoF可以被认为是量化的局部图像描述符的无序集合。一个视觉词汇表被构造来表示从一组训练图像中提取的聚类特征的字典。图像特征表示图像的局部区域，就像单词是文档的局部特征一样[32]。总之，基于BoF的图像表示包括四个主要步骤：1. 提取局部特征。2. 学习视觉词汇。3. 使用此词汇表量化特征。4. 通过使用组成视觉词的频率来表示图像在过去的十年中，这种表示扩展到时间序列分类领域已经受到关注。基于BoF的时间序列表示遵循类似的步骤。3.述的方法在这项研究中，类似于计算机视觉文献，我们使用术语描述符来表示预定窗口中时间序列的属性，同时保留术语特征作为给机器学习分类器的结果值。NSI-BOF的一般步骤总结在图中。1.一、备选方案中使用的选项以蓝色突出显示。NSIBOF分类程序的详细步骤如下：1. 利用SiZer方法确定时间序列的关键点，即局部尺度空间极值，然后利用这些点构造关键点集。2. 计算连续关键点之间的差异构造区间宽度集（IWS），IWS = {3，4.. . ，MKD}其中MKD是计算的差值中的最大值3. 围绕每个关键点构造两个音程。例如，让IWS和KS中的当前元素分别为a和k。然后，如图2所示，间隔[k-a，k]和[k，k + a]是从k开始，向左向右两个方向移动一个单位来构造的。4. 通过使用所识别的关键点周围的描述符来生成局部特征。在这项工作中，我们使用了以下描述符：每个区间中的值的平均值每个区间中的值的方差每个区间内拟合回归线的斜率关键点左侧各成对点之间割线的斜率之和（LSSS）关键点右侧各成对点之间正割线的斜率之和（RSSS）5. 生成时间序列的特征袋表示，然后使用随机森林聚类算法[33]使用获得的描述符值生成码本。Fig. 1. NSIBOF的主要步骤●●●●●T. 阿勒泰和M.G. 巴伊多·格鲁坎工程科学与技术，国际期刊24（2021）1490-14971493图二、围绕一个键P的音程构造图三. LSSS和RSSS的计算说明。图四、训练时间序列的NSIBOF通用算法6. 通过使用码本生成待用于分类的特征，并通过使用随机森林分类器完成分类过程[34]。LSSS和RSSS值的计算如图3所示。在这里，左边和右边的割线的斜率之和分别形成LSSS和RSSS。NSIBOF用于训练和测试集的一般算法如图1和图2所示。分别为4和5。NSIBOF的源代码可在[35]中获得。我们还提出了一种替代方法，即随机袋的功能（RPBoF）的方法，使用随机的时间位置，而不是尺度空间极值，以证明关键点检测SiZer的效用。它使用与NSIBOF完全相同数量的关键点，但它随机生成这些点，而不是使用尺度空间极值点。4. 结果4.1. 实验为了评估NSIBOF产生的结果，通过使用知名UCR数据库中涉及的84个数据集进行计算实验[36]。我们选择使用R，C和Python编程语言来实现NSIBOF算法。我们使用集合IWS = {3，4.. . ，MKD}作为区间宽度集，所有值的平均值和标准差作为全局特征。唯一需要优化的参数是间隔的宽度。为了选择最佳的间隔宽度，我们使用了k倍验证。NSIBOF和RPBoF以及广泛使用的方法C45，MLP，1 NN-Euclid，1 NN-DTW，图五. 测试时间序列的NSIBOF通用算法。1 NN-LCSS、SVML、FS、TSF、TSBF如表1所示。本表中介绍的基线分数可在[37]中公开获得。表中列出的方法分别如下：1. C45决策树方法2. 多层感知器人工神经网络方法3. 1 NN-Euclid; 1-使用欧氏距离作为距离度量的最近邻方法4. 1 NN-DTW; 1-使用DTW（动态时间规整）作为距离度量5. 1 NN-LCSS; 1-使用LCSS（最小公共子序列作为距离度量）的最近邻方法T. 阿勒泰和M.G. 巴伊多·格鲁坎工程科学与技术，国际期刊24（2021）1490-14971494表1准确度等级表。数据集C45MLP1 NN-欧几里得1NN-DTW1NN-LCSSSVMLFSTSFTSBFRPBoFNSIBOF阿迪阿克0,5420,7370.6110.6090.2510.4420.5930.7310.7700.7120.723箭头0.6060.7090.8000.8000.7890.7310.5940.7260.7540.7120.742牛肉0.5330.6000.6670.6670.7670.9000.5670.7670.5670.6600.683甲虫飞0.9000.8000.7500.6500.8000.8000.7000.7500.8000.7850.840Bird鸡0.8000.6000.5500.7000.8000.6500.7500.8000.9000.6350.685车0.5670.7670.7330.7670.8330.8500.7500.7670.7830.7470.775CBF0.6730.8940.8520.9940.9900.8780.9400.9940.9880.9630.985氯浓度0.6880.8610.6500.6500.7200.5840.5460.7200.6920.7370.739CinCECG躯干0.5900.4620.8970.9300.9460.4690.8590.9830.7120.9230.942咖啡0.9290.9641.0001.0001.0001.0000.9290.9641.0001.0001.000计算机0.5680.4960.5760.6240.6440.4920.5000.7200.7560.7290.739CricketX0.2740.5050.5770.7790.7310.3900.4850.6640.7050.6270.663板球0.3280.5260.5670.7560.7870.4590.5310.6720.7360.6900.699板球0.3210.5440.5870.7360.7410.3790.4640.6720.7150.6740.688硅藻土尺寸缩小0.7160.9640.9350.9350.9410.9540.8660.9310.8990.8810.901远端指骨轮廓正确0.7570.8220.7170.7250.7430.6630.7500.7720.7830.7960.802远端指骨轮廓组0.6910.8060.6260.6260.7340.7120.6550.7480.7120.7320.742远节指骨TW0.6260.6260.6330.6330.6330.7050.6260.6690.6760.6940.702地震0.6980.6980.7120.7270.7270.6400.7050.7480.7480.7480.753心电图2000.8000.7900.8800.8800.8900.8100.8100.8700.8400.8570.865ECG 50000.8990.9330.9250.9250.9300.9380.9230.9390.9400.9380.949ECG五天0.7210.9160.7970.7970.7940.9760.9980.9560.8770.9700.975电气设备0.5590.6410.5520.6310.6260.4980.5790.6930.7030.7060.706飞搜0.5490.8630.7140.8080.8010.7200.6260.7510.7440.8580.866FaceFour0.7160.9090.7840.8980.9660.8860.9090.9321.0000.7410.784FacesUCR0.4780.7470.7690.9080.9550.7580.7060.8830.8670.8800.883五十字0.4180.6510.6310.7650.7980.6460.4810.7410.7580.6640.682鱼0.5660.8460.7830.8340.8740.8510.7830.7940.8340.8570.862FordA0.5620.7450.6650.6650.6980.4960.7870.8150.8500.7930.797FordB0.5260.6650.6060.5990.6480.5270.7280.6880.5990.6230.635枪口0.7730.9270.9130.9130.9730.8000.9470.9730.9870.9790.985火腿0.5330.8380.6000.6000.6100.6000.6480.7430.7620.7730.789HandOutlines0.8810.8840.8620.8780.8490.8920.8110.9190.8540.8990.902触觉件0.3510.4680.3700.4160.3900.4060.3930.4450.4900.4010.431鲱鱼0.5780.6410.5160.5310.5630.6090.5310.6090.6410.5910.631在线滑板0.2690.3400.3420.3870.4270.3090.1890.3760.3850.2280.261昆虫WingbeatSound0.5070.5910.5620.5740.5560.6430.4890.6330.6250.5990.635意大利电力需求0.9470.9460.9550.9550.9570.9720.9170.9600.8830.9580.961大型厨房电器0.4850.4800.4930.7950.5840.4270.5600.5710.5280.6040.604闪电20.6230.7210.7540.8690.7700.7210.7050.8030.7380.7210.749闪电70.5480.6440.5750.7120.5750.7120.6440.7530.7260.6710.688Mallat0.7510.8950.9140.9140.9110.8670.9760.9190.9600.8610.886肉0.8671.0000.9330.9330.5330.9670.8330.9330.9330.9630.967医疗影像0.6250.7050.6840.7470.7070.6160.6240.7550.7050.7690.769中间方阵轮廓正确0.6980.8080.7660.7660.7490.6360.7290.8280.8140.8270.833MiddlePhalanxOutlinephalanxGroup0.5520.5580.5190.5190.6100.6170.5450.5780.5780.5700.598MiddlePhalanxTW0.4940.5710.5130.5060.5780.5780.5320.5650.5970.5600.585MoteStrain0.7870.8460.8790.8660.8820.8670.7770.8690.9030.8750.890非侵入性致死性ECG胸部10.7190.9260.8290.8290.8120.9230.7100.8760.8420.8980.900非侵入性致死性ECG胸部20.7850.9450.8800.8700.8830.9420.7540.9100.8620.9260.926橄榄油0.8330.9000.8670.8670.4000.8670.7330.8670.8330.9000.930OSULeaf0.3430.4590.5210.5990.7890.4420.6780.5830.7600.5750.581PhalangesOutlinesCorrect0.7340.8370.7610.7610.7420.6470.7440.8030.8300.8330.837音素0.0650.0970.1090.2270.2560.0940.1740.2120.2760.1720.175平面0.9620.9620.9621.0001.0000.9811.0001.0001.0001.0001.000近端指骨轮廓正确0.7970.8660.8080.7900.7560.8250.8040.8280.8730.9010.901近端指骨轮廓群0.8340.8000.7850.7850.8540.8540.7800.8490.8490.8580.860近端指骨TW0.7370.7900.7070.7610.8050.8240.7020.8150.8100.8200.856制冷设备0.4640.3680.3950.4400.4910.3520.3330.5890.4720.5550.571屏幕类型0.3730.3870.3600.4110.4370.3810.4130.4560.5090.4970.507ShapeletSim0.4890.4720.5390.6940.8220.4891.0000.4780.9610.5170.553形状全部0.4720.6500.7520.8020.8450.7130.5800.7920.1850.7530.766小厨房电器0.5730.3330.3440.6720.4720.4610.3330.8110.6720.7890.794SonyAIBORobotSurface10.6560.9020.6960.6960.7350.7040.6860.7870.7950.7070.788SonyAIBORobotSurface20.6860.8410.8590.8590.8110.8180.7900.8100.7780.7930.821星光曲线0.9070.8460.8490.8980.8790.9190.9180.9690.9770.9670.967草莓0.9380.9620.9460.9460.8380.9190.9030.9650.9540.9710.973SwedishLeaf0.6580.8290.7890.8460.8880.8420.7680.9140.9150.9200.925符号0.6270.7570.8990.9380.9550.8700.9340.9150.9460.8420.881综合控制0.8100.9100.8800.9830.9530.9230.9100.9870.9930.9840.987足趾分段10.5920.5000.6800.7500.7500.5440.9560.7410.7810.4820.540足趾分段20.5000.5920.8080.9080.9080.5460.6920.8150.8000.7490.787微量0.7900.8400.7600.9900.9700.7301.0000.9900.9800.9880.989双导联心电图0.7180.9510.7470.8680.8860.9410.9240.7590.8660.9170.925T. 阿勒泰和M.G. 巴伊多·格鲁坎工程科学与技术，国际期刊24（2021）1490-14971495表1（续）数据集C45MLP1 NN-欧几里得1NN-DTW1NN-LCSSSVMLFSTSFTSBFRPBoFNSIBOF双模式0.6510.9110.9070.9990.9990.8220.9080.9910.9760.9900.990UWave手势库X0.6010.7480.7390.7740.7710.6590.6950.8040.8310.7790.784UWave手势库Y0.5630.6640.6620.7020.6920.6280.5960.7270.7360.7090.712UWave手势库全部0.7840.9320.9480.9620.9590.8940.7890.9570.9260.9480.951晶片0.9820.9640.9950.9960.9900.9600.9970.9960.9950.9980.998酒0.6850.9440.6110.6110.4810.8330.7590.6300.6110.7690.802同义词0.3810.5380.6180.7490.7570.5130.4310.6470.6880.5660.573蠕虫0.4030.4160.4550.5320.5970.3900.6490.6100.6880.5950.616WormsTwoClass0.5580.5970.6100.5840.6490.4940.7270.6230.7530.6560.657瑜伽0.6840.8210.8300.8430.8600.5720.6950.8590.8190.8200.830表2P值和赢/输比率。统计方法C45MLP1NN欧几里得1NN DTW1NN LCSSSVMLFSTSFTSBFRPBoFp值0.00000.00000.00000.00000.08590.00000.00000.35480.36730.0000赢/输比率80/465/1970/1353/2951/3167/1671/1247/3647/3574/06. 线性支持向量机方法补偿复杂度NSIBOF（O.如果m≥logn6，则m2n7. FS：快速Shapard方法8. 时间序列森林方法9. TSBF：时间序列特征袋方法：中国奥姆龙吉夫 m<登录10. RPBoF：这里介绍的另一种方法，它使用随机点11. NSIBOF：使用关键点的建议方法4.2. 统计检验使用Wilcoxon配对符号秩检验对上述方法产生的准确度水平进行统计学检验[38]。表2中给出了测试结束时获得的p水平和NSIBOF相对于相关列中方法的赢/输数量。由于样本量较大，Wilcoxon配对符号秩检验可能导致统计学显著性结局，尽管差异很小。因此，我们还使用Friedman检验[39]，然后使用Nemenyi事后检验[40]来确定Friedman检验是否识别出显著差异该方法是基于每个数据集上方法的秩的方差分析方法的非参数形式基于Friedman检验，我们发现分类器之间存在显著差异0.05显著性水平。采用Nemenyi检验，在0.10显著性水平下，计算出临界这个测试的结论是，如果两个分类器的平均排名相差至少与关键差异一样多，测试结果和平均等级示意于图1中。第六章虽然NSIBOF排名第一，但在此显著性水平下，其性能与前三个分类器没有显著差异4.3. 计算复杂度设n和m定义如下：n：时间序列实例的数量，以及m：时间序列实例的长度。NSIBOF的计算复杂性主要来自于在最后一步使用SiZer来寻找关键点和随机森林（RF）方法。这些方法的计算复杂度分别为O（m2n）和O（mnlogn）. 分别因此。NSIBOF的总计算复杂度如下：4.4. 与类似方法的据我们所知，只有一项研究在时间序列分类中使用尺度空间极值点。称为它通过使用关键点周围的描述符，将广泛使用的图像分类框架SIFT[40]适应于时间序列分类域。作者将BoTSW与线性SVM和1NN结合用于分类目的，并将这些方法称为BoTSW + 1NN（BoTSW 1）和BoTSW + SVML（BoTSW 2）。分别表3列出了本文和NSIBOF的20个数据集的基础上，在文件中使用。这三种方法通过使用图第六章所有分类器在84个数据集上的平均排名基于准确度水平。T. 阿勒泰和M.G. 巴伊多·格鲁坎工程科学与技术，国际期刊24（2021）1490-14971496表33种方法的准确度水平表数据集名称NSIBOFBoTSW 1BoTSW 2阿迪阿克0.7230.3860.358牛肉0.6830.6000.700CBF0.9850.9420.951咖啡1.0001.0001.000心电图2000.8650.8900.840飞搜0.8660.7820.761FaceFour0.7841.0000.954五十字0.6820.6370.600鱼0.8620.9310.851枪口0.9850.9200.933闪电20.7490.6390.590闪电70.6880.6160.520橄榄油0.9300.9000.900OSULeaf0.5810.8180.752SwedishLeaf0.9250.8480.771合成控制0.9870.9570.907微量0.9890.9901.000双模式0.9900.9980.991晶片0.9980.9990.999瑜伽0.8300.8500.770表4比较NSIBOF与BoTSW方法的P值和赢/输比。统计方法BoTSW 1BoTSW 2BoTSW 2p值0.17750.0530.053赢/输比率11/813/613/6见图7。 3种方法的平均等级。Wilcoxon配对符号秩检验和检验结束时达到的p水平以及NSIBOF相对于相应列上方法的胜/负数量见表4。我们还采用了弗里德曼测试，其次是Nemenyi测试。以确定在0.10的显著性水平下是否存在显著性差异。测试结果和平均等级如图7所示。尽管没有统计学证据表明NSIBOF优于竞争对手的方法，但基于所使用的20个数据集，NSI-BOF在比较中排名第一5. 讨论和结论本文提出了一种基于尺度空间理论和特征袋技术的时间序列分类方法--NSIBOF开发了此外，还引入了另一种称为RPBoF的方法来评估使用关键点代替随机点的效果NSIBOF产生的结果已经在UCR数据库中涉及的84个数据集上进行了测试。此外，这两种方法的成功进行了比较，常用的方法在TSC生成的结果，发现NSIBOF的结果更好或相当。由于我们的建议在时间序列中搜索局部特征，因此根据随机过程的性质，NSIBOF可能无法表征生成数据的基础模型。例如，可能存在随机跳跃，但时间序列中的关键点不存在，即基础模型反映了随机跳跃过程。那么，显然NSIBOF在这种情况下是无用的。在不久的将来，我们计划对该方法进行改进，与发现显著影响该方法运行时间的关键点的过程相关。为此，我们考虑利用计算机视觉领域中广泛使用的方法，例如SIFT[29]或SURF[30]，除了SiZer之外，或者开发一种专有的方法。此外，我们估计，通过使用更多的描述符（即平均值、标准差、回归线斜率和割线斜率），错误率可能会大幅降低。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。致谢我们非常感谢引用[1] P. Esling，C.时间序列数据挖掘，ACM计算调查（CSUR）。45（1）（2012）[2] V. Gupta，R.B. Pachori，使用基于FBSE的EEG节律的熵进行癫痫发作识别，Biomed。信号处理。对照53（2019）101569。[3] H. Al-Hadeethi，S. Abdulla，M.迪赫河Deo，J.H.绿色，自适应升压LS-SVM分类方法的时间序列信号分类在癫痫发作诊断中的应用。Appl. 161（2020）113676.[4] P. Kora，A.安纳瓦拉普山口Yadlapalli，K.Sri Rama Krishna，V.Somalaraju，“使用顺序复杂Hadamard变换和混合萤火虫算法进行基于ECG的心房颤动检测。”工程科学与技术，国际期刊20（3）（2017）1084-1091。[5] Elangovan 、 Ramanujam 和 Padmavathi S. ‘‘A Review on Time Series MotifDiscovery IJAIML 9.2 （ 2019 ）： 39-56 。 Web. 2020 年 10 月 31 日。 doi ：10.4018/IJAIML.2019070103.[6] R.J.Wesley ， A.N.

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

时间序列分类：尺度空间理论与特征袋技术结合的新方法

时间序列分析方法

时间序列多尺度特征提取

时间序列分析:预测与控制 第4版 pdf

时间序列基于特征的分类

注意力机制处理时间序列分类详细过程

多尺度卷积和TCN拼接去时间序列预测有什么优势

详细介绍一下时间序列分类

Python 时间序列特征衍生

基于深度学习的时间序列分类最新算法

时间序列数据的处理方法

时间序列分析有哪些方法

写出时间序列多重分形特征的计算过程

多尺度卷积和TCN以及多头注意力机制拼接去进行时间序列预测有什么优势

深度学习进行时间序列分类

多尺度特征融合结合Transformer

基于koopman理论处理费平稳时间序列的方法

随机森林 时间序列分类

时间序列分类和时间序列预测在编码过程中的不同

Python时间序列数据有哪些特征提取的方法

最新资源

时间序列分析:预测与控制第4版 pdf

随机森林时间序列分类