离子迁移率仪变点检测算法研究

98 浏览量更新于2023-12-05 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

阵列14（2022）100151离子迁移谱数据Anton Rauhameria，Kazakhstan，Katri Salminenb，Jussi Rantalaa，Timo Salpavaaraa，Jarmo Verhoa，Veikko Surakkaa，Jukka Lekkalaa，Antti Vehkaojaa，1，Philipp Müllera，1a坦佩雷大学，Korkeakoulunkatu 7，坦佩雷，33720，芬兰b坦佩雷应用科学大学，Kuntokatu 3，坦佩雷，33520，芬兰A R T I C L E I N F O关键词：算法变化检测离子迁移谱A B S T R A C T当需要对挥发性有机化合物（VOCs）进行现场分类时，便携式离子迁移率仪（IMS）是一个合适的选择。然而，IMS读数通常在稳定之前显示瞬态相位。即使如此，在文献中已经强调了瞬态相位和从中提取的特征的重要性，据我们所知，到目前为止，它还没有被用于基于IMS的分类。本文分析了低计算复杂度的变点检测算法是否可以分离IMS读数中的瞬态和稳定相位。该算法进行了测试IMS数据从不同类型的蘑菇。所有算法都成功地检测到从瞬态到稳定阶段的切换。最准确的结果是由先前提出的多元最大-最大UM算法和矩阵形式的最大UM算法，这是本文开发的。1. 介绍变点是时间序列数据中的突变。这些点的检测在建模和预测时间序列中很有用[1]。变化点检测算法被设计为找到在时间上演进的过程经历变化的时间点。该时间点指示生成数据点的过程中的变化。变点检测广泛应用于质量控制[2]、导航系统监控[3]、地震数据处理[4]、医学等领域。[5]的文件。在文献[5在线算法在测量时间序列数据的同时实时运行。离线算法应该在收集完整个数据集后运行。在线算法也可以在收集数据集后离线Aminikhanghahi和Cook发表了一项关于时间序列数据中变点检测该调查描述了变化点检测算法的应用领域、不同的监督和非监督方法以及准确性度量。更多细节请参考[1]。最近关于在线变点检测的研究表明，似然和概率方法是最有吸引力的方法[9例如，在[10]中，贝叶斯在线变化点算法适用于检测日常用水量时间序列中的行为变化。将日常消费概况聚类以提取主要行为模式并将其馈送到一般似然框架中进行序列分析。该算法还考虑了可能影响时间序列中状态之间转换的变量。另一个例子是应用贝叶斯变点检测（BOCPD）算法来及时评估裂缝对混凝土大坝结构安全的影响[12]。研究结果表明，BOCPD可以成功地检测到实时裂纹行为的变化。另一种用于变化点检测的方法是子空间识别。这种类型的算法是基于“时间序列数据的连续性所跨越的子空间和扩展可观测性矩阵的列近似等价”的思想通过估计时间序列后面的状态空间模型来检测变点。作者证明了他们的方法是高度准确的。在本工作的背景下，需要在线变化检测算法来支持分类算法。电子鼻（eNose）的IMS读数通常显示瞬态和稳定阶段[14]。IMS数据的常见方法是等待从瞬态阶段到稳定阶段的切换，并且仅使用这项工作得到了芬兰科学院的资助：323498，295432，295433，323529，323530和295434。作者感谢Simo Ali-Löytty博士对矩阵形式矩阵算法的讨论∗ 通讯作者。电子邮件地址：anton. tuni.fi（A. Rauhameri）。1 A. Vehkaoja和P.穆勒对这篇文章也有贡献https://doi.org/10.1016/j.array.2022.100151接收日期：2021年11月5日;接收日期：2022年3月8日;接受日期：2022年4月1日2022年4月16日网上发售2590-0056/© 2022作者。爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表阵列期刊主页：www.elsevier.com/locate/arrayA. Rauhameri等人阵列14（2022）1001512（）=（��）（1）��来自稳定阶段的数据用于气味分类。然而，这减慢了分类，因为人们必须等待瞬态阶段结束，通常持续几秒钟到1瞬态阶段的特征（例如导数、长度过渡阶段等）可以帮助分类。为了充分利用暂态阶段的信息潜力，必须准确客观地确定从暂态阶段到稳定阶段的切换。因此，本文研究了在线变化检测算法，以区分IMS读数中的暂态相位和稳定相位。在总共五个算法进行了讨论：休哈特控制图，累计和（CumulativeSum，Cumulative Sum）的变种，包括一个变种，据我们所知，还没有提出之前，和贝叶斯在线变点算法。在这项工作中，我们考虑了简单的算法，贝叶斯在线变化点检测算法是最复杂的。还有其他的修改，如表格式的CANUM和CANUM V掩码。后者使用了一组超参数，对于如何选择它们，没有明确的规则。由于这个原因和其他原因，不推荐使用这种算法[8，第416页]。对于手头的问题，表格式的递归将需要并行运行大量的算法，因此从考虑中省略。存在基于例如神经网络的更复杂的变化点检测算法[16]，但是它们是超出了本文的范围，因为只有少量数据集可用。在这项工作中描述的在线算法有很短的延迟因为在将数据输入算法之前对数据进行了预处理。在这项工作中，我们只对低计算需求的方法感兴趣，这些方法可以在线检测计算能力有限的手持设备。对于每一种算法，本文提供了一个简短的解释和讨论，其适用于检测开关从瞬态到稳定的阶段。对于合适的算法，伪代码，然后使用它们来检测从蘑菇收集的IMS读数从瞬态到稳定阶段的切换，并比较它们的性能。IMS数据以及测试算法的即用型Python代码可在[17]免费获得2. 基于离子迁移率的电子鼻eNose是一组气体传感器，用于测量环境气体气氛，例如气味，风味或无气味化学品。eNose基于一般原理，其中气体气氛的变化以特征方式改变传感器特性，这取决于eNose技术和所使用的化学传感器或传感器阵列[18]。传感器通常由金属氧化物、导电聚合物复合材料和本征导电聚合物组成[18]。离子迁移谱（IMS）是一种常见的电子鼻技术，其中使用电场和缓冲气体分离电离分子这些分子被送入一个漂移管，在那里它们被电离。在电场的冲击下移动通过漂移管的离子与缓冲气体的分子碰撞，这导致它们减速（即，改变离子的迁移率）。ChemPro100ieNose由几个传感区域组成（例如，几个金属氧化物传感器），并且电离粒子的速度决定了它们将在哪个传感区域被测量。速度与特定离子的迁移率相关。存在几种类型的IMS装置，并且装置的技术细节存在差异，包括所使用的感测区域和传感器的数量以及例如确实影响数据的电场强度和漂移气体温度。IMS类型的详细讨论可以在例如[19]中找到。在这项工作中，我们使用了ChemPro100i，这是一种由Environics Ltd.开发并获得专利的基于IMS的eNose。ChemPro100i的开发目的是检测环境空气中的化学物质，如战剂和危险气体它使用所谓的Fig. 1. ChemPro100i的工作流程[22]。“吸气”原理，使用镅-241源进行电离。 IMS传感器具有几个有利的特性：它们重量轻，体积小，这使得它们可以用于便携式eNose。其高灵敏度、低功耗和低运营成本[20]使其成为现场测量的合适选择。ChemPro 100i的一个显著优点是空气可以用作载气。其他迁移率光谱仪传统上使用特定的载气[21]。图1显示了ChemPro100i的工作流程除了温度和湿度等其他信息外，ChemPro100i还提供16个通道的电流读数然而，第八和第十六信道是控制信道，其在任何时候都应该为零。在其余14个通道中，7个显示正电流，7个显示负电流。当通道与化学品反应时，读数通常具有瞬态和稳定阶段，例如，气味瞬态阶段被定义为特定传感器通道的上升趋势或下降趋势部分。图中的红色虚线。2（a）将这两个阶段分开。瞬态阶段在红线左边，稳定阶段在红线右边线测量总是包含噪声。噪声的大小取决于气味源的采样位置。如果从受控的顶部空间测量气味，例如，密封烧瓶的读数一般相当稳定（见图）。图2（a）为典型示例），因为吸入eNose的空气的成分是稳定的。在不太受控制的环境中测量的气味，例如，从板一般产生更不稳定的通道响应或导致没有任何有价值的响应（见图1）。2（b）为例）。从板上测量时产生显著噪音的原因是环境空气中存在其他气味，以及吸入ChemPro100i进行分析的空气成分波动更大。另一个问题是ChemPro100i对某些气味没有反应。例如，图中的读数。图2（b）显示ChemPro100i可能对所显示通道的黑鸡油菌气味没有反应（显著）。如果从烧瓶中测量，读数的变化超过10 pA（图1）。2（a）），而平板读数在43.5和46.5 PA，表明气味浓度太弱而不能在IMS读数中（清楚地）可见。注意图图2（a）和图2（b）是说明性示例并且表示不同的信道。3. 变化检测方法3.1. 休哈特控制图休哈特控制图算法是最简单的基于对数似然比的算法。该算法的主要思想是捕获分布改变其参数的实例。对数似然比定义为第1章（一）L��、0其中，R0和R1表示变化点之前和之后的分布的一组参数。��自然对数函数使L（λ）函数在参数λ0的分布的似然性较大时为负，而在参数λ1的似然性较大时为正。该算法要求已知Δ0和Δ1A. Rauhameri等人阵列14（2022）1001513√−1��0��=0��=12∑图三. LLR函数（左）和累积LLR函数（右）。算法1：休哈特图输入：s-滑动窗口的长度，长度-大小为s的初始样本��结果：分布发生变化的时间步长1 �� =1∑��2��分= ∑（−）��图二. ChemPro100i蘑菇读数示例。基于我们对来自各种气味源的多个数据集的观察，我们假设稳定阶段的数据近似为3��0=0，0= 0;��4L= 0; #保留前一个LLR值5 int max = 0; #保持L − L��6 return 0; #计数器7 而样品L≤0do8=[��∶+��];#提取样本大小为s9=0−0;#1预期为0��10�� =（c）11L =��（−0−）;��12L= L − L;��13L = L;��14=+1;��在差分之后具有零均值的正态分布（即，离散差分操作）。差分是指使用两个连续观测值之间的差值而不是测量的IMS值这种操作经常用于时间序列分析，使时间序列平稳[23]。假设过渡阶段的分布为正态分布，参数等于样本平均值和样本标准差。平均值变化后的对数似然比定义为：L=∑（−0−）（2）��15末端检测到更改的时间戳。该算法的缺点是阈值选取困难。如果将R2设置为零，则会导致算法过早指示变化点。代替对LLR函数的值进行阈值化，我们将滑动窗口的大小添加到由算法检测到的变化点。这是基于这样的逻辑，即当算法检测到变化时，1=��12哪里��=��=��并且是滑动窗口的大小滑动窗口是一种在时间序列上滚动的结构。它总是包含当前和-1以前的数据点。该技术可以在线采集和计算时间序列的统计信息，并可用于平滑时间序列。在[5]中，使用累积对数似然比发生在滑动窗口的末尾或中间增加一半的滑动窗口进行了测试，并导致过早检测。对于气味分类，我们更相信来自稳定阶段的测量值而不是来自瞬态阶段的测量值。因此，如果算法将变化点放置在真正的变化点之后而不是之前，则对于气味分类来说不太重要。滑动窗口从序列中的第一个点该算法需要为每个通道单独运行，这增加了内存消耗和计算时间。最后的决定是当大多数通道产生检测到的变化点，通过使用所有检测到的变化点的平均值。休哈特图表可以使用矩阵来实现，该矩阵使得能够计算所有L =∑L（三）频道同时=1提出了一个决策函数（decision function）。变化点如果检测到L≥ 10（4）其中，是方便选择的阈值（我们使用= 0）。典型的决策函数如图所示。3.在这项工作中，我们没有使用累积对数似然比（LLR）。相反，我们使用对数似然比序列（图1）。3左图），因为它更便于检测对数似然比过零的位置。Shewhart控制图算法的工作流程如算法1所示。当循环（第7行）停止迭代时，计数器将包含3.2. 实验方法CUSUMPage 在 [24] 中提出了累积和（ Cumulative Sum ， CumulativeSum）。在统计质量控制和变点检测中，最常用的算法是CANUM方法许多扩展的基础上，已提出[6，8，25]。该算法的核心与休哈特图中的对数似然比检验相同，但是否发现变点的决定不同。LLR值由（2）计算。通过将累积LLR值与最小LLR值进行比较，A. Rauhameri等人阵列14（2022）1001514∑（−）��（c）2=0∑LLR-在先前迭代中找到的值。决策函数定义为��= L�� −��≥ ℎ,(5)其中，L1是累积LLR，L2是在先前迭代中找到的最小LLR值，并且L3是方便选择的阈值。��（5）可以改写为��= L��≥ ℎ +��.（六）在该工作中实现的算法中使用了零阈值。因此，（6）简化为��= L��≥��.（七）正如在休哈特图表的描述中，我们设定了阈值，并将滑动窗口的大小添加到找到的时间戳。图图4（a）和图4（b）显示了CIMUM决策函数的典型行为第一幅图（图4（a））显示了人工生成数据的决策函数，其中分布从��在150 s时，从0，1到5，第二张图（图）图4（b））示出了在第4节中解释的数据中作为说明性示例选择的一个通道的决策函数。红色虚线表示算法找到变化点的时间戳。最后一张图（图）图4（c））示出了通过算法找到的信道上的IMS读数和变化点。算法2示出了用于CANUM方法的伪代码。从第13行可以看出，LLR值存储在数组中A和当前LLR值与最小值的差与零比较（第14行）。如果差值大于零，则找到变化点算法2：CANUUM输入：s-滑动窗口大小，样本-大小样本��结果：分布发生变化的时间步长1 L =0#初始化累积和变量2 A = []#初始化用于存储累积的款项3��0= 1∑��#前s个样本的样本平均值��4��0 = −�� 1 #样本的标准差见图4。典型行为和发现的变化点。前S个样本5 检测到=假6 i = 0 #计数器7 whiledetected == Falsedo哪里��′=（−）−��1（九）i= i +1;9sample← [长度：��长度+长度];#获取下一个长度为s的样本��[（−）−（−）]2��和10=0−0;��11=0��0=（−）−（−）（10）��12L=L+（1闪烁单位0）（��−��⋅��0− ⋅ ��);��13A[]←L;14如果（L −ε（A））> 0，则15←;��16_←;��17端部多变量最大最小值算法可同时计算所有通道。如前所述，数据点在算法之前通过差分运算算法3中示出了用于多变量Max-Maxsum算法的伪代码。矩阵形式月18日结束多元最大值-最大值图该算法是在[6]中提出的。本文演示了如何测试多元正态数据与CANUM将减少到单变量的经典CANUM测试。经典的CULTUUM方案也适用于此L =（L−1+′（−）− 0.5，0）>（8）��我们提出了矩阵形式的矩阵元，作为一个简单的多元扩展的经典矩阵元算法。所有的计算都与经典的CRACUM相同，但以矩阵形式执行。这种方法大大缩短了计算时间，并具有与一维离散元近似相同的精度。该算法可以以两种方式实现，提供作为在所有通道上检测到的变化点的平均值的均匀变化点，或者为每个通道提供单独的变化点。对所有通道上的检测点求平均值可能导致不太精确的变化点，但增加了对气味不起反应且不包含气味的通道的A. Rauhameri等人阵列14（2022）1001515D∑��⎢⎥⎡⎢⎤⎥×⎡⎤⎢⎥=⎢ ⎥⎢⎥��− 1⎢1 ⎥⋮��变化点7 检测到=假1��2��2⋮算法3：多元最大值-最大值图输入：s-滑动窗口大小，-大小为14 ×的样本结果：分布发生变化的时间步长1 ��0=��其可以更紧凑的形式重写为（−F）2×（16）��最终，三维标准差为2��1= 0#假设数据为正态分布，D =（−F）2×��（十七）3=#样本协方差矩阵��4��，=，+1�� −10，其中 i = j#将1 e-10加到主对角线上可避免奇异性��注意，在（17）中，对矩阵的每个条目计算平方和平方根。1维样本的平均偏移的对数似然比（LLR）5 a = 0（��1−0）−1��[5]计算公式为：��6 L= 0#累积和的初始值L=（）∑（−0−）=（）（∑−0−）（18）��8 点= 09 i = 0#计数器10 whiledetected == Falsedo11= 14 ×的数据点��121=平均值（）��13=（1−0）−1（1−0）��相同的LLR被用于矩阵形式MUM，其中：��= D=−1 ×��=��14L=（0，L−1+（1−0）− 0.5）��15如果L> 0，则16点= i +i��=1= ×[ 1��1......这是什么？（二十一）检测到17=真月18日结束19i = i +1��0=�� ×��(22)请注意，是标量，L是为大小为的第一个样本计算的LLR。在（20）1中的符号E1表示逐元素乘法。20end决策函数计算如下：��=��(L��) −��≥ ℎ (23)任何变化点。这种方法只有在大多数通道失败或算法在多个通道上检测到远离真实变化点的变化点时才会失败。数据集分析哪里��=��(L��)1≤（二十四）为本文收集的数据和[14]中使用的数据集表明，这两种情况都是不可能的。因此，本文采用矩阵形式而λ是方便选择的阈值。（24）的右侧表示所有先前计算的LLR的最小值。每个条目使用了使用检测到的变化点的平均值的CANUUM算法��是一个信道的LLR也就是说，让=��0.001，1.��1，��n∈R14×��（11）向量L是信道特定的最小LLR值。��如果算法已经检测到计算的LLR值小于该向量中的值，则将替换该向量的对应条目��的��⋮⋱⋮��14.1...��14��、（23）中的向量的平均操作意味着向量中所有条目的平均这个对数似然比的顺序计算产生可以是包含来自所有通道的读数的矩阵，其中每行表示一个通道，并且λ是移动窗口的大小。也就是说，�� ，是第七个通道的第七个读数。��每个通道的样本均值向量计算如下结果与在一维空间中相同，但是同时针对所有通道。算法4中的向量I包含每个信道的所有先前LLR上的最小值。向量I的条目需要在每次迭代时更新。贝叶斯在线变点检测1��1��2（十二）提出了贝叶斯在线变点检测方法在[26]中。BOCPD的思想是检测变化点，��1⎣��⎦��×1...⎢⎣��14⎥⎦即所谓的游程长度。该算法的概念如图5所示。每当新的测量可用时，算法计算一个维度的标准差计算为��=√∑(��−��)2（十三）对应游程长度增长1的概率。如果变化的概率大于增长的概率，则游程长度下降到零，并且检测到变化点。图5（a）有三个分区。分区由更改点分隔分区中的第四个点是变化点之前的最后一个点��一维标准偏差可以转换为矩阵形式，如下所示：1发生。在这一点之前，可以看到在图。5（b），游程长度增长。第五个点，属于划分点2，来自另一个分布。这一事实导致游程长度下降到零。F=[]��...n]∈R14×n，n��=−1∈R×1（14）��⎣��−1⎦在到达一个点之后，该算法执行四个步骤：1. 计算后验预测概率2. 计算增长然后，通过下式计算（13）中的平方根下的分数：1��（1−0）−1（1−0）��=1=1A. Rauhameri等人阵列14（2022）1001516⎢⎥⎦⎢⎥3. 计算变点4. Update statistics（��1，1− ��1）2 ...（1，��−1）2⋮⋮⎤⎡⎢��−1⎤⎥（）中国，（15））为了实现该算法，使用矩阵R（算法��14，1−14，2...��2014年，2014年2月��1⎣��−1⎦5）。矩阵R如图所示。第六章 R的第一列表示A. Rauhameri等人阵列14（2022）1001517[]3←.. .��[客户端][客户端]√D��∑��（��，1∶��）算法4：矩阵形式矩阵输入：s-滑动窗口大小，-大小为14 ×的样本结果：分布发生变化的时间步长1 L��←00...0#初始化累积LLR的向量2 = ×��#均值向量F#14xs矩阵4D=（− F）��2×#计算标准差��5 =−1 ×6 ��=7I← 00...0#用于存储LLR的最小值的14维向量8 检测到=假9 点= 010 i = 0#循环计数器11 whiledetected == Falsedo12←大小为14 ×14的见图6。马特里克斯河数据不详。因此，用于估计两个参数的共轭先验是正态伽马分布[27]。在这种情况下，后验预测分布是广义t分布，=2��2=��方差正态-Gamma分布具有参数、，这些参数必须在第一次迭代之前初始化。��更新参数更新如下：13L ��= L��+（��）（��× [11...[1] −�� ×− ��×��），（二十五）14如果LI��D然后2�� =��100100+100 100��100+10015I ←L16端部17如果��（L − I）>0，则��=��0+��,(26)��=��0+��,(27)18点= i +22��19��←��20end�� =100+��（−）��2（+）��21i = i +1在时间t处的第一步是计算后验预测概率22端部对于任何可能的运行长度，��（��）=（��|��（��）��、（二十九）其中，m表示游程长度。该概率使用具有参数α、β和β2的t分布计算。在第二步中，每个运行长度的增长概率计算为：（=��−1+ 1，1∶��）=（��−1，1∶ −1��）（��）（1−��−1 ）（30）其中是危险率。风险率可以表示关于变化点发生的频率的先验知识。关于风险率的更多解释见[28]。在第三步骤中，计算变化点的概率，即，游程长度为零，如��（= 0，1∶��）=��∑（��−1，1∶ −1��）（）��−1 .（三十一）��−1运行长度的分布需要通过以下公式进行归一化：（，��）=的（，1∶��）��（三十二）图五. 通过变化点分离数据的想法[26]。在时间101，...，102处��其余列表示不同运行长度在不同时间的概率。没有必要在存储器中保存完整的矩阵。相反，只有最后一次迭代的结果必须被存储。在这项工作中，t分布被用作基础概率分布（UPM），因为正态分布显示出较差的检测结果。使用t分布是因为��最后，用（25）在算法实现中，采用矩阵R来保持增长点和变点的概率。矩阵R的第二行表示时间步长，列表示原始论文中描述的网格的节点。矩阵R仅用于说明目的。该算法的实现可以在补充材料中找到。在执行过程中遇到的一个障碍是正态伽马分布参数的初始化。有几个来源简单地将所有初始参数设置为1，并将风险率设置为关于变点频率的先验信念，但文献中没有给出任何理由。使用数据集[14]进行的快速研究[25，p. 37]显示，将和设置为1，为样本均值，等于风险率，可确保算法始终找到有意义的变化点。��将所有参数初始化为1会导致无法找到任何更改点。.（1∶��A. Rauhameri等人阵列14（2022）1001518∑100一，1∑|��|、��∑2（+1算法5：具有t分布的贝叶斯变点作为UPM结果：分布发生变化的时间步长1 ��←2[0，0]= 1#将第一个值设置为13←[1]#创建一个向量来存储上一步��4 =1#初始化危险率5 0=0=1#初始化UPM分布参数60=#将平均值设置为样本平均值��7 ��0=#将��8=[]#初始化向量为，��用于保存所有以前的值9 发现=假10 i = 1#计数器11 whilefound == Falsedo12下一个点13=get_predictive_probabilities（，，，，）��14=××（1−）#计算增长概率��15=（××）#计算变化点概率��16=[，]#连接成一个向量变化和增长概率��表1平均运行时间[ms]。直接时间[ms]文档大小Shewhart BAUGUM Maximum BAUGUM MFAUGUM Bayes5 6.069.92 1.13 0.18 341.4310 4.71 9.24 0.6515 4.21 8.94 0.64 0.11 348.16平均和相对时间[ms]平均值4.99 9.36 0.81 0.14 342.522019 - 05 - 26 00：00：00数据集包含具有清晰可见的相位变化的通道和没有清晰可见的相位的通道。数据见[17]。5. 结果所有考虑的算法都使用Python语言实现。源文件、数据集和补充材料可在[17]下载使用平均绝对误差（MAE）度量来测量每个算法的性能，其计算为14（100）= −（33）��14=117R[i，：] =�� # normalize并放入r矩阵其中，Rounds是基础真值，Rounds是��18分=��（��×�� +��） #更新平均值算法19��100+ 1=10+ 1#更新kappa-value表1显示了算法的运行时间。的上部表20=+1#更新alpha值��22滑动窗口大小为5、10和15的算法的下部21=��+��（��−）�� #更新beta值22=[0，]# concatenate vector alpha��23=[0，]��24=[0，]��25=[0，]��26=[，]#为下一次迭代连接��表“平均时间和相对时间”以毫秒为单位显示平均时间。最后一行显示相对运行时间。计算是在配备CPU 2 GHz四核Intel Core i5和16 GB RAM的MacBook Pro上进行的。本表中使用的缩略语为：• size-滑动窗口的大小• Shewhart-ShewhartCharts算法27端部28函数get_predictive_probabilities（预测，概率）：��29df = 2 ×1030loc =0 √31• KUUM-KUUM算法• 最大值UM-多元最大值UM算法• MFPUUM-矩阵形式MFPUUM• 贝叶斯-贝叶斯在线变点算法32返回概率t（x，df，loc，scale）33返回4. 数据收集了来自黑鸡油菌（ Craterellus cornucopioides ）、黄足菌（Craterellus tubaeformis）以及这两个物种的混合物的测量结果。将蘑菇风干。无添加剂（例如，盐或水）。用ChemPro100i在1Hz下从开口板和密封烧瓶测量所有气味源。对于每个气味源，5分钟，这意味着数据库总共包含30个数据集。在两组测量之间休息3分钟。需要断开以便用环境空气冲洗漂移管，直到IMS读数恢复到基线。通过目视检查时间序列图手动选择地面实况点。然后将30个数据集分类为好、坏或不确定。如果数据集包含具有清晰可见的瞬态和稳定相位的IMS读数，则其被表征为良好。如果一个数据集不包含任何清晰可见的相变，那么它就是坏的。模棱两可的• rel -相对值相对运行时间计算为相对于最快算法（矩阵形式的矩阵UM算法）的比率。可以看出，除了贝叶斯变点之外，所有算法都具有相对较小的运行时间。贝叶斯比矩阵形式的贝叶斯慢2000倍。这可以用滑动窗口部分解释贝叶斯算法不使用滑动窗口。也就是说，它计算每个后续数据点。所有实现的算法运行速度都快于ChemPro100i的采样速率这意味着所有五种算法都可以实现在线检测，并且仍有时间为未来的研究进行预处理图7示出了来自三个不同数据集的信道响应。红色虚线表示地面实况点。其他垂直线示出了由算法检测到的变化点左图显示了整个时间序列以及检测到的点和地面实况。右侧图显示了左侧图中以蓝色突出显示的部分数据。对于变化检测算法，滑动窗口的长度被设置为15。图中的读数7（a）来自分类为良好的数据集。算法相当准确地检测到了变化点。可以看出，只有CULTUUM将更改点放置得稍晚。图中所示的读数。7（b）来自不良数据集，该数据集是从板测量的。几乎所有被归类为不良的数据集都是从平板中取样的的scale =��（��×��• avg -平均值A. Rauhameri等人阵列14（2022）1001519见图7。通过变化检测算法从（a）好的、（b）坏的和（c）模糊的数据集产生的通道读数和变化点的示例。左边的图显示通道在整个5分钟的测量时间内的读数右侧图显示了左侧图中以浅蓝色突出显示的选项上的通道读数见图8。二进制噪声导致通道不可用。在图7（b）中的读数显示没有可见的变化点。算法对局部趋势变化做出反应。一种可能的解释是，读取的结果是吸入的空气中的气味浓度eNose太低，无法引起测量电流的显著变化。图图7（c）显示了从密封烧瓶中测量的黄足菌和黑鸡油菌的混合物。读数显示混合物具有瞬态和稳定相。该算法对具有多个变点的信道表现良好。在图7（b）中可见多个可能的变化点，这意味着算法很难找到正确的变化点。数据集的模糊类包含具有清晰变点和模糊变点的通道。从表中测量的多个数据集具有仅包含二进制噪声的通道，如图所示。八、对于这些通道，标记点，检测到的变化点有助于MAE评分。即使如此，没有变化点，算法仍然会产生随机点，这会影响特定数据集的MAE分数。为了克服这个问题，五个算法进行了修改。修改后的算法根据初始样本计算每个通道的最大值和最小值之间的差异。如果该差异小于0.05 pA，则从计算中排除该通道。阈值0.05是根据对所有数据集的分析选择的，这些数据集可从补充材料中找到。表2总结了所有数据集的结果。该表显示了最佳算法及其MAE分数（公式10）。（33）对于三个滑动窗口长度。从表中可以看出，多元最大值法和矩阵形式法的MAE分数通常较低，这意味着它们产生的变化点比其余三种方法产生然而，重要的是要记住，地面实况点是根据直觉选择因此，无法计算其准确性补充材料表明，在视觉上可检测到的变化的情况下，算法通常执行得非常好。滑动窗口的大小在精度中起着很大的作用，除了BOCPD，它不使用滑动窗口。例如，She- whart图表，矩阵形式的矩阵和矩阵形式的矩阵通常在最大尺寸的滑动窗口中表现得更好。BOCPD算法通常只适用于具有可接受结果的明确变化点如果变化点不明确，则MAE分数可能不准确，因为地面实况点是主观选择的，可能A. Rauhameri等人阵列14（2022）10015110表2每个数据集的最佳算法。"质量“列列对于各自的数据集和窗口大小表现最好的算法。括号中的字母字母设置名称质量窗口大小最佳算法MAE设置名称质量窗口大小最佳算法MAE第一组烧瓶良好5最高限额（a）1.0010最低工资（e）1.71第一组表坏5休哈特（e）5.6410最大值（e）0.8215休哈特（a）1.93 15马格德堡（a）1.57第二组烧瓶坏5最高工资（a）7.5710最高限额（a）5.14第二组表坏5最高限额（a）6.6410最高限额（a）5.7915最低工资（a）5.86 15最低工资（a）5.93第三组烧瓶Ambient5最高限额（a）1.3610休哈特（英）2.43第三组表坏5休哈特（英）6.1210最低工资（e）3.6415最低工资（a）1.79 15最低工资（e）2.55第四组烧瓶良好5休哈特（英）3.4310最高限额（a）1.64第四组表坏5休哈特（长）9.7510最高限额（a）4.9315最大值（a）0.64 15最大值（e）4.40第五组烧瓶Ambient5最大值（a）0.5010休哈特（英）2.43第五组表坏5休哈特（e）7.7810最低工资（e）4.5615最低工资（a）1.50 15最低工资（e）3.10第一组烧瓶Ambient5最大值（a）0.0010 MFPUM（e）0.00第一组表坏5最低工资（e）5.2210最低工资（e）5.3315休哈特（英）1.64 15最高工资（甲）5.57第二组烧瓶Ambient5最高限额（a）2.1410 MFPUM（e）0.43第二组表坏5最高额（e）11.00（e）14.6415最低工资（a）2.14 15最低工资（e）13.82第三组烧瓶Ambient5最高限额（a）2.0010最低工资（e）2.00第三组表坏5休哈特（e）7.8810最低工资（e）6.7815最低工资（e）2.00 15最低工资（e）5.80第四组烧瓶Ambient5最高限额（a）1.2110最低工资（e）1.21第四组表坏5休哈特（英）4.5010休哈特（英）2.9015最大值（a）1.36 15最大值（a）2.86第五组烧瓶Ambient5休哈特（英）3.4310 MFPUM（e）0.43第五组表坏5休哈特（英）15.11（e）11.7015最大值（a）2.14 15最大值（a）3.64第一组烧瓶Ambient5最低工资（e）1.2910最低工资（e）1.57第一组表坏5休哈特（长）8.4010最低工资（e）4.40（a）1.00 15（e）4.00第二组烧瓶良好5休哈特（英）2.1410休哈特（英）2.21第二组表Ambient5休哈特（英）4.1810最低工资（e）0.91休哈特（英）2.27第三组烧瓶良好5最高限额（a）1.9310最高金额（e）0.00第三组表坏5休哈特（英语：Shewhart（e））9.2010最高金额（e）0.0015最大值（a）1.07 15最大值（a）7.64第四组烧瓶良好5最高限额（e）0.0010最高限额（a）2.64第四组表坏5休哈特（e）4.0010最高法院（e）2.18（a）1.43第五组烧瓶良好5休哈特（英）2.7110最低工资（e）2.29第五组表坏5最低工资（e）5.4410最低工资（e）2.67（a）1.29 15（e）3.00不代表真实的地面真相。第二个问题是有些通

下载后可阅读完整内容，剩余1页未读，立即下载