2021年新数据压缩算法的研究与应用：局部相关性度量下的非均匀采样与多尺度分析

151 浏览量更新于2023-12-05 收藏 1.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

阵列12（2021）100076用于数据压缩的PesentiDaniel，MorinLucas，DiasAndr'e，GillesCourret*工业技术系，瑞士西部应用科学与艺术大学（HES-SO），Yverdon-les-Bains，1401，瑞士A R T I C L EI N FO保留字：大数据数据压缩局部标准差自适应采样频率稀疏信号多尺度分析A B S T R A C T随着数字时代的到来，数据存储持续快速增长，特别是随着互联网数据中心的发展。这场技术革命对环境的影响已经成为一个问题。随着数字录音成本的降低，存储的不必要数据量也在增加。本文提出了一种新的压缩数字数据序列的算法，它使用了一种基于统计特性的局部相关性度量。这种压缩产生具有依赖于数据的相关性的密度的非均匀采样，因此该算法具有自适应特征。它的工作原理没有任何额外的输入，并允许建立一个渐进压缩的数据树。这样的结构可以提供多尺度分析工具以及选择性内存释放解决方案，以实现高效的存档管理。对两种理想的无噪声信号和两种实际应用进行了测试为了研究在不利条件下的压缩性能，选择了非稀疏型信号。尽管如此，在保持信号的相关特性的同时，样本数量减少了一半以上。通过重构理想无噪声信号的均匀采样，获得压缩误差的度量。比较原始信号和重构信号的傅立叶变换，我们进一步考虑到原始信号的带宽和采样频率之间的比率，允许将来进行比较分析。1. 介绍记录信息的能力一直是文明发展的一个关键因素，因为它使知识的传递更加可靠。公元前4000年出现的文字[1]是一个重大突破，但数据共享仍然受到手写数据复制的冗长和繁重性质的阻碍。因此，古腾堡在文艺复兴时期发明的印刷机被认为是加速人类发展的重大技术进步[2]。如今，一些作者认为，社会的数字化转型将产生相当甚至更大的影响[3，4]。向数字时代的过渡确实结束了信息共享问题，因为它建立了一种似乎无限数量的数据记录、交换和处理的便利性，特别是由于近几十年来电子大容量存储器价格的下降[5]。然而，这场技术革命对全球变暖产生了重大影响[6]。数据中心已经占全球能源消耗的2%以上[7]，并且在未来几年将大幅增加[8]。今天，气候变化要求更有效地技术在市场上。为了满足日益增长的数据需求，近年来，诸如数据库中的知识发现（KDD）之类的计算理论和工具的领域引起了人们的主要兴趣。数据压缩算法技术已经发展到减少原始数据而不丢失信息的意义。这些技术可以通过促进数据库中的搜索和可视化来提高分析师的生产力。大数据领域已经投入了大量资金，但收集到的大部分数据仍未使用。当今的数据分析工具在处理大数据时无法提供流动性，用户生产力下降。环境问题要求从源头上减少数据浪费。在当前的数据采集系统（DAQ）中，经典的采样技术通常采用恒定的采样频率，由于实际应用中的信号往往是不规则的，这就造成了巨大的数据浪费。例如，在大多数情况下测量稀疏或混沌信号的监测系统由于需要在采集链中调整恒定采样率而消耗大量能量。实际上，为了不遗漏任何事件，必须将该恒定采样频率设置为最大值。这会产生大量的数据流，但* 通讯作者。电子邮件地址：gilles. heig-vd.ch（G. Courret）。https://doi.org/10.1016/j.array.2021.100076接收日期：2020年11月11日;接收日期：2021年6月29日;接受日期：2021年2021年7月31日在线提供2590-0056/© 2021作者。爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表阵列期刊主页：www.sciencedirect.com/journal/arrayP. Daniel等人阵列12（2021）1000762没有什么有用的价值，因为大多数时候没有什么特别的事情发生。其中一个策略是最初指定的检测标准，将问题转换为事件检测算法。人工智能（AI）为此提供了自动学习功能。然而，维护成本是与AI相关的一个主要缺点，这对客户来说是可能的。通过机器学习，每个案例都变得非常独特，寻找故障原因的时间可能会变得非常长。在这项工作中，我们建议通过开发一种自适应频率采样器来克服这个问题，该采样器以树结构记录数据，从而可以快速探索和分析大数据。这项研究有助于提高串行数据管理领域的进程的效率，通过解决与存储成本及其在内存中的访问相关的挑战。该研究框架整合了关于以恒定采样频率设置的监测系统的浪费问题。1.1. 工作目标本研究的目的是提供一个算法解决方案，负责消费和生产的串行数字数据。本文提出了一种新的数字数据压缩算法的实现方法，目的是建立一种具有自适应频率的数据采集系统结构，以便在多尺度树中记录数据。在未来，我们还提供对大量数据的快速分析作为数据分析中的可视化和探索工具。从降低成本和能源过度消耗的角度来看，这项工作保证了第一步，以收敛到一个全球性的和最佳的解决方案，在进化搜索的鲁棒性和可靠的解决方案，数据压缩和自适应采样。1.2. 文件的结构其余的工作安排如下。下一部分第2节概述了大数据背景下压缩技术的发展现状，将我们的贡献定位在更广泛的数据分析领域。我们的算法的工作原理的详细描述第4节提出了制定的算法特性，以及获得的指标的评价。第5节分析了测试结果，首先是两个理想信号，然后是两个案例研究。最后，在第六节中总结了整个工作，并指出了未来的研究方向。2. 文献综述2.1. 相关工作在问题的各个方面中，最大的挑战与数据分析有关在他们的文章[9]中，Espinosa等人列出了数据分析领域大数据未来的新问题和挑战因此，一个有价值的技能是开发的能力，以促进数据库内的研究为了实现这一点，出现了像数据库中的知识发现（KDD）这样的计算机工具，其原理和技术实践最近由Bhatia在他的工作中介绍[10]。它包括将大数据映射为更紧凑，更抽象或更有用的形式以增强分析的方法[11，12]。KDD的核心是数据挖掘过程，包括数据分析的应用和算法的发现，例如Ganasan在他的文章[13]中提到的算法，其作用是从数据中定义模型最近，Menaga和Saravanan[14]针对程序中涉及的主要学科，机器学习，人工智能和统计学。许多应用正在各个领域出现：在医疗保健领域，它改善了许多疾病的预测并帮助医生进行诊断[15在管理[21]，在市场分析[22，23]，在体育数据分析[24，25]，在科学研究[26，27]和更多[28在这种背景下，压缩技术至少在克劳德·香农于1948年建立信息论基础之后就出现了。通过定义信息可以从原始数据中删除而不丢失其核心含义的程度，然后可以开发数据压缩算法。在他的书[32]中，Sayood解释说，压缩算法可以分为无损或有损。折衷的是，通常有损压缩将能够比无损压缩压缩更多。在他们的文章[33]中，汗如果为了增强压缩而丢失一些信息是可接受的，则将有损算法评估为更好的替代方案。参考文献[34]中的工作探讨了几种类型的算法。它们通常基于快速傅立叶变换[35，36]，离散余弦变换[37]或离散小波变换[38]等运算符。在他们的工作[39]中，Sharma等人提供了近无损压缩技术来消除数据冗余，其中保证重建信号和原始信号之间的差异不超过用户定义的值。问题的另一个方面涉及数据库中的探索一多尺度或多级方法可以是有效的建模方法。树结构是按照层次关系组织多个数据对象的强大工具。例如，参考文献[40，41]提出了分层数据应用模型。这种结构的特点是快速有效地收集数据。它可以提供多尺度图形工具，帮助找到不同特征尺度的模式，从而导致粗粒度建模，例如在分子生物学[42迄今为止，一些系统生成非常大量的数据，例如在雷达信号处理领域[47，48]或医疗监视领域[49这里要解决的问题是采样频率的管理。参考文献中工作主体的作者。[48，52]已经探索了一些应用，其中活动是不规则的，并且其中可以观察到监视信号的稀疏表示，其中信号的所有段不一定包含相同量的信息。正如Wang等人在他们的文章[53]中指出的那样，这种随机和非周期性的时间分量是研究节省数据存储成本的有效方法的中心问题。在包含突然爆发的振荡的稀疏信号的例子中，它们在等待下一个事件发生时显示出长而平坦的部分。在恒定采样速率下，在该平坦部分上生成大量数据，其唯一意义是采样带宽中没有发生任何事情。在经典的采集系统中，虽然在所有新事件发生时快速变化的脉冲需要恒定的高采样率，但如果等待时间已知，则在它们之间不需要采样。此外，必须知道信号的带宽以应用奈奎斯特-香农采样定理[54，55]，从而确保正确的重建但这可能需要在案件非周期性或稀疏信号，如焦等人在其工作[56]中提到的。为了克服这个问题，可以使用时频域分析来显示信号的频率内容如何随时间变化。最常用的工具可能是小波变换[57]。然而，有几种功能分解技术，参考文献[58]的作者强调并比较了其中一些。因此，在这种方法中，用户必须在大量的可能性中做出适当的尺度和功能分解的基础的选择。该出版物中提出的方法消除了这些限制，便于应用。2.2. 贡献本文介绍了一种新的数字数据压缩算法。我们的方法是混合和通用的，因为它的软件级别可以是P. Daniel等人阵列12（2021）1000763}（）下一页={（）（）（）下一页∑i=n1{.）}n=我-不Fig. 1. 压缩过程的图表，显示节点（当前段的样本）与其子节点（合并的较低级别的节点）之间的从属关系。当前段被延长，直到其标准偏差超过截止阈值σth。分类在基于事件的采样类别中，但不需要特殊的数据采集硬件。压缩是有损的，尽管它与近无损压缩有一些相似之处，因为用户可以控制压缩的程度。此外，如前所述，稀疏信号的常规采样会产生大量不必要的数据。均匀采样，然后被视为后验作为惩罚约束。相比之下，我们的算法基本上执行非均匀下采样，这导致相关性的均匀分布因此，我们的第一个贡献是实现了一个结构化的数据树，一个逐层的压缩进展，允许数据管理直接在几个规模和逐步减少归档文件。我们在3.1节中介绍了它的过程原理。在目前的发展阶段，只能处理一维信号。第二个贡献是基于局部标准差的统计方法，用于在压缩期间实现非均匀采样，这意味着不使用机器学习或AI技术。由于局部标准偏差的中心参数，非均匀或自适应采样得以实现，该局部标准偏差测量样本的相关性并且对噪声非常有弹性。这种自适应压缩技术还利用从数据计算的质量指标参数。此功能在第3.2节中公开。据我们所知，这项研究中提出的工作是一个进一步的通过非均匀采样尝试近无损混合压缩，最大限度地提高能源效率和数据分析人员的工作效率，并避免前面提到的AI缺点。度量算法性能的几个关键特征和指标是评价通过仿真实验在部分4包括可以说，非均匀采样引入了额外的数据存储，因为时间戳不再仅从两个实数计算：采样率和第一个时间戳。这两个数据通常以双精度浮点格式存储，以便生成的系列具有足够的分辨率。在我们的例子中，如果保存树，存储每个节点的子节点的数量，则存储所有时间戳也不是强制性的。每个时间戳都可以计算出来，该树具有相同的精度，因为记录了原始信号的恒定采样率及其第一时间戳。子节点的数量可以以整数格式存储，这只需要少量的内存。因此，我们认为点的集合S= {（t1;y1），是输出信号的M个样本，其中M为N。<发起在压缩中，取输入信号的第一段，其仅包含前两个样本Sn= {（t1;y1），（t2;y2）}，将其标准偏差σ与预定义的截止阈值σ th进行比较。如果σσth，则将下一个样本t3;y3附加到Sn ，并且重复比较的过程以及附加（cf.<等式（1）），直到阈值路口.在这种情况下，该片段从信号中被切断，并且其质心tc1;yc1（参见等式（2）和（3））被附加到压缩采样，这是其目前唯一的点。然后打开一个新的段，该段最初仅包含原始采样中的下两个点。整个过程一直重复到最后，如图1示出了压缩采样的任意项（tck;yck）Sn={（tn1;yn1），n2压缩比、压缩水平的相对平均误差、空间-yn=n11∑yi（2）节省，压缩增益，信噪比，最大绝对失真，信号分割，局部采样率和平均2-n1+i=n1n每个节点的子节点。最后，我们提出了我们的压缩算法的测试结果上提供的信号均匀采样。使用阈值12n=n2-n1+1i（三）用启发式方法确定：人在休息时的正常ECG从Physionet数据库中提取，并由欧洲航天局测试任务的卫星σ1i=n1（四）3. 算法分解3.1. 树结构数据压缩数字数据序列的压缩不仅是为了节省存储空间与阈值的比较以及所产生的动作可以在简单的标准逻辑操作中实现。（假设n2scin=N或N-1）：tck=tn空间，但也要过滤掉不太相关或不必要的信息，σn≥σthyck={y.nty）。ty（五）作为测量噪声。因此，该算法充当低通滤波器⎪⎩Sn=n2+1 ，n2+2;n2+2旨在促进大数据的利用。图1示意了所提出的压缩树过程。当原始采样是均匀的时，这种树结构减少了数据存储σnσth<$Sn=Sn<$tn2+1;yn2+1（6）<然而，在这方面，的标准偏差并不采取成账户a）}n2-n1+1n不P. Daniel等人阵列12（2021）1000764∑我）图二. 一个均匀的样品（下图），有两个压缩向上移动（中心和顶部）。在所考虑的段中的可能斜坡，Sn。因此，通过考虑分段上的平均值的信号变化率来获得细化。这是通过替换方程中的平均值yn来3.2. 自适应重采样该压缩算法适用于非均匀采样(4) 通过线性回归模型计算如下：（可变采样率），使得可以执行迭代以构建树数据结构，其中每个级别进一步压缩初始信号。y ni=a n t i+b nn1≤i ≤ n2（7）̂()图图2示出了应用于波包的两次迭代，根据信号的变化确定采样点他们分布n2ai=n1Ti yi-yn tn以便采样集中在最弯曲的部分。在这方面nn2i=n1（t2-t第二章（八）n相关性的度量与偏离直线有关。信号导数已被提出作为合适的属性，但具有放大测量噪声的相当大的缺点，bn=yn-an tn（9）因此等式（4）变为：√√̅̅ ̅1̅∑̅n2̅(̅)2Algabroun在他的文章中解释说[59]。在我们的算法的设计中，我们应用基于标准差的替代方案（参见。等式（10）），因此非常抗噪声，如前所述因此，要讨论的一个重要问题是如何设置阈值σ th。如前所述，它可以由σn=n2-n1+1i=n1伊伊尼（十）user. 这是一个有用的功能，如果他可以访问特定的应用程序-选项。例如，可以使用与噪声水平成比例的阈值。可以通过从细化中排除仅两个样本的片段来节省一些计算时间，因为这样就不会从线性回归中分离。在测量数据的情况下，测量链的输出肯定是一个很好的方法。在没有足够的规格可用或无法获得的情况下，现在制定默认解决方案，允许仅从输入信号中为σth分配值。因此，该方法被限定为自适应的。利用树压缩算法的一些度量∑=P. Daniel等人阵列12（2021）1000765图3. ECG取自PhysioNet数据库[60]。原始样本数为1250（采样率为200 Hz）。P. Daniel等人阵列12（2021）1000766RR[客户端]（）下一页R.）的。）R1R1214. 性能评价使用归一化阈值σth/σmax获得的度量概述图四、图 1 的 E C G 信号的相对平均误差ek。 3，cf. 等式（16）.定义任意函数Qk（σ th），针对扫描间隔的一系列阈值计算质量指数Qkσth。σ min，σ max。此外，对于主要为非AC的监测系统，K1如果一个事件发生在很长一段时间后，我们的人，Q（σth）=CRk（σth）εk（σth）（11）理想情况下，该算法应允许低压缩比以及低误差。这导致Qk的高值，这允许找到σ th的值导致Qk的最大值。为此，令S0={（t0; y0），.租m提供了对每段N的点数的限制实际上，如果没有这种划界，当前段中的点的数量可能无限增长。当一个事件发生时，算法不能再做出反应，因为除以太大的数字将强加一个标准差阈值趋于0。N的极限可以是0 011根据硬件规格配置，即其存储器，（tN0;yN0）}是要压缩的信号。首先，标准偏差的所有可能值计算如下：⎧⎪Y 0=[y0y0]σ1=st d。Y 0）缓冲寄存器在本研究中，它被固定到输入信号的基数（无定界）。⎪⎨Y 0=[y0y0y0]σ2=st d。Y 0）（十二）21232…[]（）N12NN在本节中，我们以心电图为例，可视化算法σN0-10-1标准Y 00-1=y0y0.（ECG）信号，如图3所示。在第4.1节中，图 5和6显示一个通过这样做，我们可以界定σth的变化范围：σmin=minσ1，σ2，并且σmax=maxσ1，σ2，.，σ N 0（13）然后，压缩比CR k（σ th）、相对平均误差ε k（σth）和X轴，便于分析压缩级别或树，整体图五、图1的ECG信号的1级压缩的Q1、ε1和CR1。 3与归一化标准差阈值（σ th/σ max）。黑点表示选择的Q1的局部最大值. （为了便于阅读，曲线Q1已被截断。）。P. Daniel等人阵列12（2021）1000767DBRSDBDBK∑∑N⃒ε ⃒我图第六章 SS1、CG1、SNR1和MAD1（参见图1的ECG信号的1级压缩的等式（17）-（20））。 3与图中相同的归一化阈值。 5DB（图1）DB为便于阅读，已将其截断）。4.1. 算法度量在图图5和图6示出了用于评估我们的数据压缩算法的性能的多个关键指标。根据以下定义计算每项措施的分析(i) 压缩比：对于级别k，上面在图5中绘制的压缩比被定义为以下比率：因此用于压缩。对于迄今为止测试的所有信号（参见第5节），Q1是在具有至少一个局部最大值的变化域的下界处的阈值的递增函数。因此，我们认为，这种启发式具有广泛的适用性。在图1的ECG信号的情况下， 3中，其导致归一化阈值0.075，这导致12.4%的压缩比和ε 1的值0.0305，这对于这样的数据是合适的结果。在图6中，我们分析了算法节省的空间、压缩增益、信噪比等指标之间的相关性，CRkK=S0（14）以及原始信号和电平1的压缩信号之间的最大绝对失真。仍然考虑图1中获得的相同的局部最大值Q10.075。 5，该算法执行如下：与Sk=当前级别的样本数S0=原始样本数（级别0）(ii) 压缩水平的相对平均误差使用压缩电平k的线性内插，定义相对于原始信号（电平0）的误差测量εkεk=yk-y0;1 ≤i ≤ N。（十五）如下节省空间的SS1在接近我们选择的Q1的局部最大值时显著增加，然后快速达到接近100%的平台。最大绝对失真在相同的间隔上也显示出平台。由于该节省空间的指标恰好是先前测量的压缩比CR1的1的补数，因此结果再次令人满意。此外，与节省空间的情况一样，压缩增益CG1和信噪比SNR1都显示出非常相似的总体行为，对于第一度量具有更大的灵敏度。两者似乎是相互关联的。该结果是相关的，因为该算法在压缩数据时降低了测量链输出端的我我我在这个心电图信号中，一个重要的观察结果是，然后取εk的绝对值的平均值并除以水平0的平均绝对值，得到相对平均误差εk，如涉及测试的第二阶段，在所选局部最大值Q1的右侧，0.075（参见图5）。所有指标都呈现出一个平稳的图5进一步限定：R期。因此，我们认为，自适应过程后，找到第一个局部最大值的Q1。当然，我想，εR=Ni=1i=1Ki|y0|（十六）所有数据都用于一般分析。这些指标的计算采用以下定义：注意，零分母的情况被排除在外，因为整个信号将为零。同样值得注意的是，相对平均误差并不总是从一个压缩水平到下一个较高的压缩水平增加，如图所示。四、1(i) 节省空间：通常，空间节省由与压缩的关系给出[61]。这在图5中，值得注意的是，当σth/σmax压缩水平k，为：方法1.CR1向右端的低值收敛，X轴和ε1减小，这导致Q1整体的最高值。K克R1SS=1-CR=1 -S0（17）因此，根据Q的绝对最大值不是一个合适因为树的层数太少。相反，我们选择通过从σmin逐渐增加阈值找到的第一个局部最大值，在误差和压缩比之间进行启发式权衡。对应于Q1的阈值为当然，我们的算法的这一措施可能是进一步研究的主题。在现阶段，我们不详细讨论这方面的问题，因为这将需要对这项工作进行过于雄心勃勃的扩展。P. Daniel等人阵列12（2021）1000768见图7。图3的ECG信号的分割。每个垂直波段（双色调灰色背景）仅包含一个降采样样本，以红色绘制。下面的标高也以蓝色绘制。可以看到脉冲之间的段的宽度更大，这意味着在这些时间间隔中聚集了更多的点。见图8。图3的ECG信号的1级压缩的局部采样率。图第九章每个节点的平均儿童数Nk和图 1的 ECG 信号的相对压缩率CRk。 3（cf. 等式（22）和（23））。C rP. Daniel等人阵列12（2021）1000769DB我DBεC.⃒MAD=max ε（20）RC图10. 阻尼正弦波与其从1级压缩重建的比较。 CR1 =36%。(ii) 压缩增益：仍然对于水平k，以分贝为单位的压缩增益被定义为局部采样频率参数适用于监测信号的分割。对于由时间向量tk= k组成的任意水平k，[tk，tk，以下内容：12N23NSKFK=1=1[Hz] 1 ≤i≤N-1（21）不CGk=20log 10S0（十八）i+1ΔtkK一加一-tk为了匹配向量长度，附加元素fk等于fk1 2(iii) 信噪比：信噪比标准定义通常由对应于原始信号的去噪信号的相对性表示[62]。这里，我们使用上面建立的相对平均误差作为信号背景噪声的度量。因此，对于电流电平k，以分贝为单位的信噪比被定义为：在频率向量的开始处任意插入。如所预期的，采样率随着心脏脉冲周期性地达到峰值，达到100 Hz的上限，这是原始采样率的一半（参见图1）。图8）。此限制与50%的最小压缩比相匹配，因为每个节点至少有两个子节点，因为计算标准差至少需要两个值。(iii)每个节点的平均子节点数：SNk=10 logS010公里（十九）此参数适用于测量一级压缩。对于由N组成的任意水平k，其在等式（22）中被定义为Nk节点，其中Nk是节点i的子节点的数量（四）最大绝对失真：ciNNk=1∑NkCN（二十二）局部失真度量常用于量化误差原始信号和重建信号之间的关系[63，64]。在这Cii=1这样，对于级别k，局部最大绝对失真（或峰值失真）由下式定义：等式（15））：K K我4.2. 算法特点此外，通过除以正下方的级别（因此级别k-1）的节点总数，我们获得压缩的一般指示符，例如允许比较不同级别之间的压缩。该参数被称为相对压缩率CRk（参见图1）。等式（23））。NkCRk=c（二十三）下面的图形（cf. 图图7-9 ）示出了仍然在图 7 所示的心电图（ECG）信号示例的情况下由算法执行的一些特性。 3.(i) 信号的分割图7的绘图功能通过彩色垂直带呈现贯穿ECG信号的分割。为了避免间隙，较小的边界放置在当前段的第一个子段和前一段的最后一个子段之间的中间，较大的边界放置在当前段的最后一个子段和下一段的第一个子段(ii) 局部采样频率r上一水平在图9中，我们可以注意到，在第1级之后，Nk下降到大约2，从而降低了对树的兴趣。这可能是由于采用相同的阈值（σth）来构建每个级别。这个问题可以通过将阈值从一个水平改变到另一个水平来克服，例如通过重新应用第3.2节中描述的自适应方法。5. 测试、模拟分析和结果我们进行压缩测试与自适应响应信号提供的均匀采样。本节首先用理想信号进行测试，即其连续时间傅里叶变换具有解析表达式，因此允许设置其带宽（表示为fBW）。通过对压缩后的信号进行均匀采样重构，计算出快速傅里叶变换（FFT），并与原始信号进行比较P. Daniel等人阵列12（2021）10007610（）下一页==-σ2π2σ2000傅立叶变换参考实际工程规则[65]，采样频率（表示为fs）固定为fBW的还执行了两个具有真实世界信号的测试：其余的是从Physionet数据库中提取的[60]和欧洲航天局Swarm任务卫星提供的信号测量所有这些信号都被选择为不包含任何直线部分，因为我们想要在不方便的条件下测试压缩，以便获得其性能的下限。5.1. 理想信号用于测试的两个理想的无噪声信号选自在工程学和物理学中最常见压缩仅限于在重构之后的振荡频谱中的值稍微低一些（参见图1）。图11），但结果非常令人满意。误差甚至比纯正弦波的情况下更好地限制（2%对3.5%）。重建非常接近原始采样，以至于在图10中几乎无法区分它们。在整个抽样过程中，差异的绝对值保持在0.5%(2)的二理想信号是一高斯波数据包y2（t）=<$1<$exp p（-（t-t0）2）sin（ω（t-t））;ω=20πra d/u;σ=0. 3个;一级。该方法采用三次样条插值法，以0级速率fs均匀采样。然后计算FFT的幅度，以在两个电平0和1之间进行比较连续时间傅立叶变换用于设置信号带宽fBW。样本数量固定为500。(1)第一理想信号是具有指数阻尼的正弦波：y1（t）=e（-αt）sin（ω0t）;α= 2u-1;ω0= 20πrad/u;fBW=15个。53 u-1;fs= 310。6u-1，u为任意时间单位。y1（t）的拉普拉斯变换见参考文献[67]。fBW用软件Matlab（“带宽”命令）计算。高峰的t01 .一、0396 u;f BW12 u-1;f s240u-1参考文献[68]给出了高斯波的傅里叶变换的解析表达式它的模被计算为y2（t）以找到fBW（参见图12）。f BW约为12 u-1，这使得采样率达到240 u-1。在重建之后，在一维时间的区间[0-3]中，只能观察到小的扰动（参见图1）。图13）。这段信号在压缩过程中被压缩成一个单一的样本，用三次样条技术重建产生了这个伪影图十一岁上图：图中阻尼正弦波频谱的幅值。 10. 下图：1级和0级之间FFT幅度的差异图12个。高斯脉冲的解析傅里叶变换的幅度 [68]。P. Daniel等人阵列12（2021）10007610图13岁高斯脉冲与其从1级压缩重构的比较。CR1=40%。图14. 上图：图13的高斯脉冲的频谱的幅度。下图：1级和0级之间FFT幅度的差异。图15. ECG中寻找的主要特征[69]。P. Daniel等人阵列12（2021）10007611图16. ECG示例1，大比例视图。图17. ECG示例1的两次搏动部分。波图18. ECG示例2，大比例视图。两个光谱之间的差异（cf. 图 14，下文）。山在重构信号的频谱非常接近原始信号（参见图1）。图14，上图）。我们放大了一千倍来观察约0.3的一维峰值频率是由于上述重建的伪影。在整个光谱范围内，误差小于1P. Daniel等人阵列12（2021）10007612（）下一页图19. ECG示例2的两次搏动部分。图20. 欧空局Swarm飞行任务关于地球磁场随纬度变化的测量数据。[-5，-4]间隔被放大以显示原始信号中的小波动，压缩使其平滑。%，绝对值。因此，我们可以说压缩给出了可靠的结果。考虑到重建信号的保真度，达到的压缩比（CR1）相当好（35、36和40%），考虑到没有直的部分。然而，如y2t所示（参见图13），可以改进重建方法。选择样条重建技术是因为它生成连续且可重构的函数，避免了例如在线性插值的情况下会出现的高频噪声。寻找一种更适合我们的压缩算法的重构技术是我们未来前景的一部分。5.2. 来自PhysioNet的从PhysioNet [60]数据库检索的ECG样本已被压缩。当面对这样的ECG信号时，最重要的是识别其上的主要医学特征以进行诊断：P波和T波以及QRS波群（参见图1）。图15）。如果压力太大，这些将首先受到损害或消失。我们考虑两个信号，从正常人的心脏跳动在休息，测试是否压缩水平1表现出的主要特征的正常心电图。图来自Figs。(16)（19）显示结果。如图所示，压缩比小于46%，在水平1处获得，并且重构信号中的QRS波群以及P波和T波的守恒性是无可争议的。然而，需要注意的一个缺点是R峰的减少。这是因为重置率不能超过原来的一半。然而，由于重建，结果有限。水平0和1之间的峰值的平均相对误差在实施例1的[11，50] %和实施例2的[5，40] %的范围内。重构信号中的峰值R值比压缩信号中的峰值R值明显更接近原始值（参见图1）。图 16和18）：误差减半。5.3. 来自swarm卫星的数据（欧空局）Swarm任务由欧洲航天局（ESA）于2013年 11月发起，发射了三颗相同的卫星，用于捕获地球磁场的波动提取物该数据在图20中以压缩后和重构后的信号示出。1级压缩比（CR1）优于36%。重建显示了可靠的结果。6. 结论与未来研究展望在设计渐进式有损数据压缩算法时，与记录样本的相关性无疑是关键点。P. Daniel等人阵列12（2021）10007613=考虑到一维数字信号，我们已经开发了一种算法，将信号分割成段，并用它们的线性回归代替它们。分割是相对于从局部回归的偏差的方差。这些段引用[1] Va l'erioM，FerraraS. 书写之初的算术：美索不达米亚及以后。2020.https://doi.org/10.1016/j.hm.2020.08.002网站。.通过将标准偏差与预先设定的[2021年4月12日]。[2] 富塞尔湾古腾堡和印刷术的影响。泰勒&弗朗西斯; 2020年。https定义的阈值。在以这种方式分配相关性时，我们因此断言相关性均匀地分布在压缩信号中，从而针对给定阈值优化压缩。显然，压缩性能取决于输入信号。它包含的直线部分越多，压缩力就越强。在设置阈值时，用户可以调整压缩比。这对于包含长延迟的记录（例如稀疏型信号）尤其有用，这是典型的监控系统。为了在测量数据的情况下进行适当的过滤，该设置可以与例如测量链的噪声或其不确定性相关联。为了最大限度地提高算法的适用性，我们还引入了一个启发式的自适应阈值确定，它不需要任何输入，除了信号。这项工作开辟了一种独特的方法，其中采样率自适应被管理，以便产生一致相关性的采样，作为树数据结构的使用这种启发式的测试是在两个理想的无噪声信号上进行的，NALS以及从不同领域（医学和空间）的两个科学数据库中提取的来自真实世界的两个信号。这些信号被选择为非稀疏类型，以便研究在不利条件下的压缩性能。尽管如此，我们在1级获得了小于50%的压缩比，同时保持了信号的相关特性（ECG信号小于46%，卫星测量小于36%）。通过对理想无噪信号的压缩后的均匀采样重构，得到了压缩误差的度量。比较原始信号和重构信号的傅立叶变换，我们进一步考虑到原始信号的带宽和采样频率之间的比率，允许将来与其他压缩方法进行比较分析。压缩可以应用于任何采样，均匀或不均匀。因此，它可以递归地应用，以便构建树数据结构。此可选输出可为多尺度分析工具提供支持，帮助查找不同特征尺度的模型。数据树可以为数据可视化和数据探索开辟一条强有力的途径。在归档管理中，当有必要释放内存空间时，它还允许渐进式内存释放，其中首先删除不太相关的组件，而不像今天的情况那样逐个文件地突然删除。该算法的其他发展也在考虑之中，包括在特别是多维信号的扩展，例如用于视频广播领域的应用。具有自适应采样率的数据采集系统的扩展也在进行中，因为自适应采样频率肯定是低功耗嵌入式系统领域的一个重大进步。作者要感谢 Benvenuti Juan Francisco 博士，他提供了关于对从PhysioNet数据库中检索到的ECG进行压缩测试的建议。他向我们介绍了医生在心电图中寻找的主要医学特征。他检查了我们获得的压缩信号，观察它们的主要医学含义是否保留下来。信用作者声明Pesenti Daniel：方法论，软件，验证，形式分析，写作-原创，可视化; Morin Lucas：概念化，方法论，软件，验证，形式分析，调查;DiasAndr'e：方法论，软件，验证，写作-评论编辑，可视化; CourretGilles：概念化，监督，项目管理，资金获取。网址：books.google.ch/books? ID2TPNDwAAQBAJ。 [2021年4月12日]。[3] Al-Sai ZA，Abdullah R，Husin MH.大数据的影响和挑战：回顾。2019年IEEE约旦电气工程与信息技术国际联合会议。JEEIT）; 2019年。p. 150比5[4] Iafrate F. In：ISTE ed，editor.人工智能与大数据：一种新智能的诞生。 ISTEed，editor. 信息系统，卷。第七章 ISTE编辑; 2018. p. 15个。[5] 杨伟杰，张晓刚. 大数据分析能力和知识管理：对公司业绩的影响。绿宝石出版有限公司，卷。77个。Emerald Publishing; 2019.p. 1923年到1936年八、[6] 杨俊，李晓明，刘守军.对环境质量的影响和所需的环境法规调整：大数据驱动的定向技术变革的视角。JClean Prod 2020;275：124126.https://doi.org/10.1016/j的网站。jclepro.2020.124126。. [2021年4月12日]。[7] 佩蒂福德岛数据饥渴的AI如何影响环境？https：//techhq. com/2019/10/how-is-data-hungry-ai-affecting-the-environment/. [2021年4月[8] MasanetE，Shevenia A，Lei N，Smith S，Koomey J. 重新调整全球数据中心能源使用估算：对公司绩效的影响。2020年。https://doi.org/10.1126/science.aba3758. . [2021年4月12日]。二月[9] EspinosaJ， Kaisler S，Armour F，Money W.大数据减少：新问题和挑战。2019. https://doi.org/10.24251/HICSS.2019.131网站。[10] Bhatia P. Chapiter 2：Introduction to Data Mining.剑桥大学出版社; 2019.第17-27页。https://doi.org/10.1017/9781108635592.003网站。[11] 放大图片作者：J. 从数据挖掘到数据库知识发现。AI Mag 1996;17（3）：37.https://doi.org/10.1609/aimag.v17i3.1230网站。. [2021年4月12日]。[12] 阿泽维多河数据库中的数据挖掘与知识发现。在：先进的方法和技术在网络架构，移动计算，和数据分析，mehdi khosrow-pour，d.b.a.第一卷。葡萄牙：IGIGlobal，波尔图理工学院; 2019年。第502- 514页。https://doi.org/10.4018/978-1-5225-7598-6.ch037。[13] 小加纳桑大数据挖掘：管理数据挖掘的成本。2019第17届ICT与知识工程国际会议ICT KE）; 2019年。第1-4页。https://doi.org/10.1109/ICTKE47035.2019.8966806网站。[14] Menaga D，Saravanan S.第七章：人工智能在数据挖掘中的应用。In：Binu D，Rajakumar B，editors.数据挖掘中的人工智能。出版社：Academic Press; 2021.第133- 154页。https://doi.org/10.1016/B978-0-12-820601-0.00006-9.[15] 林艾，岑伟文，洪俊成。第8章：人工智能医疗电子病历数据挖掘。In：XingL，Giger ML，Min JK，editors.医学中的人工智能。出版社：Academic Press;2021.第133- 150页。https://doi.org/10.1016/B978-0-12

下载后可阅读完整内容，剩余1页未读，立即下载