没有合适的资源?快使用搜索试试~ 我知道了~
IEEE生物医学仪器和系统学报,卷。XX,编号。2010年1月10日1Q-PPG:可穿戴设备Alessio Burrello,Daniele Jaime Pagliari,Matteo Risso,Simone Benatti,Enrico Macii,LucaBenini,Massimo Poncino摘要-心率(HR)监测越来越多地在使用低成本光电容积描记术(PPG)传感器的腕戴式设备中进行。然而,由受试者手臂的运动引起的运动伪影(MA)影响基于PPG的HR跟踪的性能。这通常通过将PPG信号与来自惯性传感器的加速度测量值耦合来解决。不幸的是,这种类型的大多数标准方法依赖于手动调整的参数,这损害了它们的泛化能力和它们对该领域中的真实数据的适用性。相比之下,基于深度学习的方法尽管具有更好的泛化能力,但被认为过于复杂,无法部署在可穿戴设备上。在这项工作中,我们解决了这些限制,提出了一种设计空间探索方法,以自动生成一个丰富的深度时间卷积网络(TCN)系列,用于HR监测,所有这些都来自一个单一的“种子”模型。我们的流程涉及两个神经架构搜索(NAS)工具和一个硬件友好的量化器的级联,其组合产生高度准确和非常轻量级的模型。当在PPG-Dalia数据集上进行测试时,我们最准确的模型集平均绝对误差的最新技术。 此外,我们还将TCN部署在一个采用STM32WB55微控制器的嵌入式平台上,证明了其适用于实时执行。我们最精确的量化网络实现了平均绝对误差(MAE)的每分钟4.41次(BPM),能耗为47.65 mJ,内存占用为412kB。同时,在我们的流生成的网络中,获得MAE 8 BPM的最小网络的内存占用为1.9 kB,每个推理仅消耗1.79 mJ。<索引术语-心率监测、光电容积描记、深度神经网络、量化、嵌入式系统,A. Burrello,S. Benatti和L.Benini就职于意大利博洛尼亚大学电气、电子和信息工程系,邮编:40136(电子邮件:name. unibo.it)。S. Benatti还在意大利摩德纳大学和雷焦艾米利亚大学工程科学和方法系工作(电子邮件:name. unimore.it)。L. Benini还在苏黎世联邦理工学院信息技术和电气工程系工作,地址:8092 Zurich,Switzerland(电子邮件:lbenini@iis.ee.ethz.ch)。D. JaisalPagliari,M. Risso和M. Poncino在意大利都灵理工大学控制和计算机工程系工作(电子邮件:name. polito.it)。E. Macii在意大利都灵理工大学区域和乌尔班研究与规划系工作(电子邮件:en-rico.macii@ polito.it)。这 项 工 作 得 到 了 欧 盟 赠 款 Bonsapp ( g.a. ) 的 部 分 支 持 。No.101015848)。我们感谢ISCRA倡议下的CINECA奖,以表彰高性能计算资源和支持的可用性。这篇文章已被接受发表在IEEE生物医学电路和系统交易。这是作者的版本,尚未完全编辑,内容可能会在最终出版前发生变化。引文信息:DOI 10.1109/TBCAS.2021.31220172021年IEEE 个人使用是允许的,但重新发布/重新分发需要IEEE许可。更多信息请参见https://www.ieee.org/publications/rights/index.html可穿戴设备、医疗保健。I. 一、生产现代腕戴式设备包括越来越多的异质传感器组,监测运动和重要参数,例如皮电活动和心率(HR)。HR监测对于临床目的和精确的活动跟踪尤其重要。早期的腕戴式HR跟踪设备连接到单独的胸带,配备有简单的1-3导联心电图(ECG)传感器。虽然准确,但该解决方案昂贵,并且在日常生活使用中给用户带来不适。因此,近年来,ECG胸带已逐渐被具有成本效益且更舒适的光电体积描记(PPG)传感器所取代,该传感器能够直接从腕戴式设备测量HR和血氧(SpO2)[1]。包括这种类型传感器的商业设备的例子是AppleWatch [2]和一些Fitbit型号[3]。PPG传感器由周期性地将光发射到皮肤上的一个或多个发光二极管(LED)和光电检测器(即,光电二极管),其测量由血流引起的光强度变化[4],[5]。更具体地,血容量变化越大,LED发射的光的衰减越大,导致光电二极管上的电流输出越低。因此,在理想的PPG信号中,峰值可以与HR相关联[6]。PPG 传 感 器 中 的 不 准 确 性 的 主 要 来 源 由 运 动 伪 影(MA)构成,即,由用户手臂和手的运动引起的信号伪影,这又产生皮肤上的传感器压力的变化或泄漏到光电二极管和手腕之间的间隙中的环境光。几项研究比较了ECG胸带与基于PPG的HR跟踪系统[7],[8],表明前者通常获得更好的准确性,特别是在存在MA的情况下。因此,基于ECG的解决方案仍然被认为是可穿戴HR跟踪的参考基准[9]。为了克服这一差距,研究人员最近专注于传感器融合方法,将PPG与来自加速度计的惯性数据相结合,以检测和减轻MA的影响[6],[10]。这些方法中的大多数基于经典的信号处理算法,例如独立分量分析(ICA),维纳滤波器和谱峰检测[11],[12],[13],[14]。TROIKA[6]及其演变,JOSS[15]是这一领域的开创性作品。他们通过自适应滤波估计由MA引起的噪声,然后对PPG信号应用谱峰跟踪来检测心跳频率。这些算法的一个显著缺点是arXiv:2203.14907v1 [eess.SP] 2022年3月IEEE生物医学仪器和系统学报,卷。XX,编号。2010年1月10日2≈××||−它们严重依赖手动调整的参数,导致在不同数据集上进行评估时缺乏泛化深度学习(DL)在这项任务中的探索相对较少,主要有两个原因。首先,在腕戴式设备上可用的资源受限的计算平台上部署DL模型(通常基于微控制器(MCU))远非微不足道[16]。主要的限制资源是内存,因为高度精确的DL模型通常涉及数百万个参数,这超过了大多数MCU中可用的内存。其次,DL解决方案需要大量的训练数据,直到最近才可用于此任务。引入PPG-Dalia[10]后情况有所改善,PPG-Dalia是一个大型数据集,用于在MA存在的情况下进行基于PPG的HR跟踪,其中包括15名受试者进行不同日常活动的记录。事实上,[10]的作者还介绍了基于卷积神经网络(CNN)的第一个DL解决方案,该解决方案在新的更具挑战性的数据集上表现优于最先进的算法。在他们的例子之后,其他研究人员随后提出了用于此任 务 的 不 同 DL 模 型 , 例 如 CorNET[17] 和 BinaryCorNET[18],它们结合了卷积层和递归层。所有这些方法都是基于手工设计的神经网络(NN)架构,这可能是次优的准确性与复杂性的权衡。此外,从部署的角度来看,它们也具有有限的灵活性,因为固定的架构不能容易地适应具有不同存储器、延迟或能量约束的硬件目标。在本文中,扩展了[19],我们提出了第一个系统流程来优化基于PPG的HR跟踪的DL模型。我们特别关注时间卷积网络(TCN),这是一系列DL模型,对于时间序列处理来说既硬件友好又准确。我们提出的方法产生了丰富的帕累托最优的TCN的准确性与内存(或n。的操作)设计平面,其中,设计人员可以选择一个特定的模型,根据他们的硬件目标的约束。详细地说,以下是这部作品的主要新颖贡献• 我们利用神经架构搜索(NAS)来获得帕累托最优TCN架构,该架构可以根据原始PPG和加速度数据预测用户的HR。所有TCN都是从单个种子架构自动派生的[20]。关于[19],它只优化了每个TCN层中的特征映射的数量,在这项工作中,我们扩展了搜索,还考虑了卷积层的膨胀参数,这有效地降低了模型的复杂性,对准确性的影响有限• 在优化模型架构后,我们执行进一步的搜索步骤,以选择网络参数和中间输入/输出的最佳数据表示格式。这种硬件友好的量化能够进一步减小模型大小,从而丰富和改进帕累托边界。• 我们将搜索得到的模型部署在具有智能手表外形的真实嵌入式平台上[21]。该平台包括ST Microelectronics的 STM32 WB 55 MCU ( 基 于 ARM Cortex-M4MCU)和MAX 30101 PPG传感器。此外,我们还讨论我们的流的结果对于其他内存受限的目标将如何改变。在PPGDalia上,通过我们的流程获得的性能最好的模型,加上简单的平滑后处理,实现了4.36 BPM的平均绝对误差(MAE),并包括269k个可训练参数。通过额外的微调步骤,MAE进一步降低到3.61 BPM。在STM32WB55上进行量化和部署后,MAE为8 BPM的最小模型和最准确的模型每次推理消耗1.79 mJ和47.65 mJ,延迟为71.6 ms和1.9 s,误差为7.73 BPM和<4.41 BPM,分别。与之前最先进的DL解决方案[10]相比,这两个模型分别小32154.3-145.63,并且每个推理需要的操作少3711.1-19.6,同时还显著提高了HR跟踪精度。本文的其余部分组织如下。第II节概述了现有的基于PPG的HR估计算法。第三节提供了所需的背景资料。第四节介绍了所提出的优化方法,而第五节提出的实验结果和他们的讨论。最后,第六节结束了本文。II.相关工作近年来,基于配备PPG传感器的可穿戴设备的HR监测解决方案的研究吸引了学术界和工业界的大量研究工作。虽然跟踪HR对于稳定的受试者是相对容易并且已经解决的问题,但是运动通常会损害任务的性能,从而向PPG信号添加噪声。因此,主要的挑战是试图保持足够高的准确性,通常测量为预测的HRpred和真实HRtrue之间的MAE,其中MAE=HRtrue HRpred,也是在具有强烈运动的活动期间。这必须在电池供电的腕戴式设备的严格内存、延迟和能源限制下完成。后者通常具有大约10 MHz的工作频率和低于100 mW的功率包络,因此需要非常低复杂度的算法用于实时执行。最近的算法可以分为两大类。一组包括经典的模型驱动的方法,基于时域或频域提取的特征,然后是一系列的滤波和峰值检测/位置细化步骤。另一组由数据驱动的算法组成,主要基于深度学习。这一组中包含的工作较少,因为与其他领域不同,它已成为事实上的标准,DL对于基于PPG的人力资源监控仍然相对未被探索。表一概述了文献中提出的主要解决办法从经典方法开始,[6]的开创性工作为该领域的算法探索铺平了道路,引入了第一个公共PPG数据集,称为SPCCup 2015(以下简称SPC)。该论文还提出了一种称为TROIKA的三级流水线,包括i)信号分解步骤,ii)谱估计,以及iii)最终谱峰跟踪。经过SPC测试,TROIKA的MAE达到2.34次每分钟心跳(BPM)。作者改进了IEEE生物医学仪器和系统学报,卷。XX,编号。2010年1月10日3表I技术水平对比表。 不同的MAE结果对应于不同的数据集。 A修订:F. T. =微调。B旧文本指向目标数据集PPG-DALIA的准确性。工作数据集活动标志.预处理算法处理后Mae经典方法TROIKA,2014[6]SPC,12个受试者。休息,跑步PPG,Acc.0.5-4 Hz滤波,下采样信号分解,重建。峰值跟踪th.,hist. 轨道2.34 BPM[15]第十五话SPC,12个受试者。休息,跑步PPG,Acc.0.5-4 Hz滤波,下采样MMV,谱减法th.,hist. 轨道1.28 BPM[22]第二十二话SPC,12个受试者。休息,跑步PPG,Acc.0.5-4 Hz滤波MA取消关于SVD,IMAT峰值选择,日1.25 BPM[14]第十四话SPC,12个受试者。SPC,23个受试者Chon Lab,10名受试者Dalia,15名受试者休息,跑步,戒毒所例如,休息,跑步8日常活动PPG,Acc.0.5-3 Hz滤波,下采样PSD光谱滤波历史轨迹,样条插值0.89 BPM3.36 BPM1.38 BPM11.06 BPMWFPV,2017[11]SPC,12个受试者。SPC,23个受试者休息,跑步,康复。ex.PPG,Acc.0.5-4 Hz滤波,z分数缩放,下采样维纳滤波,相位声码器th.,hist. 轨道1.02 BPM1.97 BPMSchack2017[12]SPC,12个受试者。Dalia,15 subj.休息,跑步,8项日常活动PPG,Acc.0.5-6 Hz滤波,下采样Corr.-基于Freq指示函数,FFT日1.32 BPM20.5 BPM[13]第十三届中国国际汽车工业展览会SPC,23个受试者休息,跑步,康复。ex.PPG,Acc.0.5-4 Hz滤波,z分数缩放,下采样维纳滤波FSM0.99 BPMCurToSS,2020[23]SPC,12个受试者。SPC,23个受试者Dalia,15 subj.休息,跑步,戒毒所例如,8日常活动PPG,Acc.0.5-4 Hz滤波SSR曲线跟踪N/A2.2 BPM4.5 BPM5.0 BPMTAPIR,2020[24]SPC,12个受试者。SPC,23个受试者Dalia,15 subj.休息,跑步,戒毒所例如,8日常活动PPG,Acc.0.5-4 Hz滤波自适应滤波器峰值检测线性变换。陷波滤波器2.5 BPM5.9 BPM4.6 BPM深度学习DeepPPG,2019[10]SPC,12个受试者。Dalia,15 subj.休息,跑步,8日常活动PPG,Acc.STFT,0-4 Hz滤波CNNN/A4 BPM7.65 BPMCorNET,2019[17]SPC,12个受试者。SPC,23个受试者休息,跑步,戒毒所ex.PPG0.4-18 Hz滤波,z分数缩放CNN+LSTMN/A4.67 BPM5.55 BPMBinary CorNET,2020[18]SPC,12个受试者。SPC,23个受试者休息,跑步,戒毒所ex.PPG0.4-18 Hz滤波,z分数缩放斌CNN+LSTMN/A6.78 BPM7.32 BPMNAS-PPG,2021[25]Dalia,15 subj.8日常活动PPGFFT,0.6-3.6 Hz滤波CNN+LSTMN/A6.02 BPM我们的工作Dalia,15 subj.8日常活动PPG,Acc.0.5-4 Hz滤波TCNth,finetuning4.36 BPM+f.t:3.61 BPM他们自己的算法[15],提出了JOSS,一种JOint稀疏频谱重建方法,其中频谱差异用于从PPG频谱中去除运动伪影,进一步将MAE降低到仅1.28 BPM。类似于这种方法,在[22]中,作者提出使用奇异值分解(SVD)结合自适应采样保持迭代方法(IMAT)和最终峰值选择步骤来抑制运动伪影。这项工作略微提高了SPC数据集的性能,获得了1.25 BPM的MAE。其他模型驱动的方法[11]、[12]、[13]使用FFT和维纳滤波从噪声PPG信号中去除运动伪影,进一步提高SPC的性能,0.99 MAE的BPM。到目前为止,SPC数据集上的最佳MAE结果(0.89 BPM)是由SpaMa[14]实现的,SpaMa是一个复杂的五步管道,结合了光谱滤波和样条插值。2019年,Reiss等人[10]发布了一个用于基于PPG的HR监测的新数据集,称为PPG-Dalia(下文称为Dalia),受试者数量更多(15),活动更多每例受试者(共8例),包括日常生活任务,如驾驶、坐着或行走。最新的模型驱动算法[23] , [24] 在 这 个 新 数 据 集 上 进 行 了 优 化 。 第 一 个 是CurToSS[23],通过使用稀疏信号改进了JOSSIEEE生物医学仪器和系统学报,卷。XX,编号。2010年1月10日4重建加速度和PPG信号,获得5.0 MAE的BPM。第二种是TAPIR[24],它依赖于线性时间变换,大大降低了计算复杂度,同时实现了4.6BPM的MAE。值得注意的是,所有这些基于模型的算法包括许多自由参数,这导致过度拟合用于手动调整它们的数据集。因此,使用模型驱动的算法可能会严重损害泛化能力,导致在现实生活中的解决方案表现不佳,如表I中具有挑战性的DALIA数据集所示。此外,据我们所知,上述算法都没有部署在可穿戴设备上,可能是由于一些算法的高复杂性。近年来,由于深度学习在其他生物信号应用(例如,手势识别[20],癫痫发作检测[26],[27]和脑机接口[28]),一些研究人员已经开始探索深度神经网络,特别是卷积神经网络(CNN)和递归神经网络(RNN),用于基于PPG的HR跟踪。这个小组的开创性工作是[10],与Dalia的出版物一起,引入了不同的CNN变体,加上短时傅里叶变换,其性能优于最好的模型驱动方法[14],[12]IEEE生物医学仪器和系统学报,卷。XX,编号。2010年1月10日5≤y=∈∈∈∀ ∈ − ∀ ∈−在新的数据集上。CorNET[17]及其用于高度受限设备的变体BinaryCorNET[18]已被引入以降低模型复杂性,使用具有CNN前端和长短期记忆(LSTM)RNN的深度架构在SPC数据集上实现与模型驱动方法相当的结果,以组合多个时间样本。最后,神经架构搜索(NAS)方法最近被应用于[25]中的HR跟踪问题,找到了一个CNN+LSTM网络,在Dalia上实现了6.02 BPM的MAE,同时与[10]相比还降低了算法的复杂性,但对于MCU部署来说仍然太大(800k浮点参数)。事实上,深度NN模型通常具有较大的内存占用和较高的计算复杂度。因此,在内存受限的MCU上部署它们,具有低能耗和尊重实时延迟约束并不是微不足道的。在我们的工作中,我们正是在应对这些挑战。据我们所知,我们是第一个i)在MAE与内存(或操作数量)空间中显式创建NN的帕累托边界,从中可以基于硬件目标的约束选择不同的模型此外,我们在DALIA数据集上实现了领先的准确性,优于所有以前的最先进模型。III. 背接地A. 时间卷积网络时间卷积网络(TCN)是一维卷积神经网络(CNN)的一个子类,专门用于时间序列处理。最近,TCN已被证明在几项任务上优于RNN,在相同数量的参数下获得更高的准确性[29]。TCN相对于标准1D-CNN的特殊性是使用因果卷积和扩张卷积[29],[30]。因果关系限制了将输出yt转换为仅依赖于输入xtt,其中ttt.换句话说,输出是只看过去或当前(而不是未来)输入。扩张插入固定间隙d在由卷积核处理的输入时间步长之间(即,过滤器)。扩张卷积是有益的,因为它允许增加滤波器上的感受野。Fig. 1. 在[21]中提出的用于我们实验的腕戴式形状因子板及其简化框图。表IIB OARD组件动力配置。组件状态当前(I)功耗单片机STM32STM32STM32STM32活性怠 速停止BLEⅢ7.59毫安4.15 mA二、45µA30µA二、1mA25兆瓦13.7毫瓦8 .第八条。1µW99µW六、9MW传感器MAX30101MAX30101LSM6DSLSM6DS活性Active1100µA0的情况。7µA9µA3µA五、5兆瓦3 .第三章。5µW30µW10µWSTM32 BLE电流通告(0 dBm; 1 s; 31 B)。●STM32 BLE连接主机(200 B; 100 ms)层,类似于标准CNN中常见的层[20],[31]。在我们的实验中,我们考虑TCN架构,包括所有这些类型的层。B. 硬件设置时间轴,而不增加可训练参数的数量。总之,TCN卷积层实现的功能是:K−1Cin−1我们在[21]中描述的嵌入式系统上部署了TCN,其主板设计为腕戴式外形。它的图片连同系统的简化框图如图所示1、只有组件Mti=0时1=0XLt s−dil,mi(一)显示了基于PPG的HR监测所需的数据。该板包括来自STMicroelectronics[32] 的 STM32WB55RGV6 片 上 系 统(SoC),简称为STM32WB重复m[0,C out1)和不[0,T1]。在公式中,xRCin× T 和y RCout× T/s为输入和输出激活,分别由Cin和C out通道或特征; T是时间轴上的输出长度,WRCout×Cin× K是滤波器权重的多维数组,d是伸缩因子,s是步幅,K是滤波器大小。最初,TCN已经被提议为全卷积架构,其堆叠多个层,每个层实现(1)[29]。但是,最近的实现还包括其他元素,例如池化和全连接(FC)后世SoC架构包括两个完全独立的内核,一个是运行在64MHz的Arm®Cortex®-M4内核(应用处理器),另一个是运行在32 MHz的Arm®Cortex®此外,SoC还包括一个射频( RF ) 收 发 器 , 其 无 线 电 堆 栈 符 合 蓝 牙 低 功 耗 5.0(BLE)标准,包括蓝牙SIG,Mesh profile和用于专有定制 解 决 方 案 的 HCI 。 STM32WB 系 列 采 用 与 超 低 功 耗STM32L4 MCU相同的技术开发而成,·WIEEE生物医学仪器和系统学报,卷。XX,编号。2010年1月10日6硬件和模拟外设,适用于需要延长电池寿命和高计算能力的应用。电路板的电源子系统采用Texas Instruments的TPS63031,这是一种降压-升压DC/DC转换器,专门设计用于提供稳定的输出电压,也适用于脉冲和不可靠的电源,如能量采集器和太阳能电池板。在传感器采集和处理模式下,转换器的效率可达本地能量缓冲器利用TPS 63031使用的370 mAh锂离子电池作为主要电源。[21] 系 统 的 其 他 两 个 相 关 组 件 是 两 个 传 感 器 :MAX30101 [33]和LSM6DSM [34]。前者是一个低功率脉搏血氧仪和PPG模块,而后者是一个6轴惯性测量单元(IMU)。两个传感器分别通过I2C和SPI数字总线与MCU相连。通过Keysight B2900 A电源/测量单元测量的不同组件在所有相应工作状态下的硬件功耗如表II所示。MAX30101传感器需要专用的5 V对于内部LED,使用升压转换器产生,效率为80%。IV. Q-PPG E勘探流程这项工作的主要贡献是设计空间探索流程,能够生成一组丰富的HR跟踪模型,在MAE和计算成本方面提供各种权衡,其中后者是根据可训练参数的数量或每个推理的操作数量来衡量的。我们选择TCN作为目标模型类型,因为它们在时间序列处理方面表现良好,特别是在类似的生物信号处理任务上[20]。我们的流程的输入是训练数据集,其包含与对应的HR标签相关联的PPG和惯性数据,以及所谓的种子TCN,即,一种“模板”,所有输出模型都是从这个模板生成的。然后,流动由两个主要阶段组成:1) 架构优化:在这个阶段,我们利用神经架构搜索(NAS)工具来探索种子TCN的一些最重要的超参数,以权衡计算成本和性能。2) 精度优化:在这个阶段,我们通过将不同类型的量化[35]应用于阶段1中产生的TCN的权重和激活来进一步丰富和改进帕累托曲线。在运行时,将低成本的后处理步骤应用于由阶段2产生的TCN,以进一步提高其HR跟踪精度。整个流程的高级图如图2所示。由于它的最终输出是一组量化的TCN,我们将我们的方法称为量化PPG(Q-PPG)。重要的是,图片的最下面部分显示,对于给定的数据集和种子模型,Q-PPG探索只需执行一次。之后,部署到给定的硬件目标减少到从成本与误差的帕累托边界中选择一个模型。具体地,目标平台对设计空间施加约束,例如,根据可用的参数限制参数的最大数量,记忆空间然后,选择并部署满足这些约束的最准确的Q-PPG模型。因此,生成整个模型族,而不是单个其中一个使我们的方法高效灵活,不仅可以在第III-B节中描述的平台上部署优化的人力资源跟踪解决方案,还可以在其他类似的可穿戴系统上部署。在本节的其余部分中,我们在第IV-A节中详细描述了Q-PPG输入,在第IV-B节(阶段1)和第IV-C节(阶段2)中详细描述了两个勘探阶段,并且在第IV-D节中详细描述了后处理。A. 输入数据和种子网络Q-PPG探索阶段和最终TCN的训练使用相同的输入数据集,其由从PPG传感器和从三轴加速度计收集的原始传感器数据组成。通过在四个信号上形成长度为T的滑动窗口来获得传递到NN的训练样本。因此,我们的TCN将大小为(T,4)的二维数组作为输入。训练的目标输出是基础事实HR估计,表示为BPM中的标量实数。然后,HR跟踪简化为回归问题,其中TCN训练的目标是近似此地面真值。关于用于我们实验的数据集的具体特征的更多细节在第V-A节中提供。在所有训练运行中,我们使用LogCosh损失函数来衡量真实HR和预测HR之间的误差LogCosh已被证明优于RMSE和MAE[36]作为损失函数,有利于最小值附近的收敛,这要归功于其在该点附近的平滑行为除了训练数据,我们流的另一个输入是种子网络。如在第IV-B节中更详细地描述的,从种子开始获得所有Q-PPG输出,改变其结构(或数据精度)以权衡计算成本和HR跟踪误差。特别地,Q-PPG的架构优化阶段尝试减少/简化种子,同时保持MAE尽可能低。因此,为了使我们的流动为了覆盖整个设计空间,起点应该是一个相对较大且精确的TCN。在这项工作中,种子网络是TEMPONet[20]的改编版本,TEMPONet是一种TCN,在另一项生物信号处理任务上显示出令人印象深刻的结果,即,基于EMG的手势识别。相对于原始论文,TEMPONet的结构略有修改,i)使其与HR跟踪任务兼容,ii)拓宽Q-PPG探索的空间。 与任务兼容的第一修改包括 改变第一层以匹配输入数组的大小。特别是,虽然1D卷积网络可以处理时间轴上的任意输入长度,但第一层的输入通道数量必须与数据集的数量相匹配(在我们的情况下为4)。同样,TEMPONet的最后一个FC层 也进行了修改,将单元数更改为1,这是执行标量回归任务时所需的。最后,TEMPONet中所有卷积层的膨胀参数已被设置为d=1,而滤波器大小K已被增加以匹配原始感受野。之所以这样做,是因为执行了一项网络简化IEEE生物医学仪器和系统学报,卷。XX,编号。2010年1月10日7成本Pareto前沿HR跟踪错误种子网PPG-DaliAMorphNetPITEdMIPS后处理[FP32][FP32][INT8][FP32][FP32][INT 4][FP32][FP32][INT8][FP32][FP32][INT 4][FP32][FP32][INT2][FP32][FP32][INT8]地面-真相预邮政架构优化精度优化约束成本部署HR跟踪错误图二. 提出了Q-PPG设计空间探索流程。在架构优化期间,包括增加卷积层的膨胀。因此,在种子中处处设置d=1为搜索算法探索该参数提供了最大的自由度。除了这些修改之外,我们的种子网络与[20]的原始TEMPONet相同,并且由一个模块化特征提取器组成,由3个卷积块组成,然后是一个具有3个FC层的分类器。反过来,每个卷积块包含3个1D卷积层,其中每个块的最后一层使用逐渐增加的步幅1,2和4。此外,在每个块的末尾插入平均池化层,以减少时间轴上的输出长度。每个块中的通道数量是恒定的,并且对于第一、第二和第三块,通道数量分别等于32、64和128。所有层都使用ReLU激活和批量归一化[37]。B. 架构优化本节描述了用于在准确度与复杂度空间中生成用于HR跟踪的不同TCN架构如图2的顶部所示,我们利用两种不同 的 神 经 架 构 搜 索 ( NAS ) 工 具 的 级 联 , 称 为MorphNet[38]和Pruning-In-Time(PIT)[39]。NAS工具自动为给定任务生成新的NN架构,优化超参数,如网络的深度和宽度,所包含的层的类型,层之间的连接等[40],[41],[42]。这些工具大多针对复杂的计算机视觉任务,导致大型和计算密集型网络,并需要大量的训练 迭 代 。 直 到 最 近 , 研 究 人 员 才 开 始 研 究 称 为DmaskingNAS的轻量级NAS方法[38],[43],该方法在与此相当的时间内搜索优化的架构一个单一的训练。MorphNet和PIT都属于这类类别. DmaskingNAS工具的效率是以减少搜索空间为代价的,也就是说,所探索的超参数的类型。具体来说,所有生成的模型都是单个种子网络的修改版本,如第IV-A节所述。我们工作中使用的两个工具的功能的高级视图如图3所示。 在开始搜索之前,种子网络的层被修改,添加一组新的额外的可训练参数,称为掩码(图中的α i和βi),每个掩码乘以层权重的子集。在我们的例子中,我们将掩码添加到修改后的TEMPONet的卷积层。此外,除了最后一层之外,αi掩模(图3a)βi掩模不能应用于FC层,如下所述。然后将这些掩码与网络的正常参数一起训练,鼓励训练算法降低其幅度。掩蔽机制图三. 用于架构优化的两种NAS算法的功能的高级方案。为了简单起见,未示出池化和其他层。这种方法的原理是,权重乘以小幅度掩码对层的输出的影响可以忽略不计(参见等式2)。1),并且可以从网络中删除,而不会显着增加其输出误差。因此,在训练之后,通过简单地Conv +遮罩…M3M322…1100FCFC +面罩Conv +遮罩Conv +遮罩转换/FC转换/FC种子网损失函数IEEE生物医学仪器和系统学报,卷。XX,编号。2010年1月10日8LL·我其中通道的数量是- -^t=圆形. t−αt(二)消除对应于低量值掩模的所有层部分。如图3所示,通过添加到正常损失函数任务(即,用于HR跟踪的LogCosh)额外的正则化项成本。后者计算所有层的预期成本该体系结构(例如,存储器占用或操作数量)作为掩码值的函数。通过改变两个损失项的相对重要性,获得复杂度与HR跟踪误差的不同帕累托点,正则化常数λ。我们工作中使用的两种工具主要在掩蔽机制上有所不同。如图3所示,MorphNet[38]用一个αi屏蔽了相对于同一卷积输出通道的所有权重。因此,该工具可用于自动优化每个卷积层中的输出通道(或特征)Cout的数量。相比之下,PIT[39]用一个βi屏蔽了对应于相同时间步长(和所有输出通道)的所有权重,其效果是在卷积滤波器中插入“孔”。因此,该工具可用于自动搜索TCN的最佳膨胀参数d。为了阐明掩蔽过程,在图3a和3b中,所有乘以α1和β1的权重分别用红色表示。如图所示,α1与滤波器W1的所有权重相乘(即,滤波器包括用于导出输出通道C1的权重),而β1与所有滤波器的1索引列相乘,假设后者以通道优先顺序存储。在上面的描述中,为了空间起见,省略了几个重要的细节。例如,MorphNet将遮罩嵌入到Batch Normalization层的预先存在的参数中,这些参数通常放置在卷积之后。此外,旨在降低αs的训练阶段被改变-用膨胀步骤进行了标定具有不同通道数量和扩张的TCN固定在1. 然后,我们从这个边界中选择一些关键点,即曲线的两个极端(即, TCN在验证集上实现最小HR跟踪误差,并且具有最低成本),加上两个中间解决方案。最后,我们使用这4个网络中的每一个作为PIT的种子,再次使用不同的正则化强度(从λ=10−9到λ=5 10−3)重复训练。因此,MorphNet + PIT链的输出包括4组(通常为n组)TCN,然后将其组合以获得最终的帕累托前沿。每次NAS执行之前都有一个预热阶段,然后是微调,其中只训练种子/优化TCN的权重。这两个阶段都被证明可以显着提高搜索质量[38],[39]。C. 精度优化从两个cas-caded NAS工具生成的架构开始,我们进一步扩展了解决方案的空间,探索我们的TCN的每层算法精度。 我们使用的量化技术与[44]中提出的相同,即使在子字节精度下也能保持高精度,同时也是硬件友好的。事实上,与其他技术(如权重聚类[45])不同,该方法允许用整数MAC替换推理所需的所有浮点乘加(MAC)操作,从而实现更有效的执行,并在没有浮点单元(FPU)的硬件上部署所得模型。该方法实现了一个线性量化器,它将每个浮点点张量t(权重或激活),具有范围[αt,βt)中的值,转换为N位整数张量^t,如下所示:在所有层中均匀增加,以从明显的性能惩罚。相反,PIT使用一种机制来确保从搜索中仅获得规则的通过在βis之间施加关系,卷积输入之间的间隙是恒定的。此外,它将βis二进制化,以防止训练算法用较大的权重补偿小的掩码值。有关这两个工具的详细讨论,读者可以参考原始论文[38],[39]。1) 搜索协议:我们选择MorphNet和PIT进行架构优化,因为通道数量和膨胀都是影响TCN准确性和复杂性的关键参数[29]。然而,以前没有分析过如何结合这两个参数的探索(N。通道C输出和膨胀d)。在我们的实验中,我们根据经验发现,首先运行MorphNet,然后运行PIT,比相反的顺序产生更好的结果。直观地说,这是因为MorphNet在更宽、更细粒度的搜索空间中运行,因为可能的通道组合比典型卷积层中可能的常规膨胀值要考虑到这一观察结果,我们在工作中使用以下搜索协议。首先,我们将MorphNet应用于种子网络,具有不同的正则化强度(从λ= 10−6到λ=10−3)。这导致了第一个帕累托边界,由以下组成:εt其中εt=(βtαt)/(2N1)是可以 用量子化的张量来表示。整个推论然后仅使用整数数据来执行。具体地,用int32数据执行(1)中的累积,使得不发生溢出,然后如[46]中所述重新量化最终结果。批量归一化层也以int32格式存储和处理。量化可以在训练后[44]或通过量化感知训练(QAT)[35],[47]应用于NN。第一种方法对于int8数据可以很好地工作。例如,在[19]中,我们表明,当从单精度浮点格式(fp 32)移动到int 8时,HR监测的MAE退化在1.26-1.44 BPM范围内。然而,使用QAT会恢复int8精度的大部分性能损失,并且子字节精度也会导致有限的错误增加。在训练时间方面,这是可以接受的成本,因为QAT可以应用于已经训练好的浮点模型,在几个时期内达到收敛。QAT的基本原理是在每次训练迭代的前向传递期间模拟量化(所谓的伪量化)的效果,同时在反向传播期间保持浮点更新这种技术的细节超出了我们的范围,读者可以参考[35],[47]。IEEE生物医学仪器和系统学报,卷。XX,编号。2010年1月10日9y=我Σ^^···L±在Q-PPG中,我们使用EdMIPS[47],这是一种允许模拟i)执行QAT和ii)搜索每层数据格式和网络最终误差之间的最佳权衡的工具。图4说明了EdMIPS的功能,它依赖于基于梯度的优化方法,与第IV-B节中描述的两个NAS所使用的方法非常相似。网络中的所有卷积层和FC层混合精度量化见图4。 用于算术精度优化的EdMIPS流。由元层代替,在执行的操作方面相同,但是其权重作为具有不同精度的伪量化张量的比如说,(1) 改为:K−1Cin−11) 检索方案:在Q-PPG中,我们采用以下策略应用EdMIPS。首先,我们执行均匀量化,即,对所有张量(P = 1)使用相同的位宽,将其应用于在架构优化阶段获得的TCN的整个集合。我们用不同的格式重复QAT,即int2,int4和int8,这些格式是由我们的目标硬件可用的后端TCN推理库支持的。接下来,我们让工具搜索每个张量的最佳位宽,探索所谓的混合精度网络[47]。为此,我们选择浮点帕累托曲线的两个极端,加上两个具有良好MAE与大小权衡的中间TCN,并运行P=3的EdMIPS,允许工具在上面列出的三种格式中进行选择。 我们用不同的正则化强度λ重复这个搜索,范围从10 −3到10 −5,并合并结果以形成最终的帕累托前沿。D. 后处理我们的方法的最后一个组成部分是在运行时应用于我们优化的TCN的输出的该步骤与上述设计空间探索是正交的且独立于设计空间探索,并且是由以下事实激发的:数据驱动的模型(诸如TCN)虽然平均而言非常准确,但有时可能招致大的且不可预测的误差,其中:Mti=0时1=0P−1XLt s−di·W^l,m(三)特别是当处理的输入与训练阶段中看到的输入显著不同时幸运的是,在HR跟踪任务的特定情况下,考虑到W=Wqp·γp(4)p=0P是所考虑的不同精
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功