没有合适的资源?快使用搜索试试~ 我知道了~
0204080100120020406049550分心的好处:使用逆注意力去噪基于摄像头的生理测量0Ewa M. Nowara � , Daniel McDuff † , Ashok Veeraraghavan �0� 美国莱斯大学,休斯顿,德克萨斯州† 微软研究院,雷德蒙德,华盛顿州0{ emn3,vashok } @rice.edu , damcduff@microsoft.com0摘要0注意力网络在各种计算机视觉任务中表现出色。其核心思想是,感兴趣的信号在某些像素(“前景”)中更强,通过有选择地将计算集中在这些像素上,网络可以提取嵌入在噪声和其他污染源中的微妙信息。我们的论文基于一个关键观察结果:在许多实际应用中,许多污染源(例如照明和运动)通常在“前景”和“背景”像素之间共享。我们能否利用这一点来获得优势?我们提出了逆注意力网络的效用,该网络专注于提取有关这些共享污染源的信息。我们表明,这有助于有效抑制共享协变量并放大信号信息,从而提高性能。我们以基于摄像头的生理测量任务为例,其中感兴趣的信号较弱,全局照明变化和运动作为重要的共享污染源。我们在三个数据集上进行实验,并展示了逆注意力方法产生了最先进的结果,将信噪比提高了高达5.8dB,将心率和呼吸率估计误差减少了多达30%,恢复了微妙的波形动态,并在不重新训练的情况下从RGB视频推广到NIR视频。01. 引言0注意力机制已成功应用于机器学习和计算机视觉的许多领域[25,45],包括目标检测[32],活动识别[37],语言任务[1,49],机器翻译[2]和基于摄像头的生理测量[5]。注意力网络通常表现出色,因为它们可以识别最有可能包含感兴趣信号的像素。通过关注对任务有用的像素并忽略其余区域,注意力网络通常对视频中的各种变化源具有鲁棒性。0平均像素值0时间(秒)0脉搏 无脉搏0头发和皮肤像素追踪0图1.视频中头发(绿色)和皮肤(红色)像素强度的时间变化通常是相关的,例如,当头部运动较大时。生理信号非常微弱,最强的信号在皮肤中,但很容易受到干扰。我们提出一种方法,利用大多数注意力机制忽略的区域(例如头发)来估计这些干扰,并学习去噪映射,将它们从感兴趣的生理信号中去除。0在本文中,我们将包含感兴趣信号的区域称为“前景”,其他区域称为“背景”。我们关注一个反直觉的问题 -通常被注意模型忽略的“背景”区域中是否包含重要信息?我们能否利用这些区域中的信息来改善“前景”中感兴趣信号的估计质量?如果视频中存在与感兴趣信号无关的噪声或变化,它们很可能会破坏感兴趣信号。如果这些污染是随机的,那么保留尽可能多的“前景”像素并忽略嘈杂的“背景”像素就足以使模型良好工作。然而,这些变化通常不是随机的,而是由特定源引起的,这些源很可能会影响视频中的多个区域。0051015202530FramesNormalized AmplitudeCurrent state-of-the-art (CAN)Time (s)-101Time (s)-101Normalized AmplitudeRGB Video (AFRL Dataset)Ours051015202530Current state-of-the-art (CAN)OursFramesNormalized AmplitudeOursNormalized AmplitudeCurrent state-of-the-art (CAN)FramesDiastolic PeakTime (s)012345678910-101Time (s)012345678910-101Time (s)012345678910-101Time (s)012345678910-101Black - Contact Sensor MeasurementRed - Camera-Based EstimateNormalized AmplitudeNormalized AmplitudeDicrotic NotchRGB Vid- eo (AFRL Dataset)Near Infra-Red Video (MR-NIRP Dataset)49560脉搏信号 呼吸信号0图2.由最先进的CAN网络和我们的去噪方法输出的脉搏和呼吸信号(均以红色显示)。我们的方法产生了更干净的信号,没有运动伪影(仍然存在于基准方法中),更好地匹配了地面真实信号的微妙动态和形状(以黑色显示)。请注意脉搏波形中缩放的部分,我们的输出中很容易识别出的二尖瓣凹陷和舒张期峰值,在基准输出中不存在。0作为我们方法的一个示例应用,我们将重点关注基于摄像头的生理测量的预测问题,以说明使用逆注意力进行去噪的有效性。从视频中提取的生理信号非常微妙,很容易受到可能改变记录图像强度的视频中的任何变化的干扰。因此,这是一个很好且具有挑战性的应用,可以说明我们方法的去噪能力。例如,大幅度的头部运动通常会同样影响“前景”中的皮肤区域以及“背景”中的几个区域,例如头发或人物后面的墙壁(见图1进行说明)。通过使用不包含信号的“背景”区域,我们可以了解这些污染的来源,并利用这些信息来抑制我们不感兴趣的“前景”像素中的变化。我们使用注意掩码的逆来选择“背景”区域,并学习视频中存在的污染的估计。0我们的应用场景受到了SARS-CoV-2(COVID-19)大流行迅速改变医疗面貌的启发[3,38]。最近在计算机视觉领域的研究已经导致了利用摄像头和计算机视觉算法进行生理测量的技术的发展[40, 46, 34, 7,48,5]。基于摄像头的生命体征测量可以改进当前的远程医疗技术,并且还可以实现在长时间佩戴接触式设备可能不可行的应用,例如长期的人机交互研究[23],驾驶员监测[30]或面部反欺骗[17,31]。卷积网络目前在从视频中测量心率(HR)和呼吸率(BR)方面提供了最先进的性能[5, 50,18]。虽然卷积神经网络可能能够准确地学习图像中对于寻找生理信号重要的特征,但它们可能无法学习到一个良好的其他变化的表示。0由于视频中可能存在的各种因素,这些因素与感兴趣的信号无关,因此我们将这些因素称为“污染”。我们将任何与生理信号无关的变化都称为“污染”,因为它们都会降低信号质量。在基于摄像头的生理学中,这些污染可能是由头部运动[9]、面部表情[52]、语音、环境光变化[30]、视频压缩伪影[50,29]和摄像头传感器噪声[14]引起的。这些污染在不同的视频和数据集中也可能变化很大。因此,任何模型都很难明确捕捉到这些多样化变化的良好表示,并将其从感兴趣的信号中去除。虽然“前景”区域和“背景”区域的污染源可能不相同,但视频中不同区域的变化通常高度相关,因为它们通常由相同的源(例如,闪烁的灯泡引起的照明变化或影响帧中所有区域的视频压缩伪影)引起。0我们所做的关键观察是,在网络中被注意机制忽略的区域很可能包含有关污染源的信息,这些污染源也存在于用于计算生理信号的注意机制使用的区域中。使用这些被注意掩码忽略的“干扰”区域为每个视频独立估计这些变化,而无需对污染源的性质做出假设。我们唯一的假设是,大多数被注意掩码忽略的区域不包含感兴趣的信号,因此包含我们想要抑制的污染。只要注意机制能够在一定程度上对视频进行分割,这个假设就应该成立,而这通常是情况。0我们证明了注意力之外的区域49570掩码可以用于估计污染信号的无关强度变化。一旦我们对这些变化有了估计,我们就可以学习去噪映射以将它们从恢复的信号中去除。我们的方法在三个数据集上的HR和BR误差度量范围内优于最先进的方法,并且在没有任何额外训练的情况下,也能很好地推广到新数据,甚至是使用不同成像模式(如近红外)记录的数据。我们提出的方法甚至可以恢复非常微弱的波形动态,例如在图2中清晰可见的二峰切迹和舒张峰,这对于基于视频的方法目前是具有挑战性的。获得干净且更准确的波形对于确定重要的健康指标(例如血压[8])非常有用,而大多数现有方法无法实现。与基线相比,我们的方法还获得了更清晰的呼吸信号(图2)。使用逆注意区域的想法可能在广泛的视觉任务中非常有用,其中注意网络用于进行时间预测,例如活动识别或视频去模糊。然而,在这项工作中,我们只关注了生理测量应用。本文的核心贡献是:(1)提出使用逆注意掩码生成污染信号变化的估计,(2)提出一种使用这种方法进行去噪的基于摄像机的生理测量的新方法,(3)在三个数据集上评估我们的方法,展示了在脉搏和呼吸测量方面的最先进性能,(4)证明我们的方法可以在没有进一步训练的情况下推广到近红外数据。本次提交提供了补充材料,包括代码、模型、视频示例和其他实验结果。02. 相关工作0注意机制。注意机制为模型提供了一种学习图像或视频的哪些部分“与手头任务相关并给予更高重要性”的方式[37]。在训练过程中,注意权重被学习用于反映嵌入特征的重要性。最近,仅基于注意机制的变压器模型变得流行起来[45]。在卷积神经网络(CNN)中,这些注意机制通常形成一个空间掩码。这些掩码可以帮助从业者理解网络的决策过程[11]。在某些情况下,计算机模型生成的注意掩码的“注视点”与人类观察者的非常相似[32]。注意机制可以用于连接层;例如,一个层专注于时间信息(例如在流上训练),而另一个层专注于空间信息(例如在RGB上训练)。01 https://github.com/ewanowara/benefitofdistraction0先前的研究发现,这些交叉链接层引导空间流更多地关注人体前景区域,并且可以较少受到背景干扰的影响[43]。在生理测量中,发现双层网络既可以作为提取存在干扰的微弱生理信号的有价值的颜色信息,也可以作为提取存在干扰的微弱生理信号的有价值的运动信息的有效方法[5]。虽然注意机制通常表现良好,但它们只是对重要区域的简单表示。然而,这些区域之外的像素可能提供有用的上下文信息或关于存在的干扰的强先验知识。基于摄像机的生理学。随着时间的推移,血液的体积变化导致皮肤反射的微小变化和微小的运动变化,这些可以通过摄像机进行测量[40,46]。从视频中获得的生理信号可以用于恢复多个指标和生命体征,包括心率[34],心率变异性[35],呼吸频率[35],血氧饱和度[41]和脉冲传输时间[36]。近红外[30,4]和热[12,33]摄像机也已成功用于在黑暗中测量生理信号。虽然在可见光范围内测量心肺信号取得了很大进展,但使用热摄像机仍然可以更准确地估计这些信号[10,6]。不幸的是,基于摄像机的生理测量中感兴趣的信号往往非常微弱,并且很容易受到由于身体运动和环境光变化而引起的噪声的干扰。基于摄像机的生理学早期工作使用了生理信号的属性,例如周期性[34]和血红蛋白吸收光谱[7,48],通过去混合方法[16,19,20,44]恢复了潜在的生理信号。其中一些无监督的方法做出了简单的假设,即脉冲信号应该是周期性的(非高斯的),而其他任何源信号都是噪声(例如ICA[34])。其他方法,如POS[48],假设与皮肤正交的平面包含脉搏生理信号,而非正交平面包含镜面反射和噪声。其他人使用物理皮肤模型来学习从颜色变化中的映射[24]。在这些方法中,未明确建模影响信号的干扰。最近,一些团队证明了不受启发式关于信号结构的深度学习模型可以更好地执行,特别是在存在大运动和其他干扰的情况下[5,51,39,22,26,27,50,15]。这些端到端的方法也没有明确定义干扰,而是学会以完全监督的方式恢复生理信号。我们展示了使用最先进模型的性能通过使用分心区域作为明确的干扰估计而显着改善。03. 从干扰中受益0直觉。让我们考虑这样一种情况,我们想从一个具有许多额外像素变化源的视频中恢复一个微妙的时间信号 p ( t ) :yi(t) = ai,0(t) + αi ∗ p(t) + βi ∗ q(t) + γi ∗ n(t)yi(t) = ai,0(t) + βiq(t) + γin(t)αi49580每个像素要么属于“前景”区域并且包含感兴趣的信号 p ( t) ,要么属于“背景”区域并且不包含 p ( t )。如果一个像素位于“前景”,我们可以将第 i个像素的强度 y i ( t ) 写为:0其中 a 0 是视频的基本强度,p ( t ) 是感兴趣的信号,q ( t) 是与“前景”和“背景”中相关的污染,n ( t )是随机相机传感器噪声。α ,β 和 γ 调节信号 p ( t ),相关污染 q ( t ) 和随机噪声 n ( t )的强度。在我们的应用中,“前景”主要指的是带有生理信号 p ( t ) 的皮肤像素。信号 p ( t )在视频的每个像素中的强度不相同,例如,某些面部区域可能被面部毛发遮挡,或者由于身体运动(例如,眨眼和说话时的眼睛和嘴巴)而发生变化。在卷积注意力网络的背景下,每个像素的信号 p ( t ) 的强度 α等同于学习到的注意力掩码中的权重,显示视频中哪些区域包含感兴趣的信号。我们可能事先不知道哪些像素属于“前景”和哪些属于“背景”。然而,我们可以假设在注意力掩码中,所有具有大于特定阈值的 α的像素应该属于“前景”。除了生理信号 p ( t ),“前景”的强度还会因其他变化而改变,这些变化与 p ( t) 无关,但会影响恢复信号 p ( t )的质量。这些变化可能包括光照变化、摄像机或人物的运动q ( t ) ,以及相机传感器噪声 n ( t ) 。相机传感器噪声 n ( t)是随机的,通常在所有像素之间是独立和同分布的。然而,污染 q ( t )通常不是随机的,也不是在视频帧中均匀分布的。相反,它通常与“背景”中由同一源引起的变化统计相关。另一方面,如果像素属于“背景”,它将包含与“前景”类似的强度变化,唯一的区别是它不包含感兴趣的信号 p ( t )。我们认为“背景”包括所有不包含 p ( t ) 的区域:0视频的“前景”中存在的生理信号强度非常小,具有亚像素级别的振幅。因此,为了提取它,我们需要识别许多像素中的信号存在,并将它们组合成一个单一的估计以提高信噪比。如果我们可以识别包含 p ( t )的“前景”像素并忽略其他像素,0如果像注意力网络一样,我们可能会得到一个很好的估计。通过这种方式从“前景”区域获得的 p ( t )的信噪比将取决于 p ( t ) 的强度 α,以及污染和随机噪声的强度 β 和 γ :0β i + γ i通常很难直接从注意力掩码选择的“前景”区域中去除 q ( t),因为这种污染可能来自难以建模和抑制的多种来源。但是更容易估计与“背景”中的 p ( t ) 相关的 q ( t ),我们可以定义为视频中与 p ( t )无关的任何变化。由于视频中的这些区域可能存在不同的变化,因此“前景”和“背景”中的污染可能不相同。然而,与“前景”和“背景”中的 q ( t )通常由相同的源(例如,头部运动影响皮肤,被认为是“前景”,和头发像素,被认为是“背景”)引起,它们的变化是相似的。因此,如果我们只能使用“背景”像素来估计相关的变化 q ( t ) 和它们的强度 β,我们可以抑制“前景”中的这些变化,从而增加 p ( t )的信噪比,现在主要受到随机噪声的影响:0SNR(p) ≈ α i0γ i请参阅图3的示例,比较使用注意力和逆注意力掩码联合去噪信号与仅使用注意力掩码获得的基线信号。虽然“前景”和“背景”中的破坏q(t)高度相关,但它们的关系可能是非线性的,很难明确建模,但可以通过深度学习模型学习。我们使用LSTM网络来学习在给定“背景”中存在的破坏q(t)估计的情况下,抑制视频中的破坏q(t)。所提出的架构如图4所示。实际上,“前景”和“背景”中的破坏q(t)之间的相关性并不完美,β无法完美估计。因此,网络可以被训练来尽可能地估计和去除由运动和光照引起的所有变化,但不可能完全估计和去除所有变化。生理和破坏编码器。卷积注意力网络(CAN)[5]作为我们架构中的编码器,提供了从“前景”区域获得的生理信号估计和从“背景”区域获得的破坏估计。CAN网络由两个组件共同工作-外观模型和运动模型。外观模型直接在输入视频帧上进行训练。timefreq.Norm. Amp.timefreq.49590注意力掩码0归一化幅度归一0CAN输出 - 波形CAN输出 - 功率谱0帧0真实值 - 波形0真实值 - 功率谱0我们的 - 波形我们的 - 功率谱0逆注意力掩码0归一化幅度0破坏 - 波形破坏 - 功率谱0图3。这些是用于获得初始脉冲估计、破坏估计(仅从绿色摄像机通道显示)和最终去噪生理信号的注意力掩码和逆注意力掩码的示例。掩码中的较高权重用黄色表示,较低权重用蓝色表示。垂直的绿线表示地面真实心率频率。0从视频中学习颜色和纹理信息,确定可能包含强生理信号的区域。运动模型是通过训练两个连续视频帧的差异来区分视频中由特征生理变化引起的强度变化和其他来源引起的变化。然后,注意力掩码反映了每个帧中脉动生理信号强度的热图。如图3的第一行所示,注意力掩码主要集中在已知具有强生理信号的皮肤区域,而忽略其他区域,如眼睛、头发和背景区域(请参阅补充材料,了解所有静止视频上计算的平均注意力掩码的示例)。CAN通常输出一个一维的生理信号估计。然而,我们通过将原始输入帧与注意力掩码权重的倒数进行逐元素相乘,计算出一个次要的破坏估计。通过网络输出的注意力掩码,可以轻松找到“前景”像素,因为“前景”区域是网络主要关注的像素,用于进行预测。为了估计“背景”中的相关破坏,我们必须找到所有属于“背景”的像素。所有不属于“前景”的像素都属于“背景”,因此我们可以通过创建注意力掩码的倒数来获得“背景”像素。我们计算0通过逐元素地将逆注意力掩码与每个视频帧的每个通道进行乘法运算,可以在每个时间步骤上计算破坏。然后,我们对加权像素强度进行空间平均:0Q c,t = 0H 1W0H×0x =10y =1 I x,y,t ◦ M x,y,t (1)0其中 I t 和 M t 是时间 t 的帧和掩码。Q c,t 是时间 t的每个[R, G, B]相机通道 c 的损坏估计,H 和 W分别是图像的高度和宽度。注意力和逆注意力掩码的大小为34×34像素,视频帧使用双三次插值进行降采样到相同的大小。我们将注意力掩码元素归一化到0到1的范围内。为了获得损坏估计,我们将大于固定阈值T的所有值设置为0,其他值设置为1,创建一个二进制掩码。根据实验,我们发现阈值T =0.1效果良好。这个二进制逆注意力掩码忽略了最初用于计算生理信号的视频区域,并保留了所有其他区域。逆注意力掩码的示例如图3的第二行所示。去噪模型。我们的去噪模型由一个长短期记忆(LSTM)网络组成,编码器在每个时间步骤提供生理学和损坏输入。目标是学习一个去噪函数,清除生理估计中的噪声,给定损坏估计。作为去噪LSTM的输入,我们堆叠了编码器生成的生理信号和损坏信号。接触式生理信号(例如手指脉搏血氧仪)被用作训练的基准信号。损坏估计指导LSTM学习哪些波形特征与不相关的变化相关,哪些与感兴趣的生理信号相关。LSTM能够学习抑制生理信号中存在的各种损坏,并输出更好地匹配基准真实生理信号的更干净的波形(见图3的第三行)。请参见补充材料中提供的视频,了解更多去噪信号的示例。在我们的实验中,我们使用了一个具有128个隐藏单元的双向LSTM的两层网络,使用Adam优化器[13]和均方误差损失进行了10个时期的训练。由于LSTM在较短序列上的效果更好,我们将每个视频分成60个样本的序列,时间窗口之间有50%的重叠,对应于每秒30帧(fps)的视频的两秒。由于收集精心同步的生理信号和高质量视频的复杂性,生理数据集通常相对较小。因此,我们将CAN和去噪LSTM实现为两个独立的网络,以减少训练参数的数量。*...h1h2h3hNT=0T=1T=2T=3T=N-1T=N49600运入(规范化帧差)T=0 ...0T=10输入视频0注意力图0逆注意力("分心")图036x36 36x36 36x36 18x18 18x18 18x18 9x9036x36 36x36 36x36 18x18 18x18 18x180编码器0A A A A0去噪模型0时间0t0脉搏:0呼吸:0输入视频0损坏估计0脉搏/呼吸估计0E E E E0外观输入0图4. 提出的去噪架构。编码器在每个时间步骤提供初始生理信号和损坏估计,LSTM输出去噪后的生理信号。0AFRLMR-NIRPMMSE-HR0图5. 用于评估我们方法的图像示例。0然而,如果有足够的训练数据,提出的架构可以实现端到端。0数据集。我们在两个RGB和一个NIR视频数据集上评估了我们的方法。每个数据集的示例图像如图5所示。AFRL[9]有300个视频,记录了25个参与者,帧率为120fps。每个参与者在每个五分钟的实验中被记录了12次,运动变化不同(从任务1到任务6),并且有两个不同的背景。我们将ARFL视频帧剪裁为492×492像素,以去除空白背景区域。MMSE-HR[52]有102个视频,记录了40个参与者,在自发情绪诱发实验中以25fps的速度进行。由于面部运动突然且心率变化迅速,这个数据集具有挑战性。MR-NIRP(NIR)[30]有8个参与者,使用NIR相机以30fps的速度进行记录。每个参与者被记录两次,一次静止,一次进行涉及说话和随机移动头部的运动任务。这个数据集特别具有挑战性,因为NIR中的生理信号非常微弱[21,47]。有关数据集的更多详细信息请参见补充材料。04. 训练细节0训练编码器。由于参数数量庞大,我们在最大的数据集(AFRL[9])上预训练了编码器并锁定了其权重。在训练编码器时,损失函数是生理估计值与真实值之间的均方误差(MSE)。我们对AFRL数据集中的六个运动任务分别进行了训练和测试,采用了参与者独立的交叉验证方法,每次验证中排除20%的参与者。对于MMSE-HR和MR-NIRP数据集的实验,我们使用了任务2中训练的模型,因为这些数据集中的头部位置最相似。为了最大程度地提高模型对新数据集的泛化能力,我们采用了以受试者为依据的交叉验证方法,每个视频使用四分钟进行训练,一分钟进行测试。训练去噪模型。在对AFRL数据集进行评估时,我们采用了与编码器相同的独立于受试者的训练方法。由于MMSE-HR数据集的视频数量较少,我们采用了留一受试者交叉验证方法,即排除一个受试者的所有视频,对其余所有视频进行训练,对每个受试者重复此过程。MR-NIRP数据集较小,不适合训练网络,因此我们使用了在AFRL数据集上训练的LSTM。这使我们能够测试我们模型在跨数据集上的泛化能力。我们使用频率通带范围为[0.7 Hz,2.5 Hz](HR)和[0.08 Hz,0.5Hz](BR)对信号进行去趋势[42]和带通滤波。我们通过减去时间均值、除以每个视频的时间标准差来对信号进行归一化,并将其幅度归一化为-1和1。我们将所有序列重新采样为30帧/秒。我们通过在每个视频的非重叠的30秒时间窗口内找到频率能量最大的频率来估计HR和BR。我们使用平均绝对误差(MAE)、均方根误差(RMSE)、皮尔逊相关系数(ρ)、估计生理信号的信噪比(SNR)以及估计信号与真实信号之间的波形平均绝对误差(WMAE)来评估我们提出的去噪方法在所有时间窗口上的性能。有关误差度量的定义,请参见补充材料。We compared four variants of our proposed approach tonine state-of-the-art methods for recovering the pulse sig-nal [34, 7, 16, 44, 28, 48, 20, 5, 19] and two methods for re-covering the breathing signal [5, 41] (see the supplementarymaterial for implementation details). We compared trainingour model with the corruption estimates obtained from the“background” regions (“Distraction”) and without the cor-ruption estimates as input (“No Corr.”). We can also directlysubtract the corruption estimate from the signal estimate ei-ther in the time domain (“Wave. Sub.”), or compute thepower spectrum of the estimated corruption and signal andsubtract the corruption spectrum from the signal spectrum(“Freq. Sub.”).Heart Rate Estimation. Our method achieved betterperformance compared to previous approaches, includinglower HR MAE, RMSE, and waveform MAE and higherHR correlation (ρ) and SNR (see Table 1). On the AFRLdataset, the MAE was reduced from 2.93 beats per minute(BPM) to 2.25 BPM (25% reduction in error), and on theMMSE-HR dataset, the MAE was reduced from 3.74 BPMto 2.27 BPM (39 % reduction in error). This shows that in-formation excluded by the attention mask can be success-fully leveraged to remove diverse corruptions, leading tosubstantial improvements in signal quality. Moreover, theproposed denoising approach is able to recover the subtlewaveform dynamics, reducing the waveform MAE by morethan 50% on MMSE-HR. While simply subtracting the cor-ruptions from the signals in the frequency domain often im-proved the SNR, it did not usually improve the heart rateestimates. Subtracting the corruption signal in the time do-main performed even worse and often had a negative impacton the SNR. All results were statistically significant (p <0.01) – see supplementary material for F-test results.Breathing Rate Estimation. In addition to estimatingHR, which is based on intensity variations in the skin, ourmethod can also be used to estimate BR which is basedon motion variations and it may be more challenging inpresence of body motions. Only the AFRL dataset [9] hadground truth breathing signals, therefore we were not ableto evaluate our BR results on the other datasets. Our method49610我们将我们提出的方法的四个变体与九种用于恢复脉搏信号的最先进方法[34, 7, 16, 44, 28, 48, 20, 5,19]以及两种用于恢复呼吸信号的方法[5,41]进行了比较(有关实现细节,请参见补充材料)。我们比较了使用从“背景”区域(“Distraction”)获得的破坏估计训练我们的模型和不使用破坏估计作为输入的情况(“NoCorr.”)。我们还可以直接在时间域中从信号估计中减去破坏估计(“Wave.Sub.”),或者计算估计破坏和信号的功率谱,并从信号谱中减去破坏谱(“Freq.Sub.”)。心率估计。我们的方法在性能上优于以前的方法,包括更低的HRMAE、RMSE和波形MAE,以及更高的HR相关性(ρ)和SNR(见表1)。在AFRL数据集上,MAE从2.93BPM降低到2.25 BPM(误差减少25%),在MMSE-HR数据集上,MAE从3.74 BPM降低到2.27BPM(误差减少39%)。这表明,通过注意力掩码排除的信息可以成功利用以去除各种破坏,从而显著提高信号质量。此外,所提出的去噪方法能够恢复微妙的波形动态,在MMSE-HR上将波形MAE降低了50%以上。虽然在频域中简单地从信号估计中减去破坏信号通常会提高SNR,但通常不会改善心率估计。在时间域中减去破坏信号的效果甚至更差,并且通常对SNR产生负面影响。所有结果均具有统计学意义(p <0.01)-请参见补充材料中的F检验结果。呼吸率估计。除了基于皮肤强度变化的心率估计外,我们的方法还可以用于基于运动变化的呼吸率估计,而在存在身体运动的情况下,这可能更具挑战性。只有AFRL数据集[9]有真实的呼吸信号,因此我们无法在其他数据集上评估我们的呼吸率结果。我们的方法05. 结果与讨论0与基线相比,平均绝对误差(MAE)从3.68BPM降低到2.44BPM(误差减少34%),信噪比(SNR)提高了5.87dB(表1)。分心区域的真实效果。当信号随时间变化不大且训练集和测试集中的损坏情况相似时,我们的模型在没有损坏估计的情况下表现良好。例如,在AFRL上进行训练和测试(表1)并不是非常困难,因为头部运动是可预测的。然而,当生理信号随时间突然变化或训练集和测试集之间存在较大的领域差异时,包括分心区域可以改善心率和呼吸率的估计结果。例如,在具有突然脉冲变化、不受控制的运动和面部表情的MMSE-HR上,以及在更具挑战性的NIRMR-NRIP数据集上(表1)。此外,当我们仅在AFRL的静止视频(任务1)上训练模型(没有主要损坏)并在具有大幅度随机运动的视频上进行测试(任务6)时,包括分心区域可以提高心率和呼吸率的估计准确性,如表2所示。在“无相关”条件下,信噪比通常较高,因为LSTM仅产生更平滑的信号,导致频域中更大的稀疏性和更高的信噪比。然而,该信号的主导频率通常是错误的,导致更差的MAE、RMSE和ρ。这些结果表明,损坏估计在模型中不仅仅是包含初始信号估计的有用工具。迁移学习。与可见光相比,MR-NIRP的NIR视频更具挑战性,因为在NIR范围内的生理信号强度比可见光范围低一个数量级,使其非常容易受到运动伪影的影响。当仅在RGB视频(AFRL数据集)上进行训练而没有任何微调时,我们的方法在MR-NIRP数据集的所有五个指标上都优于基线方法。如表1所示,MAE从7.78BPM降低到2.34BPM(误差减少70%)。其他基线方法需要多个颜色通道,因此无法在NIR视频上进行比较。不同头部运动的表现。我们的方法还在AFRL[9]的所有头部运动的视频上显示了改进(见表3)。例如,在角度为30度/秒的视频(任务4)上,心率MAE从2.82BPM降低到1.94BPM(误差减少30%),呼吸率MAE从4.85BPM降低到2.88BPM(误差减少41%)。不同肤色的表现。我们还通过肤色类型对MMSE-HR的结果进行了细分。深色肤色类型(V-VI)更具挑战性,因为它们的iPPG信噪比较低(见补充材料)。我们的方法在所有肤色类型,尤其是较暗的肤色类型上都取得了更好的性能(在肤色类型上的MAE [BPM]MAICA [19]–––––3.91––0.86–––––––––––RhythmNet [28]––––––5.49–0.84–––––––––––PVM [20]–––––4.38––0.82–––––––––––CAN [5] 2.936.693.36 0.820.234.069.510.63 0.770.527.7816.8 -3.24 -0.030.364.867.328.33 0.100.27POS [48] 4.369.450.73 0.740.453.909.612.33 0.780.39––––––––––Tulyakov [44]––––––11.37–0.71–––––––––––Li [16]––––––19.95–0.38–––––––––––Tarassenko [41]–––––––––––––––3.685.52-6.22 0.290.29CHROM [7] 4.079.720.29 0.720.413.748.111.90 0.820.37––––––––––ICA [34] 5.78 11.80 0.42 0.580.435.4412.03.03 0.660.42––––––––––49620表1. 包括“分心”区域可以改善心率(HR)和呼吸率(BR)的估计结果。0心率 呼吸率0AFRL MMSE-HR MR-NIRP(NIR) AFRL 方法 MAE RMSE SNR ρ WMAE MAE RMSE SNR ρ WMAE MAE RMSE SNR ρ WMAE MAE RMSESNR ρ WMAE0分心 2.25 5.68 6.44 0.87 0.21 2.27 4.90 5.00 0.94 0.19 2.34 4.46 2.27 0.85 0.45 2.44 4.23 14.20 0.35 0.28 无相关 2.12 5.37 6.86 0.88 0.212.80 6.36 4.30 0.90 0.21 2.56 5.23 2.28 0.80 0.40 2.49 4.26 14.06 0.34 0.27 频率差分 2.92 6.67 3.66 0.82 0.24 3.97 9.93 4.49 0.76 0.57 8.5817.59 -4.56 -0.11 0.31 5.03 7.45 7.78 0.12 0.31 波形差分 2.92 6.66 3.09 0.82 0.24 6.09 10.84 -4.75 0.71 0.55 8.83 17.00 -4.69 -0.17 0.31 4.987.40 7.76 0.12 0.300表2.在AFRL任务1上训练并在任务6上测试。当训练集和测试集非常不同时,忽略的区域有所帮助。0心率 呼吸率 方法 MAE RMSE SNR ρ WMAE MAE RMSE SNR ρ WMAE0分心 5.29 9.33 -2.07 0.70 0.32 4.28 6.00 5.93 0.10 0.34 无损坏 5.61 9.72-1.91 0.67 0.32 4.38 6.15 5.96 0.07 0.340表3. 在AFRL上从1增加到6的运动。0心率 MAE 呼吸率 MAE0方法 1 2 3 4 5 6 1 2 3 4 5 60分心 1.06 2.11 1.79 1.94 2.50 4.78 1.42 1.86 1.88 2.88 2.87 4.15 无损坏1.14 1.90 1.80 3.39 2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功