远程心率估计：一个基于对比学习的改进方法

36 浏览量更新于2023-10-16 收藏 701KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5029ALPINE：使用对比学习改进远程心率估计Lokendra Birla Sneha Shukla Anup Kumar Gupta Puneet Gupta印度理工学院{phd1901201001，phd2101101006，msrphd2105101002，puneet} @ iiti.ac.in摘要心率（HR）是人体健康的重要生理指标，可用于检测心血管疾病。传统的心率估计方法，如心电图（ECG）和光电容积描记器，需要皮肤接触。由于皮肤接触的病毒感染风险增加，在持续的COVID-19大流行中避免这些方法。可替代地，可以使用非接触式HR估计技术，远程光电体积描记（rPPG），其中，根据人的面部视频来估计HR不幸的是，现有的rPPG方法在存在面部变形的情况下表现不佳。最近，rPPG的深度学习网络激增然而，这些网络需要大规模的标记数据，以更好的泛化。为了克服这些缺点，我们提出了一种改进对比学习远程心率估计的方法ALPINE，即一种新的LrP PG技术。ALPINE在训练过程中利用对比学习框架来解决有限标记数据的问题，并在数据样本中引入多样性，以实现更好的网络泛化。此外，我们引入了一种新的混合损失，包括对比度损失，信噪比（SNR）损失和数据保真度损失。我们的新的对比损失最大化的rPPG信息之间的相似性，从不同的面部区域，从而最大限度地减少局部噪声的影响。SNR损失提高了时间信号的质量，并且数据保真度损失确保提取正确的rPPG信号我们在公开可用的数据集上的广泛实验表明，所提出的方法，ALPINE优于以前众所周知的rPPG方法。1. 介绍心脏是人体的重要器官，心率（HR）可以检测心血管疾病。传统的HR估计方法、心电图（ECG）和光电体积描记器（PPG）需要皮肤接触并且在存在运动的情况下表现不真实。因此，在持续的COVID-19大流行中避免了因为皮肤接触会增加病毒感染的风险。或者，在文献中已经提出了几种方法来执行非接触式HR估计并克服上述限制。非接触式HR估计方法利用远程光电体积描记（rPPG）技术，其中通过分析视频中存在的颜色或运动变化来从人的面部视频估计HR。rPPG积极用于慢性疾病治疗[16]和心脏活动监测[9]。除了在医疗保健中的应用外，rPPG还用于微表情识别[21]，Deepfake检测[11]，微表情点样[24]，活性检测[41]和欺骗检测[4，5]。rPPG基于心脏栗送面部皮肤下方的颈动脉中的血液，导致面部区域中的颜色或运动变化的现象。虽然变化对于人眼是潜在的，但是可以使用相机捕获这些变化，并使用信号处理或机器学习技术进行处理以计算生理参数[26]。面部变化信号被称为时间信号。通常，使用多个面部区域来计算时间信号，并且使用盲源分离算法来合并这些提取的信号以估计脉搏信号[22]。在这个方向上，已经基于信号处理和深度学习提出了几种rPPG方法[22，25，23，2，3，28，34]。当人脸视频包含由于眨眼、光照变化、头部运动和面部表情引起的面部变形时，现有的方法不适于rPPG估计。此外，监督式深度学习方法的机制需要大量的标记数据来正确训练网络。不幸的是，在我们的情况下，没有昂贵的标记数据的灵活性，它需要大量的数据收集和操作员干预[6，18，17]。在[18]中，使用基于对比学习（CL）的自监督学习CL是一种自监督机器学习技术，允许网络在不利用标签的情况下从数据集中学习特征。在这种技术中，网络学习哪些特征是相似的，哪些是不同的。5030[18]中提出的方法使用时间增强来学习实际样本和增强样本之间的相似性特征，使用三重丢失。这种损失迫使网络学习时间信号及其增强版本之间的相似性。当时间信号包含噪声时，这导致不正确的脉冲建模;因此导致有限的网络性能。本文提出了一种新的基于rPPG的心率估计方法ALPINE，即一种新的LrPPG技术，用于改进基于对比度成像的远程心率估计，它克服了上述局限性，提高了心率估计的精度。它介绍了一种基于TCN的深度学习网络，该网络对rPPG信息进行建模，以使用CL减轻来自时间信号的噪声。为了对时间信号进行降噪并预测干净的脉冲信号，我们提出了一种新的网络，该网络利用从多个面部区域提取的时间信号。这些时间信号使得网络能够跨所有区域学习rPPG信息对比损失被用来学习不同时间信号之间的相似性。它抑制任何基于面部变形的噪声，恶化提取的时间信号。我们利用SNR损失来减少时间信号中存在的最后，我们利用数据保真度损失，以确保去噪信号对应于地面真相。此外，所提出的网络是基于TCN的，以有效地学习长序列的时间信息，而不是其顺序对应物[1]。我们的主要研究贡献是：(1)我们提出了一种新的基于CL的网络，利用时间增强技术来自动学习rPPG信息存在于不同的面部区域。（2）提出了一种新的混合损失函数来训练网络。它使网络能够自动学习从不同面部区域提取的时间信号之间的相似性，并预测去噪的时间信号。(3)我们在公开数据集上的实验结果表明，所提出的方法比最先进的基于rPPG的方法性能更好。2. 文献调查2.1. 传统rPPG估计rPPG估计包括分析由脉搏运动引起的面部视频中的微小变化。通过测量面部视频中的颜色变化[37]或运动变化[2]来捕获变化。它们提供的信息减少了摄像机伪影和运动引起的噪声的存在[38]，导致不正确的HR估计。因此，为了抑制噪声，已经提出了几种传统的rPPG方法。例如，在[43]中使用绿色变化进行HR估计，因为绿色更好地被血液血红蛋白吸收，从而提供更好的rPPG信息。mation [47].独立分量分析（ICA）用于将脉冲信号与[37]中的时间信号分离。此外，在[13]中提出了颜色子空间到色度的变换以抑制照度变化。类似地，在[44]中，时间信号的本征分解以及随后的空间子空间旋转被用于HR估计。这些rPPG方法利用颜色变化对rPPG信息进行建模。相比之下，[2]使用了由脉搏引起的面部运动，然后使用主成分分析（PCA）进行HR估计。前述rPPG方法受益于用于减轻噪声影响的手工制作的特征。然而，噪声源引起的变化特征不能与特定领域的知识[3]分离。2.2. 基于深度学习的rPPG估计深度学习方法能够从数据中自动学习特征表示[19]，其可用于抑制噪声以进行正确的rPPG估计。在这个方向上，基于卷积神经网络（CNN）的VGG15用于根据CHROM [13]信号的时频表示估计HR频率，并在[28]中使用。时空卷积用于rPPG信号估计[32]。在[29]中，采用用于学习与脉搏信号对应的时间相关性的时域子网进行脉搏估计。2D CNN和1D CNN网络的组合在[40]中用于HR估计。2D CNN用于从馈送到1DCNN的面部视频中提取rPPG信息此外，端到端rPPG方法使用归一化帧差。例如，在[10]中，双流网络用于基于rPPG的HR估计。该网络采用基于注意力的外观流来识别提供重要rPPG信息的面部区域，并采用基于CNN的运动流来学习脉搏信号特征。时空网络用于脉冲估计[46]。本质上，他们设计了两个网络，一个利用3D CNN网络，另一个利用2D CNN和长短期记忆（LSTM）网络的组合进行rPPG估计。这些方法包括具有可学习权重的深度神经网络，其需要大量的标记训练数据以进行正确的泛化。此外，它们无法为小规模rPPG数据集提供正确的HR估计[8]。此外，基于监督学习的方法为训练集中HR超出HR范围的样本提供了不正确的HR估计[31]。2.3. CL和使用CL的基于监督学习的rPPG方法缺乏丰富的标记rPPG数据集[8]，并且5031在rPPG数据集的训练和测试集中变化的数据分布[31]。因此，在[31]中，元学习器用于自监督测试时间权重自适应。此外，有限数据的问题在基于深度学习的方法中普遍存在CL方法广泛用于无监督视觉表示学习[14]，如动作识别[33]，图像字幕[12]和图像到图像翻译[36]。基于CL的rPPG方法仅在文献中找到，因为在没有实际脉搏的情况下的评价是不可靠的[18]。在这个方向上，在[17]中使用三重损耗。从本质上讲，他们使用视频恢复来生成正视频样本和负视频样本。损失函数旨在减小针对原始视频样本估计的脉冲与正样本之间的差，同时增大针对负样本估计的脉冲与原始视频样本之间的距离。然而，这种方法不能指定信息是否对应于脉冲信号或任何其它源;因此，性能评估是不可靠的[18]。以减轻不能提供前额区域界标点。请注意，我们仅使用与左脸颊、前额、鼻子和右脸颊对应的标志点来提取ROI，因为这些区域受面部表情的影响最小[3]。眼睛和嘴唇区域被避免，因为它们容易受到变形的影响，而下巴区域皮肤被避免，因为它在具有胡须的对象中被遮挡我们通过估计该区域的标志点的最小包围面积矩形来此外，面部边界像素易于面部变形，从而降低性能。因此，我们在ROI提取期间移除边界像素，如[24]中所建议的。3.2.提取时间信号如[3]所述，我们从每个ROI获得时间信号，作为所有ROI帧从形式上讲，时间信号-从第i个ROi获得的nal，TOi由下式给出：T=. i，1，i，2，. . . （1）第一章在这个问题上，[18]引入了一个显着采样层，帮助rPPG方法识别重要的面部区域iPi，1Pi，2Pi，f这有助于rPPG信息。3. 该方法本节介绍了rPPG估计方法ALPINE。在该方法中，我们将输入的人脸视频分成固定大小的非重叠片段，并且从这些输入片段估计HR为此，所提出的方法检测的脸，并将其划分为几个ROI。然后，我们计算对应于每个ROI的时间信号。我们将这些时间信号传递到对比rPPG网络（CrPPG-网络）以计算去噪时间信号。CrPPG-Net基于TCN。在半监督学习模式的训练过程中引入了混合损失函数损失由三部分组成：对比度损失、SNR损失和数据保真度损失。在推理期间，我们合并这些去噪的时间信号，以使用基于盲源分离（BSS）的多峰度优化方法计算脉搏信号[26]。所提出的方法ALPINE使用图1中的流程图来描绘。1.一、3.1. ROI提取为了定位具有显著rPPG信息的面部区域，我们需要将面部区域轮廓化为面部边界的歧视性面部点（称为面部标志点）为此，我们使用深度对齐网络（DAN）[30]。我们利用DAN，因为它提供了前额区域和面部的标志点，而众所周知的面部标志点提取网络，如CLNF-Openface [48]其中gi，k表示属于第k帧的第i面部ROI的像素的绿色强度值的总和，Pi，k表示第k帧的第i面部ROI中的像素的总数，并且f表示给定输入视频中的帧的总数。由此获得的时间信号由不相关的信号分量组成，例如来自面部运动、照明变化和其他物理源的噪声[25]。为了抑制这种杂散分量，我们将获得的信号通过四阶巴特沃兹带通滤波器[45]。带通滤波器重新移动对应于HR范围（0.7 Hz至4.0 Hz）之外频率的任何信号分量此外，应用去趋势滤波器以去除由照明变化引起的时间信号中的非平稳在滤波器之后获得的经滤波的时间信号-ing操作由Ti表示。3.3. 数据增强rPPG数据集中存在不均匀分布，其中大多数样本包含范围在60-90 BPM之间的HR，而正常人HR范围在40-240 BPM之间。由于偏斜的数据分布，经训练的网络变得偏向于HR在60和90BPM之间的样本为了解决这个问题，在[35]中描述了基于时间缩放的数据增强，其中视频被放大和缩小以生成HR范围在60-90 BPM范围之外的样本。由于通过内插视频帧来增强数据在计算上是昂贵的，因此我们采用时间信号内插。本质上，为了获得原始视频的HRk倍的样本，5032我注意事项：1. ��/��、2. 上标表示对应于原始变量或增强时间信号，下标表示ROI索引。图1.我们提出的方法ALPINE的流程图。它显示了（a）训练例程和（b）测试例程。请注意，训练例程中描述的损失显示了特定面部ROI的损失通过合并每个单独ROI的损失来获得完整的损失在测试例程中，峰值频率检测用于从估计的脉搏信号获得心率。使用线性插值将时间信号缩放1/k倍。例如，为了生成具有原始HR的一半和两倍的HR的时间信号，k分别被设置为2和1/2由于节奏信号的放大和缩小，新样本可能具有40- 240 BPM之外的HR我们排除这样的样本来训练网络。请注意，原始和增强的时间信号分别由To和Ta表示。此外，委员会认为，[3]的文件。因此，需要合适的去噪方法用于正确的HR估计。为此，我们提出了一个对比rPPG网络（CrPPG-Net）。该网络基于TCN[1]用于学习对应于脉搏信号的时间信号之间的相关性TCN网络有效地学习时间信号之间的长时间依赖性，以进行正确的脉搏信号估计[20]。该网络使用混合损失函数进行训练，我我我们将增强信号用于基于对比损失的训练（参见第3.6.1节）。3.4. 对比rPPG网络（CrPPG-Net）不幸的是，上面获得的时间信号在噪声的影响下提供了不正确的HR估计包括对比度损失、SNR损失和数据保真度损失函数，其迫使网络估计去噪的时间信号。最后，使用多峰度优化技术从去噪时间信号计算脉搏信号[26]。请注意，当我们通过从CrPPG-网络的时间信号To，所获得的de-(a)训练例程时间信号联系我从每个ROI提取脉冲信号提取阿阿托我19&J∀�� ≠��阿托输入视频每帧& 1“奥“1 ℒ DF1一“#1阿托编号我拉&#j1ℒ新加拉吉#1#C*$“奥“$O拉吉一$阿托洛$“#$#19ℒ&&3三氧化对应于从R0I*+和 R0I*+ROI获得的脉冲信号的R0I一“#3阿托一3ℒ&第三次C*&&“奥“一阿托）ℒDF数据保真度损失&“#&&#ℒ&(b)测试例程时间信号S$%（掌声）SNR损耗对比损耗1s*ROI的总体损失CrPPG净从每个ROI提取脉冲信号提取每帧“11输入视频峰值频率检测增强操作加法运算“$$ℎ��“3”3“&&来自同一ROI的C（）o**增强信号来自&两个不同的ROI拉两个人的原始信号&不同r0i19对比损失：1$3&&==5033我L·××× ××L·L·中文（简体）×T）=1−。ΣΣoo22.ΣCC我 J我 J我J我 JC我 J我 JL.ΣF。ΣFI j图2.我们提出的CrPPG网络的描述。噪声信号由T0表示。图2中描绘了基于TCN的rPPG网络它其中freqmax是包含最大幅度的脉冲谱的频率，PS（k）表示第k频率处的脉冲谱PS（k）表示第k个频率处的脉冲谱HR通过将freqmax乘以60计算。3.6. 损失函数我们设计了一种新的混合损失函数来训练网络.混合损耗由三个部分组成：对比度损失、SNR损失和数据保真度损失。对比损失C（）旨在最大化来自不同噪声源的去噪时间信号之间由两级依次堆叠的TCN网络组成来自第一级TCN网络的输出被馈送到输入面部ROI。SNR损失，LSNR （·），最小化因子二级TCN网络。第一个TCN块采用维度为1的输入信号f并将其传递给1D卷积层，具有9个大小的卷积滤波器19.卷积操作的时间方向使用相同的填充，而另方向来自1D卷积层的输出大小为91f，然后将其馈送到平均池化层，该平均池化层将特征转换为与输入大小相同的向量。然后，我们通过使用Rec- tified LinearUnit（ReLU）作为激活层来引入非线性为TCN块的输出提供剩余连接，以提高性能[15]。产生的输出大小1f被传递到第二个块。请注意，第二级的TCN块与第一级的配置相同，除了用于卷积的膨胀膨胀2用于第一级TCN，膨胀4用于第二级TCN。请注意，TCN可以有两种类型，基于变形的噪声，从而提高去噪时间信号的质量虽然这两个损失确保了高度相关和高质量的去噪时间信号，但它们不能确保信号对应于地面实况。因此，我们使用数据保真度损失，DF（），到最小化预测的时间信号和地面实况脉冲信号。因此，所提出的混合损失使网络能够预测来自不同ROI的高度相关的我们将在以下各节中讨论每个损失成分及其相关性。3.6.1对比损失函数对比损失C（）旨在最大化去噪时间信号之间的相似性。在这个方向上，我们使用三个新的对比损失函数。首亏函数，Lo（·），确保了解之间的高度相关性休闲和非休闲。临时TCN用于将来在控制期间不考虑时间步长C从第i个获得的噪声时间信号ROI和卷积操作，而非偶然TCN利用未来信息。由于时间信号在整个持续时间内可用，因此我们使用了非临时TCN [3]。此外，我们还在两个网络块之间添加跳过连接以提高其性能[15]。在第4.2节中，讨论了其他参数的细节从其他ROI获得的去噪时间信号。O托，托=1−Corr托，托o oI j（T）×（T）（三）3.5.估计脉搏信号和HR其中，T0和T0表示去噪时间信号I j在推理过程中，我们将CrPPG网络中得到的去噪后的时间信号进行合并，以计算脉搏信号。为此，我们使用多峰度优化[25]来计算脉冲。它同时利用周期性和盲源分离来计算脉冲。然后对脉搏信号进行快速傅里叶变换（FFT），得到脉搏频谱.脉冲频谱中的最大振幅对应于HR频率。形式上，HR由下式给出：分别从第i个和第j个ROI获得;以及corrT0，T0是两个信号之间的归一化互相关。此外，为了增强我们的网络在整个正常HR范围内的一般化，我们将来自第i个ROI的增强的时间信号与来自其他ROI的增强的时间信号进行比较。因此，我们的第二对比度损失La（·）表示为：洛杉矶T a，T a=1− Fcorr. Ta，Tahr=最大频率× 60Ta×Ta我（四）J其中freqMax = argmaxPS（freq）（2） freq=1−。Σ（Ta）2Ta）2层描述：1D卷积平均池化ReLUncTCN;扩张=4ncTCN;扩张=2输入1 ×��9 × 1 ×��1 ×��1 ×��9 × 1 ×��1 ×��时间信号5034我我我L·OL·OL·我LJI=C Ti，Tj，Ti，Tj+SNR（Ti）横O一O一 2我 J我 JOO O2其中，Ta和Ta分别通过对来自第i个和第j个ROI的增强时间信号进行去噪而获得保真度损失在数学上，我们将第i个ROI的损失Li表示为：并且Fcorrr（·）是归一化互相关运算。我...Oj=io aao最小化HR之间的距离的损失项从增强的时间信号hr_a及其假定的HR值获得。使用等式2，我们可以根据来自原始时间信号的HR来找到来自增强时间信号的HR值，其被给出为：LC（hri，hri）=k·hri−hri2（5）其中，k是用于获得增强的时间信号Ta的缩放因子。我们的完全对比损失C（）通过取其三个分量的和来获得，即LC. To，To，Ta，TaC我 JC我 JC我我+LDF（ho，hgt）（9）最后，视频的总体混合损耗由下式给出L=10Li（10）i ∈{1，2，…n}其中n是提取的ROI的总数。4. 实验结果4.1. 数据集和指标我们已经评估了我们提出的方法ALPINE上的广泛使用公开可用的UBFC-rPPG [6]，=Lo. To，To + Lm. Ta，Ta+Lcross（hro，hra）（6）3.6.2信噪比损失函数对于高质量的去噪时间信号，对应于心率的频率应当显著高于噪声信号。为此，我们使用信噪比（SNR ）损失 SNR （），以便最大化从所提出的CrPPG-网络获得的去噪时间信号的SNR在数学上，去噪时间信号Ti的SNR损失可以表示为：从42名受试者记录的生物学信号。为了进行比较分析，我们分别使用67%和33%的数据集作为训练和测试子集，类似于[6]。视频时长2分钟，帧率30fps。COHFACE数据集包括160个面部视频，其具有从40个受试者记录的对应的真实生理信号。视频的持续时间为1分钟，帧速率为20 fps。为了进行比较分析，我们使用了60%和40%的数据集作为训练和测试1个子集，分别与所用LSNR（Ti）=SNR（To）（7）3.6.3数据保真度损失函数上述损失函数确保从CrPPG网络获得相关且高质量的时间信号然而，它们不能确保所获得的信号对应于地面实况信号。因此，我们使用数据保真度损失函数DF（）来迫使网络预测正确的脉冲信号。为此，我们使用预测的去噪时间信号Ti和地面实况信号Tgt之间的平方l2 距离。在数学上，数据保真度损失被给出为：LDF（hi，hgt）=<$hi−hgt<$2（8）3.6.4组合损失函数给定视频的第i个ROI的总损失计算为以下各项之和：（i）对从第i个ROI获得的时间信号和从所有其他ROI获得的时间信号计算的对比损失C的总和（27）获得了两个数据集的真实数据在视频记录期间使用脉搏血氧计。与[3]类似，我们使用平均绝对误差（MAE）、标准差（SD）、皮尔逊相关系数（r）和真实HR与估计HR之间的均方根误差（RMSE）来评估我们的结果4.2. 实现细节所有实验均在Intel Xeon Gold（6132）处理器上进行。它由192 GB RAM和NVIDIA V100 GPU服务器组成。CrPPG网络使用Adam优化器进行训练，批量大小为4，学习率为0.0001，最大纪元数为100.我们从给定的输入视频中提取4秒的非重叠视频剪辑来执行实验。4.3. 比较评价在这一小节中，我们提出了一个比较分析的各种国家的最先进的方法和建议的方法ALPINE。为了进行公平的比较分析，我们使用了与[40，27]所使用的相似的测试方案。我们有j，使得ij，（ii）SNR损失LSNR和（iii）数据在表1中给出了比较分析桌子我最后，为了迫使网络只学习那些对脉冲信号有贡献的相关性，我们使用了第三个COHFACE [27]数据集。UBFC-rPPG数据集包括42个人脸视频，以及相应的地面实况物理数据。5035表1.我们提出的方法和国家的最先进的方法的性能评价方法UBFC-rPPG COHFACE*值以BPM为单位。表明所提出的方法，ALPINE优于现有的方法。方法色度- rPPG [13]和RAHR [26]未能减轻时间信号中存在的基于面部表情的噪声，因此与所提出的方法相比表现较差。同样，方法 AHRE [22] 、 Fusion-EL [23] 和MOMBAT [25]的功效也低于所提出的方法，因为这些方法直接在提取的时间信号上利用盲源分离（BSS）技术相比之下，ALPINE在应用BSS之前从训练的网络计算去噪的时间信号。ALPINE也优于基于深度学习的方法，如PhysNet[46]，HR-CNN [40]和AND-rPPG [3]，因为这些方法无法纠正错误的HR。类似地，META-rPPG [31]的性能，因为它使用LSTM网络，无法保留长期信息[1，20]。相比之下，我们提出的方法是基于TCN有效地建模和保存长期信息。此外，我们提出的方法优于CL-rPPG[18]，因为CL-rPPG为某些面部区域提供了计算脉搏信号的重要性。此外，它利用增强信号从面部ROI学习相关性对应的脉搏信号。当ROI受到由于面部变形引起的局部噪声的影响时，这种技术失败，导致网络无法所提出的方法有效地减轻了这样的面部变形，通过使用多个面部区域来计算时间信号。4.4. 消融研究本小节深入分析了多个ROI、CrPPG网络、颜色通道和损失函数在所提出的方法中的重要性。我们修改或改变了所提出的方法的子部分来进行这些实验，并在表2中报告了消融研究的结果到表2.我们提出的方法的消融研究。所有的值都是BPM。UBFC-rPPG COHFACE公司简介梅惠RMSE误差公司简介梅惠RMSE误差高山3.172.584.014.463.655.07CO4.644.055.866.215.296.92CA5.054.296.127.185.457.11CL4.503.925.536.055.096.77SNR4.754.175.946.406.927.13DF5.084.325.977.257.197.27SNR+ CL3.262.644.234.553.795.17SNR+ DF3.402.824.494.473.825.37DF+ CL3.452.904.534.513.945.45RGB9.949.2012.0112.2811.6813.72双ROI8.348.0010.1110.929.239.73三感兴趣区5.294.086.327.126.157.68LSTM-exp8.327.729.3811.0510.0511.29为了理解多个ROI的重要性，我们进行了两个ROI和三个ROI的实验。在双ROI中，左脸颊和右脸颊被认为是ROI。同样，左脸颊和右脸颊以及鼻子区域被认为是三ROI中的ROI。表2表明所提出的方法优于这两个实验。原因在于，如果适当地选择大量的ROI，则面部变形减少，从而提高性能。请注意，如果所选面部区域包含面部变形，则时间信号将是虚假的，从而导致不正确的HR预测。增加面部区域的数量并适当地选择区域可以缓解这个问题。因此，我们在实验中排除了包含频繁运动变化或隐藏在头发后面的皮肤的面部区域，如眼睛区域、嘴唇区域和下巴区域[3]。眼睛和嘴唇区域容易受到变形的影响，并且下巴区域皮肤在具有胡须的受试者中不可见。另外，我们通过用RGB颜色替换ALPINE中的绿色来执行实验RGB。结果表明，我们的ALPINE优于RGB，因为绿色公司简介梅惠RMSE误差R公司简介梅惠RMSE误差R色度-rPPG [13]5.504.706.610.6710.637.8012.450.26[22]第二十二话4.954.205.780.616.385.7211.520.31[23]第二十三话4.203.714.520.738.097.149.430.57[26]第二十六话4.503.704.610.6710.637.8012.450.26MOMBAT [25]3.383.504.010.856.145.897.920.62物理网[46]3.853.635.290.947.98.5911.600.36META-rPPG [31]4.503.704.610.6710.637.8012.450.26[40]第四十话4.153.824.920.719.238.1010.780.29AND-rPPG [3]3.212.674.070.964.533.825.100.79CL-rPPG [18]4.204.823.90.944.834.525.900.87高山3.172.584.010.964.463.655.070.825036CLLCLLLLLLLCLLL LLCLL·描绘了如果我们减小剪辑持续时间，则所提出的方法相比之下，如果我们将剪辑持续时间从4秒增加到6秒，则性能会增加，因为长持续时间剪辑提供更多的rPPG信息。但是，如果剪辑持续时间增加超过6秒，则性能会降低，因为这会减少用于训练网络的剪辑数量尽管如此，我们还是选择了4秒的持续时间片段进行实验，因为这是一种被广泛接受的做法[39，29]。图3.ALPINE针对不同持续时间片段的性能彩色通道提供最强的PPG信号[25，43]。为了理解所提出的混合损失函数的每个分量的重要性，我们通过修改所提出的方法的混合损失来执行不同的实验为了分析每个损失的重要性，我们分别使用o损失、a损失、SNR损失、DF损失和C损失来执行CO、CA、SNR、DF和CL结果报告于表2中。请注意，在所有这些设置中，CL为我们提供了最好的结果。这种行为可以归因于这样的事实，即C损失迫使网络增加两者的相似性。我们的新的混合对比损失C（）自动学习从不同的面部区域提取的时间信号之间的相似性，用于对时间信号进行去噪它提高了性能，使所提出的方法优于国家的最先进的方法，但不幸的是，它是不称职的，在一些情况下。在验证失败情况时，我们观察到当输入剪辑在所有ROI中包含显著变形时，我们的方法提供了不正确的HR。在这种情况下，我们的方法也学习噪声和脉搏信号。5. 结论原始信号和增强信号。相反，Lo和一个工作完全在原来的和增强的信号，重新命名。而SNR和DF损失只对原始信号起作用，不考虑增广信号。此外，为了更好地理解损失的行为，我们通过同时采用两种损失的组合来执行实验SNR+CL、SNR+DF和DF+CL。利用信噪比和C损耗形成实验信噪比+CL同样，SNR+DF利用SNR和DF损耗，DF+CL利用DF和C损耗。该表表明，当我们同时使用对比度和MSNR损失时，性能得到改善，因为这两种损失通过学习和减轻来自时间信号的相似性特征和噪声来从时间信号中消除基于面部变形的噪声。从表中可以观察到，这些实验并不比所提出的方法表现得更好，因为我们提出的混合损失学习不同区域的时间信号之间的关系，最小化噪声并迫使网络预测类似于地面实况的信号。此外，实验LSTM-exp通过用LSTM网络替换所提出的方法中的CrPPG-Net来执行。结果表明，TCN比时序网络更适合于长时间信息序列的建模。在所提出的方法中，剪辑大小被设置为4秒。为了进行严格的分析，我们评估了所提出的方法对于不同持续时间剪辑的性能，并且相应的结果如图3所示图传统的rPPG方法无法处理基于面部变形的噪声，而基于深度学习的rPPG方法需要大规模标记数据来训练网络。所提出的方法，ALPINE，已经减轻了这些限制，利用CL。CL已经配备了我们的新网络来学习多个ROI的时间信号之间的相似性，而不使用标记的数据。这种学习促进了时间信号的去噪，并在数据样本中引入了多样性，以实现更好的网络泛化。我们的网络已经通过组合多个损失函数来训练，该损失函数使用对比损失来计算时间信号之间的相似性、SNR损失和数据保真度损失。在公开可用的 UBFC-rPPG 和COHFACE数据集上进行的实验表明，所提出的方法优于最先进的方法。此外，它已经证明，我们的新型网络可以减轻面部变形的问题，并且可以使用小规模标记数据来训练网络。此外，它表明，当SNR和数据保真度损失与我们提出的对比度损失相结合时，可以提高性能。在未来的工作中，我们将探索在无监督设置中利用基于变换的网络进行rPPG计算的可能性。鸣谢：本研究部分由SERB，DST支持，项目编号为SRG/2020/001383。阿努普·库马尔·古普塔的工作得到了印度政府教育部总理研究奖学金（PMRF）的部分支持5037引用[1] 白少杰，J.齐科.科尔特，弗拉德伦.科尔顿。序列建模的一般卷积和递归网络的经验评估。2018年12月18日，第1803.01271页。[2] Guha Balakrishnan，Fredo Durand，and John Guttag.从视频中的头部运动中检测脉搏。在计算机视觉和模式识别中，第3430-3437页[3] Lokendra Birla和Puneet Gupta。AND-rPPG：一种用于改善远程心率估计的新型去噪rPPG网络生物学和医学中的计算机，第105146页，2021年。[4] Lokendra Birla和Puneet Gupta。PATRON：探索来自非接触式面部视频的呼吸信号，用于面部反欺骗。专家系统与应用，第115883页，2021年。[5] Lokendra Birla ， Puneet Gupta ， and Shravan Kumar.SUN-RISE：使用抢占式分割和合并改进短视频的3D面具面部反欺骗。IEEE Transactions on Dependency andSecure Computing，2022。[6] Serge Bobbia 、 Richard Macwan 、 Yannick Benezeth 、Alamin Mansouri和Julien Dubois。用于远程光电体积描记术的无监督皮肤组织分割 Pattern RecognitionLetters，124：82[7] Sylvain Boltz，Eric Debreuve，and Michel Barlaud.用于感兴趣区域跟踪的高维统计测量。IEEE Transactions onImage Processing，18（6）：1266[8] 埃里克·布塞夫萨夫、阿兰·普鲁斯基和乔贝拉·马维。用于远程脉搏率测量和面部视频映射的3D卷积神经网络应用科学，9（20）：4364，2019。[9] Christoph Bruser ， Christoph Hoog Antink ， TobiasWartzek，Marian Walter，and Steffen Leonhardt.环境和非侵入性心肺监测技术。IEEE Reviews in BiomedicalEngineering，8：30[10] Weixuan Chen和Daniel McDuff. Deepphys：使用卷积注意力网络的基于视频的生理测量欧洲计算机视觉会议，第349-365页[11] Umur Aybars Ciftci，Ilke Demir，and Lijun Yin.假-捕手：使用生物信号检测合成人像视频。 IEEETransactionsonPatternAnalysisandMachineIntelligence，第1-1页[12] 戴波和林大华。图像加帽的对比学习。神经信息处理系统的进展，30，2017。[13] 杰拉德·德·哈恩和文森特·珍妮。来自基于色度的rPPG的稳健脉搏率 IEEE Transactions on BiomedicalEngineering，60（10）：2878[14] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在 InternationalConference on Computer Vision，第1422- 1430页[15] MichalDrozdzal、 EugeneVorontsov、 GabrielChartrand、Samuel Kadoury和Chris Pal。跳过con的重要性生物医学图像分割中的关联。在深度学习和医学应用的数据标签中，第179187.施普林格，2016年。[16] Haoyuan Gao，Xiaopei Wu，Jidong Geng，and Yang Lv.基于信号质量注意网络的远程心率估计。在计算机视觉和模式识别，第2122-2129页[17] 约翰·吉迪恩和西蒙·斯坦特从未标记的视频估计心率。在国际计算机视觉会议上，第2743-2749页[18] 约翰·吉迪恩和西蒙·斯坦特通往我内心的方法是通过对比学习：来自未标记视频的远程光电容积描记术。在国际计算机视觉会议上，第3995-4004页[19] Ian Goodfellow Yoshua Bengio和Aaron Courville深度学习麻省理工学院出版社，2016.[20] Anup Kumar Gupta ， Puneet Gupta 和 Esa Rahtu 。FATALRead-Fooling视觉语音识别模型。应用情报，52（8）：9001[21] 普尼特·古普塔MERASTC：使用有效的特征编码和2D卷积神经网络进行微表情识别。IEEE Transactions onAffective Computing，2021。[22] Puneet Gupta，Brojeshwar Bhowmick，and Arpan P.A.使用基于质量的融合从人脸视频中精确估计心率。在图像处理国际会议上，第4132-4136页[23] Puneet Gupta，Brojeshwar Bhowmick，and Arpan P.A.欧拉和拉格朗日方法的串行融合，用于使用人脸视频进行准确的心率估计。在医学和生物学社会工程，第2834-2837页[24] Puneet Gupta，Brojeshwar Bhowmick，and Arpan P.A.探讨基于人脸视频的瞬时心率用于微表情识别的可行性。在计算机视觉和模式识别研讨会上，第1316[25] Puneet Gupta，Brojeshwar Bhowmick ，and Arpan P.A.MOMBAT：使用脉搏建模和贝叶斯跟踪的人脸视频心率监测。生物学和医学中的计算机，121：103813，2020。[26] Puneet Gupta，Brojeshwar Bhowmik，and Arp

下载后可阅读完整内容，剩余1页未读，立即下载