没有合适的资源?快使用搜索试试~ 我知道了~
4976RADIANT:使用信号嵌入和Transformer更好地估计rPPG印度理工学院{msrphd2105101002,ms2004101008,phd1901201001,puneet} @ iiti.ac.in摘要远程光电体积描记术可以通过分析从面部视频获得的肤色变化来提供非接触式心率(HR)估计这些变化是细微的,人眼无法察觉,并且容易受到噪声的影响。现有的基于深度学习的rPPG估计器由于三个原因而不胜任。首先,即使不同的人脸区域包含不同的噪声特性,它们也能利用整个人脸的信息来抑制噪声其次,局部噪声特性固有地影响卷积神经网络(CNN)架构。最后,CNN顺序架构无法保持长时间的依赖性。为了解决这些问题,我们提出了辐射,即rPPG估计使用信号嵌入和Transformer。我们的架构利用了多头注意机制,有利于特征子空间学习,以提取多个颜色之间的变化,对应于周期性脉冲。此外,其全局信息处理能力有助于抑制局部噪声特性。此外,我们提出了新的信号嵌入,以增强rPPG的特征表示和抑制噪声。我们还通过添加新的训练集来改进我们的体系结构的泛化。为此,探讨了合成时间信号和数据增强的有效性。广泛使用的rPPG数据集上的实验表明,我们的 架 构 优 于 以 前 众 所 周 知 的 架 构 。 代 码 :https://github.com/Deep- Intelligence-Lab/RADIANT.git1. 介绍心脏不断地泵送血液通过心脏帽,并引起周期性的心血管脉搏通过身体。 一分钟内诱发的脉冲数称为心率(HR)。HR估计对于衡量一个人的健康很重要[21]。 它是心脏相关问题和心理健康状态的主要指标,包括压力,抑郁,焦虑和兴奋[21]。非侵入性HR估计技术包括心电图(ECG)、心冲击图(BCG)和光电体积描记法(PPG)。这些技术需要与皮肤表面接触,并导致连续HR估计不适[61]。因此,它们对皮肤损伤患者、患有严重皮肤感染的患者、运动监测和新生儿监测的适用性有限相比之下,远程光电容积描记术(rPPG)是一种非接触式HR估计方法,其利用非接触式面部视频来估计心血管脉搏。由于它避免了传感器和皮肤之间的任何接触,因此它可以用于无法使用基于接触的PPG 方 法 的 应 用 中 , 例 如 困 倦 驾 驶 员 检 测 [53] ,deepfake检测[25,54],面部反欺骗[4,5],微表情识别[16],微表情[2019 - 05 - 19]在正在进行的SARS-CoV-2大流行中,rPPG可用于自动HR估计,并为需要紧急和关键远程医疗的患者提供支持。这促使我们提出一种基于rPPG的准确的HR估计方法。rPPG方法分析面部皮肤下方颈动脉中血流量的变化[21]。这些变化会引起人眼无法察觉的细微肤色变化[34]。然而,摄像机能够捕捉到这些变化。在受控环境中获取的面部视频提供相关的rPPG信息,从而导致正确的HR估计。然而,在真实场景中,这些视频受到由于面部运动、照明变化[51]和其他伪影引起的噪声的影响,因此导致伪HR估计[22]。基于rPPG的HR估计首先需要提取相关面部区域,称为感兴趣区域通常,在ROI中分析颜色变化,并且对应的信号被称为时间信号。通过对面部ROI中的像素值进行平均[39]或从连续视频帧中减去像素值[9]来获得时间信号。最终,使用领域特定的知识来提取时间信号中存在的心血管脉搏为此目的,[45]和[2]采用盲源分离(BSS)和最大周期性准则进行HR估计[45]。4977不幸的是,当时间信号包含周期性噪声时,它们的HR估计是错误的除了特定领域的知识之外,可以使用深度学习来执行基于rPPG的例如,[9,43]已经利用基于卷积神经此外,AND-rPPG [3]已经使用时间卷积网络进行脉搏估计。此外,在[39]中使用CNN和序列架构的组合进行rPPG估计。不幸的是,这些架构的性能可能会受到持续在小的面部区域中的轻微面部运动的影响,即使持续时间很短。这种行为归因于CNN的局部特征编码[31]。此外,顺序架构不能提供正确的HR估计,因为这些架构无法对长时间依赖性进行建模[13,37]。这些问题通过采用[30]中的双流Transformer架构得到缓解然而,用于去噪的背景颜色变化无法提供有效的噪声表示[32]。此外,当使用帧差提取时间信号时,[30]需要许多特征相应架构的适当训练需要大规模数据集来缓解欠拟合问题[7]。然而,可用于训练的数据集具有有限的训练数据,这限制了基于帧差的时间信号提取的适用性。本文提出了一种新的基于rPPG的心率估计方法--RADIANT,即利用信号嵌入和Transformer的rPPG估计方法。我们通过对ROI中的肤色变化进行平均来获得时间信号此外,我们利用Transformer架构来估计脉冲,因为它可以学习全局上下文并有效地减轻局部噪声[56]。我们的主要贡献是:(1)我们提出的rPPG架构利用多层感知器(MLP)将时间信号投影到信号嵌入和Transformer架构的注意力处理能力。使用MLP的线性投影提供了对rPPG信息的相关特征表示的适当学习,而Transformer架构有效地执行去噪和心血管脉搏估计。(2)为了缓解训练数据有限的问题,我们探索了使用合成时间信号预训练我们的Transformer架构[39]和数据增强[42]。两者都以时间有效的方式执行,并且观察到它们通过允许域自适应来提高性能。(3)我们的实验结果表明,我们在公开的数据集上获得了2. 相关作品2.1. 基于领域知识的rPPG方法基于rPPG的HR估计可以通过利用领域知识来执行有关估计涉及以下步骤:ROI检测、空间滤波、时间信号提取和脉搏信号估计。通常,采用颜色变化来定义时间信号。在RGB颜色中,绿色通道在[57]中被示出为最适合rPPG信息提取相反,RGB颜色信号的色度子空间变换用于[10]中的脉冲估计此外,BSS在[45]中用于脉冲估计。最终,HR由脉搏信号的傅立叶功率谱中的峰值频率给出[3]。上述方法不能区分脉搏信号和噪声,因为它们利用手工制作的表示来对噪声进行建模,并且它们缺乏适当的监督来理解由面部运动引起的噪声属性[61]。2.2. 用于rPPG的CNN架构已被广泛用于基于rPPG的HR估计,因为它们允许特征子空间映射,对特定领域知识的要求最低。例如,[27]将色度信号的时频表示馈送到VGG 15[50]中进行HR估计。在[46]中使用了可分离的CNN架构,用于根据颜色变化的时空特征表示进行脉冲信号估计。[40]采用回流神经网络(RNN)对时间信号之间的时间依赖性进行建模,以估计HR。ETA-rPPGNet[28]利用时间域子网来解决冗余rPPG信息和轻微面部变形引起的噪声问题。此外,[9,35]中的rPPG方法已经利用端到端架构来从面部视频中提取相关的rPPG信息。[9]中的方法将归一化帧差馈送到CNN中以进行HR估计。类似地,在[41]中采用编码器-解码器架构来学习噪声和rPPG信息。训练这些巨大的架构是具有挑战性的,并且它往往在小规模数据集上拟合不足[7]。时间差CNN在[36]中用于捕获时间颜色变化并生成适当的信号表示。在[39]中探索了基于rPPG的HR估计中合成时间信号生成的重要性可以有效地生成合成信号以用于使用周期性正弦曲线和随机噪声的预训练。CNN或顺序架构需要大量的不同数据集以缓解欠拟合[7]。此外,如果采用顺序架构[40],它们无法从面部区域学习全局信息,并且无法对长时间依赖性[18]进行建模。4978kj,1,k,j,2,. . .,kj、f2.3. 注意机制与TransformerTransformer架构在[56]中提出用于自然语言翻译。它利用多头注意机制模拟句子中单词之间复杂的全局上下文依赖关系。Transformer架构由于适当的建模而取得的巨大成功使其适用于各种自然语言处理任务[11,14,15]。使用Vision Transformer(ViT)[12]进一步探索了这些架构在图像分类任务中的适用性,并在此方向上检查了性能改进。它扩散了研究,揭示了Transformer架构对计算机视觉应用的有效性[55,8]。基于rPPG的HR估计没有什么不同。它的目标是从多个时域信号中估计出脉搏信号,其中每个时域信号主要包含被噪声污染的脉搏信号。因此,脉冲信号导致时间信号之间的强相关性,这是Transformer架构可以容易地学习的。例如,[30]中提出的TransPPG将从帧差中提取的时间信号馈送到Transformer架构以用于估计脉冲信号。类似地,[47]已经利用Transformer架构[56]来估计来自面部视频的脉冲信号。请注意,当相应的时间信号包含显著的噪声时,这些估计的脉搏信号可能是错误的。此外,这些方法需要使用有限的训练数据进行大的参数学习以进行相关的脉搏信号估计。这种情况导致欠拟合问题,从而降低功效[7]。3. 该方法本节介绍了我们提出的基于rPPG的HR估计方法RADIANT。图1显示了我们提出的方法的流程图。最初,识别面部区域并将其划分为多个R0I。随后,从这些ROI中提取时间信号,并应用色度子空间变换[10]以减轻运动和亮度的影响随后,应用MLP层以将所得时间信号投影到信号嵌入中。最终,Transformer架构利用信号嵌入进行脉冲估计。3.1. 视频剪辑提取对于HR估计,视频被划分成多个剪辑。我们已经在具有4秒的窗口的视频剪辑上利用了非重叠窗口用于HR估计。这种划分克服了由于在小的时间间隔内缺乏完整的脉冲信号而导致的信息损失[28]。的3.2. 时间信号采集3.2.1ROI提取我们的第一步是定义一个固定的ROI,从输入视频剪辑提供相关的rPPG信息。相关的rPPG信息存在于面部皮肤区域中。因此,我们采用面部界标点来勾勒面部的边界,包括其子部分,如眼睛,嘴唇和鼻子。使用CLNF Openface 2.2.0界标检测器[62]针对第一视频帧提取这些界标点,因为计算每个视频帧的界标点是时间昂贵的[18]。它提供了68个标志点。由于眼睛附近的区域往往容易受到面部表情的影响,因此我们在定义ROI时避开它们[3]。类似地,避免前额区域,因为其通常被毛发覆盖以在相应的时间信号中引起噪声[61]。我们主要使用眼睛下方包含脸颊的区域来获得时间信号。通过计算界标点的凸包来获得包含相关rPPG信息的期望面部区域:1)左脸颊的2、3、4、5、6,2)右脸颊的12、13、14、15、16,3)鼻子的29,以及4)下巴的7、8、9、10、11。在[3]中观察到,面部边界易于从最小面部变形发生显著的时间变化因此,我们采用形态学操作来去除类似于[62]的边界像素。为了更好的可视化,请参考柔软的材料。我们可以从整张脸中提取时间信号区域,但是在小的面部区域中引起的噪声影响所得到的时间信号。因此,在[18]中建议将区域划分为较小的ROI,从这些ROI中提取时间信号,然后合并用于脉搏估计的信号。遵循这种类似的路径,我们将获得的面部区域划分为相同大小的小的非重叠正方形块在正方形块中,我们只考虑所有像素都属于皮肤像素的那些正方形块作为ROI。使用[44]中描述的方法检测皮肤像素。我们使用[22]中描述的方法来选择正方形块的最佳大小,同时减轻不同面之间的尺度差异的影响3.2.2时域信号提取在两个步骤中执行时间信号提取:RGB信号的提取和色度信号的投影。RGB信号通过对来自面部ROI的红色、绿色和蓝色通道的像素值求平均来获得。在数学上,表示第j个ROI的红色通道信号的时间信号rj由下式给出:. 阿布尔克用于获得20秒视频的HR。rj=pj,1阿布尔克pj,2克雷什pj,f(一)为5个连续视频剪辑估计的HR的平均值为49792019年10月 24日,中国人民银行(&j,i·输入视频一个接一个ℎ���1,ℎ���$,ℎ���,ℎ���4,ℎ���(meanℎ���)i*+o图1.我们提出的方法RADIANT的流程图。其中,rk是指红色通道的强度,m个提取的时间信号中的n个第i帧的第jROI中的第k像素。类似地,分别从绿色和蓝色通道强度获得时间信号gj和bj第i帧的第j个ROI中的像素的总数由pj,i表示,并且视频剪辑中的帧的总数由f表示。然后使所获得的RGB信号通过带通滤波器以获得经滤波的信号,bj和g数学上:rj=bp ( rj ) , gj=bp ( gj ) , bj=bp ( bj )(2)其中,Rbbp()是4阶巴特沃斯带通滤波器[60]抑制任何信号分量,到HR范围之外的频率(0. 7 Hz至4. 2Hz)[3]。然后将这些RGB信号投影到色度信号中,以最小化噪声伪影并抑制镜面反射[10]1。更多关于Chrominance Trans的信息nals。n的值被选择为使得每个视频剪辑包含至少n个ROI。为了选择时间信号,我们使用的观察,一些提取的时间信号受噪声的影响,由于面部运动。例如,由于微笑而引起的运动通常影响从嘴唇附近的区域获得的时间信号,同时使其他ROI不受影响。因此,我们选择那些受面部变形影响最小的n个时间信号。为此,我们利用了具有面部运动的面部区域将具有大的肤色变化的直觉,从而导致所提取的时间信号的幅度的大的标准偏差因此,具有较小标准偏差的时间信号将提供更好的rPPG信息。因此,我们选择具有较高质量分数的那些前n个时间信号,其中对应于时间信号cj的质量分数由下式给出:在补充材料中提供了形成。使用去趋势滤波器对所得到的时间信号进行滤波qualityj1=σ(cj)(三)以减轻由于照明变化引起的噪声[21]。3.3. 信号嵌入3.3.1时间信号选择假设(c1,c2,. . . 是从m个面部ROI获得的时间信号。请注意,不同的视频剪辑会产生不同数量的ROI。也就是说,m的值取决于输入剪辑。通常,深度学习架构需要固定大小的输入。因此,我们选择1码https://github.com/phuselab/pyVHR其中σ是指标准偏差算子。3.3.2MLP即使所选择的时间信号受噪声的影响最小,它们仍然可能导致错误的HR估计,因为它们包含噪声。因此,我们将时间信号投影到信号嵌入(e1,e2,. . .,en)的更高维度的映射。该投影允许足够的表示子空间用于学习相关的rPPG特征并执行去噪。此外,我们将利用拉吉i可学习嵌入MLP信号嵌入卢01$…峰值检测HR估计Transformer脉冲信号估计时间信号MLP选择信号嵌入ROI信号提取提取时域信号采集ROI提取1$卢恩0脉冲信号峰值频率检测时间信号RGB信号辐射………………Transformer第1Transformer第2Transformer层LMLP4980.Σ·∈−·∈∈∈∈∈∈√∈用 于 脉 冲 估 计 的 Transformer 架 构 。 该 架 构 由 多 个Transformer层组成,这些层需要相同维度d的输入向量。我们希望通过使用Im-ageNet [48]数据集进行预训练来受益于有效的权重初始化因此,我们将维度设置为其中,W Q,W K和W V是可学习的权重。信号嵌入之间的相关性由通过以下方式获得的注意力分数反映:Q KT(五)768,因为预先训练的权重需要大小768的输入。SA=softmaxVDQ我们利用一个可学习的MLP层与768输出节点的时间信号cj投影到一个嵌入ej,j = 1,2,. . . ,n. 请注意,我们的投影确保嵌入中的rPPG信息仅取决于对应的时间信号,同时保持不受其他时间信号的影响。选择这种投影的原因是,当嵌入依赖于多个时间信号,则来自具有较高噪声的时间信号的信息很容易影响嵌入,导致不正确的HR估计[3]。最后,受[12,11]中架构使用分类标记的启发,我们预先添加了一个可学习的嵌入e0R1×d,学习脉搏信号的特征表示。3.4. 脉搏信号估计3.4.1Transformer架构每个信号嵌入包含来自脉搏信号、其他生理参数和噪声的特征的组合。因此,我们需要从信号嵌入中合并和过滤rPPG信息以用于正确的脉搏信号估计。为此,我们采用了Transformer架构。Transformer架构利用自注意机制来合并来自输入组件的特征信息[31]。自我注意机制学习信号嵌入之间的上下文依赖性,允许我们的架构学习用于贡献rPPG信息的相关性。随后,使用两层MLP [31]转换合并的rPPG特征这种组合允许Transformer架构去噪并整合rPPG特征以进行正确的脉搏信号估计。自我注意机制是Transformer的构建块对于每个信号嵌入ej,它计算一个其中,对于给定的信号嵌入,计算其查询与所有键之间的点积。结果值由dq的平方根缩放,然后进行软最大运算。与每个嵌入相关联的所获得的分数将它们变换成来自所有信号嵌入的特征的加权和。在有助于rPPG信息的信号嵌入之间存在多种关系为了封装这种关系,Transformer体系结构采用了多头自注意(MSA)机制,如自然语言处理[11]和计算机视觉[12]应用。MSA机制将查询、键和值转换为多个学习线性投影,对应于多个头h,用于对多个关系进行建模。随后,独立的自注意力计算使用等式5在相应的头中执行,得到SA0,SA1,. . . ,SAh−1. 请注意,在这里SAi对于i = 0,1,. . . ,h 1表示来自第i个磁头的输出。最后,为了整合信息,输出ob-从每个头部获得的数据被连接并使用可学习矩阵W0投影到d维向量中。也就是说,包含潜在向量的矩阵Z’由下式给出:Z′ =[SA0 , SA1 , . . ., SAh−1] W O , W OR(h·dv)×d(六)对应的潜在向量zj,它是加权和,所有的信号嵌入。这里,zj与e j具有相同的尺寸。为了获得这些对应的权重,信号嵌入ej被投影到查询(qj∈R1×dq)、键(kjR1×dk)和值(vjR1×dv)vec中。使用可学习的权重。或者,将包含所有信号嵌入的信号嵌入矩阵E Rn×d投影到矩阵中:QRn×dq、KRn×dk和VRn×dv分别对应于查询、键和值。也就是说,图2.Transformer层的插图然后将输出Z'馈送到LayerNorm(LN)层[1],然后是具有GELU激活函数的双层MLP [24]用于特征变换。在MLP输出之后放置剩余单个Transformer层的体系结构 请 注 意 , 有 多 个 Transformer 层 , 并 且 来 自Transformer层l的输出由下式给出:Q=E·WQ,K=E·WK,V=E·WV(四)Z1=MLP(LN(MSA(Zl−1)+Z l−1得双曲余切值.(七)WQ∈Rd×dq,WK ∈Rd×dk,WV ∈Rd×dvZ0=[e0,e1,. . . ,en]自我关注头自我关注头ConcatSelf-attention多头注意力Transformer层×L…输入图层规范线性层图层规范MLP4981·×××假设最后一个Transformer 层Z L的输出是(z0,z1,. . .,zn)。在这些向量中,向量(z1,z2,. . .,zn)包含有助于rPPG信息的细化的相关性。然而,向量z0包含从由其他潜在向量(z1,z2,. . .,zn)。我们在训练期间在估计的脉冲和地面实况之间使用均方误差损失函数。估计的和地面实况脉冲信号的尺寸因此,一个MLP头被附加到z0,将其转换为与地面实况相同尺寸的脉冲信号。3.4.2预训练由于缺乏诱导偏差,变压器在计算机视觉领域表现出较差的泛化能力[12];因此采用预训练来提高它们的泛化能力。在此之后,我们分两个阶段进行第一阶段在ImageNet数据集上执行预训练[48]。而第二阶段使用使用[39]中描述的方法生成的合成时间信号。为了简洁起见,使用正弦波获得合成信号。由于波应该表示周期性的心血管脉冲,因此它们的频率被设置在0. 7 Hz至4. 2Hz,对应于正常HR范围。此外,所生成的正弦波与另一个正弦波叠加,该另一个正弦波模拟具有5次/分钟(BPM)至20次/分钟(BPM)之间的周期性的呼吸节律、随机阶跃信号和高斯噪声。它刺激了嘈杂的变化。补充材料中提供了进一步的细节。在对合成数据集进行预训练之后,我们对公共rPPG数据集进行微调。3.4.3数据增强在 rPPG 数 据 集 中 , 大 多 数 样 本 的 HR 范 围 为 60-90BPM,导致数据分布不均匀。在这样的数据集上训练将使我们的体系结构偏向于包含此范围内的HR的样本。解决这个问题[42]已经描述了一种新颖的数据增强方法,包括视频的时间上采样和下采样,用于在训练数据集中提供适当的HR覆盖。或者,可以采用时间信号内插来获得相同的效果,并且这种内插防止处理视频帧的耗时步骤因此,我们已经利用这种技术来执行我们的数据增强。具体而言,我们通过将时间信号下采样2倍和3倍来生成具有更高HR范围的样本。类似地,我们通过对时间信号进行两次和三次上采样来生成具有较低HR值的样本。同时,我们也放弃了aug-分段样本,其HR值超出人类HR范围40-240BPM [3]。3.5. 心率估计从最后一个变换器层获得的原始脉冲信号(y)被带通滤波以去除其频率位于正常HR范围之外的任何信号分量。 我们已经在y上应用了带通滤波器rbp()(在3.2.2中描述),以获得干净脉冲信号y中的a。 然后,对脉冲信号y ′进行快速傅里叶变换(FFT),得到脉冲频谱(PS[freq])。注意,PS[freq]是频率freq处的脉冲频谱的幅度。对于视频剪辑i,HR由下式给出:hri=argmaxPS[freq] 60(8)freq请注意,如3.1节所述,20秒视频的HR是通过对从连续5个短视频剪辑获得的HR求平均而获得的。因此,20秒视频的最终HR估计由下式给出:hr视频=平均值(hr1、hr2、hr3、hr4、hr5)(9)4. 实验结果4.1. 数据集和指标我们提供了公共UBFC-rPPG [6]和COHFACE [26]数据集的评价结果。UBFC-rPPG数据集由42名受试者的2视频被记录在一个分辨率为640 - 480在8位RGB格式在30帧每秒的帧速率。我们将数据集分为训练集和测试集,其中28个主题的视频分为训练集,14个子主题分为测试集。COHFACE数据集包含40个受试者的面部视频以及他们的生理信息。每个视频以每秒20帧的速度记录1分钟为了报告我们的评价结果,我们报告了真实HR和估计HR之间的平均绝对误差(MAE)、标准差(σ)和均方根误差(RMSE)。4.2. 训练参数我们使用Adam优化器,学习率为310−4。 我们使用32的批量大小来使用合成时间信号预训练我们的架构。然而,为了进行微调,我们使用了4的批大小。我们已经执行了预训练和微调超过20和50个时期,分别。我们使用均方误差损失函数来训练我们的架构。4.3. 比较评价我们提供了我们的方法,RADI-ANT,与以前的rPPG方法在UBFC-rPPG和CO-HFACE数据集的比较请注意,我们使用了公开可用的代码和实验设置进行比较。此外,我们使用了标准的训练和测试分割4982表1.针对每个视频的平均HR变化的RADIANT性能评估。所有的值都在BPM中,如果所有的度量值都较低,则表示更好的性能。UBFC-rPPG COHFACEσMaeRMSEσMaeRMSE[58个]17.8915.9511.6522.3020.9725.98[45个]12.8006.9513.6013.8308.8914.55[10个国家]05.2103.2106.1411.6110.1512.69[18个国家]07.0006.1507.9208.1008.2711.31[19个]06.0205.0807.4207.9808.9710.84[33个]08.0006.5409.1111.5209.3112.27[9]第一章08.7306.2710.8209.0108.2514.71[五十二]05.2104.9005.8909.4608.1010.80[47个]08.1811.2813.9411.2419.6622.65我们03.4502.9104.5207.4108.0110.12如[52,26]中所描述的,用于公平比较。请注意,InstTrans [47]架构为100个视频帧提供HR估计心率。因此,为了从期望持续时间的视频剪辑获得HR,我们获得多个较小视频剪辑的HR估计的平均值,每个较小视频剪辑为100帧。表1显示了我们的结果。这表明我们的方法优于由2SR [58],ICA [45]和chrominance-rPPG[10]组成的早期作品,因为它们使用BSS来估计脉搏信号。这些技术无法去噪,因为它们利用手工制作的表示来建模噪声,并且缺乏监督限制了它们理解由面部运动引起的噪声特征的能力[61]。类似地,我们的方法提供了比AHRE [18]和Fusion-EL [19]更好的性能,因为它们还使用BSS来估计脉搏信号,这限制了它们提取脉搏信号属性的能力。此外,它们使用相同的约束来对时间信号ob进行去噪。表2.我们提出的方法的性能评估不同数量的ROI。所有的值都在BPMUBFC-rPPG COHFACEROIsσMAE RMSEσMAERMSE8 07.64 05.4509.39 09.40 11.33 14.7210 04.99 04.55 06.75 07.67 09.60 12.2912 03.45 02.91 04.52 07.41 08.0114 04.19 03.05 05.19 07.12 10.14 12.3916 05.00 03.23 05.96 08.04 10.85 13.73基于变换器的InstTrans架构[47],因为它们利用帧的差异来获得时间信号,并利用双流架构来识别具有重要rPPG信息的面部因此,它需要大规模的数据集来克服欠 拟 合 [7] 。 此 外 , 它 还 没 有 利 用 预 训 练 来 减 轻Transformer架构的不良电感偏置的影响[12]。相比之下,我们高效的时间信号嵌入、预训练和数据增强技术,以及基于变换器的架构,使我们的方法能够克服这些问题并提供正确的HR估计。4.4. 消融研究本小节介绍了训练参数对我们提出的架构RADIANT的影响,以及我们架构中不同组件的重要性。最初,我们在我们提出的方法中使用不同数量的ROI用于脉搏信号估计,并且结果报告在表2中。可以观察到,当ROI的数量增加时,功效首先改善。增加ROI的数量会增加时间信号的数量,从而允许对生理信号进行更好的特征表示学习。然而,包括更多的面部ROI也会导致噪声分量的增加,这将影响从所有面部ROI中提取。然而,不同的面部区域具有局部噪声源[3]。这个问题被我们提出的方法中采用的信号嵌入所缓解,因为来自特定面部区域的信号嵌入不受其他面部区域的影响。出于与上述相同的原因,我们获得了比基于深度学习的方法Deepphys [9]和HR-CNN [52]更好的性能,这是由于物理源的更好的表示建模。此外,上述基于CNN的架构受到由于小的面部运动而引起的短时间内的噪声的影响。然而,我们基于Transformer的架构能够缓解这些问题。这种行为归因于Transformers的全局处理能力。我们的方法优于META-rPPG [33] , 因 为 它 们 使 用 长 短 期 记 忆(LSTM)网络对rPPG信息进行建模,并且观察到LSTM架构易于丢失长序列的信息[13]。的 结果 指示 的 我们 方法优于我们建筑的性能。因此,我们获得了12个面部ROI的最佳结果,并观察到当使用超过12个ROI表3.所提出的方法在不同实验环境下的性能评价。 所有的值都在BPM中,如果所有的指标具有较低的值,则它们表示更好的性能。UBFC-rPPG COHFACEσMAE RMSEσMAE RMSE我们03.45 02.91 04.5207.41 08.01 10.12GS13.74 48.50 50.4111.26 17.76 21.03RGB13.76 46.46 48.4511.34 27.06 29.34NP08.13 07.7310.83 13.43 17.2607.98 06.1111.01 13.40 18.61转换07.73 06.25 08.7411.31 13.82 19.65表3给出了用于理解我们方法中不同组分的重要性的结果这些实验是通过修改所提出的方法,辐射。实4983验GS和RGB由下式形成4984×××质量评分= 7.16功率谱质量评分= 4.87功率谱中的多个峰值地面实况预测脉冲信号傅立叶功率谱脉冲信号傅立叶功率谱(a)正确的HR估计(b)H不正确暂估应收图3.(a)成功HR估计的示例和(b)不成功HR估计的示例分别用绿色和RGB通道的时间信号替换色度信号。结果表明,色度信号优于其他表示,因为它们抑制了运动和亮度变化的影响[10]。NP实验是通过将均方误差损失函数替换为负皮尔逊损失函数来创建的。结果表明,我们提出的方法优于NP实验,表明均方误差损失函数的性能优于负皮尔逊损失函数。在实验NS中,我们使用了我们的架构,没有预先训练。结果表明,我们获得更好的性能时,我们的Transformer是预先训练与合成的时间信号,因为合成信号提供了必要的域适应能力,我们的架构脉冲估计。类似地,通过用内核(7)的输入卷积层替换MLP投影层来形成实验卷积7)、步幅(22)和填充3如ResNet-18 [23]输入中所使用的。利用这样的投影导致嵌入的d-c维。因此,我们应用了一个额外的最大池化层,其内核和步幅为(1dc),以便我们通过Transformer层获得所需维度的信号嵌入。结果表明,当我们利用来自附近时间信号的信息进行使用卷积层的信号嵌入时,我们的表现很差。这是因为来自其他时间信号的噪声干扰rPPG信息。4.5. 讨论我们在图3中描述了通过我们提出的方法进行HR估计的示例图中比较了成功和失败情况下的预测和真实脉冲。第一行表示估计的脉冲及其傅里叶功率谱,第二行示出了地面真值。对于图3(a)中的成功情况,我们观察到估计的脉冲信号与地面实况很好地相关。然而,对于某些视频帧,我们观察到估计的脉冲信号与地面真实信号的偏差,因为这些帧包含由于面部运动而产生的轻微噪声。相比之下,在图3(b)中可以观察到大的面部移动对估计的脉搏信号的影响。相应时间信号的质量分数的比较表明,它是决定脉搏估计质量的重要参数。5. 结论现有的基于深度学习的rPPG方法在有限的数据集上拟合不足,并且在建模长时间依赖性方面失败,导致不正确的HR估计。为了缓解这些问题,我们提供了一种基于变压器的脉冲估计方法,RA-DIANT。该架构已受益于注意力处理能力的Transformer,允许建模,eling长时间的依赖性和有效的降噪,ING正确的脉冲估计。此外,它利用了MLP投影来获得信号嵌入,该信号嵌入为rPPG特征表示提供了足够的子空间。我们的实验证明了信号嵌入中rPPG信息的分离。我们已经研究了利用预训练和有效的数据增强技术来提高泛化能力的可能性。实验结果表明,我们的架构提供了更好的结果时,预训练的合成数据集。此外,它表明,数据扩充允许我们的架构,以推广以及在正常的HR范围。我们在广泛使用的数据集上的结果表明,我们的架构优于以前众所周知的rPPG方法。未来,我们将致力于通过自动化时间信号提取过程来提供端到端HR估计网络。鸣谢:本研究部分由SERB,DST支持,项目编号为SRG/2020/001383。阿努普·库马尔·古普塔的工作得到了印度政府教育部总理研究奖学金(PMRF)的部分支持4985引用[1] Lei Jimmy Ba、Jamie Ryan Kiros和Geoffrey E.欣顿。图层 规 范 化 。 arXiv 预 印 本 arXiv : 1607.06450 ,abs/1607.06450,2016。[2] GuhaBalakrishnan,Fr e'doDurand,andJohnV. Guttag. 从视频中的头部运动中检测脉搏。在IEEE计算机视觉和模式识别会议上,第3430-3437页IEEE,2013。[3] Lokendra Birla和Puneet Gupta。AND-rPPG:一种改进远程心率估计的新型去噪rPPG网络生物学和医学中的计算机,第105146页,2021年。[4] Lokendra Birla和Puneet Gupta。 PATRON:探索来自非接触式面部视频的呼吸信号,用于面部反欺骗。专家系统与应用,187:115883,2022。[5] Lokendra Birla , Puneet Gupta , and Shravan Kumar.SUN-RISE:使用抢占式分割和合并改进短视频的3D面具 面 部 防 欺 骗 IEEE Transactions on Relendable andSecure Computing,2022。[6] Serge Bobbia 、 Richard Macwan 、 Yannick Benezeth 、Alamin Mansouri和Julien Dubois。用于远程光电体积描记术的无监督皮肤组织分割模式识别信函,第82-90页[7] 埃里克·布塞夫萨夫、阿兰·普鲁斯基和乔贝拉·马维。3D卷积神经网络用于面部视频的远程脉搏率测量和映射应用科学,9(20):4364,2019。[8] Nicolas Carion、 Francisco Massa 、 Gabriel Synnaeve 、Nico-lasUsunier 、 AlexanderKirillov 和 SergeyZagoruyko。使用Transformers进行端到端对象检测。在欧洲计算机视觉会议上,第213-229页。Springer,2020年。[9] Weixuan Chen和Daniel McDuff.DeepPhys:使用卷积注意力网络的基于视频的生理测量。欧洲计算机视觉会议,第349-365页。Springer,2018.[10] 杰拉德·德·哈恩和文森特·珍妮。来自基于色度的rPPG的稳健脉搏率。IEEE生物医学工程学报,第2878-2886页[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT:用于语言理解的深度双向变换器的预训练计算语言学协会北美分会会议:人类语言技术,第4171-4186页,2018年。[12] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片值16x16字:大规模图象识别的变换器. 2020年学习表征国际会议[13] Anup Kumar Gupta , Puneet Gupta 和 Esa Rahtu 。FATALRead-Fooling视觉语音识别模型。应用情报,第1-16页[14] Anup Kumar Gupta,Vardhan Paliwal,Aryan Rastogi和Puneet Gupta。TRIESTE:基于翻译的文本防御分类器环境智能和人性化计算杂志,第1-12页[15] Anup Kumar Gupta,Aryan Rastogi,Vardhan Paliwal,Fyse Nassar和Puneet Gupta。D-NEXUS:使用摘要保护文本网络。电子商务研究与应用,2022.[16] 普尼特·古普塔MERASTC:使用有效特征编码和2D卷积 神 经 网 络 的 微 表 情 识 别 。 IEEE Transactions onAffective Computing,第1-1页[17] 普尼特·古普塔PERSIST:使用更好的特征编码和多尺度高斯tcn改进微表情定位。应用情报,第1-15页[18] Puneet Gupta,Brojeshwar Bhowmick,and Arpan P.A.使用基于质量的融合从人脸视频中精确估计心率。图像处理国际会议,第4132-4136页。IEEE,2017年。[19] P
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功