合成多样化人脸视频与容积描记生理学数据集的方法及其在生理测量中的应用

95 浏览量更新于2023-10-25 收藏 20.49MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

205870合成面部视频与容积描记生理学0Zhen Wang 1 * , Yunhao Ba 1 * , Pradyumna Chari 1 , Oyku Deniz Bozkurt 1 , Gianna Brown 2 , Parth Patwa 1 , Niranjan Vaddi3 , Laleh Jalilian 4 , and Achuta Kadambi 1 , 301 UCLA电气与计算机工程系02 UCLA生物工程系03 UCLA计算机科学系04 UCLA麻醉与围手术医学系0{zhenwang, yhba, pradyumnac}@ucla.edu, achuta@ucla.edu0摘要0在远程光电容积描记法（rPPG）的推动下，非接触式生理测量的进展开始提供一条可行的道路。不幸的是，rPPG的数据集有限，因为它们需要人脸视频与医疗级健康监测仪器提供的同步心率数据进行配对。令人担忧的是，这些数据集不包含多样化的人口群体，即当前真实的rPPG人脸视频数据集在种族或肤色方面不平衡，导致不同人口群体的准确性差异。本文提出了一种可扩展的基于生物物理学学习的方法，可以根据任何参考图像和目标rPPG信号生成生理逼真的合成rPPG视频，并表明它可以进一步改进最先进的生理测量方法并减少不同群体之间的偏差。我们还收集了最大的rPPG数据集（UCLA-rPPG），其中包含多种肤色的受试者，希望这可以成为该领域不同肤色的基准数据集，并确保该技术的进展可以使所有人受益于医疗公平。该数据集可在https://visual.ee.ucla.edu/rppg_avatars.htm/上获取。01. 引言0光电容积描记法（PPG）是一种通过检测经皮肤反射或透射的光来测量血容量脉搏（BVP）等生命体征的光学技术。基于摄像头视频的远程光电容积描记法（rPPG）相对于传统的PPG方法具有几个优点。它是非接触的，因此可以在新生儿监测等广泛应用中使用[15，41]。它不会引起皮肤刺激并且可以防止0* 相等贡献。0数据集＃受试者＃视频 Demo. 多样性 Orig. 视频免费可用0AFRL [10] 25 300 � �0MMSE-HR [45] 40 102 � �0UBFC-rPPG [6] 42 42 � �0UBFC-Phys [25] 56 168 � �0VIPL-HR [26] 107 3130 � �0Dasari等[8] 140 140 � �0我们的合成方法 480 480 高 �0表1.rPPG真实数据集与我们提出的合成数据集的比较。真实数据集受到受试者和视频数量以及人口多样性的限制，而合成数据集可以轻松控制这些属性。0对于那些皮肤脆弱且对粘着式感应电极敏感的人来说，使用光电容积描记法存在感染的风险。由于摄像头现在在电子设备中普遍存在（如智能手机、笔记本电脑），因此rPPG可以应用于远程医疗，患者可以在家中进行，无需设置设备[1]。基于摄像头的rPPG技术也被用于其他应用，如驾驶员监测[30]和人脸反欺诈[19]。传统的rPPG方法要么使用盲源分离（BSS）[17，36，37]，要么基于皮肤反射[9，16，43]的模型将脉搏信号从脸部的颜色变化中分离出来。这些方法通常需要进行预处理，如人脸跟踪、注册和皮肤分割。最近，深度学习和卷积神经网络（CNN）由于其表达能力和灵活性而更受欢迎[7，20，21，27，28，44]。CNN通过对标记数据集进行端到端的监督训练来学习脉搏信号与颜色变化之间的映射，从而在生命体征检测方面实现了最先进的性能。然而，数据驱动的rPPG网络的性能取决于数据集的质量[31]。有一些努力（如表1所示）在收集ssDifferent PDiverse Skin Varied Lighting OUR SYNTHETI 205880多0我们0不同的姿势0多0多样的光照条件0我0有0多样的肤色0我们的真实数据集0姿势0肤色0条件0C数据集0有限的肤色0UBFC数据集0图1.我们提出的可扩展模型可以生成具有不同属性（如姿势、肤色和光照条件）的合成rPPG视频。相比之下，现有的真实数据集（例如UBFC）只包含有限的种族。0为了更好地进行生理测量，我们需要收集大量的rPPG数据集。然而，收集用于医疗目的的真实患者数据存在一些实际限制。这些限制包括：（1）社会中的人口统计偏见（如种族偏见）会转化为数据。正如[5]所指出的，由于原住民的肤色在其肤色世界地图中的地理分布，一些国家/地区可能无法获得多样化的rPPG数据集。（2）需要使用侵入性/半侵入性的传统方法来收集数据，（3）患者隐私问题，以及（4）需要医疗级传感器来生成数据。因此，迫切需要“数字患者”的概念：能够准确反映生理情况的图形渲染。我们在rPPG领域提供了这样一个神经渲染实例。几十年来，计算机图形学一直是电影和游戏中所见视觉效果的推动力。想象一下，如果我们能够利用计算机图形学技术创造出不仅仅是逼真的人类，而是生理逼真的人类。我们结合图像和波形的模态来学习生成一个能够反映输入波形所指定的潜在血容量变化的逼真视频。我们通过对从3D形态可塑脸部模型（3DMM）[11]获得的UV颜色图进行可解释的操作来实现这一目标。如图1所示，我们的模型可以生成具有各种属性（如面部外观和表情、头部运动和环境光照）的rPPG视频。01.1. 贡献0我们的贡献总结如下：0•我们提出了一种可扩展的基于物理的学习模型，可以以高保真度渲染出与潜在血容量变化相关的逼真rPPG视频。0• 合成生成的视频可以直接利用0为了提高最先进的深度rPPG方法的性能，已经提出了一些方法。值得注意的是，相应的渲染模型也可以用于生成代表少数群体的数据，这为进一步减轻rPPG框架中的人口统计偏差提供了一种有效的方法。0•为了促进rPPG研究，我们发布了一个名为UCLA-rPPG的真实rPPG数据集，其中包含多样的肤色。该数据集可用于在该领域中不同人口统计群体之间进行性能评估。02. 相关工作0rPPG方法：rPPG技术旨在通过相机捕捉到的微小颜色变化来恢复与心率同步的皮肤血容量变化。信号分解方法包括[17]，它利用主成分分析（PCA）对原始迹线进行分解，并选择具有最大方差的分解信号作为脉搏信号，以及独立成分分析（ICA）[23，36]，它对原始信号进行解混并确定具有最大周期性的分离信号作为脉搏信号。PCA和ICA是纯粹的统计方法，不使用任何与rPPG问题相关的先验信息。提出了一种基于色度的方法（CHROM）[9]，它通过假设标准化的肤色来平衡图像，并线性组合色度信号来提取血容量脉搏。皮肤色调正交平面（POS）[43]将时间归一化的原始迹线投影到与光强度变化正交的平面上，从而消除了光强度变化的影响。由于其灵活性，卷积神经网络（CNNs）在生命体征检测方面取得了最先进的结果[5，7，20，21，27，28，44]。与传统方法手工设计特征不同，rPPG估计的表示可以通过使用带注释的数据集以端到端的方式进行高效学习。我们在实验中使用了两个代表性的工作PhysNet [44]和PRN[5]，以展示rPPG模型在真实和合成数据集上的性能。0真实rPPG数据集：有许多努力收集真实数据集以获得更准确的生理感知[6, 8, 10, 25, 26,45]。然而，这些数据集通常在受试者参与人数上非常有限，并且对某些人口统计群体有偏见。一些工作包括具有较深肤色类型的受试者，但数量仍然非常有限[45]。在医学领域，使机器学习方法公平对待越来越受关注[14,46]。缺乏一个基准数据集来衡量各种rPPG方法在不同肤色，特别是深色肤色的性能上的困难，使得难以确保部署到社会中的rPPG方法不会对某些少数群体产生偏见。我们的真实数据集代表了填补这一空白的第一步。.........2058903D网格0随机运动0L SH , c0合成0rPPG视频0随机0PPG0随机图像0PPG UV图0渲染器0分解0重建0输入输出0时间0PPG信号0时间0PPG信号0图2.我们的跨模态合成生成模型的流程，可以根据任何面部图像和目标rPPG信号生成rPPG面部视频。输入图像被编码为UV反照率图、3D网格、照明模型L SH 和相机模型c。然后，我们将UV反照率图分解为血液图，根据目标rPPG信号变化调整UV血液图，并生成修改后的PPGUV图。包含目标脉冲信号变化的修改后的PPG UV图与L SH 和c结合，以随机运动渲染最终帧。0然而，实际视频并没有共享，而是共享了皮肤感兴趣区域的颜色空间值。目前表现最好的深度学习算法需要大量的输入数据。在这样一个有偏见的数据集上训练的rPPG模型可能会对数据集中的某些少数群体造成不利影响。缺乏这样一个基准数据集来系统地和严格地评估各种方法在不同肤色上的性能，特别是在rPPG领域的深色肤色上，使得难以确保部署到社会中的rPPG方法不会对某些少数群体产生偏见。我们的真实数据集代表了填补这一空白的第一步。0合成rPPG视频的生成：真实的rPPG数据集构建是一个费时费力的过程，通常需要大量时间用于收集和行政工作以获得机构审查委员会（IRB）的批准。因此，有一种可扩展的方法可以生成大规模的合成rPPG数据集以进行数据增强是很有诱惑力的。鉴于这一困难，有几个团队正在努力生成合成的rPPG面部视频以增强真实数据[5, 24, 32,40]。Mcduff等人[24]提出使用面部化身渲染rPPG面部视频，并使用Blender模拟血容量的变化。然而，正如他们方法的局限性所讨论的那样，渲染一帧的速度非常慢（每帧20秒），从而阻止了大规模视频的合成生成。创建流水线的初始开销也是昂贵且劳动密集的。在[5]中提出了一种肤色增强方法，他们使用生成性神经网络将浅色肤色转换为深色肤色，同时保留脉冲信号，以便在深色肤色上具有良好的性能。0通过增强数据集，可以改善肤色不平衡的问题。与其他rPPG信号增强方法[40]类似，它们都有局限性，只能在当前数据集上使用，并且必须使用新数据集进行重新训练。相比之下，我们的合成生成方法可以根据任何野外图像和目标rPPG信号生成多样的外观，而生成过程仅仅是神经网络的前向传递。03.方法0在本节中，我们提出了一种可扩展的方法，可以根据给定的参考图像和目标rPPG信号生成合成数据集（见第3.1节）。生成的视频可用于训练最先进的rPPG网络，我们将在第3.2节中介绍。03.1.合成生物逼真的面部视频0我们首先描述用于获取面部反照率图的3DMM模型，然后演示如何通过分析皮肤中的光传输进一步获取面部血液图。本节还提供了如何使用分解的血液图和输入面部图像和PPG波形的来源生成合成面部视频的详细信息。请参见图2，了解整个合成生成流程的示意图。0非线性3DMM：为了生成具有不同姿势、光照和理想rPPG信号变化的面部，我们必须推断面部的3D形状和反照率参数。我们使用DECA [11]来预测特定主体的反照率，9205900从图像中提取形状、姿势和光照参数。具体而言，它使用统计3D头部模型FLAME[18]输出具有n=5023个顶点的网格M。相机模型c用于将网格M映射到图像空间。由于FLAME中没有外观模型，因此使用Basel Face Model (BFM)[34]的线性反照率子空间，并将BFM的UV布局转换为与FLAME兼容。它输出具有可学习系数α的UV反照率图A。通过将照明模型表示为球谐函数(SH)[39]，可以将阴影面图像表示为以下方程：0B(α,l,Nuv)i,j= A(α)i,j⊙0k=1lkHk(Ni,j)，(1)0其中Hk是SH基函数，lk是相应的系数，⊙表示Hadamard乘积。Ni,j是以UV形式表示的法线图。通过使用网格M、阴影图像B和相机模型c通过渲染函数R(∙)渲染图像，可以获得最终的纹理图像：0Ir=R(M,B,c)。(2)0由于rPPG本质上是面部血液体积的变化，我们的想法是首先获得UV反照率A的血液浓度flood的空间分布，然后以与rPPG信号一致的方式对UV血液反照率图进行时间调制。接下来，我们将展示如何实现这种生物物理学上可解释的操作。0皮肤中的光传输：为了获得面部的血液分布图fblood，我们首先研究皮肤中的光传输，以建立面部反照率和fblood之间的联系。根据光谱图像形成模型，通过将相机光谱灵敏度Sc、光谱反射率R和光源E的光谱功率分布在波长λ上积分，重建原始的紫外面部反照率Ac，其中c∈{R, G, B} [2]：0Ac=�0λE(λ)∙R(fmel,fblood,λ)∙Sc(λ)∙dλ，(3)0利用具有血红蛋白fblood和黑色素图fmel作为参数的光学皮肤反射模型[4]，定义了波长相关的皮肤反射率R(fmel,fblood,λ)。具体而言，我们假设一个两层皮肤模型，描述了通过表皮的透射T表皮和从真皮的反射R真皮：0R(fmel,fblood,λ)=T表皮(fmel,λ)^2∙R真皮(fblood,λ)。0(4)表皮中的透射由Lambert-Beer定律[38]建模，因为在该层中未被黑色素吸收的光线会传播到真皮[3]：0T表皮(fmel,λ)=e^(-μa∙表皮(fmel,λ))，(5)0其中µa.epidermis(fmel, λ)是表皮的吸收系数。具体而言，0µa.epidermis(fmel, λ) = fmelµa.mel(λ) + (1 - fmel)µskinbaseline(λ),0(6)其中µa.mel是黑色素的吸收系数，µskinbaseline是基线皮肤吸收系数。根据Kubelka-Munk理论[13]，可以对真皮的反射率进行建模，一层中反射的光的比例由以下公式给出[3]：0Rdermis(fblood, λ) =0�1 - β2� �e^Kd pd - e^-Kd0(1 + β2)e^Kd pd - (1 - β)2e^-Kd0(7)其中d_pd是真皮的厚度，K和β与真皮内包含的介质（即血液）的吸收有关。为了简化表示，我们在公式（7）中省略了K和β对fblood和λ的依赖关系。0UV反射率映射的生物物理分解和变化：根据皮肤的光传输理论，我们遵循基于物理的学习框架（BioFaceNet[2]）从反射率A中获取血液映射fblood。波长从400nm到720nm离散化为33个部分，间隔为10nm。我们使用自动编码器架构，并使用全卷积网络作为编码器来预测血红蛋白和黑色素映射，并使用全连接网络来编码照明参数E和相机光谱灵敏度Sc的参数。然后，基于模型的解码器根据所有学习到的参数根据公式（3）重建反射率。与之前的工作[2]不同，我们直接从UV反射率映射中获取生物物理参数，而不是从面部图像中获取。这种安排使我们能够更准确地建模底层的血液容积变化，而不受环境照明变化的影响。我们的模型通过最小化以下损失函数进行训练：0L = w1L appearance + w2L CameraPrior, (8)0其中外观损失L appearance 是重建的UV映射AlinRecon与线性RGB空间中的原始映射AlinRGB之间的L2距离。我们通过反转伽马变换将A转换为线性空间，其中γ =2.2。为了使问题更加约束，我们还引入了额外的相机先验损失：L CameraPrior =∥b∥22，其中b是相机光谱灵敏度的先验。w1和w2分别是重建损失和相机先验损失的权重。为了反映目标rPPG信号对面部的变化，我们在测试阶段将UV血液映射fblood与目标rPPG信号线性变化。给定参考UV映射的血液映射（例如第一帧的UV血液映射），我们通过将UV血液映射相乘生成后续帧的UV血液映射。Lppg(p, ˆp) =205910参考帧的血液比例是通过计算时间t处的rPPG信号pt与参考时间的rPPG信号pref的比值标量得到的。然后，使用BioFaceNet解码器将包含所需rPPG信号的每帧的修改后的UV血液映射重新构建为UV映射。根据公式（2），使用UV映射与照明和相机模型渲染最终图像。为了模拟主体在采集过程中可能移动的真实场景，我们通过向前一帧的姿势和表情参数添加一个小的随机值来随机化帧序列的姿势。0人脸图像数据集：为了生成具有多样化人脸外观的合成rPPG视频，我们使用公开的野外人脸数据集BUPT-Balancedface[42]。它根据种族进行分类（即高加索人、印度人、亚洲人和非洲人）。我们将这些图像用作生成合成视频的参考图像，如图2所示。0PPG记录：为了合成给定输入PPG信号的视频，我们使用来自BIDMCPPG和呼吸数据集[35]的PPG波形记录。它包含53个采样频率为125Hz的8分钟接触PPG记录。我们相应地对其进行采样，使其与视频帧率（30Hz）和时间长度L的第一个序列相对应，其中L是生成的视频的持续时间。03.2. 生理测量网络0我们使用两个最先进的深度rPPG网络Phys-Net [44]和PRN[5]来对真实和合成数据集的性能进行基准测试。PhysNet和PRN都利用三维卷积神经网络（3D-CNN）架构来学习rPPG视频的时空表示，并预测面部视频中的rPPG信号。PRN不同之处在于它使用残差连接进行卷积层。它们将长度为T的连续帧作为输入，其输出是每个输入帧对应的BVP值。使用负皮尔逊损失来衡量地面真实PPG信号p和估计的rPPG信号ˆp之间的差异：0i ˆ p i �� T �0i p 2 i −( �0i p i ) 2 � � T0i ˆ p 2 i − ( �0i ˆ p i ) 2 � ,(9)0其中所有求和都是在帧长度T上进行的。0实施细节：对于BioFaceNet的训练，我们使用3000张面部反射图像，每张图像中有750张0图3.数据收集的实验设置。受试者在手指上戴着一个血氧仪，直视摄像头。摄像头和血氧仪连接到笔记本电脑，以获取同步的视频和地面真实脉搏读数。为了保护匿名性，脸部被模糊处理。0种族。我们使用80%的图像进行训练，20%用于验证。损失的权重w1和w2分别为1e-3和1e-40分别。学习率设置为1e-4，训练轮数为200。对于合成视频的生成，我们将生成的帧长度L设置为2100。视频的边界框是使用预训练的Haar级联人脸检测模型生成的。对于每个视频，在帧被裁剪之前，检测到一个边界框，并在每个方向上增加60%。为了与原始论文保持一致，对于PhysNet，每个帧都使用双线性插值调整大小为128×128像素，对于PRN，调整大小为80×80像素。PhysNet的训练剪辑长度T为128，PRN为256。使用Adam优化器，学习率设置为1e-4。所有代码都是使用PyTorch [33]实现的，并在Nvidia V100GPU上进行训练。04. 实验0在本节中，我们介绍了用于实验和评估协议的数据集。在第4.1节中，我们报告和分析了我们的真实数据集的实验结果，在第4.2节和第4.3节中分别报告了UBFC-rPPG数据集的实验结果。04.1. 数据集和评估协议0我们的真实数据集UCLA-rPPG：为了评估当前rPPG估计方法的性能，我们收集了一个包含104个受试者的真实数据集。其中两个受试者的设置有问题，所以我们删除了他们的样本。最终，该数据集包含102个受试者，涵盖了各种肤色、年龄、性别、种族和民族。受试者的Fitzpatrick（FP）皮肤类型评分[12]在1-6之间变化。对于每个受试者，我们记录了5个约1分钟的视频（每个视频30fps下的1790帧）。在删除错误视频后，我们共有503个视频。我们数据集中的所有视频都是未压缩的，并与地面真实心率同步。图3说明了我们真实数据集UCLA-rPPG的数据收集过程。图的左侧是一个卡通图205920方法 F1-2 F3-4 F5-6 总体0MAE ↓ RMSE ↓ MAE ↓ RMSE ↓ MAE ↓ RMSE ↓ MAE ↓ RMSE ↓0PhysNet [44] w/ Real&Synth 0.54 0.84 0.38 0.70 1.55 2.17 0.71 1.10 PhysNet [44] w/ Real 0.81 1.21 0.43 0.772.61 3.34 1.06 1.51 PhysNet [44] w/ Synth 1.06 1.52 1.16 1.66 4.96 6.20 2.06 2.73 PRN [5] w/ Real&Synth 0.540.79 0.36 0.65 3.41 4.09 1.15 1.53 PRN [5] w/ Real 0.65 1.02 0.40 0.71 4.35 5.26 1.43 1.90 PRN [5] w/ Synth 1.472.00 0.63 1.07 8.89 9.88 2.87 3.470POS [43] 3.40 4.34 3.03 3.98 8.07 10.23 4.27 5.49 CHROM [9] 4.06 5.11 3.99 5.25 7.45 9.74 4.79 6.22 ICA [36]3.75 4.73 3.26 4.19 7.51 9.34 4.35 5.500F1-2 F3-4 F5-6 总体0PCC ↑ SNR ↑ PCC ↑ SNR ↑ PCC ↑ SNR ↑ PCC ↑ SNR ↑0PhysNet [44] w/ Real&Synth 0.84 14.40 0.80 17.11 0.60 9.19 0.76 14.45 PhysNet [44] w/ Real 0.81 13.13 0.7715.83 0.59 6.54 0.74 12.84 PhysNet [44] w/ Synth 0.74 7.19 0.64 6.11 0.23 -3.33 0.57 4.10 PRN [5] w/ Real&Synth0.81 12.24 0.79 14.61 0.57 4.84 0.74 11.59 PRN [5] w/ Real 0.77 10.73 0.77 13.22 0.48 2.38 0.70 9.91 PRN [5] w/Synth 0.69 5.14 0.67 5.27 0.21 -5.81 0.56 2.530POS [43] 0.50 -0.30 0.42 -0.09 0.27 -5.38 0.41 -1.34 CHROM [9] 0.41 -1.81 0.31 -1.60 0.26 -5.31 0.33 -2.49 ICA[36] 0.45 -0.60 0.38 -0.19 0.27 -5.24 0.37 -1.440表2.我们的真实数据集UCLA-rPPG上的心率估计结果表明，使用真实数据和合成数据训练的PhysNet和PRN模型的性能一致优于仅使用真实数据训练的模型。改进的性能显示了我们生成的合成视频数据集的好处。0数据收集过程的示意图。图的右侧是一张照片，描绘了实际的数据收集过程。被试者在手指上戴着脉搏血氧仪，并注视着摄像头。摄像头和脉搏血氧仪都连接到笔记本电脑上，以获取同步数据。0UBFC-rPPG[6]：UBFC-rPPG数据库包含42个正面视频，每个视频对应一个被测者和从脉搏血氧仪记录的相应的真实PPG数据。这些视频以每秒30帧的速度录制，分辨率为640×480。每个视频大约一分钟长。0评估指标：为了评估心率估计与从标准脉搏波中获得的标准心率的一致性，我们使用以下四个评估指标：平均绝对误差（MAE）、均方根误差（RMSE）、皮尔逊相关系数（PCC）和信噪比（SNR）。皮尔逊相关系数（PCC）和信噪比（SNR）的定义如[29]所述。对于传统的基准方法POS、CHROM和ICA，我们使用iPhys工具箱[22]获取估计的rPPG波形。输出的rPPG信号通过减去均值并除以标准差进行归一化。我们使用6阶Butterworth滤波器对所有模型的输出进行滤波。0巴特沃斯滤波器的截止频率为0.7和2.5Hz。滤波后的信号被分成30秒的窗口，窗口之间间隔1秒，上述四个评估指标在这些窗口上计算并求平均。04.2. 在UCLA-rPPG上的性能0为了研究这项工作，我们根据Fitzpatrick肤色类型[12]将受试者分为三个肤色类型组。它们是浅肤色，包括FP1和2等级的肤色；中等肤色，包括FP3和4等级的肤色；和深肤色，包括FP5和6等级的肤色。这种聚合有助于更客观地比较不同肤色上的实验结果。由于我们的最终目标是改善我们的数据集上的性能，我们首先在所有合成数据上进行训练，然后在同时使用真实数据和合成数据训练的模型上进行微调。对于在真实数据集上训练和测试深度rPPG网络PhysNet和PRN，我们将所有受试者随机分为训练集、验证集和测试集，比例分别为50%、10%和40%，所有测试结果在三个随机分割上取平均。验证集用于选择最佳时期来测试模型。我们在表2中报告了三个组和整体性能的MAE、RMSE、PCC和SNR评估指标。总的来说，使用真实数据和合成数据训练的模型表现更好。Train light Test lightTrain dark Test lightTrain light Test darkTrain dark Test darkTrain all Test lightTrain all Test dark0.00.5.0.5.0.53.03.5MAERMSEPhysNet Real&Syn.PhysNet RealPRN Real&Syn.PRN RealPOSCHROMICA0.0.5.0.5.0.5.03.5MAERMSE205930MAE/RMSE（BPM）0标准差（BPM）0图4.左：消融研究。在所有合成数据集上预训练的模型优于仅在浅色或深色肤色上预训练的模型。右：偏差缓解。使用真实和合成数据集训练的深度rPPG模型的MAE和RMSE的标准差比仅使用真实数据和传统模型要小。0真实和合成数据在所有肤色的所有评估指标上都表现出比仅使用真实数据更好的一致性。使用真实和合成数据训练的PhysNet在整体MAE结果上取得了最佳效果，为0.71BPM，与仅使用真实数据训练的PhysNet相比，误差减少了33%。值得注意的是，对于PhysNet，性能改善在深色肤色F5-6组上最为显著，MAE和RMSE分别减少了41%和35%。对于PRN，也观察到了相同的现象，改进在较深肤色上最为明显。我们将这归因于我们在第3.1节中生成的合成视频的引入。另外两个指标PCC和SNR也验证了使用真实和合成数据集训练的模型的优越性。相比之下，传统方法POS、CHROM和ICA的结果要差得多，因为这些方法通常对所有像素取平均，忽略了像素对脉搏信号的非均匀空间贡献。0偏差缓解：为了评估各种rPPG方法在具有不同肤色的受试者上的偏差，我们使用MAE和RMSE结果在三个肤色组上的标准差。从图4的右侧可以看出，使用真实和合成数据集训练的PhysNet的标准差最小，所有三个组的MAE差异减少了45%（从0.95 BPM减少到0.52BPM），相比仅使用真实数据集训练的模型。类似地，对于PRN，使用真实和合成数据集训练的模型的两个指标MAE和RMSE的标准差也有所减少。0消融研究：我们首先使用浅色肤色（合成数据集中种族为高加索人的受试者）或深色肤色（合成数据集中种族为非洲人的受试者）对PhysNet进行预训练，然后在真实数据集上微调模型，并在具有浅色或0PRNw/0合成数据0PRNw/0真实数据0图5.该示例显示了在UBFC-rPPG数据集上，使用合成数据训练的PRN[5]相比仅使用真实数据训练的PRN的性能更好。波形与地面真实PPG波形（虚线）更加一致，功率谱图也更符合地面真实数据的PRN。0方法 MAE ↓ RMSE ↓ PCC ↑ SNR ↑0PhysNet [44] w/ Real & Synth 0.90 1.80 0.84 6.28 PhysNet [44] w/ Real1.42 2.74 0.78 5.64 PhysNet [44] w/ Synth 0.84 1.76 0.83 6.70 PRN [5] w/Real&Synth 1.15 2.38 0.82 5.36 PRN [5] w/ Real 2.36 4.21 0.66 -1.24 PRN[5] w/ Synth 1.09 1.99 0.83 3.000POS [43] 3.69 5.31 0.75 3.07 CHROM [9] 1.84 3.40 0.77 4.84 ICA [36] 8.289.82 0.55 1.450表3.在UBFC-rPPG上的HR估计性能显示了合成数据集的优越性。粗体字体表示首选结果。0深色肤色。从图4的左侧可以看出，预训练的多种种族rPPG网络模型始终优于单一种族的模型。在深色肤色测试集上改进更为明显。这证明了多样化合成数据集的好处。04.3. 在UBFC-rPPG上的性能0我们使用在真实数据集上表现最好的模型来测试UBFC-rPPG数据集[6]，同时还测试了传统方法。由于这是在UCLA-rPPG上训练的模型进行的跨数据集评估，我们在UBFC-rPPG上测试了深度学习模型的所有受试者。所有四个评估指标的结果都在表3中报告。虽然合成数据集的表现不如我们真实数据集上训练的模型，但在UBFC数据集中性能提升更为明显。在合成数据集上训练的PhysNet的MAE和RMSE分别达到了最低的0.84 BPM和1.76BPM。对于这一观察结果的解释是，当数据集的分布与测试数据的分布相似时，即在我们真实数据集的内部数据集设置中，合成数据集的好处并不明显。在真实数据集上训练的模型205940合成视频rPPG信号的示例帧0图6.我们生成的合成视频的示例帧的说明。我们提出的框架成功地将PPG信号融入到参考图像中。PRN生成的合成视频的估计脉搏波与地面真实波高度相关，并且心率保持不变，如功率谱图所示。0由于不同的环境设置（如照明），该数据集在推广到另一个数据集上的表现较差。我们还在图5中进行了定性研究，显示使用我们的合成数据集提取的rPPG波与使用真实数据集提取的rPPG波更接近地面真实波。因此，它可以提供更准确的心率估计。04.4.可视化0如图6所示，我们的模型可以成功生成反映相关血容量变化的合成化身视频。合成视频中的估计脉搏波与地面真实波密切对齐。具有接近金标准心率值附近清晰峰值的PPG波的功率谱也验证了脉搏信号的融合的有效性。05.讨论0局限性：尽管我们的合成数据集可以用于实现最先进的结果（在UBFC-rPPG数据集上，它可以比仅在真实数据集上训练的模型更好地推广）进行心率估计，但面部外观不是照片般逼真，这可能仍然降低性能，因为存在模拟到真实之间的差距。在这项工作中，我们没有专注于对生成的视频中的背景进行建模。然而，[29]发现背景可以用于更好地提取脉搏信号。此外，我们根据目标rPPG信号线性地变化UV血液图。虽然这产生了合理的经验结果，但我们相信基于生物物理模型的UV血液图操作可以进一步改进。0合成生成的性能。0伦理声明：本文的创新之处在于生成与心跳生理一致的合成面部视频，我们希望它可以成为解决一些社会问题的工具，例如医学中的种族和性别偏见。值得注意的是，即使这里的研究仅用于改进远程健康技术，它也可能被用于欺骗基于rPPG的深度伪造检测器。我们强烈反对将此技术用于此类应用。0结论：我们提出了一种方法来生成具有高保真度的大规模合成rPPG视频，以反映底层rPPG信号。合成生成流程可以根据给定的图像和rPPG信号生成可扩展的rPPG面部视频。我们验证了合成视频在我们收集的包含不同肤色的UCLA-rPPG数据集和UBFC-rPPG数据集上的有效性。实验结果表明，合成数据集可以提高两个数据集的性能，并有助于减少不同人口统计学群体之间的偏差。0致谢：我们感谢UCLA视觉机器组（VMG）的成员对此研究的反馈和支持。本研究的作者得到了美国陆军研究实验室资助计划W911NF-20-2-0158的支持。A.K.获得了NSFCAREER奖励IIS-2046737的支持。205950参考文献0[1] Edem Allado，Mathias Poussel，AnthonyMoussu，Véronique Saunier，Yohann Bernard，ElianeAlbuisson和BrunoChenuel。使用远程光电容积成像系统进行常规生理变量（心率、呼吸频率和血氧饱和度）的创新测量：前瞻性比较试验方案。BMJ开放，11（8）：e047896，2021年。10[2] Sarah Alotaibi和WilliamSmith。Biofacenet：深度生物物理面部图像解释。在英国机器视觉会议（BMVC）中，2019年。40[3] Sarah Alotaibi and William AP Smith.人脸外观的生物物理3D可塑模型. In Proceedings of the IEEEInternational Conference on Computer Vision Workshops ,pages 824–832, 2017. 40[4] Sarah Alotaibi and William AP Smith.将多光谱人脸图像分解为漫反射和镜面照明以及生物物理参数. InIEEE International Conference on Image Processing (ICIP) ,pages 3138–3142. IEEE, 2019. 40[5] Yunhao Ba, Zhen Wang, Kerim Doruk Karinca, OykuDeniz Bozkurt, and Achuta Kadambi.通过合成增强克服远程PPG中获取深肤色主体的困难. arXivpreprint arXiv:2106.06007 , 2021. 2 , 3 , 5 , 6 , 70[6] Serge Bobbia, Richard Macwan, Yannick Benezeth,Alamin Mansouri, and Julien Dubois.无监督的皮肤组织分割用于远程光电容积脉搏图. PatternRecognition Letters , 124:82–90, 2019. 1 , 2 , 6 , 70[7] Weixuan Chen and Daniel McDuff. Deepphys:使用卷积注意力网络进行基于视频的生理测量. In Proceedingsof the European Conference on Computer Vision (ECCV) ,pages 349–365, 2018. 1 , 20[8] Ananyananda Dasari, Sakthi Kumar Arul Prakash, László AJeni, and Conrad S Tucker.评估远程光电容积脉搏图方法中的偏差. NPJ digital medicine ,4(1):1–13, 2021. 1 , 20[9] Gerard De Haan and Vincent Jeanne.基于色度的RPPG的稳健脉搏率. IEEE Transactions on BiomedicalEngineering , 60(10):2878–2886, 2013. 1 , 2 , 6 , 70[10] Justin R Estepp, Ethan B Blackford, and Christopher MMeier. 使用多摄像头阵列恢复运动伪迹中的脉搏率. In IEEEInternational Conference on Systems, Man, and Cybernetics(SMC) , pages 1462–1469. IEEE, 2014. 1 , 20[11] Yao Feng, Haiwen Feng, Michael J Black, and TimoBolkart. 从野外图像中学习可动画的详细3D人脸模型. ACMTransactions on Graphics (TOG) , 40(4):1–13, 2021. 2 , 30[12] Thomas B

下载后可阅读完整内容，剩余1页未读，立即下载