基于视频的心率和呼吸率测量的深度卷积网络模型

145 浏览量更新于2023-10-10 收藏 1.14MB PDF 举报

深度卷积网络

注意力机制

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

DeepPhys：使用卷积注意力网络的基于视频的生理陈伟轩1 和丹尼尔·麦克达夫2[0000−0001−7313−0082]1麻省理工学院媒体实验室，Cambridge MA 02139，USA2Microsoft Research，Redmond WA 98052，USA抽象。基于视频的非接触式生理测量在医疗保健和人机交互等领域有着广泛的应用。实际应用要求即使在存在大的头部旋转的情况下测量也是准确的我们提出了第一个端到端系统，用于使用深度卷积网络进行基于视频的心率和呼吸率测量。该系统的特点是一个新的运动表示的基础上的皮肤反射模型和一个新的注意力机制，使用出现- ance信息来指导运动估计，这两个异构照明和主要运动下，使我们的ap-proach显着优于所有当前国家的最先进的RGB和红外视频数据集的方法。此外，它允许经由注意机制可视化生理信号的空间-时间分布。1介绍在人类身体中，“隐藏”于未被识别的眼睛中的信息包含关于个体的健康和福祉的重要信息。视频和图像的计算机分析可用于恢复这些信号[30，24，3]并放大它们[40，14]。非接触式基于视频的生理测量是快速增长的研究领域，因为它提供了使用无处不在的传感器（例如，生物传感器）对重要生命体征进行非侵入性、伴随性测量和可视化的可能性。低成本网络摄像头或智能手机摄像头）[20]。成像光电体积描记术（iPPG）是用于恢复接近皮肤表面的血液中的体积变化的一组技术，所得到的信号被称为血容量脉搏（BVP）。该原理是基于测量皮肤反射光的细微变化以类似的方式，成像心冲击描记术（iBCG）使用从视频提取的运动信息来恢复心冲击描记术[3]。由于血液的机械流动，身体的这些小运动为PPG信号提供了补充的心脏呼吸信号（呼吸）也可以使用颜色[25]和基于运动的[31]分析来恢复。如果生理参数（即，例如，个体的心脏和/或呼吸速率）的放大是已知的，2W. Chen和D. McDuff图1.一、我们为DeepPhys提供了一种使用卷积注意力网络进行基于视频的生理测量的新方法，该方法显著优于最先进的技术，并允许视频中生理信息的时空可视化DeepPhys是一个端到端网络，可以从RGB或红外视频中准确恢复心率和可以执行颜色变化和/或运动[40，14]，这提供了生理变化的非常直观的可视化。基于上述技术，已经提出了许多算法以使得能够仅从网络摄像头视频恢复生命体征然而，其中的早期在这样的视频条件下呈现出改进的结果的最近的方法通常是难以调谐和实现的复杂的多阶段方法。几乎所有的方法都需要人脸跟踪和配准、皮肤分割、颜色空间变换、信号分解和滤波等步骤。在计算机视觉中，端到端深度神经模型的性能优于需要手工特征操作的传统多阶段方法。用于恢复生理信号的端到端学习框架将是期望的。然而，迄今为止，卷积神经网络（CNN）仅应用于iPPG中的皮肤分割[5]，而不是用于恢复生命体征。这促使我们设计了DeepPhys -一种用于基于视频的生理测量的新型卷积注意力网络（CAN），其显著优于最先进的技术，并允许生理信号分布的时空可视化血液灌注）。图1示出DeepPhys与传统方法相比如何。基于视频的生理测量的端到端网络应该是从视频帧读取运动信息、区分不同运动源并合成目标运动信号的模型然而，现有的深度学习模型都不适合这项任务。首先，在类似任务中使用的深度神经网络通常依赖于诸如光流或帧差之类的运动表示作为输入，但它们要么与iPPG的原理相矛盾，要么对不同的光照条件或皮肤轮廓敏感因此，在DeepPhys中，我们提出了一种新的运动表示，计算归一化帧差DeepPhys3基于皮肤反射模型，其可以更好地捕获在非均匀照明下的生理运动。第二，视频中的外观信息，例如人类皮肤的颜色和纹理，可以指导应该在哪里以及因此，我们提出了一种新的机制，从人的外观获得注意，以协助运动学习。总之，我们提出了第一个端到端的方法，用于从视频中恢复生理信号（HR，BR）DeepPhys是一种新型的卷积注意力网络，它同时学习空间掩模以检测适当的感兴趣区域并恢复BVP和呼吸信号。下面，我们描述了我们的方法，模型的理论基础，以及对四个数据集的验证，每个数据集都是用不同的设备，不同的主题，以及不同的照明配置记录的。我们进行了彻底的比较，对国家的最先进的方法，其结果说明了我们提出的模型的好处。2相关工作2.1远程生理测量从皮肤反射的光的微小变化可用于提取人体生理信号（例如，心率（HR）[30]和呼吸率（BR）[25]）。数码单反相机（DSLR）足以测量细微的血容量脉搏信号（BVP）[30，35]。最简单的方法涉及在时间窗口内对每个帧的图像颜色值进行空间平均，这非常容易受到来自运动、照明和传感器伪影的噪声的影响。最近的进展导致在日益具有挑战性的条件下测量的显著改进。图图1示出了涉及皮肤分割、颜色空间变换和信号分解的远程生理测量的传统方法色彩空间变换：环境照明下皮肤的光学性质意味着绿色通道倾向于给出最强的PPG信号，并且这在初始工作中使用[35，17]。但是，可以对颜色通道进行加权和组合以产生更好的结果。CHROM [13]方法通过假设标准化的肤色配置文件来使用色度信号的线性组合来对视频帧进行脉搏血液向量（PBV）方法[12]利用频谱的不同部分中的特征血量变化来对颜色通道进行加权。信号分解：已证明盲源分离可用于改善摄像头视频中PPG信号的信噪比[24]。利用来自所有三个颜色通道和多个空间位置的信息使得该方法对照明随头部运动的变化更鲁棒。更严格的评估表明，可以恢复心率变异性（HRV）和呼吸频率（BR）估计值[25]。4W. Chen和D. McDuff基于视频的生理测量的大部分工作都依赖于无监督学习。独立分量分析（ICA）[24，25，19]和主分量分析（PCA）[37]是用于组合多个颜色或位置通道的两种常见方法更先进的信号分解方法已经导致改进的心率测量，即使在存在大的头部运动和照明变化的情况下[38，39，16，34]。监督学习方法：很少有方法利用监督学习进行基于视频的生理测量。将问题公式化模板匹配和支持向量方法[23]已经获得了适度的结果。线性回归和最近邻（NN）技术已与信号分解方法[21]相结合，以解决选择适当源信号的问题。但是，这些仍然受到分解方法性能的限制（例如，ICA或PCA）。2.2深度学习运动分析在基于深度学习的视频处理中起着重要作用首先，深度学习在显式运动分析任务中取得了显着的成功，例如光流估计[9，15]和运动预测[11，43]。与图像不同，视频具有空间信息（外观）和时间动态（运动）。因此，使用机器学习解决任何与视频相关的问题都应该受益于隐式运动建模。在当前技术中，可以并行（双流方法[27]）、级联（CNN与RNN连接[8，4]）或以混合方式（3D CNN[33]）学习外观和运动表示。通常，为了更有效的学习，从视频中手动计算几个运动表示以用作学习模型的输入，包括光流[27，22]和帧差[43]。神经网络中的注意力机制受到人类视觉系统的启发，该视觉系统可以以高分辨率聚焦于图像的某个区域，同时以低分辨率感知周围的图像简单地说，它们赋予特征子集更多的权重作为深度学习的最新进展之一，注意力机制已广泛应用于机器翻译[2]，图像字幕[41]和许多其他任务。在基于学习的视频分析中，注意力机制也显示出强大的力量，无论是通过在时间上关注视频的不同帧[44]还是通过在空间上关注帧的不同部分[26]。已经表明，注意力可以从运动中获得，以指导外观表征学习[18，32]。在这项工作中，我们做的恰恰相反，从外表获取注意力来引导运动表示学习，这是我们所知的从未做过的3皮肤反射模型基于视频的生理测量涉及使用相机捕获人体的细微颜色变化（iPPG）和小运动（iBCG和呼吸运动）。用于建模照明、成像器和生理学，DeepPhys5我们使用了Lambert-Beerlaw（LBL） [16，42]或Shaf的二色反射模型（DRM）[38]。我们建立我们的学习模型的顶部的DRM，因为它提供了一个更好的框架，为建模的颜色变化和运动。假设光源具有恒定的光谱组成，但强度变化。我们可以通过时变函数定义图像序列中第k个其中，Ck（t）表示RGB值的向量;I（t）是亮度强度水平，其随着光源以及光源之间的距离而变化。I（t）由DRM中的两个分量调制：镜面反射Vs（t），来自皮肤表面的镜面状光反射，以及漫反射 Vd（t），皮肤组织中的光的吸收和散射;vn（t）表示相机传感器的量化噪声。I（t）、vs（t）和vd（t）都可以通过线性变换分解为平稳部分和时间依赖部分[38]：其中ud表示皮肤组织的单位颜色向量;d0表示静止反射强度;表示由血红蛋白和黑色素吸收引起的相对脉动强度; p（t）表示BVP。其中us表示光源光谱的单位颜色向量;s0和Φ（m（t），p（t））表示镜面反射的稳定部分和变化部分;m（t）表示所有非生理变化，例如光源的闪烁、头部旋转和面部表情。I（t）=I〇·（1+Ψ（m（t），p（t）））⑷其中，I0是亮度强度的固定部分，I0·m（t），p（t）是相机观察到的强度变化。物理量和非物理量之间的相互作用Φ（·）和Ψ（·）通常是一个非线性函数。来自镜面反射和漫反射的静止分量可以被组合成表示静止皮肤反射的单个分量：uc·c0=us·s0+ud·d0（5）其中u，c表示皮肤反射的单位颜色向量，并且c，0表示反射强度。将（2）、（3）、（4）和（5）代入（1），得到：Ck（t）=I0·（1+Ψ（m（t），p（t）·（uc·c0+us·Φ（m（t），p（t））+up·p（t））+vn（t）（6）由于时变分量小得多（即，数量级），我们可以忽略变化项之间的任何乘积，并将Ck（t）近似为：Ck（t）≈uc·I0·c0+uc·I0·c0·Ψ（m（t），p（t））+us·I0·Φ（m（t），p（t））+up·I0·p（t）+vn（t）（7）6W. Chen和D. McDuff对于任何基于视频的生理测量方法，任务是从Ck（t）中提取p（t）。到目前为止，所有iPPG工作都忽略了Φ（·）和Ψ（·）内的p（t），并且作为与Ck（t）和p（t）相同的线性相关。当m（t）较小时（即，皮肤ROI在恒定照明条件下是静止的）。然而，m（t）在大多数现实情况下并不小。因此，线性假设将损害测量性能。这促使我们使用机器学习模型来捕获（7）中的Ck（t）和p（t）之间的更一般和复杂的关系4方法4.1运动表示我们开发了一种新型的归一化帧差作为我们的输入运动表示。光流虽然常用，但不适合我们的任务，因为它是基于亮度恒定约束的，这要求物体的光吸收是恒定的。这显然与（2）中存在变化的生理信号p（t）相矛盾。计算我们的运动表示的第一步是像素的空间平均，其已被广泛用于减少（7）中的相机量化误差vn（t我们通过使用双三次插值将每帧下采样到L像素乘L像素来实现这一点。选择L是在抑制相机噪声和保持空间分辨率之间的权衡（[37]发现L= 36是面部视频的好选择。下采样的像素值仍将仅在没有相机量化误差的情况下服从DRM模型：Cl（t）≈uc·I0·c0+uc·I0·c0·Ψ（m（t），p（t））+其中l=l，...，L2是每一帧中的新像素索引。然后，我们需要减少Cl（t）对静态皮肤反射系数的依赖性，或者减少Cl（t）对静态皮肤反射系数的依赖性，从而减少Cl（t）对静态皮肤反射系数的依赖性。在无监督学习方法中，处理的帧通常来自短时间窗口，其中项uc·I0·c0相对恒定。然而，在监督学习数据群组中，该项将在对象和照明条件之间变化，这将解释Cl（t）中的大部分方差这不仅会使学习辨别兴趣的真实方差变得更加困难p（t），而且还取决于训练数据中在（8）中，uc·I0·c0出现两次。不可能消除与故障（·）相关的安全缺陷。然而，通常占主导地位的第一个变量可以通过对（8）的两侧相对于时间进行一阶导数来去除：C′（t）≈u·I·c·（Ψm′（t）+Ψp′（t））+lc00 m p∂Φ ∂Φu·I·（m′（t）+ p′（t））+u·I·p′（t）（9）s0m pp0DeepPhys7L特征图：输入特征映射特征映射特征映射特征映射特征映射特征映射隐藏单元输出p（t+1）-p（t）3@36x 3632@36x3632@36x3632@18x1864@18x1864@18x1864@9x9一百二十八或三十二运动模型归一化差异按元素相乘按元素相乘C（t）C（t+1）.（C.（t+1）。-C（t））/（C（t+1）+C（t））L1标准化L1标准化输出血量脉冲p（t）...p（t+4）......这是什么？卷积1x1内核卷积1x1内核C（t图层：卷积卷积平均池卷积卷积平均池完全展平充分3x3内核3x3内核2x2内核3x3内核3x3内核2x2内核连通的层1层2层3层4层5层6第7层第8层9图二、我们的端到端卷积注意力网络的架构在时间t的当前视频帧和在t+1和t的帧之间的归一化差分别作为外观和运动模型的输入。该网络学习在模型之间共享的空间掩模，以及对于恢复BVP和呼吸信号重要的特征。该帧差表示的一个问题是，由于到光源的不同距离和不均匀的皮肤轮廓，静态亮度强度水平10在空间上是不均匀的I0的空间分布与生理学无关，但在每个视频记录设置中是不同因此，通过将C’（t）除以Cl（t）的时间平均值来归一化C’（t）以去除I0：C′（t）01-02- 02（Cl（t）Ψm′（t）+姆Ψp′（t））+diag−1布吕普1（uc）up·0·p′（t）+diag−1（u）u·1·（Φm′（t）+Φp′（t））（10）0m p其中1 = [111]T。在（10）中，Cl（t）需要在短时间窗口内逐像素地计算，以最小化遮挡问题并防止误差的传播我们发现在两个连续帧上计算它是可行的，使得（10）可以离散地表示为：C′（t）Dl（t）=lCl（t）Cl（t+∆t）−Cl（t）Cl（t+∆t）+Cl（t）（十一）这是我们用作运动表示的归一化帧差（Δ t是采样间隔）。在计算的Dl（t）中，异常值通常是由于大的m′（t）或遮挡。为了减少这些异常值，我们在每个视频和所有颜色通道上通过三个标准差来裁剪 Dl（t）。总而言之，裁剪的Dl（t）将是我们的学习模型的输入，并且黄金标准生理信号的一阶导数p′（t）=p（t+Δ t）-p（t）将是训练标签。为了对齐Dl（t）和p′（t），使用分段三次Hermite插值将生理信号预先内插到视频采样率为了提高随机梯度下降的收敛速度，Dl（t）和p′（t）也被缩放到每个视频上的单位标准差。输入视频CCCs8W. Chen和D. McDuff4.2卷积神经网络我们的学习模型的基础是用于从运动表示估计生理信号导数的VGG式CNN，如图2（运动模型）所示最后一层具有线性激活单元和均方˜′误差（MSE）损失，因此输出将形成连续信号p（t）。由于大多数由于生理信号是频率有界的，所以对输出进行带通滤波以去除感兴趣的频率范围之外的噪声最后，从滤波信号计算功率谱，其中最高峰的位置被视为估计的HR或BR。与用于对象识别的经典CNN模型不同，我们使用平均池化层而不是最大池化层。其理由是，对于生理测量，将重要特征与较不重要的特征组合通常可以产生比单独使用更重要的特征更高的信噪比。我们还比较了多个激活函数，发现对称性似乎有助于性能。因此，我们使用超曲正切（tanh）代替整流线性单元（ReLU）作为隐藏层激活函数。此外，我们的注意力机制使用类似于长短期记忆（LSTM）网络中的门控方案，这有助于防止tanh的主要问题，即梯度消失。我们的模型的损失函数是估计的生理信号导数与金标准生理信号导数之间的MSE，但是我们的最终目标是计算估计的信号的主频（即，HR或BR）。虽然时间误差和频率误差通常具有高相关性，但是小的时间误差不保证小的频率误差。也很难直接使用频率误差作为CNN的损失函数，因为主频的计算涉及不可微运算argmax。因此，我们在训练检查点上采用集成学习具体来说，我们在收敛后额外训练了16个时期的CNN模型。将这些模型应用于计算频率误差的训练数据，并选择具有最小误差我们发现，这种策略始终实现较小的频率错误比简单地使用最后一个检查点模型。4.3注意机制我们在（10）和（11）中的运动表示天真地假设每个像素l是身体的一部分，并且更具体地是皮肤。使用归一化帧差有助于减少背景像素的影响;然而，任何移动都会增加噪声。为了减少这种影响，以前的方法通常回复预处理，如皮肤分割，以选择感兴趣的区域（ROI）。在我们的端到端模型中，可以添加新的注意力机制来实现类似的功能。此外，生理信号的分布在人体上是不均匀的，因此学习软注意掩模并向具有较强信号的皮肤区域分配更高的权重应该会提高测量精度。像素块是否属于皮肤并表现出强烈的生理信号可以部分地从其视觉外观推断出来。然而，衍生-DeepPhys9M一MMM（10）中的分离和归一化操作去除了外观信息。为了提供学习注意力的基础，我们创建了一个单独的外观模型（见图1）。2）的情况。该模型具有与没有最后三层的运动模型相同的架构，并且具有原始帧（以零均值为中心并且缩放到单位标准偏差）作为输入。在每个池化层之前使用1× 1卷积滤波器估计软注意掩码，以便掩码被从不同级别的外观特征合成。设①j∈RCj×Hj×Wj①j∈RCj×Hj×Wj 根据您的客户端日志的映射分别在运动模型和外观模型中进行池化，其中Hj和Wj是通道的数量、高度和宽度。注意力面具qj∈R1×Hj×Wj 可构成为：HW·σ（wjT①j+bj）qj=jja2<$σ（wjT①j+bj）<$（十二）的1wherewj∈RCj 在1×1卷积核中，b是bis，σ（·）是一个sigmoid函数。与通常用于生成软注意概率图的softmax函数不同，我们使用了一个sigmoid激活后接l1归一化，它甚至比softmax更柔和，产生的蒙版不那么极端。最后，将掩模与运动模型特征图相乘以输出：③j=（1·qj）⊙①j（十三）其中③j∈RCj×Hj×Wj 如果将您映射到索引层时被屏蔽，1∈RCj 它是一个带有所有元素的向量，并且具有多个元素。联合学习运动模型和外观模型，以同时找到最佳运动估计器和最佳ROI检测器。5数据集我们在四个数据集上测试了我们的方法，每个数据集都有不同性别、不同年龄、不同肤色（亚洲人、非洲人和高加索人）的参与者，有些人有浓密的面部毛发和/或眼镜。RGB视频I [10]。用Scout scA 640 - 120 gc GigE-标准彩色相机记录视频，捕获8位658 x492像素图像，120 fps。这架照相机装有16毫米固定焦距镜头.招募了25名使用研究级生物电位采集单元测量金标准每个参与者完成六个（每个针对两个背景屏幕）5分钟的任务。这些任务旨在捕捉不同水平的头部运动。任务1：参与者将他们的下巴放置在下巴托上（垂直于相机）以限制头部运动。任务2：参与者在没有下巴托的帮助下重复任务1，允许小的自然运动。任务3：参与者以10度/秒的速度以摄像机为中心进行120度扫描。任务4：与任务3相同，但速度为20度/秒。10W. Chen和D. McDuff1（0(a)（b）第（1）款图三.来自四个数据集的示例帧：（a）RGB视频I，（b）RGB视频II，(c)MAHNOB-HCI，（d）红外视频。黄色的边界框表示裁剪为模型输入的（e）示出了用于HR测量的（a）中的左帧和用于BR测量的（a）中的右帧的示例性注意力权重任务5：与任务3相同，但速度为30度/秒。任务6：要求参与者将他们的头部位置每秒一次重新定向到阵列中随机选择的成像器从而模拟随机头部运动。RGB视频II [7].使用英特尔实感摄像头VF 0800录制视频，招募了18名参与者（16名男性，2名女性，23-50岁）（由于采集误差高，3名参与者的数据被排除）。参与者在环境光下静止地坐在桌子旁30秒。所有视频均以彩色（24位RGB，3通道8位/通道）以约24 fps的浮动帧速率记录，像素分辨率为1920 x1080。用FlexComp Infiniti测量金标准生理信号，该FlexComp Infiniti以256Hz的恒定采样频率记录来自手指探针的血量本研究未记录呼吸。MAHNOB-HCI [28].具有参与两个实验的受试者的视频的多模态数据集：（i）情感激发和（ii）隐式标记。它总共包含27名受试者（12名男性和15名女性），所有视频均为61 fps，分辨率为780x580在[17]之后，我们使用了527个序列的30秒剪辑为了计算真实心率，我们使用相应ECG波形的第二通道（EXG2）红外视频[6]。为了表明我们的方法推广到使用不同成像器收集的其他数据集，我们对IR视频的数据集进行了类似的分析。本研究招募了年龄在23-34岁之间的12名参与者（8名男性，4名女性）。参与者坐在桌子前，Leap Motion控制器放置在桌子边缘，与桌子平行，面朝上。640x240像素近IR帧以大约62fps的浮动帧速率记录。金标准生理信号用FlexComp Infiniti测量，该仪器同时记录来自手指探头的BVP和来自胸带的呼吸，以256Hz的恒定采样频率。每个实验由两个1分钟记录组成：1）在光线充足的房间中（摄像机处184勒克斯），2）在完全黑暗的房间中（摄像机处1勒克斯）。（（DeepPhys11表1.用于RGB视频的心率和呼吸率测量性能I.受试者相关（p. -（dep.）显示了与参与者无关的结果，以及具有不同头部旋转心率平均绝对误差/BPM信噪比/dB方法12 3 4 5 6Avg.12 3 4 5 6Avg.Estepp等人[10个国家] 3.483.953.806.5511.813.47.166.064.823.77-0.10-4.72-9.630.03McDuff等人[19个]1.171.701.704.005.2211.84.2910.99.556.693.080.08-6.933.90Balakrishnan等人[3]第一章4.995.1612.717.418.714.212.2-1.08-0.34-8.83-12.6-14.2-12.1-8.19De Haan等人[13个国家]4.534.594.354.846.8910.35.921.721.383.973.632.02-2.471.71Wang等人[38个]1.501.531.501.842.056.112.426.846.214.802.970.77-4.332.88Tulyakov等人[34个]1.762.1414.919.015.722.012.64.322.29-11.8-14.3-12.3-15.3-7.85OURS：部分。DEP.纯运动CNN1.171.291.291.662.042.951.7310.29.287.024.181.95-1.005.28堆叠CNN1.181.301.261.511.822.621.6110.79.608.285.592.840.296.22可以1.171.261.161.612.041.781.5010.99.668.205.693.571.336.55OURS：部分。印第安纳纯运动CNN1.171.411.331.913.576.412.639.608.626.252.73-0.15-4.023.84堆叠CNN1.121.661.301.652.336.252.389.268.187.273.811.14-2.844.47可以1.161.451.231.722.425.592.269.528.827.363.901.10-2.724.66CAN（任务1）1.163.013.434.857.9213.95.709.525.742.01-2.13-5.77-9.70-0.06CAN（任务2）1.121.451.673.357.5112.94.6610.18.824.25-0.90-5.33-8.961.33CAN（任务3）1.181.411.231.782.739.232.939.758.797.364.330.55-5.884.15CAN（任务4）1.131.571.241.722.798.982.919.958.727.063.900.37-5.684.05CAN（任务5）1.161.381.301.542.427.052.489.868.987.684.401.10-4.154.65CAN（任务6）1.141.321.221.472.175.592.1510.49.628.215.151.83-2.725.41CAN（所有任务）1.131.342.451.641.836.322.459.887.211.468.484.11-3.234.65呼吸率平均绝对误差/BPM信噪比/dB方法123456Avg.123456Avg.Tarassenko等人[三十一]2.512.533.194.854.224.783.68-1.29-1.82-6.32-8.55-8.79-10.6-6.22OURS：部分。DEP.纯运动CNN2.032.473.213.043.114.273.02-0.33-1.91-5.28-4.83-5.33-9.64-4.55堆叠CNN1.742.272.982.793.035.333.021.84-0.93-6.31-5.18-5.70-11.2-4.58可以1.702.193.243.053.063.962.862.73-0.02-4.39-4.47-4.36-7.97-3.08OURS：部分。印第安纳纯运动CNN1.702.314.094.854.604.063.600.75-0.17-6.03-9.19-9.05-9.06-5.46堆叠CNN2.002.105.675.556.345.764.570.19-0.25-12.0-11.5-12.7-13.0-8.20可以1.281.644.154.373.774.373.264.452.96-5.05-6.72-6.70-8.93-3.33CAN（任务1）1.281.726.347.286.284.014.484.452.37-10.0-13.5-13.9-9.02-6.60CAN（任务2）1.211.645.735.654.923.823.834.392.96-7.97-12.3-11.7-8.54-5.52CAN（任务3）1.621.714.154.574.163.563.303.382.74-5.05-7.05-6.71-6.23-3.15CAN（任务4）1.741.853.804.374.603.423.302.692.56-5.10-6.72-7.86-6.63-3.51CAN（任务5）1.651.744.374.453.773.373.222.903.18-6.20-7.02-6.70-5.69-3.25CAN（任务6）2.061.765.895.925.214.374.201.111.54-9.72-11.9-10.1-8.93-6.33CAN（所有任务）1.544.693.712.145.273.333.453.09-6.45-7.090.21-10.7-7.36-4.716结果和讨论对于我们的实验，我们使用Adadelta [45]来优化计算集群中的模型。所有的优化器参数都是从[45]中复制的，并且使用了128个示例的批量大小为了克服过拟合，三个dropout层[29]被插入图3中的层3和4、层6和7以及层8和92，脱落率分别为d1，d2和d3随着n8层中隐藏单元的数量和Ne训练时期的数量，这五个参数被不同地选择以适应不同的模型复杂度和不同的泛化挑战（值可以在补充材料中找到）。除了所提出的CAN模型之外，我们还实现了独立的CNN运动模型（图1的顶部）。2）验证注意机制的有效性。模型的输入是归一化帧差（仅运动CNN）或与原始帧堆叠的归一化帧差（堆叠CNN）。将6阶Butterworth滤波器应用于模型输出（对于HR，截止频率为0.7和2.5Hz，对于HR，截止频率为0.08和2.5Hz）。0.5 Hz（BR）。将滤波后的信号划分为具有1秒步幅的30秒窗口，并且在所有时间段的所有窗口上计算四个标准度量。12W. Chen和D. McDuff数据集中的测试视频：平均绝对误差（ MAE ）、均方根误差（RMSE）、由估计的HR /BR和真实的HR/BR得到的生理信号的相对误差（r）、以及在所有窗口中平均的估计的生理信号[13]的信噪比（SNR）。SNR在频域中被计算为前两个谐波周围的能量（黄金标准HR周围的0.2Hz频率仓和黄金标准BR周围的0.05Hz频率仓）与HR的[0.5 4] Hz范围内的剩余频率和BR的[0.05 1] Hz由于篇幅有限，度量RMSE和r显示在补充材料中。6.1RGB视频I每个视频帧都被中心裁剪为492x492像素，以在被馈送到我们的处理管道之前去除横向空白区域。我们将我们提出的方法与其他六种方法[10，19，3，13，37，34]进行比较，以恢复血容量脉冲。为了恢复呼吸，我们比较了Tarassenko等人提出的方法。[31]第30段。有关这些方法的实施细节，请参见补充材料。每个五分钟的视频被分成五个一分钟的时间段。我们通过交叉验证对每个任务内的串联五个折叠进行训练和测试，在这种情况下，每个参与者都出现在训练集和测试集中。评估度量MAE和SNR在五倍上取平均值并在表1中示出。表1示出了我们的仅运动CNN、堆叠CNN和CAN在任务二到任务六上都优于用于HR测量的现有方法，无论是在MAE还是SNR方面该益处对于涉及高速头部运动的任务特别强在任务一上，我们的MAE和SNR非常接近使用手工制作的特征的先前方法所获得的最佳结果，这可能是因为任务一模拟了理想的情况，几乎没有改进的空间在我们的三种方法中，CAN平均表现出优异的性能，并且对于任务六具有明显的优势，这可以通过注意力机制在处理频繁变化的ROI中的有效性来呼吸率结果（表1）遵循类似模式。参与者独立绩效。所有25名参与者被随机分为5组，每组5名参与者学习模型通过每个任务中的五重交叉验证进行训练和测试，以评估我们的模型如何推广到新的参与者。评估度量MAE和SNR也在五倍上平均并且在表1中示出与参与者依赖的结果相比，参与者独立的结果在不同程度上表现出较低的绩效然而，对于心率测量，堆叠CNN和CAN仍然优于所有以前的方法。对于呼吸率测量，尽管仅运动CNN和堆叠CNN具有与Tarassenko等人类似或更差的精度。[31]，CAN仍然在五项任务和总体上显示出改进。任务独立性能。参与者依赖和参与者独立的结果都来自任务内的训练和测试模型DeepPhys13数据集方法RGB视频II心率MAESNR/BPM /dB曼荷布-HCI心率MAESNR/BPM /dBEstepp等人[10]McDuff et al.[19]Balakrishnan等人[3]De Haan et al.[13]Wang et al. [38个]Tulyakov等人[34个]14.70.2511.30.300.262.27-13.2-4.48-9.17-2.301.50-0.20-十点五17.75.09-4.96--10.4-12.9-9.12--8.93迁移学习（TransferLearning）：可以0.140.034.57-8.98数据集方法IR心率MAESNR/BPM/dB视频呼吸速率MAESNR/BPM /dBChen等人[6]美国0.653.150.275.71我们的（部分。ind.）：仅运动CNN堆叠CNN CAN1.440.870.559.5510.913.20.490.140.148.9510.410.8表2. RGB视频II、MAHNOB-HCI和红外视频数据集结果。(MAE=平均绝对误差，SNR =信噪比）接下来，我们展示了独立于任务的性能，其中CAN模型在特定任务上进行了训练，然后在其他任务上进行了测试训练集和测试集再次独立于参与者。在表1所示的HR结果中，有一个清晰的模式，即在运动较少的任务上训练的模型在运动较多的任务上表现不佳在具有更大运动的任务上训练的模型在所有任务中都具有很好的在任务六上训练的CAN模型甚至比在每个单个任务内训练和测试的模型具有更低的MAE和更高的SNR这也解释了为什么在所有任务上训练的模型都达到了中等的性能，略好于任务五模型，但比任务六模型差得多另一方面，对于呼吸率测量，在一个任务上训练的模型通常在同一任务上表现最好，并且不能很好地推广到不同的任务。结果，表1中的平均MAE和SNR的分布呈现从任务一模型到任务六模型的对称模式6.2RGB视频II和MAHNOB-HCI如图3、两个数据集中的视频帧背景复杂，人脸ROI只占很小的区域。为了确保下采样后有足够数量的生理相关像素，将基于OpenCVs Haar-like cascades [36]的人脸检测器应用于每个视频的第一帧，并裁剪检测到的边界框宽度和高度为160%的正方形区域作为我们方法的输入。迁移学习。为了测试我们的模型是否可以推广到具有不同分辨率，背景，照明条件和采样频率的视频，我们尝试了迁移学习而没有任何微调。我们在RGB视频I的任务2（与RGB视频II和MAHNOB-HCI最相似的任务）上训练模型由于RGB Video II仅具有血容量脉冲地面实况，因此我们将我们的方法与仅HR测量方法进行比较。对于MAHNOB-HCI，因为它是公开的，我们仅针对数据集上先前研究中报告的那些方法评估了我们的方法。结果示于表2中。在没有任何关于两个数据集的先验知识的情况下，我们的CAN模型仍然达到了最低的MAE与任何以前的方法相比，其SNR仅次于Wang等人。[37]关于RGB视频II和Tulyakov等人。[34]关于MAHNOB-HCI。14W. Chen和D. McDuff6.3红外视频对于这些视频，我们裁剪了一个固定的130x130像素的边界框，作为我们的模型输入（见图1）。第3d段）。由于数据集中的帧是单色的，因此我们之前为RGB数据集实现的所有方法我们将我们的方法与基于PCA的算法[6]进行了比较，该算法在HR和BR测量的数据集上实现了最高的准确参与者独立绩效。在数据集中，每个视频的长度为一分钟，这太短而不能被分成多个折叠以用于参与者相关的评估。因此，我们只以独立于参与者的方式进行实验：13名参与者被随机分为五组，学习模型通过五组交叉验证进行训练和测试。结果在五倍上平均并示于表2中。对于心率和呼吸率测量，CAN模型不仅击败了以前的最佳结果，而且还击败了其他基于学习的方法，而无需注意力机制。6.4注意力权重利用所提出的注意力机制的优点在于，可以通过可视化注意力权重来揭示生理信号的时空分布如图3e、注意心率模型通常集中在前额、耳垂和颈动脉。耳垂具有大量的血液供应，并且颈动脉具有最显著的脉冲诱导运动。对于BR测量，注意力图更分散，因为呼吸运动可以传递到任何身体部位，甚至包括头发。我们还在许多受试者身上发现鼻子周围的高注意力权重，这表明我们的CAN模型使用微妙的鼻张开作为呼吸跟踪的特征（参见补充材料）。7结论我们已经提出了第一个端到端网络的非接触测量HR和BR。我们的卷积注意力网络允许生理分布的时空可视化，同时学习颜色和运动信息以恢复生理信号。我们评估了三个RGB视频数据集和IR视频数据集上的方法我们的方法优于我们比较的所有现有技术方法。性能的改善是特别好的任务与增加的范围和角速度的头部旋转。我们将这种改进归因于该模型的端到端特性，该模型能够学习视频颜色和运动信息之间的改进映射。受试者依赖vs独立性能以及迁移学习结果表明，我们的监督方法确实推广到其他人，皮肤类型和光照条件。DeepPhys15引用1. 洛杉矶的阿茨Jeanne，V.，Cleary，J.P.，Lieber，C.，Nelson，J.S.，Bambang Oetomo，S.，Verkruysse，W.：在新生儿重症监护病房使用照相机照片体积描记法进行非接触式心率监测-一项试点研究。Earlyhumandevel 〇 pment89（12），9432. Bahdanau，D.，周，K.，Bengio，Y.：联合学习的神经机器翻译对齐和平移。arXiv预印本ar

下载后可阅读完整内容，剩余1页未读，立即下载