没有合适的资源?快使用搜索试试~ 我知道了~
151来自高度压缩的面部视频的远程心率测量:具有视频增强功能的端到端深度学习解决方案余梓桐1人,魏鹏1*,李晓白1人,洪小鹏2,4,1人,赵国英3,1人1芬兰奥卢大学机器视觉与信号分析中心2中国西安交通大学电子信息工程学院3西北大学信息技术学院;4鹏程实验室{于子彤,彭伟,洪小鹏,赵国英xiaobai.li}@ oulu.fi摘要远程光电体积描记术(rPPG)旨在无任何接触地测量心脏活动,其在许多应用中具有巨大的潜力(例如,远程保健)。现有的rPPG方法依赖于分析面部视频的非常精细的细节,这容易受到视频压缩的影响。在这里,我们提出了一个两阶段,端到端的方法,使用隐藏的rPPG信息增强和注意力网络,这是第一次尝试,以对抗视频压缩损失和恢复rPPG信号从高度压缩的视频。该方法包括两部分:1)用于视频增强的时空视频增强网络(STVEN),以及2)用于rPPG信号恢复的rPPG网络(rPPGNet)。rPPGNet可以独立工作,实现强大的rPPG测量,并且可以添加STVEN网络并进行联合训练,以进一步提高性能,特别是在高度压缩的视频上。在两个基准数据集上进行的综合实验表明:1)该方法不仅在具有高质量视频对的压缩视频上取得了优异的性能,2)在只有压缩视频的新数据上也取得了很好的推广效果,这意味着在现实世界中的应用前景。1. 介绍心电图(ECG)和光电容积描记器(PPG)提供了测量心脏活动的常用方法。这两种类型的信号对于医疗保健应用是重要的,因为它们提供基本平均心率(HR)和更详细的信息(如心率变异性(HRV))的测量。然而,这些信号大多是从皮肤接触ECG/BVP传感 器 测 量 的 为 了 解 决 这 个 问 题 , 远 程 Pho-toplethysmography(rPPG),其目标是测量心脏*同等贡献†通讯作者图1.来自高度压缩视频的rPPG测量。由于视频压缩伪影和rPPG信息丢失,(a)中的rPPG具有非常嘈杂的形状和不准确的峰值计数,这导致错误的心率测量,而在通过STVEN进行视频增强之后,(b)中的rPPG与地面真实ECG相比示出了具有准确峰值位置的更规则的脉冲形状。远程和无任何接触的活动近年来发展迅速[4,12,19,18,31,32,22]。然而,大多数先前的rPPG测量工作没有将视频压缩的影响考虑到成像中,而事实是,由商业相机捕获的大多数视频通过具有各种比特率的不同压缩编解码器进行压缩最近,两个作品[7,16]指出并证明了当使用具有不同比特率的压缩视频时,rPPG测量的性能在不同程度上下降。如图1(a),从高度压缩的视频测量的rPPG信号通常由于视频压缩过程的帧内和帧间编码引起的信息丢失而遭受噪声曲线形状和不准确的峰值位置。考虑到视频存储和传输的方便性,视频压缩是远程服务的必然选择152在互联网上。因此,研究能够在高压缩视频上稳健工作的rPPG方法然而,还没有提出解决方案来解决这个问题。为了解决这个问题,我们提出了一个两阶段,端到端的方法,使用隐藏的rPPG信息增强和注意力网络,它可以对抗视频压缩损失和恢复rPPG信号从高度压缩的面部视频。图1(b)说明了我们的方法在高度压缩视频的rPPG测量上的优势。我们的贡献包括:• 据我们所知,我们提供了第一个直接从压缩视频进行鲁棒rPPG测量的解决方案,这是一个端到端框架由视频增强模块STVEN(时空视频增强网络)和强大的信号恢复模块rPPGNet组成。• rPPGNet具有基于皮肤的注意力模块和分区约束,可以测量交流在HR和HRV水平上都有明显的改善。 与仅输出简单HR数的先前作品[17,25]相比,所提出的rPPGPet产生了具有曲线形状和峰值位置的更丰富的rPPG信号。此外,即使不使用STVEN模块,它在基准数据集的各种视频格式上也优于最先进的方法。• STVEN是第一视频压缩增强网络,以提高高度压缩视频的rPPG测量。• 我们进行了跨数据集测试,表明STVEN可以很好地推广,以提高看不见的,高度用于rPPG测量的压缩视频,这在现实世界的应用中体现了有前途的潜力。2. 相关工作远程光电体积描记测量。在 在过去的几年中,几种传统方法通过分析面部感兴趣区域(ROI)上的细微颜色变化来探索来自视频的rPPG测量,包括盲源分离[19,18]、最小均方[12]、多数选择[10]和自适应矩阵完成[31]。但是,这些工作中ROI的选取是定制的或任意的,容易造成信息的丢失.从理论上讲,所有皮肤像素都可以有助于rPPG信号恢复。存在将所有皮肤像素用 于 rPPG 测 量 的 其 他 传 统 方 法 基 于 色 度 的 rPPG(CHROM)[4]、与肤色正交的投影平面(POS)[35]和空间子空间旋转[36,34,13]。所有这些方法都以相等的贡献来处理每个皮肤像素,这与不同的皮肤部分可以承载用于rPPG恢复的不同权重的事实最近,提出了一些基于深度学习的方法用于平均HR估 计 , 包 括 Syn- Rhythm [17] , HR-CNN [25] 和DeepPhys [3]。卷积神经网络(CNN)也用于皮肤分割[2,28],然后从皮肤区域预测HR。这些方法基于空间2D CNN,其未能捕获对于rPPG测量必不可少的时间特征。此外,皮肤分割任务与rPPG恢复任务分开处理,其缺乏这两个高度相关的任务之间的相互特征共享。视频压缩及其对rPPG的影响。 在实际应用中,视频压缩由于其巨大的存储容量和最小的质量下降而被广泛使用.已经开发了许多用于视频压缩的编解码器作为运动图像专家组(MPEG)和国际电信联盟电信标准化部门(ITU-T)的标准。这些标准包括MPEG-2 Part2/H.262 [8]和低比特率标准MPEG-4 Part 2/H.263 [21]。当前一代标准AVC/H.264 [37]在编码效率上实现了H.262 和 H.263 的 近 似 两 倍 。 最 近 , 下 一 代 标 准HEVC/H.265 [27]使用越来越复杂的编码策略,以使编码效率比H.264近似加倍。在视频编码阶段,由于量化的结果,压缩伪影是不可避免的。具体来说,前压缩标准会降低人眼看不到的细微变化.这不利于rPPG测量的目的,其主要依赖于不可见水平的细微变化。直到最近才探索视频压缩对rPPG测量的影响。三项研究[7,16,24]一致证明压缩伪影确实降低了HR估计的准确性。然而,这些工作仅在使用传统方法的小规模私人数据集上进行了测试,目前还不清楚压缩是否也会影响大型数据集上基于深度学习的rPPG方法。此外,这些工作只是指出了rPPG的压缩问题,但尚未提出解决方案。质量增强为压缩视频.在深度学习的高性能的推动下,一些作品介绍了它来提高压缩视频的质量并获得有希望的结果,包括ARCNN [5],深度残差去噪神经网络(DnCNN)[39],生成对抗网络[6]和多帧质量增强网络[38]。然而,它们都是为解决一般的压缩问题或其他任务(如对象检测)而设计的有两个作品[15,40]关于从低质量视频中恢复rPPG。[15]专注于帧分辨率,而不是视频压缩和格式。另一个[40]试图解决压缩视频上的rPPG问题,但ap-1530K0CK0k0kKk0k 0图2.总体框架的图示。在我们的框架中有两个模型:视频质量增强模型STVEN(左)和rPPG恢复模型rPPGPNet(右)。这两种方法都是通过学习相应的损失函数来实现的我们还将引入精心设计的联合训练,进一步提高rPPG恢复性能。方法仅在生物信号处理水平上,视频质量目标0应等于给定输入的cτrPPG被提取,与视频增强无关。据我们所知,没有视频增强方法曾经提出的问题,rPPG恢复高度压缩的视频。为了克服上述缺陷并填补空白,我们提出了一种两阶段、基于端到端深度学习的方法,用于从高度压缩的视频中测量rPPG。3. 方法作为一种两阶段的端到端方法,我们将首先在第3.1节介绍我们的视频增强网络STVEN,然后在第3.2节介绍rPPG信号恢复网络rPPGNet,最后解释如何联合训练这两个部分以提高性能。整体视频cτ和目标0。即p ( c) τ|cτ , 0 ) =p ( cτ|cτ , 0 ) 。( 一)通过学习匹配视频分布,我们的模型生成的视频序列的质量得到提高。同样地,为了使模型更通用,框架还被设置为能够以特定压缩比特率压缩原始视频。这意味着当我们的模型输入视频cτ并且输出较低时,质量目标k,模型G还应该能够生成符合具有特定压缩比特率k. 即p(c)τ|cτ,k)=p(cτ|cτ,k),(2)这里cτ是我们的生成器的输出,输入为cτ,k0框架如图2所示。3.1. STVEN为了提高高压缩视频的质量,我们提出了一个视频到视频的一般-K. 因此,损失函数将有两部分STVEN中的Lrec然后时空视频增强网络Spatio-Temporal Video EnhancementNetworksLrec=EkC,t(cτ(t)− G(cτ,0)(t))2”(《易经》),《易经》。二、这里我们∼+Ek0k||cτ(t)−G(cτ,k)(t)||(三)通过假设来自不同压缩比特率的压缩伪像具有不同的分布来执行细粒度学习。结果,压缩视频被放置到桶[0,1,2,… 表示为C,基于压缩比特率 这里,0和C表示视频C,tk0这里t∈[1,τ]是输出视频的第t帧。此外,与[41]一样,我们还引入了一个循环损失,以更好地重建。 通过这种方式,我们期望我们的模型满足这种情况下:当取G的(c<$τ)时,它被供给cτ, 0k分别具有最低和最高的压缩率。让τ=[ck1,ck2,.,ckτ]是长度为τ的压缩视频序列,k∈C。然后我们的目标是训练一个生成器G,它可以提高压缩的质量特定压缩比特率标签0和压缩比特率标签k作为其输入,随后的输出应当匹配初始输入视频的分布。类似地,我们对原始视频执行循环处理作为视频cτ,使得视频的分布与其中k=0,即原始视频cτ。让说结果,循环损失LCYC在斯蒂文,0τL=E||cτ(t)−G(G(cτ,0),k)(t)||发生器G的输出是c_(10)=[c_(10)1,c_(10)2,...,c0τ]。然后CYC154kC,tk k(四)在输入视频中的条件分布cτg和+E||cτ(t)−G(G(cτ,k),0)(t)||.0kk C,t0 0155我y我我我NPNP表1.STVEN和rPPGNet的体系结构这里”ST Block” representsspatio-temporal block [图3. rPPGPNet的基于皮肤的注意力模块的图示,该模块是无参数的。它根据皮肤置信度和rPPG特征图为不同位置分配重要性softmax操作可以是空间方式或空间时间方式。卷积滤波器的核尺寸分别为1×3×3和3×1×1。 此外,我们还介绍了实例规范化和ReLU在STVEN中进行批量标准化,在rPPGNet中进行ReLU。L= 1−。ΣT不i=1yiyg− ΣT yii=1Tg我i =1。NP”SGAP” is short for spatial global averageΣT(T)的i=102-02ΣTi=1yi)2)(TΣTi=1(2)2-(ΣTi=1yg)2)(五)因此,STVENLSTVEN的总损耗是Lrec和Lcyc之和。为了实现这一目标,我们用时空卷积神经网络构建了我们的模型STVEN。该结构由两端的两个下采样层和两个上采样层组成,中间有六个时空块体系结构的详细信息见表的顶部1.一、3.2. rPPGNet建议rPPGPNet是由一个时空卷积网络,一个基于皮肤的注意模块和一个分区约束模块组成基于皮肤的注意力有助于自适应地选择皮肤区域,并引入分区约束来学习更好的rPPG特征表示。时空卷积网络。 先前的工作如[4,35],通常将空间池RGB投影到另一个颜色空间中,以更好地表示rPPG信息。然后使用基于时间上下文的规范化来去除不相关的信息(例如,由照明或运动引起的噪声)。在这里,我们将这两个步骤合并到一个模型中,并提出了一个端到端的时空卷积网络,该网络将具有RGB通道的T帧人脸图像作为输入,并直接输出rPPG信号。rPPGPNet的主干和架构如图所示。2、桌子。1分别。为了恢复rPPG信号y∈RT,其与对应的地面真实ECG信号yg∈RT相比应该具有准确的脉冲峰值位置,使用负Pearson相关来定义损失函数。它可以配制成与均方误差(MSE)不同,我们的损失是最小化线性相似性误差而不是逐点强度误差。我们在先前的测试中尝试了MSE损失,其实现了差得多的性能,因为信号的强度值与我们的任务无关(即,以测量精确的峰值位置)并且不可避免地引入额外的噪声。我们还将中间层特征(第三个ST块的输出)聚合为伪信号,然后用Lmid约束它们以实现稳定收敛。因此,用于恢复rPPG信号的基本学习对象被描述为LrPPG=αLnp+βLmid(6)其中α和β是用于平衡损失的权重。皮肤分割和注意。各种皮肤修复-离子也有不同密度的血管作为生物物理参数图(黑色素和血红蛋白),因此在不同水平上有助于rPPG信号测量。因此,皮肤分割任务与rPPG信号恢复任务高度相关。这两个任务可以被视为一个多任务学习问题。因此,我们在第一ST块之后采用皮肤分割分支。皮肤分割分支将共享的低级时空特征投影到皮肤域中,这通过具有残余连接的空间和通道卷积来由于在相关的rPPG数据集中没有真实皮肤图,我们通过自适应皮肤分割算法为每个帧生成二进制标签[29]。利用这些二进制皮肤标签,皮肤分割分支能够预测高质量的皮肤图S∈RT×H×W。在这里,我们采用二进制交叉熵L皮肤作为损失函数。为了消除非皮肤区域的影响并增强主要的rPPG特征,我们构建了一个基于皮肤的无参数注意模块,该模块细化了层输出大小内核大小STVEN转换1转换2Conv 3ST BlockDConv 1DConv 2DConv 364×T×128 × 128128×T×64 × 64512×T× 32× 322512×T× 32× 322128×T×64 × 6464×T×128 × 1283×T×128 × 1283× 7× 73× 4× 4Σ4× 4×Σ 43× 3×3 × 64× 4× 41× 4× 41× 7× 7rPPGNet转换1ST BlockSGAP转换232×T×64 × 6464×T×16 × 1664×T×1 × 11×T× 1× 1Σ1× 5×Σ 53× 3×3 × 41× 16× 161× 1× 11560K图4.分区约束,N=4。rPPG通过预测注意图M∈RT×H×W进行特征提取。该模块如图1所示。3,注意力图计算为M(F,S)=σ(平均池(F))+σ(最大池(F))+S),(7)是为STVEN的更新而设计的。在这里,我们采用面向应用的联合训练,我们更喜欢端到端的性能,而不是两个阶段的性能在该训练策略中,我们去掉了周期丢失部分,因为我们期望STVEN恢复更丰富的rPPG信号,而不是视频压缩期间的不相关信息丢失因此,我们只需要知道它的目标标签,并且可以简单地将输入到STVEN的所有输入视频的压缩标签设置为0作为默认值。 这使得模型更具有可推广性,因为它不需要输入视频的主观压缩标记,因此可以在压缩率不明确的新视频上工作。此外,与[9]一样,我们还引入了用于联合训练的感知损失Lp即其中S和F分别表示预测的皮肤图和rPPG特征图。σ和σ分别表示sigmoid和softmax函数Lp=1TfWfHfTf Wf(φ(cτ)(t,i,j)(九)分区约束。为了帮助模型学习更集中的rPPG特征, 引入 局部分 区约 束 。如图4、将深度特征D∈RC×T×H×W划分为N个均匀的时空部分Di∈RC×T×(H/N)×(W/N),i∈ {1,2,.,N}个。然后,采用空间全局平均池化,用于特征聚合的每个部件级特征和独立的1×1×1卷积滤波器被部署用于fi。最终信号频谱预测分区损失描述为t=1i=1j=1-φ(G(cT,0))(t,i,j))2。这里,φ表示rPPGNet中的可微函数,特征映射φ(x)∈RTf×Wf×Hf。方程中的成本函数 (9)保持恢复视频和原始视频在特征图空间中的一致性。此外,我们还让STVEN通过引入LrPPG,如等式(八)、在联合训练中,我们使用从高质量视频中恢复的rPPG信号作为更软的焦油,L部分=NL部分i,其中L部分i是负Pear-得到STVEN的更新,它收敛得更快,i=1np np第i个部件级特征的子丢失。分区损失可以被认为是高级特征的丢失[26]它具有正则化效应,因为每个分区损失彼此独立,从而迫使部分特征足够强大以恢复rPPG信号。换句话说,经由分区约束,模型能够更多地关注rPPG信号而不是干扰。总之,rPPGNet的损失函数可以写为LrPPG Net=LrPPG+γL皮肤+δL部位,(8)其中γ和δ是用于平衡损失的权重。3.3. 联合损失培训当STVEN与rPPGNet分开训练时,输出视频不能保证其对后者的有效性。受[14]的启发,我们设计了一种先进的联合训练策略,以确保STVEN可以增强视频,特别是有利于rPPG恢复,即使在高度压缩的视频上也能提高rPPGNet的性能。首先,我们使用第3.2节中描述的训练方法在高质量视频上训练rPPGNet。其次,我们在具有不同比特率的压缩视频上训练STVEN。最后,我们训练级联网络,如图所示。2、所有高级任务模型参数固定。因此,以下所有损失函数比使用ECG信号更稳定,如我们先前的测试所证明的,ECG信号作为高度压缩的视频的目标可能太牵强和具有挑战性总之,STVEN的联合成本函数L_joint可以公式化为:Ljoint=LrPPGNet+εLp+ρLSTV EN,(10)其中ε和ρ是超参数。4. 实验我们在四个子实验中测试了所提出的系统,前三个在OBF [11]数据集上,最后一个在MAHNOB-HCI [23]数据集上。首先,我们评估了平均HR和HRV特征测量的OBF上的rPPGNet。其次,我们对OBF视频进行压缩,并探讨了视频压缩对rPPG测量性能的影响。第三,我们证明了STVEN可以增强压缩视频,并提高OBF上的rPPG测量性能。最后,我们在MAHNOB-HCI上交叉测试了STVEN和rPPGNet的联合系统,该系统只有压缩视频,以验证系统的通用性。4.1. 数据集和设置在 我 们 的 实 验 中 使 用 了 两 个 数 据 集 -OBF[11] 和MAHNOB-HCI[23OBF是最近发布的157表2. OBF上的性能比较。HR是30秒内的平均心率,RF、LF、HF和LF/HF是需要对rPPG信号进行更精细的心搏间期测量的HRV特征。较小的RMSE和较大的R值指示更好的性能。“rPPGNet base”表示具有L个rPPG约束的时空网络,而“Skin”、“Parts”和“Atten”表示第3.2节中描述的rPPGNet的相应模块。”rPPGNet (full)” includes all modules of theHR(bpm)RF(Hz)LF(u.n)HF(u.n)LF/HF方法SD RMSE R SD RMSE R SD RMSE R SD RMSER[11]第十一届全国人大代表 2.162 0.99 0.078 0.084 0.24 0.573 0.22 0.24 0.573 0.8190.832 零点五七一中国[4] 2.73 2.733 0.98 0.081 零点零八一 0.224 0.199 0.206 0.524 0.199 0.206 0.83 0.8630.459POS [35] 1.899 一千九百零六 0.991 0.07 0.07 0.44 0.158 0.727 0.155 0.158 0.727 0.6630.679 0.687rPPGNet基础2.729 2.772 0.98 0.067 零点零六七 0.486 0.151 0.153 0.748 0.151 0.153 0.748 0.6410.649 零点七二四rPPGNet基础+皮肤2.548 两千五百八十七 0.983 0.067 零点零六七 0.483 0.145 零点一四七 0.768 0.145 零点一四七 0.768 0.6160.622 七四九rPPGNet基础+皮肤+零件2.049 2.087 0.989 0.065 0.065 0.505 0.143 零点一四四 0.776 0.143 零点一四四 0.776 0.5940.604 0.759rPPGNet基底+皮肤+附件2.004 2.051 0.989 0.065 0.065 0.515 0.137 0.139 0.79 0.137 0.139 0.79 0.5910.601 0.76rPPGNet(满)1.756 1.8 0.992 0.064 0.064 0.53 0.133 0.135 0.804 0.133 0.135 0.804 0.58 0.589 0.773用于远程生理信号测量的研究。它包含从100名健康成年人记录的200个5分钟长的RGB视频,还提供了相应的地面真实ECG信号这些视频是以60 fps 的速度 记录,分辨 率为1920 x2080,并以MPEG-4压缩,平均比特率为20000 kb/s(文件大小为728 MB)。长视频被剪切成30秒长的片段用于我们的培训和测试。MAHNOB-HCI数据集是用于远程HR测量评估的最广泛使用的基准之一。它包括来自27个受试者的527个面部视频以及相应的生理信号。视频录制与61 fps的reso-264压缩的780 × 580分辨率视频,平均码率为4200kb/s。在我们的实验评估中,我们使用EXG2信号作为地面真实ECG。我们遵循与以前的作品相同的程序[17 , 25 , 3] , 并 使 用 每 个 视 频 的 30 秒 ( 帧 306 到2135)。高度压缩的视频使用最新版本的FFmpeg进行视频压缩[1]。我们使用了三种编解码器(MPEG 4,x264和x265),以实现三种主流压缩标准(H.263,H.264和H.265)。为了证明STVEN对高度压缩的视频(即,小文件大小和比特率低于1000 kb/s),我们将OBF视频压缩成三个质量级别的平均比特率(文件大小)= 1000 kb/s(36.4 MB)、500 kb/s(18.2 MB)和250kb/s(9.1 MB)。比特率(文件大小)分别比原始视频小20、40和80倍。4.2. 实现细节培训设置。对于所有面部视频,我们使用Viola-Jones面部检测器[33]来检测和裁剪粗糙的面部区域(见图8(a))并去除背景。我们通过开源的Bob1生成二进制皮肤掩码,阈值=0.3作为基础事实。所有面部和皮肤图像分别归一化为128x128和64x64。所提出的方法在Nvidia P100中使用Py进行训练1https://gitlab.idiap.ch/bob/bob.ip.skincolorfilter火炬 每个视频片段的长度为T = 64,而视频和ECG信号分别下采样为30 fps和30 Hz。rPPGNet的分区为N =4。不同损失的权重设置为α = 1,β = 0。5,γ = 0。1,δ = 0。五、作为输入的一部分,压缩比特率标签k由独热掩码向量表示当联合列车-使 用 STVEN 和 rPPGNet , 损 失 平 衡 权 重 ε=1 ,ρ=1e−4。使用Adam优化器,学习率设置为1 e-4。我们训练rPPGNet 15次,STVEN 20000次迭代。 对于联合训练,我们微调斯蒂文额外的10个时期。绩效指标。为了评估恢复的rPPG信号的准确性,我们遵循先前的工作[11,17]并报告OBF数据集上的平均HR和几个常见的HRV特征,然后评估MAHNOB-HCI数据集上的平均HR测量的几种方法。计算四个常用的HRV特征[11,18]用于评估,包括呼吸频率(RF)(以Hz为单位)、低频(LF)、高频(HF)和LF/HF(以归一化单位,n.u.)。恢复的rPPG及其对应的地面真实ECG都经过相同的滤波、归一化和峰值检测过程,以获得心跳间间隔,从中计算平均HR和HRV特征我们报告了最常用的绩效评估指标,包括:标准差(SD)、均方根误差(RMSE)、皮尔逊相关系数(R)和平均绝对误差(MAE)。△PSNR也被用来评价增强前后视频质量的变化。4.3. 关于OBFOBF具有大量的高质量视频片段,这是适合验证我们的方法的鲁棒性在平均HR和HRV水平。我们执行受试者独立的10倍交叉验证协议,以在OBF数据集上评估rPPGNet和STVEN。在测试阶段,平均HR和HRV特征计算如下:158图5.不同比特率下OBF视频的HR测量:所有方法的性能随比特率而下降,而对于相同的比特率水平,rPPGNet优于其他方法。输出30秒长的rPPG信号。rPPGNet对高质量视频的评估。 在这里,我们在原始OBF视频上重新实现了几种传统方法[4,11,35],并在 表中 比较 了结 果。 二、结 果表 明, rPPGPNet(full)优于其他方法的平均HR和HRV特征。根据消融测试结果,我们可以得出以下结论:1)皮肤分割模块(表中的第五行(2)多任务学习的效果稍有2)分区模块(表中的第六行2)通过帮助模型学习更集中的特征来进一步提高性能。3)基于皮肤的注意力教会网络看哪里,从而提高性能。在我们的观察中,具有空间方面的软最大操作的空间注意力比空间-时间注意力工作得更好,因为在rPPG恢复任务中,不同帧的权重应该非常接近。rPPGNet在高度压缩视频上的评估。如第4.1节所述,我们用三个编解码器(MPEG4、x264和x265)将OBF视频压缩成三个比特率级别(250、500和1000kb/s),因此我们有九组(3乘3)高度压缩的视频。我们评估了rPPGNet与其他三种方法在九组视频中的每一组上,使用10倍交叉验证。结果如图所示。五、从图中我们可以看到,首先,当比特率降低时,传统方法和rPPGNet的性能都会观察图6.视频质量增强网络的性能。图7.使用不同增强方法对OBF的高度压缩视频进行HR测量,左:使用x264编解码器;右:使用x265和MPEG 4编解码器(交叉测试)。RMSE越小,表示性能越与之前的发现一致[16,24],并证明压缩确实影响rPPG测量。第二,重要的结果是,当我们在相同的压缩条件下进行比较时,rPPGNet在大多数情况下都优于其他这证明了rPPGNet的鲁棒性。但是在低比特率下的准确度并不令人满意,我们希望通过视频增强来进一步提高性能,即,使用建议的STVEN网络。使用STVEN评估rPPGNet对高度压缩视频的增强。首先,我们证明了STVEN在△PSNR方面确实在一般水平上提高了视频质量。 如图6、STVEN增强后的视频的△ PSNR均大于零,表明图像质量得到了改善。我们也将 STVEN 与 其 他 两 种 增 强 网 络 ( ARCNN[5] 和DnCNN[39])进行了比较,STVEN实现了比其他两种方法更大的△PSNR然后我们将STVEN与rPPGNet级联进行验证-这表明视频增强模型可以提高rPPGNet用于HR测量的性 能 。 我 们 比 较 了 两 个 增 强 网 络 ( STVEN 与 。DnCNN[39]),具有两种训练策略(单独训练与联合训练)。Sepa速率训练意味着增强网络在高度压缩的视频上进行预训练,159表3.MAHNOB-HCI平均HR测量结果方法HRSDHRMAEHRRMSEHRR(bpm)(bpm)(bpm)[第18话]13.5-13.60.36CHROM [4]-13.4922.360.21Li2014 [12]6.88-7.620.81SAMC [31]5.814.966.230.83[17]第十七话10.88-11.08-[25]第二十五话-7.259.240.51DeepPhys [3]-4.57--rPPGNet7.825.517.820.78STVEN+rPPGNet5.574.035.930.88在高质量的原始视频上进行预训练,而联合训练在两个任务联合丢失的情况下微调两个单独训练的结果。结果表明,该方法是可行的。7(左)显示:对于高度压缩视频上的rPPG恢复和HR测量,1)STVEN有助于提高rPPGNet的性能,而DnCNN不能;(2)联合训练比单独训练效果好。令人惊讶的是,在单独训练和联合训练模式下,STVEN增强了rPPGNet,而DnCNN[39]抑制了rPPGNet,这可能是由于STVEN中具有细粒度学习的优秀时空结构和DnCNN单帧模型的限制。STVEN-rPPGNet的泛化能力如图所示。图7(右),其中在x264视频上训练的联合系统在MPEG4和x265视频上进行交叉测试。由于STVEN的质量和rPPG信息增强,rPPGNet能够通过MPEG4和x265压缩从未经训练的视频中4.4. 关于MAHNOB HCI的结果为了验证我们的方法的推广,我们评估我们的方法上的MAHNOB-HCI数据集。MAHNOB-HCI是HR测量中最广泛使用的数据集,并且视频样本由于高压缩率和自发运动而具有挑战性,例如,面部表情采用非受试者独立的9折交叉验证方案(3个受试者一折,共27个受试者)。由于没有原始的高质量视频可用,STVEN首先在OBF上使用x264高度压缩的视频进行训练,然后与在MAHNOB-HCI上训练的rPPGNet级联进行测试。与表中的最新方法相比。3,我们的rPPGNet在主题无关协议中优于基于深度学习的方法[17,25]。在通过STVEN提供更丰富的rPPG信息的视频增强的帮助下,我们的两阶段方法(STVEN+rPPGNet)优于所有其他方法。这表明,即使在高质量视频地面实况不可用时,STVEN也可以交叉提升性能4.5. 可视化和讨论。在图8中,我们可视化了一个示例,以显示我们的STVEN+rPPGNet方法的可解释性。预测图8.模型输出图像的可视化。(a)压缩视频中的人脸图像;(b)STVEN增强的人脸图像;(c)rPPGNet预测的注意力图。图9.预测的rPPG信号(顶部)和对应的视频PSNR曲线(底部)。来自rPPGNet的注意力地图图8(c)关注具有最强rPPG信息的皮肤区域(例如,[32 ][33][34][35][36][37][38][39]如图如图8(b)所示,STVEN增强的面部图像似乎在相似的皮肤区域中具有更丰富的rPPG信息和更强的脉动流,这表明图8(b)的一致性。8(c)。我们还绘制了rPPGNet恢复rPPG信号的高度压缩的视频和没有STVEN。如图9(顶部),受益于来自STVEN的增强,预测信号具有更准确的IBI。此外,Fig.图9(底部)示出了具有STVEN增强的高度压缩视频的较少的客观质量(PSNR)波动,这似乎有助于恢复更平滑和鲁棒的rPPG信号。5. 结论和未来工作在本文中,我们提出了一种基于端到端深度学习的方法,用于从高度压缩的视频中恢复rPPG信号。STVEN用于增强视频,rPPGNet级联以恢复rPPG信号用于进一步测量。在未来,我们将尝试使用压缩相关的指标,如PSNR-HVS-M [20]来约束增强模型STVEN。此外,我们还将探索如何建立一个新的度量,特别是为了rPPG恢复的目的,用于评估视频质量。认识这工作是支持由国家 自然 科学 基础 的 中国(不包括61772419)、TekesFidiproProgram(No.1849/31/2015 ) , Business Finland Project ( No.3116/31/2017),芬兰科学院和Infotech Oulu。160引用[1] Fabrice Bellard和M.尼德玛尔Ffmpeg。[在线]。网址:http://ffmpeg.org。 6[2] 西提乔克·柴楚利,毛里西奥·比利亚罗埃尔,若昂·豪尔赫,卡尔·洛斯·阿尔特塔,加布里埃尔·格林,肯尼·麦考密克,安德鲁·齐瑟曼和莱昂内尔·塔拉森科.用于连续非接触生命体征监测中的患者检测和皮肤分割的多任务卷 积 神 经 网 络 在 Automatic Face Gesture Recognition(FG 2017)中,2017年第12届IEEE国际会议,第266-272页。IEEE,2017年。2[3] Weixuan Chen和Daniel McDuff. Deepphys:使用卷积注意力网络的基于视频的生理测量在欧洲计算机视觉会议(ECCV)的会议记录中,第349-365页。2018. 二、六、八[4] 杰拉德·德·哈恩和文森特·珍妮。来自基于色度的rppg的稳 健 脉 搏 率 IEEETransactionsonBiomedicalEngineering,60(10):2878-2886,2013。一、二、四、六、七、八[5] Chao Dong , Yubin Deng , Chen Change Loy , andXiaoou Tang.通过深度卷积网络减少压缩伪影。在IEEE计算机视觉国际会议论文集,第576-584页,2015年。二、七[6] 莱昂纳多·加尔泰里,洛伦佐·塞代纳里,马可·贝尔蒂尼,阿尔-贝托·德尔宾博.深度生成对抗压缩伪影去除。InICCV,2017. 2[7] 塞巴斯蒂安·汉弗兰德和迈克尔·保罗ppgi信号的视频格式依赖性。在2016年国际电气工程会议论文集。一、二[8] ITU-T Rec. H.262-信息技术-运动图像和相关音频信息的通用编码:视频。国际电信联盟电信标准化部门(ITU-T),技术。众议员,1995年。2[9] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694施普林格,2016年。5[10] Antony Lam 和 Yoshinori Kuno 。 鲁 棒 心 率 measure-surement从视频使用选择随机补丁。在IEEE计算机视觉国际会议的Proceedings,第3640-3648页,2015年。2[11] Xiaobao Li , Iman Alikhani , Jingang Shi , TapioSeppanen,Juhani Junttila,Kirsi Majamaa-Voltti,MikkoTulppo,and Guoying Zhao. obf数据库:用于远程生理信号测量和心房颤动检测的大型人脸视频数据库。在2018年第13届IEEE自动人脸手势识别国际会议(FG2018),第242-249页。IEEE,2018年。五、六、七[12] Xiaobao Li , Jie Chen , Guoying Zhao , and MattiPietikainen.真实场景下人脸视频的远程心率测量第4264-4271页,2014年。一、二、八[13] Xiaobao Li,Xiaopeng Hong,Antti Moilanen,XiaohuaHuang , Tomas Pfister , Guoying Zhao , and MattiPietikainen.阅读隐藏的情绪:自发微表情点样与识别方法 之 比 较 研 究 。 IEEE Transactions on AffectiveComputing,2017。2[14] Ding Liu , Bihan Wen , Xianming Liu , ZhangyangWang,and Thomas S Huang.当图像去噪满足高级视觉任务时:深度学习方法。在IJCAI,2018。5[15] 丹尼尔·麦克达夫。深度超分辨率从视频中恢复生理信息。在IEEE计算机视觉和模式识别研讨会会议论文集,第1367-1374页,2018年。2[16] 丹尼尔·J·麦克达夫,伊桑·B·布莱克福德,贾斯汀·R·特普.视频压缩对使用成像光电体积描记术远程心脏脉搏测量在自动人脸手势识别(FG 2017),2017年第12届IEEE国际会议上,第63IEEE,2017年。一、二、七[17] 牛雪松,韩虎,Shiguang Shan,陈西林同步节律:学习从一般到具体的深度心率估计器2018年第24届国际模式识别会议(ICPR
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功