没有合适的资源?快使用搜索试试~ 我知道了~
4661POSEidon:用于驾驶员姿态估计的Guido Borghi Marco Venturelli Roberto Vezzani Rita Cucchiara摩德纳和雷焦艾米利亚{name.surname}@ unimore.it摘要快速准确的上身和头部姿态估计是自动监测驾驶员注意力的关键任务,这是一个具有挑战性的背景,其特征在于严重的光照变化、遮挡和极端姿态。在这项工作中,我们提出了一个新的深度学习框架,用于深度图像上的头部定位和姿态估计该提案的核心是一个回归神经网络,称为PO-SEidon,它由三个独立的卷积网络组成,后面是一个融合层,专门用于理解深度的姿态。此外,为了重新发现人脸外观对于理解头部位置和方向的内在价值,我们提出了一种新的Face-from-Depth模型,用于从深度学习图像人脸面部重建的结果在质量上令人印象深刻。我们在两个公共数据集上测试了所提出的框架,即Biwi Kinect Head Pose和ICT-3DHP,以及Pandora,这是一个主要受自动设置启发的新的具有挑战性的数据集。结果表明,我们的方法克服了所有最近的国家的最先进的作品,实时运行在每秒30帧以上。1. 介绍如今,我们正在见证汽车领域的一场革命,ICT技术有时比发动机本身更重要。需要新的解决方案来解决许多以人为中心的问题:半自动驾驶、驾驶员行为理解、用于娱乐的人机交互、用于安全驾驶的驾驶员注意力分析仅仅是一些示例。所有这些都基于估计驾驶员姿势的基本任务,并且特别是面部和上身部分,其是驾驶员的主要可见项目。计算机视觉研究[37,50,5,16,13]取得了令人鼓舞的结果,即使由于上下文的一些强约束,它们仍然不完全令人满意:具有强姿态变化的可靠性,对大遮挡(例如眼镜)的鲁棒性,结合非侵入性功能,实时和低成本要求(图①的人。此外-图1. 头部和上半身姿势估计对于监测驾驶员的注意力水平是有用的一些实际情况:从左上角看,司机正在与乘客交谈,正在玩智能手机,正在睡觉,正在看后视镜。然而,基于强度图像的标准技术并不总是适用的,这是由于夜间的照明条件差以及白天的连续照明变化。出于这个原因,基于照明不敏感数据源(如热[51]或深度[35]相机)的计算机视觉解决方案正在出现。因此,我们提出了一个完整的框架,驾驶员监控的基础上,深度图像,可以很容易地获得商业低成本的传感器放置在车辆内。从头部定位开始,该框架的最终目标是估计头部和肩部姿态,测量为俯仰、滚动和偏航旋转角度。为此,提出了一种新的三重回归卷积神经网络架构,称为POSEidon,它结合了深度,运动图像和外观。最具创新性的贡献之一是Face-from- Depth网络,它能够直接从头部深度图像重建灰度人脸。该解决方案源于意识到强度面部图像对于检测头部姿势非常有用[1,17]:在没有强度数据的情况下,我们希望具有类似的好处。由深度图像表示的灰度级面部具有质量上令人印象深刻的相似性,4662图2. 从深度图(中间)重建的灰度面部图像(底部)的示例还示出了对应的地面实况(顶部)。前四个主题已经包含在训练集中,而最后两个是全新的。图(Fig.2)的情况。总之,该文件的新贡献如下:1. 一个完整而准确的框架,从头部局部化到头部和肩部姿态估计,仅基于深度数据,实时工作(30fps);2. 一种新的人脸自深度结构,直接从深度图重建灰度级人脸图像。据我们所知,这是第一次提出这种办法;3. 一个名为Pandora的新数据集,第一个包含带有头部和肩部姿势注释的高分辨率深度数据2. 相关工作头部姿态估计方法可以依赖于不同的输入类型:强度图像、深度图或两者。为了讨论相关工作,我们采用了[35,19]中提出的分类,更新并总结了三个主要类别,即基于特征,基于外观和3D模型配准方法。基于面部特征的方法需要面部(例如,鼻子、眼睛)或姿势相关特征,其应该在所有姿势中可见在[31]中,精确的鼻子定位用于头部跟踪和深度数据的姿态估计。Breibourt等人。 [8]使用几何特征来识别鼻子候选人,以产生最终的姿态估计。在[55,44]中,从RGB和深度图像中提取HOG特征[14],然后分别使用多层感知器和线性SVM进行特征分类。此外[53,56,34]需要在RGB输入图像上清晰可见的面部特征,以及[48]在3D数据上。基于外观的方法依赖于使用原始输入图像的一个或多个分类器,其被训练以执行头部姿势估计。在[46]中,RGB和深度数据被结合起来,利用神经网络来执行头部姿势预测。法内利等人 [19,20,18]训练的随机回归森林用于深度图像上的头部检测和姿势估计。Tulyakov等人。 [52]使用级联树分类器来处理极端头部姿势估计任务。在[1] 中 利 用 了 基 于 RGB 输 入 图 像 的 卷 积 神 经 网 络(CNN)。最近,在[36]中,提出了一种多模态CNN来估计注视方向:回归方法仅通过360类分类器来近似。 合成数据集用于训练CNN,通常需要大量数据,例如。 [28]第10段。3D模型配准方法从所获取的数据创建头部模型;经常需要手动初始化。在[41]中,通过三角形表面补丁描述符将面部点云与姿势候选者在[3]中,使用强度和深度数据来构建用于鲁棒面部特征跟踪的3D约束局部方法。在[23]中,使用RGB和深度数据来拟合3D变形模型以预测头部姿势。此外[3,9,6,10,7,43]建立了用于头部跟踪,动画和姿态估计的3D面部模型其余方法将头部姿势估计任务视为优化问题:[39]使用粒子群优化(PSO)[25]; [4]利用迭代最近点算法(ICP)[30]; [35]结合PSO和ICP技术。[26]使用最小二乘技术来最小化输入深度变化率和预测率之间的差异。此外,其他作品使用极低分辨率图像的线性或非线性回归[11]。在[17]中使用了HOG特征和高斯局部线性映射模型最后,最近的工作产生头部姿态估计执行面部对准任务[58]。一些基于头部姿态估计的工作没有考虑头部定位任务。为了提出完整的头部姿态估计框架,有必要执行头部检测,找到完整的头部或特定点,例如头部中心。对于RGB图像,Viola和Jones [54]经常利用面部检测器例如[23,9,43,3,46]。一种不同的方法要求头部位置到分类器,例如[19,52]。如[35]所述,这些方法由于缺乏不同采集设备的泛化能力而受到影响。只有少数作品在文献中解决的问题,驾驶员的身体姿势估计只集中在上半身或在汽车上下文中。Ito等人[24]采用一种介绍性的方法,在驾驶员身体上放置六个标记点来预测一些典型的驾驶操作。在[15]中提出了2D驾驶员身体跟踪系统,但是严格要求跟踪模型的手动初始化。在[51]中,使用热长波长红外摄像机来分析乘员位置和姿势。在[49]中,开发了一种使用3D头部和手部运动的上身跟踪系统的方法4663IJ2ij图3. 整个POSEidon框架的概述。深度输入图像由低成本传感器(黑色)获取,并提供给头部定位CNN(蓝色),以适当地裁剪上半身或头部区域周围的图像第一个用于肩部姿势估计任务(绿色),而第二个用于通过POSEidon网络(橙色)获得的头部姿势估计(红色)。在中心,Face-from-Depth网络(黄色)从深度图中生成面部的灰度图像[最佳颜色]3. POSEIDON框架POSEidon框架的概述如图3所示。 最终目标是姿态估计驾驶员头部和肩部的位置使用三个俯仰、滚转和偏航旋转角度来表示取向。POSEidon直接处理由商业传感器(例如,,Microsoft Kinect)。头部在前景中 的 位 置 和 大 小 由 头 部 定 位 模 块 基 于 回 归 CNN(Sect.5.1)。 所提供的输出用于裁剪头部或肩部边界框周围的输入帧,具体取决于进一步的流水线类型。在头部周围裁剪的帧被馈送到头部姿势估计块,而其他帧被利用来估计肩部姿势。该系统的核心组成部分是面从深度网络(节。5. 2节),这个网络给整个框架起了名字。它的三叉戟形状是由于包含的三个CNN,每个CNN都在同样的来源上工作:深度、从深度到面和运动续费我们的目标是调查,如果它是可能的imag-ine的外观的脸给出相应的深度数据。Face-from-Depth网络就是为了这个目标而创建的,即使输出并不总是逼真和视觉上令人愉快:然而,有希望的结果证实了它们在头部姿态估计中的积极贡献。所提出的架构融合了自动编码器[33]和全卷积神经网络[29]的关键方面:它由14个卷积层组成,加上最后的一个完全连接层(图1)。4). 在第二层之后插入了一个2×2的最大池化层,在第十三之后响应上采样层。此外,在第一和第二卷积层之后分别添加两个零填充层。我们在一个单一的阶段训练网络,输入的头部图像调整大小,64×64像素。使用双曲正切激活函数,通过以下方式达到最佳训练性能:自适应Adadelta优化器[57]。利用特定的损失函数来突出图像的中心区域,在裁剪步骤之后面部应该在该中心区域,并且考虑重建图像与对应的灰度级地面实况之间的距离图像数据。第一个,即。直接作用于深度数据的CNN1 RCL=R· CI j||2· wN||2·wN(一)4. 面-深度网络从深度看面(FfD)是该框架中最具创新性的元素之一由于照明问题,其中R、C是输入图像的行和列的 数 量 ,相对于水平。 yij、y<$ij∈Rch是来自地面实况(ch=1)和预测外观图像的强度值。最后,项wN引入了一个双变量高斯先验掩模。我们已经取得了最好的结果-设μ=[R,C]T和μ=I·[(R/α)2,(C/β)2]T,22面部的外观在许多情况下并不总是可用的,narios,例如在车辆内部。相反,深度图不受光照条件的影响,但缺乏纹理α和β根据经验设置为3。五二5平方图像R=C=64。图2中报告了输入、输出和地面实况图像的一些可视化示例。.Σ4664aB图4.Face-from-Depth网络的架构5. 从深度估计姿势5.1. 头部定位网络在这一步中,我们设计了一个网络来执行头部本地化,主要假设是一个人在前台。期望的网络输出是头部中心的图像坐标(xH,yH),或者更确切地说,帧中所有头部点的平均位置[47]。采用的深层体系结构的详细信息见图5. 在满足实时性要求的同时,选择了有限深度的小尺寸滤波器。 出于同样的原因,输入图像首先大小为160×132像素。最大池化层在组件具有相同的基于5个卷积层的浅架构,内核大小为5×5,4×4和3×3,仅在前三层上进行前四个卷积层每个有32个滤波器,最后一个有128个滤波器。在网络的尽头,有3个完全连接的层,分别具有128、84和3个神经元。在这种情况下,tanh函数也被利用:我们知道ReLU [38]收敛得更快,但我们在准确性预测方面获得了更好的性能。三个网络被馈送不同的输入数据类型:第一个,直接将头部裁剪的深度图像作为输入;第二个连接到从深度得到面部的输出,最后一个对运动图像进行操作,该运动图像是对连续深度帧对应用标准Farneback算法[21]而获得的。 融合步骤组合了上述三个网络的贡献:在这种情况下,每个组件的最后一个完全连接的层被移除。研究了已提出的不同融合方法[42]。给定具有特定宽度w和高度h的两个特征图xa,xb,对于每个特征通道dx,dx和y∈Rw×h ×d:• 乘法:计算以下项的两个特征图,如ymul=xaxb,dy=dx=dx前四个卷积层中的每一个,而丢弃ab正则化(σ = 0. 5)在全连接层中使用呃。双曲正切激活(tanh)函数为• 串联:堆叠两个特征图,没有任何混合ycat=[xa|xb],dy= dx+ dx采用,以便将连续输出值映射到a前ab定义范围[−∞,+∞]→[−1,+1]。 网络已经随机梯度下降(Stochastic Gradient Descent,SGD)[27]和L2损失函数。•卷积:将特征图与大小为1×1×(dx+dx)/2的滤波器k和作为偏置项的βaB给定帧中的头部位置(xH,yH),a dy-yconv=ycatk+β,dy=(dx+dx)/2aB动态大小算法提供头部边界框,重心(xH,yH)和宽度wH和高度hH,围绕这些值裁剪帧:最终的POSEidon框架利用了两种融合方法的组合,特别是卷积,然后是wH=fx·Rx,h =DHfy·Ry(2)D连接在融合步骤之后,分别由128、84和3个激活组成的三个全连接层和两个dropout正则化(σ=0. (5)完成-其中fx、fy分别是采集设备的以像素为单位的水平焦距和垂直焦距Rx、Ry是面部的平均宽度和高度(对于头部姿势任务Rx=Ry=320),并且D是头部中心与采集设备之间的距离,其是对头部中心周围的深度值进行平均而计算的。图9中叠加了由网络估计的边界框的一些示例。5.2. 波塞冬POSEidon网络主要是作为三个CNN的融合而获得的,并且已经被开发用于对3D姿态角执行结果,估计了连续的欧拉值(3)第三章。三个波塞冬结构 波塞冬是用两步程序训练的期间。 首先,每个单独的网络都是用以下方法训练的:图5. 头部定位网络的架构。46652222降低Lw加权损失:Σ3¨ ¨Lw=<$wi·(yi−f(xi))<$2(3)i=1其中wi∈[0. 2,0。35,0。45]:该重量分布对偏航角给予了更多的重要性,偏航角在所选择的汽车环境中占优势。在单项训练阶段,每个网络的最后一个全连接层被保留,然后被移除以执行第二训练阶段:保持为三叉戟组件学习的权重,在POSEidon的最后三个完全连接的层上执行新的训练阶段,损失函数Lw在等式3中报告。在所有的训练步骤中,SGD优化器[27]被利用,学习率最初被设置为10-1,然后每15个epoch减少2倍。5.3. 肩部姿态估计网络该框架完成了一个额外的网络的肩膀姿势的估计。我们采用与头部相同的架构(第5.2节),对相同的三个姿势角度进行回归。从头部中心位置开始(第5.1节),使用具有重心(xS=xH,yS=yH-(hH/4))的边界框{xS,yS,wS,hS},以及如等式2中所述获得的宽度和高度,但是具有不同的Rx,Ry值,以生成驾驶员颈部周围的图像绘制矩形裁剪:这些值在第7节中进行了测试和讨论。该网络使用SGD优化器[27]进行训练,使用上述加权Lw损失函数(参见等式2)。(3)第三章。双曲正切函数通常用作激活函数。6. 数据集网络训练和测试阶段已经完成,利用两个公开可用的数据集,即Biwi Kinect头部姿势和ICT-3DHP。此外,我们收集了一个新的数据集,称为潘多拉,其中还包含肩膀姿势注释。采用数据增强技术来扩大训练集,以实现空间不变性并避免过度拟合[27]。在垂直,水平和对角线方向上的随机平移,抖动,放大和缩小变换的原始图像已被利用。还应用输入图像的基于百分位的对比度拉伸、归一化和缩放以产生零均值和单位方差数据。以下是对三个采用的数据集的详细描述6.1. Biwi Kinect头部姿势数据集Fanelli等人。 [19]在2013年引入了这个数据集。 它使用Microsoft Kinect传感器(一种结构化IR光设备)获取。它包含约15k帧,RGB图6.来自Pandora数据集的样本帧(640×480)和深度图(640×480)。20名受试者参与了录音:其中4人是记录了两次,总共24个序列。偏航角、俯仰角和横滚角的真实值与头部中心和校准矩阵一起报告。原始文件没有报告训练集和测试集之间采用的分割;因此不能保证公平的比较。为了避免这种情况,我们在下面清楚地报告了所采用的拆分6.2. ICT 3DHP数据集ICT-3DHP数据集由Baltrusaitis等人于2012年引入[3]。它使用Microsoft Kinect传感器收集,包含约14k帧的RGB图像和深度图,分为10个序列。图像分辨率是640×480 像素。 利用硬件 传感器( Polhemus Fas-track)来生成地面实况注释。该设备被放置在每个受试者佩戴的白色帽子上,在RGB和深度帧中都可见。此外,很少的主题和有限的帧数量使得该数据集不适合深度学习方法。6.3. Pandora数据集我们收集了一个新的具有挑战性的数据集,称为潘多拉。该数据集是专门为论文中描述的任务创建的(即,头部中心定位、头部姿态和肩部姿态估计),并且受到自动运动上下文的启发。正面固定装置获取被摄体的上半身,模拟放置在仪表板内的摄像机的视角。其中,受试者还执行类似驾驶的动作,如抓住方向盘,看后视镜或侧镜,换档等。潘多拉包含110个注释序列使用10名男性和12名女性演员。每个主题都被记录了五次。Pandora是第一个公开可用的数据集,它结合了以下功能:• 肩部角度:除了头部姿势注释外,Pandora还包含表示为偏航、俯仰和滚动的肩部姿势的地面实况数据。• 宽角度范围:受试者进行宽头部(±70°滚转、±100°俯仰和±125°偏航)和肩部(±70°滚转、±60°俯仰和±60°偏航)运动。4666HEAD POSE 估计 误差 [欧拉角]方法年份数据俯仰滚转偏航平均值Fanelli [19] 2011深度8.5± 9.9 7.9± 8.3 8.9±13.0 8.43 ± 10.4杨[55]2012RGB+深度9.1± 7.4 7.4± 4.9 8.9±8.3 8.5 ± 6.9[39]第三十九话2012深度6.6 6.7 11.1 8.1[43]第四十三话2013RGB+深度4.3 5.2 5.1 4.9巴尔特鲁赛蒂斯[3]2012RGB+深度5.1 11.3 6.3 7.6[1]第一章2014RGB 3.4± 2.9 2.6± 2.5 2.8±2.4 2.9 ± 2.6[32]第三十二话2014深度2.5 2.6 3.6 2.9赛义德[44]2015RGB+深度5.0± 5.8 4.3± 4.6 3.9±4.2 4.4 ± 4.9帕帕佐夫[41]2015深度2.5± 7.4 3.8± 16.0 3.0±9.6 4.0 ± 11.0德鲁阿尔[17]2015RGB 5.9± 4.8 4.7± 4.6 4.9±4.1 5.2 ± 4.5迈耶[35]2015深度2.4 2.1 2.1 2.2刘[28]2016RGB 6.0± 5.8 5.7± 7.3 6.1±5.2 5.9 ± 6.1波塞冬2016深度1.6±1.7 1.8±1.8 1.7±1.5 1.7 ±1.7表1.Biwi数据集上的结果输入裁剪是使用地面实况头部位置完成的对于每个受试者,两个序列进行约束的运动,分别改变偏航,俯仰和滚转角,而三个额外的序列是完全不受约束的。• 伪装:受试者穿着或使用衣服以及各种物体来产生头部和/或肩部遮挡。比如人们佩戴处方眼镜、太阳镜、围巾、帽子,操作智能手机、平板电脑或塑料瓶。• 面向深度学习:数据集包含超过250k的全分辨率RGB(1920×1080)和深度图像(512×424)以及相应的注释。• 飞行时间(ToF)数据:Microsoft Kinect One设备用于获取深度数据,具有更好的质量,第一个Kinect版本[45]创建的其他数据集数据集的每一帧由RGB外观图像、相应的深度图、对应于上身部分的骨骼关节的为了方便肩部角度通过转换为相应旋转矩阵的欧拉角获得,该旋转矩阵从以用户为中心的系统[40]获得,并由以下单位向量(N1,N2,N3)定义:惯性测量单元(IMU)传感器。传感器已被受试者佩戴在不可见位置(即,在头的后部),以避免在彩色和深度图像上分散注意力。IMU传感器在每个序列开始时都经过校准和对准,确保了所提供角度的可靠性。该数据集是公开的(http://imagelab.ing)。unimore.it/pandora/)上提供。(a) 左(b)上(c)右(d)底部 (e)中间图7.应用于Biwi帧的模拟遮挡类型的可视示例7. 实验结果所提出的框架已经使用第6节中描述的数据集进行了深入测试。此外,还在Pandora上评价了一项消融研究。受试者10、14、16和20的序列已用于测试,其余的用于训练。表2报告了内部评价,提供了每个角度和每个系统配置获得的估计误差的平均值和标准差与Fanelli等人类似。[19],我们还报告了平均准确度作为良好估计的百分比(即角度误差小于15°)。表2的第一行显示了pRS−pLSpRS−pLSN1×U1×U型pRS−pSBpRS−pSBN2=N1×N3(四)基线系统的性能,使用仅将姿态估计网络和输入深度帧直接馈送到网络而不进行处理和裁剪。裁剪步骤被包括在以下配置中:其中pLS、pRS和pSB是左肩、右肩和脊柱基部关节的3D坐标。头部姿势角度的注释已使用其他行,使用地面真实头部位置作为中心。使用单一的网络,他们的夫妇和完整的POSEidon架构所获得的结果。的N=1N=3U=4667√± ±±HEAD POSE 估计 误差 [欧拉角]架构输入裁剪融合头精度俯仰滚转偏航单个CNN深度水深测量FfD灰度级扫描MI√-8.1± 7.1 6.2± 6.3 11.7± 12.2 0.553-6.5± 6.6 5.4± 5.1 10.4± 11.8 0.646-6.8± 7.0 5.7± 5.7 10.5± 14.6 0.647-7.1± 6.6 5.6± 5.8 9.0± 10.9 0.639-7.7± 7.5 5.3± 5.7 10.0± 12.5 0.609双CNN深度+FfD深度+MI深度+ FfD +MI√浓度5.6± 5.0 4.9±5.0 9.8 ± 13.4 0.698浓度6.0± 6.1 4.5±4.8 9.2 ±11.5 0.690浓度6.3± 6.1 5.0±5.0 10.6 ±14.2 0.657波塞冬深度+ FfD + MI深度+ FfD +MImul+concat 5.6± 5.6 4.9±5.2 9.1± 11.9 0.712conv+concat 5.7± 5.6 4.9±5.1 9.0 ± 11.9 0.715表2. Pandora上头部姿态估计的结果,比较不同的系统架构。基线是在源深度图上工作的单个CNN。准确度是正确估计的百分比(误差<15%)。FfD:从深度看面,MI:运动图像。最后一行突出显示了使用输入类型对的convfusion以及随后的concat步骤所达到的最佳性能即使融合方法的选择具有有限的效果(如[42,22]中深入研究的),系统的最显著改进是一起利用三种输入类型。图8显示了每个三叉戟组件的估计误差比较:每个曲线图绘制了特定网络配置相对于地面真值的误差分布。深度数据允许达到正面头部的最低错误率,而其他输入数据类型在存在旋转姿态的情况下更好。这些图表也突出了POSEidon的平均能力。表2包括对深度还原面网络的重建能力的间接评估第三和第四行报告的结果是使用第5.2节中描述的网络获得的,分别将重建的表观图像和原始灰度图像作为输入。类似的结果证实,所获得的图像重建至少对于姿态 估计 任 务是 足够 准 确的 我 们使 用 Biwi 数 据集 将POSEidon的结果根据Fanelli等人 [19],18名受试者用于训练系统,而两名受试者用于测试。更具体地说,我们利用了闭塞部分间距头辊偏航(a) 左(b) 顶部2.6±3.042.5 ±21.24.0 ±2.912.3 ±9.37.8 ±8.110.2 ±7.6(c)右侧2.1± 1.8 2.8±2.6 8.4 ± 8.5(d)底部4.2± 3.3 4.3±3.5 4.0 ± 3.0(e)中部11.0± 5.3 3.0±2.8 6.1 ± 4.9随机12.5十八点三5.36.17.47.1表3.模拟遮挡情况下POSEidon的估计误差。该系统被馈送有来自使用图7中所示的掩模遮挡的Biwi数据集的图像。最后一行的结果是通过对每个帧应用随机掩码来获得的。序列11和12用于测试,其余的用于训练。表1报告了引用文献中所示的相应结果。POSEidon在Biwi数据集上取得了令人印象深刻的结果:所有三个角度的平均误差都在2μ m以下,标准差很小。该系统克服了所有已报告的方法,包括Meyer等人的最新提议[35]。性能优于基于深度学习,3D数据和回归的其他方法[1,36]。此外,POSEidon还克服了处理外观数据的方法。标有星号(*)的提案不遵循相同的分割或应用不同的测试程序:因此,与他们比较可能并不公平。表中[39]报告的结果取自[35],以便于比较。如前所述,在实际情况下,驾驶员头部可能会受到手和物体(如智能手机、围巾、瓶子等)造成的严重闭塞的影响。出于这个原因,我们进行了一组特定的实验来测试POSEidon在存在遮挡或缺失数据的情况下的可靠性我们人为地应用图7中描述的遮罩来移除输入帧的一部分并模拟遮挡。POSEidon的相应性能如表3所示,这也证实了系统在这些情况下的可靠性。头部的上身部分的缺失强烈影响系统性能,特别是对于俯仰角的估计。同样,鼻子周围的头部在姿态估计中起着至关重要的作用,如误差gener所强调的参数肩部精度Rx红黄间距辊偏航没有作物2.5 ±2.33.0±2.63.7 ±3.40.8777002502.9 ±2.62.6±2.54.0 ±4.00.8458502502.4 ±2.22.5±2.23.1 ±3.10.9118505002.2±2.12.3±2.12.9±2.90.924表4.Pandora上肩位姿估计的误差和平均精度4668± ± ±±图8. Pandora数据集上每个POSEidon组件的错误分布。在x轴上报告了地面真值角度,在y轴上报告了每个输入类型的误差分布。由闭塞类型(e)表示。由于其他数据集中缺乏相应的注释,执行肩部姿势估计的网络仅在Pandora上进行了测试。结果报告见表4,其中包含不同的图像裁剪(第5.3节)。报告的结果是非常promising,达到92%以上的准确性。为了进行公平的比较,在Ta中报告的结果使用地面真实磁头位置作为裁剪过程的输入来获得BLE1和2。最后,我们还使用ICT-3DHP数据集测试了整个管道,包括第5.1节中描述的头部定位网络头部定位的平均误差(以像素为单位)和姿态估计误差总结在表5中。有时,估计的位置生成头部的更有效的裁剪。因此,整个流水线在Biwi数据集上的头部姿势估计上表现更好。POSEidon在ICT-3DHP数据集上也获得了有价值的结果,并提供了与最新技术水平相当的结果同时处理深度和RGB数据的方法(4.9±5.3,4.4±4.6,5.1±5.4 [44],7.06,10.48,6.90 [3],用于俯仰,滚转和偏航)。完整的框架已经在配备NVidia Quadro k2200GPU板的台式机和配备NVidia GTX 860 M的笔记本电脑上实现和测试,利用Keras[12]和Theano[2]后端。在这两种情况下都获得了实时性能,处理速率超过每秒30帧,具有有限的专用图形内存要求。图9中报告了系统输出的一些示例,其中使用彩色条直观地显示了六个姿态角。另外,原始深度图、从深度重构的面和在输入到PO-SEidon中给出的运动数据被放置在每个帧的左侧。预先训练的网络和模型是公开的。数据集位置 头俯仰侧倾偏航双向3.27±2.191.5±1.4 1.7±1.72.3±2.1ICT-3DHP-5.0±4.33.5±3.57.1±6.1潘多拉4.27 3.257.6 8.54.8 4.810.612.7表5.完整POSEidon管道的Biwi、ICT-3DHP和Pandora数据集的结果(即头部定位、裁剪和姿态估计)。8. 结论和今后的工作一个完整的框架,头部定位和驾驶员姿态估计称为POSEidon。不需要对特定面部特征进行繁琐的计算。该系统在存在遮挡、头部和肩部的极端姿势的情况下也显示出实时和令人印象深刻的结果。此外,仅使用深度数据增强了在不同光照条件下的效率。所有这些方面使得所提出的框架适合于特定的具有挑战性的背景,如汽车。一个新的和高质量的3D数据集,潘多拉,然后提出并公开发布。该系统采用模块化架构开发:如果可以在训练期间捕获RGB和深度图像,则可以使用完整的架构否则,应从系统中删除深度-面模块,使用深度+MI组合,达到最差但仍令人满意的性能。图9. 建议框架输出的可视化示例。头部(H)和肩部(S)姿势角度报告为以0°为中心的条形图。深度图,面从深度和运动图像输入,把描绘在每帧的左边。[best颜色]4669引用[1] B. Ahn,J.公园,我。S. 奎恩使用深度神经网络从单目摄像机进行实时头部第82[2]R. Al-Rfou, G. 阿兰 A. Almahairi, C. 安格穆勒,D. Bahdanau,N.巴拉斯湾Bastien,J. Bayer、A. 别里科夫,A. Belopolsky等人Theano:一个用于快速计算数学表达式的Python框架。arXiv预印本arXiv:1605.02688,2016年。[3] T. Baltrus spanaitis,P. Robinson和L. P.莫伦西用于刚性和非刚性面部跟踪的3D约束局部模型。在IEEE Int.计算机视觉和模式识别(CVPR),第2610-2617页,2012年。[4] T. Bar?r,J. F. Reute r和J. M. 佐尔讷河基于多模板icp三维点云对齐的医生头部位置和2012年第15届IEEE智能交通系统国际会议,第1797-1802页[5] L. M. Bergasa,J. Nuevo,M. A.索特洛河Barea和M. E.洛佩兹实时监控驾驶员警惕性系统。IEEE Transactionson Intelligent Transportation Systems,7(1):63[6] 诉Blanz和T.维特三维人脸合成的可变形模型在Proc. ofthe 26th annual conference on Computer graphics andinteractive techniques,pages 187[7] A. Bleiweiss和M.沃曼融合飞行时间深度和颜色的鲁棒头 部 姿 态 估 计 。 IEEEInternational Workshop onMultimedia Signal Processing(MMSP),第116-121页[8] M. D. Breiwei,D. Kuettel,T.魏斯湖范古尔,还有H.菲斯特从单一距离影像进行即时人脸姿态估测。 在proc IEEE Int.Conf. 计算机视觉和模式识别(CVPR),第1-8页。IEEE,2008年。[9] Q. Cai,C.盖洛普角zhang和Z.张某使用商品深度相机的3D可变形面部跟踪。欧洲计算机视觉会议论文集,第229-242页,2010年[10] C. Cao,Y. Weng、黄毛菊S. Lin和K.舟用于实时面部动画 的 3d 形 状 回 归 。 ACM Transactions on Graph-ics(TOG),32(4):41,2013.[11] J. Chen,J. Wu,K. Richter,J. Konrad,and P.伊什瓦使用极低分辨率图像估计头部姿势方向在2016年IEEE西南图像分析和解释研讨会上,第65-68页[12] F.胆keras。https://github.com/fchollet/keras,2015.[13] B. Czupry n'ski和A. Strupcz e wski. 高精度头部姿态跟踪测量。在关于主动媒体技术的国际会议上,第407-420页。Springer,2014.[14] N. Dalal和B. Triggs用于人体检测的定向梯度直方图计算机视觉与模式识别,2005年。CVPR 2005。 IEEE计算机协会会议,第1卷,第886-893页。IEEE,2005年。[15] A.达塔湾,巴西-地Sheikh和T.卡纳德铰接平面系统的线性运动估计。在IEEE Int. Conf. 计算机视觉和模式识别(CVPR),第1-8页。IEEE,2008年。[16] A. Doshi和M. M.特里维迪复杂环境下视觉注意转移过程中的头和眼注视动态。视觉杂志,12(2):9[17] V. Drouard, S. 巴 G. 伊万格尔, A. Deleforge,以及R.霍罗德基于概率高维回归的头部姿态估计。 在procIEEE International Conference on Image Processing,第4624-4628页,2015年。[18] G. 法内利M.Dantone,J.Gall、黑腹拟步行虫A.Fossati和L.范古尔用于实时3d人脸分析的随机森林 Int. J. Comput.Vision,101(3):437 -458,2013.[19] G. Fanelli,J.Gall和L.范古尔实时头部姿态估计与随机回归森林。 在proc IEEE国际会议 计算机视觉和模式识别(CVPR),第617-624页,2011年。[20] G. Fanelli,T. Weise,J. Gall,and L.范古尔来自消费者深 度 相 机 的 实 时 头 部 姿 势 估 计 在 Joint PatternRecognition Symposium,第101-110页[21] G.在后面非常高精度的速度估计,使用方向张量,参数运动,并同时分割的运动场。在IEEE国际计算机视觉会议论文集,第1卷,第171-177页中。IEEE,2001年。[22] C. Feichtenhofer、A. Pinz和A.齐瑟曼。用于视频动作识别 的 卷 积 双 流 网 络 融 合 。 arXiv 预 印 本 arXiv :1604.06573,2016年。[23] R. S. 吉亚斯岛 Arandjel o vi c′和D. 劳伦多从低质量消费级rgb-d传感器获得高第二届社会互动计算模型研讨会论文集:人机媒体通信,第25- 34页,2015年。[24] T. Ito和T.卡纳德预测驾驶员在车内的操作。自动人脸&识别,2008年。FG'08。第八届IEEE国际会议,第1-6页。IEEE,2008年。[25] 肯尼迪。粒子群优化机器学习百科全书,第760-766页。Springer,2011.[26] F. A. Kondori,S. Yousefi,H. Li,S. Sonning和S.儿子。使用Kinect的3D头部姿态估计。在无线通信和信号处理国际会议(WCSP)的论文集,第1-4页[27] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展,第1097[28] X. Liu,W. Liang,Y. Wang,S. Li,和M。裴基于合成图像训练的卷积神经网络的三维头部姿态估计IEEEInternational Conference on Image Processing,第1289-1293页,2016年[29] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络 。在IEEE计算 机视 觉和模 式识 别会议 论文 集(Proceedings of the IEEEConference on Computer Visionand PatternRecognition),第3431-3440页[30] K.- L.低线性最小二乘优化用于点-面icp表面配准。Techrep - Chapel Hill,北卡罗来纳大学,2004年4月。4670[31] S. Malassiotis和M. G.斯特林齐斯基于距离数据的鲁棒实时3d头部姿态估计。Pattern Recognition,38(8):1153[32] M. Martin,F. v. d. Camp和R. Stiefelhagen在消费者深度相 机 上 实 时 头 部 模 型 创 建 和 头 部 姿 势 估 计 。 在Proceedings of the 2014 2Nd International Conference on3D Vision-Volume 01,3DVIEEE计算机协会。[33] J. 马西,美国。Meier,D.CiresReichan,和J.施密
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功