没有合适的资源?快使用搜索试试~ 我知道了~
从单个图像中估计头部姿态的FSA-Net方法:回归与特征聚合相结合,采用紧凑的模型和细粒度结构映射空间分组功能,超越先前的方法
1087FSA-Net:学习细粒度结构聚合用于从单个图像估计头部杨宗义1,2陈怡婷1林燕玉 1庄永玉1,21台湾中央研究院2国立台湾大学shamangary@citi.sinica.edu.twjamie@media.ee.ntu.edu.twyylin@citi.sinica.edu.twcyy@csie.ntu.edu.tw摘要本文提出了一种从单幅图像中估计头部姿态的方法。以前的方法通常通过界标或深度估计来预测头部姿态,并且需要比必要的更多的计算。我们的方法是基于回归和特征聚合。为了有一个紧凑的模型,我们采用软逐步回归方案。现有的特征聚合方法将输入视为一袋特征,从而忽略了它们在特征图中的空间关系。我们建议学习一个细粒度的结构映射空间分组功能之前,聚集。细粒度结构提供基于零件的信息和池值。通过利用空间位置上的可学习和不可学习的重要性,可以生成不同的模型变量并形成一个完整的集合。实验结果表明,我们的方法的执行国家的最先进的方法,包括无地标的和那些基于地标或深度估计。在仅输入单个RGB帧的情况下,我们的方法甚至优于利用多模态信息(RGB-D,RGB-Time)的偏航角此外,我们的模型的内存开销比以前的方法小100倍1. 介绍面部建模和分析长期以来一直是计算机视觉中的活跃研究课题[2,3,4,5,6,7,21,22,24,25]。大型面部数据集[16,37,48]和用于不同面部分析问题的有效方法已经提出多年,例如面部识别[4,6]或识别,面部年龄估计[45],地标检测[3]和头部姿势估计[35]。本文讨论了头部姿态估计问题,它有许多应用,如驾驶员行为监测和人类注意力建模。它还可以用于改善或提供其他问题的额外信息,例如身份识别[39],表情识别[46]或注意力检测[8]。图1.使用所提出的方法的姿态估计的样本结果。我们的方法仅将单个RGB帧作为输入。示出了头部运动的两个序列的结果。蓝线表示被摄者所面对的方向;绿色的线表示向下的方向,红色的线表示侧面。从单幅图像中估计头部姿态是一个复杂的问题。头部姿势是包含偏航角、俯仰角和滚动角的3D向量从图像估计头部姿势本质上需要学习2D和3D空间之间的映射一些方法利用更多的模态,例如深度图像中的3D信息[28,25,14,27]或视频序列中的时间信息[16]。深度图像提供在2D图像中缺失的3D信息。视频捕捉人头部的连续运动,并提供额外的信息,以帮助姿态估计。然而,学习时间信息通常通过具有高计算成本的递归结构来实现,而捕获深度信息通常需要并不总是可用的特殊相机。大多数单帧姿态估计方法利用面部标志检测来估计头部姿态[20,3]。然而,这将导致更多的计算并导致更大的模型。因此,所有这些模型都不适合在内存和计算资源有限的平台上采用本文提出了FSA-网络,一个紧凑的模型,从一个单一的图像,使用直接回归无地标的姿态估计为了具有紧凑的模型,所提出的模型建立在软阶段回归方案上[45]。为了收获多尺度信息,像许多回归方法[45,3]一样,我们的方法结合了来自不同层/阶段的特征图。为了更准确地预测-1088因此,它需要学习有意义的中间特征来执行回归。可以采用最先进的可扩展聚合/池化方法(如capsulenetworks [36]和NetVLAD [1])从候选特征中提取代表性特征。然而,这些方法通常将输入视为一包特征,并忽略其在特征地图中的空间关系所提出的方法的关键思想是空间分组的像素级的特征图一起到一组编码的空间信息的功能。这些特征然后被用作用于聚合的候选特征。也就是说,所提出的方法学习以找到用于将像素级特征空间分组在一起以形成更多功率区域级特征的细粒度结构映射。所提出的细粒度结构映射可以解释为一个更灵活和通用的工具池。常规池化在局部窗口内的固定位置处采用一组特征。一个预定义的操作被应用到他们没有考虑到数据内容,而我们的方法池的功能,从更广泛的领域与更通用的操作。为了获取更通用的空间信息,我们采用了可学习和不可学习的重要性度量,并且可以生成互补的模型变体,以生成强大而鲁棒的集合。实验表明,在模型大小仅5MB,比传统的最先进的方法小约100倍。 对于偏航角预测,所提出的方法甚至有利于对抗利用诸如RGB-D或RGB-Time的多模态的图1示出了所提出的方法的样本结果显然,姿态估计相当准确。2. 相关工作基于标志的方法。他们首先找到面部标志,然后使用它们来估计头部姿势。给定一组2D面部标志,头部姿势可以通过3D计算机视觉技术(诸如POSIT [11])来确定。基于回归的方法[5,43,12,23,42]绘制初始面,并通过回归将绘制的面与真实面递增对齐。基于模型的方法[26,24,10]用几个关键点对人类面部进行建模,然后通过训练的外观模型在真实面部上定位关键点。基于深度学习的方法[48,3,38]使用卷积神经网络(CNN)估计3D人脸模型,并与以前的方法相比获得虽然有效,但地标检测对于姿态估计是不需要的,并且经常引起不必要的计算。不同模式的方法。基于地标的方法需要手动注释的标签作为地面实况。然而,获取带注释的地标是劳动密集型的。在某些低分辨率图像的情况下,即使是专家也无法准确地确定面部标志位置。认为-考虑到成本和准确性,一些提出的没有面部标志的面部对准算法[6,35]。另一方面,采用不同的方式来补偿信息损失也是非常普遍的[14,27,9,29]。RGB。几种方法仅利用单个RGB图像进行姿态估计[6,35,32,22,31]。FacePoseNet [6]采用CNN进行3D头部姿态回归,这提高了面部识别的准确性。Nataniel等人[35]将ResNet50与多损耗架构相结合。每个损失包含一个分箱的姿态分类和回归,分别对应于偏航,俯仰和滚动。通过分箱分类,他们的方法获得了姿势的鲁棒邻域预测。深入基于强度的头部姿态估计算法在诸如夜间期间的不良照明或白天期间的大的照明变化的条件下不能产生准确的头部姿态。法内利等[14]利用判别随机回归森林进行深度图像的头部姿态估计。Meyer等人[27]提出了将3D变形模型配准到深度图像,并随着时间的推移逐渐细化配准。RGB+时间。用于面部视频分析的方法将RGB图像序列作为输入并利用时间信息。先前的视频面部分析方法[9,29]通过贝叶斯滤波器或粒子滤波器处理时间相干性。受贝叶斯滤波器和递归神经网络(RNN)之间相似性的启发,Guet al. [16]提出通过RNN随时间跟踪面部特征。多任务方法。头部姿态估计与其他人脸分析问题密切相关。最近的工作[7,31,49]表明,学习相关的任务联合实现更好的结果比单独执行个别任务。几种方法[31,32]提出使用CNN同时执行各种相关的面部分析任务。Hyperface [31]通过CNN学习共同特征,用于同时执行面部检测,面部地标定位,头部姿势估计和性别识别。KEPLER [22]通过Heatmap-CNN学习全局和局部特征,以探索结构依赖性。关注我们的方法提供了姿态估计的关注。我们的注意力可以以端到端的方式与姿势估计一起优化,而无需复杂的附加技术[18,19,40,30,17]。与CBAM [41]和Attentional Pooling [15]等其他使用注意力的池化方法相比,我们的方法与它们有以下首先,他们专注于分类问题(图像分类和动作识别),而我们的方法是回归问题。其次,它们只生成一个或两个空间热图,而我们的模型能够生成多个空间注意力建议,这对于细化回归值来说更灵活。最后,我们的方法考虑了多尺度的信息,它1089k=1k=13. 方法在本节中,我们首先制定姿态估计问题(第3.1节)。接下来,我们介绍软逐步回归并将其应用于姿态估计(第3.2节)。然后,我们给出了一个建议的FSA网络的概述(第3.3节). FSA网络的两个重要组成部分,评分函数和细粒度结构映射,分别在3.4节和3.5节中描述。最后,我们解释架构的细节(3.6节)。阶段为了适应量化误差和类别模糊y,移位向量^n(k)调整每个仓的中心,并且缩放因子^k缩放第k级处的所有仓的宽度,从而修改表示值μ^(k)。用神经网络的方法求出了Likep→(k)、→η(k)和εk。对于输入图像,SSR-Net输出K组阶段参数{p→(k),→η(k),ηk}K并使用软阶段式回归来估计年龄。软逐步回归公式可以应用于任何回归问题。对于给定的回归问题,软逐步回归函数3.1. 问题公式化SSR({p→(k),→η(k),ηk}K)接受K组阶段参数-对于基于图像的头部姿态估计问题,我们给出了一组训练人脸图像X={xn|n = 1,…N}和每个图像的姿态向量xn,其中N是图像的数量。每个姿态向量yn是其分量分别对应于偏航角、俯仰角和滚转角的3D矢量。我们的目标是找到一个函数F,使它预测的y=F(x)尽可能匹配给定图像x的真实头部姿势y我们通过最小化预测姿态和地面真实姿态之间的平均绝对误差(MAE)来找到F计算并输出期望值作为回归值根据等式(2)。在本文中,我们应用软逐步回归的问题的姿态估计从一个单一的图像。与年龄估计问题不同,姿态估计问题估计向量,而不是标量。我们用SSR-Net-MD表示多维回归的SSR-Net,并如第3.6节所述修改SSR-Net的双流结构。虽然SSR-Net-MD给出了相当好的性能,我们建议使用功能聚合来进一步改进它。J(X)=1NΣNn=1y3.3. FSA网络图2(a)描绘了拟议的金融服务管理局的架构其中y=F(xn)是训练图像xn的预测姿态。这是一个回归问题的性质。3.2. SSR净MD我们提出的解决方案建立在SSR-Net [45]上,它提供了一个用于从单个图像进行年龄估计的紧凑模型。受DEX [33]的启发,SSR-Net将年龄估计的回归问题作为 一 个 分 类 问 题 , 将 年 龄 域 划 分 为 几 个 年 龄 类(箱)。网络执行分类任务并输出年龄类的概率分布。给定概率分布,年龄被估计为期望值。为了具有紧凑的模型,SSR-Net采用由粗到细的分类策略。每个阶段仅执行具有少量类别的中间分类,例如当前年龄组内的下一个阶段细化前一阶段指定的年龄组内的决策[45]。总之,SSR-Net执行分层分类,并使用以下软阶段回归来估计年龄:ΣKy=p→(k)·μ→(k),(2)k=1其中K是阶段数;p→(k)是第k阶段的概率分布;μ→(k)是由第k阶段组成的向量Net. 输入图像经过两个流。有K级(图2(a)中K= 3)。每个流在一个阶段提取特征图。对于第k级,提取的特征图由级融合模块融合在一起(图2(a)中两个流之间的绿框阶段融合模块首先通过逐元素乘法来组合两个特征图然后应用C1×1卷积-将组合的特征图转换为C变化的解决方案nels。最后,使用平均池化将特征图的大小减小到w×h。因此,我们获得了第k阶段的w×h×c特征图Uk特征图Uk是一个空间网格,其中每个单元包含特定空间位置的c然后将这些K个特征图馈送到映射模块中以获得K个c′-d向量,每个向量将用于获得SSR函数的级输出{p→(k),→η(k),ηk}。给定大小为w×h×c的K个特征图,聚合模块是将它们聚合成一个小的数字,在我们的例子中,K c′-d特征,每个阶段一个 通过聚合过程,可以从一袋特征中提取出更有意义的表示。现有的特征聚合方法,例如capsule [36]和NetVLAD[1],可以用于该任务。然而,如第1节所述,这些方法将输入特征视为一袋特征,并完全忽略了特征图中显示的空间信息为了克服这个问题,我们建议在将特征馈送到1090m(1xMn(1xBKMUKCMC(1x(1xm)m恩KCBK(1xn)n=(wxh)xK重塑HWK细粒度结构可视化Σ中国单级映射跨阶段映射(a) FSA-网络(b)细粒度结构映射图2. 建议的FSA网络概述。源代码可在https://github.com/shamangary/FSA-Net获得聚合过程因此,特征聚集模块的输入将是用全局空间信息编码的更强大的特征,而不是特征图中的像素级特征1数据,它可能会遭受潜在的过拟合问题时,有显着的差异之间的训练和测试数据。受ORB启发[34],使用变量选择,第二个选项探索出于空间分组的目的,对于每个要素图,使用方差表示重要性,即,Φ(u)=1CCi=1(ui−µ)2我们首先通过一个分数计算它的注意力地图Ak其中μ=ci=1ui. 注意方差是可微的ing函数(第3.4节)。接下来,特征图Uk和注意力图Ak被馈送到细粒度结构映射模块中。 该模块通过对特征图中的像素级特征进行空间加权来学习提取n′ c-d个代表性特征。然后,这些向量被馈送到特征聚合方法中,用于生成包含K c′-d个特征的回归的最终代表性特征集V向量Vk用于生成阶段输出{p→(k),→η(k),ηk},用于第k级,通过完全-连接层然后将这些输出代入用于获得姿态估计的SSR函数。3.4. 评分函数为了更好地对特征进行分组,测量像素级特征的重要性是有用的。给定像素级特征u=(u1,. . .,uc),我们设计了一个评分函数Φ(u)来衡量其重要性,以便于空间分组。因此,对于每个特征图Uk,我们获得重要性或注意力图Ak,其中Ak(i,j)= Φ(Uk(i,j))。我们探索了三种选择作为评分函数。(1)1×1卷积,(2)方差和(3)均匀。第一种选择采用额外的1×1卷 积 层 作 为 可 学 习 的 评 分 函 数 , 即 , Φ ( u ) =σ(w·u),其中σ是sigmoid函数,w是可学习的卷积核。尽管不是可学习的。最后一个选项,uniform,是平等地对待所有特征y,i。例如, Φ(u)=1。在这种情况下,U=U,并且不执行细粒度结构映射。注意这三个选项探索了可学习的、不可学习的和恒定的替代方案。它们可以提供补充资料。在第4节中,我们将比较这些选项的性能。我们发现它们捕捉到不同的方面,最佳实践是通过将它们的预测平均在一起来形成一个集成模型。这样,姿态估计更鲁棒。3.5. 细粒度结构映射利用特征图Uk和它们的注意力图Ak,下一步是执行细粒度结构映射以提取一组代表性特征Uk。图2(b)停止这个过程。我们首先将所有的特征映射Uk展开成一个矩阵U,其第一维度为n=w×h×K,U∈Rn×c。换句话说,U是包含跨所有阶段的所有特征图中的所有c-d像素级特征的2D矩阵。对于第k个阶段,我们希望找到一个映射Sk,选择U中的要素并将其分组为一组n′个代表性要素Uk,Uk=SkU,(3)虽然使用1×1卷积作为评分函数其中Sk∈Rn′×n和U∈∈Rn′×c. 也就是说,我们认为-允许我们学习如何从训练1我们将与特征图的单元格相关联的特征称为像素级特征。请注意,特征图的一个从n个像素级特征中提取n′个代表性特征,并将其线性组合。 映射Sk是通过对所有像素级特征取加权平均来执行线性降维的线性变换。U1UK…阶段融合(wxhxcU细粒度结构映射一个评分函数K=2k=1…(细粒度结构特征聚合特征聚合SSR模块回归预测V(Kxk=3流这两路流式传输一个K1091KK′′我们将映射Sk写为两个可学习映射C和Mk的乘积:Sk=CMk,(4)其中C∈Rn′×m,M∈Rm×n,m是参数r。映射Mk专用于第k级,而映射C跨所有级共享。映射Mk和C形成如下:Mk=σ(fM(Ak)),(5)C=σ(fC(A)),(6)其中σ是S形函数; fM和fC是由全连接层定义的两个不同函数;并且A =[A1,A2,. . . ,AK]是所有注意力地图的连接。fM和fC都是端到端可训练的FSA网络的一部分,它们是通过从训练数据中学习来发现的对Sk使用可分离映射不仅减少了参数的数量,而且还稳定了训练。此外,为了更稳定的训练,对Sk的每一行执行L1归一化地图Mk的每一行都可以折叠成K个地图的大小为w×h,其中的每一个表示像素级特征在空间上如何对代表性FEA做出贡献。与特定行对应的值。因此,Mk的每一行可以被视为对姿态估计是突出的细粒度结构图5显示了一些地图。最后,我们将所有U节点连接在一起,形成最终的表示特征的集合,U=[U=1,U=2,. . . ,U<$K],其中U<$∈R(n·K)×c. 然后,将代表性特征的集合Ue馈送到特征聚合方法中,以获得用于逐阶段回归的最终特征集合VeRK×c3.6. 体系结构的详细信息与 DeepCD [44] 和 SSR-Net 类 似 , FSA-Net 有 两 个流。它们由两个基本构建块BR和BT构建:BR(c){SepConv2D(3×3,c)-BN-ReLU},BT(c)<${SepConv2D(3×3,c)-BN-Tanh},其中SepConv 2D是可分离的2D卷积; BN de-注 意 批 归一 化 , c 是 参 数 。第 一 个 流 的 结 构 为{BR(16)-AvgPool(2 ×2)-BR(32)-BR(32)-AvgPool(2×2)}-{BR(64)-BR(64)-AvgPool(2×2)}-{ BR(128)-BR(128)}。每对之间的层托架形成一个舞台。阶段结束时的要素图是舞台的输出第二流的结构是{BT(16)-MaxPool(2×2)-BT(32)-BT(32)-MaxPool(2×2)}- {BT(64)-BT(64)-MaxPool(2×2)}-{BT(128)-BT(128)}。由于有三个阶段,因此参数K等于3在我们的FSA网络中。至于其他参数,在我们当前的实现中,我们为特征图设置w= 8,h= 8和c= 64在所有实验中,我们为细粒度结构映射设置m= 5和n′= 7,为特征聚合模块设置c′= 16图3.数据集的例子。第一行来自300 W-LP合成数据集。在这个数据集中,不同姿势的图像被渲染,而不是在现实世界中拍摄。第二行来自AFLW2000数据集,其中包含许多不同的真实世界背景和光照条件。第三行来自在受控环境下收集的BIWI4. 实验本节描述了实施、培训和测试数据集、评价方案、结果、与其他方法的比较以及消融研究。4.1. 执行我们使用Keras和Tensorflow后端来实现提出的FSA-Net。对于训练中的数据增强,我们应用了随机裁剪和随机缩放(0。八点零一分。(2)训练图像。我们使用了90个epochs来训练网络,使用Adam优化器进行初始学习-0. 001。学习率降低了一个因素,0的情况。每30个时期1次。实验在具有Intel i7 CPU和GTX 1080Ti GPU的计算机上进行。我们的模型的推理时间约为每幅图像1ms。4.2. 数据集和评价方案数据集。在实验中采用了三种流行的头部姿态估计数据集:300 W-LP [48]、AFLW 2000 [48]和BIWI [13]数据集。300 W-LP数据集[48]来源于300 W数据集[37],其统一了用于具有68个标志的面部对准的若干数据集。Zhu等使用带有3D图像网格的面部轮廓生成61,225个大姿势样本,并通过翻转进一步扩展到122,450合成的数据集被命名为300 W跨大姿势(300 W-LP)。AFLW2000数据集[48]为 AFLW数据集[21]的前2000张图像提供了地面真实3D人脸和相应的68个地标数据集中的人脸在不同的光照条件和表情下有很大的姿态变化。BIWI数据集[13]包含受控环境中20名受试者的24个总共有大约15000个1092数据集中的帧除了RGB帧之外,数据集还提供每个帧的深度图像。图3显示了这三个数据集的示例。对于这些数据集的训练和评估,我们遵循以下两个常见协议。方案1. 对于该协议,我们遵循Hopenet [35]的设置,其目标也是无地标头部姿势估计:在合成300 W-LP数据集上进行训练,同时在两个真实世界数据集(AFLW2000和BIWI数据集)上进行测试。请注意,与Hopnet的设置相同,在BIWI数据集上进行评估时,我们不使用跟踪,只考虑其RO使用MTCNN [47]人脸检测,站角在[-99,+99]的范围内我们比较了几个国家-使用该协议的现有技术的基于地标的姿态估计方法。我们用于本方案的批量为16。方案2. 在该协议中,我们使用BIWI数据集中70%的视频(16个视频)进行训练,其他视频(8个视频)进行测试。MTCNN采用经验跟踪技术对BIWI数据集中的人脸进行检测,避免了人脸检测失败的问题请注意,该协议被几种具有不同模态(如RGB,深度和时间)的姿态估计方法采用,而我们的方法仅使用单个RGB帧。在本方案中,我们使用批量84.3. 竞争方法我们将我们的方法与以下用于姿态估计的最先进方法进行第一组方法是基于地标的。KEPLER[22]通过修改后的GoogLeNet架构同时预测面部关键点和姿势。粗位姿监督用于改进地标检测。FAN[3]是一种最先进的地标检测方法。它对遮挡和头部姿势具有鲁棒性。该方法获取多尺度信息,MB偏航间距辊Mae[20]第20届中国国际音乐节-23.113.610.515.8FAN(12分)[3]1836.3612.38.719.12机场班车[35]-5.9211.868.278.653DDFA [48]-5.408.538.257.39Hopenet(α= 2)[35]95.96.476.565.446.16Hopenet(α= 1)[35]95.96.926.645.676.41[45]第四十五话1.15.147.095.896.01FSA-帽(w/o)2.95.276.715.285.75FSA-帽(1×1)1.14.826.194.765.25FSA-帽(变量)1.14.966.344.785.36FSA-帽-融合5.14.506.084.645.07表1.与AFLW2000数据集上的最新方法进行比较。所有这些都是在300 W-LP数据集上训练的。MB偏航间距辊Mae3DDFA [48]-36.212.38.7819.1KEPLER [22]-8.8017.316.213.9[20]第20届中国国际音乐节-16.813.86.1912.2FAN(12分)[3]1838.537.487.637.89Hopenet(α= 2)[35]95.95.176.983.395.18Hopenet(α= 1)[35]95.94.816.613.274.90[45]第四十五话1.14.496.313.614.65FSA-帽(w/o)2.94.565.152.944.22FSA-帽(1×1)1.14.786.243.314.31FSA-帽(变量)1.14.565.213.074.28FSA-帽-融合5.14.274.962.764.00表2.与BIWI数据集上最先进的方法进行比较。所有这些都是在300 W-LP数据集上训练的。4.4. 方案1在这种情况下,训练通过跨层多次合并块特征来实现。Dlib[20]是一个标准的人脸库,包含地标检测,人脸检测和其他几项技术。3DDFA[48]使用CNN将3D模型拟合到RGB图像。密集的3D模型允许即使在遮挡的情况下也能对齐标志 。 Hopenet[35] 是 一 种 无 标 志 回 归 方 法 。 它 采 用ResNet并使用MSE和交叉熵损失对其进行训练。还存在一些利用多模态的头部姿态估计方法。VGG16(RGB)和VGG16+RNN(RGB+Time)是由Gu等人提出的。[16]第10段。他们分析了基于贝叶斯过滤器分析的CNN和RNN组合的多种可能性。Martin[25]通过构建和配准3D头部模型,从来自消费者深度相机的深度图像中估计头部姿势。DeepHeadPose[28]专注于低分辨率RGB-D图像。它使用分类和回归来预测估计置信度。300 W-LP数据集。 表1和表2分别将FSA-Net与AFLW2000和BIWI数据集上的最新方法进行了比较。平均绝对误差(MAE)被用作评价指标。在该协议中,训练数据集和测试数据集的特征是完全不同的。训练数据集是合成的,而测试数据集是真实的。无标志方法可以更好地适应训练和测试之间的域差异。因此,在AFLW 2000 和 BIWI 数 据 集 上 , 无 地 标 方 法(Hopenet,SSR-Net-MD和FSA-Net)的性能优于基于地标的方法。图4通过显示几个示例将我们的模型与Hopenet 进 行 了 比 较 。 SSR-Net-MD 和 FSA- Net 都 比Hopenet更紧凑。所有FSA-Net变体的性能都优于SSR-Net-MD。FSA-Caps表示使用胶囊[36]进行特征聚合的FSA- Net有评分功能有三个选项:w/o表示不应用细粒度特征映1093射,1×1表示1×1卷积,1094方法MB偏航间距辊Mae图4. AFLW2000数据集上的姿势估计(方案1)。从上到下,它们是地面真理,Hopenet的结果和我们的结果。蓝线表示被摄者所面对的方向;绿色的线表示向下的方向,红色的线表示侧面。最好的颜色。变种方差。尽管1×1卷积有可能从数据中学习到更好的映射,但它可能会受到影响,过度拟合。因此,从实验来看,它并不总是导致最佳性能。我们发现,它们与简单平均值的融合(表示为FSA-Caps-Fusion)产生了最稳健的结果。KEPLER [22]也倾向于找到关键点之间的结构关系,但我们学习细粒度结构映射的方案比他们的迭代方法有效得多。4.5. 方案2BIWI数据集包含来自多种模态的信息。除了使用单个帧内的颜色信息之外,还可以利用深度或时间信息来提高性能。表3报告了使用不同模式的方法的性能。基于RGB的组仅使用单个RGB帧,而RGB+Depth和RGB+Time分别利用除了颜色信息之外的深度和时间信息。 我们的方法(FSA-Caps-Fusion)仅使用单个RGB 帧,并且优于其对等组中的所有其他方法。VGG16很接近,但它的模型尺寸要大得多。我们的模型没有使用多模态信息的方法表现得那么好,但离它们不远。此外,我们的方法是最好的预测偏航角,甚至优于那些多模态信息。4.6. 可视化图5显示了我们的方法捕获的细粒度结构。该模型是在300 W-LP数据集上训练的FSA-Caps(1×1)模型第一列显示估计的姿势。其余的是如何从像素级fea中聚合一些代表性特征的可视化。tures,一列一个功能。热图是恢复的Mk的行向量的重塑版本,基于rgb[28]第二十八话-5.675.18--[45]第四十五话1.14.244.354.194.26VGG16 [16]5003.914.033.033.66FSA-帽-融合5.12.894.293.603.60RGB+深度[28]第二十八话-5.324.76--马丁[25]-3.62.52.62.9RGB+时间VGG16+RNN [1]>5003.143.482.603.07表3.与BIWI数据集上的最新方法进行比较。70%的视频用于培训(16个视频),30%用于测试(8个视频)。有三组方法使用来自不同模式的信息:RGB+深度和RGB+时间。(a)(b)(c)(d)(e)图5。所发现的细粒度空间结构的可视化。该模型是在300 W-LP数据集上训练的FSA-Caps(1×1)第一列示出了估计的头部姿势。其他四列通过热图显示四个空间结构其可视化由模型发现的Mk它们显示了像素是如何为特定的代表性特征聚合的。前两行的示例来自AFLW2000数据集,后两行的示例来自BIWI数据集。第3.5节。例如,图5(c)中的热图显示,前额和眼睛区域是针对特定特征聚合的。检测到的区域在图像中是相似的,但由于头部姿势而略有不同。作为另一个示例,图5(e)关注右脸颊。4.7. 消融研究我们已经进行了消融研究,以了解单个组件的影响,包括不同的1095测试集AFLW2000(方案1)BIWI(方案1)方法SSRFSA网络SSRFSA网络聚集--胶囊[36]--胶囊[36]逐像素评分-W/O1×1变种W/O1×1变种-W/O1×1变种W/O1×1变种模型大小(MB)1.10.50.80.82.91.11.11.10.50.80.82.91.11.1Mae6.015.545.485.415.755.255.364.654.614.534.164.224.314.28MAE(晚期融合)-5.145.07-4.194.00表4.不同聚集方法(无聚集和胶囊)的消融研究和方案1的不同像素评分函数。结果是偏航角、俯仰角和滚转角的MAE。SSR表示SSR-Net-MD [45]。测试集BIWI(方案2)方法[45]第四十五话FSA网络聚集--胶囊[36]NetVLAD [1]逐像素评分-W/O1×1变种W/O1×1变种 W/O1×1变种模型大小(MB)1.10.50.80.82.91.11.10.60.80.8Mae4.263.954.013.833.843.773.923.973.883.88MAE(晚期融合)-3.753.603.68表5.不同聚集方法(无聚集、胶囊和NetVLAD)和方案2下不同像素评分函数的消融研究。结果是偏航角、俯仰角和滚转角的MAE。6.56.05.55.04.5偏航俯仰滚转角5.55.04.54.03.53.0偏航俯仰滚转角4.504.254.003.753.503.253.001x1var.不混料偏航俯仰滚转角(a) AFLW 2000(方案1)(b)BIWI(方案1)(c)BIWI(方案2)图6.不同测试数据集和相应协议的每个角度的比较。我们将FSA- Caps-Fusion的组件分为三个部分,1×1,var.,和W/O变体。图例聚合方法(无、胶囊、NetVLAD)和不同的像素评分函数(无、1×1对流或方差)。表4和表5报告了结果。由于我们的方法是基于SSR-Net-MD,其性能也被列为参考。 结果由我们改进-将capsule或NetVLAD作为特征聚合。这意味着最先进的聚合方法可以自然地与我们的方法相结合。图6显示了几种设置的偏航角、俯仰角和滚转角的详细比较。虽然单个评分函数模型并不总是获得良好的结果,但融合集成模型在每种情况下都保证了最佳结果,这表明在不同的模型变体中学习了完整的信息。5. 结论在本文中,我们提出了一种新的方法来获得更有意义的聚集功能与细粒度的空间结构。通过定义可学习和不可学习的评分像素级特征的函数,我们能够学习互补的模型变体。实验表明,这些变体的集成优于最先进的方法(基于地标和无地标的方法)而模型尺寸比以前的方法小100倍左右。 此外,它对偏航角的角度甚至比具有多模态信息的那些方法(诸如RGB-D或RGB-Time再流模型)更准确我们证明了通过学习有意义的中间特征来改善回归结果是可能的。虽然我们只展示了姿态估计问题,我们相信,这个想法可以扩展到其他回归问题。致谢本工作得到了科学技术部(MOST)的部分支持,资助号为107-2628-E-001-005-MY 3和108-2634-F-007-009,MOST人工智能技术和所有Vista医疗保健联合研究中心,授权108-2634-F-002-004。1x1var.不混料1x1var.不混料平均绝对误差(MAE)平均绝对误差(MAE)平均绝对误差(MAE)1096引用[1] Relja Arandjelovic,Petr Gronat,Akihiko Torii,TomasPa-jdla,and Josef Sivic. NetVLAD:用于弱监督位置识别的CNN架构。计算机视觉与模式识别会议论文集(CVPR),第5297-5307页[2] Relja Arandjelovic和Andrew Zisserman。关于VLAD 计算机视觉与模式识别会议(CVPR),2013年。[3] Adrian Bulat和Georgios Tzimiropoulos我们离解决2D 3D人脸对齐问题还有多远?(and 230,000个3D面部标志的数据集)。在2017年国际计算机视觉会议(ICCV)上[4] Kaidi Cao , Yu Rong, Cheng Li , Xiaoou Tang , andChen Change Loy.基于深度残差等变映射的姿态鲁棒人脸识别。在计算机视觉和模式识别会议(CVPR)上,2018年。[5] 曹旭东,魏一晨,方文,孙健。通过显式形状回归进行面部对齐。国际计算机视觉杂志(IJCV),107(2):177[6] Feng Ju Chang,Anh Tuan Tran,Tal Hassner,IacopoMasi,RamNevatia,andGerardMedioni.FacePoseNet:为无标志的面部对齐做一个案例。 法律程序中计算机视觉和模式识别研讨会(CVPR研讨会),2017年。[7] 陈冬,任少卿,魏亦琛,曹旭东,孙坚。联合级联人脸检测和对齐。欧洲计算机视觉会议(ECCV),2014年。[8] Eunji Chong , Nataniel Ruiz , Yongxin Wang , YunZhang,Agata Rozga,and James M.瑞格连接凝视、场景和注意力:通过注视和场景显著性联合建模的广义注意估计。在2018年欧洲计算机视觉会议(ECCV)的会议记录中[9] 格里戈里奥斯湾Chrysos,Epameinondas Antonakos,Patrick Snape,Akshay Asthana,and Stefanos Zafeiriou.一个综合性能评估的变形面跟踪International Journal ofComputer Vision(IJCV),126(2-4):198[10] 蒂莫西·F作者声明:Christopher J.作者:David H. 库珀和吉姆·格雷厄姆主动形状模型的训练与应用。计算机视觉与图像理解,61(1):38[11] 丹尼尔·F DeMenthon和Larry S.戴维斯基于模型的物体姿态,25行代码。欧洲计算机视觉会议(ECCV),1992年。[12] 皮奥特·多尔,彼得·韦林德和皮埃特罗·佩洛纳。级联姿态回归。计算机视觉与模式识别会议,2010年。[13] Gabriele Fanelli , Matthias Dantone , Juergen Gall ,Andrea Fossati,and Luc Van Gool.用于实时3D人脸分析的随机森林。International Journal of Computer Vision(IJCV),101(3):437[14] Gabriele Fanelli,Thibaut Weise,Juergen Gall,and LucVan Gool.来自消费者深度相机的实时头部姿势估计。在Joint Pattern Recognition Symposium,第101-110页。Springer,2011.[15] Rohit Girdhar和Deva Ramanan动作识别的注意力集中。神经信息处理系统会议(NIPS),2017年。[16] Jinwei Gu,Xiaodong Yang,Shalini De Mello,and JanKautz.动态面部分析:从贝叶斯滤波到递归神经网络。计算机视觉与模式识别会议(CVPR),2017年。[17] 许光瑞,林燕玉,川永玉。Deepco3:通过共峰搜索和共显著性检测进行深度实例共分割。在计算机视觉和模式识别会议(CVPR)上,2019年。[18] 许光瑞,蔡中奇,林燕玉,钱小宁,庄永玉。无监督的基于CNN的协同显着性检测与图形优化。欧洲计算机视觉会议(ECCV),2018年。[19] 胡元婷,黄家斌,亚历山大G.施温使用运动显著性引导的时空传播的无监督视频对象分割。欧洲计算机视觉会议(ECCV),2018年。[20] 瓦希德·卡齐米和约瑟芬·沙利文用回归树的集合进行一毫秒在计算机视觉和模式识别会议(CVPR)上,2014年。[21] 放大图片作者:Peter M.Roth和Horst Bischof。野生动物的面部标志:用于面部标志定位的大规模真实世界数据库。在计算机视觉Woskshops国际会议论文集,2011年。[22] 阿米特·库马尔、阿扎德·阿拉维和拉玛·切拉帕。KE-PLER:通过学习高效的H-CNN回归器对无约束人脸进行关键点和姿态估计。IEEE International Conference onAutomatic F
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功