没有合适的资源?快使用搜索试试~ 我知道了~
1苗条密集姿势:从稀疏注释和运动线索中进行节俭学习Natalia Nev erova1James The wlis2 Rıza Alp Guéler3IasonasK okkinos3AndreaVedaldi11Facebook AI Research2 University of Oxford3 Ariel AI不光流 t+ 1不光流t+ 1全注解有限密集注释稀疏注释关键点GT传播等方差(a)减少注释负载的不同策略(b)额外的源自我监督图 1 : 这 项 工 作 的 目 标 是 发 现 有 效 且 具 有 成 本 效 益 的 数 据 注 释 策 略 , 用 于 在 野 外 学 习 密 集 对 应 关 系(DensePose)。我们通过利用(a)用更便宜的注释(如对象掩码或关键点)增强的DensePose标签的稀疏子集,以及(b)视频中的时间信息来传播地面实况并执行密集的时空等方差约束,从而显着减少了注释工作摘要DensePose通过将图像像素密集映射到体表坐标来取代传统的地标检测器然而,这种能力带来了极大的注释成本,因为监督模型需要手动标记每个姿势实例的数百个点。因此,在这项工作中,我们寻求方法来显着精简密集姿态注释,提出更有效的数据收集策略。特别是,我们证明,如果注释收集在视频帧中,它们的功效可以通过使用运动线索免费为了探索这个想法,我们引入了DensePose-Track,这是一个视频数据集,其中选择的帧以传统的DensePose方式进行注释。然后,基于DensePose映射的几何属性,我们使用视频动态来及时地传播地面实况注释以及从Siamese等方差约束中学习。在对各种数据注释和学习策略进行了详尽的经验评估后,我们证明这样做可以在强基线上显着改善姿态估计结果。然而,尽管最近的一些作品提出了什么建议,我们表明,仅仅通过对孤立帧应用几何变换来合成运动模式的效果要差得多,并且当从视频中提取运动线索时,它们的帮助要大得多。James Thewlis和Iasonas Kokkinos在这项工作中与Facebook AIRe-search(FAIR)合作。1. 介绍图像和视频中的人物分析通常基于地标检测器,其仅通过诸如手、肩膀和脚踝等关键点提供对人体的稀疏描述。然而,最近,一些作品已经超越了这种限制,转向对物体类别、细粒度变形[18,26,7,23]和密集几何结构[13,32,9,12,20,19,29]。这种理解可以通过将复杂的3D模型拟合到图像中来实现,或者,如在DensePose [12]的情况下,以更数据驱动的方式,通过将对象的图像映射到描述其表面的密集UV帧来实现。尽管取得了这些成功,但这些技术中的大多数都需要大量带注释的数据进行训练,这与模型的复杂性成正比。例如,为了训练DensePose,作者引入了一个复杂的注释框架,并使用它来为5万人进行众包手动注释,在每个人身上标记一组相当密集的DensePose数据集的成本估计为30 K $。这种成本对于诸如在应用中特别重要的人的视觉对象是合理的,但是这些方法不能合理地扩展到对整个视觉世界的密集理解。为了解决这个问题,诸如[29,27]的论文已经提出了类似于DensePose的模型,但是用自我监督[29]或者甚至1091510916没有监督[27]。特别是[29]的工作已经证明,可以针对简单对象(例如人类和宠物面部)学习密集对象帧映射,只需要使用映射与图像的合成几何变换的兼容性,一种形式化为学习的映射的等方差的属性然而,这些方法通常无法学习复杂的铰接对象,例如人。因此,在本文中,我们研究了弱监督学习和自监督学习与复杂密集几何模型(如DensePose)学习之间的相互作用(图1)。①的人。我们的目标是确定一种策略,使我们能够使用尽可能少的监督,以便最终将像DensePose这样的模型扩展到更非刚性的对象类别。我们首先探索使用较弱的超视源,如语义分割掩码和人类关键点。事实上,在DensePose中收集符号如此昂贵的一个关键原因是需要手动点击大量的点来用表面坐标标记图像像素。相比之下,遮罩和关键点不需要建立对应关系,因此收集起来要便宜得多。我们表明,即使关键点和掩模本身是不足以建立正确的UV坐标系,它们使我们能够大大稀疏的图像到表面的correspondences 所需的数量,以达到给定的性能水平。然后,我们将稀疏化注释的想法扩展到时间域,并转向注释视频中的选定视频帧,而不是如[12]所做的静态图像为此,我们引入了DensePose-Track,这是一个大规模数据集,由在构成PoseTrack数据集的帧序列上收集的密集图像到表面对应组成[16]。虽然手动注释视频帧的成本与注释类似的静止图像的成本没有什么不同,但视频包含运动信息,如我们所展示的,可以用于倍增注释的功效为了做到这一点,我们使用了一种现成的光流算法[14]来建立视频中不同帧之间可靠的密集对应然后,我们以两种方式使用这些对应关系:将注释从一个帧转移到另一个帧,并强制执行类似于[29]的等方差约束我们将此策略与最近几篇论文[29,31,30]采用的方法进行比较,这些论文为此目的使用合成图像变换 , 从 而 用 简 单 的 旋 转 , 仿 射 失 真 或 薄 板 样 条(TPS)代替实际对象变形场。至关重要的是,我们证明了,虽然合成变形对于学习像DensePose这样复杂的模型并不是特别有效,但数据驱动的流工作得很好,比仅使用手动收集的静态监督训练的最强现有基线有了很大的改进。2. 相关工作最近的几项工作旨在减少细粒度图像理解任务中对强监督的需求。例如,在语义分割中[25,22,21]成功地将弱监督或半监督学习与低级图像分割技术结合使用。尽管如此,语义分割仍然无法提供对对象的表面解释,而是充当一个密集的从更多的几何方向开始,一些作品旨在建立RGB图像对[ 5 ]或集合之间的密集对应关系,例如。在最近的作品[32,9]。最近,[29]使用等方差原理将图像集与公共坐标系统对齐,而[27]表明可以训练自动编码器以通过UV映射变形的模板重建图像。最近,[20]表明,当用于训练3D可变形模型时,轮廓和地标足以恢复3D形状这些方法使无监督或自监督学习更接近可变形模板范例[11,6,2],这是连接图像与表面坐标的核心。沿着类似的思路,最近在[8]中的稀疏地标局部化的背景下提出了平移的等方差,其中表明它可以稳定网络特征和所得检测器。3. 方法我们首先总结了DensePose模型,然后讨论了两种方法,以显着降低成本的收集注释监督这个模型。3.1. UV图DensePose可以被描述为一个密集的身体标志检测器。 在界标检测中,人们感兴趣的是检测身体界标u = 1,. . . ,U,例如肩膀、手和膝盖。因此,给定一个包含一个人(或几个人)的图像I:R2→R3,目标是告诉每个像素p∈R2是否包含任何U界标,如果是,则是哪些。DensePose通过考虑地标UR2的密集空间(通常称为UV空间)来推广这一概念。然后,它学习一个函数Φ(实际上是一个神经网络),该函数以图像I为输入,并返回每个像素p与UV 点u=Φp(I)∈ U<${φ}的关联。由于某些像素可能属于背景区域而不是人,因此该函数还可以返回符号φ来表示背景。空间U可以被认为是人体表面的实际上,身体被分成多个图表,每个部分都有一个预测的UV贴图10917FlowNet2帧序列光流实高斯场p虽然DensePose比传统的地标探测器更强大,但训练成本也更高。在传统的界标检测器中,训练数据由示例图像I的数据集组成,其中界标被人工注释;用于密集姿态的概念上等效的注释是针对图像中的每个像素p密集收集的UV关联Φgt(I)∈ U。然后可以通过最小化类型为Φ(I)-Φgt(I)的损失来训练密集姿态模型Φ。实际上,只能手动注释UV贴图的离散化版本。即便如此,这需要注释者在每个人的实例中点击数百个点,同时面临标记像素时的模糊性问题,这些像素不是位于明显的人类特征上(例如,腹部上的点)。DensePose工作的一个关键创新[12]是一个帮助人类注释者的新系统,静态图像等方差有 效 地 收 集 这 些 数 据 。 尽 管 有 这 些 创 新 , 但DensePose-COCO训练数据集由5万人实例组成,其中500万个点必须手动点击。不用说,这一必要的工作使得DensePose很难应用于新的对象类别。3.2. UV贴图的几何属性可以通过利用我们知道必须先验满足的UV图的属性来减少蛮力手动标记。具体地,考虑两个图像I和I',并且假设在这两个图像中的像素p和p'包含相同的身体点(例如,左眼)。然后,根据定义,映射Φ必须将pix elsp和p′发送到同一个UV点,因此我们可以写为:图2:实数(上图)和合成(下图)转换用于执行等方差约束的字段3.2.1对应字段:合成与真实注释(2)中的对应字段g并不比首先收集DensePose注释因此,(2)只有在可以以更便宜的方式获得对应关系时才有用。在这项工作中,我们对比了两种方法:合成对应关系或从视频中测量2)的情况。第一种方法被最近的几篇论文采用[29,31,30],从图像扭曲的分布中随机采样g典型的变换包括仿射和薄板样条(TPS).给定翘曲g,训练三元组t=然后通过取随机输入图像来生成(g,I,I′),′′′Φ p(I)= Φ p(I)。(一)我和应用到它的翘曲,以获得我=gI。现在考虑特殊情况,其中I和I′是显示人平滑变形的视频帧(其中视点变化是3D变形的特殊情况)。然后,排除自遮挡和类似的问题,两个图像中的对应像素(p,p′)通过对应的场g:R2→R2相关联,使得我们可以写p′=g ( p)。第 一次近似(即 假设Lambertian反射并且忽略遮挡、投射阴影和其它复杂情况)图像I′是图像I的变形gI(即,p′:(gI )(p′)=I(g−1(p′))。在这种情况下,相容性方程(1)可以重写为所谓的等方差约束Φp(gI)=Φg(p)(I)(2)也就是说几何变换g“弹出”函数Φ。接下来,我们将讨论如何以不同的方式使用等方差这里有两个选择:(1)如何获得对应域g(3.2.1节)和(2)如何将其作为学习中的约束(3.2.2节)。第二种方法是从数据中估计对应字段。如果给我们一个视频序列,这可以大大简化,因为在这种情况下,低级别的运动线索可以随着时间的推移进行整合,以给我们对应关系。最简单的方法是对视频应用现成的光流方法,可能在短时间内对其输出进行积分。然后,通过取第一帧I、最后一帧I′和积分流g来形成三元组。合成方法是最简单和最通用的,因为它不需要视频数据。然而,采样变换最多是对自然界中可能发生的对应场的粗略近似;实际上,正如我们在实验中所表明的,这严重限制了它们的效用。另一方面,测量运动场更复杂,需要视频数据,但会产生更逼真的流,这是我们的一个关键优势。3.2.2利用运动提示给定一个三元组t=(g,I,I′),我们现在讨论两种不同的生成训练信号的方法:转移地面实况注释和暹罗学习。等方差阿菲内变换合成气藏10918p′第一种方法假设图像I′的地面真实UV图Φgt(I′)是已知的,就像第4节中介绍的密集姿态跟踪数据集一样。然后,eq.(2)可用于恢复地面实况映射,第一帧I为Φgt(I)= Φgt(I′)。 以这种方式,pg(p)当训练DP时,损失项<$Φgt(I′)−Φ(I′)<$可以用项<$Φgt(I)−Φ(I)<$来增加。上述方法的主要限制是地面实况映射必须可用于其中一个帧。否则,我们仍然可以使用EQ。(2)并强制约束Φp(I)= Φgp(I′)。这可以被编码在类型为φΦ(I)-Φg(I′))φ的损失项,其中Φg(I′)是第二图像的扭曲UV图。注意,损失中的两个项都是由学习模型Φ输出的,这使得这是一个连体神经网络配置。等方差常数的另一个优点。(2)它可以应用于深度卷积神经网络Φ的中间层,因为实际上函数输出的性质是不相关的。在实验中,将等方差应用于每个沙漏堆栈处的输出层之前的特征,因为发现这是最好的。因此,用(I)表示在网络Φ的适当层上以输入I获得的张量输出,并让g为扭曲张量。我们通过嵌入量Lcos=1−ρ(I),I ′g(I′)的余弦相似性损失对等方差约束进行编码,其中ρ是余弦相似性ρ(x,y)=Ix,yI/(IxI ′ g)|)的向量x和y。4. DensePose-Track我 们 介 绍 了 基 于 PoseTrack 数 据 集 公 开 版 本 的DensePose-Track数据集[16],其中包含10339张图像和76058条注释。PoseTrack注释为30帧密集提供,这些帧在时间上位于视频的中间。DensePose-Track数据集包含250个训练视频和50个验证视频。为了允许更多样化地评价长距离关节,每隔四帧附加注释以用于验证集。由于密集姿态跟踪中的后续帧可能高度相关,因此我们使用两种不同的采样率对姿态跟踪数据集中首先,为了保持多样性并捕获较慢的运动,我们每八帧注释一次。其次,为了捕捉更快的运动,我们在每个视频中每隔四帧采样一次。所选图像中的每个人实例基于从关键点获得的边界框进行裁剪并进行直方图均衡。骨架叠加在裁剪的人的图像,以指导注释和识别的人在遮挡情况下。使用类似于[12]中描述的高效注释过程来完成裁剪图像和3D模型之间的对应性的收集图3:收集的DensePose-Track数据集中的注释。顶行:零件和点。底部行:基于“U”值[ 12 ]着色的图像和采集点,指示人体表面基于部件的局部平面参数化中的两个坐标之一。PoseTrack视频包含快速运动、人物遮挡和尺度变化,这导致了非常复杂的注释任务。特别是由于运动模糊和小的对象尺寸,在许多裁剪图像中,视觉线索足以定位关键点,但不能定位详细的表面几何形状。为了解决这个问题,我们已经过滤了注释候选人。首先,过滤掉具有少于六个可见关键点的实例。这之后是手动消除的样本是视觉上难以注释。DensePose-Track数据集训练/验证集总共有1680 / 782张图像,标记有8274 / 4753个实例的密集对应关系,分别产生总计800 142/459 348点对应关系图3显示了示例图像-注释对。除了通过光流进行自我监督训练之外,PoseTrack还包含可用于及时评估密集姿态估计系统的信息,或通过测试时的时空处理来改进它们。静态数据集无法捕捉多人交互导致的遮挡效应,例如:跳舞的时候用于及时姿态估计的最近数据集集中于更具挑战性的多人视频,例如,[17,15],但规模较小-特别是由于任务的挑战性。关于在图像和基于表面的身体模型之间建立密集对应关系,在[12]中引入了DensePose- COCO,为COCO数据集中出现的50 K人类图像提供注释。尽管如此,该数据集仅包含单个帧,因此不能用于训练利用时间信息的模型。我们打算在未来的工作中探索这些研究途径,并在这里集中研究如何最好地利用时间信息作为监督的手段。10919模型火车测试APAP50AP75APMAPLARAR50 AR75ARM ARLDensePose-RCNNDP-COCODP-COCO55.589.160.850.756.863.292.669.651.864.0沙漏DP-COCODP-COCO57.388.463.957.658.265.892.673.059.666.2DensePose-RCNNDP-COCODP-轨道30.161.326.44.532.237.567.336.95.739.7沙漏DP-COCODP-轨道39.370.738.922.440.648.778.350.833.249.8+ GT比例+当量所有DP-轨道40.372.339.723.341.649.479.551.634.150.5表1:在多人环境中对DensePose-COCO(DP-COCO)和DensePose-Track(DP-Track)数据集进行密集姿态估计的最新技术水平的比较。DensePose-RCNN基线基于ResNeXt-101骨干,沙漏有6个堆栈。在所有情况下,我们使用由DensePose-RCNN产生的真实边界框检测。数据5厘米10厘米20厘米人类(*)659298DensePose-RCNN51.1668.2178.37沙漏50.3877.9789.802个堆栈55.7882.3492.558个堆栈58.2384.0693.57表2:基线架构。在DensePose-COCO数据集上比较不同的DensePose架构:原始的基于ResNeXT的RCNN网络[12]和沙漏架构[24]。DensePose- COCO数据集的准确性随着沙漏堆栈的数量而增加。然而,更深层次的模型会过拟合用于预训练的COCO数据集的偏差,因此当转移到DensePose-Track时,最佳性能是6个堆栈。(*)在手动注释的合成图像上进行评估[12]。5. 实验在实验的第一部分(第5.1节)中,我们讨论了基线DensePose架构,并为这个问题找到了一个新的在第二部分(第5.2节)中,我们使用DensePose-COCO数据集来消除在静态图像中学习密集姿态估计所需的监督的数量和类型通过这种方式,我们澄清了在不对方法进行重大更改的情况下可以减少多少数据最后,在最后一部分(第5.3节)中,我们探索了与DensePose-Track数据集上的时间信息的相互作用,并研究了光流如何以超越通用等方差约束的方式帮助提高5.1. 基线架构在下面的大多数实验中,我们考虑了在单人设置中在地面实况边界框上获得的密集姿态估计的性能(包括DensePose-RCNN评估)。这使我们能够隔离与对象检测性能相关的任何问题,并专注于密集图像表面对齐的任务。我们进一步介绍了使用沙漏网络[24]作为一个强大的基线,从零开始训练密集姿态估计的任务。这消除了对ImageNet上预训练的任何依赖,并允许我们图4:定性结果。沙漏(底部)与DensePose-RCNN [12](顶部)。全卷积沙漏的优点包括更好的回忆和预测与输入的空间对齐,代价是对纹理输入中的高频变化具有更高的敏感性。有序地减少我们的训练选择在此设置中,我们根据沿基础3D模型表面测量的地面真实位置(测地距离)在5 cm、10 cm和20 cm范围内定位的点的比率来评估性能[12]。从表2中的结果开始,我们观察到我们比依赖于DensePose-RCNN架构的[12]系统获得了更好的性能我们注意到,[ 12 ]的系统被设计为执行检测和密集姿态估计,并且以每秒多帧操作;因此,这些数字不能直接比较。我们不执行检测,而是报告所有结果的图像预裁剪周围的主题。尽管如此,我们仍然可以得出结论,沙漏网络为我们提供了一个强大的基线(见图2)。4用于说明)。为了完整起见,在表1中,我们还报告了多人设置中两种架构(DensePose-RCNN和Hourglass)的性能,以 COCO 度 量 表 示 , 并 使 用 DensePose-RCNN 与ResNeXt-101骨干产生的真实边界框检测获得。5.2. 删除注释我们首先研究减少 的DensePose监督;我们还考虑使用 与 语 义 部 分 分 割 相 关 的 更 简 单 的 注 释 , 其 比DensePose图表注释更快地收集。10920k=1数据5厘米 10厘米20厘米(一)全数据集55.7882.3492.55(二)仅分割3.5313.2548.21(三)50%(k+u)52.4979.4590.40图像5%(k+u)36.2764.5879.93子采样1%(k+u)14.1132.0650.21(iv)100%k+ 50%u53.5080.2990.86图像100%k+ 5%u40.8069.0483.15子采样100%k+ 1%u36.1666.5983.14(v)50%(k+u)54.0681.2491.92点5%(k+u)47.6876.3488.86子采样1%(k+u)37.6568.2584.37表3:减少对DensePose-COCO的监督,k代表身体部位指数,u代表UV坐标(图3)。图5b另外说明了实验(i)、(iii)和(v))。数据5 cm 10 cm 20 cm完整数据集55.78 82.34 92.551%u37.65 68.25 84.37关键点36.60 63.03 76.811%u+关键点39.17 68.78 85.12表4:使用骨架关键点增强稀疏DensePose-COCO注释的积极效果。减少监督。 回想一下,DensePose注释将图表U =KUk R2分解为K个部分,并且对于每个像素p,提供图表索引k(p)(分割掩码)和其中的特定图表点u(p)∈Uk(p)(u(p)实际上在范围[0,1]2内归一 化 ) 。 神 经 网 络 Φp ( I ) <$ ( k ( p ) , u(p))的任务是并行估计两个量,分别优化分类和回归损失。我们首先观察到(表3的行(i)对(ii)),仅通过使用分割掩模(因此丢弃损失中的回归项)进行监督不是非常有用,这并不奇怪,因为它们不携带任何表面相关信息。但是,在删除DensePose监督时,部分遮罩可能会导致性能下降得更适度。为了证明这一点,在实验(iii)中,我们只使用DensePose-COCO图像的一个子集进行监督(使用完整的部分点注释(k,u)),而在(iv)中,我们添加回其他图像,但只为我们添加回的图像提供更便宜的部分k我们看到性能下降得更慢,这表明,给定注释预算,最好为大量图像收集粗略注释,同时为较小的子集收集详细注释。表3和图5b中的最终实验(v)是类似的,但是我们不是减少图像的数量,而是减少我们为其提供图点监督u(p)的像素p的数量(从而节省了相应数量的注释者对于注释中的可比减少-这产生了更高的准确性,因为网络在训练期间暴露于更广泛的姿势。因此,对于注释者“点击”的固定预算,重点监管。 传统地标检测器仅使用关键点注释,这甚至比收集部分分割更便宜。因此,我们研究关键点注释是否作为粗监督的一种形式与部分分割互补。事实上,由于关键点将一小组表面点与单个像素相关联,因此这种类型的监督可以驱动更准确的图像-表面对准结果。请注意,不仅关键点是稀疏的,而且它们也比图像到表面对应u更容易从注释器收集,因为它们不需要向注释器呈现可点击的表面界面,如[12]中所做的那样。表4重复表3的实验(v.a),重复它,但这次只提供关键点注释而不是u注释,然后将两者结合起来。我们看到,这两种注释类型确实是互补的,特别是对于高度准确的定位机制。5.3. 节奏学习接下来,我们检查了DensePose-COCO和DensePose-Track数据集之间的统计差异(现在放弃动态)及其对训 练 Dense-Pose 架 构 的 影 响 。 我 们 表 明 , 当 与DensePose-COCO结合使用时,DensePose-Track确实可以提高性能;然而,它实质上是困难的,因此必须以一种节奏的方式学习,在密集姿态模型已经在更容易的COCO数据上初始化之后。关于这组实验的细节在表5中给出。在所有情况下,我们都训练了一个6栈沙漏模型,使用了在第一节中确定的最佳性能架构。阶段I意味着模型首先通过在所述数据集上进行训练来初始化,而阶段II(其中适用)意味着模型在所指示的数据上进行微调。我们观察到,在密集姿势跟踪(行)(i) 表5的)产生比在可等价子集或完整的DensePose-COCO数据集(ii- iii)上训练更差的性能,即使在DensePose-Track上评估模型时也是如此我们假设这是由于COCO训练集中图像的较大可变性以及COCO图像的更干净的性质(无模糊,更大的分辨率),这有助于训练[1]。行(iv)进一步支持了这一假设,其中显示了在COCO和PoseTrack的联合上的训练仿真产生比仅在COCO上训练更差的结果。相比之下,我们观察到一个两阶段的过程,我们首先在DensePose-COCO上训练,然后在DensePose-Track上微调,这会产生实质性的改进。最好的结果是通过对两个数据集的联合进行微调来获得的-10921(a) 沙漏网络的性能作为堆栈数量的函数(b)减少监督量的培训图5:(a)Hourglass架构在DensePose-COCO数据集上的性能随着堆栈数量的增加而单调增加,但对于DensePose-Track数据集,在6个堆栈处达到峰值(b)给定固定的注释预算,对大量图像进行部分注释而不是收集数据集子集上的完整注释是层根据流场平移注释位置(图11)。2)的情况。因为光流可能是有噪声的,特别是在遮挡的区域中,所以我们使用前向-后向一致性检查。如果通过正向流向前平移,然后使用反向流再次返回,则偏移量大于5像素,我们忽略该注释。在MPII姿态上,我们使用了粗略的人中心和尺度标注。结果我们比较了基线结果,点与UV,% 0 15 10 20 50 100图6:减少监督。上图:带有UV注释的点百分比减少的训练效果。底部:SMPL模型[3]上显示的纹理贴图显示了学习的贴图的质量。COCO测试套件。这再次与课程学习[1]相一致,课程学习建议首先对简单的例子进行培训,然后在第二阶段包括更难的例子。5.4. 利用运动提示在建立了一系列越来越强的基线之后,我们现在转向验证基于流的训练与最强基线相结合时的贡献。流量计算 光流计算我们使用FlowNet2 [14]的基于竞争神经网络的方法,该方法已经在合成序列上训练过。我们在Posetrack和MPII Pose(视频版本)上运行此模型,计算每个帧T到帧T−3到T+3(如果可用)的流量。对于MPII Pose,我们从大约一百万帧开始,获得5.8M流场。对于DensePose-Track,我们有68 k帧和390 k流场。请注意,密集姿势跟踪中使用了MPII姿势片段的子集对于DensePose-Track,我们根据流场来传播现有的DensePose注释,从而从原始的8 K中产生48K新的裁剪训练图像(12%的帧具有手动标签)。为了跨帧传播注释,我们模拟-上一节介绍增强培训的不同方式使用运动信息。有两个变化轴:运动是随机合成的还是使用光流从视频中测量的(第3.2.1节),以及运动是通过传播地面实况标签还是通过等方差约束(第3.2.2节)并入训练中表6的表(i-iv)比较了使用通过DensePose-Track中的可用注释的基线监督与使用GT传播、等方差和两者组合的增强。对于每种组合,该表还报告了使用合成(随机TPS)和真实(光流)运动的结果(v-viii)重复实验,但这次从在DensePose-COCO上预先训练的网络开始,而不是随机初始化的网络。有几个重要的意见。首先,GT传播和等方差都改善了结果,并且通过它们的组合获得最佳结果。GT传播至少比等方差好一点(但它如果没有注释可用,则不能使用)。其次,通过真实运动场(光流)进行增强比使用合成变换要好得多,这表明运动增强的真实性是学习复杂关节对象(如人)的关键。第三,当从随机初始化的网络开始时,运动增强的好处尤其显著如果网络在DensePose-COCO上进行了预训练,其好处仍然不可忽视。GT传播比等方差更好,这似乎很奇怪,因为两者都捕获了类似的约束。经过分析数据,我们发现原因是等方差优化的一些图表的人SMPL模型上的点DensePose-COCO数据集DensePose-Track数据集1.0 1.00.9 0.90.80.7<5厘米<10厘米<15厘米<20厘米<25厘米<30厘米0.80.7<5厘米<10厘米<15厘米<20厘米<25厘米<30厘米1.00.90.80.70.60.50.40.30.2DensePose-COCO,减少监督<20厘米<10厘米带IUV的部件0.60.6<5厘米0.50.5全注解0.40.41 2 3 4 5 6 7 81 2 3 4 5 6 7 80 10 20 30 40 50堆栈数量堆栈注释数量正确点数正确点数正确点数10922在DensePose-Track上测试的训练数据 在DensePose-COCO第一阶段第二5 cm 10 cm 20 cm 5 cm 10 cm 20 cm(i)DensePose-Track-21.0642.9459.5420.3441.2457.29(ii)DensePose-COCO子集(*)-33.6758.7973.4547.1074.0686.27(iii)DensepPose-COCO-44.8971.5283.7155.7882.3492.55(iv)DensePose-COCO轨道-41.7669.9483.6055.2782.0592.37(v)DensepPose-COCODensePose-Track45.5773.3585.7753.7081.3492.03(vi)DensepPose-COCO所有46.0473.4185.7958.0184.0693.64表5:培训战略。训练和测试对各种组合中的DensePose-COCO与DensePose-Track的影响。性能最好的模型(vi)首先在更干净的COCO数据上进行训练,然后在数据集的联合上进行微调。(*)具有DensePose-Track数据集大小的DensePose-COCO训练图像的随机子集。训练策略训练数据合成(TPS)实时(光流)(iii)等方差21.57 44.17 61.27 23.12 45.85 62.22㈣ GT prop. +等方差22.41 45.53 62.71 34.50 61.70 77.20(v)基线(vi)GT传播DensePose-COCO DensePose-Track45.57 73.35 83.7145.77 73.65 86.13 47.36 75.17 87.47(ix)基线DensePose-COCO所有46.04 73.41 85.79 46.04 73.41 85.79(十)GT prop. +等方差-47.62 75.80 88.12表6:利用真实和合成流场。通过利用帧之间的GT传播的真实流和强制等方差,在组合的DensePose-COCO +Track上训练最佳性能模型(x)。但是,由于可能有许多图表,因此不需要弥合手动和无监督注释统计之间的差距是一个有趣的问题,无论何时将这些技术结合起来,都可能具有不同特征级别的等方差。最后,我们分析了将等方差损失应用于网络的不同层的效果,使用合成或基于光流的变换(见表7)。结果表明,施加这些约束的好处,在网络中的中间特征水平,以及在输出分数的子集表示每类的概率在身体解析。6. 结论在这项工作中,我们已经探索了不同的方法,通过利用弱监督和自监督学习来改善密集人体姿势估计任务的监督。这使我们能够利用时间信息来改进强基线,与[12]相比,提供了更先进的密集姿态估计结果。我们还引入了一个新的数据集DensePose-Track,它可以促进在密集对应和时间界面上的进一步研究。尽管取得了这一进展,但在逐帧的基础上将此类模型应用于视频可能会揭示出它们的一些缺点,包括闪烁,缺少身体部位或虚假的视频。特点合成(TPS)真实(光流)5厘米10厘米20厘米5厘米10厘米20厘米045.7473.6286.1445.9073.7186.10146.0873.8586.2945.9173.7486.15245.9773.8286.2945.9273.6486.04345.8573.5586.0545.9773.8186.304、全部45.9873.6286.1545.8473.4285.864、segm.46.0273.7486.2045.9873.8586.204、紫外线 45.7873.7686.2645.9573.6486.16没有一45.5773.3583.7145.5773.3583.71表7:在不同特征级别应用基于合成和光流扭曲的等方差 的 训 练 ( 在 DensePose-COCO 上 进 行 预 训 练 , 在DensePose-Track上进行调整和测试)。级别4对应于每个堆栈的输出,级别0 -对应于第一层。“塞格姆。”表示输出的分割部分,背景上的检测(正如在最难的补充材料视频中所见证的)。这些问题可以通过利用时间信息来克服,沿着姿态跟踪问题中所追求的路线,[28,4,15,16,10]。例如,运动模糊或部分遮挡可能导致给定图像位置处的错误对应;然而,通过组合来自广告帧的互补信息,我们可以从这样的故障中恢复,在广告帧中,相同的结构更好地可见。我们打算在未来的研究中进一步探讨这一方向一阶段第二5厘米10厘米20厘米5厘米10厘米20厘米(一)基线GT传播-DensePose-Track21.0622.3342.9445.3059.5462.0821.0632.8542.9460.0759.5475.95(vii)等方差45.6773.4785.9345.7673.5486.06(八)GT比例+等方差45.8173.7086.1447.4575.2187.5610923引用[1] YoshuaBengio , Je´ ro meLouradour, RonanCollobert ,andJa-son Weston.课程学习。InICML,2009. 六、七[2] Volker Blanz和Thomas Vetter。基于拟合三维变形模型的人脸识别。PAMI,25(9):1063-1074,2003. 2[3] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael Black。保持它smpl:由单一影像自动估计三维人体位姿与形状。在ECCV,2016年。7[4] Christoph Bregler Jitendra Malik和Katherine Pullen基于扭曲的动物和人类运动学的获取和跟踪。InternationalJournal of Computer Vision,56(3):179-194,2004。8[5] 希尔顿·布里斯托,杰克·瓦尔马德雷,还有西蒙·露西。密集语义对应,其中每个像素都是分类器。在ICCV,2015年。2[6] 蒂莫西·库茨,加雷斯·爱德华兹,克里斯托弗·泰勒。活动外观模型。《欧洲儿童保育公约》,1998年。2[7] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。InICCV,2017. 1[8] Xuanyi Dong,Shouou-I Yu,Xinshuo Weng,Shih-EnWei,Yi Yang,and Yaser Sheikh.配准监督:一种提高面部标志检测器精度的无监督方法。在CVPR,2018年。2[9] Utkarsh Gaur和B.S. 曼朱纳特用于密集语义对象对应的弱监督InICCV,2017. 一、二[10] Rohit Girdhar、Georgia Gkioxari、Lorenzo Torresani、Manohar Paluri和Du Tran。检测和跟踪:视频中的高效姿态估计。在CVPR,2018年。8[11] 联合Grenander,Y. Chow和D. M.基南手:生物学的模式理论研究。施普林格出版社柏林海德堡1991年。2[12] RizaA l pGuéler,Na taliaN ev er ov a,andIasonasKokkinos. 密度:野外密集的人体姿势估计。在CVPR,2018年。一二三四五六八[13] RızaAlpGuéler,Geor geTrigeorgis,EpameinondasAnton-akos , Patrick Snape , Stefanos Zafeiriou , and IasonasKokki- nos.Densereg:完全卷积的密集形状回归。在CVPR,2017年。1[14] Eddy Ilg , Nikolaus Mayer , Tonmoy Saikia , MargretKeuper,Alexey Dosovitskiy,and Th
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功