没有合适的资源?快使用搜索试试~ 我知道了~
近端动物类别的密集姿势标记:基于DensePose和多头R-CNN的转移学习
1将密集姿势转移到近端动物类别Artsiom Sanakoyeu海德堡大学Vasil KhalidovFacebook AIResearchAndrea Vedaldi莫琳·S. 麦卡锡进化人类学纳塔利娅·内韦罗娃Facebook AI Research Facebook AI Research图1:我们考虑了动物类中的密集姿势标记问题。我们表明,对于接近人类的类,如黑猩猩(左),我们可以通过学习一个集成的识别架构来获得出色的性能,现有的数据源,包括用于人类的DensePose以及来自其他COCO类的检测和分割信息(右)。关键是建立一个共同的参考(中间),我们通过动物参考模型的比对获得这使得能够为目标类训练模型,而不必为其标记单个示例图像。图片来源:左边:[52,48,42,57,60,34],在右边:COCO数据集[29]。摘要最近的贡献表明,它是可能的,以识别人的姿态密集和准确地给出了一个大的数据集的姿态详细注释。原则上,相同的方法可以扩展到任何动物类别,但是为每个病例收集新注释所需的努力使得这种策略不切实际,尽管在自然保护、科学和商业中有重要的应用。我们表明,至少对于近端的动物类,如黑猩猩,它是可能的转移知识存在于密集的姿势识别人类,以及在更一般的对象检测器和分割器,在其他类的密集姿势识别的问题。我们通过以下方式做到这一点:(1)为新动物建立一个DensePose模型,该模型在几何上也与人类对齐;(2)引入多头R-CNN架构,该架构有助于在类之间转移多个识别任务;(3)找到已知类的哪种组合可以最有效地转移到新动物;以及(4)使用自校准的不确定性头来生成按质量分级的伪标签,为这门课训 练 一 个 模 特 我 们 还 为 黑 猩 猩 类 引 入 了 两 个 以DensePose方式标记的基准数据集,并使用它们来评估我们的方法,显示出出色的迁移学习性能。1. 介绍在过去的几年里,计算机视觉在人体姿态识别方面取得了重大进展深度网络可以有效地检测和分割人类[17],定位其稀疏的2D关键点[41],将这些2D关键点提升到3D [43],甚至适合复杂的3D模型,如SMPL [22,23],所有这些都来自单个图片或视频。DensePose [14]已经表明,甚至可以通过将单个图像像素映射到人体的规范嵌入空间来估计姿势的密集参数化。通过引入用稀疏或密集的2D关键点手动注释的大型人类姿势数据集,或者甚至通过诸如圆顶的捕获系统以3D注释的大型人类姿势数据集,已经使得这样的进步成为可能例如,DensePose- COCO数据集[14]包含50K COCO图像,手动注释了超过500万个人体点。显然,收集这样的数据是非常乏味的,但是人类理解在应用中的重要性充分证明了这一点。然而,自然界包含的不仅仅是人。例如,截至今天,科学家已经确定了6,495种哺乳动物,6万种脊椎动物和120万种无脊椎动物[1]。为人类理解而开发的方法也可能适用于大多数这些动物,只要人们愿意承担数据注释的负担。不幸的是,在Facebook AI Research实习期间完成的工作项目页面:https://asanakoy.github.io/densepose-evolution52335234动物姿态识别在保护、自然科学和商业中的应用是众多的,仅仅学习多一种动物可能难以在经济上证明合理,更不用说学习所有动物了。然而,几乎没有理由相信这些挑战是内在的。人类几乎可以立即理解大多数动物的姿势,具有良好的准确性,并且根本不需要任何数据注释。此外,动物的图像和视频非常丰富,因此瓶颈在于机器在没有外部监督的情况下无法学习。因此,在本文中,我们考虑的问题,学习认识到尽可能少的监督动物的姿势。然而,我们不想从头开始,而是想利用已经为几种动物,特别是人类提供因此,我们专注于采取现有的注释数据以及目标动物物种的其他未标记的图像和视频此外,在这项研究中,我们将注意力限制在合理接近可用的动物物种上。注释,并选择专注于黑猩猩的特殊例子,由于他们的进化接近人类。然而,本文的研究结果也可能推广到许多其他类别。我们在这项工作中做出了一些贡献。首先,我们介绍了一个黑猩猩的数据集,DensePose-Chimps ,以DensePose方式标记,我们主要使用它来定量评估我们方法的性能。我们仔细设计了黑猩猩的典型映射,使其与原始DensePose-COCO中的人类映射兼容,在这个意义上,两种动物模型中的点这对于能够将密集姿势识别结果从人类转移到黑猩猩,同时能够评估所获得结果的质量非常重要。其次,我们详细研究了几种策略,将现有的动物检测器,分割器和密集的姿态提取器从可用的注释数据转移到黑猩猩。特别是,虽然密集的姿势注释只存在于人类,但也为其他几个对象类别收集了边界框和遮罩注释。因此,作为一个代表性的源数据集,我们考虑COCO,我们研究如何不同的COCO类可以结合起来,训练一个对象检测器和分割器,最佳地转移到黑猩猩。令人惊讶的是,我们发现仅从人类转移并不是最佳的,人类也不是训练黑猩猩模型除了有DensePose-Chimps数据,我们收集人类注释,例如Chimp上的这个想法是最终以渐进的方式将姿势识别扩展到越来越多的动物物种。[2]有些视频可以在www.example.com上http://www.zooniverse。org/projects/sassydumbledore/chimp-and-see.在野外用相机陷阱捕获,以评估在最具挑战性的条件下(具有严重遮挡、低可见度和运动模糊)的最后,我们提出了一个框架,用于通过自我监督和伪标签来增强和适应人类DensePose数据集,以适应新物种,并在目标类上使用零地面2. 相关工作人体姿态识别。在人体姿态的识别方面,无论是在二维还是在三维中,都有大量的工作。鉴于我们的重点是2D姿态识别,我们主要讨论第一类方法。通过引入深度神经网络[56,41,10],在大型手动注释的图像和视频数据集上进行训练,如COCO [30],MPII [4],Leeds Sports Pose Dataset(LSP)[20,21],PennAction[61]和Posetrack [3],2D人体姿势识别蓬勃发展。此外,Dense Pose [14]引入了具有密集表面点注释的数据集,将图像映射到参数化3D人体模型(SMPL)的UV表示[32]。虽然所有这些方法都是强监督的,但也有一些方法试图以完全无监督的方式学习姿势[6,50,8,51,47,49,33,62]。不幸的是,这项技术还不够成熟,无法与野外的强监管竞争。动物姿势识别。同样与我们的工作相关的是,几位作者已经学习了动物的视觉模型,用于检测,分割和姿势识别。一些动物被包括在几乎所有的通用2D视觉识别数据集中,特别是在COCO中。因此,所有最新的检测器和分割器已经在至少几种动物类别上进行了然而,对于姿态识别,现有的研究机构受到更多的限制。最近的一些论文集中于为特定的动物物种设计姿态估计系统和基准,例如阿穆尔虎[28]、猎豹[38]或果蝇[15]。在为动物设计注释工具方面,已经有许多大的努力,例如DeepLabCut [35]和Anipose [24]。这些工具还提供了通过使用多视图和三角测量将2D关键点提升到3D的功能。关于在神经科学和动物学中应用计算机视觉和机器学习方法的更详细概述见[36]。这一领域的主要挑战之一仍然是现有研究对特定种类动物和特定环境的狭隘关注。很少有作品专注于动物的理解问题,从视觉数据单独和更系统的方式。这包括通过域适应[59,45]估计面部标志,以及最近通过com对四足动物的全身姿势估计[9]5235(a) 3D模型制图(二)建立人类惠黑猩猩图2:从人类SMPL模型到新对象类别(黑猩猩)的3D形状重新映射。两个模型上的手动定义的语义图表(a)用于基于连续语义描述符建立密集对应(b将大规模的人类数据集与较少数量的动物注释合并在跨域适应框架中。最后,一条线的工作从祖菲等人。[65,64,63]正在探索基于模型的动物类3D姿势和形状估计问题他们的研究基于参数线性模型,SkinnedMulti-Animal Linear(SMAL),从玩具动物的3D扫描中获得,并能够代表多种哺乳动物。SMAL是流行的SMLP [31]人类模型的动物类似物。它已经在其他出版物[7]中用于3D动物重建,但这些方法可能仍然不足以在野外部署。无监督和少监督的姿势识别。 再-诸如[50,51,49,19,62,33]的方法在不使用任何注释的情况下学习简单类的稀疏同样与我们的工作相关的是,SlimDensePose [40]着眼于减少为人类学习良好的DensePose模型所需的注释数量。密集预测的自我训练。 最近的一项研究[58]已经证明了当扩展到大量未标记数据时,图像分类任务的自我训练的有效性。通过对来自未标记样本的多个变换版本的预测进行平均的伪标记已被证明对关键点估计有效[44]。然而,在密集预测任务的背景下,关于自我训练的研究很少。最近的一项工作[5]探索了地震图像分割的自训练思想,并首次在这项任务上显示了有希望的结果3. 方法我们希望开发一种方法,以最小的注释工作来学习新类的Dense Pose模型。用于对象检测、分割和姿态估计的前标记数据集提供了可以用于此任务的重要监督源。对于检测和分割,COCO提供了广泛的注释,仅限于人类,除了少数例外。此外,对于密集姿态识别,只有人类数据集可用-最好的例子是DensePose-COCO [14]。在这项工作中,我们提出了一些对这种设置最关键的问题,即:• 定义关于新动物类别的学习和评估协议,允许培训特定类别或类别-不可知的密集姿势模型在各种物种在一个统一的方式(描述节。3.1);• 提高密集姿态模型的质量及其在测试时对不可见数据分布的鲁棒性(在第3.2和3.3节);• 最佳地组合现有的各种数据源,以便初始化新动物物种的检测模型(在第11节中讨论)。3.4);• 定义策略,用于挖掘密集的伪标签,以便在师生环境 中 逐 渐 从 人 类 到 黑 猩 猩 进 行 域 适 应 ( 在Sect.3.5)。3.1. 通过3D形状重新映射进行注释虽然我们的目标是学习在零监督的情况下重建黑猩猩的密集姿势在这里,我们将解释如何为新类别(如黑猩猩)收集DensePose注释。密集姿势模型。回想一下,DensePose-COCO包含“在野外”收集的人的图像,这些密集的关键点是相同的-被表示为对象的参考3D模型S∈R3的点p∈S此外,关键点p∈S由三元组(c,u,v)∈ {1,. . .,C} ×[0,1]2,其中c是图表索引,对应于C个 模型部件之一,以及(u,v)是图表中的坐标。DensePose- COCO数据集[14]包含边界框,像素完美的前景-背景和部分分割,以及大量前景像素的(c,u,v)黑猩猩的密集姿势。我们希望将DensePose注释扩展到黑猩猩类。为此,我们各种对象类,包括几种动物。用于姿态然而,认识到,可用的监督通常是密集的,由于其受欢迎程度,密集姿势使用SMPL [32]来定义S5236=12依赖于一个单独的艺术家创建的黑猩猩3D模型§作为注释者收集黑猩猩标签的参考panzee 图 像 ( 而 不 是 原 始 DensePose 使 用 的 人 体 模型)。对于每个对象,我们使用Amazon Mechanical Turk收集对象边界框,然后是像素完美的前景/背景分割蒙版,最后是从前景区域随机采样的一定数量像素的(c,u,v)不同从最初的DensePose,我们也没有收集身体部位的密集注释,因为后者被发现对注释器来说非常具有挑战性。然而,注意,图表索引c揭示了每个注释图像像素的部分标识。语义对齐。最后,我们希望通过使用下面描述的网格重新映射策略将收集的注释映射回SMPL模型的表面来对齐人类和黑猩猩的DensePose模型后一步统一了不同对象类别的评估协议,并允许在不同物种之间转移知识和尽管人类和大多数哺乳动物共享拓扑结构和骨骼结构,但由于身体比例和局部几何形状的差异,在人类和不同动物物种的3D模型之间建立精确的空间密集对应是具有挑战性的。作为预处理,我们手动将SMPL和黑猩猩网格绘制成L=32个语义对应的部分以指导映射。然后,对于每个网格S的每个顶点p,我们提取了连续语义描述符d(p)是Le′ on等人提出【27】:图3:原始(a)和我们的(b)密集姿势学习架构的比较。见第3.2详细描述了体系结构。3.2. 多头R CNNd(p)=(d(p))L,d(p)=1|S|Σs∈Sg(p,s;S)(1)我们的目标是开发一个新的密集姿势预测器,课这样的预测器必须通过边界框检测对象,将其从背景中分割出来,并获得每个前景像素的密集姿态图和UV贴图坐标其中,SS是网格的部分ng(p,s)是S上两点之间的测地线距离。这样,从人类网格S到黑猩猩网格S'的映射通过匹配最近的描述符来获得:我们用一个有多个头的模型来实现这一点,在同一个躯干和共享的图像特征上执行各种任务(图1)。3.b)。基础模型是R-CNN [17],修改后包括S→S′,p→argminq∈S′<$dS(p)−dS′(q)<$.跟着人头。第一个头细化的坐标这种简单的方法产生了令人满意的结果,的对齐和平滑度,如图所示。二、它不需要基于模型拟合或网格变形在3D空间中进行任何优化,并且适用于任意分辨率的网格。有趣的是利用关于网格几何形状的信息(例如,高维SHOT [46]描述符或其学习变体[16])代替或附加于语义特征导致噪声映射。这可能归因于对象类别之间的一些身体区域的局部几何学的显著不一致§从http://hum3d.com/购买为了部分补偿不同类别之间的比例差异,我们进一步通过部分平 均 值 对 描 述 符 进 行 归 一 化 : d ( p ) <$d ( p ) /d ( q )<$q∈S<$。边界框。第二个头以与Mask R-CNN相同的方式计算第三个也是最后一个头计算一个部分分割掩码I,将每个像素分配给24个密集姿势图表中的一个,并为每个前景像素分配uv阶级不可知论模型。与标准的Mask R-CNN相比,我们的模型是类不可知的,即只接受一种类型的训练当我们使用在多个源类上预训练的Mask R-CNN时也是如此,因为目标总是只为最终的目标黑猩猩类构建模型-我们发现合并类是整合信息的有效方式。5237我σ2异构训练我们的训练数据可以是异构的。特别是,COCO为80个类别提供了分割虽然我们训练了一个单一的类不可知模型,但密集姿势头部只针对有必要的地面真实数据可用的类人类进行训练。特别要注意的是,Mask R-CNN头部和DensePose头部都包含前景-背景分割组件-这些组件并不等同,因为DensePose仅对人类有效(并且可训练),而Mask R-CNN 头 部 是 通 用 的 ( 并 且 可 从 所 有 COCO 类 中 训练)。我们将在实验中看到,它们的组合提高了性能。微调 如后所示,为了微调模型,我们在黑猩猩的图像上生成伪标签。为模型的所有组件生成伪标签图4:使用不同COCO类别训练的DensePose- Chimps forMask R-CNN模型的实例分割分数(AP),按性能递减排名。采用[18]的温度定标因此,让zy是神经网络与假设y ∈ {1,. - 是的- 是的.,K}。我们扩展网络以计算额外的每个样本标量α≥0。有了这个标量,假设y的后验概率由scaledsoftmax给出。exp(αzy)(分割, UV图), 特别包括前景-背景分割头。σ(y;z,α)=Kk=1exp(αzk)(二)其他建筑改进。我们的模型(Fig.3.a)与原始的密集姿势相比有一些模式差异(图2)。 3.b)我们发现这些信息有助于提高准确性和/或数据收集效率。首先,原始和我们的实现都使用密集(像素完美)监督前景-背景遮罩。然而,在我们的版本中,我们不使用原始DensePose标注中的像素完美部分分割-仅从数据中注释的像素的图表标签训练部分预测头。这也是为什么我们不收集黑猩猩图像的像素完美分割的另一个原因。我们通过使用Panoptic Feature Pyramid Networks [26]实现它来进一步改进DensePose头,并使用类似于DeepLab [11]的配置,受益于更高的分辨率。3.3. 自动校准的R CNN如上所述,伪标记可以用于微调包含目标类别(在我们的情况下是黑猩猩)的图像的预训练模型。这个想法是使用一个在不同的类或类集合上预先训练的模型来生成新域中的标签,然后重新训练模型以适应这些标签。然而,由于域我们可以把系数α=1/T解释为温度的倒数。小的α意味着模型对预测相当确定,而大的α则不确定。请注意,由于α也是由神经网络估计的,因此我们需要一种机制来学习它。这实际上是通过简单地最小化模型的负对数似然自动获得的[ 18,39 ],在这种情况下也称为交叉似然。entro p y loss:(y,z,α)=−logσ(y;z,α)。不确定性回归我们的模型执行回归以细化边界框提案(对于四个标量输出,框的两个角中的每个角两个)并获得DensePoseuv坐标(对于提案中每个图像像素的两个标量因此,让y∈RD是其中一个回归头发出的向量(其中D取决于头)。类似地对于分类情况,我们也使用该网络来预测不确定性得分σ∈RD。然而,这一次,我们对y中的每个元素都有不同的标量(因此,对于uv贴图,我们对每个像素都有两个不确定性分数,我们可以想象成一个图像)。向量σ被解释为回归向量y的对角方差,假设后者具有高斯分布。因此,不确定性得分σ可以通过最小化模型的负对数似然来与预测器y*联合训练伪标签有些不可靠。在本节中,fol-D1D。(y−y)2在[25]之后,我们开发了一种原则性的方式,让神经网络本身产生一个校准的不确定性(y,ylog 2π+22i=1 logσ2+iii(三)我们可以用它来根据可靠性对伪标签进行排名。分类不确定性。 我们的模型执行基于两个目的的分类:将类标签与边界框相关联,以及将单个像素分类为背景,前景或身体部位之一。为了估计这些分类预测的不确定性,我们F或修复错误|yi−yi|,通过设置σi=|yi−yi|因此,鼓励模型猜测其自身预测误差的大小。 但如果|yi−yi|=0,则当σi→0时,上述量为−∞。因此,我们将σi从下面箝位到最小值σmin>0。5238模型APAP50AP75模型APAP50AP75DensePose-RCNN50.8880.4054.80DensePose-RCNN*51.4481.4455.12DensePose-RCNN*(σ)54.1382.3258.06DensePose-RCNN43.8476.8845.84DensePose-RCNN*43.8477.5245.60DensePose-RCNN*(σ)45.5878.7947.93表1:DensePose-COCOminival上的检测(左)和实例分割(右)性能。模型APAP50AP75APMAPLARAR50AR75ARMARLDensePose-RCNN46.884.547.741.848.054.789.558.943.355.5DensePose-RCNN*47.285.847.342.548.455.291.059.144.055.9DensePose-RCNN*(σ)53.288.357.048.654.661.292.467.250.061.9表2:在DensePose-COCOminival上的DensePose性能。* 表示我们改进的架构;(σ)表示建议的网络自动校准版本。续费对于分类和回归模型,不确定性α和σ必须为正-在网络中,它们通过softplus激活获得。3.4. 最优转移支持在本节中,我们将研究COCO数据集中的哪些对象类别为识别新的动物物种(在我们的案例中是黑猩猩)提供了最佳支持。在《COCO》中的动物中,黑猩猩与人类的亲缘关系最为明显,因此我们可以预期,人类可能是最容易转移的一类。然而,尽管他们的整体结构相似,人们的外观是相当不同的,也是由于缺乏毛皮和服装的存在。此外,背景也往往大不相同。因此,目前还不清楚一个经过训练的识别人类的深度网络是否能在黑猩猩身上很好地转移,或者其他物体类别是否会做得更好。班级选择。我们测试什么更重要:物种的生物接近性(作为形态相似性的替代)或外观相似性(作为典型姿势和纹理的组合)。我们还为这个特定的数据集寻找一个强力解决方案来支持或反驳我们对类选择的直觉。在我们的实验中,我们测试了以下选择:• 仅人类(由于形态相似性)。• 仅动物类(由于姿势和纹理相似性较高):熊,狗,大象,猫,马,牛,鸟,羊,斑马长颈鹿老鼠• 在新类别上的前N个得分类(蛮力解决方案)。在此设置中,我们首先为COCO数据集中的C=90个对象类中的每个对象类训练一组C单类模型,并根据它们在DensePose-Chimps数据集上的实例分割性能对其进行排名(请参见图4). 则对于S ∈ {1,. - 是的- 是的 ,C}得分最高的类,我们从头开始训练相同的网络。我们找到的最优解对应于Copt=9,其中C得分最高的类别是:熊,狗,大象,猫,马,牛,鸟,人,羊。如Tab.所示。5,与人+动物的组合相比,前N解决方案产生类似的结果。在这种情况下,仅使用人阶级融合。我们还探讨了类无关与多类训练的问题,作为每个类的训练样本数量与预测模式粒度之间的权衡。对于使新模型适应单个类别(在给定数据集上)的任务,类不可知训练显示出令人信服的更强结果(见表1)。(五)。3.5. 密集标记蒸馏最后,我们的目标是找到一个有效的策略,利用未标记的数据为目标域的教师-学生培训设置和执行蒸馏密集预测任务。在我们的设置中,使用DensePose在COCO数据集的选定类上训练的教师网络用于生成伪标签,以便在增强数据上微调学生学生网络用教师一旦获得了教师对未标记数据的预测,我们就开始使用校准的检测分数过滤掉低置信度的检测。之后,剩余样本上的边界框和分割掩码用于增强训练。为了挖掘DensePose监督,除了均匀采样之外,我们还考虑了由教师网络解决的每个任务驱动的三种不同的密集采样策略• 均匀采样-• 粗分类不确定性[基于掩码的]-• 精细分类不确定性[基于I]-• 回归不确定性采样[uv-based]-5239DensePose-Chimps黑猩猩见采样KAPDPoseAPDAPSAPDAPS––33.462.156.450.543.5均匀5三十四5±。463岁3 ±。3五十八0±。3五十八9±。5四十九0±。5基于掩码5三十四7±。463岁3 ±。3五十八0±。2五十八8±。6四十九0±。5基于I5三十四9±。663岁4±。3五十八0±。2五十九2±。4四十九2±。5UV基5三十四6±。363岁3 ±。3五十八2±。3五十九0±。1四十九6±。1表3:使用不同采样策略训练的学生网络的AP。对于每次采样,报告每次检测的采样点的最佳数量k。第一行对应于教师网络。20次运行的平均值±标准值。DensePose-Chimps黑猩猩见KAP密集姿势APDAPSAPDAPS0三十三岁。8±。263岁1 ±。2五十七9±。2五十九0±。3四十九2±。41三十四7 ±。563岁0 ±。2五十七9±。3五十九3±。3四十九3±。62三十四6 ±。663岁4 ±。3五十七9±。3五十九2±。4四十九3±。45三十四9 ±。563岁4±。3五十八0±。2五十九2±。4四十九2±。510三十四6 ±。663岁3 ±。3五十八0±。3五十九2±。4四十九4±。41000三十三岁。1±。663岁2 ±。2五十七8±。3五十九2±。5四十九4±。510000二十七岁6±4。6六十岁。2 ±。455. 7 ±。5五十八0±。7四十九1±。6表4:对于不同数量的采样点k,用I采样训练的学生网络的密集姿态、检测和实例分割AP。20次运行的平均值±标准值。节中4.我们提供了实验证据,证明基于细粒度任务(I-估计,UV-映射)的置信度估计的采样导致了最好的学生表现。所选COCO对象类APAP50AP754. 实验我们现在描述经验评估的结果,并提供消融研究的详细描述。4.1. 数据集我们使用人类和动物数据集的组合,这些数据集具有不同类型的注释或根本没有注释。下文简要介绍了每一项建议DensePose-COCO数据集[14]。这是用于人类密集姿态估计的数据集,我们用于训练教师模型。它包含50k个注释实例,总计超过500万个地面实况对应。我们还使用来自原始COCO数据集的其他对象类别来增强教师培训[30]。Chimp参见dataset。为了在自我监督的环境中训练我们的模型,我们使用了来自Chimp See项目的包含黑猩猩的未标记视频。这些数据是在泛非计划的保护伞下收集的:通过在40多个黑猩猩的自然栖息地安装摄像机陷阱来培养黑猩猩(PanAf在非洲的不同地点。在这项工作中,我们使用了收集到的数据的一个子集,包括18,556个视频片段,每个片段的长度从10秒到1分钟不等,根据照明条件,使用标准或夜视模式的摄像机捕获。这些记录是由经过的动物自动触发的运动因此,有些剪辑可能不包含任何黑猩猩超过前几帧。为了进行评估,我们选择了来自一个网站的视频,以1 fps的速度采样帧,删除了接近的重复项,并收集了人类注释作为实例掩码。这导致了1054个图像包含1528个注释实例,我们使用它们来来自 ChimpSee 数 据 集 的 视 频 子 集 & 可 在http://www.zooniverse.org/projects/sassydumbledore/chimp-and-see上公开获取。http://panafrican.eva.mpg.de5240表 5 : 在 不 同 类 别 子 集 上 训 练 的 Mask R-CNN 的DensePose-Chimps上的实例分割AP。基准检测性能在我们的模型。然而,由于这些数据的野生性质以及在某些情况下存在运动模糊、严重遮挡和低分辨率,我们发现在密集对应级别收集精确的人类注释是不可行的。DensePose-Chimps测试集。为了评估DensePose在这个新类别上的性能,我们收集了一组662张高质量的图像,其中包含933个黑猩猩的实例我们用边界框、二进制掩码、身体部位分割和密集姿势对应性注释了这些数据,如第12节所述。第3.1条4.2. 结果对建筑选择的影响。 第一、 我们将我们的模型与原始的DensePose-RCNN [14](detec-tron 2实现)进行比较。我们还消融我们的改进选项卡. 图1和图2显示了两种修改在所有任务上的一致改进。Optimal transfer support. 我们(a)对节中描述的每一种类别选择策略进行基准测试。3.4和(b)试验了多类和类不可知模型。从Tab。5我们可以看到,在动物+人 子 集 上 进 行 的 类 不 可 知 训 练 显 示 了 DensePose-Chimps数据集的最佳可移植性。因此,它被用于训练我们所有的DensePose模型。密集标签蒸馏。我们进行了实验,不同的采样策略和不同数量的采样点k每次检测。在选项卡中。3我们展示性能前九名57.2985.6363.45仅熊40.6970.8844.23个人专用9.3919.328.21动物专用52.2880.6258.60人+动物57.3485.7663.59人+动物:阶级不可知论者57.3485.7663.59人+动物:类别特定50.4772.8554.305241蒸馏前输入:(i,u,v)蒸馏后:(i,u,v)图5:目视检查结果:(左)教师网络预测与(右)使用I-采样训练的学生网络预测。学生产生更准确的边界和紫外线地图。放大查看详细信息。图片来源:[53,54,37,34,2,13,12,55]。教师(第一行)和学生网络使用不同的采样策略以及相应的最佳k进行训练。基于I的采样显示出最令人印象深刻的增益,其次是基于UV的采样。均匀选择产生较差的结果。在选项卡中。4我们报告了基于I的采样在每次检测中不同采样点数量的性能。定性结果见图。五、5. 结论我们已经研究了将密集身体姿势识别扩展到动物物种的问题,并建议大规模地做到这一点需要从未标记的数据中学习。令人鼓舞的是,我们已经证明了现有的检测,分割和密集姿态标记模型可以很好地转移到最近的动物类别,例如黑猩猩,尽管存在显著的类间差异。我们已经证明,通过仔细选择哪些类别来预训练模型,通过使用类不可知的架构来整合不同的信息源,以及通过对标签不确定性进行建模来对伪标签进行分级以进行自我训练,可以获得实质性的改进通过这种方式,我们能够在不使用目标类的单个标记图像进行训练的情况下实现出色的性能在未来,我们希望研究如何最好地使用有限的目标监督来改善结果,以及如何将域适应的其他技术也用于此目的。5242引用[1] IUCN濒危物种网址://www.iucn.org/resources/conservation-tools/iucn-red-list-threatened-species. 1[2] [Ananabanana].CC BY-NC-SA 2.0.https://www.flickr.com/photos/ananabanana/14682376194/,2009年。8[3] M.安德里卢卡岛Iqbal、E.恩萨富季诺夫湖Pishchulin,A.Milan,J. Gall,and Schiele B. PoseTrack:人体姿态估计和跟踪的基准。CVPR,2018年。2[4] Mykhaylo Andriluka、Leonid Pishchulin、Peter Gehler和Bernt Schiele 2D人体姿态估计:新的基准和最先进的分析。CVPR,2014年。2[5]Yauhen Babakhin,Artsiom Sanakoyeu和Hirotoshi Kita-村。使用卷积神经网络集成的地震图像中盐体的半监督分割德国模式识别会议(GCPR),2019年。3[6] Miguel A Bautista , Artsiom Sanakoyeu , EkaterinaTikhonch ev a,andBjoürnOmme r. Cliquecnn:深度非监督范例学习。神经信息处理系统进展,第3846-3854页,2016年。2[7] 本杰明·比格斯,托马斯·罗迪克,安德鲁·菲茨吉,罗伯托·西波拉伟大和渺小的生物:从视频中恢复动物的形状和运动。ACCV,2018年。3[8] Biagio Brattoli,Uta Buchler,Anna-Sophia Wahl,MartinESchwab,and Bjorn Ommer.用于详细行为分析的Lstm自我监督在IEEE计算机视觉和模式识别会议论文集,第64662[9] 曹金坤,唐宏远,方浩树,肖勇Shen,Cewu Lu,and Yu-Wing Tai.用于动物姿态估计的跨域自适应。ICCV,2019。2[10] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。CVPR,2017年。2[11] Liang-Chieh Chen,George Papandreou,Florian Schroff,and哈特维希·亚当再思考无卷积在语义图像分割中的应用。arXiv预印本arXiv:1706.05587,2017.5[12] 史蒂文羽毛.CCby-NC-SA2.0.https://www.flickr.com/photos/7317295@N04/8631651965/,2013年。8[13] 尼克·费德尔。CCBY-NC-SA2.0.https://www.flickr。com/photos/nf4000/6677286321/,2011. 8[14] RızaAlpGuüler、NataliaN ev er ov a和IasonasKokkinos。密度:野外密集的人体姿势估计CVPR,2018年。一、二、三、七[15] 放大图片作者:SemihGünel,Helge Rhodin,DanielMorales,JoaBaghio H.凸轮-pagnolo,Pavan Ramdya,and Pascal Fua. Deepfly3d,一种基于深度学习的方法,用于追踪成年果蝇的3d肢体和附肢eLife,2019年。2[16] Oshri Halimi,Or Litany,Emanuele Rodola,AlexBronstein,还有罗恩·基梅尔密集形状对应的自监督学习。CVPR,2019年。4[17] K. 他,G. Gkioxari和P. Doll a'rand. R. 娘娘腔。掩模CNN ICCV,2017年。1、4[18] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。55243[19] Tomas Jakab 、 Ankush Gupta 、 Hakan Bilen 和 AndreaVedaldi。通过条件图像生成的对象地标的无监督学习NIPS,2018年。3[20] 山姆·约翰逊和马克·埃弗林汉姆 群集姿势和用于人体姿态估计的非线性外观模型。在BMVC,2010年。2[21] 山姆·约翰逊和马克·埃弗林汉姆从不准确的注释中学习有效的人体姿态估计CVPR,2011年。2[22] 作者:Michael J.作者:David W.雅各布斯,还有吉 坦 德 拉 · 马 利 克 端 到 端 恢 复 人 体 形 状 和 姿 势 。CVPR,2018年。1[23] 作者:Jason Y.Zhang,Panna Felsen,and Jiten-马利克夫人。从视频中学习三维人体动力学。CVPR,2019年。1[24] 皮埃尔·卡拉什丘克循环/anipose:v0.5.0。eLife,2019年。2[25] A. Kendall和Y.加贝叶斯深度学习在计算机视觉中需要哪些不确定性?NIPS,2017年。5[26] Alexander Kirillov、Ross Girshick、Kaiming He和Piotr娃娃。 光学特性金字塔网络工作。CVPR,第63995[27] 诉Leon,N.Bonneel,G.Lavoue和J. -P. 范德博尔反三维网格的连续语义描述。计算机图形学,2016. 4[28] Shuyuan Li,Jianguo Li,Weiyao Lin,and Hanlin Tang.野生东北虎的再鉴定。arXiv预印本arXiv:1906.05586,2019。2[29] 作者:Michael Maire,Serge J.贝隆吉詹姆斯·海斯PietroP e rona ,D ev aRamanan,PiotrDoll a'r和C. 劳伦斯·齐特尼克。Microsoft COCO:在上下文中常见的对象。2014年,在ECCV。1[30] 林宗毅,迈克尔·梅尔,塞尔日·贝隆吉,詹姆斯·海斯,皮埃特罗·裴罗那、德夫·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco:上下文中的公共对象ECCV,2014年。二、七[31] M. 洛珀,N. Mahmood,J.罗梅罗湾 Pons-Moll,以及M. J·布莱克和SMPL:一个有皮肤的多人线性模型. ACMTrans. on Graphics,2015. 3[32] Matthew Loper,Naureen Mahmood,Javier Romero,GerardPons-Moll和Michael J Black。Smpl:一个有皮肤的多人线性模型。TOG,2015。二、三[33] DominikLorenz,LeonardBereska,TimoMilbich,andBjo'rn奥默对象形状和外观的无监督的基于部分的解开。CVPR,2019年。二、三[34] 马里奥·马德罗纳CC BY-NC-SA 2.0. 网址://www.flickr.com/photos/andreat
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功