没有合适的资源?快使用搜索试试~ 我知道了~
13D Safari:学习从“野外”图像中估计斑马的姿势、形状和纹理SilviaZuffi 1AngjooKanazawa 2TanyaBerger-Wolf 3Michael J. 黑41IMATI-CNR,米兰,意大利,2加州大学伯克利分校3伊利诺伊大学芝加哥分校4德国图宾根马克斯·普朗克智能系统研究所silvia@mi.imati.cnr.it,kanazawa@berkeley.edu,tanyabw@uic.edu,black@tuebingen.mpg.de图1:图片中的斑马我们自动提取3D纹理模型的斑马在野生图像。我们直接从像素进行回归,而无需关键点检测或分割。摘要我们提出了第一种方法来执行自动的3D姿态,形状和纹理捕获的动物从在野外采集的图像。特别是,我们专注于捕获的3D信息格雷维斑马是非洲最濒危的物种之一,目前仅存几千只。捕捉这些动物的形状和姿势可以为生物学家和环保主义者提供有关动物健康和行为的信息。与人类姿势、形状和纹理估计的研究相比,濒危物种的训练数据有限,动物处于复杂的自然场景中,有遮挡,它们自然地被包围,成群地行进,并且彼此看起来相似。为了克服这些挑战,我们将最近的SMAL动物模型集成到基于网络的回归管道中,我们在具有姿势,形状和背景变化的合成生成的图像超越最先进的方法对于人体形状和姿态估计,我们的方法在训练期间学习斑马的形状空间。 仅使用光度损失从图像中学习这样的形状空间是新颖的,并且该方法可以用于学习形状在其他有限的3D监控环境中。此外,我们将3D姿态和形状预测与纹理合成任务相结合,从单个图像中获得动物的完整纹理图。我们表明,预测纹理映射允许一种新的每实例无监督优化的网络功能。该方法SMALST(具有学习的形状和纹理的SMAL)超越了先前的工作,其假设手动关键点和/或分割,以直接从像素回归到3D动物形状、姿势和纹理。代码和数据可在https://github.com/silviazuffi/smalst 上获得。1. 介绍从图像中估计3D人体姿态、形状和纹理已经取得了快速进展。人类是特殊的-53595360图2:野生动物面临的挑战。对图像进行关键点检测和分配(左),其中前景中的斑马看起来有三条前腿;对于分割(右),其中前景动物的后腿很难与背景中斑马的颈部区分开来。因此,为解决这一问题所作的努力是巨大的。我们扫描身体并为之建模,手工制作图像,并建立各种运动捕捉系统。这种投资水平不可能适用于所有动物物种。有太多的物种,对特定物种感兴趣的科学界可能没有资源进行这样的努力。濒危物种尤其如此。我们专注于最濒危的动物物种之一,格雷维在这里,我们描述了一种新的深度学习方法,可以直接从图像像素(图1)回归3D动物形状,姿势和纹理,不需要大量的图像注释,解决了野生动物的关键挑战,并且可以扩展到大数据集。这提供了一种新的方法,可以扩展到其他物种(见附录。Mat. 马的结果在一般情况下,很少有以前的工作,估计动物的形状和姿态。现有方法需要使用关键点和/或分割[33,34]或自动成像的干净成像条件对测试图像进行手动注释自动分割是可能的[5]。相对于人类,动物提出了独特的挑战(见图2)。首先,动物通常生活在它们的外表被掩盖的环境中,这使得自下而上的方法(如自动分割)成为一个挑战。其次,像斑马这样的动物生活在兽群中,其中重叠的相似外观的主体使得可靠的关键点提取具有挑战性。第三,与人体姿势和形状的研究相比,数据量有限,特别是对于濒危动物,3D扫描是不可行的。因此,尽管人类和动物都是可变形的铰接对象,但缺乏训练数据使得当前适用于人类的深度学习方法的幼稚应用对于动物来说不切实际。我们克服了缺乏数据,利用合成数据和图像重建损失使用生成,分析合成的方法。虽然准确的合成人类模型可用于训练,但足够高质量的动物模型却很少,尤其是对于濒危物种。我们的方法的新颖之处在于,我们不是使用完全合成的数据,而是从真实图像中捕获动物的纹理,并使用背景,姿势,照明和相机的可变性来渲染它们这是利用最近的SMALR方法[33]获得的,该方法允许我们仅通过注释大约50张图像来获得10只动物的准确形状、姿势和纹理。由此,为主题添加变化,我们生成了数千个合成训练图像(图3)。我们证明,这些是现实的,足以让我们的方法学习估计身体形状,姿势和纹理从图像像素,而无需任何微调额外的手工标记的图像。我们在几个重要方面超越了以前的工作使用动物形状、外观和神经渲染的完全生成模型,我们使用光度损失来训练神经网络,该神经网络从单个图像预测动物的3D姿势、形状和纹理图该网络的一个关键新颖之处在于,它通过共享的特征空间将纹理预测与3D姿态和形状联系起来,这样,在预测纹理映射时,网络估计图像像素和纹理映射元素之间的最佳映射的模型参数。为了防止网络只学习平均纹理贴图颜色,受[13]的启发,我们预测图像像素和纹理贴图之间的流然而,我们超越了[13],以处理具有包含多个不连续区域的更复杂纹理贴图的铰接对象。我们的方法基于最近引入的动物的3D立体形状模型,SMAL模型[34],其可以用从一小组玩具中学习的低维线性模型来表示不同形状的动物。我们不依赖于SMAL模型形状空间,而是使用网络层计算形状变化。这对应于在训练期间学习新的形状空间,并在测试时预测该空间中的形状系数。我们以前从未见过这种神经形状学习,这对于濒危物种来说是关键,因为它们很难建立精确的先验形状模型。此外,与大多数人类姿势估计方法不同,我们估计相机焦距。这对于细长形状可导致显著缩短的动物是重要的。最后,我们还表明,由于我们的网络预测一个完整的纹理图,我们可以利用pho- tometric损失,在测试时执行一个实例优化的模型参数在网络特征空间中搜索。通过使用背景模型,我们能够以全自动的方式改进和获得更详细的姿势和形状,而无需在测试时依赖于任何分割掩模。图4提供了该方法的概述。我们称我们的方法为SMALST,用于SMAL5361图3:数据集。来自数字数据集(顶部)和真实数据集(底部)的图像示例。学习形状和纹理。我们测试的方法在200个单独的斑马图像的数据集,我们评估的方法定量和定性。2. 以前的工作人体3D姿态和形状估计。 在三维人体姿态估计领域中的工作量是巨大的;在这里,我们回顾基于单目模型的方法,估计形状和姿态,因为它们是最相关的本文的目标。从单目图像估计3D姿态和形状主要基于从数千次扫描中学习的人体的低维统计模型[3,4,18]。目前最流行的模型是SMPL [18],最近的动物建模工作也建立在它的基础上。低维参数模型对于神经架构特别有吸引力,因为它们可以从少量网络生成的参数生成高质量的网格Tan等人[27]训练一个网络,学习从轮廓到SMPL模型的姿势和形状参数的映射。Omran等人[22]利用SMPL结合自底向上的身体部位分割。Pavlakos等人[23]使用基于2D关键点和轮廓的两阶段架构来估计SMPL模型的3D身体姿势和形状。聚焦于人类的方法具有利用mocap系统在室内捕获的具有地面真实3D姿态的图像的大数据集的优点[9]。我们对动物没有这种感觉,室内图像也不能很好地推广到野外。 用于从室外图像获得近似3D姿态和形状的一种方式是使用人类注释器。Lassner等人[15]建立一个人工评定的高质量3D模型拟合数据集。冯·马卡尔等[31]介绍了通过利用IMU传感器和视频获得的人体3D姿势和形状的野外数据集。或者,Varolet al. [29]创建SURREAL,一个完整的3D姿势和形状的合成数据集。Tung等人[28]利用视频帧上的时间一致性来在没有地面真实3D姿态和形状的图像上训练端到端预测模型。Kanazawa等人[11]利用对抗训练,它使用2D关键点和3D关键点的解耦数据集。姿势和形状,以弱监督的方式在野外图像上训练。捕获纹理的基于模型的方法正变得流行,其目标是创建操纵的人类化身。Bogo等人[6]从RGB-D序列创建形状和外观的3D模型。Alldieck等人[2]进一步从参考姿势中的主体的多个视频帧创建具有近似服装形状的3D纹理模型用于人体姿势和形状估计的深度学习方法结合了强大的2D关节检测器、准确的身体部位分割、人体3D姿势的大型数据集以及富有表现力的关节式3D形状模型。以前的研究都没有对于鸟类,而不是人类,金泽等人。[13]通过对表面颜色从图像映射到纹理映射的方式进行建模,学习外观的生成模型。 在我们的工作中,我们探索这种方法 到外观建模,再加上一个SMPL风格的动物模型,纹理有助于姿势和形状恢复的任务动物姿势和形状估计。动物存在于许多对象识别数据集中,其中边界框检测,识别和实例分割的方法很常见[8]。然而,在检测3D动物形状和姿势方面的工作很少。Cashman和Fitzgills [7]在这方面的开创性工作展示了如何从单目图像中估计海豚的形状。Ntouskos等人[21]将关节动物建模为他们从分割图像中估计的3D基元的集合。Vincente和Agapito [30]展示了如何从两个视图构建一个粗糙的长颈鹿形状。Kanazawa等人[12]学习猫和马的变形模型。Kanazawa等人[13]从图像中预测鸟类的3D形状和纹理,而不假设鸟类3D形状的模板模型,但它们不建模姿势。基于视频的方法可能有更多关于动物形状的信息。Reinert等人[24]示出了根据广义圆柱体从视频中提取粗略的动物形状。他们还从一个视频帧中恢复纹理贴图。与人类相比,以前的方法都不是基于从扫描中学习的3D动物模型,因此,5362i=1它们缺乏真实感和精细细节。此外,以前的工作估计单个动物的3D形状;没有解决捕获具有可变体型的大量相同物种的受试者的形状的问题。Zuffi等人[34]介绍了SMAL模型,一种3D艺术,这样的模型来创建我们的数字训练集。3.1. SMAL模型SMAL模型是形状β、姿态θ和平移γ的函数M(β,θ,γ)。β是系数的向量,动物模型,可以代表感兴趣的,学习的PCA形状空间,θ∈R3N={ri}N是种内形状变异。他们训练模型,玩具的扫描,这可能不存在濒危物种或可能不准确。他们在[33]中进一步将模型拟合到多个图像,同时允许形状变形以适应动物的个体形状。这使他们能够捕捉SMAL形状空间之外的形状,增加现实主义和泛化到看不见的动物形状。不幸的是,该方法是基于手动提取的剪影和关键点注释。 最近,Biggset al.[5]通过在合成生成的轮廓上训练联合检测器来自动将SMAL模型拟合到图像。在推理时,他们的方法需要精确的分割,并且对遮挡不鲁棒。在生物学中,动物跟踪是非常重要的,并且存在许多工具。最近,深度学习方法已被应用于帮助解决特征跟踪问题。Mathis等人[20]使用深度学习来跟踪用户在实验室捕获的红外图像上定义的动物关键点。它们显示了对啮齿动物、蜜蜂和其他小动物的应用到目前为止,还没有方法解决我们在这里处理的形状和姿态估计问题。3. 方法我们将从单个图像估计斑马的3D姿态和形状的问题表述为基于模型的回归问题,其中我们训练神经网络来预测SMAL模型的3D姿态、形状和纹理。我们方法的一个重要方面是,我们依赖数字生成的数据集来训练我们的网络。虽然由于计算机图形渲染和3D建模方法的进步,合成图像生成的质量已经显著提高,但是这样的合成数据获得起来昂贵并且在形状和外观的变化方面不足。与面部不同,社区已经从大量高质量的3D扫描中开发出了形状和外观的逼真生成模型,但不存在令人信服的3D动物生成模型。而不是依赖于合成的数据,是不够现实的代表动物,我们捕捉外观从真实的图像,并使用这些数据来渲染逼真的样品与姿势,形状和背景变化。这种混合真实和合成的方法并不新颖:Alhaija等人[1]在真实场景中使用合成汽车;在这里我们做相反:在随机背景下使用真实的主题我们使用SMALR方法[33]从具有捕获的纹理贴图的图像创建特定于实例的SMAL模型(参见图5左侧的示例我们制作动画和渲染运动树中关节的相对旋转(用Rodrigues向量表示),γ是应用于根关节的全局平移。与使用N=33个关节的[ 34 ]不同,我们对耳朵进行分段并添加关节,获得具有N=35个身体部位的模型。SMAL函数返回一个3D网格,其中模型模板由β塑造,由θ连接并由γ移动。 形式上,设β为形状变量的行向量,则参考T姿态中的对象特定形状的顶点被计算为:vshape(β)= vhorse+Bsβ,(1)其中v_horse表示SMAL模型模板的顶点,并且B_s是变形向量的矩阵在这项工作中,我们专注于马家族中的动物,因此模板vhorse是与原始SMAL模型中的平均马相对应的形状。给定一组姿态变量θ和全局平移γ,模型通过用线性混合蒙皮连接v形状来生成所需姿态的3D网格顶点v=M(β,θ,γ)SMALR。Zuffi等人[33]表明将SMAL模型与图像对齐,然后允许模型顶点偏离线性形状模型,可以创建逼真的从图像中获取看不见的动物的纹理3D模型。该方法基于初始阶段,其中SMAL被拟合到来自不同视图的和姿态,获得全局形状参数βi、每图像平移γi、姿态θi和相机焦距fi的估计。在细化步骤中,形状参数,姿势和摄像机都是固定的,但模型的形状允许通过一组位移向量来改变:vshape(dvSMALR)=vhorse+Bsβe+dvSMALR,(2)其中上标SMALR表示用SMALR方法获得位移矢量dv3.2. 数字数据集我们创建了一个计算机生成的12850个单个斑马RGB图像的数据集我们将SMALR应用于Grevy斑马的一组57张图像,为10个不同的主题创建模型。对于每个斑马模型,我们生成了在背景、形状、姿势、相机和外观上不同的随机图像。模型使用OpenDR渲染[17]。图像示例见图3顶部。姿势变化。对于每个斑马模型,我们生成了1000张具有不同姿势的图像,这些图像是通过在3D Rodrigues上对多变量高斯分布进行5363GTGT描述姿势的向量。采样分布是从SMALR和合成步行序列获得的57个姿势中学习的我们还为每个斑马模型添加了大约285张通过向57个姿势添加噪声获得的图像。我们还将噪声添加到参考动物平移中,我们将其设置为γ0=[0. 5,-0。1、20]。当我们使用透视投影时,改变深度会改变动物的大小。外观变化。 为了改变斑马的外观,我们对纹理应用了白平衡算法,使纹理贴图的数量增加了一倍,而在生成的图像上,我们随机添加了亮度噪声,色调和饱和度水平。此外,我们还随机添加照明渲染场景。我们通过从COCO数据集[16]中采样背景图像来生成具有随机背景的形状和大小的变化。我们通过向形状变量添加噪声来增加斑马形状的可变性(我们使用20个形状变量)。除了由于深度引起的尺寸变化之外,我们通过向参考相机添加噪声来添加尺寸变化,参考相机具有参考焦距f0=4000。使用大小(640,640)创建图像。对于每一个IM-年龄,我们还计算纹理uv流,表示图像像素和纹理元素之间的映射,并且可以被解释为图像和纹理映射之间的流。对于每个图像,我们保存以下注释数据:纹理映射Tgt,纹理uv流uvgt,轮廓Sgt,姿态θgt,全局平移γgt,形状变量βgt,顶点位移dvSMALR,地标位置K2D,gt。我们总共使用了28个表面标志,放置在关节,面部,耳朵和尾尖上。这些仅在3D模型模板上定义一次3.3. 真实数据集为了进行评估,我们收集了一个新的数据集的图像肉汁的斑马在肯尼亚捕获的预先计算的图像示例见图3底部。我们选择了一组48张斑马的图像,这些图像没有用于创建数字数据集,我们对它们进行了2D关键点注释。我们将其用作验证集。然后,我们选择了100张图像作为我们的测试集,也避免了上面两组中的斑马。为了进行评估,我们手动生成了这组图像的分割掩码,并注释了2D关键点。我们镜像图像,以使测试集数据加倍。3.4. 方法我们设计了一个网络来从输入图像中回归纹理映射T,dv,3D姿态θ,平移γ和焦距f变量我们在PyTorch中实现了SMAL模型。模板的顶点位移不像SMAL中那样计算(见公式1),而是从回归网络中估计。形式上:v形状(dv)= v马+ dv,(3)其中dv是作为线性层的输出而生成的位移向量。因此,给定来自等式2的地面实况形状,我们将用于网络训 练 的 地 面 实 况 顶 点 位 移 定 义 为 : dvgt=Bsβgt+dvSMALR。我们使用神经网格渲染器(NMR)[14]来渲染模型和透视投影。回归网络如图4所示。编码器由Resnet 50模块组成,该模块计算大小为(256,256,3)的图像的图像特征。在训练时,输入图像是在给定地面真值分割掩码的情况下计算的噪声边界框在计算边界框时,相应地修改平移和相机焦点的地面真值在测试时,输入图像是预先计算的动物边界框。Resnet模块后面是一个具有组规范化和Leaky ReLU的卷积层。此层的输出大小为2048。然后,我们添加2个全连接层,每个层由线性层、批处理归一化和泄漏ReLU组成。我们得到一组1024个特征作为输出。从这组功能中,我们添加了独立的层,预测纹理,形状,3D姿势,平移和相机焦点。纹理预测纹理预测模块的灵感来自金泽等人的工作。[13 ]第10段。虽然[13]探索纹理回归的一个简单的纹理地图,对应于一个球体,四足动物,如斑马,有一个更复杂的表面和纹理地图布局。因此,我们将纹理图预测为4个子图像的集合,然后将其拼接在一起。我们发现这比直接预测完整的纹理贴图效果更好,可能是因为考虑到铰接模型的复杂性,网络很难处理纹理贴图中的空间不连续性。 我们将纹理贴图(大小为(256,256))切割成4个区域,如图5所示。对于每个子图像,我们定义一个编码器和解码器。每个编码器输出(256,H,W)特征图,其中H和W是子图像大小的32的缩减,并且由2个全连接层组成。解码器由一组卷积层和最终的tanh模块组成。解码器的输出被拼接以创建完整的uv流图,该uv流图对哪些图像像素对应于纹理图中的像素进行形状预测形状预测模块由输出40个形状特征fc的全连接层和预测顶点变形的线性层dv =Wfs+b,(4)其中b是偏置项。W用SMAL融合变形Bs初始化(参见等式1)。 我们希望用一个比SMAL更具表现力的线性模型来表示形状,因此我们试图通过网络优化形状混合形状。为了限制网络参数的数量,我们利用了SMAL的对称性5364图4:总体框架。给定一个输入图像,网络预测每个纹理贴图子图像的uv流(图1)。5)然后将它们组合以恢复完整的纹理贴图。将矢量位移dv添加到SMAL马模板以生成T姿势的3D模型,该模型可以在给定纹理、姿势、相机和平移参数的情况下渲染。在预测之后,我们可以执行每个实例的优化(虚线),其中我们对特征空间变量进行优化3.5. 3D姿态、形状和纹理估计我们训练网络以最小化损失:Ltrain=Lmask(Sgt,S)+Lkp2D(K2D,gt,K 2D)+Lcam(fgt,f)+Limg(Iinput,I,Sgt)+Lpose(θgt,θ)+Ltranss(γgt, γ)+Lshape(dvgt,dv)+Luv(uvgt,uv)+Ltex(Tgt,T)+Ldt(uv,Sgt)(5)图5:纹理贴图。地面实况纹理贴图(左)与子区域布局(右)的示例。模型和预测只有一半的网格顶点。姿势预测。姿态预测模块是线性层,其输出3D姿态的向量作为相对关节角度,表示为罗德里格斯向量。姿势向量的大小为105,因为我们使用35个身体关节。翻译预测平移预测模块由两个线性层组成,这两个线性层独立地预测相机帧和深度中的平移1 .一、0+x,γ y=y,γ z=1。0+z+γz ,0,其中(x,y,z)是预测层的输出,γz,0=20,如在合成数据集中。我们加1。由于训练集中地面真值的分布,将0的值转换为x相机预测。相机预测层预测透视相机的焦距由于我们还预测网络中的深度,因此该参数可能是多余的;然而,我们根据经验发现,它可以更好地拟合图像。相机焦距被获得为f=f0+f1x,其中x是预测层的输出,并且f0=f1=2700。其中:Sgt是掩码,L_mask是掩码损失,定义为Sgt和预测掩码之间的L1损失。Lkp2D是2D关键点损失,定义为K2D,gt与模型顶点上定义的投影3D关键点之间的MSE损失Lcam是相机损失,定义为fgt和预测焦距之间的MSE损失Limg是图像损失,计算为掩蔽输入图像和渲染斑马之间的感知距离[32]L姿态是θgt和预测3D姿态之间的MSE损失,计算为测地距离[19]。Ltranss是翻译损失,定义为γgt和预测翻译之间的MSEL 形是形状损失,定义为dvgt和预测dv之间的MSE。Luv是uv流损失,定义为uvgt和预测uv流之间的L1损失请注意,地面真实值uv流必然是不完整的,因为从一个图像中,我们只能分配部分纹理贴图。在生成数字数据集时,我们还计算uv流的可见性掩模,我们利用它Ltex是Tgt和预测纹理贴图之间的L1损失Ldt是一个纹理损失项,它鼓励UV流从前景区域中拾取颜色(参见[13])。该术语始终适用于完整纹理。每一个损失都与一个重量有关请注意,我们包括模型参数的损失以及轮廓和投影关键点的损失类似于Pavlakoset al.[23]我们观察到,5365与朴素参数回归相比,每顶点损失改进了训练。该网络是在Py-Torch中实现的。3.6. 按实例优化纹理映射的预测允许我们利用学习的特征空间和光度损失执行无监督的逐实例优化。也利用光度损失的方法通常由分割[10]辅助,其中仅在前景区域中计算损失。在这项工作中,我们不假设任何分割在测试时可用,而是渲染完整的图像预测,这需要构建背景模型[26]。我们估计一个平均的背景颜色exploiting用于建立SMALR模型的训练的图像的手动分割。给定一个输入图像,我们运行回归网络,然后执行每个实例的优化,其中我们保持网络层固定并在特征空间变量上进行优化(图4虚线)。通过这种方式,我们利用了网络学习到的变量之间的相关性。在优化过程中,我们最小化以下损失:L opt=为了可视化估计形状的可变性,我们计算了在测试集上获得的40个形状特征f s的方差(参见等式4),并查看与具有最大方差的4个特征相关联的变形。在 图 7 ( 上 图 ) 中 , 我 们 在 奇 数 行 中 显 示 了vhorse+b−3σ i W i,在偶数行中显示了vhorse+b+3σ i Wi,其中σ i是第i个形状特征的标准差,W i是学习矩阵W中的一行(等式4)。 为了可视化初始SMAL形状空间和从网络学习的形状空间之间的差异,图7(底部)显示了通过将偏差b添加到SMAL模板,SMAL模板(粉红色)和用于创建训练集的SMALR网格的平均值(绿色)获得的网络模型的平均形状(蓝色)。按实例优化。我们在整个测试集上运行每个实例的优化。我们优化了120个时期的预算,并保留了最低的光计量损失的解决方案。表1示出了优化(C)的性能图8示出了一些示例。为了进行比较,我们还对模型变量(D)执行了每个实例的优化L照片 (I输入,I)+L凸轮(f,f)+L反式 (γ,γ),(6)其中Lphoto是光度损失,计算为输入图像和图像预处理之间的感知距离[32]措辞f和γ是焦距的初始值和用网络估计的平移。4. 实验从图像直接回归。我们训练两个网络:一个是完整的网络,另一个是没有纹理预测模块的网络,因此在没有UV流损失L uv、图像损失L img和纹理图损失Ltex和L dt的情况下训练纹理预测模块。我们训练两个网络的预算为200个epoch,并保留在验证集上表现最好的网络 我们使用Adam优化器,学习率为0。0001,动量为0。9 .第九条。我们在200张标注的测试图像上运行预测网络;代表性结果见图6。表1报告了在前馈预测(F)而对于没有纹理预测的网络(G)。为了与以前的工作进行比较,我们使用手动分割和关键点注释将SMAL模型拟合到测试集我们还评估了在合成数据集(B)上的性能。为了说明鲁棒性,我们进行了一个向输入边界框(H)添加噪声的实验。为了量化形状估计的准确性,我们计算重叠分数作为人工图像分割和预测动物掩模的交集表1:结果。(A)我们与SMAL模型拟合[34]进行了比较,SMAL模型拟合需要地面真实关键点和分割;(B)我们在合成数据集上运行网络前馈预测;(三)我们提出的方法;(D)对模型变量而不是网络特征的每实例优化;(F)前馈预测(无优化);(G)无纹理的前馈预测;(H)具有边界框上的噪声的前馈预测。5. 结论我们已经提出了第一个研究的自动3D姿态,形状和外观捕获的动物从一个单一的图像获得“在野外”。传统上,计算机视觉研究的重点一直是人体:处理野生动物提出了新的技术挑战。我们通过创建一个数字数据集,将真实外观与合成的姿势,形状和背景相结合,克服了缺乏训练数据的问题。我们通过训练端到端网络来直接从图像中回归3D姿势,形状,相机,全局平移和纹理,从而消除了对关键点检测或分割的需求。我们已经证明,预测纹理图有助于恢复更准确的姿态方法PCK@0.05PCK@0.1IOU(A)SMAL(gt kp和seg)92.299.40.463(B)前馈合成80.497.10.423(C)光学特性62.381.60.422(D)opt变量59.280.60.418(E)选择功能bg img59.780.50.416(F)前馈预测59.580.30.416(G)没有纹理52.376.20.401(H)噪音盒58.779.90.4155366图6:结果。在两列上:输入图像,网格重叠,预测纹理图,三维渲染,三维网格。图7:形状空间。顶部:从顶视图和侧视图观察测试组中形状的可变性(见正文)。我们观察到变化是在腹部和耳朵。底部:平均形状:蓝色-网络,粉红色-SMAL,绿色-SMALR。和形状。此外,我们已经表明,由于预测的在这项工作中,我们专注于Grevy的图8:按实例优化。输入图像,初始网络预测,优化图像和重叠。谢谢。AK得到了BAIR赞助商的支持。TBW由NSF资助III-1514126支持。管理公开MJB已经收到了来自英特尔、英伟达、Adobe、Facebook和亚马逊的研究基金。虽然MJB是亚马逊的兼职员工,但他的研究仅在MPI进行。他也是Meshcapde GmbH的投资者。5367引用[1] Hassan Abu Alhaija , Siva Karthik Mustikovela , LarsMescheder,Andreas Geiger,and Carsten Rother.增强现实与深度学习相结合,用于城市场景中的汽车实例分割在2017年英国机器视觉会议上,2017. 4[2] Thiemo Alldieck , Marcus Magnor , Weipeng Xu ,Christian Theobalt,and Gerard Pons-Moll.基于视频的三维人物模型重建。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年6月。3[3] 布雷特·艾伦,布赖恩·库勒斯,布赖恩·库勒斯和佐兰·波普。人体形状的空间:距离扫描的重建和参数化在ACM SIGGRAPH 2003论文,SIGGRAPH美国纽约,2003年。ACM。3[4] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。SCAPE:人的形状完成与动画。 ACM事务处理图表(Proc. SIGGRAPH,24(3):408-416,2005年。3[5] 本杰明·比格斯,托马斯·罗迪克,安德鲁·菲茨吉,罗伯托·西波拉。伟大和渺小的生物:从视频中恢复在ACCV,2018年。二、四[6] 作者:Michael J.布莱克马修·洛珀哈维尔·罗梅罗从单目RGB-D序列对移动的人进行详细的全身重建。在国际计算机视觉会议(ICCV),第23002015年12月。3[7] 作者:Tom J. Cashman,Andrew W.菲茨吉本海豚是什么 形 状 的 ? 从 2D 图 像 建 立 3D 可 变 形 模 型 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,35(1):232-244,Jan 2013. 3[8] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克 . 面 罩 R-CNN 。 在 2017 年 国 际 计 算 机 视 觉 会 议(ICCV)的会议记录中。3[9] Catalin Ionescu , Dragos Papava , Vlad Olaru , andCristian Sminchisescu. Human3.6m:大规模数据集和预测 方 法 , 用 于 自 然 环 境 中 的 3D 人 体 感 知 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,36(7):1325-1339,2014年7月。3[10] 放 大 图 片 作 者 : Michael Janner , Jiajun Wu , TejasD.Kulkarni,Ilker Yildirim,and Josh Tenenbaum.自我监督的内在图像分解。在NIPS,第5938-5948页,2017年。7[11] 作者:Michael J.作者:David W.雅各布斯和吉坦德拉·马利克端到端恢复人体形状和姿势。在计算机视觉和模式识别(CVPR),2018年。3[12] Angjoo Kanazawa 、 Shahar Kovalsky 、 Ronen Basri 和David W.雅各布斯从2D图像中学习动物的3D变形在Eurographics,2016年。3[13] 放大图片作者:Angjoo Kanazawa,Shubham Tulsiani,Alexei A.埃弗罗斯和吉坦德拉·马利克从图像集合学习特定类别的网格在ECCV,2018。二三五六[14] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日。55368[15] 放大图片作者:Christoph Lassner,Javier Romero,Martin Kiefel,Federica Bogo,Michael J.布莱克和彼得五世盖勒团结人民:关闭3D和2D人类代表之间的循环。在 Proceedings IEEE Conference on ComputerVision and Pattern Recognition ( CVPR ) 2017 中 ,Piscataway,NJ,美国,2017年7月。美国电气与电子工程师协会。3[16] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C. 劳伦斯·齐特尼克。微软coco:上下文中的公用对象。在David Fleet、Tomas Pajdla、Bernt Schiele和Tinne Tuyte- laars编辑的Computer Vision-ECCV施普林格国际出版社. 5[17] Matthew Loper和Michael J.黑色. OpenDR:一个近似微分渲染器. 在欧洲会议中计算机视觉(ECCV),第154-169页,2014年。4[18] Matthew Loper、Naureen Mahmood、Javier Romero、Gerard Pons-Moll和Michael J.黑色. SMPL:一个多人皮肤线性模型。ACM Trans. Graphics(Proc.SIGGRAPH Asia),34(6):248:1-248:16,Oct.2015. 3[19] Siddharth Mahendran,Haider Ali和Rene 'Vidal。使用卷积神经网络的3D2017年IEEE计算机视觉和模式识别研讨会(CVPRW),第494-495页,2017年7月。6[20] 放 大 图 片 作 者 : Alexander Mathis , PranavMamidanna,Kevin M.放大图片作者:Kerry,TaigaAbe , Venkatesh N. Murthy , Mackenzie WeygandtMathis,and Matthias Bethge. Deeplabcut:使用深度学习对用户定义的身体部位进行自然神经科学,21(9):1281-1289,2018。4[21] Valsamis Ntouskos,Marta Sanzari,Bruno Cafaro,Fed-erico Nardi , Fabrizio Natola , Fiora Pirri , andManuel Ruiz.铰接对象的智能建模。国际计算机视觉会议(ICCV),2015年12月。3[22] Mohamed Omran 、 Christoph Lassner 、 Gerard Pons-Moll、Pe ter Gehler和Bernt Schiele。神经身体拟合:统一深度学习和基于模型的人体姿势和形状估计。在3D视觉国际会议(3DV),2018年9月。3[23] Georgios Pavlakos,Luyang Zhu,Xiaowei Zhou,andKostas Daniilidis.学习从单色图像估计三维人体姿态和形状。在2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第459三、六[24] Bernhard Reinert , Tobias Ritschel , and Hans-PeterSeidel. 动 画 3D 生 物 从 单 视 图 视 频 骨 骼 素 描 。 在GI'16:Proc. 2016年第42届图形界面大会3[25] 丹尼尔岛放大图片创作者:John W. Stew- art,TanyaY. 放 大 图 片 作 者 : Jason Holmberg , Jon Crall ,BelindaL.Mackey , SheilaFunnel , KasmiraCockerill , Zeke Davidson , Lizbeth Mate , CosmasNzomo,Rosemary Warungu,Dino Martins,VincentOntita , Joy Omulupi , Jennifer Weston , GeorgeAnyona , Geoffrey Chege , David Kim- iti , KaiaTombak,Andrew Gersick,and Nancy Rubenstein.肯尼亚斑马和网纹长颈鹿的状况:2018年grevy's rally的结果。肯尼亚野生动物管理局报告,2018年6月。25369[26] 桑德罗·舍恩伯恩,伯恩哈德·埃格尔,安德烈亚斯·福斯特,托马斯·维特。用于生成图像模型的背景建模。Comput. 目视图像理解,136(C):1177[27] Vince Tan,Ignas Budvytis和Roberto Cipolla。用于3d人体形状和姿势预测的间接深度结构化学习。在2017年英国机器视觉大会上BMVC 2017,伦敦,英国,2017年9月4日至7日,2017年。3[28] Hsiao-Yu Tung , Hsiao-Wei Tung , Ersin Yumer , andKaterina Fragkiadaki.动作捕捉的自监督学习。神经信息处理系统的进展,第5242-5252页,2017年。3[29] 作 者 : Gu¨lVarol , J a vierRomero , X a vierMartin ,NaureenMah-mood,Michael J. Black,Ivan Laptev,andCordelia Schmid. 向 人 造 人 学 习 在 Proceedings IEEEConference on Computer Vision and Patte
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功