没有合适的资源?快使用搜索试试~ 我知道了~
3876BARC:通过利用品种信息从图像中学习回归3D狗形Nadine Ruée gg1,2,Silvia Zuffi3,Konrad Schindler1和MichaelJ.Black21 ETH苏黎世,瑞士2德国图宾根马克斯·普朗克智能系统研究所3IMATI-CNR,米兰,意大利图1. 单眼3D形状和姿势回归的3D狗从2D图像。 由于3D训练数据有限,BARC使用品种在训练时通过三元组和分类损失来学习如何在测试时回归真实的3D形状摘要我们的目标是从单个图像中恢复狗的3D形状和姿势。这是一项具有挑战性的任务,因为狗表现出各种各样的形状和外观,并且高度清晰。最近的工作提出了直接回归SMAL动物模型,具有额外的肢体比例参数,从图像。我们的方法称为BARC(使用分类的品种增强回归),在几个重要方面超越了以前的工作。首先,我们修改SMAL形状空间,使其更适合于表示狗的形状。但是,即使有了更好的形状模型,从图像中回归狗的形状的问题仍然具有挑战性,因为我们缺乏具有3D基础事实的配对图像。为了弥补配对数据的缺乏,我们制定了新的损失,利用狗品种的信息。特别是,我们利用了同一品种的狗有相似的身体形状的事实。 我们制定一个新的品种相似性损失包括两个部分:一个术语鼓励来自同一品种的狗的形状比不同品种的狗更相似。第二第二,品种分类损失,有助于产生可识别的品种特异性形状。通过消融研究,我们发现,我们的品种损失显着提高形状精度超过基线没有他们。我们还将BARC定性地与WLDO进行了知觉研究,发现我们的方法产生的狗明显更逼真。这项工作表明,关于遗传相似性的先验信息可以帮助弥补3D训练数据的不足。这一概念可能适用于其他动物物种或物种群。我们的代码可在https://barc.is.tue.mpg.de/上公开获取以供研究。1. 介绍学习从2D图像推断关节和非刚性物体的3D模型对于人类的情况,最近的方法利用人体形状和姿势的详细参数模型,如SMPL [10]。这些模型是从数千个不同姿势的人的高分辨率3D扫描中学习到的这种方法不能3877对于大多数动物物种来说是重复的,因为它们很难,甚至不可能在受控环境中扫描。此外,具有已知3D形状的动物的配对训练数据更是罕见。为了取得进展,我们必须利用可以轻松获得的边信息,但约束3D形状和姿态估计的任务。动物形状和姿态的3D重建具有许多实际应用,从生物学和生物力学到保护。具体地,3D身体形状的非侵入性捕获支持形态学和从形状分析健康。无标记运动捕捉允许对在实验室环境中无法捕捉的动物进行3D运动分析。在这里,我们把狗作为一个丰富的、有代表性的测试案例。狗表现出广泛的形状,是非刚性的,并有复杂的关节。当然,狗是具有挑战性的,也是许多其他动物的代表。在这里,我们的目标是学习从单目,不受控制的图像中估计狗的3D形状和姿势。由于缺乏3D训练数据,我们以关键点和轮廓的形式训练了一个带有2D监督的回归网络然而,只有这样的2D信息,问题是严重约束不足:许多3D形状可以同样很好地解释为了使任务适定,我们需要额外的先验信息.在这里,我们探索了一个先验知识的新来源:狗即使是训练有素的业余爱好者也可以通过狗的形状(和外观)来识别品种。狗是一个特别有趣的情况下,探索品种的作用,因为他们的品种繁多狗已经被驯化和饲养了很长一段时间,用于不同的目的,如陪伴,狩猎或放牧,但也比赛,拉雪橇,寻找松露等,因此,育种者选择了一系列的性状,包括体型(以及气质,外观等)。这导致了大量具有非常不同特征的品种。最近对狗基因组的分析说明了今天存在的不同品种之间的关系[5]。品种被分组为分支,通常在一个分支内具有高度的形状相似性。图2显示了161个家养犬品种的进化树[5]。在这里,我们探索使用遗传侧信息,以品种标签的形式,来训练一个从2D图像推断3D狗形状的回归量。具体来说,我们训练了一个名为BARC的新型神经网络,即“使用分类的品种增强回归”。我们遵循直接从图像像素回归参数化3D形状模型的方法,这在人体姿势和形状估计中是常见的。在这里,我们使用SMAL动物模型[32]来定义运动链和网格模板。我们以几种方式扩展SMAL,以便为学习狗的形状提供更好的基础,这包括添加肢体比例因子,图2. 家犬品种的进化树。该图表示根据遗传相似性的聚类。[ 5][5]用额外的3D狗形状扩展其形状空间。为了解决从犬的运动形态中估计犬形的问题,在过去的几年里,我们做出了一些贡献。 (1)我们建议新的神经网络架构,从图像中回归3D狗的形状和3D姿势。 (2)为了使培训变得容易-从2D轮廓和关键点中,我们利用了同一品种的2D图像应该产生相似的3D形状,而不同品种(大多数)具有不同形状的事实。有了这个假设,我们对训练图像施加分类和三重损失,这些图像带有品种标签。(3)因此,我们学习了一个品种感知的潜在形状空间,在其中我们可以识别与图2中的分支图一致的品种集群和关系。(4)可选地,我们展示了如何利用3D模型,如果可用于某些品种。虽然我们使用的是文献中最大的狗数据集之一,但大量的狗品种(在我们的案例中为120)意味着每个品种只有几张图像我们可以将我们的方法解释为学习所有狗的共同形状流形(因为每个品种没有足够的例子),同时使用品种标签对其进行局部正则化。据我们所知,这是第一种利用品种信息从图像中回归动物3D形状的方法我们在Stanford Extra(StanExt)[1,9]训练集上训练网络,我们用眼睛,马肩隆和喉咙关键点扩展该我们对120种不同狗品种的数据集进行了评估,并表明我们为狗学习了一个潜在的形状空间,在这个空间中,更密切相关的狗更接近(图1)。(3)第三章。3878通过消融研究,我们评估了不同类型的品种信息的影响,并发现每一个损失导致形状准确性的显着改善。我们使用标准的2D测量(如PCK和IOU)来评估精度因此,我们创建了一个3D狗的数据集,以评估相应品种的形状这允许定量评估,并且我们显著优于现有技术(WLDO [1])。最后,为了评估野外图像的形状估计,我们使用感知研究来比较方法。我们发现,我们的最终模型比消融版本或WLDO更真实。2. 相关工作虽然许多方法都集中在从图像中重建人体的三维模型上,但在动物的三维姿态和形状估计方面的工作却很少。从图像中再现动物主要有两种方法:无模型和基于模型。无模型三维重建。这些方法不利用现有的3D形状模型。Ntouskos等人。[14]通过组装3D图元创建3D动物形状,这些图元是通过在多个图像中拟合手动分割的部分获得的。同一种类不同动物的年龄。Vicente和Agapito [24]使用关键点和轮廓对从参考图像中提取的模板进行变形以适应新图像,而Kanazawa等人。[7]学习回归3D鸟类形状,给定关键点和轮廓;鸟类表现出相当有限的清晰度。最近的工作表明需要2D关键点[6,22,26]。基于模型的3D重建。在第一个从图像重建3D动物的方法之一中,Cashman和Fitzgienic [4]使3D海豚模板变形,从手动点击学习低维变形模型。关键点和手动分割。他们还将他们的方法应用于鸽子和北极熊。这种方法的一个局限性是没有明确地对关节进行建模。相比之下,Zuffi et al.介绍SMAL [32],一种可变形的3D关节型四足动物模型。与广泛采用的人体模型SMPL [10]类似,SMAL表示具有低维线性形状空间的3D关节形状。由于缺乏真实的3D动物扫描,SMAL是从不同四足动物物种的扫描玩具雕像中学习的。由于狗没有很好地代表SMAL,比格斯等人。[1]通过添加肢体长度的比例参数扩展SMAL模型在[25]中,鸟类的铰接式3D模型是根据肢体尺度变化定义的,并用于从图像中学习形状;目前还不清楚这种方法是否容易扩展到更复杂的动物。使用SMAL的早期工作使用基于优化的方法将模型拟合到图像证据[32]并细化动物形状[31]。在其他方法中,Biggs等人[2]展示了如何提取准确的动物形状和姿势[8]从RGBD图像中估计狗的形状和姿势。与BARC更相关的是基于学习的方法,这些方法直接回归动物的姿势和形状。Biggs等人[1]通过将其模型的姿势和形状参数回归到StanExt数据集的训练图像来从单个图像中估计狗的姿势和形状。他们的初始姿态先验使用期望最大化,相对于他们的模型的图像的拟合。Zuffi等人。[30]通过利用纹理映射从图像回归斑马SMAL模型,并学习Grevy斑马的形状空间。 他们用合成数据训练。 与这些方法相反,Sanakoyeu等人。[18]既不直接从图像预测3D,也不依赖于稀疏注释的关键点。相反,他们展示了如何将密集姿势从人类转移到非人类灵长类动物身上。这种方法不能恢复3D形状或姿势。没有3D地面实况的监督。 所有3D方法都依赖于某些2D功能,如关键点、分割蒙版或DensePose注释作为监督信号。有时,这些2D信号在模型提升到3D之前用作中间表示。Mu等人。[12]利用合成3D数据来预测2D关键点和粗略的身体部位分割图。他们介绍了一种新的动物2D关键点预测数据集,并展示了如何在领域之间转移知识,特别是从可见的四足动物物种到不可见的物种。还有其他工作[6,7,22]鼓励相似形状的对象之间的相似性,具有小的类内变异性。它们既不利用品种信息,也不利用对比学习来构造结构化的潜在空间.3. 方法目前的工作探讨了如何在训练时利用已知的品种信息来学习回归高质量的狗的3D模型。为此,我们将参数狗模型与神经网络相结合,将图像映射到模型实例。在下文中,我们描述了我们使用的模型,它所嵌入的网络架构,以及用于训练架构的损失函数,包括新的品种损失。3.1. 犬模型对于狗的形状和姿势的参数表示,我们采用了一个变种的SMAL。我们从41个扫描动物玩具雕像的几个不同的物种(已经作为原始SMAL模型的一部分使用 ) ,以 及作 为 典型 T姿 势 的动 物 等 效物 中 的3DUnity犬模型;即,直立着,腿直,尾巴向后。我们购买了与[1]用于初始化其混合物的Unity模型11 https : //assetstore.团 结 com/packages/3d/characters/dog-big-pack-1056603879图3. 学习潜在空间。 t-SNE [23]测试集中犬的64维潜在形状变量的可视化。大的标记表示图2中每个分支内的平均值。走了训练网络的潜在空间没有品种相似性损失。请注意,分支平均值都接近群体平均值,表明聚类较差。中间和右边:与品种相似性损失。对于每个进化枝,具有不同饱和度的颜色指示进化枝内的不同品种。的高斯形状先验,并使用它们来重新学习SMAL形状空间为我们的任务。为此,我们将具有与SMAL(和WLDO)相同拓扑的网格拟合到新狗,将这些添加到原始SMAL训练集并重新计算平均形状和PCA形状空间。该模型在三个方面与原SMAL模型不同:(1)输入数据不同;(2)重新加权输入,使总权重的50%分配给狗;(3)重新缩放网格,使躯干始终具有长度1。我们进一步采用了WLDO的思想,并对模型进行了扩展 , 其 中 肢 体 的 缩 放 参 数 为 κ ( 实 际 比 例 为 exp(κ)),加上头部长度的额外比例。缩放将应用于骨骼长度,并通过其相应的线性混合蒙皮(LBS)权重传播到为了紧凑,我们将PCA形状系数βpca和肢体尺度κ收集到形状向量β中。3.2. 架构与[15,28]类似,我们使用单独的形状和姿势分支。图4显示了BARC的整体架构,包括一个联合堆叠沙漏编码器、一个形状分支、一个姿势分支以及一个3D预测和再现模块。堆叠沙漏:首先,对输入图像进行编码,并使用预先训练的堆叠沙漏网络预测2D关键点热图以及分割图。使用“数值坐标回归”(NCR,[ 13 ])从热图中提取2D关键点位置分割图使用类似于用于3D点云编码的“基点集”(BPS,[ 16 ])的方案进行编码据我们所知,我们是第一个在2D中应用BSP的公司。与完整的分割图相比,这种编码是轻量级的,易于计算轮廓,并且具有与NCR关键点类似的格式。我们发现,尽管减少到少量的样本点,轮廓编码仍然提高了3D预测超过2D关键点单独。形状分支:输入图像和预测分割图被连接并馈送到ResNet34,dicts dicts a latent潜在encoding编码zof the dog's狗shape形状. z被解码为品种(类别)分数和体型系数β的向量。我们已经对z和β之间的不同子网络进行了实验,发现当连接尽可能直接时,品种相似性损失是最有效的,z与每个形状向量κ和βpca之间只有单个完全连接的层。这些形状系数应用于3D狗模板以获得形状,其骨骼长度被传递到姿势分支。姿势分支:预测的2D关键点、轮廓的BPS编码和来自形状网络的骨骼长度形成输入以估计狗摄像机坐标系和摄像机姿态表示为每个关节的6D旋转[29],包括根旋转。我们不是直接预测所有的旋转,而是预测根旋转和潜在的姿势表示y。根据最近对人体姿态估计的研究,我们实现了一个可逆神经网络(INN),将每个潜在变量y映射到一个姿态。该INN用于在RGBD-Dog数据集[8]上训练的归一化流姿态的上下文中与[27]类似,我们构建了这个由Real-NVP块组成的网络,但由于RGBD-Dog数据集的大小与AMASS [11]相比较小,我们的网络比以前的人体姿势估计工作要小得多。INN的目的是将3D狗姿势的分布映射到简单且易处理的密度函数,即球形多变量高斯分布。为了训练姿势先验,我们利用RGBD狗数据集[8],其中包含行走,小跑和跳跃序列,但没有坐姿或躺着姿势。请注意,INN经过预训练,用作姿势先验,并在最终网络训练期间保持固定。3D预测和重投影模块:作为最后一步,BARC根据预测的形状、姿态和平移来对模型进行姿态调整,并使用预测的焦距将关键点和sil-houette重投影到图像空间。为了最小化轮廓和关键点重投影误差,我们采用Pytorch 3D可微渲染器[17]。3880nβκ我-2kp,mn图4. BARC架构。该模型由一个堆叠的沙漏网络组成,后面是两个独立的分支,用于形状和姿势预测。粉红色方框说明了损失的适用范围。粉红色的盒子与黑色的边界是我们的新品种损失。3.3. 训练过程铰接的可变形3D模型拟合的复杂性需要许多不同的损失函数,以及关键点位置kgt:Nkp(1)(1)(2)(3)(4)(5)(Nkpwn),(1)认真的训练。n=1n nn=1堆叠沙漏预训练:堆叠的沙漏是一个简单的训练。其中d(kpred,kgt)是两个点之间的2D欧几里得距离n n预训练以预测关键点和分割图。StanExt狗数据集[1]为两者提供了标签。关键点损失由两 部 分 组 成 , 预 测 和 真 实 热 图 之 间 的 均 方 误 差(MSE),以及预测和真实关键点坐标之间对于轮廓,我们使用地面实况和预测掩模之间的交叉熵。 像往常一样,第n个关键点的预测位置和地面实况位置。权重wn用于平衡关键点的影响;请参见Sup。Mat.Silhouette Reprojection LossLsil是渲染的spred和地面实况轮廓sgt之间的平方像素误差:. 粤ICP备15022561号-1(s s)L T沙漏,我们计算每个阶段后的损失。Lsil=x=1y=1xyxy(二)姿势分支预训练:我们使用相同的数据集(RGBD-狗),用于训练姿势之前也预训练姿势分支。我们对姿势和随机形状进行采样,并将它们投影到一个256×256的图像上,并进行随机变换。lation和focal length。投影的关键点和银-0否则。这仅用于其中平均关键点重新投影误差Lkp,m低于阈值T的图像。形状先验:这是两个部分的加权和,wβLsh+wκLsh。第一种惩罚偏离多-βκhouette用作网络的输入。 使用MSE损失为了惩罚预测值和具有平均值μpca和协方差μpca的变量高斯:地面真相此外,我们使用预测的姿势潜在表示y与其地面实况之间的MSE误差Lsh=(βPCA-µpca⊤−1)β-pca(βPCA-µpca )的情况。(三)主训练:堆叠的沙漏保持固定,而所有其他网络参数都被联合优化。我们指出,我们无法获得3D地面实况,此外,我们对偏离1级的行为进行处罚,比例因子κ上的元件平方损失,Σ7并且基于2D关键点,真实形状和姿态是模糊的。为了使解正规化,我们将Lsh=i=1κ2。(四)具有适当先验的重投影损失。这些损失术语说明如下。3.4. 标准损失关键点重投影损失Lkp是预测的kpred和地面实况2D3881形状先验损失被分配了一个低权重,并且仅用于稳定形状以对抗丢失的证据。Pose Prior:Lp惩罚具有低可能性的3D姿势。同样,它包括两个方面,一个规范化的流动姿态之前,以及关于侧腿的正则化动作归一化流姿态先验惩罚给定姿态样本的负对数似然以来3882L=侧三重CS3D三重NF三重+W学习的潜在表示y遵循多元正态分布,则姿态先验简化为:其中m是裕度,d表示两个样本之间的距离。品种分类损失LB:我们进一步偏向估计,很好。(五)归一化流先验在RGBD-Dog数据集上训练,与StanExt数据集中的自然姿势相比,RGBD-Dog数据集具有有限的姿势集。 因此,与CS信息对可识别的,品种特定的形状,辅助品种分类任务,在品种标签上使用标准交叉熵损失进行监督:NΣ类只有这样,网络才能推断出腿不自然地侧向移动的3D姿势。因此,我们添加第二个B−CSc=1yo,clog(po,c),(9)项Lp这会影响三个关节其中po、c是观测o在每一条腿。最后的pose prior是:如果标签c是正确的,Lp=wnfpnf侧p侧 、(6)观察类O。完整的相似性损失如下:其中权重Wnf和Wside被设置为低值。BSIM=w三重态LB+wcsLB,(10)相机PriorLcam:由于焦距fpred与深度(物体到相机的距离)严重相关,我们发现惩罚与合理预定义的目标焦距ftarget的平方偏差是有用的:L cam =(fpred-f target)2。(七)3.5. 新品种损失其中w三元组和wcs是权重。3D模型丢失LB:我们可以访问少量的3D狗(Unity模型)和一些玩具雕像的3D扫描这些模型包括StanExt中120个品种中的11个。对于这些品种,我们可选地通过形状系数β上的分量损失来强制预测和可用的3D地面实况形状之间的相似性:LB =(β pred −β breed)2+(κ pred − κ breed)2。(十一)到目前为止所描述的损失并不取决于品种。3DPCAPCA为了利用训练图像的品种标签,我们引入了一个额外的品种三元组损失,以及一个辅助品种分类损失。我们将这两种损失总结为品种相似性损失。考虑到3D模型学习过程中使用的狗网格(第3.1)此外,我们为这些特定品种定义了一个品种三胞胎损失LB:同一品种的狗通常在形状上有点相似。然而,这并不意味着没有类内变异,也不意味着不同的品种一定有不同的形状。因此,我们用三重态损失来实现这一点。我们已经实验了不同的度量学习损失,但发现它们都表现出类似的行为。三重丢失通常用于个人重新识别(ReID)方法,其目标是学习对个人身份具有区分性的特征[20,21]。RingNet使用类似的想法从没有3D监督的图像中学习3D头部形状[19]。将损耗直接应用于形状β并不能很好地工作。沿着不同主方向的形状变化可以具有不同的尺度,此外,由于肢体缩放引起的形状变化与PCA系数βpca不正交。我们发现最好将三重态损失应用于潜在编码z。给定一个批次,其中有一个锚样本za,一个相同品种的阳性样本zp和一个来自不同品种的阴性样本zn,我们计算三重损失,LB=N-三胞胎max(d(za,i,zp,i)−d(zn,i,za,i)+m,0),(8)i=1LLLL38834. 实验我们在Stanford Extra Dog数据集(StanExt)上评估了我们的方法[1]。StanExt提供了20个关键点的标签、轮廓注释和狗品种标签。我们在训练集中用马肩隆、喉咙和眼睛扩展了20个关键点这些预测是通过在Animal Pose数据集上训练一个单独堆叠的沙漏来获得的[3]。4.1. 评价方法2D重投影误差:在没有3D地面实况的情况下,通常根据图像空间中的重投影误差来评估3D形状和姿态预测我们提供了轮廓上的交集(IoU)以及正确关键点的百分比(PCK)的结果。感知形状评估:许多不可信的3D形状具有较低的2D重投影误差,但对于野外图像,我们无法访问允许有意义比较的地面真实3D形状。相反,我们跑一项评估相对感知正确性的研究,其中人类在视觉上评 估 从 野 外 图 像 回 归 的 3D 形 状 。 使 用 AmazonMechanical Turk(AMT),合格的工作人员可以判断两个渲染的3D身体形状中哪一个更适合查询狗图像。为了让工作人员专注于形状,我们将狗呈现为T型。有关该任务的示例和详细信息,请参见Sup。Mat.品种原型一致性:对不受控图像的3D误差进行定量评估具有挑战性。为了说明这一点,我们利用了同一品种的狗3884SIMSIMSIM3D3DSIM方法IOUPCK@0.15Avg腿 尾巴耳朵脸3D-M69.969.768.368.057.893.7cGAS63.528.630.734.525.924.1WLDO74.278.876.463.978.192.1我们75.783.783.964.182.891.3表1. 与SOTA比较3D-M [32]、CGAS [2]、WLDO [1]的编号摘自[1]。形状相似。我们定义原型形状的几个品种的帮助下,扫描玩具雕像,注册到SMAL模板,并安息到典型的T姿势。然后,对于相应品种的所有StanExt图像,我们使用各种方法回归它们的形状然后,这些预测也被转移到T姿势,并与Procrustes方法匹配的原型对齐。估计值和原型之间的顶点到顶点误差和方差用作给定预测方法捕获品种形状的指标。4.2. 与基线的在2D误差度量(IoU和PCK)方面,BARC优于现有技术,即,[1],[2],[3],[4],[5]。选项卡. 1总结了结果。在感知com-course中,BARC也被认为比其最接近的竞争对手WLDO更好地代表所描绘的狗,在压倒性的90.6%的所有情况下。参见Tab的最后一行。二、视觉现实主义的显著差距在图5中是显而易见的。更多的BARC结果,为不同的品种,显示在图。六、4.3. 消融研究我们的主要贡献是增加了品种损失,以改善3D形状回归。为了消除个别损失项的影响,2D误差是没有意义的,所以我们再次报告相对感知正确率的结果。图5. 与SOTA比较BARC(左半部分)与WLDO [1](右半部分)的定性比较对于每种方法,我们显示输入图像,投影在输入图像上的3D重建,3D重建和90°旋转视图。实验设置AMT结果票百分比LB与无品种损失SIM{LB,LB}与LBSIM 3D SIM{LB,LB}与WLDO模拟3D556:43456.2%:43.8%六七八:五二二56.5%:43.5%1033:10790.6%:9.4%表2.知觉研究。品种损失的消除和与WLDO的比较。请参阅文本。我们补充了感性的研究与定量评估w.r.t.品种原型(Tab. (3)第三章。对于20个不同的品种,我们评估WLDO,以及我们的方法与-(Tab.)(2)与原型的一致性没有任何品种的损失,只有LB,并与LB品种形状(Tab. (3)第三章。我们比较了我们的方法的三个版本:(i)我们的网络,在没有任何品种损失的情况下训练;(ii)具有品种相似性损失LB的相同网络,即,分类和三重损失;(iii)所有品种损失,包括3D模型损失LB。结果,在这两个指标,显示一致的改善与每个品种损失的增加就知觉一致性而言,我们损失的两个部分具有相似的影响。三重态和分类损失带来了明显的改善,即使它们没有明确地约束3D形状。品种特异性3D形状信息可以进一步改善预测,但可能难以大规模收集。请注意,添加3D CG模型作为额外的监督会导致一个小的改进,和LB。在没有品种信息的情况下,我们的模型在3D误差方面明显优于WLDO,这可能是由于狗模型和网络架构的细节以及新姿势先验等技术选择。增加品种相似性损失进一步减小了误差。额外的3D品种损失带来了类似幅度的另一次减少,这与感知研究一致。再次,所有成对差异都是高度显著的(配对t检验,p<0.0001)的情况下。 而且收益是一致的品种:为19出20品种我们得到相同的顺序,WLDO> BARCnobreed> BARCsim>BARCsim+3D。品种相似性损失:到目前为止,我们已经考虑了两个所有品种(平均)的证明,即使他们部分品种相似性损失LB结合起来。到只适用于120个品种中的11个。 所有差异显示品种分类的单独贡献(LB)2Bcs在投票中是非常显着的(χ检验,p<0. 0001)的情况下。和品种三联体亲和力(L三联体),我们评估一致性3885三重SIMSIM图6. BARC结果。 每行显示具有投影的3D形状的输入图像。下面是构成的3D形状的渲染方法WLDOBARC无品种损失LBSIM{LB,LB}模拟3D误差[m]0.11550.08910.08050.0716表3. 3D形状评估。 平均超过20个品种。一个品种原型使用不同的重量,5. 结论提出了一种从图像中重建狗的三维姿态和形状的方法。单目三维重建是一个无约束的问题,需要很强的三维形状和姿态的先验知识。我们克服了当前动物3D形状模型的局限性,通过训练,用一种新的品种,条款泰伯4.第一章wB,wB,wB表示意识到损失。 我们获得了3D狗cs三联体3d分类、三重和3D-CG模型损失。所有其他损失条款(正则化,重投影损失)仍然是固定的.对3D形状相似性的过高权重降低了对2D图像证据(IoU、PCK)的拟合一个好从图像中塑造和构成,同时也产生对比,持续的、特定品种的3D形状重建。我们的结果优于以前的工作度量和感知。结合视觉外观和遗传信息权衡是WB=5。通过品种标签,我们获得了一个潜在的空间,根据最近对狗品种基因组的研究,不同品种之间的关系我们相信这是第一个结合品种信息学习重建3D动物形状的工作,我们希望它将成为进一步研究其他物种的基础。表4. 消融研究。不同设置为了使品种信息的影响更加有形,我们还可视化了品种相似性损失的影响。图3显示了潜在的限制和道德。BARC受到其形状空间的限制,无法走出它。鉴于高质量的回归结果,未来的工作应该探索通过利用品种控制从图像中学习改进的形状空间束缚我们主要关注形状,但姿势和运动也很重要,使用我们的方法可以从图像数据中学习这些模型我们的研究使用(左)无LB和狗的公共图像来源,没有动物实验(中,右)用LB. 的进行了。 当我们关注狗的时候,品种相似性使同一品种的狗在潜在空间z中更加靠近,该潜在空间z与体型参数β密切相关。相同颜色的不同饱和度表示进化枝内的品种。即使进化枝的概念在我们的网络中没有被强加或明确,同一进化枝的品种也倾向于聚集。这表明,不仅在品种内,而且在品种水平以上,形状知识可以转移。应该也适用于其他动物在保护、动物科学、兽医学等方面有积极的用途。认识。这项研究得到了Max Planck ETH学习系统中心的支持。利益冲突披露迈克尔J。黑色可以在这里找到https://files.is.tue.mpg.de/black/CoI_CVPR_2022.txt。损失权重WBCS-11111WB三重--510510WB3D----11误差[m]0.0890.0820.0810.0740.0720.0673886引用[1] 本杰明·比格斯,奥利·博因,詹姆斯·查尔斯,安德鲁·菲茨吉,罗伯托·西波拉。谁把狗排除在外:循环中期望最大化的3D动物重建。在ECCV,第195-211页,2020年。二三五六七[2] 本杰明·比格斯,托马斯·罗迪克,安德鲁·菲茨吉,罗伯托·西波拉伟大和渺小的生物:从视频中恢复动物的形状和运动在ACCV,第3三、七[3] 曹金坤,唐宏阳,方浩树,肖勇Shen,Cewu Lu,and Yu-Wing Tai.用于动物姿态估计的跨域自适应。在ICCV,第94986[4] Thomas J.作者声明:Andrew W.菲茨吉本什么形状是海豚吗从2D图像建立3D变形模型。第232-244页,2013年。3[5] 帕克·HG.,德雷格湾L.,Rimbault M.,戴维斯湾W.,马伦河B、Carpintero-Ramirez G.,和Ostrander E. A.基因组分析揭示了地理起源、迁徙和杂交对现代犬种发展的影响。Cell Reports,4(19):697-708,2017。2[6] Shubham Goel, 金泽昂珠, 和吉坦德拉·马利克没有关键点的形状和视点。参见ECCV,第88-104页,2020年。3[7] Angjoo Kanazawa、Shubham Tulsiani、Alexei A Efros和吉坦德拉·马利克从图像集合学习特定类别的网格重建在ECCV,第3713[8] 如果你是Kea rney,李文彬,马丁·帕松斯,金旺仁,还有达伦·科斯克RGBD狗:从RGBD传感器预测犬的姿势在CVPR中,第8336-8345页,2020年。三、四[9] 阿迪蒂亚·科斯拉 Nityananda Jayadevaprakash,Bangpeng姚和李飞飞。一种新的用于细粒度图像分类的数据集。在CVPR研讨会,2011年。2[10] Matthew Loper,Naureen Mahmood,Javier Romero,Ger-和迈克尔·J·布莱克。SMPL:一个多人皮肤线性模型。ACM ToG第1、3条[11] Naureen Mahmood,Nima Ghorbani,Nikolaus F Troje,Ger-ard Pons-Moll和Michael J Black。Amass:将运动捕获存档在ICCV,第5442-5451页,2019年。4[12] Jiteng Mu,Weichao Qiu,Gregory D Hager,and Alan L尤尔。向人造动物学习。在CVPR中,第12386-12395页,2020年。3[13] Aiden Nibali,Zhen He,Stuart Morgan,and LukePrender-肚子卷积神经网络的数值坐标回归。arXiv预印本arXiv:1801.07372,2018。4[14] Valsamis Ntouskos, 玛尔塔·桑扎里 布鲁诺·卡法罗,美联储-埃里克·纳迪,法布里齐奥·纳托拉,菲奥拉·皮里和曼努埃尔·鲁伊斯。铰接对象的智能建模。在ICCV,第2327-2335页,2015年。3[15] Georgios Pavlakos , Luyang Zhu , Xiaowei Zhou , andKostas丹尼尔迪斯学习从单色图像估计三维人体姿态和形状。在CVPR,第459-468页,2018年。4[16] SergeyProkudin , ChristophLassner , andJavierRomero.Ef使用基本点集对点云进行有效学习 在ICCV,第4332-4341页,2019年。4[17] Nikhila Ravi、Jeremy Reizenstein、David Novotny、Tay-lor Gordon 、 Wan-Yen Lo 、 Justin Johnson 和 GeorgiaGkioxari。使用PyTorch3D加速3D深度学习。arXiv:2007.08501,2020。4[18] ArtsiomSanakoyeu , VasilKhalidov , MaureenSMcCarthy,安德里亚·维达尔迪和娜塔莉亚·内韦洛娃将密集姿势转移到近端动物类别。在CVPR中,第5233- 5242页,2020年。3[19] Soubhik Sanyal , Timo Bolkart , Haiwen Feng , andMichael J.黑色. 学习在没有3d监督的情况下从图像中回归3d面部形状和表情在CVPR中,第7763- 7772页,2019年。6[20] Florian Schroff Dmitry Kalenichenko James PhilbinFaceNet:用于人脸识别和聚类的统一嵌入在CVPR,第815-823页,2015年。6[21] Yaniv Taigman、Ming Yang、Marc狼DeepFace:缩小与人脸验证中人类水平的差距。在CVPR,第1701-1708页,2014年。6[22] Shubham Tulsiani,Nilesh Kulkarni,and Abhinav Gupta.我-根据未注释的图像集合进行隐式网格重建。arXiv预印本arXiv:2007.08504,2020。3[23] Laurens van der Maaten和Geoffrey Hinton可视化使用t-SNE的数据。Journal of Machine LearningResearch,9:2579-2605,2008。4[24] S Vicente和L Agapito 球囊形状:重建以及从图像中用体积变形物体。在3DV,第223-230页,2013中。3[25] Yufu Wang,Nikos Kolotouros,Kostas Daniilovich,andMarc獾羽毛的鸟:从图像中捕获鸟类形状模型。在CVPR中,第14739-14749页,2021年。3[26] Shangzhe Wu,Tomas Jakab,Christian Rupprecht,andAn-德雷亚·维达尔迪。Dove:通过观看视频学习可变形的3D物体。arXiv预印本arXiv:2107.10844,2021。3[27] Andrei 赞菲尔, Eduard 加布里埃尔 巴扎万 徐弘毅威廉·T·弗里曼,拉胡尔·苏克坦卡尔,克里斯蒂安·斯敏-奇塞斯库。弱监督三维人体姿态和形状重建与规范化流程。在ECCV,第465- 481页,2020年。4[28] Hongwen Zhang,Jie Cao,Guo Lu,Wanli Ouyang,and孙振安。从密集的身体部位学习3d人体形状和姿势在TPAMI,2020年。抢先体验。4[29] Yi Zhou,Connelly Barnes,Jingwan Lu,Jimei Yang,andHao李关于神经网络中旋转表示的连续性。CVPR,第5745-5753页,2019年。4[30] Silvia Zuffi,Angjoo Kanazawa,Tanya Berger-Wolf,迈克尔·J·布莱克3D Safari:学习从“野外”的图像中估计斑马的姿势、形状和纹理。在ICCV,第5359-5368页,2019年。3[31] Silvia Zuffi,Angjoo Kanazawa和Michael J Black。 Li-on and tigers and bears:从图像中捕捉非刚性的3D关节在CVPR中,第3955-3963页,2018年。3[32] 西尔维娅·祖菲 金泽昂珠, 大卫·W·雅各布斯,迈克尔·J·布莱克3D动物园:为动物的3D形状和姿势建模。在CVPR中,第6365-6373页,2017年。二、三、七
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功