没有合适的资源?快使用搜索试试~ 我知道了~
15816自监督神经关节形状和外观模型韦芳茵1罗汉·查布拉2马玲妮2克里斯多夫·拉斯纳2迈克尔·佐尔霍费尔2西蒙·鲁辛凯维奇1克里斯·斯威尼2理查德·纽科姆2米拉·斯拉夫切娃21普林斯顿大学2现实实验室研究图1.我们的自我监督方法学习了关节连接对象类的形状和外观在从对象实例的不同状态的多视图合成图像训练之后,我们的模型可以从静态真实世界图像重建和动画对象左:输入静态对象的真实视图。中间:具有形状和颜色的3D重建。右:由学习的铰接代码驱动的动画。ICS和外观是一个基本的问题,摘要学习对象类的几何、运动和外观先验对于解决大量计算机视觉问题是重要的。虽然大多数方法都集中在静态对象上,但动态对象,特别是具有可控关节的动态对象,很少被探索。我们提出了一种新的方法来学习的几何形状,外观和运动的一类铰接对象的表示只给出了一组彩色图像作为输入。在自我监督的方式下,我们的新表征学习形状,外观和发音代码,使这些语义维度的独立控制成为我们的模型是端到端训练的,不需要任何关节注释。实验表明,我们的方法表现良好,不同的关节类型,如转动和棱柱关节,以及这些关节的不同组合。与使用直接3D监督并且不输出外观的最新技术相比,我们仅从2D观察中恢复更忠实的几何形状和外观。此外,我们的代表性,使各种各样的应用程序,如少拍重建,新的关节的产生,和新的视图合成。项目页面:https://weify627.github.io/nasam/。1. 介绍从图像观测中根据其基本几何形状重建铰接的3D对象,运动模型,在Reality Labs Research实习期间完成的工作计算机视觉具有许多重要的应用,例如,机器人和增强/虚拟现实。这个逆图学问题是高度挑战性的并且具有欠约束性质,因为图像形成,即,从3D世界映射到离散的2D像素测量,紧密地纠缠着对象的所有可见属性,并且找到诸如运动学的不可见属性需要诸如随时间变化的信息的附加信息。解决这一逆问题的大多数方法依赖于从具有可用3D地面实况的大型数据集学习的对象/类特定先验在所设计的方法中,然后使用该学习的低维先验来更好地约束逆重建问题。在文献中的大多数以前的技术都集中在重建类的静态对象,动态对象,特别是可控的关节,探索较少。例如,占用网络根据形状代码来调节神经分类器的决策边界表示一类静态对象[32]。 DeepSDF等方法遵循 类 似 的 原 则 , 但 采 用 学 习 的 连 续 符 号 距 离 场(SDF)[41]将对象的表面隐式建模为基于坐标的神经网络的零水平集。DISN [59]进一步改进了这种技术,可以恢复更多的细节。所有提到的方法都需要密集的3D地面真实几何来进行训练,并且不对对象外观进行建模。一个例外是IDR [70],它采用逆差分。15817这种方法可以进行实体渲染,以重建单个对象的形状(使用SDF)和视图相关外观,但这种方法不能推广到整个对象类。由于大型数据集和现成(学习)先验的可用性,先前关于关节变形的工作主要集中在人类和动物[9,22,31,34,39,49,67,72]一个例外是A-SDF [36]技术,它专注于一般的铰接对象。它学习形状和关节的单独代码,并采用SDF来表示对象。这种方法在一类铰接对象上学习几何先验,但不联合学习外观先验。此外,它需要密集的3D地面实况进行训练。我们在实验中提供了与A-SDF的比较在上下文中查看这些相关作品会提出以下问题:是否有可能仅从光度2D观察联合学习整个类别的铰接对象的3D几何学、运动学和外观的先验,而不需要访问3D地面实况?我们提出了一种新的方法来学习的几何形状,运动学,和外观流形的一类articulated对象只给定一组彩色图像作为输入。我们的新的3D表示的铰接对象是学习在一个自我监督的方式,从只有颜色的观察,而不需要明确的几何监督。它使学习的语义维度的独立控制成为可能.我们的模型是端到端训练的,不需要任何关节注释。实验表明,我们的方法执行- forms以及两个最广泛的关节类型:旋转和棱柱关节,以及其组合。我们优于最先进的技术,即使这些相关的方法需要访问地面真实几何的显式几何监督。此外,我们的方法处理的关节类型比A-SDF更多[36]。此外,我们的代表性,使各种应用,如少拍重建,新的articulations的产生,和新的视图合成。总之,我们的贡献是:• 一种新的方法,学习的几何,外观和运动学的一类articulated对象的表示只有一组彩色图像作为输入。• 我们引入了一个嵌入空间的几何,运动学,和视图相关的外观,使大量的各种应用,如新的关节和新的视图合成的生成。• 我们的模型仅在合成数据上训练,通过微调实现了对真实世界铰接物体的少量重建,如图所示。1.一、2. 相关工作铰接对象建模。在机器人技术中,对铰接物体的研究集中在运动学模型[1,21,47]。在视觉领域,先前关于关节变形的工作主要集中在人类和动物[9,22,31,34,39,49,67,72]。较少探索的是如何用分段刚性表示一般对象。在神经隐式表示的成功之后,A-SDF [36]扩展了DeepSDF [41],使用单独的形状和发音代码来建模类别级别的发音。通过将关节角度添加到形状代码,A-SDF学习到对应变形形状的映射。我们不像A-SDF那样使用已知的关节角度和密集的3D监督,而是在没有地面实况标记的情况下仅从图像中学习清晰度代码。Li等人,[25]提出了规范化的铰接对象坐标空间(NAOCS)作为类别级铰接对象的规范表示。CAPTRA [61]进一步探索了这一想法,以跟踪点云中的对象清晰度,StrobeNet [71]采用了这一想法,通过首先从多视图颜色观察中对NAOCS预测进行聚合来重建清晰的对象然而,重建仅提供几何尝试。最近,LASR [68]提出了一种无模板的方法来从单目视频重建关节形状。该算法联合估计的休息姿势,皮肤,关节,和相机的本质通过解决一个逆图形问题,导致粗糙的动画网格。形状重建的变形场。形状变形处理形状变形以最佳地拟合一组观察。DynamicFusion [37]依赖于局部深度对应,后续方法使用稀疏SIFT特征[20]、密集颜色跟踪[16]或密集SDF对齐[53,54]。这种方法在快速运动下由于使用手工制作的函数来维护对应关系而失败。最近,非刚性跟踪的性能已经通过具有学习的对应关系的数据驱动方法得到改善[4,5,26]。最近,有一个探索的神经生成模型的形状变形。DIF [10]通过跨类别共享的模板隐式字段以及专用于每个形状实例的3D变形字段和校正字段来表示形状。FiG-NeRF [65]近似对象的神经辐射场,并同时执行前地/背景分离。NPMs[40]是一种神经参数模型,它学习潜在的形状和姿势空间,以对3D可变形形状进行建模。与上述大多数方法不同,我们近似几何形状和形状的视图相关外观。没有任何3D监控。几何学的神经表征。神经场景表示已经被发现是紧凑和强大的,可以对对象的几何形状和运动进行建模[24,42]。隐式字段[7]使用基于坐标的隐式函数和潜在代码来建模多个对象类。局部深隐函数[14]将空间分解为一组结构化的学习隐函数来表示可变形的形状。Occupational networks [32]使用局部神经类,158183∈ ∈∈SS∈∈3表示对象。DeepSDF [41]等方法遵循类似的想法,但采用SDF。DISN [59]进一步改进了这种技术,可以恢复更多的细节。局部隐式网格表示[6,8]将场景分解为局部部分,并学习隐式表示。所有这些方法仅对刚性对象的几何体建模。外观的神经表征。神经辐射场(NeRF)通过基于坐标的场景表示对静态场景的外观进行建模[35]。场景表示网络[52]将世界坐标映射到可以转换为渲染的特征表示。微分体绘制[38]预测纹理场。代理几何体,如球体或点,可用于加速渲染过程[50,58]。基于点的表示也被独立地探索用于视图合成[2,23,62]。神经元将空间分解成具有自己的神经代表的单独体积[29],并可以对动态场景进行建模。为了深入讨论最近的神经渲染方法,我们参考了最近的调查[56]。运动的神经表征。动态场景的一个标志性特征是它们可以使用流场进行分析,而流场又可以用来表示它们[11,27]。有几个作品建立在神经辐射场之上,以捕捉运动中的场景[3,13,24,43,44,46,48,63]。但是,它们不允许控制场景渲染。Tretschk等人[57]允许加强或减弱前景运动。本段中的所有上述工作都不允许控制由此产生的大多数关于可控表示的先前工作是围绕人类的,对于面部化身[12,17,30,60]或人体[19,28,39,45,55,66]。LASR [68]是一种非常通用的方法,可以为任意对象创建网格。然后,它提供一个带有估计骨架的操纵模型来为对象设置动画,但结果非常粗糙。D-NeRF [48]通过使用时间作为系统的输入来近似变形形状的辐射场,但仅适用于单个场景。3. 方法我们的目标是建立一个表示模型的几何形状和外观的一类铰接对象从RGB图像没有几何先验。这种表示必须能够重建看不见的形状并生成新的关节。为此,我们利用了一个具有隐式神经表示的可重构渲染系统,并学习了一个具有分离形状、外观和清晰度表示的类别级嵌入空间。为了强制解除纠缠,同一实例的不同关节共享相同的形状代码。几何形状是通过变形的标准形状的学习发音代码的条件下预测。没有任何关节注释,该模型能够学习允许生成新的关节的用于关节的连续空间我们将“铰接物体”定义为由关节连接的几个刚性部分组成我们进一步将铰接对象的铰接定义为其关节的特定状态(例如,膝上型计算机的关节角度为40°和90°是两种不同的关节)。具有特定关节的物体由表示集(θ,θ,θ)建模,其中θRm,θRn,θRq分别是几何、外观和关节的代码。在本节中,我们首先回顾我们的骨干可微渲染器,并介绍一个类别级嵌入空间(第二节)。第3.1节)。然后,我们描述了如何加强解纠缠和变形场预测(第二节)。3.2)。节中3.3,我们总结了整个框架的训练和推理.3.1. 具有类别先验的我们选择隐式可微分渲染器(IDR)[70]作为骨干可微分渲染器。虽然它最初适用于单个对象,但我们将其扩展到学习类别级别的几何和外观嵌入。IDR是一个端到端的神经系统,它可以从掩蔽的2D图像和噪声相机姿态初始化中学习3D几何形状、外观和相机外部参数。有三个未知数在IDR [70]中:具有可学习参数Θ∈Rr的几何形状,具有可学习参数Φ∈Rs的外观,以及相机外参数τ∈Rk。几何体表示为SΘ={x∈R|f(x;Θ)=0},(1)其中f将带符号距离函数(SDF)建模为其零水平集Θ(即,物体给定一个以p为索引的像素,像素的渲染颜色为Lp ( Θ , Φ , τ ) =M ( x_p , n_p ,v_p;Φ),(2)其中Lp是表面光场辐射率,x_p=x∈p(Θ,τ)表示射线Rp和冲浪Θ与相应的表面法线np=np(Θ)和机翼方向vp。 f和M都由MLP近似。在原始IDR [70]中,每个训练模型仅适用于单个场景或对象实例。我们通过引入额外的嵌入空间将其扩展到整个对象类。对于类中的每个对象实例i,我们学习一个几何代码θiRm和外观代码iRn。在学习过程中,来自同一类别的所有对象共享相同的几何(Θ)和外观(Φ)参数。对象i的新几何和光场函数变为:SΘ={x∈R|f(x,θi;Θ)=0},(3)Lp(Θ,Φ,τ,θi,θi)=M(x∈p,n∈p,vp,vi;Φ).(四)15819输出外观MLP…几何XX联系我们∈X⊂S|·|掩模α|P|pp,α我 J可学习的潜在嵌入空间……形状变形MLP(可选)几何MLP关节形态外观图2. 框架概述。具有关节状态j的每个对象i被表示为(θi,θi,θj),其中每个参数分别编码几何形状、外观和关节。变形网络除了查询3D位置(给定相机参数计算)之外还采用形状和关节代码来预测位置的位移位移位置和形状代码通过几何网络来预测规范姿势形状的几何形状在没有变形MLP的情况下,几何网络直接接受3D位置、形状代码和铰接代码。对于预测的几何形状和给定的外观代码,外观网络根据输入的相机参数输出图像利用嵌入在Θ和Φ中的类别级先验,允许通过仅恢复它们的几何和外观代码来重建来自相同类别的不可见对象3.2. 代码共享与变形场为了对发音进行编码,我们进一步引入了发音代码。 对于具有M个训练对象和每个对象的N个采样的关节状态的类别,令形状ij表示来自具有关节状态j的特定类别的关节对象i。我们共同学习表示(θij,θi j,θi j)。请注意,当不同对象之间的接合对齐时,我们可以通过使来自相同类别的所有对象共享相同的接合代码集并且相同对象的所有接合状态共享相同的目标代码来进一步强制解开。因此,形状ij的表示变为(θi,θi,θj),如图所示。图中二、一个观察是,几何形状变化发生在连接同一对象时和不同对象身份之间。学习通过同时处理对象身份和铰接状态信息来生成形状可能会导致不必要的干扰。因此,我们将形状预测模块分为两部分:3.3. 训练和推理在训练期间,给定相机内部和外部参数以及掩蔽的多视图图像,训练模型以优化潜在嵌入(θi,θi,θj)和网络权重(Θ,Φ)。如图在图2中,具有铰接状态j的每个对象i被表示为(θi,θi,θj),其中每个参数分别编码几何形状、外观和铰接。变形网络除了查询3D位置(给定相机参数计算)之外还采用形状和关节连接代码来预测位置的位移位移位置和形状代码通过几何网络来预测规范姿势形状的几何形状 对于预测的几何形状和给定的外观代码,外观网络根据输入相机参数输出图像。让我[0,1]3,O p0,1是RGB和遮罩分别针对用相机cp(τ)和方向vp(τ)(p)拍摄的图像中的像素p的值P<$ind表示输入图像集合中的所有像素),τ表示参数。现场所有摄像机的参数。总损失函数具有以下形式:L(Θ,Φ,τ,{θi},{θi},{θj})=网络S的参数Θ∈Rr和(可选)变形网络D的参数θ∈Rt。前LRGB +ρL 掩模 +λLE +βL 代码.( 七)预测每个对象的规范形状的几何形状给定其形状代码并且是发音不变的。在描述铰接形状的形状和铰接代码的条件下,变形网络预测查询点的位移,以将查询转换到规范空间中[43,44,57]。因此,新的几何预测流程是Ψ我 J我们对小批量的P从遵循IDR的形状ij的一个视图中采样的P <$pi x els [70]。RGB损失是在表面×和光线Rp之间的相交区域上计算的(即,c p+tp,0v pfor O p= 1):L=1Σ|I−L(Θ,Φ,τ,θ,λ,λ)|、(8)ppx′=x+D(x,θ,θ; θ),(5)RGB|O p =1|Op=1i i jSΘ={x′∈R3|f(x′,θi;Θ)=0}。(六)这种将清晰度预测与规范形状分离的做法有助于进一步理清对象身份和清晰度。状态其中是L1范数,Lp定义在等式中。4.第一章掩模损失L=1 S(θ,τ,θ,θ),(9)Op=015820−LL222其中CE是交叉熵损失,Sp,α=sigmoid(αminf(c+tv,θi;Θ)几乎处处为-t≤0对于对象占用的像素p[70],对指示器函数的可微分近似。我们强制f为ap-在隐式几何正则化(IGR)之后,使用Eikonal正则化来proximate a signed distance function[15]:LE(Θ)=Ex(θi,θj;Θ)f−1)2,(10)其中X均匀地分布在场景的边界框中。最后,在[42]之后,我们在每个潜在代码中包含一个零均值多变量高斯先验,以便于学习连续形状流形:Lcod e(θi,θi,θj)=θi<$2+θi <$2+θi<$2。(十一)表1. 实验中使用的方法我们指定它们是否:处理静态或铰接对象;共享铰接代码;使用变形场;输出外观或仅输出几何体。我们在训练和测试时列出SDF表示SDF样本。方法art./共享变形。列车试验出现静态名称条领域输入输入anceA-SDF条✓×SDFsSDFs×IDR 6 views静态××6个RGB6个RGB✓IDR 60 views静态××60个RGB6个RGB✓我们的基地条××60个RGB6个RGB✓我们的艺术条✓×60个RGB6个RGB✓Ours-Def条×✓60个RGB6个RGB✓Ours-ArtDef条✓✓60个RGB6个RGB✓我们设ρ=100,λ=0。1,β=0。00001在Eq中的损失7 .第一次会议。我们从α=50开始,将其乘以2,50,000次迭代(最多总共5次乘法)。 持续时间推断期间的目标是从未看见对象的RGB图像中恢复表示(θi,θi,θj)g i。这三个代码被随机初始化,然后通过反向传播进行优化,目标如下:θi,θi,θj=argmin(Θ,Φ,τ,θi,θi,θj)。(十二)θi,θi,θj在优化过程中,我们可以固定网络权重(用于分布内测试)或联合优化网络权重(用于分布外测试)。4. 实验4.1. 实验装置数据集所有实验都使用SAPIEN [64],这是一个大规模的公共领域数据集,包含46个类别的2346个铰接对象。我们选择了六个具有代表性的铰接类型和足够数量的物品类别:笔记本电脑、订书机、洗碗机、双门冰箱(左右为LR,上下为UD)、眼镜和带抽屉(和门)的存储家具。我们使用SAPIEN模拟环境[64]来渲染RGB图像和相应的遮罩。在训练和测试期间,我们对旋转关节每10°采样一次,对滑动关节总共采样10个状态对于多个关节,我们采取每个单个关节采样的所有组合。对于每个接合,60个视图被采样用于训练,6个视图用于推断。详情请参阅补充材料。评估我们评估预测形状的几何形状和对于几何形状,我们每个形状采样30,000个点[36,42]并评估Chamfer-L1距离,这是准确度和完整性得分的平均值[33]。为了评估渲染的外观,我们报告峰值信噪比(PSNR)。本文中的所有可视化都是从不可见的视图中渲染的训练和推断对于训练,用N(0,1)随机初始化潜在代码,其中l是代码长度。通过推理,发音代码被初始化为平均值所有学习的发音代码,而其他代码在训练中初始化。我们运行600次迭代来恢复潜在代码;如果我们进行测试时自适应[36],我们将在另外600次迭代中微调模型权重和代码。基线方法我们比较的方法变体列在表1中。1.一、对于A-SDF [36],我们按照[36]中所述从SAPIEN数据中采样SDF对于IDR [70],我们在PyTorch中使用我们自己的实现,它遵循原始工作,但没有全局照明功能:SAPIEN数据集不提供此类效果,我们根据经验发现这不会影响结果。每种方法都可以额外使用测试时间自适应(TTA),如[36]中所述,除了优化潜在代码之外,还可以在推理期间优化网络权重。4.2. 重建为了重建看不见的测试对象,我们首先通过反向传播优化代码(可选地使用网络权重)。然后我们运行另一个向前传递来提取网格并渲染图像。在选项卡中。2、Tab。3、对9类目标分别进行了几何和外观的比较。我们报告了我们的完整模型的分数,其中包括关节连接代码共享和使用变形场,有和没有TTA。有关我们方法的每个变量的完整结果列表,请参阅补充材料作为参考,我们还比较了两个IDR模型。请注意,IDR没有嵌入空间来编码分类先验,并且只能重建它已经训练过的单个静态对象或场景,即。对于IDR,我们在相同的对象实例上训练和测试,每个关节状态一个模型。由于这在计算上太昂贵,我们在每个类别中随机选择具有两个关节的两个对象,并将平均PSNR报告为IDR的每个类别上的PSNR我们的模型在每个关节60个视图上训练,并在每个关节6个视图上测试15821表2. 重建不可见合成形状(倒角-L1)的比较。 我们将我们的方法与A-SDF [36]和IDR [70]进行比较。由于为每个对象训练IDR在计算上太昂贵,我们为每个类别中的IDR在其训练的相同对象上进行测试请注意,我们的方法使用60个视图进行训练,6个视图进行推理。A-SDF* 表示与其训练的几何体相比的A-SDF结果,而所有其他结果都使用原始几何体的采样作为地面实况。分数越低越好。方法笔记本吻合器洗碗机眼镜FridgeLRFridgeUD抽屉DrawerUD抽屉+门A-SDF*0.1261.5100.54315.9720.5990.8371.3624.7912.282A-SDF TTA0.1030.9780.2097.7921.6824.6231.1422.8320.476A-SDF0.5806.0584.18017.2981.5271.4271.9716.0482.945A-SDF TTA0.5425.3583.7569.0521.3510.8421.6894.1391.082IDR 6 views1.6561.1134.1391.3867.9151.8264.202失败12.672IDR 60 views0.2590.9943.1061.17112.3682.1193.0477.87113.491Ours-ArtDef0.3821.1253.9459.7902.7383.6482.6275.9793.264我们的-ArtDefTTA0.3550.9363.9367.8942.0633.6492.7455.9123.243表3. 与IDR [70]的比较,用于重建不可见的合成形状(PSNR)。IDR的训练和推理过程以及我们的方法与Tab. 二、请注意,IDR为每个对象实例的每个关节连接状态训练一个单独的模型,它在60个视图上训练,然后在同一对象的6个新视图上测试,即它在相同的实例上训练和测试,而我们的方法是按类别训练的,并在看不见的对象上进行测试。IDR 60 views在60个视图上进行训练,并在6个新视图上进行测试,为我们的方法提供了一个质量上限。分数越高越好。方法笔记本吻合器洗碗机眼镜FridgeLRFridgeUD抽屉DrawerUD抽屉+门IDR 6 views13.329.7517.6411.4910.8113.4715.26失败15.80IDR 60 views20.7022.4024.1026.5920.0123.4924.3221.1922.71Ours-ArtDef18.3317.1820.7920.6918.7923.7224.6522.2523.34我们的-ArtDefTTA17.8418.1520.8720.8918.9423.5224.2722.2023.96对于看不见的物体,IDR是在60或6个视图上训练的,而对于一个静态物体,IDR是在具有相同关节的相同物体的新视图上测试的。因此,在60个视图上训练的IDR让我们对我们的可微分渲染系统的上限性能有所了解。请注意,数据集中的网格不是防水的,因此A-SDF使用Manifold [18]软件处理它们,以便能够对SDF值进行采样,这会进行重新采样,从而导致原始网格变厚。在A-SDF [36]中,输出几何体是根据用于训练的加厚网格而不是原始几何体进行评估的,因此我们遵循相同的评估方案并在选项卡中将其报告为A-SDF*。2、达到与原文相当的数量所有其他方法变体都是相对于原始几何的采样来评估的,原始几何有时可能包含从隐藏的内部结构(例如笔记本电脑的触控板的底部)采样的点我们可以看到,尽管被用于一个更困难的任务,我们的模型表现与60视图IDR在许多类别,如家具。在其他类别上,我们的PSNR明显较低。这是因为这些类别往往具有更高的频率纹理。为了显示在我们的模型中引入的学习分类先验的好处,我们进一步与在6个视图上训练的IDR模型进行比较。甚至,我们希望有一个模型,可以很好地处理那些只有非常有限的观测数据的看不见的物体。这就提出了一个问题:我们应该通过过度-用很少的视图拟合IDR模型,还是利用cat-egorical优先级-哪个更好?并与Tab. 3和Tab。2清楚地表明,通过引入形状,清晰度和外观先验,我们的模型在推理过程中显着改善了具有相同数量的视图的过拟合IDR。我们通过可视化观察到,当关节涉及拓扑变化时,关闭的膝上型计算机被打开)。有时TTA可能会导致过拟合的外观,使几何预测变差。我们从图3中看不见的视图可视化测试结果,并与A-SDF(带TTA)进行比较。所有模型都是在测试时间优化后使用共享的关节进行训练的。前两行是单个旋转关节,后面是三行具有各种关节类型组合的多关节类别。我们可以看到,对于类内几何变化较小的类(如笔记本电脑和洗碗机),A-SDF工作得很好,这也与Tab的观察结果一致。二、然而,对于具有较大类内形状变化的类,例如吻合器和眼镜,A-SDF无法捕获几何细节。例如,对于A-SDF,两个吻合器底部的几何结构都不正确,尽管在推断过程中直接使用3D几何结构进行了优化。虽然A-SDF最初只显示旋转关节的结果,但我们进一步在其他关节类型上测试了这两种方法。我们可以看到,A-SDF在滑动缝上的性能要差15822图3. 重建结果来自未知数据。 我们比较A-SDF的各种关节类型和组合,包括旋转,棱柱和多个。虽然A-SDF使用几何和关节地面实况进行训练,并且仅预测几何,但我们的方法除了仅从RGB监督中产生更好的几何和更准确的关节外,还忠实地恢复外观而不是旋转关节。我们认为一个原因是A-SDF在训练中需要清晰的地面实况输入然而,对于具有不同长度的抽屉,很难定义跨所有对象共享的单个值相比之下,我们的方法不需要发音注释,并通过训练学习发音代码。更多结果请参阅补充材料。4.3. 分析内插和外推所提出的方法的一个应用是通过内插和外推来生成对象的新的接合,仅给出几个训练接合。要做到这一点,我们为两个关节渲染一些图像,并优化它们的形状,关节和外观代码与图像。在估计了两组代码之后,我们内插/外推一组形状、清晰度和外观代码。该程序遵循A-SDF [36]中的操作,我们在图4中对不同的关节类型和组合进行了比较。我们运行我们的方法的两个最快的变体,即。没有变形场的。注意,对于任一方法都没有TTA,因为被内插的两个估计的码集需要共享相同的网络权重。我们看到,A-SDF可能会在笔记本电脑的训练范围外推超过6°时失败,而其他类的外推,而我们的方法能够恢复plau。形状相似。定量结果见表1。4表明,我们的插值模型是几何精度比A-SDF的大多数对象类别。解开几何和外观。独立的几何和外观网络强烈地加强了分离,正如从IDR继承的那样[70]。我们的方法的一个应用是切换不同的对象之间的几何和外观代码。如图5所示,通过用来自另一副眼镜的外观代码替换外观代码,我们可以忠实地创建具有新外观但具有相同几何形状的新请注意,尽管形状之间存在很大的几何差异,但薄框架的颜色如何正确地映射到新眼镜的框架我们学习的嵌入空间编码分类先验也有助于正确的映射。4.4. 真实世界RGB图像由于我们的方法只使用图像进行监督,并且不需要任何可能昂贵的3D注释,因此可以轻松设置以在真实数据上进行 在这一秒- 因此,我们直接在现实世界中捕获的图像上测试我们提出的方法(从合成数据中训练)。我们用个人手机记录一个静态的打开的笔记本电脑或抽屉与固定的焦距和曝光。然后,我们运行运动恢复结构(SfM)算法[51],15823几何体源外观源源A源B的几何形状+B外观一次露面+B几何表4. 插值倒角-L1错误。 评估详情与表中相同。二、分数越低越好。方法笔记本吻合器洗碗机眼镜FridgeLRFridgeUD抽屉DrawerUD抽屉+门A-SDF*0.3594.9892.10145.3261.4451.6771.6346.0674.454A-SDF0.6105.9184.74443.7081.7081.8811.9587.1055.032我们的基地0.3471.4863.0292.6323.0684.7232.9525.1953.226我们的艺术0.3091.7162.8072.5883.8603.3573.0864.1513.845图4. 内插和外插比较。对于这些看不见的对象,我们首先推断出多个测试状态的几何形状,外观和接合代码,然后我们内插/外推推断的代码以生成新的接合。所提出的方法成功地生成了形状与关节超出了在各种关节类型的训练过程中看到的范围。图5.解开形状和外观的形状合成。所捕获的帧来估计相机校准参数及其姿态。对于每个视图,我们然后运行https://remove.bg来估计前景对象的分割掩码。图1所示的视图是我们模型的输入图像。我们在这些真实世界图像上测试了我们的模型,该模型是在SAPIEN的合成数据上训练的,具有变形场和共享的清晰度代码形状,articulation和外观代码如前所述初始化,然后我们联合微调网络权重和在这些图像上进行2000次迭代。在这一点上,我们能够重建静态的真实对象。然后,通过将推断的清晰度代码与在训练期间学习的清晰度代码替换,我们能够逼真地清晰表达静态重建。4.5. 限制虽然与以前的方法相比,我们通过消除对所需数据和监督的限制来推动铰接形状重建的边界,但仍然存在局限性。尽管我们能够在真实数据上微调我们的对象模型,但从合成到真实的域差距仍然很大,并且我们从有限的合成数据中学习的外观先验不足以解释一般的对象外观。因此,我们使用前景遮罩来缓解这个问题。未来工作的一个更有效的方向可能是遵循VolSDF [69]的示例,并将该方法扩展到形状和外观的非监督解开。另一个限制是当前的缩放行为w.r.t.关节的数量:对于具有m个状态的n个关节的建模对象,我们需要mn个组合。这仅适用于关节数较少的对象。更好的联合先验和解耦是未来研究的有趣方向。5. 结论在本文中,我们着手回答的研究问题,它是否有可能共同学习先验的3D几何形状,关节,和整个类的对象的外观我们的研究结果表明,这不仅是可能的,但如果有足够的计算能力,可以实现高保真度和显着little数据。在我们的实验中,我们仅使用6个视图成功地将我们的模型微调到真实世界的数据,并创建了与现实世界的对象非常相似的可动画对象同时,我们的方法是第一个,不仅处理旋转,但也棱柱关节及其组合。我们希望这一令人鼓舞的结果能激发对通用对象重建的进一步研究。致谢我们要感谢Michael Goesele、Eddy Ilg、ZhaoyangLv、Jisan Mahmud、Tanner Schmidt和Anh Thai进行了有益的讨论。15824引用[1] Ben Abbatematteo Stefanie Tellex和George Konidaris。学习将运动学模型推广到新对象。机器人学习会议,2019年。2[2] Kara Ali Aliev , Artem Sevastopolsky , Maria Kolos ,Dmitry Ulyanov,and Victor Lempitsky.基于神经点的图形学。在计算机科学讲义(包括人工智能讲义和生物信息学讲义子系列),卷12367 LNCS,第696- 712页。SpringerScienceandBusinessMediaDeutschlandGmbH,2020年6月。3[3] 本杰明·阿塔尔,艾略特·莱德劳,亚伦·戈卡斯兰,昌吉尔·金,克里斯蒂安·理查德,詹姆斯·汤普金和马修·奥图尔。Tor? rf:用于动态场景视图合成的飞行时间辐射场神经信息处理系统进展(NeurIPS),2021年。3[4] Aljaz Bozic,Pablo Palafox,Michael Zollhofer,JustusThies,Angela Dai,and Matthias Nießner.用于全局一致非刚性重建的神经变形图。在IEEE/CVF计算机视觉和模式识别会议论文集,第1450-1459页,2021年。2[5] Aljaz Bozic,Michael Zollhofer,Christian Theobalt,andMatthias Nießner. Deepdeform:使用半监督数据学习非刚性rgb-d重建。在IEEE/CVF计算机视觉和模式识别会议论文集,第7002-7012页,2020年。2[6] Rohan Chabra , Jan E Lenssen , Eddy Ilg , TannerSchmidt,Julian Straub,Steven Lovegrove,and RichardNewcombe.深度局部形状:学习局部sdf先验,用于详细的3d重建。在欧洲计算机视觉会议上,第608-625页。Springer,2020年。3[7] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE计算机协会计算机视觉和模式识别会议论文集,2019年6月,第5932-5941页2[8] Chiyu Max Jiang , Avneesh Sud , Ameesh Makadia ,JingweiHuang , MatthiasNiebner , andThomasFunkhouser. 3D场景的局部隐式网格表示。在IEEE计算机协会计算机视觉和模式识别会议论文集,第6000-6009页,2020年。3[9] Boyang Deng , John P Lewis , Timothy Jeruzalski ,GerardPons-Moll , GeoffreyHinton , MohammadNorouzi,and Andrea Tagliasacchi.美国宇航局神经关节形状近似。在欧洲计算机视觉会议(ECCV)的会议记录中,第612-628页Springer,2020年。2[10] 登宇,杨蛟龙,童欣。变形隐式场:用学到的密集对应建模3D形状。在IEEE/CVF计算机视觉和模式识别会议论文集,第10286-10296页2[11] 杜一伦,张一男,于红星,Joshua B. Tenen-baum和Jiajun Wu。用于4d视图合成和视频处理的神经辐射流。IEEE/CVF计算机视觉国际会议论文集,2021。3[12] GuyGafni、JustusThies、MichaelZollhoüfer 和MatthiasNießner。用于单目4d面部化身重建的动态神经辐 射 场 。 在 IEEE/CVF计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)的会议记录中,第8649-8658页3[13] Chen Gao ,Ayush Saraf ,Johannes Kopf, and Jia-BinHuang.从动态单目视频合成动态视图。IEEE/CVF计算机视觉国际会议论文集,2021年。3[14] Kyle Genova 、 Forrester Cole 、 Avneesh Sud 、 AaronSarna和Thomas Funkhouser。三维形状的局部深隐函数。在IEEE计算机协会计算机视觉和模式识别会议集,第4857- 4866页,2020年。2[15] Amos Gropp、Lior Yariv、Niv Haim、Matan Atzmon和Yaron Lipman。用于学习形状的隐式几何正则化国际机器学习会议,第3789-3799页。PMLR,2020年。5[16] Kaiwen Guo , Feng Xu , Tao Yu , Xiaoyang Liu ,Qionghai Dai,and Yebin Liu.使用单个rgb-d相机的实时几何、反照率和运动重建ACM Transactions on Graphics(ToG),36(4):1,2017。2[17] Yudong Guo,Keyu Chen,Sen Liang,Yong-Jin Liu,Hujun Bao,and Juyong Zhang. AD-NeRF:音频驱动的神经辐射场,用于说话头部合成。IEEE/CVF计算机视觉国际会议(ICCV),2021年3月。3[18] Jingwei Huang,Hao Su,and Leonidas Guibas. ShapeNet模型的鲁棒水密流形曲面生成方法。2018. 6[19] Zheng Huang,Yuanlu Xu,Christoph Lassner,Hao Li,and Tony Tung. ARCH : Animatable Reconstruction ofClothed Humans 在IEEE计算机协会计算机视觉和模式识别会议论文集,第30903[2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功