没有合适的资源?快使用搜索试试~ 我知道了~
2019DIST:用可微球跟踪绘制深度隐式符号距离刘绍辉1,3†张银达2彭松友1,6石博新4,7Marc Pollefeys1,5,6崔兆鹏11苏黎世联邦理工学院2谷歌3清华大学4北京大学5微软6马克斯普朗克ETH学习系统中心7鹏程实验室摘要我们提出了一种可微球体跟踪算法,以弥合逆图形方法和最近提出的基于深度学习的隐式符号距离函数之间的差距。由于隐式函数的性质,渲染过程需要大量的函数查询,当函数表示为神经网络时,这尤其成问题。我们优化了渲染层的向前和向后传递,使其在普通显卡上以可承受的内存消耗高效运行。我们的渲染方法是完全不同的,这样的损失可以直接计算渲染的2D观察,梯度可以向后传播,以优化3D几何形状。我们表明,我们的渲染方法可以有效地重建准确的3D形状从各种输入,如稀疏的深度和多视图图像,通过逆优化。通过基于几何的推理,我们的3D形状预测方法显示出良好的泛化能力和对各种噪声的鲁棒性。1. 介绍将视觉问题作为一个逆图形过程来求解是最基本的方法之一,其中的解是最好地解释给定观测的视觉结构。在3D几何理解领域,这种方法从很早就开始使用[1,35,54]。作为基于逆图形的3D几何推理过程的关键组件,需要高效的渲染器来精确地模拟观测,例如,深度图,从一个可优化的3D结构,也是可微的反向传播的误差从部分观察。作为深度学习框架的一个天然的契合点,可区分渲染技术引起了人们的极大兴趣。[2]刘绍辉在苏黎世联邦理工学院担任学术嘉宾期间完成的工作。*通讯作者。图1.我们提出的连续符号距离函数的可微渲染器的插图。我们的方法使几何推理具有很强的泛化能力。带着跑-在学习的形状空间中初始化dom形状代码z0,我们可以通过使用各种2D监督执行迭代优化来获得高质量的3D形状预测。分钟。针对不同的3D表示的各种解决方案,已经提出了体素、点云、网格。然而,这些3D表示都被离散化到一定的分辨率,导致几何细节的丢失并破坏了可微特性[23]。最近,连续隐式函数已被用于表示符号距离场[34],当与深度学习技术结合时,它具有对精确几何进行编码的优质能力。给定一个潜在的代码作为形状表示,该函数可以产生一个有符号的距离值的任何任意点,从而使无限的分辨率和更好地保存几何细节渲染的目的。然而,基于学习的连续符号距离函数的可微分绘制解决方案还不存在。在本文中,我们提出了一种用于连续隐式符号距离函数(SDF)的可微渲染器,以通过深度学习框架中的几何推理来简化3D形状理解(图10)。1)。我们的方法可以将由神经网络表示的隐式SDF从潜在代码渲染为各种2D观测,例如,深度图像、表面法线、轮廓和编码的其他属性,来自任意相机视点。渲染过程是完全可微的,因此损失函数2020可以方便地在渲染图像和观察上定义作为主要应用,我们的可重构渲染器可以应用于从各种输入推断3D形状,例如,多视点图像和单深度图像,通过逆图形处理。具体地说,给定一个预先训练的生成模型,DeepSDF [34],我们在潜在代码空间中搜索3D形状,生成与观察结果基本一致的渲染图像。大量的实验表明,我们的几何推理为基础的方法表现出显着更好的泛化能力比以前纯粹的学习为基础的方法,并一致地产生准确的3D形状跨数据集没有微调。然而,在基于学习的隐式SDF上利用计算上可负担的资源进行可微渲染是具有挑战性的主要的障碍是隐式函数既不能提供精确的位置,也不能像其他表示(如网格、体素和点云)那样提供表面几何的任何边界。受传统的基于光线跟踪的方法的启发,我们采用了球体跟踪算法[13],该算法沿着每个像素符号距离等于零(图)。2)。然而,这在基于神经网络的场景中是不可行的,在基于神经网络的场景中,射线上的每个查询将需要用于反向传播的前向传递和递归计算图,这在计算和存储器方面是禁止的。为了使其在商品级GPU上高效工作,我们优化了渲染过程的整个生命周期,包括向前和向后传播。在向前传球时,在绘制过程中,我们采用由粗到细的方法来节省初始步骤的计算,采用积极的策略来加速光线行进,并采用安全的收敛标准来防止不必要的查询并保持分辨率。在反向传播中,我们提出了一种梯度近似,经验上对训练性能的影响可以忽略不计,但大大减少了计算和内存消耗。通过使渲染易于处理,我们展示了如何用球体跟踪和与相机外生体交互来产生2D观测。总之,我们的主要贡献是使有效的可微渲染的隐式符号距离函数表示为一个神经网络。 它可以通过深度学习框架中的几何推理实现准确的3D形状预测,并具有良好的泛化能力。由于隐式SDF和逆图形技术的结合,可微分渲染器还可能有益于各种视觉问题。代码和数据可在https://github.com/B1ueber2y/DIST-Renderer获得。2. 相关工作用于形状学习的3D表示。用于形状学习的3D表示研究是3D深度学习领域的主要研究热点之一。早期工作将形状量化为3D体素,其中每个体素包含二进制占用状态(占用/未占用)[52,6,46,39,12]或带符号距离值[55,9,45]。虽然体素是从2D图像域到3D几何域的最直接的扩展,用于神经网络操作,但是它们通常需要巨大的存储器开销并且导致相对低的分辨率。网格也被提出作为3D形状学习的更有效的记忆表示[47,11,22,20],但网格的拓扑结构通常是固定和简单的。许多深度学习方法也利用点云作为3D表示[37,38];然而,基于点的表示缺乏拓扑信息,因此生成3D网格并非易事。最近,隐函数,例如,连续SDF和占用函数被用作3D表示,并在高频细节建模和高分辨率方面显示出非常有前途的性能[34,29,30,4]。类似的想法也被用于编码其他信息,如纹理[33,40]和4D动态[32]。我们的工作旨在设计一个高效的和可微的渲染器的隐式SDF为基础的表示- tation。差异化渲染。随着深度学习的成功,可微分渲染开始吸引更多的注意力-注意力,因为它对于端到端训练是必不可少的,并且已经针对各种3D表示提出了解决方案。早期的工作集中在3D三角网格和杠杆时代的标准光栅化[28]。各种方法试图通过平滑损失函数或近似梯度来解决三角形边界附近的不连续性问题[21,36,25,3]。还引入了点云和3D体素的解决方案[48,17,31],以与PointNet共同工作[37]和3D卷积架构。然而,隐式连续函数表示的可差分绘制还不存在。一些基于光线跟踪的方法是相关的,而它们大多被提出用于显式表示,例如3D体素[27,31,43,18]或网格[23],但不是隐式函数。Liu等[26]首先提出从occu-网络上的2D观测中学习[29]。然而,他们的方法进行了几次近似,并且没有从渲染隐式SDF的效率中受益。与我们的工作最相关的是Sitzmannet al。[44]提出了一种基于LSTM的渲染器,用于隐式场景表示以生成彩色图像,而他们的模型专注于使用LSTM模拟渲染过程,而没有明确的几何意义。这种方法只能产生低分辨率的图像,由于昂贵的内存消耗。或者,我们的方法可以直接渲染由隐式SDF2021表面开始p(0)f(p(0))p(1)端p(2)p(3)p(4)图2.球面跟踪算法的说明[13]。射线在每个像素处开始并且沿着观看方向行进前端移动的步长等于当前位置的有符号当当前绝对SDF小于阈值时,该算法收敛,这表明已经找到该表面。以产生高分辨率图像。它也可以在没有训练的情况下应用于现有的深度学习模型。3D形状预测从2D观察预测3D形状是基本的视觉问题之一。早期的工作主要集中在使用多视图立体方法的多视图重建[41,14,42]。这些纯粹基于几何的方法在没有先验知识的情况下在无纹理区域上的性能下降[7]。随着深度学习的发展,3D形状可以在不同的设置下恢复。最简单的设置是从单个图像恢复3D形状[6,10,51,19]。这些系统严重依赖于先验知识,并且易于弱泛化。基于深度学习的多视图形状预测方法[53,15,16,49,50]进一步涉及深度学习框架中跨视图的几何约束,这显示出更好的泛化。另一个线程的作品[9,8]采取一个单一的深度图像作为输入,这个问题通常被称为形状完成。给定在神经网络中编码的形状先验[34],我们的渲染方法可以通过几何优化从具有各种输入(例如深度和多视图图像)的随机初始形状代码有效地预测准确的3D对象形状。3. 可微球跟踪在本节中,我们将介绍我们用于表示为神经网络的隐式符号距离函数的可微渲染方法,例如DeepSDF[34]。在DeepSDF中,网络将潜在代码和3D位置作为输入,并产生相应的带符号距离值。即使这样的网络可以提供高质量的几何形状,显式表面不能直接获得,并且需要在3D空间中进行密集采样。我们的方法受到球体跟踪[13]的启发,该方法设计用于渲染SDF体积,其中光线从相机针孔沿着每个像素的方向拍摄,以根据有符号距离值搜索表面水平集。然而,直接在表示为神经网络的隐式符号距离函数上应用该方法是禁止的,因为每个跟踪步骤都需要一个馈送,算法1摄像机光线L:c+dv在有符号距离场f:N3→R上的朴素球面跟踪算法。1:初始化n=0,d(0)=0,p(0)=c。第二章: 当不收敛时:第三章:读取位置p(n)的相应SDF值b(n)=f(p(n)),并进行更新:d(n+1)= d(n)+b(n)。第四章:p(n+1)=c+d(n+1)v≠ 0,n=n+1.第五章:检查收敛性。6:结束while前向神经网络和整个算法需要负担不起的计算和存储资源。为了使这个想法在反向图形的深度学习框架中发挥作用,我们优化了前向和后向传播,以实现有效的训练和测试时间优化。球体跟踪结果,即,沿着射线的距离可以被转换成许多期望的输出,例如,可以方便地以端到端的方式应用深度、表面法线、轮廓以及由此产生的损耗。3.1. 球体追踪为了自包含,我们首先简要介绍了transmartsphere跟踪算法[13]。球体跟踪是专门设计用于从体积带符号距离场渲染深度的常规方法。对于图像平面上的每个像素,如图2所示,射线(L)从相机中心(c)射出,并沿着方向(v)行进,其步长等于查询的带符号距离值(b)。光线反复前进直到它击中或足够接近表面(即)。绝对(SDF)阈值)。<更详细的算法可以在算法1中找到。3.2. 高效前向传播直接将球体跟踪应用于由神经网络表示的隐式SDF函数是非常昂贵的计算,因为f的每个查询都需要具有相当大容量的神经网络的前向传递。简单的并行化是不够的,因为用VGA分辨率(640×480)进行一次渲染需要数百万个网络查询因此,我们需要切断不必要的行军步骤,安全地加快行军过程。初始化。由于DeepSDF表示的所有3D形状都在单位球体内,因此我们将p(0)初始化为每个像素的相机光线和单位球体之间的交点具有不与单位球体相交的照相机光线的像素被设置为背景(即,无限深度)。由粗到精的战略。在球体跟踪开始时,不同像素的光线彼此相当接近,这表明它们可能以类似的方式行进为了利用这个好的属性,我们提出了一个由粗到细的20224(a) 由粗到精的策略(b)激进的进军(c)收敛标准图3.有效的前向传播策略。(a)我们的粗到细策略的1D说明,对于2D情况,一条射线将被分解为4条射线;(b)标准行进和我们的积极行进的比较;(c)一旦SDF值小于1/2,我们就停止行进,其中2/2是两个相邻像素的对应3D点之间的估计最小距离球体跟踪策略如图所示。第3(a)段。我们从一幅分辨率为1的图像开始进行球面追踪,每三步后将每条射线分成四条,相当于分辨率提高了一倍。经过六步,全分辨率下的每个像素都有一条对应的光线,该光线一直行进直到收敛。侵略性的游行在光线行进开始后,我们应用了一种积极的策略(图11)。3(b)),以通过用查询的带符号距离值的α倍更新射线来加速行进过程,其中α = 1。5在我们的实施。这种积极的采样有几个好处。首先,它使光线更快地向表面行进,特别是当它远离表面时。第二,它加速了不适定条件下的收敛,其中角度3.3. 渲染2D观察在所有光线收敛后,我们可以计算每条光线的距离如下:NΣ−1d=αf(p(n))+(1−α)f(p(N−1))=d′+e,(1)n=0其中e=(1−α)f(p(N−1))是最后一个查询的剩余项。在下面的部分中,我们将展示如何将计算的射线距离转换为2D观测。深度和表面法线。假设我们找到图 像 中 的 pix el(x,y)的3D表面点p=c+dvn,我们可以直接得到每个像素的深度,如下所示:表面法线和光线方向之间的距离很小。第三,光线可以穿过表面,使得后面的空间(即,SDF 0)可以取样。<这是cru-zc=0Dx2+y2+1、(二)在优化过程中,对曲面的两侧进行监督非常重要。动态同步推理。一种简单的加速球体跟踪的并行化方法是将光线批处理在一起并同步更新前端位置。然而,取决于3D形状,一些射线可能比其他射线更早地收敛,从而导致浪费的计算。我们保持一个动态的未完成的面具,表明哪些射线需要进一步的游行,以防止不必要的计算。收敛标准。即使在积极的行进中,光线移动在接近表面时也会非常慢,因为f接近于零。我们定义了一个收敛标准,当精度足够好且增益很小时,停止行进(图12)。3(c))。为了完全保持2D渲染分辨率支持的细节,当采样的有符号距离值不会将一个像素与其相邻像素混淆时,停止是足够安全的。对于由焦距为60mm、传感器宽度为32 mm、分辨率为512×512的相机捕获的最小距离为100 mm的对象,两个相邻像素的对应3D点之间的近似最小距离为10−4m(0. 1mm)。在实践中,我们将大多数实验的收敛阈值设置为5×10−5其中(x,y,1)=K−1(x,y,1)是归一化的homo-异构坐标点p(x,y,z)的表面法线可以计算为函数f的归一化梯度。由于f是一个隐式的有符号距离函数,我们通过对相邻位置进行采样来近似梯度1f(x+δ,y,z)− f(x−δ,y,z)nn=<$f(x,y+δ,z)−f(x,y−δ,z)<$,n<$=. (三)2δ f(x,y,z + δ)− f(x,y,z − δ)|n|剪影轮廓是3D形状预测的常用监督。为了使silhouettes的渲染可区分,我们获得每个像素沿其光线的最小绝对有符号距离值,并将其减去收敛阈值。这会产生轮廓的紧密近似,其中具有正值的像素属于背景,反之亦然。请注意,直接检查光线行进是否在无穷远处停止也可以生成轮廓,但它是不可微的。色彩与语义最近,已经表明纹理也可以表示为用神经网络参数化的隐函数[33]。不仅是颜色,其他空间变化的属性,如语义,材料等,2023θ并行+动态+主动+由粗到细图4.启用不同加速策略渲染的曲面法线。请注意,将这些组件相加不会降低渲染质量。表1.烧蚀研究的成本效益的前馈设计,我们的方法。每个优化步骤的平均时间在DeepSDF架构上的单个NVIDIA GTX-1080Ti上进行了测试[34]。注意,初始化的射线的数量是图像大小的二次方,并且针对分辨率为512×512。都可以通过隐式函数学习。这些信息可以与隐式SDF联合呈现,以产生相应的2D观察结果,图1中描绘了一些示例。8.3.4. 近似梯度反向传播DeepSDF [34]使用条件隐式函数将3D形状表示为fθ(p,z),其中θ是网络参数,z是表示特定形状的潜在代码。因此,球体跟踪过程中的每个查询点p都由θ和形状代码z确定,这需要多次展开网络,并且相对于z的反向传播花费了巨大的内存:图5.从局部深度进行三维预测的损失曲线。我们的加速渲染不会影响反向传播。深度图像上的损失与3D形状上的倒角距离紧密相关,这指示有效的反向传播。4.1. 渲染效率和质量运行时间效率。在这一节中,我们评估了我们的可扩展球体跟踪算法中的每种设计所提高的运行时效率在单个NVIDIA GTX-1080Ti上以512×512的分辨率向前和向后传递的查询数量和运行时间报告在选项卡中。1,和相应的渲染表面法线如图所示4.第一章我们可以看到,拉法德|z0N<$−1<$f(p(i)(z),z)=α|z0反向传播修剪图,减少了冗余,i=0,重要的是,它使渲染变得易于处理,N<$−1<$f(p(i)(z),z)f(p(i)(z),z)标准显卡。动态同步-θ0=0(i=0zθ0+P(i)(z)0Zeroz)。推理、积极的行进和从粗到细的策略都可以加快渲染速度。有了这些设计,我们可以(四)实际上,我们忽略来自等式(1)中的残差项e的梯度。为了使反向传播可行,我们定义了一个损失的K个样本的最小绝对SDF值的射线,以鼓励更多的信号接近表面。对于每个样本,我们仅使用方程(4)中的第一项计算梯度,因为高阶梯度凭经验对优化过程的影响较小。通过这种方式,我们的可微渲染器对于弥合这种强形状先验和一些部分观测之间的差距特别有用给定一个特定的观察结果,我们可以搜索最小化网络渲染和观察结果之间差异的代码。这允许许多应用程序,将在下一节中介绍。4. 实验和结果在本节中,我们首先验证了我们的可区分球体跟踪算法的有效性,然后通过我们的方法通过基于几何的推理来实现3D形状理解。当最大跟踪步长设置为50时,0.99秒内只有887K查询步长的图像。当最大步数设置为100时,查询步数仅略有增加,这请注意,相关作品通常以低得多的分辨率渲染[44]。反向传播的有效性。 我们进行健全检查,以验证我们的近似梯度的反向传播的有效性。我们采用预训练的DeepSDF [34]模型并运行基于几何的优化,以使用我们的可微分渲染器分别恢复3D形状和相机外部我们首先假设相机姿态是已知的,并针对给定的地面真实深度图、表面法线和轮廓优化3D形状的潜在代码如可见于图5(左),损失迅速下降,使用加速策略不会损害优化。图5(右)示出了2D图像平面上的总损失与预测的3D形状上的倒角距离高度相关,指示源自2D观察的梯度被成功地反向传播到形状。然后,我们假设一个已知的形状(固定潜在方法大小#步骤#查询时间朴素球面跟踪512250N/AN/A+ 实用毕业生5122506.06M1.6h+平行5122506.06M3.39s+动态5122501.99M1.23s+侵略性5122501.43M1.08s+由粗到细512250小行星887K0.99s2024初始优化图6.相机外部参数优化过程的图示。我们的微分渲染器能够propa-门的错误从图像平面的相机。顶行:渲染曲面法线。底行:轮廓上的错误贴图。=5×10−2图7.对不同收敛阈值选择的影响在相同的推进步长下,很大的阈值会引起边界周围的膨胀,而很小的阈值可能导致侵蚀。我们选择5×10−5作为所有实验的样本。代码)并使用深度图像和二进制轮廓来优化相机姿态。图6示出了可以通过最小化2D观测的梯度来有效地朝着地面实况姿态优化随机初始相机姿态收敛标准。收敛准则,即,停止光线跟踪的带符号距离的阈值对渲染质量有直接影响图图7示出了在不同阈值下的渲染结果。可以看出,使用大阈值进行渲染将扩大形状,从而丢失边界细节。另一方面,使用小阈值可能产生不完整的几何形状。这个参数可以根据应用进行调整,但在实践中,我们发现我们的阈值是有效的,在产生完整的形状与细节的图像分辨率。渲染其他属性。隐函数不仅可以编码三维形状的符号距离函数,还可以编码其他空间变化的信息。例如,我们训练一个网络来预测每个3D位置的符号距离和在图8中,我们展示了使用从纹理网格学习的512-dim潜码作为地面实况,可以以任意分辨率、相机视点和照明渲染彩色图像。请注意,潜在代码的大小明显小于网格(顶点+三角形+纹理贴图),因此可以潜在地用于模型压缩。其他每个顶点的属性,如语义分割和材质,也可以用同样的可区分方式呈现。4.2. 三维形状预测我们的可微隐式SDF渲染器建立了3D形状和2D观察之间的连接,LR texture 32x HR texture HR Relighting HR 2nd查看图8.我们的方法可以渲染的信息编码的implict功能以外的深度。通过预先训练的网络编码纹理网格,我们可以在各种分辨率,相机视点和照明下渲染高分辨率彩色图像。支持基于几何体的推理。在本节中,我们将展示使用DeepSDF作为形状生成器从单个深度图像或多视图彩色图像进行3D形状预测的结果。在高级别上,我们采用预训练的DeepSDF并固定解码器参数。当给定2D观测时,我们定义适当的损失函数并将梯度传播回潜码,如第3.4节所述,以生成3D形状。这种方法不需要任何额外的训练,只需要在测试时运行优化在本节中,我们特别关注在保持高形状质量的同时评估泛化能力。4.2.1基于单深度图像的三维形状预测随着商品化距离传感器的发展,人们可以很容易地获取密集或稀疏的深度图像,并且已经提出了几种方法来解决从单个深度图像进行三维形状预测的问题DeepSDF[34]已经示出了该任务的最先进性能,然而需要离线预处理以将输入的2D深度图提升到3D空间中,以便在表面法线的帮助下对SDF值进行我们的可区分渲染使得从深度图像预测3D形状此外,通过深度图计算或渲染提供的轮廓,我们的渲染器还可以将其作为额外的监督。形式上,我们通过求解以下优化来获得完整的3D形状:arg minLd(Rd(f(z)),Id)+Ls(Rs(f(z)),Is),(5)z其中f(z)是编码形状先验的预训练神经网络,Rd和Rs分别表示深度和轮廓的渲染函数,Ld是深度观察的L1损失,并且Ls是基于可微分渲染的轮廓定义的损失在我们的实验中,初始潜在形状z0被选为平均形状。2025DD视频序列优化过程图9.多视图设置下的优化过程图示我们的可微分渲染器能够成功地从随机代码中恢复3D几何形状,只有光度损失。方法车平面PMO(原件)0.661 1.129PMO(randinit)1.187 6.124Ours(randinit)0.919 1.595表2.我们与DeepSDF [34]的几何优化之间的定量比较,用于ShapeNet数据集[2]上部分密集和稀疏深度观察的形状完成。我们报告了[6]数据集前200个实例的中位倒角距离。我们为DeepSDF [34]提供正常的地面实况,否则它们无法应用于稀疏深度。我们分别在ShapeNet Core [2]的200个模型上测试了我们的方法和DeepSDF [34]具体来说,对于每个模型,我们使用Choy等人的数据集中的第一个摄像机。[6]以生成用于测试的密集深度图像。DeepSDF和我们的方法之间的比较在Tab中列出。二、我们可以看到,我们的方法只有深度监督比DeepSDF[34]当给出密集深度图像时。这可能是因为DeepSDF使用预定义的表3.在倒角距离度量下从多视图图像进行3D形状预测的定量结果(仅在gt→pred的方向上进行公平比较)。我们从PMO测试集中随机挑选了50个实例来执行评估。10000从网格中采样点用于评估。通过利用交叉视图光度一致性来老化具体来说,我们首先用随机向量初始化潜在代码然后,我们使用渲染的深度图像和已知的相机姿势将每个彩色图像扭曲到其他输入然后将变形图像和输入图像之间的差异定义为光度损失,并且可以通过最小化该损失来预测形状。总而言之,优化问题被公式化如下,N−1规则(沿法线方向的固定距离),可能不一定采样正确的位置,特别是附近argminzi=0j∈Ni<$Ii−Ij→i(Ri(f(z)<$,(6)物体边界或薄结构。相比之下,我们的穆斯林-分层球跟踪算法根据当前形状估计自适应地对空间进行采样对稀疏性的鲁棒性。来自激光扫描仪的深度可能非常稀疏,因此我们还研究了我们的方法和DeepSDF对稀疏深度的鲁棒性。结果见表1。二、具体来说,我们从原始密集深度随机抽取不同百分比或固定数量的点进行 测 试 。 为 了 制 作 有 竞 争 力 的 基 线 , 我 们 提 供DeepSDF地面实况法线来采样SDF,因为它不能从稀疏深度可靠地估计。从表中我们可以看到,即使深度观测非常稀疏,我们的方法仍然可以恢复准确的形状,并且比DeepSDF具有更好的性能。当轮廓可用时,我们的方法实现了显着更好的性能和对稀疏性的鲁棒性,这表明我们的渲染方法可以有效地从轮廓损失中反向传播4.2.2基于多幅图像的三维形状预测我们的可微分渲染器还可以实现基于几何的推理,用于从多视图彩色图像进行形状预测其中Ri表示视图i处的渲染深度图像,Ni是I i的相邻图像,并且I j→i是使用渲染深度从视图j到视图i的扭曲图像。请注意,在多视图设置下不需要遮罩。图图9示出了我们的方法的优化过程的示例 可以看出,在损耗被优化的同时,形状逐渐改善。我们将PMO [24]作为竞争基线,因为它们也通过对预训练解码器进行优化来执行基于深度学习的几何推理,但使用三角形网格表示。他们的模型首先从选定的输入视图预测[24]中提供的合成和真实数据集都用于评估。在选项卡中。3,我们在他们的合成测试集上与PMO进行了定量比较。可以看出,我们的方法仅从随机初始化实现了与PMO [24]相当的结果。请注意,虽然PMO使用在PMO训练集上训练的编码器和解码器,但我们的DeepSDF解码器既没有在其上训练也没有进行微调。此外,如果PMO的形状代码也是随机初始化的,而不是从它们的训练图像编码器中预测的,则它们的性能会显着下降,这表明使用我们的绘制方法,我们的几何真实感。密集百分之五十百分之十100分50分20分沙发DeepSDF5.375.565.505.936.037.63我们4.125.755.495.725.576.95面具(mask)4.123.984.313.984.304.94平面DeepSDF3.713.734.294.444.405.39我们2.184.084.814.444.515.30面具(mask)2.182.082.622.262.553.60表202686420.60.8 1.0 1.52.0焦距改变654320.01 0.02 0.03 0.04噪声水平视频序列PMO(rand init)PMO我们的(a)(b)第(1)款图10.通过多视图摄影优化的几何推理的鲁棒性(a)相机焦距变化时的性能。(b)初始化代码中关于噪声的性能我们的模型对焦距变化是鲁棒的,并且由于我们从随机初始化开始,不受潜在代码中噪声的影响。相比之下,PMO对这两个因素都非常敏感,当测试图像与训练集不同时,性能显着下降。声波变得更有效。我们的方法可以进一步改进与良好的初始化。泛化能力为了进一步评估泛化能力,我们在一些看不见的数据和初始化上与PMO进行比较。我们首先在使用不同相机焦距生成的测试集上评估这两种方法,并且定量比较如图所示。10(a).它清楚地表明,我们的方法很好地推广到新的图像,而PMO遭受过拟合或域间隙。为了进一步测试几何推理的有效性,我们还直接向初始潜在代码添加随机噪声。PMO的性能再次显着下降,而我们的方法不受影响,因为初始化是随机的(图1)。10(b))。一些定性结果如图所示11个国家。我们的方法产生精确的形状与详细的表面。相比之下,PMO存在两个主要问题:1)低分辨率网格不能保持几何细节; 2)它们的几何推理与来自图像编码器的初始化斗争。我们在图中进一步显示了实际数据的比较。12个。在PMO之后,由于所提供的初始相似性变换在某些情况下是不准确的,因此除了形状代码之外,我们还对相似性变换进行了优化。可以看出,这两种方法在这个具有挑战性的数据集上表现较差。相比之下,我们的方法产生的形状具有更高的质量和正确的结构,而PMO只产生非常粗糙的形状。总体而言,我们的方法显示出更好的泛化能力和鲁棒性对域的变化。5. 结论我们提出了一个可微的球体跟踪算法来渲染2D观察,如深度图,法线,sil-houettes,从隐式符号距离函数参数化为神经网络。这使得能够从单个视图和多个视图进行3D形状预测图11. PMO测试集上多视图图像的3D形状预测比较。我们的方法保持良好的表面细节,而PMO遭受的网格表示,可能无法有效地优化形状。视频序列PMOOurs图12.比较真实世界数据集上多视图图像的3D形状预测[5]。实际图像的形状预测是一个具有挑战性的问题。相比之下,本文的方法在结构正确的情况下得到了更合理的结果.结合高容量的3D神经表征。大量的实验表明,我们的基于几何的优化算法产生的3D形状比SOTA更准确,很好地推广到新的数据集,并且对不完美或部分观测具有鲁棒性使用我们的渲染器探索的有前途的方向包括自监督学习,与几何形状联合恢复其他属性,以及神经图像渲染。确认本工作得到国家自然科学基金项目(批准号:)的资 助 .61872012 , 国 家 重 点 研 发 & 计 划( 2019YFF0302902 ) , 北 京 人 工 智 能 研 究 院(BAAI)。PMO我们PMO我们倒角距离倒角距离2027引用[1] 布鲁斯·冈瑟·鲍姆加特。计算机视觉的几何建模。技术报告,斯坦福大学计算机科学系,1974年。1[2] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。7[3] Wenzheng Chen , Jun Gao , Huan Ling , Edward JSmith , Jaakko Lehtinen , Alec Jacobson , and SanjaFidler.学习使用基于插值的可区分渲染器预测3d对象。神经信息处理系统进展(NeurIPS),2019年。2[4] 陈志勤和张浩。学习生成式形状建模的隐式字段。 在proc 计算机视觉和模式识别(CVPR),2019年。2[5] Sungjoon Choi , Qian-Yi Zhou , Stephen Miller , andVladlen Koltun.对象扫描的大型数据集。arXiv预印本arXiv:1602.02481,2016年。8[6] Christopher B Choy , Danfei Xu , JunYoung Gwak ,Kevin Chen,and Silvio Savarese. 3d-r2 n2:用于单视图和多视图3D对象重建的统一方法。 在proc 欧洲计算机视觉会议(ECCV)施普林格,2016年。二、三、七[7] Zhaopeng Cui,Jinwei Gu,Boxin Shi,Ping Tan,andJan Kautz. 偏振多视图立体。 在proc 计算机视觉和模式识别(CVPR),2017年。3[8] 安吉拉·戴和马蒂亚斯·尼斯纳Scan2mesh:从非结构化范 围 扫 描 到 三 维 网 格 。 计 算 机 视 觉 和 模 式 识 别(CVPR),第5574-5583页,2019年。3[9] Angela Dai , Charles Ruzhongtai Qi , and MatthiasNießner.使用3d编码器预测器cnns和形状合成的形状完成。计算机视觉和模式识别(CVPR),2017年。二、三[10] Rohit Girdhar,David F Fouhey,Mikel Rodriguez,andAb-hinav Gupta.学习对象的可预测和生成矢量表示。欧洲计算机视觉会议(ECCV)施普林格,2016年。3[11] Thibault Groueix、Matthew Fisher、Vladimir G Kim、Bryan C Russell和Mathieu Aubry。Atlasnet:A papier-m ? ch ?approachtolearning3dsurf acegeneration. 在 Proc.计算机视觉和模式识别(CVPR),2018年。2[12] ChristianH¨ ne,ShubhamTulsiani,andJitendraMalik. 三维物体重建中的高分辨率在proc 国际3D视觉会议(3DV)IEEE,2017年。2[13] 约翰·C·哈特球体跟踪:隐式曲面反走样光线跟踪的一种几何方法。The Visual Computer,12(10),1996.二、三[14] Carlos Hernandez George Vogiatzis和Roberto Cipolla。多视图光度学立体。IEEE Transactions on Pattern Analysisand Machine Intelligence,30(3):548-554,2008。3[15] Po-Han Huang , Kevin Matzen , Johannes Kopf ,Narendra Ahuja,and Jia-Bin Huang. Deepmvs:学习多视图立 体 视 觉 在 Proc. of Computer Vision and PatternRecognition(CVPR),第2821-2830页,2018年。3[16] Sunghoon Im,Hae-Gon Jeon,Stephen Lin,and In SoKweon.端到端深平面扫立体声。国际学习代表会议(ICLR),2019年。3[17] Eldar Insafutdinov和Alexey Dosovitsky使用可微分点云进行形状和姿态的无监督学习。神经信息处理系统进展(NeurIPS),2018年。2[18] Yue Jiang , Dantong Ji , Zhizhong Han , and MatthiasZwicker.Sdfdiff:用于3D形状优化的有符号距离场的可微分渲染 在proc 计算机视觉和模式识别(CVPR),2020年。2[19] 艾德里安·约翰斯顿,拉维·加格,古斯塔沃·卡佩罗,伊恩·里德和安东·范登·亨格尔。用于从单个图像进行高分辨 率 体 积 重 建 的 缩 放 cnn 。 国 际 计 算 机 视 觉 会 议(ICCV),第939-948页,2017年3[20] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik。端到端恢复人体形状和姿势。计算机视觉和模式识别(CVPR),2018年。2[21] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。计算机视觉和模式识别(CVPR),2018年。2[22] 陈空,林振轩,西蒙·露西。使用局部对应的cad模型从单 个 图 像 进 行 密 集 的 3d 计 算 机 视 觉 和 模 式 识 别(CVPR),2017年。2[23] Tzu-Ma oLi , MiikaAittala , Fre´ doDurand , andJaakkoLehti-nen.通过边缘采样的可微蒙特卡罗射线追踪。ACM SIGGRAPH,第222页。ACM,2018。一、二[24] Chen-Hsuan Lin ,Oliver Wang , Bryan C Russell,EliShecht-man , Vladimir G Kim , Matthew Fisher , andSimon Lucey.视频对齐三维物体重建的光度网格优化。计算机视觉和模式识别(CVPR),2019年。7[25] Shichen Liu,Weikai Chen,Tianye Li,and Hao Li.软光栅化器:无监督单视网格重建的可微分绘制。国际计算机视觉会议(ICCV),2019年。2[26] Shichen Liu,Shunsuke Saito,Weikai Chen,and Hao Li.学习在没有3d监督的情况下推断隐含表面。神经信息处理系统进展(NeurIPS),2019年。2[27] Stephen Lombardi 、 Tomas Simon 、 Jason Saragih 、Gabriel Schwartz、Andreas Lehrmann和Yaser Sheikh。Neural volume- umes : Learning dynamic renderablevolumes from images.ACM SIGGRAPH,2019。2[28] Mat
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功