没有合适的资源?快使用搜索试试~ 我知道了~
4002a+b−ab或1−t∈T(1−pt)),对应于至少一个面覆盖像素的概率为-GenDR:一个广义可微渲染器费利克斯·彼得森1巴斯蒂安·戈德吕克1克里斯蒂安·博格尔特2奥利弗·杜伊森1康斯坦茨大学2萨尔茨堡大学摘要在这项工作中,我们提出并研究了一个广义家庭的可微渲染。我们从头开始讨论哪些组件是必要的微分渲染和形式化的要求,每个组件。我们instan- tiate我们的一般可微渲染器,它概括了现有的可微渲染器,如SoftRas和DIB-R,具有一系列不同的平滑分布,以覆盖大范围的合理设置。我们评估了一系列可区分的渲染器实例化的流行的ShapeNet三维重建基准,并分析了我们的结果的影响令人惊讶的是,简单的均匀分布在13个类上平均时产生最好的总体结果;然而,一般来说,分配的最佳选择在很大程度上取决于任务。1. 介绍在过去的几年里,许多可微渲染器已经出版。其中包括开创性的可微分网格渲染器OpenDR [1],神经3D网格渲染器[2]和SoftRas [3]等。使用可区分的渲染器使得能够实现多种计算机视觉应用,诸如人类姿势估计[4]、相机特征估计[5]、3D形状优化[2]、3D重建[2]、[3]、[6]和3D样式转移[2]。不同类别的可微渲染器之间的根本区别是底层3D表示的选择。在这项工作中,我们专注于可微3D网格渲染器[1]其他隐式表示[11],[12]。可微分网格渲染器可以以不同的方式构造:或者使用具有近似代理梯度的精确和硬渲染器,或者使用具有自然梯度的近似渲染器。Loper等人[1] Katoet al.[2]为它们的近似替代梯度难. 相比之下,其他可微分渲染器近似-以产生自然梯度的方式匹配正向渲染这可以通过在概率扰动下对渲染器进行建模或近似来实现为此,Rhodinet al. [13]用高斯分布对其建模,而Liuet al. [3]用逻辑分布的平方根建模,彼得森等。[14]使用逻辑分布,Chenet al. [6]使用指数分布。虽然在这些论文[3]、[6]中没有强调对相应分布扰动的这种变分解释,但我们认为它很重要,因为它明确允许比较不同渲染器的特性。此外,仅近似梯度的方法也可以被视为近似地对扰动进行建模:为神经3D网格渲染器[ 2 ]计算的梯度近似为均匀分布的扰动。请注意,这里,在扰动下渲染的解决方案是在没有采样的情况下以封闭形式解析获得的。在这项工作中,我们引入了一个广义微分渲染器(GenDR)。通过选择适当的概率分布,我们可以(至少近似地)恢复上述可微网格渲染器,这表明可微渲染器的核心区别方面是它们所建模的分布类型。这里概率分布的选择直接与sigmoid(即,S形)函数用于光栅化。例如,对应于狄拉克δ分布的Heaviside S形函数产生常规的不可微渲染器,而平方距离的逻辑S形函数对应于逻辑分布的平方根。这里,S形函数是对应分布的累积分布函数(CDF)。在这项工作中,我们选择并提出了一系列的分布,并检查其理论性质。近似可微渲染器的另一个方面是它们的聚合函数,即,该函数聚集所有面的占用概率,象素 现有的可微渲染器通常通过概率和(P(a,b)=可区分的渲染器,而他们的前向渲染是4003⊥⊥求和每个三角形T的概率P T是随机独立的(参见图1)。当量4在[3]或方程。6 in [6])。在实值逻辑和邻近领域中,这被称为T-连续,逻辑“或”的放松形式 其他T-余模的两个例子是最大T-余模M(a,b)=max(a,b)和Einstein和E (a,b)=(a+b)/(1+ab),它模拟了速度的相对论相加。我们推广我们的可扩展的渲染器使用任何连续的T-connorms,并提出了各种合适的T-conorms。总的来说,从我们的广义可微渲染器和提议的选择产生的具体实例的集合达到1 242个具体可微渲染器。我们广泛地将它们的形状优化任务和相机姿态估计任务。此外,我们评估了流行的ShapeNet [15] 13类单视图3D重建实验[2]上的最佳性能和最有趣的实例。在这里,我们还包括那些实例,近似其他现有的dif- ferentiable渲染。我们注意到,在本文中我们没有引入新的着色技术,而是依赖于现有的混合着色器。我们将我们的贡献总结如下:• 我们提出了一个广义可微网格渲染器。• 我们确定现有的可微渲染器(近似)作为我们的广义渲染器的实例。• 我们提出了各种合适的sigmoid函数和T-conorms和分组他们的特点。• 我们广泛的基准1 242混凝土可移植渲染器,分析的功能特性和家庭导致一个良好的性能,并发现最佳的选择很大程度上取决于任务,类,或数据的特性。2. 相关工作相关的工作可以分为提出可微分渲染器的工作和应用可微分渲染器的工作,尽管自然也有显著的重叠。有关可区分渲染方法的更多详细信息,请参见。Katoet al的研究。[16 ]第10段。解析可微分渲染器。第一大类可微分渲染器是那些以分析和无采样方式产生近似梯度的渲染器这可以通过反向传播期间的代理梯度发生,如[2]中所述,或者通过在封闭形式中解析地扰动像素和三角形之间的距离来使向前计算自然可微[6],[17],[18]。我们的工作属于这一类,属于第二种情况。现有的作品都为特定的分布或sigmoid函数提供了渲染器。我们正式的必要功能的特点,一个可移植的渲染器,并提出了一个数组的选项。Monte-Carlo微分渲染器。分析可微渲染器的替代方案是那些基于蒙特卡罗采样技术的渲染器。第一个例子是Li等人的[19]他们使用边缘采样来近似渲染器的梯度Loubet等人[20]建立在这些想法和reparamealing所涉及的不连续的被积产生改进的梯度估计。Zhang等人[21]通过微分全路径积分来扩展这些思想,这使得该方法更加高效和有效。Lidec等人[22]通过扰动优化器方法[23]估计可微渲染器的梯度来实现蒙特卡洛可微渲染。应用. [1][18], [21], [24], 材 料 [25], [26], 纹 理 [3] , [6],[20],[21]《明史》:“明史之治,以明史之治。这里,初始场景的参数被优化以匹配参考图像或参考图像集合中的场景。另一个有趣的应用是单视图3D形状预测,而无需3D监督。这里,神经网络从单个图像预测3D表示,并且将图像的渲染与原始输入图像进行比较。这个学习过程主要由对象轮廓的监督来指导可以通过对抗性风格转移来省略这种监督[27]。其他应用程序正在生成与数据集匹配的新3D形状[28],[29]以及现实世界中的对抗性示例[30]。在我们的实验中,我们使用姿势和形状的优化来对所有提出的可区分渲染器组合进行基准测试。由于单视图3D网格重建是一个复杂的实验,需要训练神经网络,我们基准我们的方法在这个任务上只为一个选定的可微渲染器的子集。T-范数和T-余范数T-范数和T-余范数(三角范数和余范数)是分别将逻辑合取(“and”)和析取(“or”)推广到实值逻辑或概率空间的二元函数在可微分渲染器中,“或”的泛化是现有的解析可微渲染器都使用概率T-连续性。3. 广义可微渲染器在本节中,我们将介绍我们的广义可微网格渲染器。 对于可微渲染器,我们指的是处处连续且几乎处处可微(a.e.)的渲染器。请注意,在这种情况下,连续性是比可微a.e.更严格的标准。因为在形式上(i)传统的渲染器已经是可区分的,(这并不意味着它们可以提供任何有意义的梯度),以及(ii)几乎所有现有的4004−⊥⊤∫τP−P让我们首先介绍一个经典的硬渲染算法是如何工作的。第一步是将所有对象带入图像空间,这通常是一系列仿射变换,然后是相机投影。这一步已经是可微的了。第二步是光栅化:对于每个像素,我们需要计算覆盖它的一组面(典型的三角形)。如果像素被至少一个面覆盖,则显示最接近相机的面。3.1. 可区分闭塞试验为了测试像素p是否被人脸t遮挡,我们首先计算像素和人脸边界之间的带符号欧氏距离d(p,t)按照惯例,三角形内部的像素具有正距离,三角形外部的像素具有负距离。对于正好在边界上的像素,到面部的距离为0。为 一 硬 闭塞 测试,我们 将 只是检查d(p,t)是否为非负在可微渲染器中,我们改为引入具有密度f以及温度或尺度参数τ> 0的概率分布形式的扰动。然后,我们评估扰动距离d(p,t)τ非负的概率,其中τ根据f分布。因此,我们计算t遮挡p的概率为:Pf(d(p,t)−τ≥0)=Pf(τ≤d(p,t)/τ)通过一个逻辑T-conorms的形式定义如下。定义2(T-连接)。一个T-约束是一个二元运算:[0,1]×[0,1]→[0,1],它满足• 结合性:<$(a,<$(b,c))=<$(<$( a,b),c),• 交换性:<$(a,b)=<$( b,a),• 单调性:(a ≤ c)<$(b ≤ d)<$$>(a,b)≤<$(c,d),• 0是一个中性元素<$(a,0)= a。注3(T-余范数和T-范数)。虽然T-余范是逻辑“或”的实值等价物,但所谓的T-范是逻辑“与”的实值等价物。 某些T-余模和T-模是对偶的,因为可以使用复模从另一个导出一个。项(通常为1−x)和德摩根让我们继续说明T-连续性,它用于所有适用的先前的近似可微渲染器与自然梯度。实施例4(概率和)。概率和是一个T-连续性,对应于两个独立事件中至少有一个发生的概率。它被定义为n(a,b)=a+b − ab.(二)d( p,t)/τ=f(x)dx=F−∞. d(p,t)n,(一)另一种方法是爱因斯坦求和,它是基于速度的相对论相加。其中F是分布f的CDF,因此产生期望概率的封闭形式解(提供实施例5(爱因斯坦求和)。 爱因斯坦和是一个T-连续的,对应于特殊关系下的速度相加。F有一个封闭形式的解,或者可以适当地近似)。 在可微渲染器中,我们需要F是连续的。 通常,F具有sig的S形状。相关性:A(a,b)=a+B1+ab.(三)moid函数,见表1。因此,我们在本文中将CDF称为sigmoid函数。大多数现有的可微渲染器使用sigmoid函数或其变换,参见第4节,以柔和地评估像素是否位于三角形内。这符合等式(1)中的概率解释,其中概率分布经由在每种情况下使用的S形函数来定义。在这里,logistic sigmoid函数是这种sigmoid函数的流行选择。请注意,最近,它在文献中经常被称为“the”sigmoid,不要与原始的和更通用的示例1(Logistic Sigmoid)。 F L(x)=1/(1+exp(x))是logistic sigmoid函数,对应于logistic 分布。3.2. 聚集第二步是使多个面聚集在一起。虽然这通常是这样做的,结合上述概念,我们可以在给定一组面T的情况下计算像素p的覆盖率或覆盖率为:AO(p,T)=t∈TF(d(p,t)/τ).(四)3.3. 着色面的着色是通过Phong模型或任何其他着色模型来处理的,这些模型已经是可区分的。在文献中,Chenet al. [6]比较不同的选择。最后,要根据人脸到相机的距离(深度)聚合每个像素的着色,文献中有两种流行的选择:没有深度扰动,取最近的三角形(如[1],[2],[6])和Gumbel深度扰动(如[3],[18])。只有后者的选择是真正连续的,和Gumbel深度扰动的封闭形式的解决方案是众所周知的softmin。由于(i)在文献中Gumbel扰动的适当替代方案没有封闭形式的4005解,以及(ii)4006图1.对应于sigmoid函数的概率分布的分类细分市场的选择是正确的。有着明确区别的关系,有限支持分布分类学无限支持对相应渲染器的行为没有影响。确切连续对称不对称当在树中向下时的拆分顺序(其可以不同地选择,例如,对称/不对称可能是第一个分裂)反映了狄拉克δ(海维赛德)均匀三次Hermite指数转换高斯拉普拉斯线性转换柯西倒数双面冈贝尔-马克斯片面指数伽玛财产。维格纳半圆Logistic征收双曲正割(Gudermannian)Heaviside均匀三次Hermite Wigner半圆高斯拉普拉斯Logistic Logistic(squares)双曲正割Cauchy Cauchy(squares)倒数Gumbel-Max Gumbel-Min指数指数(修订版)Levy Levy(Rev.)Gamma(p = 0. 5)Gamma(p = 1)Gamma(p = 2)Gamma(p=. (Rev.)伽马(p= 1)(修订版)伽马(p= 2)(修订版)Gamma(p = 0.第五章)伽马(p= 1)伽马(p= 2)Gamma(p =.(Rev.)伽马(p= 1)(修订版)伽马(p= 2)(修订版)(正方形)(正方形)(正方形)(正方形)(正方形)(正方形)表1.可视化选择的sigmoid函数,这是概率分布的CDF。对于每个分布,我们显示一个渲染三角形来展示它们的不同效果。这两个选项在文献[1]-[ 3 ],[ 6 ],[ 18 ],[ 22 ]中已经被广泛研究虽然我们在GenDR中实现了这两个选项,但在我们的评估中,我们执行了与着色聚合的选择无关的所有实验,因为实验仅依赖于轮廓。4. GenDR的实例化让我们继续讨论一般化可微渲染器(GenDR)的实例化。分配。图1提供了分布和sigmoid函数的分类,在表1中显示。我们将分布分为有限支撑和无限支撑的分布,其中支撑是PDF较大的点集比零。请注意,CDF在支持区域之外是恒定的。在具有有限支持的分布中,存在对应于Heaviside函数的精确Dirac delta分布,其产生离散的不可微渲染器。也有连续的分布,允许有意义的梯度,但(由于有限的支持)只有在有限的接近每个面。在这里,我们有,除其他外,均匀分布,它对应于分段线性阶跃函数。均匀分布的导数与神经3D网格渲染器的替代梯度等效或非常相似(由于较小的实现方面)[2]。无限支撑分布可分为对称分布和非对称分布。在对称分布中,高斯分布、拉普拉斯分布、逻辑分布和双曲分布具有指数收敛行为或指数收敛性。4007ppppp›→||22052051 10p弗兰克·沃尔夫YagerZHAcze' l-AlsinaDombiB.D.施韦策-斯克拉公司p∈(0,∞)↓p∈(0,∞)↑p∈(0,∞)↑p∈(−∞,0)-表2.概述了选择合适的T-conorms,我们也基准。(a)(b)(c)(d)图2.四个选定的T-共形图。从左至右:Maximum,Probably,Einstein,and Yager(w/p=2).虽然(b)和(c)是光滑的,但Yager T-接触(d)是不光滑的,它在单位圆之外是平稳的,并且值是恒定的概率密度的衰变另一方面,也有柯西分布,它具有线性收敛性。这产生了显著不同的行为。 我们包括代数函数x x/(2+2x)+1/2,并称之为倒数S形。这也有一个线性收敛。最后,我们考虑具有无限支撑的非对称分布。Gumbel-Max和Gumbel-Min是极值分布[33]和双侧分布,图3.不同GenDR实例的视觉比较。在每个图像中,从左向右移动会增加分布的温度或尺度τ。左:我们使用逻辑分布来扰动三角形,并使用不同的T范数进行聚合(从上到下:M、P、Y、A)。右:对于前两行,我们使用均匀分布,并使用BYY和BXA。对于最后两行,我们使用柯西分布,并使用cqp和cqy。这意味着他们的支持涵盖了积极和消极的论点。指数分布、Gamma分布和Levy分布都是单侧分布。在这里,重要的是不仅要考虑原始分布,而且要考虑它们的镜像或反向变体,以及在表1的最后三行中可以看到的移位变体。SoftRas [3]在应用logistic sigmoid函数之前对距离的绝对部分进行平方,从而对logistic扰动的平方根进行建模。我们没有修改F的自变量,而是将其解释为应用变换后的对应CDFFsq,这更符合等式(1)中的概率解释。更准确地说,我们计算遮挡概率为(1)A(1)A(2)A(3)A(|d(p,t)|·d(p,t)/τ)。(五)这意味着,对于F的每一个选择,我们得到一个互补的F平方。用于不同CDFF的这些的选择在表1中由“(正方形)"表示。对于每个sigmoid函数的数学定义,请参见SMB。聚合。表2提供了对所选择的T-共形的概述并显示了 它 们 的 性 质 。 逻 辑 上 的 虽 然 也 有 不 连 续 的 T-conorm,如激烈的T-cornom,这些自然不适合可微渲染器,这就是为什么我们排除它们。除了Max和YagerT-余模外,所有的余模都是连续可微的。T-连续等于/,其中连续继续。diff.严格幂等幂零阿基米德↑/↓wrt. p(逻辑()-(✓)---最大可调范围✗✗✓✗✗-概率P=H=A✓✓✗✗✓-爱因斯坦E=H✓✓✗✗✓-Hamacher<$Hp∈(0,∞)<$✓✓✗✗✓↓40081联系我们10.27Rhodin 等 人 [13 个 国 家 ]Gaussian-PSoftRas [2]Logistic的平方根CUP日志。放松[14]物流 管理[6]第六话表 3. 可 区 分 的 渲 染 器 是 ( 近 似 ) GenDR 的 特 殊 情 况 。OpenDR和N3 MR不使用特定的T-连接,因为它们的前向计算很难。表2中的前四行包含单个T-共形,其余的是T-共形的族。在这里,我们只为参数p选择合适的范围。注意,在某些情况下,T-共形是coin- cide的,例如,P=H=A。关于剩余最大(平均)概率EinsteinHamacher(p=0)Hamacher(p=.5)Hamacher(p=4)Frank(p=.5)Frank(p=2)Frank(p=e)Yager(p=.5)Yager(p=1)Yager(p=2)Yager(p=4)Aczel-Alsina(p=.5)Aczel-Alsina(p=2)Aczel-Alsina(p=4)Dombi(p=.5)Dombi(p=2)Dombi(p=4)施-斯二氏(p=-.5)施-斯二氏(p=-2)施-斯二氏(p=-4)最大(平均)概率爱因斯坦Hamacher(p=0)0.280.270.260.250.240.230.220.210.28性质和每个T-同余可以在SMC中找到。图2显示了一些T- conorms,并说明了不同的属性.在图3中,我们显示了具有不同设置的示例渲染,并提供了关于聚合函数如何影响渲染的视觉比较。现有的性别歧视特殊情况。在表3中,我们列出了哪些现有的可微渲染器在概念上是GenDR的实例这些渲染器都有一些其他的区别,但一个关键的区别在于所使用的分布类型关于阴影的差异也在第3节的末尾讨论。Hamacher(p=.5)Hamacher(p=4)Frank(p=.5)Frank(p=2)Frank(p=e)Yager(p=.5)Yager(p=1)Yager(p=2)Yager(p=4)Aczel-Alsina(p=.5)Aczel-Alsina(p=2)Aczel-Alsina(p=4)Dombi(p=.5)Dombi(p=2)Dombi(p=4)施-斯二氏(p=-.5)施-斯二氏(p=-2)施-斯二氏(p=-4)0.260.250.240.230.220.215. 实验15.1. 形状优化我们的第一个实验是形状优化任务。在这里,我们使用一个飞机的网格,并从24个方位角渲染它使用硬渲染器。任务是优化网格(初始化为球体),以在100个优化步骤内拟合飞机的轮廓。将任务限制为100个优化步骤至关重要,原因有二:(i)可以认为任何可微分渲染器都可以完美地解决该任务,这些渲染器在大量步骤中产生正确的梯度符号,但我们对优化任务的梯度质量以及每个渲染器的效率感兴趣。(ii)整体评估的计算成本高昂,因为我们评估了总共1 242个渲染器,并对每个渲染器的分布参数进行网格搜索,以提供公平可靠的比较。Setup. 对于优化,我们使用Adam优化器[34],参数β1=0。5,β2=0。九十五对于每个设置,我们在三个学习率(λ)上执行网格搜索∈ {10−1. 25,10- 1。5,10- 1。75})和温度τ∈{10−0. 1·n|n ∈ N,0 ≤ n ≤ 80}。这里,λ = 10−1。五块钱031源代码将在github.com/Felix-Petersen/gendr上提供。S形Fn图4.24视图飞机外形优化任务的结果优化是在100步的紧凑预算内完成的,并且度量是损失,即,黄色的更好。上图:原始分布F。底部:相同位置的相应对应部件Fsq。边缘直方图显示前10%组合中的参与。在几乎所有情况下都是最好对于尺度超级参数,使用细粒度和大网格非常重要,因为这对于每个分布都有不同的在这里,我们故意选择了大于合理值范围的网格,以确保每个设置都使用最佳选择;尺度的极值从来都 我们从五个不同的仰角60°、30°、0°、30°、60°作为独立运行执行此评估,并对每个渲染器实例的最终结果进行平均。应用于椅子模型的实验的其他结果可以在SMD中找到。结果在图4中,我们显示了评估的结果。我们可以观察到正则分布F通常比对应的Fsq表现得更好,除了柯西和倒数S形的情况,它们是具有线性收敛速度的。我们通过以下事实来解释这一点:在应用T-连接T-连接均匀三次Hermite高斯维格纳半圆拉普拉斯LogisticGumbel-Max古德曼阶柯西倒易S形贡贝尔明指数指数(偏移)指数(R)指数(R,偏移)Gamma(p=.5)伽马(p=1)伽马(p=2)伽马(p=2,偏移)伽马(p=.5,R)伽马(p=1,R)Gamma(p=2,R)Gamma(p=2,R,征收Levy(班次)利维(R)Levy(R,shift)渲染器分布T-连接OpenDR [1]均匀(向后)-N3MR [2]均匀(向后)-4009⊥⊥−42−0的情况。5−−42424−2⊥⊥最大(平均)概率EinsteinHamacher(p=0)Hamacher(p=.5)0.90.80.7T-conorms的比较我们发现M和“平均值”(不是T-连接,但在[ 3 ]中用作基线)表现不佳。还有,Y,A,A,D,D,SS,Hamacher(p=4)Frank(p=.5)Frank(p=2)Frank(p=e)Yager(p=.5)Yager(p=1)0.60.5而SS整体表现不佳。这可以解释为他们是各自的T规范家族中相当极端的成员;在所有这些中,都涉及p次幂,4Yager(p=2)0.4可能成为有问题的组件,例如, X 消失了-Yager(p=4)Aczel-Alsina(p=.5)对于x = 0,它非常小。五、 有趣的是,伽马和Aczel-Alsina(p=2)Aczel-Alsina(p=4)Dombi(p=.5)Dombi(p=2)Dombi(p=4)施-斯二氏(p=-.5)施-斯二氏(p=-2)施-斯二氏(p=-4)S形Fn0.30.20.10.0指数分布仍然表现良好,这可能是因为它们不对称,并且具有很大的不对称性。边缘上的概率为1。值得注意的是,Yager T-连续性(p=2)表现非常好,尽管具有平台,因此在单位之外没有有意义的梯度光盘,见图2。最后,我们计算每个相应的分布和T-连续性参与的次数的直方图。图5.茶壶相机姿态优化任务的结果优化是用预定衰减的温度τ来完成的 该度量是恢复的相机姿态的分数,而初始化角度误差从[15°,75°]均匀采样。该图显示了原始分布F的集合,相应Fsq的图可以在SMD中找到。sigmoid函数,函数具有二次收敛速度。由于线性收敛函数的性能也差于指数收敛函数(高斯,拉普拉斯,Logistic,Gudermannian),我们得出结论,线性收敛劣于二次和指数收敛。列1 - 3包含具有有限支持的分布,并且这些分布在此任务上表现得不是很好。指数衰减分布块(列4 - 7)表现良好。线性衰减分布块(列8和9)表现不佳,如上所述。Levy分布块(最后4列)表现更差,因为它的收敛速度更慢这里,它在平方设置中也变得稍微好一些,但它仍然表现出比线性收敛更差的性能。分布的比较。Gumbel分布、指数分布和Gamma分布的表现并不相同,但Gumbel-Min分布、反向指数分布和反向Gamma分布都具有竞争力。把表1放在哪里--很明显,这是因为Gumbel-Max、指数和伽马的所有质量都在三角形内,即,他们的脸变小了这是有问题的,因为在这种情况下,它可能会导致相邻三角形之间的间隙,这会阻碍优化。由于反向对应物产生更大的面并且不受此问题的影响,因此它们表现得更好。注意,在这方面,非对称分布优于对称分布,因为对称分布的累积密度总是为0。5在边缘,因此面的大小保持不变。我们可以看到,在非对称分布中,Gamma表现最好。最好的10%的整体结果。这对于顶部和底部图是独立的。我们可以观察到Gamma(p=0. 5,反向)的整体性能最好(因为它对T型连接器的选择在T-conorms中,我们发现Y和D表现最好。概率求和和爱因斯坦求和的表现相当,并分享下一个位置。5.2. 相机姿态优化在我们的第二个实验中,目标是从参考图像中找到茶壶模型的相机姿势。角度由从[15°,75°]均匀绘制的角度随机修改,距离和相机视角也是随机的。我们对600对参考图像和初始化进行采样,并将这组设置用于每种方法。 为了优化,我们使用Adam,学习率为0。1或0。3(通过网格搜索)和优化1000步。在优化过程中,我们将σ=10−1的初始值转换为σ=10−7的最终值。这使我们能够避免网格搜索以获得最佳尺度,并且这是有意义的,因为初始大的σ对于姿势优化是有益的,因为更平滑的模型具有更高的找到对象的正确方向的概率。这与形状估计的设置形成对比,在形状估计的设置中,这将是致命的,因为顶点将塌陷到中心。结果在图5中,我们显示了该实验的结果。对应分布Fsq的相应图像以及应用于椅子模型的实验结果可以在SMD中找到。度量是实现匹配地面实况姿态的设置的分数,最高可达3μ m。我们发现,在这个实验中,结果是相似的形状优化实验。请注意,有较大的黄色区域,因为颜色图范围从0%到90%,而在形状优化图中,颜色图范围在相当窄的损失范围内。T-连接均匀三次Hermite维格纳半圆高斯拉普拉斯Logistic古德曼阶Cauchy倒S形Gumbel-Max贡贝尔明指数指数(R)指数(偏移)伽马(p=.5)指数(R,偏移)伽马(p=1)伽马(p=2)伽马(p=2,偏移)伽马(p=.5,R)伽马(p=1,R)伽马(p=2,R)伽马(p=2,R,偏移)征收Levy(班次)利维(R)Levy(R,shift)4010⊥ ⊥⊥22≈⊥ ⊥⊥飞机椅梳妆台汽车椅显示64626061605958可能是EinsteinYager(p=2)50494847灯464544表484644扬声器电话72706866.566.065.580.077.575.0步枪容器7674726766656460.059.559.058.5525150沙发6866是说626160图6. 30个所选渲染器中的每一个的单视图重建结果作为每个类的3D IoU(以%为单位)热图。虽然均匀分布(w/P)的平均性能最好,而logistic平方根(w/P,E)的平均性能次之,但最佳设置取决于各个类别的特性。对于对于有腿的家具,如“长凳”,“椅子”和“桌子”,我们发现高斯分布始终表现最好。类似的类例如,梳妆台和扬声器往往是长方体,而步枪和船只往往是相当长和苗条。考虑到高斯分布,看看对于某些类,BFP和BEE的性能更好,而对于其他类,BYY 表现得更好。方法AirplaneBench Dresser汽车座椅显示灯 扬声器步枪沙发桌电话容器 是说概率+ Logistic(=[14])表4.在3D IoU中测量的选定单视图重建结果5.3. 单视图三维重建Setup. 最后,我们重现了[2],[3],[6],[14]中流行的 ShapeNet 单 视 图 3D 重 建 实 验 我 们 选 择 三 个 T-Conorms ( P , E , Y ) 和 10 个 分 布 ( Uniform ,Gaussian ,Logistic,Logistic(squares ),Cauchy ,Cauchy(squares),Gumbel-Min,Gamma(R,p=0.5)、Gamma(R,p=0. 5,平方)和指数(R))。之所以选择它们,是因为它们已在以前的工作中使用过,是值得注意的(柯西,Gumbel-Min,Einstein),或在飞机外形优化试验中表现得特别好(Gamma,Yager)。对于每个设置,我们以分辨率10 0执行τ的网格搜索。五、进一步的实验细节可以在SMA中找到。结果在图6中,我们显示并讨论了所有30个选定呈现器的类级结果。在表4中,我们显示了顶部块中现有可微渲染器的(自我)报告结果。在下面的块中,我们显示了与六个现有的可微渲染器等价(=)或非常相似()的方法的结果。等效方法的差异可以用设置的微小变化和微小的实现差异来解释。此外,我们还包括三个值得注意的替代渲染器,例如在先前的飞机形状优化任务中表现最好的渲染器我们的结论渲染器的最佳选择在很大程度上取决于3D模型和任务的特性。令人惊讶的是,我们发现,简单的均匀方法取得consis- tently良好的结果和最好的平均得分。6. 讨论和结论在这项工作中,我们推广了可微网格渲染器,并探索了我们的通用渲染器GenDR的实例化的大空间我们发现,有显着差异,不同的分布之间的闭塞测试,而且不同的T-conorms之间的聚集。在我们的实验中,我们观察到渲染器的选择我们发现均匀分布的平均性能优于其他测试分布,考虑到它的简单性,这是令人惊讶的。值得注意的是,均匀分布已经隐式地用于早期的代理梯度渲染器,但后来被丢弃的近似可微渲染器。致谢。 这项工作得到了DFG的支持在Excellence EXC2117(项目ID 390829875)和SFB Transregio 161(项目ID251654672 ) 的 集 群 中 , 以 及 在 WISS 2025 项 目 IDA-Lab(20102- F1901166-KZP和20204-WISS/225/197-2019)中的Land Salzburg。均匀高斯LogisticLogistic(平方)Cauchy柯西(平方)贡贝尔明Gamma (R)伽马(R,平方)指数(R)Kato等人 [2] N3MR(Uniform Backward)0.61720.49980.71430.70950.49900.58310.41260.65360.63220.67350.48290.77770.56450.6015Liuet al. [3] SoftRas(Logistic的平方根)0.64190.50800.71160.76970.52700.61560.46280.66540.68110.68780.44870.78950.59530.6234Chen等人[6] DIB-R(指数)0.5700.4980.7630.7880.5270.5880.4030.7260.5610.6770.5080.7430.6090.612概率+均匀(概率[1],概率[2])0.64560.63960.48550.50050.71130.71050.76960.74710.52760.52880.61260.60220.46110.45860.66510.66390.67730.67420.68350.66600.45140.46660.81480.77710.59710.59800.62320.6179概率+ Logistic(平方)(=[3])0.6416 0.49660.7175 0.7386 0.52240.6147 0.45500.6673 0.6771 0.68180.45290.81860.59840.6217概率+指数(R)(=[6])0.6321 0.4857 0.7123 0.7298 0.5178 0.5983 0.4611 0.6642 0.6713 0.65460.47000.77170.60050.6130概率+高斯(ε [13])0.59220.5020 0.7104 0.75610.5297 0.6080 0.43990.6668 0.65330.68790.49610.73010.58940.6125概率+伽马(R)0.64730.4842 0.7093 0.7220 0.5159 0.60330.4665 0.6626 0.6719 0.65050.46420.77780.59780.6133Einstein + Gamma(R,平方)0.6438 0.48160.7174 0.7284 0.5170 0.6111 0.4654 0.6647 0.6760 0.65460.46260.81890.59730.6184Yager(p=2)+ Cauchy(平方)0.63800.5026 0.7047 0.7359 0.5188 0.5976 0.4617 0.6612 0.6726 0.66190.48190.75600.60060.61494011引用[1]M. M. Loper和M. J. Black,“OpenDR:一个近似的微分 渲 染 器 , ” 在 Proc.欧 洲 计 算 机 视 觉 会 议(ECCV),2014年。[2]H. 卡 托 湾 Ushiku 和 T. Harada , “Neural 3D meshrenderer”,Proc. 计 算 机 视 觉 与 模 式识 别 国 际 会 议(CVPR),2018年。[3]S. Liu,T. Li,W. Chen和H. Li,“软光栅化器:ADifferentiableRendererforImage-based3DReasoning , ”inProc. InternationalConferenceonComputer Vision(ICCV),2019.[4]F. Bogo、A.金泽角放大图片,P. Gehler,J. Romero和M. J. Black,[5]A.帕拉齐湖Bergamini,S. Calderara和R. Cucchiara,[6]W. Chen,J. Gao,H. Ling等人,“学习预测具有基于插值的可微分渲染器的3D对象”,[7]X. 杨 , J.Yang , E.Yumer , Y.Guo 和 H.Lee, “透视Transformer 网 络 : Learning single-view 3D objectreconstruction without 3D supervision , ”in Proc. NeuralInformationProcessingSystems(NeurIPS),2016.[8]E. Insafutdinov和A. Dosovitskiy,[9]W.Yifan,F. Serena ,S.Wu,C.Oüztireli和O.Sorkine-Hornung,“基于点的几何处理的可微分表面溅射”,ACM图形学报,第38卷,第103期。2019年6月。[10]Y. Jiang,中国粘蝇D.吉,Z.汉,和M。Zwicker,[11]S. Liu,S. Saito,W. Chen和H. Li,[12]V. Sitzmann,M. Zoll hofer和G. Wetzstein,“场景表示网络 : Continuous 3D-Structure-Aware Neural SceneRepresentations , ”in Proc. Neural Information ProcessingSystems(NeurIPS),2019.[13]H. Rhodin,N.罗贝蒂尼角Richardt,H. P. Seidel和C.Theobalt,[14]F.彼得森角Borgelt,H. Kuehne和O. Deussen,“通过持续放松进行学习和心理监督”,在Proc。 神经信息处理系统(NeurIPS),2021年。[15]A. X. 张氏T.芬克豪泽湖Guibas等人,[16]H. Kato,D. Beker,M. Morariu等人,[17]H.-T.D.Liu , M. 陶 角 , 澳 - 地
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功