没有合适的资源?快使用搜索试试~ 我知道了~
可微分渲染器:从2D图像推断3D信息的学习方法
77083D网格软光栅化器:基于图像的三维推理的可微分渲染器Shichen Liu1,2,Tianye Li1,2,Weikai Chen1,and HaoLi1,2,31 USC Institute for Creative Technologies2南加州3针屏{lshichen,tli,wechen}@ ict.usc.eduhao@hao-li.com摘要渲染通过模拟图像形成的物理过程来弥合2D视觉和3D场景之间的差距。通过反转这样的渲染器,可以想到从2D图像推断3D信息的学习方法。然而,标准图形渲染器涉及称为光栅化的基本离散化步骤,其防止渲染过程是可区分的,因此能够被学习。与最先进的可微分渲染器[30,20]不同,其仅在反向传播中近似渲染梯度,我们提出了一个真正可重构的渲染框架,该框架能够(1)使用可微分函数直接渲染彩色网格,以及(2)3D网格软光栅化器R概率图{Di}w/颜色聚集函数A(·)阴影片段¯软渲染图像Re n der dIm ageI's将有效的监督信号反向传播到网状网,标准光栅化器R离散采样从各种形式的图像表示,包括轮廓、阴影和彩色图像,获取纹理及其属性我们的框架的关键是一个新的配方,认为渲染作为一个聚合函数,融合的概率,bilistic贡献的所有网格三角形相对于渲染的像素。这样的公式化使得我们的框架能够将梯度流动到被遮挡的和远距离的顶点,这不能通过先前的现有技术来实现我们表明,通过使用所提出的渲染器,可以实现显着的改进,在三维无监督单视图重建定性和定量。实验还表明,我们的方法是能够处理具有挑战性的任务,在基于图像的形状拟合,丁,这仍然是不平凡的现有可微渲染。代码可在https://github.com/ShichenLiu/SoftRas上获得。1. 介绍从二维图像中理解和重建三维场景和结构一直是计算机视觉的基本目标之一基于图像的3D推理的关键是找到从像素流到3D属性的足够的监督。为了获得图像到3D的相关性,现有方法主要依赖于基于2D的匹配损失。图1:我们提出软光栅R(上),一个真正的dif-可区分渲染器,其将渲染公式化为可区分聚集过程A(·),其以“软”概率方式融合每个三角形贡献{Di}我们的方法攻击的核心问题,区分标准-dard光栅化器,由于离散采样操作(下面),它不能将梯度从像素流到几何体。关键点/轮廓[3,36,27,33]或形状/外观优先或[1,29,6,24,50]。然而,上述方法或者限于特定于任务的域,或者由于2D特征的稀疏性而只能提供弱监督。相比之下,作为从3D图像生成2D图像的过程,渲染通过模拟图像形成的物理机制将每个像素与3D参数相因此,通过反转渲染器,可以获得用于通用3D推理任务的密集像素级监督,这不能通过常规方法实现。然而,渲染过程在常规图形管线中是不可区分的。特别地,标准网格渲染器涉及离散采样操作,称为光栅化,其防止梯度流入网格顶点。由于前向渲染函数是高度非线性和复杂的,为了实现可区分的渲染,最近的进展[30,20]仅约7709γw/ lar ge r标准渲染渲染渲染w/较大的γ和σ输入图像重建结果输入图像初始化优化结果图2:正向渲染:SoftRas生成的各种渲染效果(左)。基于SoftRas提供的后向梯度的不同透明度应用:(1)从单个输入图像(中间)进行3D无监督网格重建,以及(2)通过向被遮挡的三角形流动梯度来对目标图像进行3D姿态拟合(右)。使用手工制作的函数模拟向后渐变,同时在向前传递中直接使用标准图形渲染器。虽然在基于图像的3D重建任务中已经显示出有希望的结果我们在第5.2节中表明,这种机制会导致基于图像的形状拟合中的问题情况,其中3D参数不能有效地优化。本文不研究一种更好的绘制梯度的形式具体来说,我们提出了一个真正可区分的渲染框架,能够在向前传递(图1)中渲染彩色网格。此外,我们的框架可以考虑各种3D属性,包括网格几何,顶点属性(颜色,法线等)。)、相机参数和照明,并且能够使从像素到网格顶点及其属性的有效梯度流动。作为一个通用模块,我们的渲染器可以插入到神经网络或非学习优化框架中,而无需参数调整。我们的方法的关键是新的配方,它认为渲染作为一个与标准光栅化器不同,它只选择在观察方向上最接近的三角形的颜色(下图1),我们建议所有三角形对每个渲染像素都有概率贡献虽然传统的渲染流水线以独热方式合并着色片段,但我们提出了一种可微分聚合函数,该函数基于概率图和三角形的相对深度来融合每个三角形的颜色图新的聚合机制,使我们的渲染器流梯度的所有网格三角形,包括被遮挡的。此外,我们的框架可以传播监督信号从像素到远距离三角形,因为它的概率公式。我们称我们的框架为软光栅(SoftRas),因为它离散光栅化以实现可微分性。得益于一致的前向和后向传播,SoftRas能够提供高质量的梯度流,以监督基于图像的3D推理的各种任务为了评估SoftRas的性能,我们显示了ap-3D无监督单视图网格重建和基于图像的形状拟合中的应用(图2,第5.1节和第5.2节)。特别是,SoftRas提供了强大的错误信号,nals的网格生成器简单地基于渲染损失,可以实现从一个单一的图像,年龄没有任何3D的监督网格重建为了忠实地纹理的网格,我们进一步提出了一种新的方法,从输入图像中提取代表性的颜色和制定的颜色回归作为一个分类问题。关于基于图像的形状拟合的任务,我们表明,我们的方法是能够(1)处理遮挡使用的聚合机制,认为所有三角形的概率贡献;以及(2)与其他可微分渲染器相比,提供更平滑的能量景观,其通过使用平滑渲染来避免局部最小值(图2左侧)。实验结果表明,我们的方法显着优于国家的最先进的定量和定性。2. 相关工作差异化渲染。为了将观察到的图像中的变化与3D形状操纵中的变化相关联,许多现有技术已经利用了再现的衍生物[11,10,31]。最近,Loper和Black [30]引入了一种近似可微渲染器,该渲染器从投影像素到3D参数生成导数。Kato等人。[20]建议使用手工制作的函数来近似光栅化的后向梯度,以实现可微分渲染。最近,Li et al.[25]引入可微分光线跟踪器来实现二次渲染效果的可微分性。Insafutdinov等人[17]提出一个点云的微分渲染器。3D面部重建的最新进展[40,42,41,43,9],材料推断[28,7]和其他3D重建任务[51,38,34,14,23,35,39]已经利用一些其他形式的可微分渲染层来获得神经网络中的梯度流。然而,这些渲染层通常是为特殊目的而设计的在本文中,我们专注于一个通用的差分渲染框架,能够直接渲染一个给定的网格使用可微函数,而不是只近似向后导数。7710内在特性PL外部变量渲染管线渲染图像传统光栅化器M变换Z光栅化Fz缓冲我NU软光栅化器一色彩计算C概率计算D聚合函数我不可微远期合约图3:标准渲染管道(上面的分支)和我们的渲染框架(下面的分支)之间的比较基于图像的3D推理。2D图像被广泛使用作为推理3D属性的媒介。特别地,基于图像的重建已经受到最多的关注。常规方法主要利用基于多视图几何结构的立体对应性[13,8],但受限于由多视图提供的覆盖。随着大规模3D形状数据集[5]的可用性,基于学习的方法[45,12,15]能够考虑单个或几个图像,这要归功于从数据中学习的形状。为了简化学习问题,最近的工作通过预测中间2.5D表示来重建3D形状,例如深度图[26],图像集合[19],位移图[16]或法线图[37,46]。姿态估计是理解视觉环境的另一个关键任务。对于3D刚性姿态估计,虽然早期方法试图将其作为分类问题[44],但最近的方法[21,48]可以通过使用深度神经网络直接回归6D姿态。估计非刚性对象的姿态,例如人脸或身体,更具挑战性。通过检测2D关键点,在估计2D姿态方面取得了很大进展[32,4,47]。为了获得3D姿态,形状先验[1,29]已被纳入,以最大限度地减少最近方法[3,4,18,2]中的形状拟合误差。我们提出的微分渲染器可以提供密集的渲染监督3D属性,有利于各种基于图像的3D推理任务。3. 软光栅化器3.1. 差异化渲染流水线如图3所示,我们考虑定义环境设置的外部变量(相机P和照明条件L)和内部属性(三角形网格M和每个顶点的外观A,包括颜色、材料等)。描述模型特定属性。遵循标准渲染流水线,可以通过基于相机P变换输入几何形状M来获得网格法线N、图像空间坐标U和视图相关深度Z。关于照明的具体设想国家和材料模型(例如Phong模型),我们可以计算给定{A,N,L}的颜色C。 这两个模块自然是可区分的。然而,随后的操作:光栅化和z缓冲,在标准图形- ics管道(图3红色块)是不可区分的由于离散采样操作,相对于U和Z我们的微分公式。我们采取不同的观点,光栅化可以被视为由像素和三角形之间的相对位置确定的二进制掩码,而z缓冲基于三角形的相对深度以逐像素独热 方 式合 并 光 栅 化 结 果 F 。 然 后 , 该 问 题 被formulated建模的离散二进制掩码和一个热合并操作中的软和可微的方式。因此,我们提出两个主要组成部分,即可能-图D={Dj},其对每个像素停留在特定三角形fj内的概率进行建模;以及聚合函数A(·),其基于{Dj}和三角形之间的相对深度来融合每个三角形颜色图采用这种配方,所有3D属性,例如相机,纹理,材质,照明和几何形状可以从图像接收梯度。pi(a)地面实况(b)σ= 0。003(c)σ= 0。01(d)σ=0。03图4:欧氏度量下三角形的概率图。(a)定义像素到三角形的距离;(b)-(d)用不同σ生成的概率图。3.2. 概率图计算我们通过概率图Dj来模拟三角形fj对图像平面的影响。为了估计Dj在像素pi处的概率,函数需要考虑pi和Dj之间的相对位置和距离。为此,我们如下定义像素P1处的Dj可微函数不可微函数FJd(i,j)7711IIPiiD1f1I我D2F2iiDN}fNJJSJk kkJDi=S形(δi·d2(i,j)),(1)OpenDRNMR我SoftRasj jσiIiIPIID1f1其中σ是控制锐度当δi是符号指示符时,F2封闭三角形δi={+1,ifpi fj; −1,否则}。我们将σ设为1×10−4fN除另有规定外 d(i,j)是最近距离从pi到fjd(i,j)的自然选择是Eu-clidean距离。然而,在我们的方法中可以使用其他度量,诸如质心或11距离pi(b)屏幕空间梯度从像素到顶点fj直观地,通过使用S形函数,等式1将输出归一化为(0,1),这是一个忠实的连续函数。梯度到x梯度到yx和y梯度流具有边界着陆的二元掩模的连续逼近在0.5。此外,符号指示符将fj内部和外部的像素映射到(0. 5,1)和(0,0. 5)分别。图4示出了具有变化的σ的三角形的Dj,欧氏距离 σ越小,概率分布,而较大的σ倾向于模糊结果。该设计允许对图像平面上的三角形的可控影响。当σ→0时,所得到的概率图收敛到三角形的精确形状,使得我们的概率-城市地图计算是传统光栅化的一般形式。3.3. 聚合函数对于每个网格三角形fj,我们通过使用重心坐标插值顶点颜色来定义其在图像平面上的像素pi处的颜色映射Cj我们将其重心坐标裁剪为[0,1],并将其总和归一化为1,防止颜色计算的负重心坐标。然 后 ,我们提出使用聚集函数A(·)来合并颜色图{C,j},以基于{D,j}和相对深度{z,j}获得渲染输出I。 受soft-max算子的启发,我们将聚合函数AS定义为:图5:与之前的可微分渲染器在梯度流方面的比较。当内在顶点颜色被设置为恒定颜色时,等式2也适用于着色图像。我们进一步探讨的聚合函数的轮廓。请注意,对象的轮廓与其颜色和深度图无关。因此,我们提出了一个专用的聚合函数O表示基于二进制占用的轮廓YIi=AO({Dj})= 1 −(1− Di)。(四)J直观地,等式4将轮廓建模为具有至少一个三角形覆盖像素pi的概率。请注意,可能存在其他形式的聚合函数。一个替代选项可以是使用被实现为神经网络的通用聚合函数AN我们在第5.1.4节中提供了这方面的消融研究。3.4. 与先前工程的在本节中,我们将我们的方法与最先进的基于光栅化 的 差 分 渲 染 器 进 行 比 较 : OpenDR [30] 和 NMR[20],在梯度流方面为低点:Ii=AS({Cj})=ΣwiCi+wiCb,(2)如图5所示。我们对梯度进行了详细的分析补充材料中的计算。j jbJ其中Cb是背景颜色;权重{wj}满足wi+wi=1并且被定义为:从像素到三角形的渐变。由于OpenDR和NMR在正演中jjbDiexp(zi/γ)通过,它们无法控制中间渲染过程,因此无法将渐变流到wi=Σj j、(3)jDiexp(zi/γ)+exp(/γ)其中,zi表示fi上的3D点的归一化负深度,其2D投影为pi;是小常数当γ(设置为1 ×10−4)除非另有说明)控制Ag的锐度集合函数注意,wj是两个主要变量的函数:Dj和zj。具体地,wj将较高权重分配给具有较大z j的较近三角形。 当γ → 0时,颜色聚合函数仅输出最近三角形的颜色。gle,它与z缓冲的行为完全此外,Wj对z轴平移是鲁棒的Dj沿着x、y方向调制wj,使得在屏幕空间上更接近pj的三角形将接收更高的权重。在最终渲染图像中被遮挡(图5(a)左侧中)。此外,由于它们的梯度仅在图像平面上操作,因此OpenDR和NMR都不能优化三角形的深度值z。相比之下,我们的方法对内部变量具有完全控制,并且能够通过聚合函数将梯度流到不可见的三角形和所有三角形的z坐标(图5(a)右)。从像素到顶点的屏幕空间渐变。谢谢对于我们的连续概率公式,在我们的方法中,来自屏幕空间中的像素pj的梯度可以向所有远距离顶点流动梯度(图5(b)右)。然而,对于OpenDR,顶点只能从pipiFJFJIIPiiD1f1(a)梯度f2从像素到三角形fN7712SSSSSS损失颜色生成器CIcLc软光栅化器形状发生器MR我SLsLg输入图像外部变量图6:单视图网格重建的建议框架。图7:颜色重建的网络结构。由于局部滤波操作,在近距离内的相邻像素(图5(b)左)。关于NMR,没有从白色区域内的像素相对于三角形顶点定义的梯度(图5(b)中间)。相比之下,由于我们的方向不变公式,我们的方法没有这样的问题。4. 基于图像的三维推理通过从图像到3D属性的直接梯度流,SoftRas支持各种3D推理任务。4.1. 单视图网格重建为了证明软光栅的有效性,我们固定的外在变量,并评估其性能的单视图三维重建,将其与网格生成器。从图像像素到形状和颜色生成器的直接梯度使我们能够实现3D非监督网格重建。我们的框架如图6所示。给定一个输入图像,我们的形状和颜色生成器生成一个三角形网格M及其相应的颜色C,然后将其送入软光栅化器。SoftRas层渲染剪影Is和彩色图像Ic两者,并且通过与地面实况进行比较来提供基于渲染的误差信号受网格学习[20,45]的最新进展的启发,我们利用了通过变形模板网格来合成3D模型的类似为了验证软光栅化器的性能,形状生成器采用与[20,49]相同的编码器-解码器架构。形状和发生器的细节在补充材料中描述。损失 重建网络由三个损失监督:轮廓损失Ls、颜色损失Lc和几何损失Lg。令Is和I s分别表示预测轮廓和地面实况轮廓。轮廓损失是颜色损失被测量为渲染图像和输入图像之间的L1范数:Lc=||Ic−I c||1 .一、为了实现吸引人的视觉质量,我们进一步施加几何损失Lg,其正则化形状和颜色预测的拉普拉斯算子选项。 最终损失是三种损失的加权和:L=Ls+λLc+ µLg。(五)4.1.1颜色重建而不是直接回归的颜色值,我们的颜色生成器制定的颜色重建作为一个分类问题,学习重用每个采样点的输入图像中的像素颜色设Nc表示M和H上的采样点的数量,W分别是输入图像的高度和宽度。然而,朴素的颜色选择方法的计算成本是禁止的,即O(HWN c).为了解决这一挑战,我们提出了一种新的方法来使用调色板对网格进行着色,如图7所示。具体地,在将输入图像传递到神经网络之后,所提取的特征被馈送到(1)采样网络,该采样网络对用于构建调色板的代表性颜色进行采样;以及(2)组合来自调色板的颜色以纹理化采样点的选择网络。通过将颜色选择与学习的调色板相乘来获得颜色预测。我们的方法降低了计算复杂度为O(Nd(HW+NC)),其中NP是调色板的大小。通过适当地设置Np,可以显著降低计算成本,同时实现锐利且准确的颜色恢复。4.2. 基于图像的形状拟合基于图像的形状拟合在诸如姿态估计、形状对准、基于模型的重建等各种任务中具有根本影响。然而,在图像和3D参数之间没有直接相关性的情况下,常规方法必须依赖于粗略的对应关系,例如,2D关节[3]或特征点[36],以获得用于优化的监督信号。相比之下,SoftRas可以直接将像素级错误反向传播到3D属性,从而实现高质量形状拟合的密集图像到3D对应。然而,可微分渲染器必须解决两个挑战以便易于应用。(1)遮挡感知:3D模型的遮挡部分应该能够接收梯度,以便处理大的姿态变化。(2)远距离影响:像素处的损失应当对远距离网格顶点具有影响,这对于在优化期间处理局部最小值是关键的。虽然先前的可微渲染器[20,30]未能满足这两个标准,但我们的方法同时处理这些挑战。(1)我们的聚合函数融合了所有三角形的概率图,使梯度能够流动定义为L=1−||II||,其中和是S||I I I||元素式乘积和求和运算符。的到所有顶点,包括被遮挡的顶点。(2)我们的软基于概率分布的近似允许颜色选择网络特征提取器颜色采样网络softmax硬件×3输入图像高×宽×3softmax调色板Np×3颜色取样器Np× HW颜色预测Nc×3颜色选择Nc× Np117713输入地面实况SoftRas(3D无监督)NMR(3D无监督)Pixel2Mesh(有监督)图8:从单个图像进行3D网格重建。从左到右,我们显示了输入图像,地面实况,我们的方法(SoftRas),神经网格渲染器[20]和Pixel 2 mesh [45]的结果-所有这些都从2个不同的视图中可视化。随着结果,我们还可视化网格扫描距离测量重建网格地面真相。在接收场的大小可以被很好地控制的同时,将梯度传播到远端(图4)。为此,我们的方法可以通过最小化以下能量目标来忠实地解决基于图像的形状拟合问题argmin||R(M(ρ,θ,t))− It||第二条第六款ρ,θ,t其中R(·)是从网格M生成渲染图像I的渲染函数ρ. I与目标图像It之间的差异提供强监督以求解未知数{p,θ,t}。5. 实验5.1. 单视图网格重建5.1.1实验装置数据集和评估指标。我们使用[20]提供的数据集,其中包含13类对象输入重建结果学习调色板从ShapeNet [5]。每个物体被渲染在24个不同的视图中,图像分辨率为64× 64。为了公平比较,我们在相同的数据集上采用与[20,49]相同的训练/验证/测试分割。对于定量评估,我们采用标准的重建度量,三维相交在联盟(IoU),与基线方法进行比较。实施详情。我们使用与[20,49]相同的结构进行网格生成。我们的网络使用Adam [ 22 ]进行优化,α=1×10−4,β1= 0。9和图9:彩色网格重建的结果。的学习的主色及其使用直方图在右侧可见。β2=0。999 我们模型的训练在单个NVIDIA 1080TiGPU上每个类别需要12小时。具体来说,除非另有说明, 否则 我们 在所 有实 验中设置λ = 1和µ = 1 ×10−3。我们用多视图训练网络批量大小为64的图像,并使用PyTorch实现它7714类别飞机板凳梳妆台车椅子显示灯扬声器步枪沙发表电话容器是说检索[49]0.55640.48750.57130.65190.35120.39580.29050.46000.51330.53140.30970.66960.40780.4766体素[49]0.55560.49240.68230.71230.44940.53950.42230.58680.59870.62210.49380.75040.55070.5736NMR [20]0.61720.49980.71430.70950.49900.58310.41260.65360.63220.67350.48290.77770.56450.6015我们的(银)0.64190.50800.71160.76970.52700.61560.46280.66540.68110.68780.44870.78950.59530.6234我们的(满)0.66700.54290.73820.78760.54700.62980.45800.68070.67020.72200.53250.81270.61450.6464表1:平均IoU与其他3D无监督重建方法在13类ShapeNet数据集上的比较5.1.2定性结果单视图网格重建。我们将我们的方法的定性结果与图8中的最先进的监督[45]和3D无监督[20]网格重建方法的定性结果进行比较。虽然NMR [20]可以恢复粗糙形状,但网格表面是不连续的,并且存在大量的自相交。相比之下,我们的方法可以忠实地重建精细这是一个非常复杂的过程,可以在确保表面光滑的同时,对物体的细节进行处理,例如飞机尾部和步枪枪管。虽然在没有3D监督的情况下进行了训练,但我们的方法实现了与监督方法Pixel2Mesh [45]相当的结果在某些情况下,我们的方法可以生成比[45]更吸引人的细节,例如长凳腿、飞机发动机和汽车侧面。网格到扫描距离可视化也表明我们的结果比[20]实现了更高的准确度,并且与[45]的准确度相当。色彩重建我们的方法是能够忠实地恢复基于输入图像的网格颜色。图9呈现了来自单个图像的彩色重建和学习 的 调 色 板 。 虽 然 输 入 图 像 的 分 辨 率 很 低(64×64),但我们的方法仍然能够实现清晰的颜色恢复和准确的恢复细节,例如飞机机身上微妙的颜色过渡和手机屏幕上的阴影。5.1.3定量评价我们在表1中示出了3D IoU评分与最先进方法的比较。我们在两种设置下测试我们的方法:一个仅训练有轮廓损失(sil.)而另一个具有轮廓和阴影监督(全)。我们的方法在所有类别上都显着优于所有其他3D无监督方法。此外,我们最佳设置的平均评分超过最先进的NMR [20]超过4.5分。由于我们使用与[20]相同的网格生成器和相同的训练设置,这表明提出的SoftRas渲染器导致了卓越的性能。5.1.4消融研究损失术语和替代函数。在表2中,我们研究了拉普拉斯正则化子和各种形式的距离函数(第3.2节)和聚集函数的影响。由于RGB颜色通道和α通道(轮廓)具有不同的候选聚合函数,表2:正则化子和各种形式的距离和聚集函数的消融研究AN是实现为神经网络的聚合函数。AS和AO分别在等式2和4方法无调度w/调度随机猜测126.48°1126.48度NMR[20]93.40°80.94°Li等人[25日]九十五点零二度78.56度SoftRas82.80°63.57°表3:立方体旋转估计误差与NMR的比较,以平均相对角度误差测量。我们在表2中将它们的列表分开。首先,通过添加拉普拉 斯 约 束 , 我 们 的 性 能 提 高 了 0.4 个 点 ( 62.4 vs.62.0)。相比之下,NMR [20]报道了几何正则化剂对其定量结果的负面影响性能下降可能是由于ad-hoc梯度与正则化器不兼容的事实在网格生成上进行颜色监督是然而,我们表明,添加颜色损失可以显着提高性能(64.6 vs. 62.4),因为更多的信息被用于减少仅使用轮廓损失的模糊性。此外,我们还表明,欧氏满足-Ric通常优于重心距离,而基于神经网络的聚集函数AN的性能略好于非参数对应物AO,但计算量更大。5.2. 基于图像的形状拟合刚性姿势配件。 我们比较我们的方法与NMR的刚性姿态拟合的任务。特别地,给定彩色立方体和目标图像,立方体的姿态需要被优化,使得其渲染结果与目标图像匹配。尽管几何形状简单,但面部颜色的不连续性、旋转的非线性和大的遮挡使得其特别难以优化。如图10所示,NMR卡在局部最小值中,而我们的NMR卡在局部SoftRas设置L型搭接mIoU(%)距离函数骨料func.(α)骨料func.(颜色)重心AO-CcC60.8欧氏AO-62.0欧氏AO-62.4欧氏AN-63.27715(SoftRas)(f) 初始化(g) 全局最小(h) 局部最小(i) σ = 0。01γ = 0。1(j) σ= 0。03γ = 0。3在我们的方法中,我们设置了在5个步骤中衰减σ和γ的时间表。虽然调度改进了所有方法,但我们的方法仍然比最佳基线的精度高14.99°,表明我们一贯的优越性。非刚性形状拟合。在图11中,我们示出了Sof-tRas可以为非刚性形状拟合提供更强的监督,即使在存在部分遮挡的情况我们通过SMPL模型优化人体参数化[29]。由于右手(纹理为红色)在初始视图中完全被遮挡,因此将身体姿势拟合到目标图像非常具有挑战性。为了获得正确的参数,图10: 损失函数景观的可视化NMR和SoftRas用于给定目标图像的姿势优化(a) 和初始化(f)。SoftRas达到全局最小值(b) 损失景观(g)。核磁共振卡在局部最小值(c) 损失景观(h)。在该局部最小值处,Soft-Ras产生平滑且部分透明的渲染(d)(e),其使具有较大σ和γ的损失景观(i)(j)平滑,并且因此导致更好的最小值。这种分解应当能够(1)考虑被遮挡部分对再现图像的影响NMR [20]无法将手移动到正确的位置,因为其无法处理闭塞。相比之下,我们的方法可以忠实地完成任务,因为我们的新的概率公式和聚合机制可以考虑所有三角形,同时能够优化网格顶点的z6. 结论在本文中,我们提出了一个真正可区分的渲染框架(SoftRas),它能够直接从渲染器中获取图像。初始化目标目标图像优化图像(NMR)目标图像优化图像结果(NMR)结果(SoftRas)以完全可微的方式对给定的网格进行der软-RAS可以同时考虑外部和内部变量统一的渲染框架,并生成从像素流到网格顶点的有效梯度及其属性(颜色、法线等)。).我们通过将包括光栅化和z缓冲的离散操作重新制定为可微分概率过程来实现这个目标。这种新的公式使我们的渲染器流gra-成分看不见的顶点和优化的z坐标图11:在给定单个人体姿势的情况下图像目标方法成功地获得正确的姿势。关键是,我们的方法产生平滑和部分透明的渲染,这种平滑度可以由σ和γ控制,这允许我们避免局部最小值。此外,我们评估旋转估计精度的合成数据给定100随机抽样的初始化和目标。我们比较了w/和w/o调度方案的方法,并在表3中总结了平均相对角度误差。在没有优化调度的情况下,我们的方法比最佳基线高出10.60°,证明了我们的方法提供的梯度流的有效性以及处理大部分闭塞三角形的益处调度是用于解决非线性优化问题的常用技术。对于其他方法,我们使用5个级别的多分辨率图像进行求解;而对于1均匀采样的SO 3旋转角的期望值为π/2 + 2/π网格三角形,导致单视图网格重建和基于图像的形状拟合的任务的显着改进。然而,我们的方法,在目前的形式,不能处理阴影和拓扑结构的变化,这是值得研究的未来。确认本研究在南加州大学进行,部分由ONR YIP资助N00014 -17-S-FO 14、CONIX研究中心、由DARPA赞助的 半 导 体 研 究 中 心 ( SRC ) 项 目 、 Andrew 和 ErnaViterbi早期职业主席、美国国防部科学技术研究所(国防部)资助。美国陆军研究实验室(ARL),合同号W 911 NF- 14-D-0005,Adobe和Sony.这个项目不是由Pinscreen资助的,也不是由Pinscreen或Pinscreen的任何附属机构进行的。资料的内容并不一定反映政府的立场或政策,亦不应推断政府对此表示认可。(a)目标(b)我们结果(c)NMR结果(d)平滑(e)平滑渲染渲染7716引用[1] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。第26届计算机图形和交互技术年会集,第187-194页。ACM出版社/Addison-Wesley出版公司1999. 第1、3条[2] Volker Blanz和Thomas Vetter。基于三维形变模型拟合的 人 脸 识 别 IEEE Transactions on pattern analysis andmachine intelligence,25(9):1063-1074,2003. 3[3] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl:由单一影像自动估计三维人体位姿与形状。欧洲计算机视觉会议,第561-578页。施普林格,2016年。一、三、五[4] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。Openpose:使用部分亲和字段的实时多人2D姿势估计。arXiv预印本arXiv:1812.08008,2018。3[5] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。三、六[6] Timothy F Cootes,Gareth J Edwards,and Christopher JTay- lor.活动外观模型。IEEE模式分析机器智能汇刊,(6):681-685,2001。1[7] Valentin Deschaintre 、 Miika Aittala 、 Fredo Durand 、George Drettakis和Adrien Bousseau。使用渲染感知深度网 络 的 单 图 像 svbrdf 捕 获 。 ACM Transactions onGraphics(TOG),37(4):128,2018。2[8] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视 觉 。 IEEE Transactions on Pattern Analysis andMachine Intelligence,32(8):1362-1376,2010. 3[9] Kyle Genova、Forrester Cole、Aaron Maschinot、AaronSarna、Daniel Vlasic和William T Freeman。三维可变形模型回归的无监督训练。在IEEE计算机视觉和模式识别会议的论文集,第8377-8386页,2018年。2[10] Ioannis Gkioulekas,Anat Levin,and Todd Zickler. 非均匀逆散射计算成像技术的评价。在欧洲计算机视觉会议上,第685-701页。施普林格,2016年。2[11] Ioannis Gkioulekas,Shuang Zhao,Kavita Bala,ToddZickler,and Anat Levin.基于材料字典的逆向体绘制。ACM Transactions on Graphics(TOG),32(6):162,2013。2[12] 放大图片作者:David G. Kim,Bryan C.罗素和马修·奥布里。Atlasnet:Apapier-m?ch?approachtolearning3dsurf acegeneration. 计算机视觉与模式识别,2018年。3[13] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社,2003年。3[14] 保罗·亨德森和维托里奥·法拉利。学习生成和重建三维网格只有二维监督。英国机器视觉会议(BMVC),2018年。2[15] Zeng Huang,Tianye Li,Weikai Chen,Yajie Zhao,JunXing,Chloe LeGendre,Linjie Luo,Chongyang Ma,and Hao Li.从非常稀疏的多视图性能捕获的深度体积视频 。 在 欧 洲 计 算 机 视 觉 会 议 上 , 第 351-369 页 。Springer,2018. 3[16] Loc Huynh,Weikai Chen,Shunsuke Saito,Jun Xing,Koki Nagano,Andrew Jones,Paul Debevec,and HaoLi.使用深度神经网络的介观面部几何推断在IEEE计算机视觉和模式识别会议论文集,第8407-8416页3[17] Eldar Insafutdinov和Alexey Dosovitsky使用可微分点云进行形状和姿态的无监督学习。神经信息处理系统进展,第2802-2812页,2018年。2[18] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik。端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议论文集,第7122-7131页,2018年。3[19] Angjoo Kanazawa、Shubham Tulsiani、Alexei A Efros和Jitendra Malik。从图像集合学习特定类别的网格重建。arXiv预印本arXiv:1803.07549,2018。3[20] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在IEEE计算机视觉和模式识别会议论文集,第3907- 3916页一、二、四、五、六、七、八[21] AlexKendallMatthewGrimes 和 RobertoCipollaPosenet:用于实时6-dof相机重新定位的卷积网络。在IEEE计算机视觉国际会议论文集,第2938-2946页,2015年。3[22] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。6[23] Abhijit Kundu,Yin Li,and James M Rehg. 3d-rcnn:通过渲染和比较进行实例级3d对象重建。在IEEE计算机视觉和模式识别会议论文集,第3559-3568页,2018年。2[24] Hendrik Lensch , Jan Kautz , Michael Goesele ,Wolfgang Heidrich,and Hans-Peter Seidel.基于图像的空间 外 观 和 几 何 细 节 重 建 。 ACM Trans-actions onGraphics(TOG),22(2):234-257,2003. 1[25] 李子茂、艾塔拉、杜兰德神父、李嘉诚.通过边缘采样的可微蒙特卡罗射线追踪。ACM事务处理图表(Proc.SIGGRAPH Asia),37(6):222:1-222:11,2018.二、七[26] Fayao Liu,Chunhua Shen,Guosheng Lin,and Ian DReid.使用深度卷积神经场从单目图像学习深度。 IEEETrans. 模式分析马赫内特尔,38(10):2024-2039,2016. 3[27] 刘峰,曾丹,赵奇骏,刘晓明。联合人脸对齐与三维人脸 重 建 。 在 European Conference on Computer Vision中,第545施普林格,2016年。1[28] Guilin Liu,Duygu Ceylan,Ersin Yumer,Jimei Yang,and Jyh-Ming Lien.使用基于物理的渲染网络进行材质编辑。在计算机视觉(ICCV),2017年IEEE国际会议上,第2280IEEE,2017年
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功