快速可微的非直接视线重建方法

26 浏览量更新于2023-10-16 收藏 17.71MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

{mplack,callenbe,hullin}@cs.uni-bonn.de, moschn@uni-bonn.deI({ti})∂L∂I∂L∂titxtx30670用于非直接视线重建的快速可微瞬态渲染0马库斯∙普拉克克拉拉∙卡伦伯格莫妮卡∙施耐德马蒂亚斯∙B∙胡林波恩大学德国波恩0摘要0近年来，非直接视线成像问题的研究在医学和自动驾驶等领域引起了广泛关注。虽然瞬态图像形成已经得到了很好的理解，并且存在各种非直接视线场景的重建方法，这些方法将高效的前向渲染器与优化方案相结合，但是即使对于中等规模的场景，这些方法的运行时间也达到了几个小时。此外，逆问题的不适定性通常导致优化过程中的不稳定性。受到直接视线逆渲染的最新进展的启发，该方法在重建场景几何和外观方面取得了惊人的结果，我们提出了一种快速可微的瞬态渲染器，将逆渲染的运行时间加速到了消费级硬件上的几分钟，从而使逆瞬态成像可以应用于更广泛的任务和更具时间紧迫性的场景中。我们使用各种数据集展示了其有效性，并证明它可以用于自监督学习。01. 引言0将视野扩展到观察者视线之外是一个具有挑战性的问题，可能应用于自动驾驶、机器人视觉、安全和医疗场景等各种领域。研究人员通过将超快激光源对准观察者和隐藏目标场景都可见的墙壁来解决这个非直接视线成像问题[35]。使用能够解析激光光线在同一墙壁上的传播时间的传感器，记录瞬态图像，可以识别并进一步分析“角落周围”的物体。最近的许多使用瞬态图像进行NLoS重建的方法将隐藏场景表示为体积-0图1. 三角网格{ t i}使用物理上可行的前向模型渲染成瞬态图像。在计算损失后，将相对于像素值的梯度反向传播到三角形坐标及其可选属性上。我们展示了一种伪彩可视化方法，其中色调表示xy梯度的方向，饱和度表示其长度。0反问题的不适定性通常导致优化过程中的不稳定性。另一方面，已经提出使用分析合成方法将隐藏形状作为网格进行重建，即通过进行多次光传输的前向模拟来实现。这种方法通常速度较慢，需要几个小时来进行重建[33, 11]。0这项工作受到了使用特定任务可微分渲染器解决反问题的最新趋势的启发。所提出的可微分渲染器专门针对NLoS重建。它扩展了前向渲染的应用-1https://github.com/unlikelymaths/totrilib30680表1.相关NLoS重建方法的比较，包括场景表示（体积/表面）、使用基于物理的图像形成模型（包括�，部分包括(�)，不包括在模型中�），重建时间范围从毫秒（ms）到小时（h），以及其在新的测量几何和更高分辨率下的泛化和适应能力，范围从高（+）到中等（�），到低/非常低（- / --）的灵活性。0反投影 0（定向41]0遮挡物和法线 [0f - k 迁0瞬态渲0表面优化 [33]0我们的方法0场景表示 V V/S V/S V S S S S 反射率重建 � � � � � � � �0正向/反向一致性 � � ( � ) � � � � �0法线、遮挡 � ( � ) � � � � ( � ) �0重建时间 s s h s h h ms min0泛化能力/适应能力 + − + − + + −− +0分辨率 + + − + � − − +0Iseringhausen和Hullin[11]的方法是本方法的基础，但本方法增加了额外的自由度，如表面反射率，并将其与向后传递的高效实现相结合，以将梯度反传到场景表示的参数中（图1）。这使得可以实现多种非直射感知设置的逆问题求解器。通过这种方式获得的重建结果的一个关键特点是，它们与物理上可证明的图像形成模型是一致的，而这一特点在大多数最近的重建技术中仍然缺失。我们认为本工作的主要贡献如下：0•我们引入了一种快速可微的瞬态渲染器，用于非直射光传输。它通过在简化的全局优化方案中与场景几何一起优化的空间变化的反射率，扩展了现有的图像形成模型[11]。0•我们证明了渲染器在模拟和真实数据上重建以径向基函数和深度图表示的非直射场景的有效性。我们进一步展示了该框架对于非常高的输入分辨率和物体跟踪任务的泛化能力，这要归功于其适应不规则采样和使用随机优化算法的能力。0•我们提供了我们渲染器的完整PyTorch实现，以及其他非直射重建算法的实现和各种有用的工具。 10我们的框架在消费级GPU上运行，并已被证明可以接受各种输入配置。因此，它可以作为一个便携和灵活的开发和测试环境，用于未来的非直射重建方法。0并测试了未来非直射重建方法的环境。我们以基于我们的可微分渲染器的自监督网络训练为例，演示了这一点。02. 相关工作0瞬态/非直射成像。瞬态成像可以在空间和时间上捕捉场景的光响应。最早由Abramson于1978年提出，使用全息技术[1]，随着超快速光检测设备（如闪烁相机、单光子雪崩二极管（SPADs）和光混频器设备（PMDs））的发展和日益普及，瞬态成像已成为一种越来越重要的成像模式。关于瞬态成像进展的全面概述可在[14]中找到。在非直射成像中，场景的光响应不是直接观察到的，而是通过其在中继墙上的反射观察到的，而目标场景本身在相机的视野之外。在这种感知模式下，关键任务是重建从直接照明和观察都隐藏的对象的位置、形状和反射率。使用瞬态数据重建非直射场景已经在文献中进行了深入研究，使用了不同类型的测量硬件，并存在不同的方法[35, 39, 21, 3, 15, 9, 19, 26, 37,36]。我们通过表1中的不同方面和特征比较了最重要的代表性方法。基于反投影的方法[35,2]将隐藏场景表示为体素网格，并计算可能对测量的时空数据有贡献的位置的热图，然后进行滤波。此外，Shen等人[30]提出了优化神经瞬态场以任意分辨率重建隐藏体积的方法。不同的近似方法，如光锥变换（LCT）[27]，30690图2.同轴测量设置，其中被遮挡的场景表示为三角形网格（顶部），并使用梯形滤波器进行对应的时间响应抗锯齿处理（底部）。0在同轴设置中，提供了一个闭合解决方案，其中中继墙通过使用组合光源和探测器在规则网格上进行扫描。为了减少瞬态图像的采集时间，已经提出了圆形感知模式[12]。由于以散射密度体表示的场景默认不支持表面法线和遮挡效果，因此已经提出了具有方向核[41]和迭代调整线性权重[8]的扩展。通过将光传输建模为（虚拟）波场的传播，波动光学和地震层析成像等算法，如f-k迁移，已成功应用于解决规则网格输入数据的问题[22,20]。除了将隐藏场景视为基于体积的反射率体积之外，几个最近的非直射光算法还引入了表面表示，对于这些表示，更容易实现物理上合理的光传输模型。在早期尝试使用平面墙[28]之后，更近期的方法尝试通过包装随机[33]或确定性[11]渲染器的任务特定优化方案来优化三角形网格及其反射特性。本文提出的渲染器基于Iseringhausen和Hullin的模型[11]，通过引入解析导数和利用现代深度学习基础设施，实现了显著改进的重建时间。最后，大量合成数据的可用性使得可以训练前馈神经网络来解决面向表面[7]、体积[4,25]和隐式[6]场景表示的非直射光重建问题。0生成的大量数据使得可以训练前馈神经网络来解决面向表面[7]、体积[4, 25]和隐式[6]场景表示的非直射光重建问题。0可微分渲染。在直接视线反渲染的情况下，已经有许多研究探索了计算两点之间可见性梯度的方法，但由于可见性梯度要么为0要么为1，因此不可微分。这在将边缘正确移动到像素/表面可见半球时尤其成问题。Li等人[18]首次提出了一种通用方法，通过沿三角形边缘进行蒙特卡罗采样来计算梯度。最近，Zhang等人[42]提出了一种直接通过重新参数化来微分路径积分的方法。然而，与Tsai等人的工作[33]一致，我们不考虑可见性梯度，因为计算会增加复杂性。我们仍然证明了我们的方法即使在场景中发生遮挡的情况下也能正常工作。在瞬态成像的设置中，已经提出了各种方法来解决前向渲染问题[32, 13, 31,24]，并模拟传输图像的传感器以实现准确的模拟[10]。像[40,38]这样的通用可微分渲染器旨在促进分析合成重建方法。然而，它们的通用性以计算复杂性为代价，即使在云计算环境中，运行时间也很长。通过将图像形成模型限制为三次反射的非直射光设置，我们的渲染器在消费级GPU上运行速度快，内存消耗适中。03. 可微分瞬态渲染0我们方法的关键部分是将瞬态图像形成模型表述为可微分函数，并通过渲染器高效地反向传播梯度。我们在第3.1节讨论了前向模型和梯度计算。为了增加测量数据上优化问题的稳定性，我们在第3.2节中提出了添加背景网络的方法。03.1. 图像形成0我们的图像形成模型遵循Iseringhausen和Hullin[11]的模型。在这里，我们回顾了同轴捕获几何的模型，其中激光和探测器组合在单个光束中，然后概述了梯度的计算。更详细的梯度方程、特殊情况以及同轴和独立扫描几何的推导在补充文件中给出。�n1�s,b(6)∇tiL =�s�b∂L∂Is,b∇tiIs,b(7)∇tiL =�sv(s, ti)�∇tiα(s, t)�b∂L∂Is,bω(s, b, t)+α(s, t)�b∂L∂Is,b∇tiω(s, b, t)�.(8)30700前向模型。图2描述了我们的渲染器近似的测量设置，并可视化将记录的光线分布到时间分辨探测器的时间bin中。由于物体上的互反射对渲染的瞬变贡献很小，我们遵循常见的三次反弹假设，只考虑从激光源s0移动到墙上的点s，进入物体表面的三角形t = (v0, v1,v2)，再返回墙上的点s，并由与激光在s0处共位的时间分辨传感器记录。我们通过三角形的重心c(t)上的恒定辐射度来近似每个三角形的入射辐射度，其覆盖整个三角形的区域为0(1)其中f表示BRDF，η(x →y)表示两点x和y之间的几何耦合，A表示三角形的面积。使用n(t) = (v1 - v0) × (v2 -v0)作为三角形的非归一化法向量，ns作为s处墙面的表面法向量，并进一步假设具有反照率a(t)的Lambertian反射，α的完整表达式可以简化为0α(s, t) = a(t)�ns, c(t) - s�^2�n0∥n(t)∥∥c(t) - s∥. (2)0然而，Lambertian反射不限制我们的方法，可以使用任何可微分的BRDF模型。为了简化表示法，我们从α中删除了能见度项，因为它不可微分，但仍然执行三角形重心和墙之间的可见性检查ν(s,c(t))，如公式(6)所示。为了计算每个瞬时bin b对总辐照度的贡献，α(s, t)根据权重函数w(s, t,b)进行分布，如图2所示，根据光线路径的长度和飞行时间。假设矫正测量，每个顶点的相应bin由下式给出0θ(vi) = (2∥vi - s∥^2 - ϕ)/δ, (3)0其中ϕ表示偏移量，δ表示扫描设置的bin宽度。请注意，θ不是整数值，因此是可微分的。我们假设顶点按总距离的升序排序。中心的权重为0ωc(t) = 0θ(v2) - θ(v0). (4)0对于落在θ(v0)和θ(v1)之间的bin，我们将权重计算为左三角形下方的面积0ω(s, b, t) = � b +02 - θ(v0)�ωc(t)0θ(v1) - θ(v0). (5)0图3.我们背景网络的架构。扫描点和时间bin的位置使用余弦项进行编码（此示例中有两个余弦项），然后是在第一维上操作的线性神经网络和缩放。突出显示具有可学习参数的层。0θ(v1)和θ(v2)之间的权重方程类似地遵循。一组n个三角形的完整渲染函数可以写成0I({t0, . . . , tn - 1}) =0i = 0 ν(s, c(ti))α(s, ti)ω(s, b, ti)0反向传播。为了避免需要数值导数[11]，我们通过反向传播计算损失函数L(I)的梯度。在反向传播过程中，我们评估0对于每个三角形ti，我们可以重新表述为0可以使用对数导数计算α的梯度，如补充文档所示。为了高效地计算梯度，我们将所有计算实现为NVIDIAOptix程序。这使我们能够在可见性测试之后直接进行辐射/梯度计算。请注意，无需计算Eq.(8)中的完整求和，只需计算首先评估的区间θ(v0)和θ(v2)之间的子集。03.2. 背景模型和重建损失0尽管该模型在物理上是有动机的，但可能存在与实际测量不一致的情况。这可能是由于近似或者真实BRDF与模型不同的情况。更明显的是，可能存在背景照明，例如来自场景之外的其他表面。这些效应会导致不正确的梯度并降低重建质量。P(IB) ≤ λIP(IR),P(I) = 1SS−1�i=0∥Ii,:∥2(9)L(ρ, ϕ) = minγ ∥γ(IR(ρ) + IB(ϕ)) − Iin∥2,(10)fi(x),fi(x) = e− ∥x30710为了解决这些效应的影响，我们建议在上述可微分渲染的优化中添加一个背景预测网络（图3）。该网络将每个扫描位置（x，y）与时间位置ti一起使用余弦函数进行位置和时间编码，类似于Vaswani等人[34]最初提出的方法。这些编码通过一个简单的神经网络传递，以产生瞬态响应。为了提高性能，时间分辨率降低了8倍，并且网络生成的瞬态图像线性上采样到最终分辨率。我们还添加了一个条件，以防止瞬态背景捕捉到太多的真实图像，如下所示。网络的输出IB ∈(0，1)S×B使用网络参数的一部分进行缩放，使用强度值iB。定义瞬态光谱的平均功率P(I)，我们添加以下条件0我们通过在每次优化步骤后适当地夹紧iB来强制执行这一约束条件，其中IR是当前迭代的渲染瞬态图像。参数λI可用于控制瞬态背景中的总光量。对于我们的大多数实验，我们将其设置为1，效果良好。使用这样的网络的好处是它不依赖于扫描和激光点的排列，并且可以表示尖锐跳变和平滑梯度，具体取决于输入和效果，这些效果可以轻松地被我们的正向模型捕捉到。我们将重建损失定义为0其中 ρ 是场景参数化，ϕ 是背景网络的参数，γ是输入和重建之间的未知缩放因子。在第4.2节中，为了优化深度图，我们在适当初始化后将γ添加到参数集中。不幸的是，我们发现这种方法在径向基函数优化中存在问题，因为添加和删除斑点会导致瞬态图像发生显著变化。相反，我们用Eq.(10)的最小化器替换γ。对于其他更准确地表示瞬态图像噪声模型的损失函数的扩展是可能的，但与[33]类似，我们发现L2损失在大范围的数据集上效果良好。04. 应用0为了展示我们实现的有效性，我们展示了它在三种不同参数化上的应用。0图4. 与Iseringhausen和Hullin[11]基准方法的运行时比较。这两种方法在这个合成的2x2m场景的优化结束时都产生了平均绝对深度误差为2.91cm（我们的方法）和2.98cm（基准方法）的准确网格。0用于重建（第4.1节和第4.2节）和跟踪（第4.3节）隐藏对象的几何形状。此外，我们还展示了我们的方法如何在第4.4节中用于自监督训练。我们使用来自[5]和我们自己的渲染器的模拟数据以及来自[35]、[20]和[27]的测量结果来评估我们的方法。04.1. 径向基函数逼近0由于三角网格的直接优化很困难，例如由于自相交，我们遵循[11]的方法，优化一组径向基函数，以逼近体内的密度。我们使用可微分的Marching Cubes[23]实现提取等值面来生成网格。对于一组具有参数p i和σi的高斯基函数f i，位置x ∈ R 3处的密度如下所示：0d ( x ) = �02 σi . (11)0此外，我们允许基函数携带属性，例如反照率值。这样可以通过计算属性值的加权平均值得到另一个体积。在我们的MarchingCubes算法的实现中，这些值与顶点位置一起进行插值。请注意，在这种情况下，渲染的导数以及MarchingCubes步骤的计算复杂度不取决于径向基的数量。0.2−0.3−0.2−0.10.00.10.20.3m−0.15−0.10−0.050.000.050.100.15error [m]In this example application, we optimize the vertex po-sitions similarly to [33]. To remove the need for additionalmesh operations we restrict the optimization of the positionto the depth values of a grid, i.e. only the z-coordinate isoptimized. As such an object would lead to a large amountof unwanted background we also optimize the albedo of thevertices.To improve stability of this approach we opt to add atotal variation regularization [29] to our loss. We regularizeboth the color attribute as well as the depth. As the colorvalues c ∈ [0, 1]H×W are naturally bounded to the [0, 1]interval, we choose to limit the depth map d ∈ [0, 1]H×W30720(a) FBP [35]0(b) f −k迁移[20]0(c) Fermat [39]0(d) D-LCT [41]0(e)Tsai等人[33]0(f)Rbf（正弦图）0(g) Rbf0(h) 深度图0图5. 使用各种方法（a-e）重建模拟兔子[5]的结果与我们的结果（f-h）进行比较。第一行显示了重建的网格，第二行绘制了各个重建与真实值之间的深度误差。0函数。因此，[11]的迭代算法可以适应在所有步骤中优化所有基函数参数的需要，因为减少计算导数的需求较少。此外，我们还添加了另一种新斑点的采样，重点是修改网格的表面。通过将当前损失反向传播到顶点，我们以与顶点梯度长度成比例的概率在顶点位置添加新的斑点。我们通过在初始迭代中选择粗略分辨率并在一定间隔内加倍分辨率来减少优化的运行时间。更多细节请参见补充文档。0我们在图4中展示了我们的方法相对于Iserinhausen和Hullin[11]基准方法的运行时改进。两种方法在相同的硬件设置上重建了相同的合成渲染网格。我们的方法在几分钟内产生令人信服的结果，而基准方法需要一整天才能产生可识别的解决方案。0为了进一步评估我们模型的正确性，我们使用来自[5]的模拟兔子数据，并将我们的结果在质量上（图5）和数量上（表2）与其他各种重建方法进行比较。我们使用MarchingCubes[23]将体积重建转换为网格，并寻找最大化交并比（IoU）的阈值。虽然我们这些方法的GPU实现运行速度更快，但我们发现在使用较低分辨率输入时，结果的质量迅速下降。同时，为了与Tsai等人[33]的方法进行公平比较，我们需要使用64×64的扫描分辨率，该方法也使用可微分渲染，但比我们的方法慢得多。0虽然我们基于径向基函数的重建过于高估了兔子的形状，但它成功地重建了一只耳朵和整体形状，这通过IoU值得到了确认，该值仅被我们基于深度图的重建所超越，该重建将在下一节中展示。我们还包括了使用瞬态正弦图的重建结果，该方法由[12]提出，其中整体形状更大，但仍然产生令人信服的结果，并且与基于体积的方法相比，误差相当，即使只使用了8.7％的瞬态光谱。我们在Spot模型上测试了具有空间变化反射率的对象的重建，并在图6中显示结果。尽管反射率信息与径向基函数相关联，而不是作为高分辨率纹理提供，但颜色的简单变化被忠实地重建，如牛模型的黑斑点和蹄子等特征。我们还使用Velten等人的人体模型测量数据[35]展示了我们方法在真实数据上的应用，并在图6中展示了重建结果，同时使用相同设置的渲染人体模型进行了重建。重建的整体形状与参考中的人体模型相匹配，尽管与合成重建相比，细节不足。由于数据是使用非共焦设置获取的，只有少数方法可以重建这样的测量。图6还突出了我们背景网络处理任意扫描设置的能力以及其对重建的重要性。0在这个示例应用中，我们类似于[33]优化了顶点位置。为了消除对额外网格操作的需求，我们将位置的优化限制在网格的深度值上，即只优化z坐标。由于这样的对象会导致大量不需要的背景，我们还优化了顶点的反射率。为了改善这种方法的稳定性，我们选择在损失函数中添加总变差正则化[29]。我们同时对颜色属性和深度进行正则化。由于颜色值c∈[0,1]H×W自然上限为[0,1]区间，我们选择限制深度图d∈[0,1]H×W的范围。04.2.深度图优化30730（a）照片0（b）重建0（c）无背景0（d）重建0（e）Spot模型0（f）重建0图6.测量重建[35]（a-c）和合成模特数据集[11]（d）的重建，以及使用具有空间变化反射率的径向基函数表示的“Spot”模型的重建（e，f）。0表2.使用各种其他方法对兔子[5]的模拟测量进行定量比较，显示运行时间（分钟：秒），交并比（IoU，越高越好），以及平均绝对误差（MAE，越低越好）和均方根误差（RMSE，越低越好）以厘米为单位。对于每个指标，最佳值用红色突出显示，最佳后续值用蓝色突出显示。0方法运行时间 IoU MAE RMSE0FBP [35] < 0:01 0.738 4.86 5.03 f – k [20] < 0:010.659 3.81 4.86 Fermat [39] 0:12 0.730 1.05 1.58D-LCT [41] 0:05 0.728 0.59 0.950Tsai等人[33] 102:06 0.730 0.28 1.030Rbf 4:51 0.760 0.41 1.33 Rbf (Sinogram) 1:34 0.4901.13 2.10 Depth Map 2:25 0.803 0.26 0.760将重建体积缩放和平移到相同的区间，然后进行渲染。因此，我们的损失函数可以写成0L(c, d) = ∥I - R(c, d)∥2 + λdTV(d) + λcTV(c), (12)0其中TV是各向同性总变差，ϵ=0.001用于平滑的正则化权重λd和λc。我们从粗分辨率深度图开始初始化，并在优化过程中将分辨率加倍。我们还在图5中使用合成的兔子模型对该表示进行评估。重建结果捕捉到了表面结构的细节比其他所有表示都更好，导致在表2中列出的最佳指标。虽然D-LCT[41]运行速度更快，但与可微分渲染方法相比，缺少一些细节。0(a) 物体（照片）0(b) 我们的 32 × 320(c) 我们的 512 × 5120(f) D-LCT [41] 图7.“Statue”数据集的重建结果，显示了照片（a）[20]。（d）-（f），最近文献中的三个重建结果（改编自[41]）。（b）和（c）显示了使用深度图表示从我们的框架获得的不同输入分辨率的重建结果。0(d) 我们的平坦场景图8. “DiffuseS”数据集的重建结果[27]。从左到右：物体的照片[27]（a）；Tsai等人的重建结果[33]（b）；使用我们的方法作为深度图的重建结果，具有不同的反照率：（c）原始数据集；（d）平坦场景校正后的数据集。0同时，我们的方法在运行时间上比Tsai等人的方法[33]有显著的改进。我们在图7中展示了该方法在“Statue”数据集[20]上的应用，以及在图8中展示了在“DiffuseS”数据集[27]上的应用。在“Statue”数据集的重建质量与D-LCT的重建结果[41]相当。即使将分辨率降低到32×32，重建质量仍然保持一致，重建时间仅为39秒。对于更高的分辨率，我们切换到批量大小为4096的随机梯度下降优化。因此，重建时间不会超过64×64的分辨率，并且保持在三分钟以下。在“DiffuseS”数据集的重建中，我们的背景网络出现了失败的情况，无法处理数据集中存在的大量空间变化的背景。我们通过应用半自动平坦场校正来清理数据，该方法从数据集的无信号部分（第一个瞬时开始之前）估计出静态背景成分。得到的重建结果与Tsai等人的结果[33]类似，但运行时间不到三分钟。−0.50.00.51.01.52.0position / mFront Armadillxyzgroun024681012051015202530Frame−0.50.00.51.01.52.0quaternionq1q4groun0.00.20.40.60.81.01.230740第0帧0第13帧0第15帧0第18帧0第310o0真实距离0背景犰狳0欧几里得距离/毫米0误差0前后0真实距离00 5 10 15 20 25 30 帧0角度差异/度0图9.两个犰狳与墙之间的距离分别为1米和1.5米，并按照第一列中的关键帧进行线性运动和旋转。输入的瞬时图像的峰值信噪比为28.4。右侧的图表显示了位置和旋转误差，单位分别为毫米和度。04.3. 跟踪0该应用程序以一个或多个隐藏对象的网格和这些对象在未知位置的瞬时图像作为输入。其目标是推断隐藏对象的空间位置和方向。为此，我们优化每个对象的位置向量和方向四元数，以匹配给定的瞬时图像。我们在图9中展示了对两个犰狳网格进行跟踪的结果。第一帧被初始化为正确的位置和旋转，并且我们迭代地优化每个帧中两个对象的变换，使用前一帧的结果作为初始化。两个对象的位置和旋转都能够匹配，误差可以忽略不计。由于光线强度减小，背景中的犰狳的准确性稍低，并且在视频的中间部分，大部分对象被前景中的犰狳遮挡，准确性会下降。然而，即使我们的方法只是近似计算三角形的完全可见性，并且不计算可见性项的梯度，估计的质量仍然是合理的。单个具有更多平移和旋转的变换的优化在补充文档中展示。04.4. 概念验证：自监督学习0最后，我们通过使用可微渲染器来训练重建网络，展示了其灵活性。0图10.使用从体积斑点生成的合成数据在自监督学习模式下训练的网络的真实模型（顶部）及其重建结果（底部）。0我们以纯自监督的方式进行工作。我们从类似于第4.1节的随机高斯斑点集合生成合成数据。卷积网络以瞬态图像作为输入，并输出一个密度体积，该密度体积经过立方体的边界提取算法转换为网格。我们将这个网格通过可微渲染器，并计算生成的瞬态图像与网络输入之间的L2损失，可以通过所有步骤进行反向传播以更新网络参数。我们使用批量大小为32的Adam[16]对网络进行500000次迭代训练。体积和扫描点的分辨率设置为16。此外，我们对体积输出的梯度进行了小的L2正则化，以获得平滑性。结果如图10所示。05. 结论0我们已经证明，对可微瞬态渲染的梯度的高效计算大大提高了重建速度，相比其他基于渲染的非直线视线重建方法。我们的实现足够通用，可以处理许多情况，并且得到了比其他方法更好的定量重建结果。结合背景网络，我们能够展示在大范围的模拟和真实测量上的结果。由于该实现已经集成到PyTorch环境中，因此具有很大的灵活性，并且我们已经展示了它在自监督学习应用中的使用。此外，它可以作为未来端到端训练方法或利用最新神经场景表示的方法的构建模块。我们方法的一个主要限制是其限制为三次反射、基于脉冲的设置，这是为了实现非直线视线问题的最高性能而必需的。作为未来的工作，我们可以考虑通过实现相对于扫描位置的梯度来扩展软件，以允许类似于[17]的校准，但使用更复杂的目标。0致谢。本工作得到了欧洲研究理事会在ERC起始资助项目“ECHO”（802192）的支持。[2] Victor Arellano, Diego Gutierrez, and Adrian Jarabo. Fastback-projection for non-line of sight reconstruction. Opticsexpress, 25(10):11574–11583, 2017.[4] Wenzheng Chen, Fangyin Wei, Kiriakos N Kutulakos, Szy-mon Rusinkiewicz, and Felix Heide. Learned feature embed-dings for non-line-of-sight imaging and recognition. ACMTransactions on Graphics (TOG), 39(6):1–18, 2020.[6] Javier Grau, Markus Plack, Patrick Haehn, Michael Wein-mann, and Matthias Hullin. Occlusion fields: An implicitrepresentation for non-line-of-sight surface reconstruction.arXiv preprint arXiv:2203.08657, 2022.30750参考文献0[1] Nils Abramson.全息术中的光飞行记录。光学快报，3(4):121–123，1978年。0[3] Mauro Buttafava, Jessica Zeman, Alberto Tosi, Kevin Eli-ceiri, and Andreas Velten.使用时控单光子雪崩二极管的非直线视线成像。光学快报，23(16):20997–21011，2015年。0[5] Miguel Galindo, Julio Marco, Matthew O’Toole, GordonWetzstein, Diego Gutierrez, and Adrian Jarabo.用于基准测试时间分辨非直线视线成像的数据集，2019年。0[7] Javier Grau Chopite, Matthias B Hullin, Michael Wand,and Julian Iseringhausen.深度非直线视线重建。在IEEE/CVF计算机视觉与模式识别会议论文集中，页码960–969，2020年。0[8] Felix Heide，Matthew O'Toole，Kai Zang，David BLindell，Steven Diamond和GordonWetzstein。使用部分遮挡物和表面法线的非直视成像。ACMTransactions on Graphics (ToG)，38(3)：1-10，2019年。0[9] Felix Heide，Lei Xiao，Wolfgang Heidrich和Matthias BHullin。漫反射镜：使用廉价的飞行时间传感器从漫反射间接照明中进行3D重建。在IEEE计算机视觉和模式识别会议上的论文集中，第3222-3229页，2014年。0[10] Quercus Hernandez，Diego Gutierrez和AdrianJarabo。用于瞬态成像的单光子雪崩二极管传感器的计算模型。arXiv预印本arXiv:1703.02635，2017年。0[11] Julian Iseringhausen和Matthias BHullin。使用高效的瞬态渲染进行非直视重建。ACM Transactionson Graphics (TOG)，39(1)：1-14，2020年。0[12] Mariko Isogawa，Dorian Chan，Ye Yuan，KrisKitani和MatthewO'Toole。通过瞬态正弦图像实现高效的非直视成像。在欧洲计算机视觉会议上，第193-208页。Springer，2020年。0[13] Adrian Jarabo，Julio Marco，Adolfo Munoz，RaulBuisan，Wojciech Jarosz和DiegoGutierrez。瞬态渲染框架。ACM Transactions on Graphics(ToG)，33(6)：1-10，2014年。0[14] A. Jarabo，B. Masia，J. Marco和D.Gutierrez。瞬态成像的最新进展：计算机图形学和视觉视角。ArXiv e-prints，2016年11月。0[15] Achuta Kadambi，Hang Zhao，Boxin Shi和RameshRaskar。使用飞行时间传感器的遮挡成像。ACM Transactions onGraphics (ToG)，35(2)：1-12，2016年。0[16] Diederik P Kingma和JimmyBa。Adam：一种随机优化方法。arXiv预印本arXiv:1412.6980，2014年。0[17] Jonathan Klein，Martin Laurenzis，Matthias BHullin和JulianIseringhausen。非直视成像设置的校准方案。光学快报，28(19)：28324-28342，2020年。0[18] Tzu-Mao Li，Miika Aittala，Fr´edo Durand和JaakkoLehti- nen。通过边缘采样的可微分蒙特卡洛光线追踪。ACMTrans. Graph. (Proc. SIGGRAPHAsia)，37(6)：222:1-222:11，2018年。0[19] David B Lindell，Gordon Wetzstein和VladlenKoltun。声学非直视成像。在IEEE/CVF计算机视觉和模式识别会议上的论文集中，第6780-6789页，2019年。0[20] David B Lindell，Gordon Wetzstein和MatthewO'Toole。使用快速fk迁移的基于波的非直视成像。ACMTransactions on Graphics (TOG)，38(4)：1-13，2019年。0[21] Xiaochun Liu，Sebastian Bauer和AndreasVelten。非直视测量中特征可见性的分析。在IEEE/CVF计算机视觉和模式识别会议上的论文集中，第10140-10148页，2019年。0[22] Xiaochun Liu, Ib´on Guill´en, Marco La Manna, Ji HyunNam, Syed Azer Reza, Toan Huu Le, Adrian Jarabo, DiegoGutierrez和AndreasVelten。使用相位场虚拟波光学的非直视成像。自然，572(7771)：620-623，2019年8月。0[23] William E Lorensen和Harvey E Cline。Marchingcubes：一种高分辨率的3D表面构建算法。ACMsiggraph计算机图形学，21(4)：163-169，1987年。0[24] Julio Marco, Wojciech Jarosz, Diego Gutierrez和AdrianJarabo。瞬态光子束。在ACM SIGGRAPH2017海报中，第1-2页，2017年。0[25] Fangzhou Mu，Sicheng Mo，Jiayong Peng，XiaochunLiu，Ji Hyun Nam，Siddeshwar Raghavan，AndreasVelten和YinLi。物理救援：用于高速成像的深度非直视重建。arXiv预印本arXiv:2205.01679，2022年。0[26] Ji Hyun Nam, Eric Brandt, Sebastian Bauer, Xiaochun Liu,Marco Renna, Alberto Tosi, Eftychios Sifakis, and AndreasVelten.每秒5帧的低延迟飞行时间非直视成像。自然通讯，12(1)：1-10，2021年。0[27] Matthew O’Toole, David B Lindell, and GordonWetzstein. 基于光锥变换的共焦非直接视线成像. Nature ,555(7696):338–341, 201

下载后可阅读完整内容，剩余1页未读，立即下载