光学随机梯度下降优化方法用于自动调谐结构光成像系统

40 浏览量更新于2023-10-24 收藏 6.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5970基于光学随机梯度下降的陈文正1，2岁ParsaMirdehghan1岁Sanja Fidler1，2，3 Kiriakos N.Kutulakos1多伦多大学1Vector Institute2 NVIDIA3加拿大多伦多{wenzheng，parsa，fidler，kyros}@ cs.toronto.edu摘要我们考虑的主动成像系统的性能优化的问题，通过自动发现它应该使用的照明，以及解码它们的方式。我们的方法解决了两个看似不相容的目标：（1）其关键思想是制定一个随机梯度下降（SGD）优化过程，将实际系统置于循环中：投影图案、捕获图像、以及计算预期重建误差的梯度。我们将这个想法应用到结构光三角测量中，以“自动调谐”几种设备，从智能手机和激光投影仪到先进的计算相机。我们的实验表明，尽管是无模型和自动的，光学SGD可以大大提高系统的3D精度超过最先进的编码方案。1. 介绍在过去的二十年里，快速准确的结构光成像在你的办公桌上或在你的手掌上已经越来越接近现实[1如今的智能手机和家庭影院投影机的高像素数理论上已经允许100微米或更小的3D精度。类似的进步也出现在飞行时间（ToF）成像领域，廉价的连续波ToF传感器、可编程激光器和空间调制器变得越来越可用[5- 13 ]。不幸的是，尽管所有这些设备的广泛可用性，实现给定硬件系统的最佳性能仍然是一个悬而未决的问题，其理论基础最近才引起注意[14为了应对这一挑战，我们引入了光学SGD，这是一种计算成像技术，可以动态学习（1）给定系统的多拍摄深度采集的优化照明序列，以及（2）深度图估计的优化重建函数。光学SGD通过实时控制它正在优化的系统并使用它捕获图像来实现这一目标。优化的唯一输入是拍摄的数量和惩罚像素处的深度误差的函数。*作者平均贡献像素数n[第十五条]o错误a百分之九vg错误6.6[16个]百分之二十九196.2我们百分之六十五3.7图1：顶部：智能手机的最佳结构光。我们我在奥图码4K投影仪和华为P9手机前放置了一个随机颜色的板，让他们自动调整为五个颜色条纹模式和1-容差惩罚（表1），并使用结果模式（中间）来重建场景（插图）。中：4种模式和各种惩罚的自动调整系统。注意模式特别是对于采用扫描激光投影仪的Episcan3D下图：针对两种不同的罚分自动调整同一系统会产生明显不同的模式，视差图的视差误差分布也非常不同（请放大）。在这两种情况下，我们都获得了超过现有技术的显着收益[15，16]。为了准备用于光学SGD的系统，我们针对所需的成像条件调整其设置（例如，曝光时间、光源亮度等）并在其视野内放置一个随机纹理的该过程自动运行后，最大限度地减少了严格推导的估计预期重建误差的系统在手。 Optical SGD requires no radiometric or ge-ometric calibration; no manual initialization; no prior train-ing data; and most importantly, no precise image formationmodel for the system or the scenes ofinterest.深度图3D网格1厘米[21]第二十一话LG投影机IDS摄像头TI LightCrafterC2B相机[22]0-公差0-公差1-公差白色图案下的场景LG-IDS自动调整为0公差LG-IDS自动调整为L1平均光谱图案平均光谱图案平均光谱图案5971我们的方法背后的关键思想是在这种优化中推动最困难的计算-即，计算依赖于系统精确模型的导数-直观地说，光学SGD将成像系统视为一个完美的使用这个想法作为出发点，我们开发了一个优化过程，部分运行在数值和部分在光学域。它开始于一组随机的K illuminations;用它们照亮训练板;捕获真实图像以估计预期重建误差的梯度;并通过随机梯度下降更新其照明[23，24]。将此程序应用于给定的系统需要（1）一种重复获取训练板的更高精度（但仍然有噪声）深度图的方法，以及（2）允许对其照明进行小调整的可编程光源。在概念层面上，光学SGD与最近的三条工作线有关。首先，计算成像系统的端到端优化正变得越来越流行[25这些方法训练深度神经网络，需要精确的系统模型或大量的训练数据，而我们的方法两者都不需要。其次，用“简单”的光学计算取代“困难”的数值计算的原理它最近已经恢复用于计算，如光学相关[34]，高光谱成像[35]和光传输分析[36]，但我们不知道任何尝试在光学领域实施SGD，因为我们这样做。第三，光学SGD也可以被认为是训练一个小的、浅的神经网络，具有特定于问题的损失;噪声标签[37-39 ]和噪声梯度[ 40 ];以及部分在光学域中实现的我们相信，我们的工作代表了将照明编码（具有丰富历史的难题[18，19，43-除了这一基本贡献之外，我们还为结构光三角测量系统的优化引入了两个重要的新元素：即插即用惩罚函数和邻域解码。前者是从以前的工作出发，到目前为止，将最佳照明的定义与找到它们的方法相结合（例如，使用L1[15，17]和L2-tolerance [16]刑罚）。至关重要的是，我们表明，只要切换惩罚函数-与其他一切固定-自动亲，引入了具有完全不同空间结构的结构光图案，并且对于所选惩罚具有更好的性能（图1，底部）。在经验方面，我们对最近提出的ZNCC解码器[16]进行了一般化，以考虑每个像素（3×1或5×1）处的微小邻域这个看似简单的扩展比斗-在我们的测试中，每个像素的视差精度为10%，突出显示场景S场景S投影仪相机投影仪相机1. 照明捕获2. 调整捕获3. 区分控制向量c+h a图像img（c，S）图像img（c+ha，S）控制向量CDaimg（c，S）<$[img（c+ha，S）−img（c，S）]/h图2：可微分成像系统允许我们通过在光学域中对它们进行微分来“探测”它们的行为，即，通过反复调整它们的控制向量、拍摄图像和计算图像差异。如上所示，投影仪-相机系统是可微分系统的一个示例，其中投影图案扮演控制向量的角色 Many other combinations of programmable sources andsensors have this property (Table 1).我们首先在更一般的3D成像系统的背景下开发我们的方法，并在第4节中特别关注结构光三角测量。2. 微分成像系统今天可用的许多设备允许我们以极细粒度（几乎连续）的方式控制图像形成：现成的投影仪可以在单个投影仪像素的单个灰度级的分辨率下调整场景的照明;空间光调制器可以对相位[58]或偏振[59]进行同样的调整;可编程激光驱动器可以在亚像素处平滑地控制激光的时间波形。微秒尺度[8];具有编码曝光[22，60，61]或相关性[9，17，62]能力的传感器可以在像素和微秒尺度上调整其时空响应。我们的重点是可编程成像系统的优化，依赖于这种设备的照明和传感的细粒度控制。特别是，我们限制我们的注意力系统，近似的理想化概念的可微成像系统。直观、可区分的成像系统具有这样的特性，即对其设置的微小调整将导致其输出的图像发生微小、可预测的变化（图2）：定义1（可微分成像系统）如果以下两个条件成立，则成像系统是可微分的：• 其源、传感器和/或光学器件在曝光时间期间的行为由单个N维向量（称为控制向量）控制，该向量取连续值;• 对于静止场景S，图像相对于系统控制矢量的方向导数解码器在每像素深度估计中所起的迄今为止未被注意的作用Daimg（c，S）d=eflimimg（c +ha，S）−img（c，S）h→0h、（1）5972生成场景S1，. - 是的-是的、ST位于系统a场景S的前面对于所有k，光学计算J（ck，S）&用它来评估误差（d，g）K数字SGD：光学SGD：输入：场景发生器，噪声发生器，输入：<无>img（c，S），J（c，S）的求值器输出：最优θ，c1，. - 是的- 是的输出：最优θ，c1，. - 是的-是的K，c初始化为随机θ，c1，. - 是的- 是的，cK 用随机θ，c1，. -是的- 是的K，c而不收敛而不收敛对于小批量中的每个场景S，对于每个控制向量ckd0，对于每个控制向量ckd0，根据i1，. - 是的- 是的，iK评估err（d，g）evalu at evθerr（d，g）根据i1，. . .，iK在小批量上评估err（d，g）在小批量上评估err（d，g）使用等式2评估总梯度（5）使用等式（1）评估总梯度。（5）update θ<$θ+<$θ，ck<$ck+<$ckupdateθ<$θ+<$θ，ck<$ck+<$ck对θ，c1，. - 是的- 是的，cK 将约束应用于θ，c1，. - 是的- 是的K，c返回θ，c 1，. - 是的- 是的，cK返回θ，c1，. - 是的-是的K，c通过评估img（ck，S）加噪合成图像ik将控制向量ck提供给系统捕获图像并将其存储在ikk错误（d，g）对于所有的k，求出光源摄像头传感器解码器[16]第十六届中国国际汽车工业展览会<$激光投影仪[21]<$RGB滤波器<$max-ZNCCp（第4节）LCoS投影仪[64]<$编码曝光[60]<$max-ZNCCp-NN（第4节）投影仪阵列[65]相关ToF [17]深度神经网络[66]MHz激光器[8] ToF传感器阵列[5] MHz激光器+ DMD [6] [68]第68话：[16]18][19][19][20][21][22]3. 光学SGD框架假设我们有一个完美的图像形成过程的正向模型，即，对于（1）系统的光源、光学器件和传感器，（2）要成像的场景，以及（3）它们之间的光传输，我们有一个完美的模型在这种情况下，随机梯度下降（SGD）[23，24，70]等优化技术的广泛成功提出了一种最小化系统优化−10000x0x0x0x目标数值：用一个估算值来近似表1：与我们的框架兼容的设备和惩罚函数。†表示我们通过实验验证的选择对于任何控制向量c和单位长度调整a都是很好定义的，其中img（c，S）是无噪声图像。正如我们将在第3节中看到的，可微分成像系统-结构错误的一大套公平绘制，合成训练场景，并为现实的噪音;找到一种方法来有效地评估其梯度相对于未知数θ，c1，. - 是的- 是的，cK;并且应用SGD以（局部地）最小化它。通过数值SGD进行（3）求一个和，我们得到：这些项开启了光学SGD的可能性--通过光域微分实时迭代地调整它们的行为--以优化给定任务的性能E场景，噪音ΣΣMm=1Σρ（d[m]− g[m]）1ΣT不t=1err（dt，gt）我们在本文中考虑的具体任务是深度成像。更正式地说，我们寻求以下一般优化问题的解决方案：定义2（深度成像的系统优化• 可微分成像系统，其响应于控制向量ck输出噪声强度图像ik;• -可微分解码器，其从利用控制向量c1，.. - 是的- 是的，cK：D=rec（i1，c1，. . .其中θ是附加可调参数的向量;以及• -逐像素惩罚函数ρ（），其惩罚所估计的深度图d与地面实况深度图g之间的差异，计算使预期重建误差最小化的设置其中。表示向量的L1范数，并且dt、gt分别是第t个训练样本的重构形状和真实形状。每个训练样本由场景St和图像i1，. - 是的- 是的，iK为这一幕而拍的。图3（左）概述了所得到的数值SGD程序的步骤。图像雅可比矩阵的光学计算如果我们没有足够的关于成像系统及其噪声特性的信息来精确地再现它们，或者如果前向成像模型太复杂或太昂贵，c=1，. -是的-是的cK，θ=argminc1，…cK，θE场景，噪音ΣΣMm=1Σρ（d[m]−g[m]）（三）其中指数m的范围在图像像素上，并且期望值在噪声和似然场景的空间上。光源、传感器、解码器和惩罚函数的不同组合导致系统优化问题的不同实例（表1）。相关飞行时间例如，ToF系统捕获场景的K ≥ 3个图像，并且向量c1，. - 是的- 是的，cK控制它们相关联的激光调制和像素解调功能[8，17]。在ac-对于依赖K个图像来计算深度的三角测量系统，控制向量只是投影模式（图2）。在这两种情况下，解码器将每个像素处的K个观测映射到深度（或立体视差）值。在下文中，我们使用向量值函数err（d，g）将所有像素级惩罚收集到单个向量中：err（d，g）[m]=ρ（d[m] −g[m]）.（四）选择随机的小批量场景选择随机的小批量图像行计算它们的真实深度图g图3：数值与SGD的光域实现，红框突出了它们的差异。5973J（c，S）第n列的光域计算输入：控制矢量c，调节量h输出：列的噪声估计步骤0：将场景S定位在系统前面步骤1：将控制向量设置为c并捕获噪声图像i步骤2：将控制向量设置为c+ha，其中a是沿维度n的单位向量，并捕获新图像i步骤3：返回（i′−i）/h步骤4：（可选）重复步骤1和2，以获得i和i′返回（i′−i）/h的经验分布模拟？幸运的是，微分成像系统允许我们通过直接在光学域中实现困难的梯度计算来克服这些限制。更具体地说，SGD需要评估相对于θ和c1，. - 是的-是的，cK的向量err（dt，gt）：C投影仪列摄像头像素err=θ（六）∂rec∂ θcerr=+errrecik（七）克列克列克rec∫，拉克雷茨rec+errrec阿雷奇·阿雷奇克拉齐姆格cc=ck（八）列对应图`S=St关于ck和St像雅可比矩阵J（c，S）为了简洁起见省略了评价点。当量通过用其无噪声的对应物来近似Ik 而获得（8在所有的Eqs中，（6）-（8），只有一个依赖于系统和场景的精确模型：像Ja- cobianJ（c，S）。对于响应于N元素控制向量而捕获M像素图像的系统，J（c，S）是M×N矩阵。直观地，该矩阵的元素[m，n]告诉我们，如果控制向量的元素n被调整无穷小的量，则图像像素m的强度将如何改变。因此，它与系统的方向图像导数有关（Eq.）（1）通过矩阵向量积：D a img（c，S）= J（c，S）a.（九）由此可见，如果我们对差分成像系统和场景S都具有物理访问，则我们可以计算该矩阵的各个列，而无需系统或场景的任何计算模型我们只需要是实现Eq.（9）在光学域中，如图2所示，具有投影仪-相机系统。这导致以下光学SGD上述子程序可以将依赖于系统和场景模型的数值SGD转换为无模型的光学算法为此，我们用图像捕获操作替换图3（左）需要对系统和场景进行建模1图4：K模式三角测量的解码器.光学SGD的实际实现面临三个挑战：（1）对于场景的预期重构误差，必须导出封闭形式的表达式（等式（1））。（5）为了评估其梯度，（2）对大量真实世界训练场景进行成像是不切实际的，以及（3）图像雅可比矩阵太大，无法通过蛮力获取。下面我们通过利用系统的结构来解决这些挑战-特别是针对基于三角测量的系统的优化问题。所得到的光学SGD过程如图3（右）所示。4. 自动调谐结构光我们现在转向优化投影仪-相机系统以实现结构光三角测量的问题（图2）。在这种情况下，C1，. - 是的- 是的，c，K表示顺序地投影到场景上的1D图案，并且重建任务是独立地针对每个相机像素计算其立体校正。投影机平面上的响应。此任务相当于计算像素到列对应映射d，其中d[m]是包含相机像素m的立体对应的投影仪列（图4）。因此，我们优化投影机相机系统，最大限度地减少误差，D. 2进一步地，我们定义像素m的视差为d[m]与像素在图像平面上的列的差。投影仪-摄像机系统的图像雅可比矩阵我们将投影仪和摄像机分别视为两个非线性这些考虑了器件的非线性以及图案和图像的内部低级处理（例如，non-linearcontrast enhancement, color processing, demosaicing,etc.).在这两者之间，光传播是线性的，因此可以通过传输矩阵T（S）来建模。该矩阵是未知的，并且通常取决于场景它1由于光域雅可比估计依赖于噪声图像，因此在SGD过程中引入了额外的随机性来源[23，24，37，39，40，71]。2像素到列对应映射不需要系统的对极几何、径向失真或欧几里得校准的知识。因此，即使没有该信息，也可以应用光学SGD。像素特征空间表示（可选）柱要素空间表达（可选）强度ik[m]在像素m处像素-列相似性zmZNCC最大参数pK维K模式X5974环境光直接间接光传输投影机光学传递函数T（S）img（c，S）控制向量C图像我proj（）时空光生成非线性响应函数低级模式处理图5：一般投影仪-相机系统中的图像形成。投影函数proj（）将数字数的控制向量映射到出射辐射值的向量类似地，相机函数cam（）将传感器辐照度值的向量映射到保存经处理的图像的图像及其雅可比矩阵由下式给出：存在于其中：（ZNCCpsimity）zm[n]=ZNCC（fm，n）（14）其中，fm、fm、n是视频采集器，用于采集这些位置中的内容。其次，我们将投影仪的响应曲线建模为未知的单调标量函数 g （），由 32 个线性段组成[ 72 ]。这为解码器引入了一个可学习的组件，其32维参数矢量θ与c1，. . .，cK.第三，我们添加了第二个可学习的组件，以更好地执行利用邻域相关性，并考虑不能单独由标量响应g（）捕获的噪声和系统非线性。这包括两个ResNet块[42，73]，分别用于相机和投影仪（ZNCC-NNp相似度）zm[n]=ZNCC（fm+F（fm），g（fn）+F（g（fn）））（十五）其中F（）和F_（）是具有维度为（pK）×（pK）的全连接层和其间的ReLU的自然数。因此，解码器中的可学习参数的总数以及向量θ中的可学习参数的总数为4p2K2+ 32。4优化与即插即用惩罚函数优化的预期重建误差方程。（五）i=cam（T（S）proj（c）+ambient）联系我们img（c，S）+噪音（10）需要对总惩罚的可微估计err（d，g）一个紧密的封闭-J（c，S）=电子照相机埃吉尔联系我们摄像机非线性（M×M）T（S）联系我们光学、3D形状、反射率等。（男×男）拉普劳伊c联系我们投影仪非线性（N×N）（十一）形式近似可以用场景的地面实况对应图g、所有像素的ZNCC得分向量和逐像素惩罚向量来表示ΣM其中噪声可以包括依赖于信号的分量irr表示入射到照相机（d，g）m=1softmax（τzm）·err（index−g[m]，0）（16）像素因此，在没有间接光的情况下迫使其考虑其非线性和端到端光学传递函数。邻域解码对于完全线性系统和低信号无关噪声，最近证明了一种非常简单的对应查找算法在最大似然意义上是最佳的[16]：（1）处理强度i1[m]，. - 是的- 是的，iK[m]作为K维“特征向量”，（2）将其与每个投影仪列处的强度向量进行比较，以及（3）选择根据零均值归一化互相关（ZNCC）评分3（图4）：其中 · 表示点积 ;τ 是 softmax 温度 ;zm 由方程给出。（12）-（15）; 0是零向量;并且index是其第i个元素等于其索引i的向量。4.1.高效的光域实现假设我们将一个物体放置在系统前面，其地面真实对应图g是已知的。原则上，由于每个相机像素的列对应关系必须独立于所有其他像素进行估计，因此每个像素可以被认为是深度估计任务的单独实例重新-在我们随机使用的这些实例之间产生相关性定义Σ ΣΣ用于训练的纹理板（图1）。这使我们能够zm [n] =ZNCC（i1[m]，. - 是的-是的，iK [m]，c1[n]，. - 是的- 是的，cK [n]）（12）将每个摄像机行视为不同的d[m] = arg max1≤n≤N zm[n]。（十三）由随机分布的点组成。在这里，我们用三种方式来概括这个解码器首先，我们扩展特征向量以包含它们的1×p邻域（在图像的情况下，在与像素m我们在实验中使用小的3或5像素邻域，使得利用强度相关性成为可能，3对于两个向量v1，v2，它们的ZNCC得分是v1−m ean（v1）和dv2−m ean（v2）的归一化交叉校正。当系统视场中景物点的位置变化时，可能是随机的，但它们的深度显然不是：由于我们的训练板几乎是平面的，而且（大部分）是静止的，像素到列的对应映射变化平滑4严格地说，ZNCC的最优性并不延续到ZNCC p，ZNCC-NN p或一般的非线性系统。然而，我们将它们用于光学SGD，因为我们发现这些相似性在经验上非常有效。时空凸轮像素响应图像处理流水线5975在时间上是固定的。为了打破它们的时间连续性，我们移动图案而不是场景：在投影和图像捕获之前，我们将相同的随机选择的循环移位应用于所有K个投影图案，并且每隔几次迭代就改变该移位。这改变了像素到列的对应映射，并且导致在场景在深度上移动的情况下将获得的图像。5它还允许优化跨越投影仪所有列的模式，即使训练场景没有。地面实况对应的获取光学SGD取决于能够比它正在优化的过程更准确地计算地面实况自从我们的前-cus是关于优化系统以获得最少数量的模式，我们使用相同的系统进行地面实况估计，但具有更多的模式。我们首先通过用两种独立的编码方案（160个相移模式[ 43 ]和30个模式）重复重建训练板来评估系统可针对0-公差罚分[16]进行了优化，并在运行和编码方案之间进行了交叉验证。我们仅使用两种方案中较短的一种用于光学SGD，并且每50次迭代重新应用它以考虑较小的扰动（例如，（例如，相机或相机的轻微运动图像雅可比矩阵的有效获取尽管雅可比矩阵很大，但是对于没有间接光传输的场景（例如，我们的培训委员会）。这使得有可能从第3节的光域子例程的一次调用中一次获取雅可比的几个列。特别地，具有N/B个等间距非零元素的调整向量将产生雅可比矩阵的N/B列的和。如果B足够大以避免这些列的非零元素之间的重叠，则精确恢复是可能的。数值考虑我们采用RMSprop [24]和Tensorflow [75]用于光学SGD的数值循环。学习率设置为0。001，并允许每350次迭代衰减50%。我们使用τ = 200的softmax温度，雅可比获取的步长B=7，并初始化具有范围[0.45，0。55]。小批量是通过在每次SGD迭代中随机选择15%的图像行来我们估计地面实况对应和图像雅可比每隔50和15次迭代，分别。为了确保稳定的优化，我们将图案的频率限制优化通常在1000次迭代中收敛，大约需要一个小时。主要的瓶颈是图像采集，对于我们的非同步HDMI驱动设备，图像采集的频率为15Hz图6说明了模式（和解码器）如何在样本自动调整运行中演变-随着时间的推移，重建性能有了显著的改善。至关重要的是，在具有大量深度不连续性的更暗场景中的性能显示出类似的趋势，表明缺乏过度拟合。[5]请注意，这种1测试场景的错误率（d，g）≥1200400600800地面实况，相机视图照片迭代200迭代360迭代9000光学SGD物镜图6：图1中LG-IDS对和训练板的光学SGD工作情况。上图：红色图表显示了优化目标的进度（等式1）。5）当在训练板上针对四个模式、零容差惩罚和ZNCC-NN3解码器进行自动调谐时的跨迭代。绿色图表显示err（d，g）(and更有挑战性）下面的测试场景。中间：将图案c1的演变可视化为灰度图像，其第i列是迭代i处的图案.下图：三张快照每个优化示出了迭代i处的图案;从这些图案重构的训练板的视差图（插图）;以及从相同图案重构的测试场景的视差图见[74]视频可视化。5. 实验结果对于下面的所有实验，以一个投影仪列为单位测量像素到列的对应性误差其他结果和实验细节见[74]。自动调整计算成像系统由于光学SGD对成像系统是不可知的，因此它也可以图7显示了一个这样的example.该系统采用四种结构光模式作为输入;将它们快速地投射到场景中;捕获一个分辨率为244 × 160像素的编码2桶（C2B）帧;并在内部对其进行处理，以生成在四种投影模式下拍摄的四幅全分辨率图像。使用Mitsuba CLT进行模拟[76，77]和Model- Net[78]为了评估自动调整系统在其他场景中的表现，我们将Mitsuba CLT渲染器视为黑盒投影仪-摄像机系统，并使用类似于5976原始C2B帧自动调整为1-公差自动调谐为L1误差≤1的像素：89%平均误差：1.83按菜单选择地面实况 [16]& 汉密尔顿[15] ZNCC误差≤1的像素：81%平均误差：3.71图7：自动调整单次3D成像系统。我们取代了Wei等人的投影模式和深度估计算法. [22]图1中LightCrafter-C2B对的图案和ZNCC-NN5解码器由光学SGD自动计算。我们的视差图（顶行）优于国家的-即使使用我们的ZNCC5解码器来提高其性能（底行），每个惩罚的最新模式也是如此。自动调整也较少受到原型的许多“坏像素”的影响在每种情况下，我们还将对应错误显示为插图（请放大）。图1（中）。然后，我们使用优化的模式和优化的ZNCC-NN3解码器从ModelNet数据集中重建一组30个随机选择的模型[78]。图8中的结果没有显示出对虚拟训练板过度拟合的证据，并且反映了图6中的结果。图1和图9中的表评估了LG-IDS对对于编码方案和解码器的许多组合以及两个惩罚函数的性能。三个观察可以对这些结果做了什么。首先，尽管是自动的和校准的自由，光学SGD产量的国家的最先进的per-tolerance为0和L1的罚款。其次，采用邻域解码器对系统的整体性能有很大影响例这表明，甚至进一步的性能改进可能与更复杂的解码器。第三，虽然针对L1惩罚量身定制的编码方案可以产生相当平滑的视差图，但它们的对应关系中很少是精确的（例如，在我们测试的真实场景的哈密顿编码的情况下远低于20%）。相比之下，针对0容限惩罚的自动调谐产生了具有完美重构的像素的实质部分的视差图（例如，远远超过图1和9中的60%的场景）。这就提出了一个有趣的问题，即来自公差优化系统的原始3D数据下游处理自动调谐系统的操作范围我们针对具有 L1惩罚和ZNCC-NN5解码器的几种配置自动调谐LG-IDS对，改变该对图-图10示出了来自这些会话之一的结果，其中系统被显著地移离测试场景，从而降低了图像信噪比（SNR）。在该设置中，分别针对近场和远场成像进行自动调谐，从而提高了现有技术的性能图8：四种模式的自动调整Mitsuba CLT和0容差惩罚。左：优化图案和ZNCC-NN3解码器在光学SGD的迭代中的性能。我们通过重建虚拟训练板（红色）来测量性能图）以及ModelNet对象（绿色图，30个模型的平均值）。Optical SGD在ModelNet与我们的ZNCC3解码器（虚线）相结合的最先进的模式。右：示例模型的视差贴图。自动调节间接光作为最后的实验，我们探索了自动调谐系统的可能性，以便使其对间接光具有鲁棒性。我们使用EpiS-can 3D [21]（作为传统的投影仪相机系统）重建由蜂蜡和其他半透明材料制成的场景，距离约80厘米。作为基线，我们自动调整与训练板的2容限惩罚和ZNCC-NN5解码器，并使用它来重建场景。这产生了比MPS16-ZNCC5解码器组合差得多的结果。(Fig-图11）。自动调谐与蜂蜡培训现场在一个相似的距离显著提高了性能（75%的像素误差≤2），但没有超过MPS 16。然后，我们对自动调整程序进行了三个小的更改：（1）使训练场景更近（40 cm）;（2）在光学SGD期间使用Hadamard复用[55]进行雅可比采集;以及（3）通过运行具有更高softmax温度（τ =1000）的附加光学SGD迭代来细化自动调谐图案和解码器。在收敛时，这产生了模式和解码器，其在80cm远的测试场景上的表现优于MPS 16。6. 总结发言我们的SGD的光域实现提供了一种替代的方式来解决最佳编码问题的成像，强调实时控制和学习的成像建模。虽然我们已经证明，非常有竞争力的编码方案的结构光可以出现在飞行与这种方法，问题是如何系统可以进一步调整-为特定的材料，为特定的家庭的三维形状，为复杂的光传输，等等。仍然敞开着。致谢WC、PM和KK感谢NSERC在RGPIN和SPG计划下的支持，以及DARPA在REVEAL计划下的支持。SF得到了加拿大CIFAR AI Chair奖的支持。%像素，无错误样本模型自动调谐0.80.6[16]第十六话MPS16 [47]0.4自动调谐的自动调优（ModelNet）a la carte ZNCC3600400200MPS16 ZNCC3哈密顿ZNCC30.25977无对应误差ZNCC ZNCC5ZNCC-NN5平均对应误差ZNCC ZNCC5ZNCC-NN5MPS16 [47][16]第十五话：一个人的世界百分之五十二百分之五十15% 15%百分之六十二百分之六十二MPS16 [47][16]第十五话：一个人的世界42.8 43.04.6 4.739.8 41.3自动调谐（0-公差）32% 67%百分之七自动调谐（L1）9.8 4.23.7MPS16 ZNCC5Hamiltonian ZNCC5点菜ZNCC5自动调谐（0-tolerance）点菜ZNCC5自动调谐（L1）图9：顶行：示例场景的性能评估，其地面实况视差图显示为插图。帧数字将当前技术状态与ZNCC-NN 5解码器的自动调谐进行比较。我们对MPS使用16的基频，因为我们发现它在我们的实验中提供了最佳的整体性能。注意，虽然邻域解码提高了先前提出的编码方案的性能，但它们都不匹配光学SGD的性能。此外，联合优化模式和解码器比仅优化解码器和使用固定模式更有效。中&底行：将自动调整的LG-IDS对的结果与通过将先前提出的模式与其最佳性能解码器配对获得的结果进行比较。最左边的两列示出了所有完美重构像素的视差（即，更密集的图指示更高的精度）。完整的视差图显示为插图。最右边的列比较每种方法的误差图（最深的蓝色表示0误差，最深的红色表示误差≥20）。对应误差≤2的像素图10：在自动调整特定距离（或距离范围）后，从不同的间隔距离重建房间角落。观察到0.8m（红色）优化的图案的频率含量远高于0.8-5.8m（绿色）。图11：一个有蜡烛和蜜蜡脸的场景，用三种不同的方式重建.插图显示了训练场景。仅显示误差≤2的像素及其百分比。平均对应误差实验装置45哈密顿ZNCC5自动调谐0.8m自动调谐5.8米自动调谐0.8-5.8m30151 2 345米百分之二十七百分场景&地面实况MPS16 ZNCC5：79%自动调谐80厘米板：46%自动调谐细化40cm处的蜡：87%137.66.5173.75978引用[1] J. Y. Bouguet和P.Perona，43[2] D. Scharstein 和 R. Szeliski ， “High-accuracy stereo depthmaps using structured light”，inProc. IEEE CVPR，pp. 195-202，2003年。[3] D. Moreno，F. Calakli和G. Taubin，[4] M. Donlic，T. Petkovic和T. Pribanic，2462[5] S. 什雷斯塔角，澳-地Heide，W.Heidrich和G.Wetzstein，“使用多相机飞行时间系统的计算成像”，ACM TOG（SIGGRAPH），第35卷，第2003 - 2004号。2016年4月。[6] A. Bhandari，A.卡丹比河怀特角Barsi，M. 费金A.Dorrington 和 R.Raskar ， “Resolving multipathinterferenceintime-of-flightimagingviamodulationfrequency diversity and sparse regularization ， ”OpticsLetters，vol.39，no.第6页。1705[7] S. Achar，J.R. 巴特尔斯L. R. Whittaker，K.N. Kutulakos和S. G. Narasimhan，“对极飞行时间成像”，ACM TOG（SIGGRAPH），第36卷，第2009 - 2010年，第100期。2017年4月。[8] A.卡丹比河Whyte，A.班达里湖斯特里特角巴西，A. Dorrington和R. Raskar，“飞行摄像机的编码时间：Sparse deconvolution to address multipath interference andrecover time profile，”ACM TOG（SIGGRAPH Asia），vol.32，no. 2013年6月。[9] A. Kadambi和R. Raskar，26211[10] F. Li ， J. Yablon ， A. Velten ， M. Gupta 和 O. S. Cos-sairt，H51-H56，11月2017年。[11] C. Callenberg，F.海德湾Wetzstein和M. B. Hullin，2017年。[12] F. Li，H. Chen C.，马缨丹属Yeh，A. Veeraraghavan和O. Cossairt，Ashok，J. C. Petruccelli，A. Maha-lanobis和L. Tian，eds.），pp. 2018年5月7日[13] F. Heide，W. Heidrich，M. Hullin和G. Wetzstein，第34页。 2015年。[14] F.Gutierrez-Barragan ， S.A.Reza 、 A.Velten 和M.Gupta，1566[15] M. Gupta和N. Nakhate，“AGeometricPerspectiveonStructuredLightCoding，”inProc. ECCV，pp. 87[16] P. Mirdehghan ， W. Chen 和 K. N. Kutulakos ， “OptimalStructured Light a` La Carte”，in Proc.IEEE CVPR ， pp. 6248-6257，2018年。[17] M.古普塔A。Velten，S. Nayar和E. Breitbach，“什么是飞行时间成像的最佳编码函数？，”ACMTOG，vol. 37，no. 2018年2月。[18] E. Horn和N.Kiryati，28[19] T. Pri ban i c，H. D zapo，和DJ。 Salvi i，“基于修改的数论方法的Ef f i c i en t和Low-C os t 3D结构光系统”，EURASIP J. Adv.信号处理。2010年第一卷，第100号。1，2010.[20] A. 亚当角 Dann ， O. Yair ， S. Mazor 和 S. Nowozin ，“BayesianTime-of-FlightforRealtimeShape，Illumination and Albedo”，IEEE T-PAMI，vol.39，no.第5页。851-864，2017年。[21] M. O'Toole，S. Achar， S. G. Narasimhan 和 K. N. Ku-tulakos ， “Homogeneouscodesforenergy-efficientillumination and imaging，”ACM TOG（SIGGRAPH），vol.34，no. 2015年4月。[22] M. Wei，N. Sarhangnejad，Z. Xia，N. Gusev，N. 卡蒂奇，R. Genov和K. N. Kutulakos，“Coded Two-Bucket Cam- erasforComputerVision，”inProc. ECCV，pp. 54[23] D. P. Kingma 和 J. Ba ， “Adam：A Method for StochasticOptimization，”inProc.ICLR，2015.[24] T. Tieleman和G.E. Hinton，“Lectur

下载后可阅读完整内容，剩余1页未读，立即下载