主动立体结构化照明和重建的学习方法

108 浏览量更新于2024-01-22 收藏 2.3MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5757波尔卡线：主动立体的学习结构照明与重建白承焕Felix Heide普林斯顿大学摘要从结构化光捕获恢复深度的主动立体相机主动式立体相机在物体表面上投射伪随机点图案以独立于物体纹理提取视差。这种手工制作的图案被设计成与场景静态、环境照明条件和反射方法隔离。在这项工作中，我们提出了一种方法来共同学习结构化照明和重建，参数化的衍射光学元件和神经网络的工作，在一个端到端的方式。为此，我们介绍了一个微分成像模型的主动立体，依赖于波动和几何光学，和一个三目重建网络。我们称之为我们验证了所提出的方法在模拟和使用的实验原型，我们展示了几个变种的波尔卡线图案专门的照明条件。1. 介绍有源深度相机对于三维场景重建和场景理解已经变得至关重要，其具有跨学科的既定和新兴应用，包括机器人技术、自主无人机、导航、驾驶员监控、人机交互、虚拟和混合现实以及远程会议。当与RGB相机结合时，深度感应方法可以恢复高保真场景重建[23]。这种RGB-D相机还允许研究人员收集大规模的RGB-D数据集，这些数据集推动了基础计算机视觉问题的研究，包括场景理解[44，21]和动作识别[36]。然而，虽然在具有低环境光和小对象运动的受控条件下的深度相机变得可靠[1，42]，但是在强环境光下、在长距离下以及对于精细细节和高度动态场景的深度成像仍然是一个开放的挑战。大量的工作已经探索了主动深度传感器-研究方法来应对这一挑战[18，27，4，41]，结构光和飞行时间相机是最成功的方法。脉冲飞行时间传感器将光脉冲发射到场景中，并通过采用灵敏的硅雪崩光电二极管[51]或单光子雪崩二极管[5]直接测量返回光子虽然这些探测器对单个光子敏感，但它们的低填充因子限制了现有的LiDAR传感器使用单个二极管进行逐点扫描，这阻止了密集深度图的采集。相关飞行时间传感器[18，25，27]通过从时间调制照明的相位间接估计往返时间来克服这一挑战。尽管这些摄像机为室内场景提供了准确的深度，但它们受到强环境照明和多径干扰的影响[45，29]，仅限于VGA分辨率，并且它们需要多次捕获，这使得动态场景成为一个挑战。主动立体声[55，1，2]已经成为唯一的低成本深度感测模态，其具有克服用于房间大小的场景的现有方法的这些限制的潜力。有源立体相机为立体相机对配备照明模块，该照明模块将固定图案投射到场景上，使得可以独立于表面纹理可靠地估计立体对应性。因此，主动立体方法允许使用低成本衍射激光点模块[1]和部署在大众市场产品（包括英特尔实感相机[1]和谷歌Pixel 4手机[2]）中的传统CMOS传感器以高分辨率进行单次拍摄深度估计然而，尽管主动立体声已经成为一种迅速兴起的深度感测技术，但现有方法与极端环境照明和复杂场景作斗争，从而禁止在不受控制的野外场景中进行可靠的这些限制是现有主动立体系统的流水线设计的直接后果，现有主动立体系统单独地手工设计照明图案和重建通常，在第一步骤中使用放置在激光二极管前面的衍射光学元件（DOE）来设计照明图案。采用由已知衍射光栅（诸如达曼光栅[10]）产生的现有点图案，假设生成均匀纹理确保对平均场景的鲁棒视差给定一个固定的照明5758模式，然后设计重建算法，目标是使用成本-体积方法[7，22]或基于学习的方法[39，12，55，38]估计对应性。在这种传统的设计范例中，照明模式不接收来自场景的重建算法或数据集的反馈，从而禁止对最佳模式、重建算法和针对场景定制的捕获配置的端到端学习在这项工作中，我们提出了一种方法，共同学习照明模式和重建算法，参数化的DOE和神经网络，在一个端到端的方式。由此产生的最佳照明模式，我们称之为“波尔卡线”，连同rexec-tion网络，允许高质量的场景重建。此外，我们的方法允许我们，第一次，学习环境特定的照明模式的主动立体声系统。所提出的方法取决于可微分图像形成模型，该模型依赖于波动和几何光学，以使照明和捕获模拟准确，同时，足够有效地进行联合优化。然后，我们提出了一个三目主动立体网络，估计一个准确的深度图从传感器的输入。与以前只使用来自立体相机的双目输入的方法不同，我们的网络利用了已知的照明模式，从而产生了三目立体设置，从而减少了遮挡边界附近的重建误差。我们以有监督的方式训练完全可微的照明和重建模型，并对实验原型的重建进行微调。自我监督的方式。所提出的波尔卡线pat-ticket，连同重建网络，使我们能够实现国家的最先进的主动立体深度估计的各种成像条件。具体而言，我们做出以下贡献：• 提出了一种基于几何光学和波动光学的主动立体成像系统的微分成像模型。• 我们设计了一种新的三目主动立体声网络，除了立体声输入使用已知的照明模式。• 我们通过可区分的端到端优化来共同学习最佳的“波尔卡线”照明模式，该优化可以专门用于特定的照明条件。• 我们验证所提出的方法在模拟和实验原型。我们展示了从弱光到强照明的各种场景场景中的鲁棒深度获取。2. 相关工作深度成像。深度相机可以大致分为两类，即无源相机和有源相机。被动方法利用深度线索，如视差[40，13]，散焦[28]和双折射[6，33]，不需要照明控制。被动方法通常在具有挑战性的场景部分（例如无纹理表面）上失败，在那里它们会产生灾难性的深度估计错误。主动系统采用专门的照明模块来处理无纹理表面。主要方向包括脉冲和连续波飞行时间传感器[20，19]，门控成像[15]，结构光传感器[16，52]和主动立体声系统[55]。其中，主动立体声是特别有吸引力的，因为它承诺在低系统成本和小的形状因子鲁棒的单镜头深度成像因此，有源立体声系统已经成功地部署在大众市场中[1，2]。然而，现有的主动立体声系统还在具有强环境光和具有变化的场景反射率的噪声输入的挑战性环境中挣扎。这种降低的准确性部分源于照明图案的盲目的、划分的设计过程，其通常不考虑重建方法、场景统计和照明条件。在这项工作中，我们关闭这一差距，提出联合优化的照明模式和重建方法的主动立体声。主动立体声的照明模式。在主动立体声系统中，照明模式的设计是保证匹配精度的关键.现有方法通常采用达曼光栅[10]和垂直腔表面发射激光器，其导致局部不同但全局重复的照明图案[30，26，1]。这种启发式设计对场景统计、噪声水平和重建方法是盲目的。现有方法已经尝试通过采用依赖于照明图案上的替代专家和启发式度量的我们从这些启发式设计出发，而是直接优化照明图案，其中深度重建精度作为经由端到端优化的损失主动立体声深度估计。主动立体系统的深度重建旨在借助投影照明模式进行特征匹配来估计立体图像之间的精确对应。相应的大量工作可以分为依赖于经典的基于补丁的对应匹配[22，7]和最近的基于学习的方法[39，12，55，38]的方法。Zhang等人。[55]提出了一种具有自我监督的主动立体网络，消除了获取训练数据的繁琐过程，并提高了深度估计精度。5759联合国现有的这些重建方法都受到固定照明模式的限制。因此，这些方法必须适应给定的图案，并且不能改变图案以适应不同的成像条件。我们共同优化照明和重建模块，使我们能够定制的模式，重建方法和场景统计。此外，从现有的方法出发，所提出的三目重建是第一个利用已知的照明模式本身。微分光学随着自动微分框架[3，37]的出现，联合优化成像光学和重建方法已经塑造了不同视觉系统的设计过程[8，50，35，47，17，53、9、43、32、46]。虽然现有的方法集中在成像光学器件上并且主要假设近场传播，但是我们替代地使用从激光器到场景的远场波传播来优化照明光学器件，同时，我们依靠射线光学通过epipol- lar几何来模拟立体成像。这种混合成像利用了波动光学和几何光学，使我们能够有效地模拟主动立体系统中的光传输，同时足够有效地进行基于梯度的端到端优化。我们注意到Wu等人。[54]提出了一种用于结构光系统的具有学习孔径掩模的散焦深度方法。然而，这种基于模糊的结构光投影受到频率受限特征的影响。因此，它与所提出的方法正交，该方法优化了照明图像左摄像机图像右侧照相机图像图1.我们利用波动光学模拟了激光器和DOE然后，我们使用几何光学模拟相机捕获的由激光器表示为在每个离散空间位置x，y处的振幅A和相位φ，以间距u和N×N分辨率1采样。DOE上的相位延迟。当发射的光波通过DOE时，其相位被调制为φ←φ+φ延迟。相位延迟φ_delay与DOE的高度h、光的波长λ以及DOE对于该波长ηλ的折射率，即衍射图案在远场的主动立体。照明设计的相关优化原则也可以在反射成像中找到[24]。φ延迟 =2π（η λ− 1）h。（一）λ3. 可微混合成像为了共同学习结构化照明模式和重建方法，我们引入了一种用于主动立体感测的可微分图像形成模型。主动立体系统由立体摄像机和照明模块组成，照明模块用激光照明DOE编码光，主动立体系统的光传输可以分为两部分：一部分描述激光到场景中的传播，其中照明图案的输出投射到场景上，另一部分描述从场景返回到立体相机的照明。我们依靠波动光学的前一部分和几何光学的后一部分，包括拟议的混合成像模型。3.1. 对投影照明图案建模模拟从有源立体照明模块到场景的光传输相当于计算照明，远场波传播接下来，光波模块-由DOE生成的图像传播到场景中。我们模拟该传播使用Fraunhofer远场波传播，因为我们假设场景深度范围从0. 4m至3m，其充分大于波空间范围uN =1mm[14]。我们执行此宣传-通过计算的傅里叶变换F，振幅为A、相位为φ的复值光波UU′← F（U），（2）其中U′是传播的复光波。最后，场景中的照明图案P是传播的光波的强度，即U′的平方大小。P←|U′|二、（三）图案P的分辨率保持与U的分辨率相同，而图案P的物理像素间距v相应地改变为v=λz，其中z是传播距离[14]。有关与现有DOE设计对应的模拟照明模式，请参阅补充文件。从激光投射到场景上的国家图案（图-ure 1）。依靠波动光学，我们在实验中表示光发射-1u=1µ m和N=1000。DOE相机(2)射线传播相机(1)波传播激光(2)射线传播5760fλfλ联合国对照明图案进行采样。模拟照明图像P中的像素具有物理宽度v=在场景深度z处的λz。与此同时，一个摄像头像素uNp通过透视映射到场景深度z处的宽度fz其中f是相机焦距，并且p是相机的像素间距。我们对照明图像P重新采样以具有与相机像素间距相同的像素间距。我们计算相应的比例因子如下p摄像头像素大小f=照明图案像素尺寸λ双关=. （四）fλ比例因子puN应用于照明图像P←resample（P，puN），其中resample是双三次重采样运算符。注意，照明图案和相机的像素大小的深度依赖性在比例因子中消失，这意味着比例因子与光的传播距离无关。这表明照明图案P可以应用于任何场景，而不考虑其深度组成，这有助于光传输的有效模拟。3.2. 立体图像一旦计算了照明图像P，我们就模拟立体图像。虽然波动光学可以使用维格纳分布函数和远场波传播来描述该过程，但是这对于所提出的端到端优化过程来说将是非常昂贵的相反，我们使用一个几何光学模型表示光的强度，而不是相位和振幅在波动光学。光-物质相互作用与测量给定在照明模块的视点处的照明图像P，我们接下来通过立体相机模拟光-物质相互作用和传感器测量在下面的模型中，我们在左和右相机视点处使用视差图DL/R、反射图IL/R和遮挡掩模OL/R遮挡掩模OL/R描述左/右相机相对于照明模块的视点处的可见性。我们首先使用视差DL/R将照明图像P扭曲到左相机视点和右相机视点。我们通过逐元素乘法将遮挡图OL/R与扭曲图像合并，从而得到在立体相机视点（PL和PR）处看到的最终照明图像，即，PL/R=OL/Rwarp（P，DL/R），（5）其中是元素乘积，运算符warp将照明图像P扭曲视差DL/R。然后我们计算场景响应和传感器测量-图2.所提出的混合图像形成模型模拟立体图像，我们使用三目网络重建深度图。损耗被反向传播到DOE和网络，从而实现联合优化。虚线框表示优化参数。使用朗伯反射模型进行测量。我们实现的成像参数包括传感器削波、信号无关高斯噪声、相机曝光、照明功率和环境照明。总的来说，这是由JL/R=σ（γ（α+βPL/R）IL/R+η），（6）其中，JL/R是左相机视点和右相机视点的模拟捕获图像。术语γ是描述曝光和传感器的光谱量子效率的标量4. 三目主动立体网络我们从现有的主动立体架构出发，其将立体图像或单个照明图像作为输入[55，38]。相反，我们利用的事实是，一个积极的立体声系统提供立体之间的摄像机，但也照明和摄像机对线索。具体而言，我们考虑我们的主动立体相机中的两个基线配置：照明模块与两个相机中的任一个之间的窄基线配置，以及由左相机和右相机组成的一个宽基线对。为了利用这两个不同的基线，我们提出了以下三目主动立体声网络，如图2所示。重建网络。所提出的重建网络接收以下输入：左相机图像XL、右相机图像XR和照明图像Xillum。在训练阶段，我们的图像形成模型综合生成这些三目输入;在现实世界的测试中，我们直接使用校准的传感器衍射光学元件- 深度- 视差- 反射率- 闭塞混合成像- 照明用波动光学- 照相机几何光学照明。左凸轮。右凸损失三目有源立体声网络宽估计视差融合低分辨率上采样器差异窄成本体积特征特征提取器zz5761波尔卡线英特尔实感D415理想波尔卡线英特尔RealSense D415estC=C+C，（10）B英特尔实感D415理想随机波尔卡线10700估计地面实况1007001.31.10.910双眼三目视差MAE [px]28万图4.所提出的三目重建方法在对象边界处比传统的双目方法更鲁棒，因为它利用了单个主动立体系统中的几个相机和照明对之间的线索。0之间的宽基线和窄基线。使用软最大层计算每像素视差概率，然后对从低分辨率视差估计得到的概率进行视差回归[55]。最后，边缘感知卷积上采样器估计视差图对于左摄像机视点，0 00传感器图像强度1最终决议。有关网络的详细信息，请参阅补充文档。共同学习。将网络参数表示为θ，图3.我们在模拟中评估了我们学到的照明模式，并且我们的表现优于手工制作的照明模式（英特尔DOE的相位延迟为φdel，我们求解以下公式：求解端到端联合优化问题RealSense D415）和理想的随机模式。我们博学的波尔卡舞最小化Ls（DL （φdelay，θ），DL），线条图案有效地集中能量，促进特征匹配-φ延迟，θest（十一）ing.此处显示的示例以室内环境为特征。输入。所提出的网络首先使用两个卷积编码器提取三个输入图像的特征张量yL/R/illum：用于相机图像的FEcam和用于照明图像的FEillum，即yL= FE凸轮（ xL）， yR= FE凸轮（ xR），（7）y照明= FE照明（x照明）。接下来，我们为两个独立的基线构建三目成本量我们将宽基线对的特征成本体积C宽定义为其中Ls=MAE是由地面实况显示器监督的估计视差城市D湖注意，使用随机梯度方法解决该优化问题仅通过将所提出的图像形成模型和重构方法公式化为完全可微运算才成为可能。我们还通过控制以下模拟参数将变化的环境照明条件并入我们的学习框架中：等式（6）中的环境光功率α和标量γ我们针对通用、室内和室外环境的不同照明配置训练了三个单独的模型。有关详细信息，我们请读者查阅《补充资料》。D宽（x，y）=yL（x，y）−yR（x-d，y），（8）补充文件。其中d是视差候选。类似地，窄基线成本体积在左相机特征yL和照明特征yillum之间被定义为数据集。我们的方法需要视差图DL/R、NIR反射图IL/R和左右相机视点处的遮挡掩模OL/RD窄（x，y）= yL（x，y）− yillum（x− d，y）.（九）为了获得这个数据集，我们修改了一个合成的被动立体声RGB数据集[31]提供视差图DL/R，但我们将两个成本卷合并为一个成本卷d dd融合宽窄其中d=db宽是由比例缩放的差异是-窄0视差传感器图像视差误差[px]视差错误理想[px]像素数[px]误差视差[px]双目三目[px]CC5762而不是NIR反射图IL/R和遮挡掩模OL/R。我们使用来自[15]的RGB反演方法从RGB立体图像获得NIR反射率图IL/R。接下来，我们计算图1的遮挡掩模OL/R。5763通用（列车）室内（列车）户外（火车）30像素通用（列车）室内（火车）室外（火车）40 pxestestestest1中等噪音极端噪音1一般室内室外02 0.1010 0.000图6.针对不同噪声级别优化照明。对于具有强环境光的场景，导致低照明对比度，照明图案被优化为具有比中等噪声环境更高强度的稀疏点。目标照明我们的不同可再生模型IFTA1图5.通过改变模拟参数，所提出的端到端优化方法可以学习适合于室内、室外和一般环境的照明模式。立体摄像机相对于照明模块。由于照明模块位于立体对之间，因此我们将立体遮挡掩模水平缩小一半最后，我们调整图像的大小，使其与照明图像的分辨率相同。5. 自我监督微调为了补偿优化DOE的制造不准确性以及模拟训练图像和真实捕获之间的域间隙，我们使用由我们的原型捕获的真实世界数据集来微调我们的重构网络为此，我们捕获左和右IR图像对JL/R，并通过将图案投影到漫射无纹理壁上来获得照明图像PL/R然而，对于视差图和遮挡掩模，在现实世界中获得相应的地面实况是困难的。因此，我们采用了之前在[57，55]中提出的自监督学习方法。自监督训练步骤中的关键思想是找到视差图DL/R和有效性图VL/R，其提供了视差图D L/R和有效性图VL/R之间的距离。0图7.所提出的可微分图像形成可以用于设计产生期望的照明图案的DOE。我们的方法改进了最先进的迭代FFT方法[11]，同时允许设计灵活性，请参阅文本。6. 分析在介绍我们的实验原型系统之前，我们首先使用合成数据评估所提出的端到端框架。波尔卡线照明模式。我们通过比较模拟设计的图案（伪随机点和规则间隔点）来评估我们学习的照明（波尔卡线图案）的有效性[1]。为了进行公平的比较，我们对所有模式使用我们的三目网络架构，并对每个单独的照明模式微调重建图3中的实验验证了所提出的波尔卡线图案在室内环境中优于传统图案对于这些合成实验，我们确保所有照明模式使用相等的照明功率我们estestL/R室外分析见补充文件通过变形的立体图像J的最佳重建环境. 波尔卡线设计是重新设计的。考虑具有视差DL/R的其他图像JL/R，L/Rest所提出的优化方法的结果。我们可以解释有效性 Vest 。有效性映射被定义为与遮挡映射VL/R=1−OL/R 相反。除了在图1中描述的重建网络之外，在上一节中，我们介绍了一个评估验证图的验证网络VL/R考虑闭塞。对于损失函数，Lu鼓励网络估计视差图，该视差图通过视差扭曲从另一个视图重建一个立体视图。Lv是正则的-有效性掩码VL/R的量化损失[55，38]。 D是视差平滑损失。我们训练网络参数的三目重建网络和验证网络上捕获的立体图像和照明图像的原型。在推理时，我们掩盖了低有效性像素的视差估计。有关详细信息，请参阅补充文件。通过分析Polka Lines模式的结构与启发式模式的比较，来分析此模式的性能。首先，与恒定强度启发式模式相比，一行点中的每个点具有不同的强度水平。我们将大动态范围内的性能提高其次，波尔卡线的方向是局部变化的，这是对应匹配的判别特征。我们参考补充文件作进一步讨论。三眼重建消融研究。我们验证我们的三目重建方法，通过比较它的双目方法，如张等人。[56]第50段。我们建立了一个基线模型，只摄取立体相机图像的双目输入，通过去除照明功能，学习波尔卡舞视差MAE [px]深度MAE [m]室内（列车）室外（火车）1.2米通用（列车）1.4米通用（列车）室内（火车）室外（火车）学习波尔卡舞5764激光二极管准直类属透镜室内户外DOE旋转底座3000图8.所描述的系统针对具有挑战性的场景获取准确的视差。我们在这里展示的例子包含复杂的对象，包括无纹理表面在不同的环境下，从室内照明到室外阳光。10090807060实验样机照明模块0.5504040 5060708090100地面实况深度[cm]室内波尔卡线户外波尔卡线通用波尔卡线0.0图10.实验样机精确地重建了无纹理平面的深度，距离从0.4米到1.0米。两个不同的噪声水平，例如，在强环境照明下，图9.所提出的原型系统由立体近红外相机和照明模块组成，其中激光由DOE准直和调制。我们制造了三个DOEs设计的通用，室内和室外环境，可以切换的旋转安装。校准的照明图像与我们的模拟非常相似;室内的密集低强度点图案，室外的稀疏高强度点图案，通用环境的密集变化强度点图案拖拉机图4显示了双目重建方法的困难，特别是在遮挡区域，其中提出的三目方法提供了稳定的估计。环境照明设计。我们的端到端学习方法通过改变方程（6）中的环境参数并求解方程（11），容易地促进了针对特定环境定制的照明图案的设计我们改变环境功率α和激光功率β来模拟室内、室外和混合图5表明，在室内情况下，照明图案变得密集，具有低强度点，用于密集对应，而室外环境促进具有从环境光中在一般环境中，我们得到了我们还评估了所提出的方法，2我们根据环境改变参数值：室内（α=0. 0，β=1。5），室外（α=0. 5，β=0。2），泛型（α ∈ [0，0. 5]，β ∈ [0. 二，一。5]）对于高斯噪声项η，使用0.02和0.6的标准偏差值。图6示出了对于严重噪声，照明图案变得稀疏，具有高强度虚线。DOE相位剖面设计。我们可以重新利用所提出的方法来设计一个DOE，该DOE在被准直光束照射时产生目标远场照明图案。设计用于结构化照明的DOE具有主动立体之外的应用，包括防欺诈保护、投影标记和表面检测[48]。图7显示，我们获得的重建质量可与最先进的迭代FFT方法[11]进行比较。使用我们的DOE设计框架的一个好处是它的灵活性。例如，任何附加的相变光学元件可以容易地并入图像形成模型中。此外，可以施加附加的损失函数，例如，加强DOE的平滑度以减少潜在的制造误差。有关优化的详细信息，请参阅补充7. 实验原型结果实验原型。图9显示了我们的实验原型以及所提出的波尔卡线照明模式变体的捕获。我们用两台近红外摄像机（ Edmund Optics 37- 327 ）和 6 mm 焦距的物镜（Edmund Optics 67-709）实现了所提出的系统。的像素间距无纹理平面0.4 mDOE1.0 m校准照度相机强度相机激光视差[px]估计深度[cm]5765被动立体英特尔实感D415波尔卡线相机相机视差被动立体声英特尔实感D415波尔卡线300平面对象3004450[px]扫描线无源立体声室内波尔卡线0通用波尔卡线340列[px]400图12.我们用低反射率的平面物镜捕捉一个场景。虽然被动立体声在无纹理表面受到影响，但所提出的学习照明能够实现有效的深度再现。图11.在高动态范围场景条件下，具有不同强度点的学习照明模式优于被动立体声和商业手工设计模式（英特尔实感D415）蓝色箭头表示估计伪影。我们捕获一个V形反射率目标（x-rite Pro Photo Kit）。相机是5。3µm，立体基线为55 mm。我们采用中心波长为850 nm、光束直径为1 mm的NIR激光器。我们使用激光二极管（Thorlabs L 850 P200）、激光二极管插座（Thorlabs S7060 R）、准直透镜（Thorlabs LT 200P-B）和激光驱动器（Thorlabs KLD 101）。我们用16级光刻工艺制作了优化的DOE。有关制造细节，请参阅补充文件。来自所制造的DOE的照明图案表现出与衍射图案叠加的非衍射零阶分量。虽然商业大众市场的光刻是高度优化的，我们的小批量手动光刻没有达到相同的制造精度。虽然fab-mesh精度低于具有高衍射效率的商业DOE，但测量的照明图案与它们的合成对应物相匹配。深度重建。我们通过在已知距离处捕获平面无纹理物体来测量我们的原型系统的深度精度，如图10所示。使用波尔卡线模式的估计深度与地面实况非常匹配，在0.4 m至1 m范围内的平均绝对误差为1.4 cm我们在图8中展示了各种真实世界场景的定性结果，其中包括复杂对象，动态手部运动，没有环境光的无纹理物体，阳光下的对象以及动态户外环境中的移动人员我们在补充视频中展示视频速率深度成像。对比在图11中，我们将我们学习的Polka Lines模式与商用英特尔实感D415模式进行了比较。英特尔pat-tern的平均照明强度进行调整，以配合建议的系统，通过radiometric校准使用积分球（Thorlabs S142 C）。图11显示，我们的强度变化模式比In-tel模式对高动态范围场景更鲁棒，这要归功于更密集的波尔卡圆点模式，第为通用环境学习的DOE包含比为室内场景学习的DOE更宽范围的图案强度，从而实现对这些对象的更好的深度估计。动态范围我们注意到，英特尔模式是高晶圆厂的质量，并没有表现出严重的零阶组件（如我们制造的DOE）。我们在图12中验证了我们学习的通用环境和室内环境的Polka Line变体。通用的变体fea- tures一个广泛的强度范围内的点，从而准确重建低反射率的对象。8. 结论我们介绍了一种方法，学习一个积极的立体摄像机，时代，包括照明，捕捉，和深度 recruitment-tion。从手工设计的照明模式出发，我们学习了新颖的照明模式，波尔卡线模式，它提供了最先进的深度重建和对各种成像条件下结构化照明模式功能的见解。为了实现这种方法，我们引入了一种混合图像形成模型，该模型利用波动光学和几何光学进行有效的端到端优化，以及利用主动立体声系统的三目深度线索的三目反射网络所提出的方法使我们能够设计环境特定的结构化波尔卡线图案量身定制的相机和场景统计。我们通过全面的模拟和实验原型验证了我们方法的有效性，在所有测试场景中均优于在未来，与空间光调制器相结合，所提出的方法不仅可以允许环境照明特定图案，而且可以允许自适应地增加深度精度的语义驱动的动态确认作者感谢Ethan Tseng和Derek Nowrouzezahrai进行了富有成效的讨论。Felix Heide获得了 NSF CAREERAward（2047359）和Sony Young Faculty Award的支持。视差[px]深度[cm]捕获x5缩放DOE激光5766引用[1] 英特尔®实感™深度摄像头D415https：//www.intelrealsense.com/depth-camera-d415/访问日期：2020日。[2] udepth：像素上的实时3D深度感测42020年9月19日访问[3] Mart 'ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Greg S. Corrado，Andy Davis ， Jeffrey Dean ， Matthieu Devin ， SanjayGhemawat ， Ian Goodfellow ， Andrew Harp ， GeoffreyIrving ， MichaelIsard ， YangqingJia ， RafalJozefowicz，Lukasz Kaiser，ManjunathKudlur，JoshLevenber g，DanishMane' ，RajatMong a， Sherry Moore，Derek Murray ， Chris Olah ， Mike Schuster ， JonatheShlens ， Benoit Steiner ， Ilya Sutskever ， Kunal Tal-war ， PaulTucker ， VincentVanhoucke ， VijayVasudevan， Fer-nandaVie'gas，OriolVinyals，PeteWarden ， MartinWatten-berg， Martin Wicke ， YuanYu，and Xiaoqiang Zheng.张量流：异构系统上的大规模机器学习，2015年。[4] Supreeth Achar，Joseph R Bartels，William L'Red' Whit-taker ， KiriakosNKutulakos ， andSrinivasaGNarasimhan.对极飞行时间成像。ACM Transactions onGraphics（ToG），36（4）：1[5] 布莱恩·F作者：Andrew H.放大图片作者：Richard M.Heinrichs ， Bradley J. Felton ， Peter J. Daniels ， andDeborah J. Landers.用于三维成像的盖革模式雪崩光电二极管。13（2）：335[6] Seung-Hwan Baek，Diego Gutierrez，and Min H Kim.用于单次激发深度采集的双折射立体成像。 ACMTransactions on Graphics，35（6）：194，2016。[7] Michael Bleyer，Christoph Rhemann，and Carsten Rother.Patchmatch立体匹配与倾斜的支持赢得。在Bmvc，第11卷，第1-11页[8] 艾扬·查克拉巴蒂通过反向传播学习传感器多路复用设计。神经信息处理系统的进展，第3081-3089页，2016年[9] Julie Chang和Gordon Wetzstein用于单目深度估计和3d物体检测的深度光学。在IEEE国际计算机视觉会议（ICCV），2019年。[10] HDammann和KGörtler. 利用多重相位全息图实现高效率同轴多重光学通信，3（5）：312[11] 杜佩琴，施锡福，陈振雄，王益祥。用于三维距离传感器散斑产生的衍射光学元件设计与验证 OpticalReview，23（6）：1017[12] SeanRyanFanello 、 JulienValentin 、 ChristophRhemann、Adarsh Kowdle、Vladimir Tankovich、PhilipDavidson和Shahram Izadi。Ultrasereo：有效的基于学习的主动立体声系统匹配。 2017年IEEE会议计算机视觉和模式识别（CVPR），第6535-6544页。IEEE，2017年。[13] Cle mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议论文集，第270-279页[14] 约瑟夫 · 古德曼。傅立叶光学简介。 Roberts andCompany Publishers，2005.[15] Tobias Gruber，Frank Julca-Aguilar，Mario Bijelic，andFelix Heide.Gated2depth：来自门控图像的实时密集激光雷达。在IEEE计算机视觉国际会议论文集，第1506-1516页[16] Mohit Gupta，Qi Yin和Shree K Nayar。阳光下的结构光在 Proceedings of the IEEE International Conference onComputer Vision，第545-552页[17] Harel Haim ， Shay Elmalem ， Raja Giryes ， Alex MBronstein，and Emanuel Marom.使用深度学习的相位编码掩码从单个图像进行深度估计。IEEE Transactions onComputational Imaging，4（3）：298[18] Miles Hansard ， Seungkyu Lee ， Ouk Choi ， and RaduPatrice Horaud. 飞行时间相机：原理、方法和应用。Springer Science Business Media，2012.[19] Felix Heide ， Steven Diamond ， David B Lindell ， andGordon Wetzstein.使用单光子传感器的亚皮秒光子效率3d成像。科学报告，8（1）：1[20] 菲利克斯·海德，沃尔夫冈·海德里希，马蒂亚斯·胡林，高登·韦茨斯坦.多普勒飞行时间成像ACM Trans-actionson Graphics（ToG），34（4）：1[21] 史蒂文·希克森，斯坦·伯奇菲尔德，伊凡·埃萨，亨里克·克里斯滕森。RGBD视频的高效分层图分割。第344-351页[22] 海科·赫什穆勒基于半灰度匹配和互信息的立体图像处理 IEEE Transactions on Pattern Analysis and MachineIntelligence，30（2）：328[23] Shahram Izadi ， David Kim ， Otmar Hilliges ， DavidMolyneaux ， Richard Newcombe ， Pushmeet Kohli ，Jamie Shotton，Steve Hodges，Dustin Freeman，AndrewDavison 等人 Kinectfusion ： real-time 3D reconstructionand inter-action using a moving depth camera. 第24届ACM用户界面软件和技术研讨会集，第559-568页，2011年[24] Kaizhang Kang，Cihui Xie，Chengan He，Mingqi Yi，Minyi Gu，Zimin Chen，Kun Zhou，and Hongzhi Wu.学习有效的照明复用，用于反射率和形状的联合捕获。ACM Trans. Graph. ，38（6）：165[25] Andreas Kolb ， Erhardt Barth ， Reinhard Koch ， andRasmus Larsen.计算机图形学中的飞行时间照相机。在计算机图形论坛，第29卷，第141Wi- ley在线图书馆，2010.[26] Adarsh Kowdle ， Christoph Rhemann ， Sean Fanello ，AndreaTagliasacchi，JonathanTaylor，PhilipDavidson，Mingsong Dou，Kaiwen Guo，Cem Keskin，Sameh Khamis，et al. The need 4 speed in real-time densevisualtracking.ACMTrans-actionsonGraphics（TOG），37（6）：1[27] 罗伯特·兰格采用CMOS/CCD技术的定制固态图像传感器进行3D飞行时间距离测量。两千[28] 阿纳特·勒文、罗布·弗格斯、杜兰德和威廉·T·自由人。图像和深度从一个传统的相机，一个编码光圈ACM图形交易（TOG），26（3）：705767[29] Marco ， QuercusHernandez ， AdolfoMunNederoz ，YueDong，Adrian Jarabo，Min H Kim，Xin Tong，andDiego Gutierrez.5768Deeptof：飞行时间成像中多径干扰的现成实时校正。ACM Transactions on Graphics（ToG），36（6）：1[30] 曼努埃尔·马丁内斯和雷纳·斯蒂费尔。释放Kinect：控制高分辨率深度图.在MVA，第247-250页[31] N.Maye r ， E. Ilg ， P.Hausser ， P.Fische r ， D.Cremers，A. Dosovitskiy和T.布洛克斯一个大型数据集，用于训练卷积网络进行视差、光

下载后可阅读完整内容，剩余1页未读，立即下载