iToF相机的弱监督光流估计方法

102 浏览量更新于2023-10-15 收藏 2.09MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2135.Σ用于飞行时间的弱监督光流估计Michael Schelling，Pedro Hermosilla，TimoRopinski Ulm University，德国https://github.com/schellmi42/WFlowToF摘要间接飞行时间（iToF）相机是一种广泛使用的3D传感器类型，其执行多次捕获以获得所捕获场景的深度值。虽然最近校正iToF深度的方法在去除多径干扰和传感器噪声时实现了高性能，但是几乎没有研究来解决运动伪影。在这项工作中，我们提出了一个训练算法，它允许监督光流（OF）网络直接重建的深度，而不需要有地面实况流。我们证明了这种方法能够训练OF网络来对齐原始iToF测量值并补偿iToF深度图像中的运动伪影。该方法是评估单频和多频传感器以及多抽头传感器，并能够超越形式的其他运动补偿技术。1. 介绍飞行时间（ToF）相机是旨在通过测量光从相机上的光源行进到对象并返回相机传感器所需的时间来捕获深度图像除了以高时间分辨率记录光脉冲的入射反射时间的直接ToF相机（诸如LiDAR）之外，另一种常见且具有成本效益的方法是间接ToF（iToF）相机，其不需要精确的测量设备。iToF设备的一种实现是幅度调制连续波（AMCW）ToF传感器，例如在Kinect系统中使用的。这些传感器通过周期性调制的适应虽然有一些研究使用OF来研究运动补偿的工作，但它们仅适用于特定的传感器类型[18，12]或需要精心设计的数据集[9]来训练OF网络。因此，仅检测运动伪影并掩蔽最终深度图像中的受影响像素仍然是常见的方法，例如，如通过用于Kinect传感器的LF2算法[27]实现的。在这项工作中，我们提出了一种用于OF网络的训练算法，该算法允许使用ToF深度图像来监督流量预测，而不需要直接监督预测的流量，参见图11。1.为此，我们分析了ToF深度计算，以在训练期间提供可靠和稳定的gra-tension。此外，我们引入了一组调节损失，引导网络预测与底层图像一致的流量。2. 技术背景在本节中，我们将简要介绍iToF相机。ToF工作原理AMCW iToF相机发射调制光信号s（t），其在传感器处与曝光时间期间发射信号s（t+θ）的相移版本相关对于不同的相移θ，依次重复所得到的测量m，通过估计信号s到达传感器时的相移θφ ，从该相移 θ 间接地检索距离 d 。在四个测量m0，. . . ，m3在θ∈{0，π/2，π，3π/2}处，距离d被重新定义为：φ= arctanm3−m1，（1）m0− m2光信号，旨在检索发射信号和检索信号之间的相位偏移以便检索dToF =c·φ，（2）4πf相位偏移，必须执行多次捕获，这使得该方法对照相机和被照明场景中的物体两者的移动敏感。由于测量是利用不同的传感器设置进行的，因此所谓的多模态，标准光流（OF）算法仅实现低性能，并且因此需要其中，c是光速，f是调制free。信号的频率[11]。由于Eq.的周期性，(1)，重建的dToF仅在最大距离dmax=c/（2f），（3）2136图1.流量估算的图示给定后续时间步的iToF测量，网络用于预测光流，以便将图像与参考图像（底行）对齐根据扭曲的测量结果，可以重建ToF深度图像我们建议直接在这个ToF深度上监督训练，并通过ToF深度计算传播梯度。该图显示了具有四个测量值的单频率、单抽头情况注意由于不同的相移θ而导致的输入中的模态变化。具体地，dToF=dmoddmax，其中距离d被称为深度，这是ToF成像领域中的常见实践。所谓的dToF的相位缠绕通常通过在不同频率f处使用附加测量来解决[11]。然而，Eq。(2)基于以下假设：（a）仅捕获直接反射s（t+φ），以及（b）场景在不同捕获之间是静态的。虽然在最近关于校正iToF深度的工作中已经在很大程度上处理了（a）[1，20，23]，但是仅进行了很少的研究来减少源自（b）的运动伪影。Multi-Tap传感器 iToF传感器的实现是所谓的多抽头传感器，其能够并行捕获m θ的多个测量。最普遍的方法是双抽头传感器，其允许通过使用调制电场将入射光子产生的电子分类到两个量子阱中来同时捕获mA，i=m i和m B，i=m i+2[24]。在内部，这两个测量值用于补偿硬件不准确性并通过计算降低噪声[12]：m i=m A，i− m B，i.（四）为了直接利用方程中的mA、mB（1），需要校准光响应的差异[24]mA，i=rθ（mB，i+2），（5）这使有效帧速率加倍，并且减少但不消除运动伪像。最近还开发了四抽头传感器的原型[5，15]，其在未来可能消除单频捕获中的运动伪影，但在多频传感器中则不然。3. 相关工作本节简要总结了以前在相关字段上的工作。ToF运动校正。早期的运动补偿方法使用检测和修复方法[24，11]，例如：通过执行双边滤波[19]。Lindner等人介绍了使用光流解决运动伪影的第一种方法之一。[18]他们的目标是通过校正方案来处理交叉模态，以从两次点击捕获计算强度图像，其可以用作标准OF算法的输入。基于这种方法，Hoegget al. [12]通过结合运动检测和细化空间一致性来获得OF预测算法的优化，以实现实时性能。Gottfried等人的校准进一步提高了这些方法的性能。[8]的一项建议。相反，我们将整个计算流程（从原始iToF测量到深度重建）集成到我们的优化管道中。第一个学习方法是由Guo etal. [9]提供了校正Kinect 2传感器错误的方法，包括用于OF预测的编码器-解码器网络。为了实现运动补偿的监督学习，生成特定的数据集，其允许模拟图像域中的线性运动，同时分离前景和背景的运动首先，我们提出了一种弱监督训练，它不需要流标签，而是使用ToF深度进行监督，这在现有的iToF数据集中可用光流最近关于OF回归的工作依赖于神经网络，这已被证明优于传统方法[26]。典型的设计，使用共享的图像编码器和潜在的成本量，首先介绍了Dosovitskiy等人。[7]在他们的FlowNetC架构中，与FlowNetS网络一起使用编码器/解码器架构。随后，出现了大量关于运动估计领域中的各种应用[29，17]和公式[2，13]的文献为了减少…Diff.TOF损失相机轨迹流流流预测GT ToF2137.L联系我们i=0时.i=0时--LGT我LLΣ.推定成本，Sunet al. [26]在他们的Pyramid-Warping-Cost-Volume（PWC）网络中引入了一种由粗到细的分层架构。Kong等人进一步完善了该设计。[16]在他们的FastFlowNet（FFN）架构中，减少了计算复杂性并实现了快速推理时间。为了克服为监督训练生成地面实况流的需要，无监督方法[14，22，28，13]优化图像之间的光度一致性并应用正则化来细化流预测。ToF校正。多径干扰（MPI）的出现是iToF深度重建中的主要误差来源。因此，校正iToF数据的现有工作集中在移除MPI伪影上。与OF预测一样，2D神经网络已被证明可以实现高噪声去除性能[1，20，25，9，6]。然而，最近也研究了其他学习方法，例如重建瞬态响应[4，10]或使用3D点网络[23]。4. 方法在这项工作中，我们提出了一个弱监督的OF网络使用的ToF深度dTOF作为标签，而不提供地面真理流向量场。为了能够使用深度标签进行训练，相位缠绕不连续。具有自动微分功能的常用学习包，如Pytorch [21]或JAX [3]，允许以弱监督方式训练流网络g4.1. 相位展开上述公式中的相位缠绕可以通过生成多个候选深度d_k=d_k+k·d_max并使用最接近标签的深度作为预测来解决dk=d+k·dmax（11）LToF，PU=min{<$d<$k−dToF<$1k∈Z} 。（十二）由于dT和dToF都在[0，dmaxx）的范围内，候选空间被减少到k1，0，1，并且方程中的最小化。(12)可以通过简单的查找表d−dToF∈（−dmax，dmax/2]：k=−1，（13）d−dToF∈（−dma x/2，dma x/2]：k=0，（ 14 ） d−dToF∈ （ dmax/2 ， dmax ）：k=1。（十五）然而，在训练期间，仅ToF、PU的梯度是相关的，其可以从查找表导出为在Eq.需要考虑反正切函数的（1），并且需要建立关于流预测的正则化以预测一致流而无需直接监督。我们考虑一个OF网络g：（{mi}N −1，mN）→TPLToF，PU=LToF，0≤LToFdmax/2，− LToF，LToF≥dmax/2，（十六）V iN-1，其预测针对一组测量m i的一组光流V i，以便将它们与在参考时间步长处进行的测量m N对准。此设置中的标准光度损失将被给出为mi=warp（mi，Vi）（6）Lphoto=mi−mi第1章（7）我其中，mGT与mN在相同的时间步长处取得。相反，我们建议使用ToF深度dToF作为目标，在重建深度上间接地监督网络g，而为了增加数值稳定性，我们用公式表示重建的深度d因此，可以直接从方程计算。（十）、这允许相位展开的计算廉价且优雅的实现，通过仅调整ToF的梯度，等式（1）：(10)根据Eq. (16)在在G.4.2. 正则化通过正则化预测，建立了预测流Vi的附加约束，这使得网络能够在不使用流标签的情况下产生相干预测。我们使用两个额外的正则化损失，平滑损失平滑和边缘感知损失边缘。对于平滑，我们适应乔恩- schkowski等人的公式。[14]我们的背景L=λexp.-λ。格莱姆岛你好。基夫岛、（十七）s=sign（m0−m2）（八）Σ光滑. J.2138L. J.d=C4πfarctanm3−m1m0−m2+s·、（9）i、j其中λ是边缘加权因子，x0，x1是两个LToF=d−dToF1，（10）这避免了奇点作为等式中的分母。(9)严格为正的，且x>0。Eq. 10对图像尺寸。这种损失会对Vi在mi的均匀区域中，即，其中mi具有小梯度。平滑的直觉是同质的-新的区域预计将向同一方向移动。2139FFN翘曲mk成本Fi体积E D流iL边缘EFN学习损失输出微分Diff.TOF经纱LsimCL光滑L......LL−Nxj我xj+sΣΣΣ图2.概述了这项工作中使用的损失函数。我们的主要损失是ToF损失ToF（右），其使用可微分运算在重建的ToF深度上计算，并且适于提供相位展开梯度。为了约束流预测，使用损失L平滑（顶部）来正则化流，并且通过损失L边缘（中心）给出对扭曲图像mi的附加正则化最后，损失Lsim旨在创建网络内部潜在表示之间的一致性注：损失LToF和Lsim是在所有i上计算的。该图显示了单击情况，其中每个时间步长仅进行一次测量为了进一步正则化网络以预测正确对齐的对象边界，我们引入了边缘感知损失4.4.网络架构作为骨干网，我们研究了两个网络，L边缘= Σexpi、j−1. 好吧1·，（十八）运动模块（Motion Module，简称MOM）是由Guo等人提出的。[9]对于ToF运动校正，以及Kong等人的FFN。[16]这是一个轻量级的网络，性能与最先进的网络不相上下，其中，λ是用于数值稳定性的小常数，移位S用于提供边缘梯度的上限。这种损失会损害在mN具有较大梯度的区域中的翘曲测量值m N i中的小梯度，I.E.其中mN具有边的区域。边缘的直觉是，可以预期对象的边界在测量中独立于模态地创建边缘。工程. FNN网络是基于FlowNetS [7]的编码器-解码器网络，而FFN集成了潜在成本量并且基于PWC网络。这两个网络工程允许快速评估时间和低内存消耗，使我们能够预测多个流。而基于BP神经网络的流量预测直截了当，即，它取集合{m i}N作为输入并注意，Lsmooth作用于流Vi，而Ledge是预测所有流{N}i=0时计算的warped测量mi，见图。二、4.3.交叉模态为了引导网络学习潜在表示Fi，参见图。2，其对输入模态是鲁棒的，我们利用g（mi）中的潜在表示的列向量Fi（k，l）上的潜在相似性损失，受以下启发：Vii=0，我们将简要描述下面我们来看看如何执行FFN。请注意，FFN的计算是在分层特征金字塔上实现的，但是为了紧凑表示法，我们在下面的描述中忽略了分层结构级别。FFN由公共构建块、图像编码器E、成本量计算C和流预测解码器D.给定测量值{m}N，对比学习我们对每个测量值进行ii=0Lsim=LFi（k，l），Fi（k，l），（19）ij k，l其中L是相似性损失，例如，L1，L2，余弦相似度或代价函数.在训练过程中，我们优化了静态场景的相似性损失，而没有运动。所有损失及其在计算流程中的积分概述如图所示二、m i转换为潜在向量Fi=E（mi）。然后使用潜在向量来计算具有最后测量的每个配对的成本量，I.E. c i=C（F i，F N），其中i= 1，. . .、N1。解码器然后使用成对的成本体积和潜在向量作为输入来预测流Vi=D（Fi，ci），用于单个图像对的过程也在图1的左侧示出。2.在扭曲测量mi之后，图像的部分可能保持为空，因为没有像素被扭曲到该区域，这些区域被称为掩蔽。LToF联系我们2140L≈输入我们的（FFN）Ours（我们的）FFNPWCUFlow错误MAE：12.77cm4.68厘米5.54厘米6.91厘米6.30厘米11.71厘米规模图3.运动补偿导致单频单抽头情况。预训练的网络和我们的方法都解决了运动伪影，但是我们的方法比预训练的网络提高了性能。此外，UFlow方法不能校正运动伪影。然而，当相机是静态的并且只有中心对象在移动时，所有方法都具有移动背景的某种趋势，这引入了额外的伪影。（扭曲后的空白区域以黑色显示。）在该公式中，网络仅考虑两个测量mi、mN来计算Vi。尽管其他测量包含关于运动的附加信息，但是上述公式允许针对所有测量共享编码器和解码器网络，并且不增加参数的数量。我们进一步将实例归一化应用于网络的输入，如Su等人的ToF误差校正方法中所使用的。[25]，这不影响等式2中的深度重建。(2)因为它对于测量的均匀缩放和平移是不变的。在多抽头传感器的情况下，我们改变编码器E的输入尺寸，使得其接收在同一时间步长捕获的所有测量值作为输入。5. 实验在我们的实验中，我们使用第二节中描述的损失函数来训练FFN和FFN的实例4.第一章在网络的情况下，我们不使用相似性损失sim，因为网络由于其不同的架构设计而不产生潜在向量Fi我们比较了在FFN的RGB数据上使用预先训练的实例，以及更大的PWC [26]，它需要8倍的计算[16]。在多点传感器的情况下，我们还与Lindner方法[18]结合FFN和PWC的预训练实例进行了比较。此外，我们与UFlow方法[14]进行了比较，UFlow方法是一种以无监督方式训练OF网络的方法，并使用PWC作为骨干。我们在与我们的方法相同。数据集。我们在Schelling等人的CB数据集上进行了实验。[23]因为它包含原始测量值方法L照片LToF掩模输入50.09 16.87-FFN 54.21 14.63 12.40%PWC 49.16 13.70 4.12%UFlow 58.71 12.76 3.24%我们的（美元）34.64 7.64 0.97%我们的（FFN）23.27 5.811.60%输入34.45 5.93-FFN 29.83 5.44 6.18%PWC 19.77 4.03 3.55%UFlow 38.22 4.90 2.07%林德纳（FFN）21.01 4.22 2.35%林德纳（PWC）18.11 3.85 2.12%我们的（美元）24.673.250.73%我们的（FFN）17.223.66 0.56%表1.单频单抽头（SF 1Tap）和双抽头（SF 2Tap）的结果预训练的网络FFN和PWC以及无监督UFlow方法在大多数情况下只能实现较低的校正率。Lindner方法显著地减小了误差，特别是当使用较大的PWC作为主干时，仍然优于我们提出的方法。对于三个不同的频率。它由143个场景组成，每个场景沿着相机轨迹从50个视点渲染，这允许模拟改变视点的真实运动。由于CB-Dataset仅包含静态场景几何形状，我们使用相同的数据模拟管道生成了14个具有移动对象的额外场景，以增加数据集中的移动变化。我们使用原始训练划分数据集误差ToF深度SF 2Tap-40厘SF 1Tap0cm40cm2141LL输入我们的（FFN）Ours（我们的）普华永道Lindner（PWC）UFlow错误MAE：5.88 cmMAE：3.28 cm2.63厘米1.41厘米3.26厘米1.68厘米9.69厘米3.21cm3.32厘米1.91厘米3.59厘米2.71厘米规模图4.对于具有移动相机的场景，运动补偿导致多频率四抽头情况我们的方法实现了最佳的运动补偿，其次是林德纳在这种情况下，预先训练的PWC和UFlow方法都失败了（扭曲后的空白区域以黑色显示验证和测试分离，并进一步将额外的场景划分为10个训练场景，每个场景2个用于测试和验证，其中我们使用20MHz测量。5.1. 单频运动补偿对于单频实验，我们还使用了数据集的20MHz测量值在单抽头的情况下，我们从四个随后的时间步长中进行四次测量，在双抽头的情况下，我们从两个时间步长中进行对（m0，m2）和（m1，m3）我们测量ToF、光度损失照片和扭曲后掩蔽像素的百分比，并在Tab中报告测试集的结果。1.一、我们发现，用我们的方法训练的网络比预训练的OF网络和UFlow方法取得了更好的结果单抽头情况的结果见图1。3.第三章。林德纳方法的结果方法L照片LToF掩模输入113.73 19.68-FFN 124.88 25.06 10.76%PWC 83.15 16.01 8.91%UFlow 136.55 13.86 7.76%我们的（美元）65.91 11.92 1.43%我们的（FFN）80.43 13.77 0.34%输入69.06 8.17-FFN 78.33 9.71 5.90%PWC 49.23 7.51 4.02%UFlow 81.45 5.95 4.82%林德纳（FFN）40.26 5.60 2.55%林德纳（PWC）35.24 5.16 1.80%我们的（美元）44.68 4.98 0.64%我们的（FFN）30.71 4.430.32%但只有在使用更大的主干时，网络PWC。在同一骨架上，分子间的间隙较大.此外，在两个抽头的简单设置中，并且因此也在两个时间步长中，简单的FFN主干比更复杂的FFN主干产生更好的性能，两者都用我们的方法训练。此外，我们观察到UFlow方法增加了光度损失，我们将其归因于该方法旨在最大限度地减少输入40.42 5.26-FFN 57.54 6.93 0.06%PWC 31.09 5.41 0.06%UFlow 51.10 4.17 1.96%林德纳（FFN）27.52 3.94 0.06%林德纳（PWC）22.173.49 0.06%我们的（美元）29.64 3.11 0.48%我们的（FFN）27.143.030.08%不同模式的图像。此外，UFlow还具有倾向于掩盖受运动影响的区域，如图所示。4，这导致ToF损失减少，而不校正误差。5.2. 多频运动补偿对于多频率实验，我们使用了数据集的三个频率20MHz、50MHz和70MHz在单次点击的情况下，我们从表2.多频单抽头（MF 1Tap）、双抽头（MF 2Tap）和四抽头（MF 4Tap）的结果在这种具有更强模态变化的环境中，预先训练的网络在大多数情况下都会失败。林德纳在较大的PWC上也紧跟着我们的方法。十二个连续的时间步长。在两抽头的情况下，我们从六个时间步长中取对（m0，m2）和（m1，m3）。最后ToF深度50MHzToF深度20MHzMF 4TapMF 2抽MF 1抽-10厘0cm10cm2142LLSF 1抽头MF 2抽头方法MAE Rel. 误差投入39.49100.00%CFN 19.3949.10%CFN + Ours（FFN）11.4729.05%DeepToF 16.6542.17%DeepToF + Ours（FFN）15.1138.26%输入10.65100.00%GT深度MAE：CFN11.43厘米CFN+我们7.30厘米CFN5.14厘米CFN+我们2.01厘米误差标度CFN 6.71 63.01%CFN + Ours（FFN）5.54 52.02%E2E 10.44 98.03%E2E+我们的（FFN）8.27 77.65%RADU 11.21 105.26%RADU + Ours（FFN）8.00 75.12%表3.单频单抽头（SF 1Tap）和多频双抽头（MF 2Tap）情况下的运动、多径干扰和传感器噪声补偿所有方法都受益于使用我们的方法的运动校正。在四抽头的情况下，我们使用三个时间步长，每个频率一个时间步长。测试集的ToF和光度损失照片的结果报告在表1中。2，并显示为四抽头的情况下，图。4.第一章在这种情况下也可以观察到单频实验的结果，我们的方法实现了最佳性能，其次是Lindner的方法。此外，用我们的方法训练的FFN，虽然仍然优于其他方法，但性能相当低。图5.使用CFN网络的组合运动和MPI校正的结果。在没有附加运动补偿的情况下，运动伪影仅被部分校正。结合方法，它们仅限于对象边界。将任务框定为去噪的网络很好地处理了运动伪像，见图。5，而更复杂的方法E2E，它制定了一个生成的图像翻译任务，和RADU，它在3D点云上操作，在这个设置中的斗争。值得注意的是，没有一种方法被设计用于校正运动伪影。5.4. 消融本节提供了损失部分的消融。5.4.1组件消融为了分别研究每个损耗分量的影响，我们在禁用各个分量的同时训练FFN网络的实例。此外，我们替换ToF在《易经》中，有一种说法是：时间步长数最多的情况，因此损耗LTOF光度损失L照片此外，最大的运动，以及附加地仅一个抽头的最低输入维度，这可能使得编码器E更难提取模态不变特征。此外，预先训练的OF网络在这些设置中有失败的倾向，特别是FFN，这可能来自于在不同频率下进行的测量的较大模态间隙，如图2所示。4.第一章5.3.运动补偿和误差校正为了衡量对下游误差补偿技术的影响，我们在模型的输出上训练ToF校正网络的实例。对于该实验，考虑了单频单抽头情况和多频双抽头情况。我们在单频情况下使用单频方法DeepToF [20]和自适应CFN [1]，并且在多频情况下使用多频方法CFN，E2E [25]和RADU [23]。为了进行比较，我们还在不执行运动补偿的情况下训练网络的实例，并在Tab中报告测试集的结果。3我们观察到，所有方法都受益于其输入中我们进一步观察到，2Dally只使用ToF损失作为基线来训练实例。确认集的结果报告在表1中。4从结果可以看出，所有损耗的组合实现了最佳性能，并且每个组件都降低了损耗。在监管损失之外，平滑损失Lsmooth具有最高的影响，其次是边缘感知损失Ledge，最后是潜在相似性损失Lsim。此外，ToF损失产生大的性能方法L照片LToFLToFLToF+Ledge+Lsim35.949.67LToF+Lsmooth+Lsim34.658.54LToF+L光滑+L边缘32.57七点八七LToF+ Lsmooth+ Ledge+ Lsim28.767.21表4.在单频单抽头情况下，使用FFN作为OF骨干，对损耗分量进行消融。MF 2抽SF 1Tap误差深度-40厘米40cm0cm输入70.3923.71L照片+L平滑+L边缘+L模拟38.6538.4212.4310.172143·LLLLLLL输入（详细信参考翘曲后与光度损失相比，即使没有正则化，也可以获得更好的性能。5.4.2相似性损失函数SF 1抽头MF 2抽头方法L照片LToFL照片LToF作为潜在相似性损失L的定义sim进行当量(19)保持一般性，它允许使用不同的相似性度量L。我们研究了标准的L1和L2距离，成本函数，用于成本体积计算和余弦相似性L p：<$F i（k，l）−F j（k，l）<$p， p= 1，2（20）成本：−Fi（k，l）·Fj（k，l），（21）余弦：−Fi（k，l）·Fj（k，l），（22）<$Fi（k，l）<$2 <$Fj（k，l）<$2其中表示标量积。我们考虑在这种消融中的单频单抽头和多频双抽头情况，并使用上述相似性度量以及所有其他损耗分量来训练FFN的实例。此外，我们使用无相似性损失作为基线来训练实例，并且在两次点击的情况下，与使用Lindner的特征作为输入而不是相似性度量进行比较。从结果中可以看出，在Tab. 5、我们发现余弦相似度在两种情况下都达到了最好此外，在多频率两抽头的情况下，余弦相似性是唯一的措施，改善了不使用相似性损失，包括林德纳因此，相似性度量的使用和选择都需要仔细考虑。6. 限制虽然两个骨干OF网络都取得了良好的结果，但我们遇到了逃避正则化损失的情况。例如，平滑损失平滑确保对象的连续流，然而基于对象的均匀外观来检测对象，这可能会失败。表5.以FFN为主干，对sim进行不同损失函数的消融。在验证集上。事实上，在不访问地面实况流的情况下，这种情况在训练期间呈现局部最小值。此外，虽然我们在最大的可用iToF数据集上展示了我们的方法[23]，但这项工作仅限于合成设置，因为目前没有包含原始iToF测量的真实世界数据集。最后，骨干网的选择影响不同环境下的性能，即。在多频单抽头设置中，FPN明显优于此外，由于我们的贡献是一个训练算法，因此执行时间由底层OF网络的执行时间给出，而在不同的设置中，它几乎是恒定的，它随着FFN的预测流的数量线性增长。因此，期望具有用于iToF运动校正的OF网络，其在该多模态多帧流预测问题中具有恒定的高性能。7. 结论在这项工作中，我们提出了一种用于OF网络的训练方法，为此，我们启用ToF上的弱监督训练高频细节虽然边缘损失边缘可以重新-解决了大多数案件，但有时还是错误的部分，损耗LTOF使用用于梯度的相位展开方案图像是匹配的，特别是当附近的图像补丁有类似的外观，见图。6. 我们认为这是图6.一个对象的例子，我们的正则化失败了。高频模式阻止平滑对对象强制执行一致流。由于重复的图案，网络将输入图像中的黄色区域与参考图像中的青色区域相匹配，并且对象被扭曲。耳鼻喉科矫正结合调节流预测的正则化损失平滑和边缘，以及解决多模态的相似性损失sim实验表明，该方法能够补偿单频和多频以及单抽头和多抽头传感器的运动伪影。此外，我们的训练方法被证明为两个骨干OF网络，具有不同的架构，并且能够超越现有的方法。8. 确认该项目由巴登-符腾堡基金会资助输入70.3923.7193.1711.98林德纳--45.597.48没有一32.577.8748.137.36L132.157.9754.277.88L234.377.6154.327.78成本41.8810.7353.987.87余弦28.767.2145.496.672144引用[1] 吉安卢卡·阿斯蒂和彼得罗·扎努蒂格。用于ToF传感器中多路径误差去除的深度学习。在欧洲计算机视觉会议（ECCV）研讨会论文集，第0-0页[2] Filippo Aleotti，Matteo Poggi，and Stefano Mattoccia.从静止图像学习光流。在IEEE/CVF计算机视觉和模式识别会议论文集，第15201-15211页[3] 詹姆斯·布拉德伯里冰霜斯蒂格彼得Hawkins、Matthew James Johnson、Chris Leary、Dougal Maclau-rin、George Necula、Adam Paszke、Jake VanderPlas、SkyeWanderman-Milne 和 QiaoZhang 。 JAX ：Python+NumPy程序的可组合转换，2018。[4] Enrico Buratto ， Adriano Simonetto ， Gianluca Basti ，Hen-rikSc hüfer，andPietroZanuttigh. 从ToF数据进行瞬态图像重建的深度学习传感器，21（6）：1962，2021。[5] 陈法泉，应仁东，薛建伟，文飞，刘培林。用于间接飞行时间传感器的可配置实时多频3D图像信号处理器IEEE Sensors Journal，22（8）：7834[6] Guanting Dong，Yueyi Zhang，Zhiwei Xiong.用于飞行时间深度去噪的空间层次感知残差金字塔网络。在欧洲计算机视觉会议上，第35-50页。Springer，2020年。[7] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在IEEE计算机视觉国际会议的论文集，第2758-2766页[8] Jens-Malte Gottfried ， Rahul Nair ， Stephan Meister ，Christoph S Garbe，and Daniel Kondermann.飞行时间运动补偿的重新审视。2014年IEEE图像处理国际会议（ICIP），第5861-5865页。IEEE，2014。[9] Qi Guo，Iuri Frosio，Orazio Gallo，Todd Zickler，andJan Kautz.通过学习和FLAT数据集处理3D ToF伪影。在欧洲计算机视觉会议（ECCV）的会议记录中，第368-383页[10] Felipe Gutierrez-Barragan，Huijin Chen，Mohit Gupta，An- dreas Velten，and Jinwei Gu.iToF2dToF：数据驱动的飞行时间成像的强大而灵活的表示。 IEEETransactions on Computational Imaging，7：1205[11] Miles Hansard ， Seungkyu Lee ， Ouk Choi ， and RaduPatrice Horaud. 飞行时间相机：原理、方法和应用。Springer Science Business Media，2012.[12] Thomas Hoegg ， Damien Lefloch ， and Andreas Kolb.PMD-ToF图像的实时运动伪影补偿。在飞行时间和深度成像。传感器、算法和应用，第 273-288 页。Springer，2013.[13] Joel Janai 、 Fatma Guney 、 Anurag Ranjan 、 MichaelBlack和Andreas Geiger。具有遮挡的多帧光流的无监督学习在欧元的进程中计算机视觉会议（ECCV），第690- 706页，2018年。[14] Rico Jonschkowski，Austin Stone，Jonathan T Barron，Ariel Gordon，Kurt Konolige，and Anelia Angelova.无监督光流中的问题。arXiv预印本arXiv：2006.04902，2020。[15] Min-Sun Keel ， Young-Gu Jin ， Youngchan Kim ，Daeyun Kim，Yeomyung Kim，Myunhan Bae，BumsikChung，Sooho Son，Hogyun Kim，Taemin An，et al.一种VGA间接飞行时间CMOS图像传感器，具有4抽头7-µm全局快门像素和固定模式相位噪声自补偿。IEEEJournal of Solid-State Circuits，55（4）：889[16] 孔灵通，沈春华，杨洁。FastFlowNet：一种用于快速光流估计的轻量级网络。在2021年IEEE机器人和自动化国际会议（ICRA）上，第10310-10316页。IEEE，2021。[17] Ruoteng Li ， Robby T Tan ， Loong-Fah Cheong ，Angelica I Aviles-Rivero ， Qingnan Fan ， and Carola-Bibiane Schonlieb.雨流：雨条和雨幕效应下的光流。在IEEE/CVF计算机视觉国际会议论文集，第7304-7313页[18] 马文·林德纳和安德烈亚斯·科尔布。飞行时间相机的运动伪影补偿在动态 3D 成像研讨会上，第 16-27 页Springer，2009.[19] Oliver Lottner ， Arnd Sluiter ， Klaus Hartmann ， andWolfgang Weihs.飞行时间相机距离像中的运动伪影2007年信号、电路与系统国际研讨会，第1卷，第1-4页。IEEE，2007年。[20] Julio Marco，Quercus Hernandez，Adolfo Munoz，YueDong ， Adrian Jarabo ， Min H Kim ， Xin Tong ， andDiego Gutierrez.DeepToF：飞行时间成像中多径干扰的现成实时校正。 ACM Transactions on Graphics（ToG），36（6）：1[21] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zeming Lin 、 Natalia Gimelshein 、 LucaAntiga 、 Alban Desmaison 、 Andreas Kopf 、 EdwardYang 、 Zachary DeVito 、 Martin Rai son 、 AlykhanTejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chintala。PyTorch：命令式的高性能深度学习库。神经信息处理系统进展32，第8024-8035页。Curran Associates，Inc. 2019年。[22] Zhe Ren，Junchi Yan，Bingbing Ni，Bin Liu，XiaokangYang，and Hongyuan Zha.用于光流估计的无监督深度学习。在2017年第31届AAAI商业智能会议[23] 迈克尔·谢林，佩德罗·赫莫西利亚，蒂莫·罗平斯基。RADU：用于ToF数据去噪的光线对齐深度更新卷积在IEEE/CVF计算机视觉和模式识别会议论文集，第671-680页，2022年。[24] 米尔科·施密特3D飞行时间成像系统的分析、建模和动态优化。博士论文，2011年。[25] Shuochen Su ， Felix Heide ， Gordon Wetzstein ， andWolfgang Heidrich.深度端到端飞行时间成像。在IEEE计算机视觉和模式识别会议上，第6383-6392页，2018年2145[26] 孙德清、杨晓东、刘明宇和Jan Kautz。PWC-Net：使用金字塔，扭曲和成本体积的光流CNN。在IEEE计算机视觉和模式识别会议论文集，第8934-8943页，2018年。[27] Lingzhu Xiang，Florian Echtler，Christian Kerl，ThiemoWiedemeyer，Lars，hanyazou，Ryan Gordon，FranciscoFa- cioni ， laborer2008 ， Rich Wareham ， MatthiasGoldhoorn ， al- berth ，

下载后可阅读完整内容，剩余1页未读，立即下载