光学扩展测量中的场景深度变化

83 浏览量更新于2023-10-20 收藏 1.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1通过光学扩展1年1， 2杨庚山1卡内基梅隆大学，2Argo AI{gengshay，deva}@ cs.cmu.edu摘要我们描述了一种用于将2D光流升级为3D场景流的方法我们的关键见解是，密集的光学扩展-可以从单目帧对可靠地推断-揭示了场景元素深度的变化，例如，越靠近的东西越大。当与相机本征函数集成时，光学扩展可以被转换成归一化的3D场景流矢量，该归一化的3D场景流矢量提供3D移动的有意义的方向，但不提供它们的幅度（由于潜在的尺度模糊性）。标准化的场景流可以进一步“升级”为在一帧中知道深度的真实3D场景流。我们表明，可以从注释的光流图或未标记的视频序列中学习两个视图之间的密集光学扩展，并将其应用于各种动态3D感知任务，包括光学场景流、LiDAR场景流、碰撞时间估计和深度估计，通常表现出对现有技术的显著改进。1. 介绍三维运动估计对于自主机器人在动态世界中安全移动至关重要。例如，动态需求中的碰撞避免和运动规划取决于这些推断[8，33，34，40]。许多机器人平台利用立体摄像机或飞行时间传感器，其度量距离是可访问的。这里，可以通过搜索帧上的对应关系或3D点云之间的配准来确定3D运动。这种主动感测和固定基线立体方法由于有限的基线和稀疏的传感器读数而难以捕获远处的物体在这项工作中，我们分析了单目摄像机的动态3D感知问题，它不受基线或稀疏读数的影响。然而，在不对场景刚性进行假设的情况下，从单目摄像机估计3D运动从根本上来说是不适定的：给定一个特定的2D流矢量，存在无限多对3D点验证码将在github.com/gengshan-y/expansion上提供。图1.光流与光学膨胀。从左至右：重叠的两个连续帧、颜色编码的光流场和光学扩展图，其中白色表示朝向相机的较大扩展或运动。请注意，很难从光流直接然而，从光学膨胀中很容易看出鹰正在接近凯姆拉沿着两个自由度（通过对源和目标像素的两条射线进行反向投影获得-参见图11）。3）投影到相同的2D流。直觉上，一个缓慢移动的近距离物体将产生与一个快速移动的远距离物体相同的2D流。然而，已经有许多尝试使用多体SfM和非刚性SfM进行单目动态场景重建[26，64]。最近的方法[6]试图解决单目场景流问题的一般性。因为这样的任务是欠约束的，所以这些方法需要依赖于强的先验假设，其形式为先验3D几何形状（通常从数据驱动的场景中学习）或先验3D运动（通常为刚体先验），其难以应用于相反，我们推导出一个简单但直接的几何关系之间的3D运动和2D对应，使我们能够提取到规模的3D运动。为什么要进行光学扩展？人类感知告诉我们，物体感知尺寸的变化是确定其深度运动的重要线索[50，52]。事实上，光学膨胀也是生物导航、接触时间预测和隐约估计的众所周知的线索[15]。受这些观察结果的启发，我们建议用2D光学膨胀测量来增强2D光流测量：对于参考帧中的每个像素，我们估计2D偏移和相对尺度变化（u，v，s），如图12所示。二、我们表明，这样的措施- ments可以鲁棒地从图像对中提取，重要的是，解决了一半的基本模糊的三维运动估计。因为光学膨胀是局部的13341335(a)Z图像平面×（一）（b）第（1）款（c）第（1）款（b）Z图2.光学膨胀与光流。(a)：参考图像，其中我们对标记为蓝色的像素的位置和比例变化感兴趣;（b）：提供位置的光流照相机X相机图像平面Xchange（u， v）;（c）：提供尺度变化s的光学扩展。直观地，光学膨胀可以测量为矩形覆盖的两个面积之间的比率的平方根。像素测量，我们证明，它可以容易地纳入现有的方法，用于自学习的光流，提高精度。具体地，在缩放的正射相机投影模型下，光学扩展直接等效于非正射相机的深度运动旋转投影到对应的源像素和目标像素的场景元素。这消除了一个自由度。当与相机本质和光流相结合时，光学扩展揭示了3D运动的真实方向图3表明，我们现在知道一个物体是靠近还是远离相机移动，但仍然存在整体尺度模糊性，这也可以通过指定一个点对沿其反向投影射线的深度来解决。方法提出了一种基于局部仿射变换的光学膨胀估计从现有的光流和3D场景流训练数据集获得相对尺度地面实况。我们还提出了一种自监督的方法来学习光学膨胀从输入图像的光度信息。我们的贡献总结如下。（1）从理论上推导了光学扩展，以减少单目场景流固有的模糊性。(2)我们提出了一个神经架构的归一化场景流估计，编码强大的几何知识，并导致更好的可解释性和generalization。(3)我们证明了光学扩展在各种基准任务中的有效性，为光学场景流，LiDAR场景流，碰撞时间估计建立了新的SOTA结果-同时比现有方法快得多，并改善了自监督光流的结果。(4)我们采用密集的光学扩展的两帧深度估计，并显示改进基于三角测量的方法在数值上不稳定的区域附近的核。2. 相关工作视觉对应视觉对应可以追溯到人类视觉感知和3D重建的早期工作，在那里发现了点对应图3. (a)：从场景流t到光流u的投影。(b)：从场景流t到归一化场景流的投影，t=t/Z。归一化场景流是一个三维矢量，它扩展了标准光流以捕捉深度变化。请注意，当将4DoF场景流矢量投影到图像平面时（给定参考2D点），2DoF可以通过光流恢复，2DoF丢失：1）深度Z，其不可恢复; 2）和深度运动，这可以从光学展开中恢复。需要解决感知深度和3D结构可以从他们的投影点恢复[35，54]。仿射对应定义了点对应的邻域之间的2 2仿射变换，以编码关于场景几何结构的高阶信息[2，3，46]。类似于仿射对应，我们提取点对应的局部信息来编码关于深度运动的丰富几何信息，但不是旋转或剪切。尺度估计视觉特征的尺度变化的概念在特征描述和匹配[4，31，42]以及密集光学的背景下得到了很好的研究。计算流量[44，57，59]。在这些方法中，尺度通常被视为用于产生更好的描述符和特征匹配的离散辅助变量，而不是在精细尺度下被估计为其他一些方法要么通过拉普拉斯滤波直接估计固有尺度[41]，要么从光流场的发散度计算尺度变化[9，58]，但给出了次准确的结果。相反，我们的方法以数据驱动的方式可靠地产生连续密集的光学扩展。此外，还针对3D重建探索了相对尺度和深度变化之间的关系[12，43，49，62作为机器人中的碰撞避免[20，33，40]。然而，现有的方法往往集中在对象级的规模变化和稀疏的兴趣点。我们的工作将相对尺度和深度变化的概念扩展到3D场景流估计的密集、低级别单目动态重建单目3D运动估计的现有工作将任务视为单目场景重建的子问题，试图联合恢复运动和深度[26，45，48，55]。由于这个问题的不适定性，他们要么依赖于强运动先验，如多刚体[45，55]和尽可能刚性[26]，要么依赖于强形状先验，如低秩和子空间的并集[17，64]。那些手工制作的前科犯幻想出了很好的重建，1336−−式中，L<$=Lcosσ表示透视缩短。作为-图4.我们在两个时间步（a）和（b）的缩放正交投影下可视化移动对象给出一个定义如果场景是局部刚性的，并且其中一个刚性片段在两个帧之间从Z到Z'改变其深度，同时保持其物理大小L和方向σ不变。将光学膨胀定义为其投影的比率长度l′/l，并将深度运动τ定义为深度Z′/Z之比。我们现在可以推导出s=1/τ，假设1）缩放的正交相机模型和2）场景元件不旋转相对于相机（图。4）：光学展开s=l′/l和深度运动τ=Z′/Z，方程1fL¯fL¯l′Z1得出s=1/τ。假设得到满足，但在其他情况下不适用。对l=，l′=ZZ′s===（1）l Z′ τ另一方面，当场景元素是分段刚性的时，我们可以利用平面单应性来重建最大尺度的局部运动。然而，单应性估计对2D对应中的噪声敏感，需要使用强先验来正则化问题[26]。在这项工作中，我们提出了一个更简单的表示局部运动，例如。光学膨胀，这可以从真实世界的图像中可靠地估计，因为需要推断的自由度更少。3. 方法在本节中，我们首先建立了比例正投影模型下光学膨胀与深度运动之间的关系然后，我们推导出一个直接的关系之间的深度运动，归一化的三维运动，和场景流。最后，我们提出了一个学习光学扩展和规范化的3D流的神经结构。3.1. 光学膨胀在这里，我们明确地推导出光学膨胀之间的关系，它描述了每一个的变化3.2. 归一化场景流在上一节中，我们证明了深度运动τ可以从缩放的全息相机模型的光学展开s计算。在本节中，我们展示了深度运动τ可以与相机本征函数K相结合来计算归一化的3D场景流向量。给定相机本征函数K，对于将其位置从P改变到P′的3D点，我们有P=λ K−1p，P′=λ′ K −1pλ′，其中p和p′是齐次2D坐标，最后一个坐标为1，λ和λ′是比例因子。因为固有矩阵K的最后一行是（0，0，1），所以比例因子直接等于每个点的深度：λ=Z，λ′=Z′。根据先前的工作[38]，我们将场景流建模为3D相对于相机的运动向量，其分解出相机运动。然后，场景流t被计算为：t= P′− P=K−1（Z′p′−Zp）物体的大小和深度运动。我们首先一个简单的针孔相机模型，=ZK−1 ..τ（u+p）p.. 哪里u=p′−pP=（X， Y， Z）到图像位置（x， y）中：=ZK−1（τ1）p+τu ..p=（x，y）= f（X， Y），Z=Zt哪里 Kt=K−1（τ−1）p+τu（二）其中f是焦距。在缩放的正射相机模型下，物体上所有点的投影可以通过在前平行平面上的正射投影以及平面的透视投影来计算[19]。如果对象的深度变化与其距相机的距离相比很小，则这种近似是合理的在对象的物理长度为L并且其取向σ被定义为表面法线与相机z轴之间的角度的情况下，对象的投影长度然后由下式给出：我们将Wnt表示为它可以当增加了帧Z或Z′中的点的真实深度（遵循与上述类似的推导），归一化场景流可以进一步3.3. 学习规范化场景流在本节中，我们将介绍一种用于光学扩展和归一化场景流估计的网络架构，l=fL<$Z=f Lcosσ，Z并且描述了以监督方式或利用自监督学习来学习光学扩展的方式。（一）（b）第（1）款1337∈C×CC1) 光学流动估计（λ，λ）2）光学展开方程（）3）运动深入校正（）图5.用于估计归一化场景流的网络架构。1)给定两个连续的图像，我们首先使用现有的流网络预测稠密光流场。2)然后，我们用局部仿射变换层估计初始光学展开，该层由U-Net架构以仿射拟合误差和图像外观特征为指导进行细化[24]。3）为了校正比例正交投影和旋转假设的误差，我们用另一个U网预测了光学膨胀和深度运动之间的差异。最后，使用Eq.2通过将（u， v，τ）与摄像机本征函数K相结合来实现。我们将估计归一化场景流的任务分为三个连续步骤：（1）光流估计，其中从图像对预测（u，v）分量，（2）光学扩展估计，其中以光流为条件估计光学扩展分量s，以及（3）深度运动估计τ，其中光学扩展被细化以产生用于全透视照相机模型的正确输出。最后，归一化的场景流可以计算给定的摄像机内函数。我们为上述步骤设计了一个端到端的可训练架构，如图所示。五、一项消融研究在Sec. 5讨论了影响性能的不同设计选择。局部仿射层为了在两个帧上提取密集的光学展开，我们提出了一个局部仿射层，直接计算两帧上局部3x3面片的扩展，如以下三个步骤所述：1) 拟合局部仿射运动模型。给定参考系和目标系上的稠密光流场u，我们对每个坐标系拟合一个局部仿射变换AR2×2 [2像素xc=（xc， yc）在其3x3邻域N（xc）上，通过求解下面的线性系统来计算参考图像：（x′−x′）=A（x−x），x∈N（x），（3）构造光学扩展地面实况。在多尺度图像金字塔上搜索的一般解决方案是不可行的，因为它给出稀疏和不准确的结果。相反，我们从光流场的局部补丁中提取扩展[9，58]。具体来说，对于具有光流地面实况的每个像素，我们在其7x7邻域上拟合仿射变换并提取尺度分量，类似于局部仿射层。具有高拟合误差的像素被丢弃。在实践中，我们发现，考虑到可用的高质量光流数据集，可以可靠地计算光学扩展地面实况用于训练[1，7，11，25，38，36]。学习扩展（自监督）由于获得光流的真实数据的成本很高，因此我们在这里描述了学习扩展网络的自监督替代方案先前关于自监督光流的工作[27，37，47]从光度一致性获得监督，其中通过比较参考和目标像素或参考像素周围的K K在这两种情况下，像素的运动都没有明确的约束。我们的关键区别是使用预测的光学膨胀来膨胀或收缩在构建损失时参考补丁。本-其中x′=x+u（x）是x的对应关系。2) 提取扩展。我们计算光学膨胀，一个像素，作为变形与原始3x3网格之间的面积比：s=0|det（A）|.3) 计算拟合误差。我们计算残差L2来自Eq.的最小二乘拟合的误差3、（说明）仿射拟合的置信度）并将其作为附加通道传递到光学细化网络。至关重要的是，我们将上述步骤实现为密集的、逐像素的和差分计算，作为Pytorch层，好处是双重的：一是提取监控信号训练光扩展模型;另一方面，它对光流的局部运动模式施加了明确的约束，从而指导学习。为了训练预测τ的深度运动网络，我们使用现有的3D场景流数据集，根据这些数据集，可以将地面真实深度运动计算为对应的深度与深度之间的比率。在两个帧上测量点，Z′（x+u（x））在GPU上高效运行，计算开销可忽略不计学习扩展（监督）为了训练光学τ（x）=、Z（x）预测S的扩展网络，一个挑战是控制-其中Z和Z′是参考中的地面实况深度光流局部A层拟合误差光学扩展网络深度运动网络光流初始扩张细化扩展深度运动��规范场景切换光流网络1338X地面实况我们的（单声道）变形拷贝（单声道）* FlowNet3英尺（立体声）OSF（立体声）叠加输入图像图6.KITTI值集中图像“000105”的结果顶部：两帧之间的深度运动，其中亮表示点向相机移动;底部：深度运动的误差图。我们的方法比基线预测更准确的深度运动。和目标帧，并且u是地面实况光流。损失我们根据经验发现，光学扩展的监督学习比自监督学习产生更好的性能（245 vs 336的log-L1误差，如表1所示。5、Tab6），因此，监督学习是在整个实验中使用。4.1-4.3.这里，多任务L1损耗用于联合训练光学扩展和深度运动（τ）网络：.表1. KITTI-15验证集上的场景流估计。D1、D2、F1和SF分别测量视差、光流和整体场景流预测的百分比误差。MiD测量的是测井深度移动测井（D2/D1）的L1误差。单眼方法列在顶部，而基于立体的方法列在下面。带†的方法使用验证数据进行训练。我们的方法优于单眼基线的一个很大的保证金，并击败立体基线的MiD。L=|σs（x）−logs（x）|+的|στ（x）−logτ（x）|、其中，σs和στ是预测的对数尺度扩展和深度运动，并且s和τ是地面实况标签。损失在具有有效标签的像素上求和我们体验-与阶段式培训相结合，但发现联合端到端培训更简单，同时性能更好。4. 实验我们首先评估我们的方法在3D场景感知任务，包括光学场景流，激光雷达场景流和碰撞时间估计。然后，我们展示了光学扩展模型的自监督训练结果。最后，我们得出结论与定性的结果，适用于刚性深度估计在向前或向后平移相机运动，传统的结构从运动是困难的光学扩展。设置我们冻结预训练的光流网络 [61] ，并在Driving，Monkaa和KITTI-15上训练我们的归一化场景流模型 [36，38]。对于KITTI，我们将原始的200张具有地面实况的图像分成训练集和验证集。具体来说，对于光学场景流，我们选择每5张图像进行验证，并添加其余160张图像进行训练;而对于LiDAR场景流，我们遵循MeteorNet [29]的分割，并使用142张图像中的前100张LiDAR点云进行训练，其余用于验证。我们遵循两阶段训练协议[21]，并根据经验选择较大的学习率0.01。驾驶和Monkaa的预训练需要60k迭代，KITTI的微调需要30k迭代。4.1. 光学场景流我们首先比较KITTI-15验证集上的基线，其中使用场景流的标准度量和日志深度运动（MiD）的误差[38]。我们的解决方案由于我们的扩展网络仅提供两帧上的深度运动，为了生成全场景流向量，我们使用现成的单目深度估计网络MonoDepth 2 [16]来预测d1，这是帧1的视差。为了预测d2，即第一帧像素移动到第二帧的视差，我们只需将d1除以预测的深度运动。为了计算d2，Schuster et al.[51]使用前向流将第二帧视差映射扭曲到第一帧，而不处理遮挡;我们考虑更强的基线，其进一步从第一帧复制帧外像素的视差，由“扭曲+复制”表示。在FlowNet3 [22]之后，我们还训练了一个细化网络来消除第二帧中被遮挡区域的差异。至于单目场景的流程，如第一组Tab. 1，我们的方法比基线有很大的优势。我们进一步考虑使用立体相机来估计两帧处的度量深度的基线：PRSM [56]和OSF [39]是基于立体的方法，其将图像分解为刚性片段并联合优化其深度和3D运动。为了评估MiD，我们简单地将其预测的d2除以d1。因此，我们的方法在MiD方面实现了最低的误差，将单目基线的误差降低了10倍，并且大幅优于立体基线（115 vs. 75）。一个直观的例子如图所示六、这证明了建模的有效性方法D1FLD2SF中期三角洲[22]十四岁51六、0078岁8783岁262237[51]第五十一话十四岁51六、00二十七岁7331岁16623我们十四岁51六、00十六岁7119号。6575[22]第二十二话六、95三十二4120块89三十七095371339D表2.基于KITTI-15基准前地像素的场景流估计。所有度量都是针对前景像素所示的感知误差。最好的人，都是最好的人;最好的人，都是最好的人。列出了单眼方法在顶部，而下面列出了基于立体的方法。扩展和深度运动网络在TITAN Xp GPU上处理KITTI大小的图像需要15毫秒，总运行时间为200毫秒。还请注意，PRSM和Mono-SF都运行在单核CPU上，并且可以并行化以获得更好的速度。通过光学膨胀的相对尺度变化。测试性能（fg对象）然后，我们在KITTI-15基准上评估我们的方法对前景对象的场景流预测，如表1所示二、我们首先与Mono-SF进行比较，Mono-SF是基准测试中唯一的单目场景流方法它将单目场景流估计公式化为一个优化问题，并将单目深度网络的概率预测作为一个能量项。注意，尽管我们的视差误差D1类似于Mono-SF，但我们获得了更好的D2和SF度量，这表明我们对归一化场景流的预测更准确。我们估计深度运动和 d2的方法也适用于立体场景流，其中我们直接采用GANet [63]，D1度量上的SOTA方法，来预测第一帧d1的视差。为了获得d2，我们将d1除以之前估计的深度运动。结果，我们获得了前景深度变化D2和场景流SF的SOTA精度，这进一步证明了SOTA的有效性。我们的方法的有效性升级光流三维场景流。相比之下，我们以低成本（15ms）有效地推理相对深度变化，而不是显式地计算帧2处的视差。这为我们提供了改进的准确性，空间一致性和减少延迟。4.2. LiDAR场景流给定场景的两个连续LiDAR扫描，LiDAR场景流任务被定义为估计点云的3D之前的工作要么通过优化配准两个点云[10]，要么训练网络直接预测3D运动[18，28，29]。我们的解决方案实际上，激光雷达扫描通常表3. 在KITTI-15上评估LiDAR场景流方法输入EPE（m）ICP-全球点× 20。727HPLFlowNet[18]点× 20。590FlowNet 3D-ft[28]点× 20. 287MeteorNet-ft[29]积分× 20. 251FlowNet3[22]点+立体声× 20。878† FlowNet3英尺[22]点+立体声× 20。551OSF[39]点+立体声× 20。137PRSM [56]点+立体声× 20。116我们的分数+单声道× 20。119w/o ftpoints + mono × 20. 184化场景流到全3D场景流。评估协议我们使用MeteorNet [29]的评估协议将42个KITTI验证图像与之前的工作进行比较：原始LiDAR点投影到图像平面上，并根据视差和流注释构建地面实况3D流方法通过3D终点误差（EPE，向量之间的L2距离）进行评分基线在所有基于点的方法中， FlowNet3D 和MeteorNet是在与我们相同的KITTI图像集上进行微调的，数字来自他们的论文。 HPLFlowNet 是在FlythingThings [36]上训练的，我们修改了他们的代码以在原始点云上运行。ICP-global找到一个最好地描述所有场景点的运动的单一刚性变换，并且不处理非刚性元素。我们进一步考虑立体场景流方法[22，39，56]，其中投影LiDAR深度和d2用于确定深度方向1流动位移结果如表中所示。3，我们在合成数据集上训练的方法已经比所有基于点的方法以及FlowNet3表现得更好。在KITTI上进行微调后，它的性能超过了所有基于立体的方法，除了PRSM，它需要100倍的推理时间。与基于点的方法相比，在稀疏扫描中可能不存在精确的3D对应关系，我们的方法在更密集的像素网格上估计归一化的场景流，这导致更高的精度。一个直观的例子如图所示。7 .第一次会议。4.3. 碰撞时间估计建模碰撞时间（TTC）对于机器人避免碰撞和规划轨迹很重要[8，13，33，34，40]。事实上，知道深度运动直接告诉我们一个点与图像平面碰撞所需的时间，配上单目摄像头因此，我们使用单目图像预测光流和扩展，并将它们转换为归一化的场景流方程。二、获得Tc=ZT=Z-Z′T1 −τ对于点云的3D场景流，我们将它们投影到图像平面上，并使用LiDAR深度来假设恒定速度，其中T是相机的采样间隔，τ是深度运动[20]。我们方法D1D2FLSF时间单SF [6]二十六岁94三十二7019号。6439岁5741乌尔斯-莫诺二十七岁9031岁598. 66三十六670的情况。21340×ICP-全球FlowNet 3OSF PRSM图7. KITTI-15 val set frame“000124”上的LiDAR场景流结果。红色（第二帧）和蓝色（平移的第一帧）点应该重叠以进行完美的3D流估计。我们的方法预测更准确的3D流比全球ICP和FlowNet3在前面的车辆。OSF和PRSM产生的运动场与我们的质量相似，但使用立体图像，速度要慢得多表4.KITTI上接触时间估计的百分比误差表5.KITTI-15上的自监督流量估计结果方法Err-1sErr-2sErr-5s输入方法Fl EPEExp. log-L1[22]第二十二话二十二岁8721岁49十五岁97立体声亮度[47]9 .第九条。472N. A.[22]第二十二话11个国家。97十三岁8612个。43立体声人口普查[37]7 .第一次会议。000N. A.OSF [39]六、947 .第一次会议。788. 74立体声Ours-Scale7 .第一次会议。380336PRSM [56]五、91五、72六、10立体声我们的-普查+规模六、564348我们4.第一章214.第一章074.第一章51单将深度运动估计转换为碰撞时间，并将我们的方法与Tab中的基线进行比较。4.第一章我们将TTC预测视为二元分类任务，其中我们预测每个像素的TTC是否小于{1 s，2s，5s}[33]。采样间隔设置为0.1s，仅评估具有正TTC地面实况的点。我们计算的精度超过40 KITTI验证图像用于光学场景流评估。我们发现OSF和PRSM在TTC估计上表现得相当好，这与它们在深度运动估计上的高精度是一致的。我们的单目方法在所有时间间隔内都优于所有基线，这表明它对未来可能的碰撞做出了更好的预测4.4. 光学展开4.5. 刚性深度估计运动恢复结构联合估计给定点对应的刚性场景的相机姿态和3D点位置[19]。然而，对于经历向前或向后平移相机运动的两个帧，由于有限的基线和小的三角测量角度，扩展焦点（FoE）或核点附近的像素的三角测量误差通常很高[5，14]。本文介绍了一种由光学展开计算深度的方法，该方法对小基线不敏感。这里，我们考虑相机运动是给定平移tc=（tcx， tcy，tcz）的情况，并且比较使用三角测量和深度运动的深度估计解决方案。对于三角测量，假设身份摄像机内函数，我们有深度我们探讨了光流和扩展的自监督学习的任务我们的网络是在6800张图像上训练的Z=x−FoExtu=y−FoEytvCZ，来自KITTI深度估计数据集[53]的20 k次迭代，其中排除了KITTI-15场景流训练集中出现的序列。然后，我们评估40验证KITTI-15图像中使用的光学场景流。至于基线，这两种方法都不提供用于光学扩展的监控信号。我们的规模感知损失提供了支持，覆盖图像光流预测深度运动预测误差图我们cz1341ttcz其中，FoE=（tcx，tcy），（u， v）是czcz参考点（x， y）[30]。注意只有横向移动-如果存在，则上述等价于Z=tcx/ u。深度运动τ也通过接触时间告诉我们深度，Z=1t.1 −τ假设根据三角测量和接触时间的误差为10%，||u||和τ，我们有光学扩展的透视，并结合普查损失，提供最佳性能，如表1所示。五、Z11∼||2、Z-Z2||2,ǫZ21（1−τ）2，1342∈表6.光学膨胀估算的烧蚀研究方法KITTI log-L1Sintel log-L1我们的24578无残留25583仿射→流383116仿射→翘曲450174原始仿射变换363131在天平上匹配541145图8.光流与深度运动的刚性深度估计。(a)2：重叠的输入帧，其中对于扩展焦点附近的标记区域，像素运动相对较小。(b)：从图像坐标到扩展焦点的距离，给定by ||p − FoE||. （c）：通过Mid-dlebury色轮可视化的流动对应（d）：通过水流三角测量进行深度估计对应关系，其中，由于小位移，扩展焦点附近的标记区域的估计(e)：深度运动估计。（f）：通过接触时间的深度重建，其中扩展焦点附近的深度估计比三角测量方法更鲁棒。这表明对于三角测量解，当流量较小时出现大的误差，而对于接触时间解，当最佳扩展接近1时出现大的误差有趣的是，对于位移较小的FoE附近的点，光学膨胀总是大于1（向前移动）或小于1（向后移动）[40]，从而为FoE附近的重建点提供鲁棒信号，如图所示。8.5. 消融为了证明我们的方法的优势，估计光学膨胀的替代品，我们进行了广泛的诊断。对于所有实验，我们在Driving和Monkaa上训练网络进行20k次迭代，批量大小为8，并在光学场景流实验中使用的40个KITTI验证图像上进行测试。我们还在sintel训练集上进行了测试，与KITTI相比，sintel训练集具有更多的动态对象和更小的光学扩展范围，因为深度在帧中变化不大。与基于扩展的选项的比较我们首先重新移动残差预测结构，并直接学习从初始预测回归光学扩展，并发现性能略有下降然后，我们研究输入特征的有效性。将初始扩展替换为流预测作为输入，误差增加了50。2%的KITTI和39。结果表明，从局部仿射变换中提取的初始尺度对光学展开的估计至关重要。然后，我们用参考和变形的目标图像特征（通过流）替换初始扩展作为输入，并且发现误差上升了76。5%的KITTI和109。Sintel上的6%，这表明很难直接从图像特征中学习光学膨胀。敬恶魔-在光学扩展网络的基础上，我们对从局部仿射变换中提取的原始尺度分量进行了估计，使误差增加了42。4%的KITTI和57。8%的Sintel。在尺度上匹配我们考虑尺度匹配网络基线，其在图像金字塔上搜索尺度[44，57，59]。在四分之一特征分辨率下，我们离散化s[0]。5，2]到对数空间中的S=9个区间，并通过缩放参考图像特征来构建金字塔然后，通过取参考特征与经光流预测变形的目标特征金字塔之间的点积来构造尺寸为（H/4，W/4，S）在立体匹配的先前工作之后，通过3D卷积和soft-argmin回归进一步处理成本体积[23，60]。然而，这种方法面临着一个艰难的挑战。正确预测光学膨胀的时间。我们认为原始图像中的信号特征不足以让匹配网络直接推理扩展。6. 讨论我们探索使用单目相机的3D感知问题我们设计了一个用于光学扩展和归一化场景流的神经架构，与一组监督的或自我监督学习策略。结果，实现了在多个3D捕获任务上相对于现有技术的显著改进，包括LiDAR场景流、光学场景流和碰撞时间估计。对于未来的工作，我们认为稠密光学膨胀是一个有价值的低层次线索的运动分割和机器人碰撞避免。此外，光学膨胀和归一化的场景流之间的几何关系，目前建立假设一个缩放的正交相机模型和非旋转的场景元素。将其扩展到具有旋转场景元素的透视相机模型将是有趣的。最后，背景刚性是深度和运动估计的强大先验，将其与我们的局部估计相结合将进一步提高性能。鸣谢：这项工作得到了CMU Argo AI自动驾驶汽车研究中心的支持。感谢王朝阳和胡佩云的真知灼见讨论，并在CMU的朋友提供宝贵的建议。（一）（b）第（1）款扩展焦点（c）第（1）款（d）其他事项（e）（f）第（1）款1343引用[1] Simon Baker 、 Daniel Scharstein 、 JP Lewis 、 StefanRoth、Michael J Black和Richard Szeliski。光流数据库和评价方法。IJCV，2011年。4[2] 丹尼尔·巴拉斯。从方向和尺度不变特征恢复仿射特征。在ACCV，2018年。二、四[3] 丹尼尔·巴拉斯和祖扎娜·库克洛娃。基于两个方向和尺度协变特征的单应性在ICCV，2019年。2[4] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。冲浪：加快了强大的功能。在ECCV，2006年。2[5] Christian Beder和Richard Steffen。从图像序列确定用于固定 3d 重建的尺度的初始图像对在 Joint PatternRecognition Symposium 中，第 657-666 页。 Springer ，2006年。7[6] Fabian Brickwedde，Steffen Abraham和Rudolf Mester。Mono-SF：多视图几何满足单视图深度，用于动态交通场景的单目场景流量估计。在CVPR，2019年。1、6[7] Daniel J Butler 、 Jonas Wulff 、 Garrett B Stanley 和Michael J Black。一个用于光流评估的自然开源电影。ECCV，2012年。4[8] 杰弗里·伯恩和卡米洛·泰勒。用于视觉碰撞检测和估计的扩展InICRA，2009.1、6[9] Ted Camus，David Coombs，Martin Herman，和Tsai-Hong Hong Hong实时单工作站避障只使用宽场流发散。第13届国际模式识别会议集，第3卷，第323-330页IEEE，1996年。二、四[10] Ayush Dewan，Tim Caselitz，Gian Diego Tipaldi，andWol-fram Burgard.三维激光雷达扫描的刚性场景流。在IROS，2016年。6[11] A.DosovitskiyP.Fischer ， E.Ilg ， P.Hausser ，C.Hazzirbassoul，诉 Golkov ， P.v.d. Smagt ， D.Cremers 和 T. 布洛克斯Flownet：使用卷积网络学习光流在ICCV，2015年。4[12] Andreas Ess，Bastian Leibe和Luc Van Gool。用于移动场景分析的深度和外观。载于ICCV，2007年。2[13] 皮特·弗洛伦斯，约翰·卡特，还有拉斯·泰德雷克.高速下的综合感知和控制：评估无地图的避碰机动。在机器人的Al-出租mic基础研讨会，2016年。6[14] Wolf g angFoürstner.不确定性与工程几何。在Handbook ofGeometric Computing中，第493Springer，2005年。7[15] 詹姆斯 · 吉布森视觉感知的生态学方法：经典版Psychology Press，2014. 1[16] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J. Brostow.深入研究自我监督的单目深度预测。在ICCV，2019年。5[17] Paulo FU Gotardo和Aleix M Martinez.非刚性结构与互补秩3空间的运动。CVPR，2011。2[18] Xiuye Gu，Yijie Wang，Chongruo Wu，Yong Jae Lee，and Panqu Wang.HPLFlowNet：用于大规模点云场景流估计的分层permutohedral在CVPR，2019年。61344[19] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社，2003年。三、七[20] Berthold KP Horn，Yajun Fang，Ichiro Masaki. 相对于平面接触的时间。在IEEE智能车辆研讨会上。IEEE，2007年。二、六[21] Eddy Ilg，Nikolaus Mayer，Tonmoy Saikia，MargretKeuper， AlexeyDosovitskiy，andThomasBrox.Flownet 2.0 ：深度网络光流估计的演变在CVPR，2017年。5[22] Eddy Ilg ， Tonmoy Saikia ， Margret Keuper ， andThomas Brox.遮挡，运动和深度边界与视差，光流或场景流估计的通用网络。在ECCV，2018。五、六、七[23] AlexKendall 、 HaykMartirosyan 、 SaumitroDasgupta 、 Peter Henry 、 Ryan Kennedy 、 AbrahamBachrach和Adam Bry。深度立体回归的几何和上下文的端到端学习InICCV，2017. 8[24] Sameh Khamis，Sean Fanello，Christoph Rhemann，Adarsh Kowdle，Julien Valentin，and Shahram Izadi.Stereonet：实时边缘感知深度预测的引导分层细化。在ECCV，2018。4[25] Daniel Kondermann，Rahul Nair，Katrin Honauer，Karsten Krispin，Jonas Andrulis，Alexander Brock，BurkhardGusse- feld ， Mohsen Rahimimoghaddam ，Sabine Hofmann，Claus Brenner，et al. HCI基准测试套件：城市自动驾驶的不确定性立体和流动地面实况。在CVPRW，2016年。4[26] Suryansh Kumar，Yuchao Dai，and Hongdong Li.从两个透视帧进行复杂动态场景的单目稠密三维重建。InICCV，2017. 一、二、三[27] Pengpeng Liu ， Michael Lyu ， Irwin King ， Jia Xu.Self-low：光流的自我监督学习。在CVPR，2019年。4[28] Xingyu Liu ，Charles R Qi，and Leonidas J Guibas.Flownet3D：在3D点云中学习场景流。在CVPR，2019年。6[29] Xingyu Liu ， Mengyuan Yan ， and Jeannette Bohg.Meteor-Net：动态3D点云序列的深度学习在ICCV，2019年。五、六[30] HughChristopherLo

下载后可阅读完整内容，剩余1页未读，立即下载