深层网络场景流估计：运用深度学习技术和先验知识，在自动驾驶场景中实现快速且准确的场景流估计

126 浏览量更新于2023-10-18 收藏 5.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3614SceneFieldsFSF+MSCSFSSFOSFOSF 2018PRSMISF我们深度刚性实例场景流马伟秋1，2王神龙1，3胡锐1熊玉文1，3RaquelUrtasun1，31 Uber Advanced Technologies Group2麻省理工多伦多大学University of Toronto摘要在本文中，我们解决了场景流估计的问题，我们利用深度学习技术以及强大的先验知识，因为在我们的应用领域中，场景的运动可以由机器人的运动和场景中演员的3D运动组成。我们将问题表述为深层结构模型中的能量最小化我们在具有挑战性的KITTI场景流数据集上的实验表明，我们的性能优于最先进的技术，而且速度快了800倍。1. 介绍场景流是指从一组两个连续的（在时间上）立体声对中估计三维运动场的问题。它在[40]中首次引入，用于描述场景中每个点的3D运动。通过场景流，我们可以深入了解场景的几何形状以及整体组成和运动。这对于诸如自动驾驶汽车的机器人系统来说是特别重要的，因为知道场景中其他物体的3D运动不仅可以帮助自主系统在规划其自己的未来运动时避免碰撞，而且还可以提高对场景的理解并预测其他人的意图在这项工作中，我们专注于估计自动驾驶场景中的3D场景流。在自动驾驶的世界里，场景的运动可以主要用自我汽车的运动来解释通常刚性移动的动态对象的存在也可以用作强先验。以前的结构预测方法通常利用这些事实，并拟合运动的分段刚性表示[41，44，27，3]。虽然这些方法在场景流估计上取得了令人印象深刻的结果，但它们需要几分钟来处理每个帧，因此不能在现实世界的机器人系统中使用。另一方面，基于深度学习的方法已经在虚拟环境中实现了最先进的实时性能，KITTI场景流（测试）1614121086100 101 102 103（sec）图1：KITTI SceneFlow数据集上的性能与运行时：我们的方法更快，更准确。低级别任务的一系列，如光流预测[11，32，38]和立体声估计[46，26，24]。虽然它们产生例如，它们缺乏保证给定对象上的像素产生一致估计的能力。虽然这种现象在摄影编辑应用中可能影响不大，但在自动驾驶汽车的背景下，这可能是灾难性的，因为整个物体的运动比每个像素的运动更重要。考虑到这些问题，我们开发了一种新的深度刚性实例场景流（DRISF）模型，它可以两全其美。背后的想法是，场景的运动可以通过估计每个演员的3D刚性运动来组成。静态背景也可以被建模为一个刚性移动的对象，因为它的3D运动可以描述的“自我汽车”的因此，该问题被简化为估计每个交通参与者的3D运动为了达到这个目标，我们首先利用深度神经网络来估计光流，视差和实例分割。然后，我们利用多个基于几何的能量函数来编码这些视觉线索之间的结构几何关系。通过对能量函数的优化，可以有效地对每个交通参与者的三维运动进行推理。由于能量采用加权平方和的形式，因此可以通过高斯-牛顿（GN）算法[5]有效地最小化。我们实现了GN求解器SF-所有离群值（%）3615左t t+1流隔离区立体声掩模RGB流程D1GN求解器3D运动权D2结构优化图2：我们的方法概述：给定两个连续的立体图像，我们首先估计流、立体和分割（第二节）。第3.1节）。每个实例的视觉线索然后被编码为能量函数（Sec. 3.2），并传递到高斯牛顿（GN）求解器，以找到最佳的3D刚性运动（第3.2节）。3.3）。GN求解器作为递归网络展开作为神经网络中的层，因此所有操作都可以在GPU上以端到端的方式有效地计算。我们在KITTI场景流数据集上证明了我们方法的有效性[27]。如图1，我们的深度刚性实例场景流模型优于所有以前的方法，在运行时间和准确性的显着保证金。重要的是，它几乎在每个条目上都实现了最先进的性能。与现有技术相比，DRISF将D1异常值比率降低了43%，将D2异常值比率降低了32%，并且将流量异常值比率降低了24%。与现有的最佳场景流模型[3]相比，我们的场景流误差降低了22%，运行时间加快了800倍。2. 相关工作光流：光流传统上被视为能量最小化任务。它可以追溯到霍恩和申克[17]其中，他们将能量定义为数据项和平滑项的组合，并采用变分干涉来求解。从那时起，已经提出了各种改进[6，4，30]。最近，深度学习已经取代了变分方法。采用深特征进行匹配[1，43]可以大幅提高性能然而，由于匹配结果并不密集，因此需要后处理步骤[35]。这不仅降低了速度，而且限制了整体性能。由Flownet [11]率先提出的各种基于端到端深度回归的方法[21]。Flownet2[20]堆叠多个网络以迭代地细化估计流，并引入可微分的翘曲操作以补偿大位移。由于结果网络非常大，SpyNet [32]建议使用空间金字塔网络来处理大运动。它们极大地减小了模型的大小，但代价是降低了性能。Lite-Flownet [19]和PWC-Net [38，37]扩展了这一思想，并将传统的金字塔处理和成本量概念纳入网络。与以前的方法相比，所得到的模型更小，更快。在这工作，我们采用最新的PWC-Net作为我们的流量模块。立体声：传统的立体声方法[16，22]遵循三个步骤：计算逐块特征、构造成本卷以及最终的后处理。斑块的表征起着重要的作用。现代方法利用CNN来预测两个补丁是否匹配[45，46]。虽然它们在具有挑战性的基准测试中表现出出色的性能，但它们的计算成本很高。为了加快匹配过程，Luo等人。[24]提出了一种连体匹配网络，该网络利用相关层[9]来提取所有可能差异的边缘分布。虽然相关层的使用显著提高了效率，但它们仍然需要后处理技术[15，47]来平滑其估计，这在很大程度上限制了它们的速度。鉴于此，已经提出了从给定立体图像对直接回归子像素差异的网络。DispNet [26]利用1D相关层来近似立体声成本量，并依赖于后面的层进行隐式聚合。Kendall等人[23]结合3Dconv以进一步正则化，并提出可重构的软argmin以实现来自成本体积的子像素视差。PSM-Net [8]后来通过合并堆叠沙漏[29]和金字塔空间池[48，14]进行扩展[23在这项工作中，我们利用PSM-Net作为我们的立体声模块。场景流：场景流[40]表征点的3D运动。与光流估计类似，该任务传统上被表述为变分推理问题[39，31，18，2]。然而，性能是相当有限的，在现实世界的情况下，由于大的运动引起的错误。为了提高鲁棒性，基于倾斜平面的方法[44，27，41，25]提出将场景分解为小的刚性移动平面并解决离散-连续优化问题。Behl等人[27][28][29]在细粒度实例和几何特征的帮助下，它们能够在各种具有挑战性的场景中建立对应关系。与我们的工作类似，Renet al. [34]第三十四话提取视觉线索3616图3：valset的定性结果：我们的模型可以非常准确地估计背景运动。它还能够在大多数情况下估计前景物体的3D运动。它在最后一列所示的挑战性案例中失败。用于场景流估计的视觉线索。他们编码的功能，通过级联的条件随机场和迭代细化。虽然这些方法已经取得了令人印象深刻的性能，他们是计算昂贵的实际使用。大多数方法需要几分钟来计算一个场景流。这主要是由于复杂的优化任务。相比之下，我们的深度结构化运动估计模型能够在不到一秒的时间内计算场景流，速度快了两到三个数量级。3. 深度刚性实例场景流在本文中，我们感兴趣的是在自动驾驶汽车的背景下估计场景流。我们建立我们的模型上的直觉，在这种情况下，可以通过估计每个演员的3D运动形成的场景的运动静态背景也可以被建模为一个刚性移动的对象，因为它的3D运动可以描述的“自我汽车”的运动。为了实现这一目标，我们提出了一种新的深度结构模型，利用光流，立体声，以及立场分割作为视觉线索。我们首先描述我们如何使用深度学习来有效地估计几何和语义特征。然后，我们制定的场景流任务作为一个能量最小化问题，并详细讨论每个能量项。最后，我们描述了如何进行有效的推理和学习。3.1. 视觉提示我们利用三种类型的视觉线索：实例分割、光流和立体。实例分割：我们使用Mask R-CNN [13]作为我们的实例分割网络，因为它在自动驾驶基准测试中产生了最先进的结果，例如[12][ 10][11][ 12][13][14]Mask R-CNN是一种基于FasterR-CNN的两阶段网络[33]。对于每个对象建议，它预测对象类，回归其2D框，并推断bg/fg分割掩码。立体声：我们利用金字塔立体匹配网络（PSM-Net）[8]来计算我们的立体声估计。组成三个主要模块：全卷积特征模块，空间金字塔池化[14，48]和3D成本体积处理。特征模块以全卷积方式计算高维特征图;空间金字塔池化聚集不同尺度和位置的上下文以构建成本量; 3D成本量模块然后执行隐式成本量聚集并使用堆叠的沙漏网络将其规则化。与以前的视差回归网络相比，PSM-Net学习改进并生成更好地尊重对象边界的清晰视差图像。这是至关重要的，因为过度平滑的结果往往会恶化运动估计。光流：我们的流模块类似于PWC-Net [38]，这是一个基于三个经典原则（类似于立体网络）设计的最先进的流网络：金字塔特征处理，扭曲和成本体积推理。金字塔特征处理对具有大上下文的视觉特征进行编码;渐进式扭曲通过由粗到细的方案降低了构建成本-体积的成本-数量推理通过提高边界进一步提高性能我们实现了PWC-net的一个修改：在扭曲操作期间，如果采样点落在图像之外，而不是0，我们使用根据经验，我们发现这可以提高性能。SF错误流D2D1RGBRGB3617LLLKKK0−11KΣ′方法运行时BG残疾1FG所有BG残疾2FG所有BG光流FG所有BG场景流FG所有CSF [25]1.3分钟4.5713.045.987.9220.7610.0610.4025.7812.9612.2133.2115.71OSF [27]50分钟4.5412.035.795.4519.417.775.6218.927.837.0126.3410.23SSF [34]5分钟3.558.754.424.9417.487.025.6314.717.147.1824.5810.07[28]第二十八话50分钟4.119.645.035.1815.126.845.7613.317.027.0820.039.23PRSM*[42]5分钟3.0210.524.275.1315.116.795.3313.406.686.6120.798.97ISF [3]10分钟4.126.174.464.8811.345.955.4010.296.226.5815.638.08我们的DRISF 0.75 SEC2.164.492.552.909.734.043.5910.404.734.3915.946.31表1：与前6种已发表方法的比较：我们的方法几乎在每个条目上都实现了最先进的性能，同时速度快了两到三个数量级。（*：方法使用两个以上的时间相邻图像。）3.2. 能量方程我们现在描述我们的深层结构模型的能量公式。令L0、R0、L1、R1是从两个连续时间步捕获的输入立体声对。令D0、D1是估计的立体声，并且FL、FR是推断的流。将S0表示为在左图像L 0上计算的实例分割。假设所有相机都是用已知的固有函数预先校准的。我们用与SE（3）相关联的李代数ε∈se（3）来参数化三维刚体运动。我们使用这种参数化，因为它是3D运动的最小表示。对于每个实例i∈S0，我们的目标是找到使加权组合最小化的刚性3D运动，光度误差、刚性拟合和流动一致性的关系，其中权重表示为λ·，i。为了简单起见，设I ={L0，R0，L1，R1，D0，D1，FL，FR}为输入图像和视觉提示。我们将属于实例i的像素集合表示为Pi={p|S0（p）=i}. 注意，背景可以被认为是一个经历同样的刚性转换。我们通过最小化每个实例的3D然后是刚性变换。具体地说，p′=πK（π−1（p，D（p）））（3）其中πK（·）：R3→R2是固有K已知的透视投影函数giv en，π−1（·，·）：R2×R→R3是将像素及其关联视差转换为 3D 点的逆投影 ;xmax 通过变换 exp（xmax）x严格变换3D点x。ρ是鲁棒误差函数，其通过减少研究了异常值对非线性最小二乘问题的影响在Sunetal. [36]中，我们采用广义Charbonnier函数ρ（x）=（ x2+x2 ） α 作为鲁棒函数，并设 α=0. 45 ，且π=10−5。与[36]类似，我们观察到轻微的非凸惩罚在实践中提高了性能。刚性接头：该术语鼓励估计的3D刚性运动类似于从立体和流动网络获得的逐点3D运动。形式上，给予对应{（p，q=p+FL（p））|p∈Pi}由光流网络的输出和视差图定义min{λ照片，我E照片，i（λ;I）+λ刚性，我E刚性，i（一）（1）D0，D1，能量测量刚性拟合误差的最小值：ξ+λflow，iE flow，i（λ;I）}E刚性，i（I;I）=Σ（p，q）αp ρ（αππ−1.Σp，D（p）−πK.Σq，D（q）），这三个能量项是互补的。他们捕捉观察结果与推断的刚性运动之间的几何形状和外观一致性接下来，我们更详细地描述能量项。光度误差：这种能量编码了这样一个事实，即对应关系应该在所有图像中具有相似的外观。特别地，对于参考图像中的每个像素p∈Pi，我们将其光度值与参考图像中的每个像素的光度值进行比较。目标图像中的对应像素：其中q=p+FL（p），π−1表示逆投影函数，ρ是相同的鲁棒误差函数。流动一致性：该项促使3D刚性运动的投影接近原始流动估计。这是通过测量我们的光流网络和结构化刚性流之间的差异来实现的，结构化刚性流是通过使用D0和刚性运动矢量扭曲每个像素来计算的。ΣE（n;I）=ρ（（p-p）-F（p）（4）E照片，i（i）=p∈Piαp ρ（L0（p）− L1（p′））（2）流量，ip∈Pi` 联系我们二维刚性流L联系我们光流其中αp∈ {0，1}是表示哪个像素是离群值的指示函数。关于如何估计αp的讨论，我们请读者参阅3.3节。p是像素，并且p′代表另一图像上的投影图像坐标，由逆深度扭曲3618其中，p′是在等式中定义的刚性翘曲函数。（3），ρ是相同的鲁棒误差函数。3.3. 推理不确定像素去除：由于视点变化、流/立体预测误差等，一些人的视觉线索可能会被忽略。3619我S0（p）KK我图4：试验样品的定性比较：我们的方法可以有效地处理遮挡和无纹理区域。它对光照变化和大位移具有更强的鲁棒性。请参阅supp。材料更多的结果。像素不可靠。例如，一个图像中的像素可能由于视点改变而在另一图像中被遮挡这促使我们将αp分配给每个像素p作为离群值或非离群值的指示。为了实现这个目标，我们首先排除可能在下一帧中被遮挡的像素。具体地，如果第二帧的扭曲的3D视差与第一帧的视差显著不同，则像素被标记为被遮挡直觉是，由于速度限制，像素的视差在现实世界中不能急剧变化。我们根据经验将阈值设为30。接下来，我们采用RANSAC方案来适应每个实例的刚性运动。我们只保留内点，其余的删除。尽管简单，我们发现这个策略非常有效。初始化：由于能量模型的高度非凸结构，良好的初始化对于实现良好的性能至关重要。由于前一步已经修剪掉了大多数不可靠的点，我们直接利用RANSAC获得的刚性运动作为我们的鲁棒初始猜测。高斯牛顿解算器：能量函数是非凸的，但相对于t是可微的。定义在连续最小化函数的牛顿算法.我这样<$（n+1）=<$（n）<$（JTWJ）（−1）JTWr（<$（n））（5）其中，J是姿态合成算子，并且J=δr（δr（n））δǫ|= 0。在实践中，我们展开推理步骤，一个递归神经网络，并定义其计算图，如方程。（五）、包括矩阵逆的整个流水线是可微的。请参阅supp。材料的推导雅可比矩阵的每一项和更详细的高斯牛顿求解器。最终场景流预测：最后的刚性模-通过对每个实例的估计，我们能够计算密集的实例刚性场景流。我们的场景流由三个部分组成，即第一帧立体声D0、变形立体声到第二帧Dwarp以及实例式刚性流估计Frigid。具体来说，对于每个点p，我们有：D0（p）=D0（p）（6）空间为了处理鲁棒函数，我们采用迭代重加权最小二乘算法[7]。为每个D扭曲（p）=zK（扭曲）L◦ π−1（p，D0（p）.Σ迭代，我们可以将每个实例i的原始能量最小化问题重写为加权平方和：Frigid（p）=p′−p=πK（π−1 p，D0（p））−p−1n（n+1）= argminEtotal，iξΣ（n）= arg minwi（n（n））r2（n（n）），ξEng其中zK（·）计算3D点的视差;πK为逆投影函数;并且使用刚性运动变换3D点x。其中r表示残差函数，w基于鲁棒函数ρ对每个样本重新加权，Eng是指对能量项求和。我们采用高斯-3.4. 学习整个深度结构化网络可以进行端到端的训练。在实践中，我们训练我们的实例分割，DRISFISFPRSMOSFRGBRGB3620图5：3D刚性运动分析：超过80%的三维刚体运动估计的误差小于1米和1。3◦.大的误差往往发生在更远的距离，车辆是小的，更少的点是可观察的。4.2.场景流量估计与最先进技术的比较：我们将我们的方法与基准1上的主要方法进行比较：ISF [3]，PRSM [42]，OSF+TC[28]，SSF [34]，OSF [27]，[25]第二十五话。注意，除了标准的两个广告帧之外，PRSM和OSF+TC依赖于额外的时间帧。如Tab.所示。1，我们的方法（DRISF）在运行时间和离群值比率方面都比所有以前的方法有显著的优势。它达到了最先进的图6：来自背景运动的里程计：平均而言，我们的自我车漂移0。9厘米，0。024英里每1米的驱动器。通过反向传播分别进行流量估计和立体声估计模块。更具体地说，Mask R-CNN模型在Cityscapes上进行了预训练，并在KITTI上进行了微调。损失函数包括ROI分类损失、盒回归损失以及掩模分割损失。PSM-Net在Scene Flow [26]上进行了预训练，并在KITTI上进行了微调，并使用L1回归损失。PWC-Net在FlyingChairs[11]和FlyingThings [26]上进行预训练，然后在KITTI上进行微调，并使用加权L1回归损失。4. 实验在本节中，我们首先描述实验装置。接下来，我们评估我们的模型基于像素级场景流度量和实例级刚体运动度量。最后，我们全面研究了我们的模型的特点。4.1. 数据集和实施详细信息数据：我们在KITTI场景流数据集上验证了我们的方法[27]。该数据集由200组训练图像和200组测试图像组成，这些图像是在真实驾驶场景中捕获的。在[8]之后，我们将训练数据划分为基于4：1比率的train，val实施详情：对于前景对象，我们使用所有的能量。权重设置为1。对于背景，我们仅使用光度术语（参见消融研究）。我们运行RANSAC 5次，并使用具有最低平均能量的一个作为初始化。我们将GN解算器展开50步。如果能量达到平稳状态，求解器将提前终止在实践中，最佳能量通常在10次迭代内达到。几乎每一个入口都有表现。DRISF将D1离群值比率降低了43%，D2离群值比率降低了32%，流量离群值比率降低了24%。与ISF模型[3]相比，我们的场景流错误降低了22%，运行时间快了800倍。图1比较了性能和运行时所有的方法。定性结果：为了更好地理解我们的方法的优点和缺点，我们在图中的测试集上可视化了一些场景流结果。4.第一章在这些场景中，由于大的车辆运动、无纹理区域、遮挡和光照变化，场景流估计是具有挑战性的。对于最左边的图像，由于太阳的反射和遮挡，现有的方法无法估计车辆饱和的高强度像素阻碍了基于光电测量的方法[27]的准确匹配。在检测和分割的帮助下，ISF [3]能够改进前景估计。但在这样的背景下，它仍然失败了。相比之下，我们的方法是强大的照明变化，并能够处理的遮挡，有效地分离车辆从背景。它还可以准确地估计运动的小型汽车远，以及那些交通支在一边。由于我们只在车辆上训练我们的Mask R-CNN，它无法分割火车，因此我们的模型失败。对于中间的图像，无纹理的汽车具有大的位移并且在第二帧中被遮挡。虽然以前的方法基本上失败了，但我们的方法能够通过推断的流和视差产生精确的运动估计。1由于我们的PWC-Net（在160张图像上进行了微调）的验证性能比官方的（在所有200张图像上进行了微调）稍差所有其他设置保持不变。我们感谢孙德清的帮助。3621已用能源背景离群值（%）已用能源前景离群值（%）埃坡E流E刚性D1D2FLSF埃坡E流E刚性D1D2FLSFC1.922.693.714.30C1.704.257.579.00CC1.922.564.725.28CC1.704.586.988.67CCC1.922.564.635.21CCC1.704.566.738.39表2：每种能量的贡献：由于前景物体有时是无纹理的并且具有大位移，简单的光度学术语是不够的。相反，背景充满了区分性的线索。简单的光度误差就足够了。添加额外的项将引入噪声并损害性能。请参阅supp。材料为全表。我们利用新的像素分配再次执行最小二乘拟合不幸的是，即使在重新标记后，仍有一些车辆实例无法解释刚性运动。仔细诊断后，我们注意到这是因为CAD模型的比例在帧之间发生了变化表3：相对于原始流量/立体声估计的验证集上的操作：括号中的数字是通过简单地用光流扭曲视差输出而获得的，而没有插值、遮挡处理等。模块立体光流分割推断时间409 ms/对30 ms/对251 ms /对模块RANSAC GN解算器总推断时间93毫秒/实例244毫秒/实例746 ms /对表4：分析。每个构建块中的模块都可以并行执行（更多细节请参见文本剩下的未被遮挡的部分。中间失效模式也是由于分割不准确。4.3. 3D刚体运动估计我们现在评估DRISF模型在估计3D刚性运动方面的性能。为了实现这一目标，我们利用KITTI场景流数据集中提供的地面实况光流、视差和实例分割来拟合每个对象实例的最小二乘刚性运动，以便创建地面实况刚性运动。策划KITTI场景流程：在装配过程中，我们发现KITTI存在两个关键问题：首先，在GT流/视差和GT分割之间存在未对准。第二，用于计算地面实况的相同3DCAD模型的比例拟合在帧之间改变一些时间。第一个问题是由于GT是通过不同的方式收集的，因此不一致。而GT流和GT视差是从拟合的3D CAD模型中获得的，GT分割是基于人类注释的。为了解决这个问题，我们首先使用GT分割掩码来定义每个对象实例。然后，我们通过最小二乘法使用每个实例的GT流和GTdispar- ity拟合刚性运动由于一些边界像素可能会被注释器错误标记，因此对于边界周围的每个像素，我们搜索周围区域中是否存在其他实例，如果存在，我们将像素转换为刚性运动。如果它们的刚性运动更好地解释了像素最后为了验证我们的假设，我们计算跨帧的相同实例的本征分解。理想情况下，如果实例的规模变化不大，则特征值应该大致相同。但我们发现了一些考试-其中最大特征值改变7%的情况下发生。我们简单地修剪这些实例，因为GT不准确。3D运动评估：大多数场景流方法都是基于像素或采用分段刚性设置。如何在不影响其性能的情况下将其估计聚合到基于实例的运动模型中尚不清楚。鉴于此，我们利用GN解算器的运动初始化我们采用深度网络的输出并应用RANSAC来找到最佳刚性运动。我们表示Deep+RANSAC如Tab.所示。3、这个底线很有竞争力。其性能与现有技术相当，甚至更好。我们评估我们的运动模型的基础上的平移误差和角度误差。如图5、80%以上的车辆平移误差小于1米，角度误差小于1。3◦. 此外，大多数平移误差大于1m的车辆至少在20m以外.一般来说，这两种误差都随着距离的增加而略有增加。这是预料之中的，因为车辆越远，我们的观测就越少。平移误差和角度误差也是强相关的。视觉里程计：“自我车”的里程可以通过估计背景运动来计算。作为概念验证，我们计算验证图像上的每帧里程误差。平均而言，我们的运动模型漂移0。09米，0。每10米24英里。图6示出了详细的测距误差w.r.t.旅行距离。我们注意到，目前的结果是没有任何姿态过滤器，循环关闭等，我们计划在未来进一步利用这一方向。4.4. 分析消融研究：为了了解每个能量项对背景和前景对象的有效性，我们使用不同的能量组合来评估我们的模型。如Tab.所2、最佳性能实现前-方法D1-所有D2-全部Fl-allSF-allPSM + PWC1.89（47.0）11.0（50.8）深度+RANSAC1.892.757.658.263622之前（PWC）之后（DRISF）之前（PSM+扭曲）之后（DRISF）图7：对原始流量/立体声的改进：DRISF提高了整体性能。它对纹理较少的区域（例如，左侧黑色轿车的车窗）和遮挡区域（右侧）。而对于背景，仅采用光测学项时误差最小。这可以通过车辆通常没有纹理并且有时具有大位移的事实来解释。如果只采用光度项，则很难建立对应关系，也很难处理剧烈的表观变化。借助流和刚性项，我们可以引导运动，减少这种影响，并处理遮挡。与此相反，背景是充满了歧视性的纹理，并具有相对较小的运动，这是理想的光度项。添加其他项可能会引入额外的噪声并降低性能。与原始流量/差异的比较：通过利用视觉线索和遮挡处理之间的结构，我们的模型能够定量地提高性能（Tab.3）和定性（图。（七）. 目标运动估计更好，边界更清晰，遮挡误差大大减少，这表明将先验知识，如相同实例的像素应该具有相同的刚性运动，到模型中是至关重要的任务。潜在的改进为了了解我们在改进每个模块时可能获得的潜在收益，我们依次将求解器的输入逐个替换为地面实况，并评估我们的模型。用GT代替D1和flow分别降低了8%和21%的场景流错误率，而用GT代替分割并没有改善结果。这表明，流动和立体声模块仍有改进的空间。我们在Tab中的推理过程中对模型中每个组件的运行时进行基准测试。4.第一章整个推理流水线可以分解为三个顺序阶段：视觉线索提取、遮挡推理和优化。由于同一阶段内的模块是独立的，因此它们可以并行执行。此外，现代自动驾驶车辆配备了多个GPU。因此，每个阶段的运行时间是所有并行模块的最大值。在实践中，我们利用两个Nvidia 1080Ti GPU来提取视觉线索：一个用于PSM-Net，另一个用于Mask R-CNN和PWC-Net。目前，立体声模块占用总时间的50%以上。这在很大程度上是由于3DCNN成本聚合和堆叠的沙漏细化。在未来，我们计划研究其他更快但可靠的立体声网络。GN解算器的运行时间高度依赖于我们展开的步骤数和我们考虑的点数。请参阅supp。材料进行详细分析。局限性：DRISF有两个主要限制：首先，它严重依赖于分段网络的性能。如果分割模块未能检测到车辆，车辆将被视为背景，并分配一个逆自我汽车运动。在这种情况下，3D运动可能是完全错误的，即使光流网络准确地预测其流动。在未来，我们计划解决这一问题，共同推理实例分割和场景流。第二，当前的能量功能是高度以流为中心的。只有光度项与流量无关.如果光流网络完全失效，求解器将很难恢复正确的运动。因此，一种可能的解决方案是添加更多的流不变能量项，例如相邻帧之间的实例关联。5. 结论在本文中，我们开发了一种新的深度结构化模型的三维场景流量估计。我们专注于自动驾驶的场景中，场景的运动可以通过估计每个演员的3D刚性运动组成我们首先利用深度学习来提取每个实例的视觉线索。然后，我们采用多个几何为基础的能量函数来编码它们之间的结构几何关系。通过对能量函数的优化，可以实现每个交通参与者的三维运动，从而实现场景流。所有操作，包括Gassian-Newton 求解器，都在GPU中完成我们的方法在KITTI场景流数据集上实现了最先进的它在运行时和精度与现有技术相比，DRISF好22%，同时快两到三个数量级。3623引用[1] Min Bai，Wenjie Luo，Kaustav Kundu，and Raquel Urtasun.光流场语义信息的挖掘与深度匹配.在ECCV，2016年。2[2] Tali Basha，Yael Moses，Nahum Kiryati。多视图场景流量估计：一种以视图为中心的变分方法。IJCV，2013年。2[3] Aseem Behl，Omid Hosseini Jafari，Siva Karthik Mustikovela，Has- san Abu Alhaija，Carsten Rother，and Andreas Geiger. 边界框、分割和对象坐标：在自动驾驶场景中，识别3D场景流估计有多重要？InICCV，2017. 一、二、四、六[4] 迈克尔·布莱克和T.阿南丹多运动的鲁棒估计：参数和分段光滑流场。CVIU，1996年。2[5] 斯蒂芬·博伊德和利文·范登伯格。凸优化剑桥大学出版社，2004。1[6] 托马斯·布罗克斯，和re的布鲁恩，尼尔斯·帕彭贝和约阿希姆·韦克特。基于翘曲理论的高精度光流估计。见ECCV，2004年。2[7] Emmanuel J Candes，Michael B Wakin，and Stephen P Boyd.通过重新加权l1最小化增强稀疏性。傅立叶分析与应用杂志，2008。5[8] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR，2018年。二、三、六[9] Zhuoyuan Chen，Xun Sun，Liang Wang，Yinan Yu，and ChangHuang.立体匹配代价的深度视觉对应嵌入模型。在ICCV，2015年。2[10] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ， TimoRehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth ， and Bernt Schiele. 用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。3[11] PhilippFischer，Alexe yDoso vitskiy，EddyIlg，PhilipH？usser，CanerHazırbas r ， Vladimir Golkov ， Patrick Van der Smagt ，Daniel Cremers，and Thomas Brox.Flownet：使用卷积网络学习光流。arXiv，2015. 一、二、六[12] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在计算机视觉和模式识别会议（CVPR），2012。3[13] KaimingHe，Geo r giaGkioxari，PiotrDoll a'r，andRossGirshick.面具R-CNN。 InICCV，2017. 3[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and Jian Sun.用于视觉识别的深度卷积网络中的空间金字塔池。2014年，在ECCV。二、三[15] 海科·赫希穆勒利用半全局匹配和互信息进行立体处理。TPAMI，2008年。2[16] 威廉·霍夫和纳兰德拉·阿胡加来自stereo的曲面：集成特征匹配、视差估计和轮廓检测。TPAMI，1989年。2[17] Berthold KP Horn和Brian G Schunck。确定光流。人工智能，1981年。2[18] 埃里克·胡盖神父和埃里克·德沃纳神父。从立体序列中估计场景流的一种变分方法载于ICCV，2007年。2[19] Tak-Wai Hui，Xiaoou Tang，and Chen Change Loy.Liteflownet：一种用于光流估计的轻量级卷积神经网络。在CVPR，2018年。2[20] Eddy Ilg，Nikolaus Mayer，Tonmoy Saikia，Margret Keuper，Alexey Dosovitskiy，and Thomas Brox.流动网络2.0：利用深度网络的光流估计的演进。在CVPR，2017年。2[21] Eddy Ilg，Tonmoy Saikia，Margret Keuper，and Thomas Brox.Oc- clusions，运动和深度边界与视差，光流或场景流估计的通用网络。2018. 2[22] 金田武夫和奥富正俊。具有自适应窗口的立体匹配算法：理论与实验。载于ICRA，1991年。2[23] Alex Kendall 、 Hayk Martirosyan 、 Saumitro Dasgupta 、 PeterHenry、Ryan Kennedy、Abraham Bachrach和Adam Bry。深度立体回归的几何和上下文的端到端学习。2017. 2[24] Wenjie Luo，Alexander G Schwing，and Raquel Urtasun.用于立体匹配的高效深度学习。在CVPR，2016年。一、二[25] Zhaoyang Lv ，Chris Beall ，Pablo F Alcantarilla ，Fuxin Li ，Zsolt Kira，and Frank Dellaert.一种持续优化的方法，用于高效和准确的场景流。在ECCV，2016年。二、四、六[26] Nikolaus Mayer，Eddy Ilg，Philip Hausser，Philipp Fischer，Daniel Cremers，Alexey Dosovitskiy，and Thomas Brox. 用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。在CVPR，2016年。一、二、六[27] Moritz Menze和Andreas Geiger。自动驾驶车辆的目标场景流。CVPR，2015。一、二、四、六[28] MichalNeoral和JanS. 具有时间的目标场景流一致性在CVWW，2017年。四、六[29] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络。在ECCV，2016年。2[30] 尼尔斯·帕彭贝，还有布鲁恩、托马斯·布罗克斯、斯蒂芬·迪达斯和约阿希姆·韦克特。高精度光流计算与理论上合理的扭曲。IJCV，2006年。2[31] Jean-Philippe Pons、Renaud Keriven和Olivier Faugeras。基于全局图像匹配分数的多视点立体重建和场景流估计。IJCV，2007年。2[32] Anurag Ranjan和Michael J Black。使用空间金字塔网络的光流估计。在CVPR，2017年。一、二[33] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：用区域建议网络实现实时目标检测。2015年，在NIPS中。3[34] Zhile Ren，Deqing Sun，Jan Kautz，and Erik Sudderth.使用语义分割的级联场景流预测在3DV，2017年。二、四、六[35] Jerome Revaud ， Philippe Weinzaepfel ， Zaid Harchaoui ， andCordelia Schmid.Epicflow：光流对应的边缘保持插值。CVPR，2015。2[36] 孙德庆，斯特凡·罗斯，迈克尔·J·布莱克。光流估计的秘密及其原理。CVPR，2010。4[37] 孙德清、杨晓东、刘明宇和Jan Kautz。模型很重要，培训也很重要：cnns用于光流估计的实验研究。arXiv，2018年。2[38] 孙德清、杨晓东、刘明宇和Jan Kautz。Pwc-net：使用金字塔、扭曲和成本体积的光流的Cnns。在CVPR，2018年。一、二、三[39] LeviValgaerts，Andre 'sBruhn，HenningZimmer ，JoachimWeickert，Carsten Stoll和Christian Th

下载后可阅读完整内容，剩余1页未读，立即下载