单目场景流估计方法的实时性与准确性

67 浏览量更新于2023-10-25 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7396自监督单目场景流量估计达姆施塔特工业大学计算机科学系图1. 我们在KITTI数据集上的单目场景流方法的结果[11]。给定两个连续的图像（左），我们的方法联合预测深度（中）和场景流（右）。使用光流颜色编码来可视化3D场景流的（x，z）坐标摘要场景流估计在三维环境感知中受到越来越多的关注。单目场景流估计-我们提出了一种新的单目场景流方法，产生竞争力的准确性和实时性能。通过采取逆问题的观点，我们设计了一个单一的卷积神经网络（CNN），成功地估计深度和3D运动，同时从一个经典的光流成本量。我们采用具有3D损失函数和遮挡推理的自监督学习来利用未标记的数据。我们验证我们的设计选择，包括代理丢失和增强设置。我们的模型在单目场景流的无监督/自监督学习方法中达到了最先进的精度，并为光流和单目深度估计子任务产生了有竞争力的结果。半监督微调进一步提高了准确性，并实时产生有希望的结果。1. 介绍场景流估计是获取动态场景的三维结构和三维运动的任务，它对环境感知至关重要，在自主导航的背景下。因此，最近已经提出了许多场景流方法，基于不同类型的输入数据，例如立体图像[18，44，51，56，62]，3D点云[14，29]或RGB-D图像序列[15，16，31，38，39，46]。然而，每种传感器配置都有其自身的局限性，例如：需要立体声校准对于立体声装置，昂贵的传感设备（例如，LiDAR）用于测量3D点，或者限于室内使用（即，RGB-D相机）。我们在这里考虑单目3D场景流估计，旨在克服这些限制。然而，单目场景流估计是一个高度不适定的问题，因为单目深度（也称为单视图深度）和每像素3D运动都需要从连续的单目帧（这里是两个连续的帧）来估计。到目前为止，提出的方法相对较少[3，58]，没有一种方法能够同时实现合理的准确性和实时性能。最近，已经提出了许多CNN方法[5，28，30，40，60，64]来联合估计单目设置中的深度，流量和相机自我运动。这使得从各种输出中恢复3D运动成为可能，但是具有重要的限制。深度尺度模糊性[40，64]和在遮挡区域中估计深度的不可能性[5，28，30，60]显著限制了在整个图像上获得准确的3D场景流的在本文中，我们提出了一种单目场景流方法，通过利用CNN产生有竞争力的准确性和实时性能。据我们所知，我们的方法是第一个直接从CNN预测3D场景流的单目场景流方法。由于使用合成数据集时3D运动地面实况的稀缺性和域过度拟合问题[4，33]，我们以自我监督的方式直接在目标域上训练，以利用大量未标记的数据。对有限数量的地面实况数据进行操作性半监督微调可以进一步提高准确性。我们做了三个主要的技术贡献：（i）我们提议，pose接近这个不适定的问题，采取反问题的观点。注意到光流是3D点及其3D场景流的2D投影，7397通过使用单个联合解码器将经典的光流成本体积分解为场景流和深度来反向和估计单目设置中的场景流。我们使用标准光流管道（PWC-Net [45]）作为基础，并将其适用于单目场景流。通过与多任务CNN方法进行比较，我们验证了我们的架构选择和动机。（ii）我们证明，用单个联合解码器解决单目场景流任务实际上简化了联合深度和流估计方法[5，28，30，40，60，64]，并且尽管网络更简单，但仍产生有竞争力的准确性。现有的多任务CNN方法具有用于各种任务的多个模块，并且由于联合训练多个CNN的不稳定性，因此需要复杂的训练时间表相比之下，我们的方法仅使用单个网络，该网络输出场景流和深度（以及投影到2D后的光流），具有更简单的训练设置和更好的深度和场景流精度。（iii）我们引入了一个用于单目场景流的自监督损失函数以及一个合适的数据增强方案。我们引入了视图合成损失、3D重建损失和遮挡感知损失，所有这些都在消融研究中得到了验证。有趣的是，我们发现这两项任务的几何增强相互冲突，并使用消融研究确定了一个合适的折衷方案。在对来自KITTI原始数据的未标记数据进行训练数据集[10]，我们在KITTI场景流数据集[36，37]上进行了评估，并证明了与以前的单目场景流无监督/自监督学习方法[30，60，61]相比具有高度竞争力的准确性我们的微调网络的准确性更接近[3]的半监督方法，同时速度更快。2. 相关工作场景流动。场景流通常被定义为场景中每个点的密集3D运动场，并且首先由Vedula等人引入。[47、48]。最常见的设置是联合估计3D场景结构和给定立体图像序列的每个点的3D运动[18，44，50，51，52，56，62]。早期的方法大多基于标准变分公式和能量最小化，产生有限的准确性并导致长运行时间[1，18，49，56，62]。后来，Vogel等人[50，51，52]介绍了一种具有刚性运动模型的显式分段平面表面表示，特别是在交通场景中，它带来了显着的精度改进。通过刚性移动对象来开发语义知识，进一步提高了准确性[2，32，35，41]。最近，CNN模型也被引入。监督方法[22，24，33，42]依赖于大型综合数据集和有限的域内数据，以实现最先进的准确性和实时性能。非/自我监督学习方法[27，28，53]已经被取消，他们试图规避获得地面实况数据的困难，但他们的准确性仍然落后。另一类方法利用给定的3D结构线索从RGB-D图像序列[15，16，31，38，39，46]或3D点云[14，29]相比之下，我们的方法是基于一个更chal，challing设置，共同估计3D场景结构和3D场景流从一系列的单目图像。单目场景流。Xiao等[58]介绍了一种在给定初始深度线索的情况下对单目场景流的变化方法，但没有竞争性的准确性。Brickwedde等人[3]通过结合CNN和基于能量的公式提出了一个集成管道给定来自在伪标记数据上训练的单目深度CNN的深度估计，该方法联合估计分段刚性场景表示的3D平面参数和6D刚性运动，从而实现最先进的精度。与[3]相比，我们的方法纯粹基于CNN，实时运行，并且以端到端的自我监督方式进行训练，这允许利用大量未标记的数据（参见。[58]）。光流和深度的联合估计。给定两个深度图和两个时间连续帧之间的光流，可以简单地计算3D场景流[43]通过从光流中关联两个3D点。然而，这条管道有一个严重的局限性;它不能估计被遮挡像素的3D运动，因为它们在第二帧中的深度值是未知的。最近的几种方法[5，26，40，60，61，63，64]利用多任务CNN模型在无监督/自监督设置中从单目序列联合估计深度，光流，相机运动和移动对象掩模。虽然可以从它们的输出重建场景流，但这些方法[30，60]由于限于非遮挡区域而产生有限的场景流精度。相比之下，我们的方法直接使用CNN估计3D场景流，这样我们就可以自然地绕过这个问题。3. 自监督单目场景流3.1. 问题公式化对于参考帧I t中的每个像素p =（px，py），我们的主要目标是估计对应的3D点P =（Px，Py，Pz）及其到目标帧I t +1的（前向）场景流s=（sx，sy，sz），如图2所示。2a.场景流被定义为相对于相机的3D运动，并且其在图像平面上的投影变为光流f=（fx，fy）。为了估计单目相机设置中的场景流，我们采用逆问题方法：我们使用CNN来估计作为中间表示的经典光流成本体积，然后用学习的解码器将其分解成3D点和它们的场景流。与立体摄像机设置的场景流不同[26，27，53]，它是可伸缩的-7398不电话+1( ,, )(,,sz)(,)(, )��′(�� ′,�� ′,�� ′)��′(�� ′,�� ′)(a) 将场景流投影到2D空间。( ,, )(,)(, )��′(�� ′,�� ′,�� ′)��′(�� ′,�� ′)(b) 将光流反向投影到3D空间中。图2. 将单目场景流估计与光流相关：（a）场景流到图像平面的投影产生光流[59]。（b）光流的反投影在联合确定深度和场景流时留下模糊性。由于尺度模糊性，在绝对尺度上确定深度然而，使两个图像之间的每像素对应性相关可以提供用于估计单眼设置中的深度的线索。此外，给定光流估计，将光流反向投影到3D中会产生深度和场景流的许多可能组合，见图2。2B，这使得问题更具挑战性。3.2. 网络架构与以前的工作[5，30，40，60，61，64]不同，以前的工作对每个任务使用单独的网络（例如，光流、深度和相机运动），我们的方法仅使用一个单个CNN模型，该模型通过单个解码器输出3D场景流和视差1。我们认为，在我们的单眼设置中，具有单个解码器比单独的解码器更合理，因为当将2D对应的证据分解为3D结构和3D运动时，需要考虑它们的相互作用（参见图11）。图2b）。我们的 CNN 模型的第一个技术基础是 PWC-Net[45]，这是最先进的光流网络之一，我们为我们的任务进行了修改。图3示出了我们的monoc-通过将输出通道的数量从2增加到4（即，3个用于场景流，1个用于视差）。根据光流[19，21，45]背景下残留运动估计的好处，我们估计每个级别的残留场景流。相比之下，我们观察到残差更新损害视差估计，因此我们在所有级别上估计（非残差）视差。为了具有更多的区别特征，我们增加了金字塔特征提取器中的特征通道数量[16，32，64，96，128，196][2019 -02- 16][2019 - 02 - 16][2019 - 02 -16]3.3. 解决规模模糊问题当解决3D模糊时，不可能从两个单目图像中的单个对应关系确定深度尺度为了在绝对尺度上估计深度和场景流，我们采用Godard等人的单目深度估计方法。[12，13]作为我们的第二个基础，它利用具有已知立体配置的立体图像对和相机固有函数K进行训练;在测试时，只需要单目图像和已知固有函数。来自右摄像头的图像引导CNN通过自监督损失函数间接利用语义和几何线索来估计绝对尺度上的视差d[7]。然后，可以通过虚拟方式在给定立体装备的基线距离b和相机焦距ffocal的情况下，恢复为df=b·ffocal/d。我们也只在训练中使用立体图像;在测试时，我们的方法是单目的在我们的上下文中，在绝对尺度上估计深度也有助于在绝对尺度上消除场景流的歧义（参见图1）。图2b）。此外，紧密耦合的时间对应性和深度实际上有助于识别适当的绝对尺度，这允许我们避免其他单目方法所依赖的不切实际的测试设置（例如，[40，61，64]在测试时使用地面实况3.4. 自监督学习类似于先前的单目结构重建方法[5，30，40，60，61，63，64]，我们利用视图合成损失来引导网络联合估计视差和场景流。为了在这两项任务中获得更好的准确性，我们通过双向估计[34]利用遮挡线索，这里是视差和场景流。给定一个立体图像对，基于PWC-Net的通用场景流架构。 PWC-Net拥有参考和目标帧{I1，I1，Ir，Ir}，我们输入一个t t+1t t +1金字塔结构，其构造特征金字塔，来自左摄像机的单眼序列（I1和I2）到t t+1递增地更新金字塔中的估计值并获得每个帧（D1）的视差图程度.黄色阴影区域显示一次向前传球，dl以及前向和后向场景流（SL每一层金字塔而SL）通过简单地切换输入的时间顺序，在保持原有结构的同时，放。右摄像机的两幅图像（Ir和Ir）都每个金字塔级的解码器输出视差和场景1即使我们在测试时没有立体图像，我们仍然按照[12，13]估计假设立体设置的视差，其可以被转换为给定假设立体配置的深度。仅用作损失函数中的指导，不使用在测试时间。我们的总损失是视差损失Ld和场景流损失Lsf的加权和，Ltotal=Ld + λsfLsf。（一）不电话+1FWBW7399输出差异参考图像目标图像残差输出场景流场景流特征金字塔投影到光流中文FW��′FW不电话+1不日本+1不不不不不不不电话+1不不不Q特征金字塔图3. 我们基于PWC-Net [45]的单目场景流架构：在保持PWC-Net的整体原始结构的同时，我们修改解码器以一起输出残留场景流和（非残留）视差。在对场景流进行残差更新后，利用深度将场景流投影回光流。然后，光流被用于在下一个金字塔级别中扭曲特征图（为了便于可视化，仅示出了7个级别中的3个）淡黄色阴影区域显示每个金字塔级别的一个正向传递视差损失。基于Godard等人的方法，al. [12，13]，我们提出了一种遮挡感知的单眼视差损失，由光度损失Ld_ph和平滑损失Ld_sm组成，Ld=L d_ph+λ d_smL d_sm，（2）其中正则化参数λd_sm=0。1.一、视差损失被应用于视差图d1和d2 - 是的为��′拉克里尔（）下一页��′′′日本+1简要地，我们仅描述D1的情况。光度损失Ld_ph 惩罚光度�系方式（��′）- 左图像Il与重构左图像Il之间的差，d，其从输出位移合成。(a) 光度损失。(b) 3D点重建丢失。城市地图dl和给定的右图像Ir使用双线性输入，图4. 场景流损失：（a）找到对应的像素内插[23]。与[12，13]不同，我们只惩罚非遮挡像素的光度损失。根据标准实践[12，13]，我们使用L1损失和结构相似性指数（SSIM）的加权组合[55]：对于光度损失L sf_ph，给定深度和场景流（等式2），（七）.（b）通过点重建损失Lsf_pt惩罚对应3D点之间的3D距离（虚线，红色）（等式11）。（八）。Σ。1 −Ol，dispΣ。L阿苏尔角其中β = 10并且N是像素的数量。L=pt（p）.·ρIt（p），It（p）（3a）现场流量损失。场景流损失由三项组成与d_ph1−Ol，disp（q）–Lsf_pt和场景流平滑度损失Lsf_sm，ρ（a，b）=α1−SSIM（a，b）2+（1−α）<$a-b<$1，（3b）Lsf=Lsf_ph+λsf_ptLsf_pt+λsf_smLsf_sm，（5）其中正则化参数λsf_pt=0。2和λsf_sm=其中α = 0。85和01，disp是视差遮挡掩模两百块场景流损失应用于前向和后向（0获取遮挡蒙版后向场景流（sl而SL）. 为了简洁起见，我们0l，disp，我们将正确的图像Ir馈送到网络中以获得仅描述前向场景流S1的情况。t tfw右视差dR，并取其视差图的逆，该视差图是通过前向扭曲右视差图[20，54]而获得的。场景流光度学损失Lsf_ph惩罚了pho_ph。参考图像Il和重建的参考图像Il之间的距离差，为了鼓励局部平滑差异估计，我们视差图D1、输出场景流S1，目标tfw采用边缘感知的二阶平滑度[28，34，57]，图像II. 为了重建图像，相应��翘曲相关性场景流+视差解码器FWBW电话+17400不1Σ Σ。.L计算I1中的每个像素p的I1中的像素坐标pLd_sm=. 2002dl（p）. ·e−βiIt（p）1，（4）Ni tpi∈{x，y}通过使用摄像机本征函数K和估计的深度dλl（p）将像素p反向投影到3D空间中，7401不FW不不BWQ(p). ·ett1−Ol，sf（p）·P′−P′不P=tfw电话+1点使用场景流sl（p）然后重新预测单目景深单目场景流将它们映射到图像平面（cf.图4a），p′ =K.dl（p）·K−1p + sl（p）Σ、（6）假设是齐次坐标表示。然后，我们应用与视差情况中相同的遮挡感知光度损失（等式2）。3a），表1. 几何扩增的影响（8月23日））和CAM-转换（CC. ）[9]关于单目深度和场景流估计-Σ。l，sfp1−Ot（p）·ρ。Il（p），Il，sf（p）作用（在KITTI分裂，见文本）：单目深度精度估计只有在使用CAM-Convs时才能改善，而Lsf_ph=Σ。1−Ol，sf（q），（7）单目场景流估计在仅使用增强而不使用CAM-Convs时得到改进。其中，Ol，sf是场景流遮挡掩模，通过下式获得：使用后向场景流S1来计算去遮挡。此外，我们还惩罚了两个相应的三维点之间的欧氏距离，即。从参考帧平移的像素p的3D点和目标帧中的匹配3D点（参见图4b）：.Σ¨ ¨¨ ¨pt t t+12太棒了在增强之后，我们还探索了最近的CAM-Convs[9]，其促进了与相机固有特性无关的深度估计在对输入图像应用增强后，我们计算得到的相机自相关，然后以CAM-Convs格式输入它们（技术细节见[9]）。我们推测，使用几何增强将提高场景流的准确性。与Lsf_pt=P′=′电话+1Σ。1−Ol，sf（q）n，（8a）dl（p）·K−1p+sl（p）（8b）dl（p′）·K−1p′，（8c）然而，同时采用CAM-Convs [9]可以防止深度精度由于增强图像的相机固有特性的变化而下降。我们对KITTI原始数据集[10]的KITTI分裂[13]进行实证研究（参见第二节）。4.1详情）。单目深度估计之实证研究。我们而p′则定义在等式中。（六）、同样，这种3D点重建损失仅应用于可见像素，其中对应性应该保持。类似于等式中的视差损失。（4），我们还对场景流采用边缘感知的二阶平滑，以鼓励局部平滑估计：使用基于ResNet 18的单眼深度基线[13] us-我们提出的遮挡感知损失。表1（左手侧）示出了结果。正如我们所看到的，几何增强降低了深度精度，因为它们阻止了网络通过输入具有不同相机本质的增强图像来学习特定相机;这一次，1Σ ΣL=.. 伊什.−βiIl （p）使用和不使用CAM-Convs的双保持。这可能解释了为什么一些多任务方法[26，27，28，53]sf_smNpi∈{x，y}我fwt1。（九）仅使用最小的增强方案，例如图像翻转和输入时间顺序切换。仅使用CAM-3.5. 数据增强在许多预测任务中，数据增强对于在有限的训练数据下实现良好的准确性至关重要在我们的单目场景流任务中，不幸的是，这两个任务的典型几何度量增强方案（即，单色深度估计、场景流估计）彼此冲突。对于单目深度估计，不执行几何增强是可取的，因为它使得能够在固定相机配置下学习场景布局[7，17]。另一方面，场景流需要几何增强以更好地匹配相应的像素[24，33]。我们调查哪种类型的（几何）增强是适合我们的单目场景流任务和方法。类似于以前的多任务方法[5，40，64]，我们准备了一个简单的数据增强方案，包括随机缩放，裁剪，缩放和水平图像FW不2LQ八月CC. [9]第一章ABS.Rel.平方Rel.D1-全部D2-全部F1-全部SF1-全部0.1131.11832.0636.4624.6849.89✓0.1221.17231.2534.8623.4947.05✓0.1121.08937.2439.2624.8254.83✓✓0.1211.15533.2536.2124.7349.127402Convs [9]工作得最好，因为测试数据集包含具有不同内在函数的图像，CAM-Convs可以处理这些图像。单目场景流的实验研究估计我们用Eq中的拟议损失训练我们的完整模型（一）.查看表1的右侧，对于单目场景流估计产生不同的结论：一般来说，使用增强提高了场景流的准确性，但是使用CAM-Convs [9]实际上损害了准确性。我们猜想CAM-Convs的好处-光流、场景流）并且可能损害准确性。我们还观察到CAM-Convs会导致训练集上的轻微过度拟合，产生略微较低的训练损失（例如，<1%），但在测试集上具有更高的误差。因此，我们在下面仅应用几何增强而不应用CAM-Convs。74034. 实验4.1. 实现细节数据集。为了进行评估，我们使用KITTI原始数据集[10]，它提供了覆盖61个街道场景的立体序列。对于场景流实验，我们使用KITTI拆分[13]：我们首先排除KITTI场景流训练[36，37]中包含的29个场景，并将剩余的32个场景拆分为25801个序列用于训练，1684个序列用于验证。对于评估和消融研究，我们使用KITTI场景流训练作为测试集，因为它为200个图像的视差和场景流提供了真实标签。在以自我监督的方式对KITTI Split进行训练后，我们可以选择使用KITTI场景流训练[36，37]微调我们的模型，以查看可以从注释数据中获得多少准确性增益。我们通过将监督损失与我们的自我监督损失相结合，在半监督设置中微调我们的模型（详见下文）。此外，为了评估单目深度精度，我们还使用了本征分裂[8]，排除了697个测试序列覆盖的28个场景，分为20个120个训练序列和1338个验证序列。数据扩充。我们采用随机伽马，亮度和颜色变化的光度增强。正如SEC中所讨论的那样3.5，我们使用几何增强，包括水平翻转[26，27，28，53]，随机尺度，范围，中耕[5，40，64]，然后将中耕转化为256 ×832像素在以前的工作[27，28，30，40，60]。自我监督训练。我们的网络使用Adam[25]进行训练，超参数β1= 0。9和β2= 0。999我们的初始学习率是2×10−4，小批量大小是4。我们对网络进行了总共40万次迭代的训练。2.在每次迭代中，等式2中的正则化权重λsf（1）正动态确定以使场景流和视差的损失相等，以便平衡两个联合任务的优化[21]。我们具体的学习率计划，以及超参数选择和数据增强的细节在补充材料中提供。与以前的方法不同，由于联合训练的不稳定性，需要对多个CNN进行阶段预训练[27，28，53，64]或迭代训练[30，40，60]，我们的方法不需要任何复杂的训练策略，但可以从头开始一次训练。这突出了我们方法的实用性。半监督微调。我们可以选择以半监督的方式通过混合两个数据集来微调我们的训练模型，KITTI原始数据集[10]和KITTI场景流训练[36，37]，每批4个数据中的比例为3：1。后一个数据集提供参考图像的视差图的稀疏地面实况、参考图像处的视差信息和参考图像的视差图的视差信息。2代码可在https://github.com/visinf/self-mono-sf上获得。发生率3D点D1-全部D2-全部F1-全部SF1-全部（基本）✓33.3130.9951.3350.8924.7423.5564.0562.50✓32.0736.0127.3049.27✓ ✓31.2534.8623.4947.05表2. Ablation study on the loss function: based on the Ba- sic2D loss consisting of photometric and smoothness loss, the 3Dpoint reconstruction loss (3D points) improves scene flow accu-racy, especially when discarding occluded pixels in the loss(Occ. ）.映射到参考图像的目标图像以及光学流。在将场景流转换为两个视差图和光流之后，我们将我们的自监督损失应用于所有样本，并且仅对来自KITTI场景流训练的样本应用监督损失（L2用于光流，L1用于通过半监督微调，代理损失可以引导稀疏地面实况不能监督的像素此外，该模型可以防止严重的过度拟合上只有200注释的图像，通过利用更多数据。我们训练网络进行45k次迭代，学习率从4× 10−5开始（见补充）。评价指标。为了评估场景流准确度，我们遵循KITTI场景流基准的评估度量[36，37]。它评估参考帧（D1-all）和映射到参考帧（D2-all）的目标图像以及光流（F1-all）的显示精度。超过3个像素或5%w.r.t.的阈值的每个像素地面实况视差或光流被视为异常值;该度量报告具有可用的基本事实的所有像素中的异常值比率（以%为单位）。此外，如果像素满足所有度量（即，D1-all、D2- all和F1-all），它被认为是有效的场景流估计，从中计算场景流的离群率（SF 1-all）。为了评估深度精度，我们遵循Eigen等人介绍的标准评估方案。[8]的一项建议。我们假设已知的测试时间相机固有。4.2. 消融研究为了证实我们的各种贡献的好处，我们使用KITTI分裂与数据增强应用我们的完整模型的基础上进行消融研究。自我监督学习的代理损失。我们的代理损失包括三个主要部分：（ii）3D点：场景流的3D点重构损失，以及㈢发生率：是否仅对可见像素应用光度和点重建损失。表2显示了每种损失对精度的贡献3D点丢失通过在目标图像上产生更准确的视差（D2-all）而显著地有助于更准确的场景流。这突出了惩罚两个对应的3D点之间的实际3D欧几里得距离的重要性（参见图1）。图4b）哪种典型的损失7404模型D1-全部D2-全部F1-全部SF1-全部仅单眼深度27.59–––仅光流––24.27–带单独解码器的场景流10097.2227.63100带有单个解码器的31.2534.8623.4947.05表3. 单解码器vs.单独的解码器：使用单个解码器可以在两个任务上产生稳定的训练和与单独针对每个任务的模型相当的准确性。二维空间中的函数（即，基本损失）在以前的工作[30，60]不能。将遮挡考虑在内始终进一步提高我们的代理损失的主要目标是尽可能接近地重建参考图像，这可能导致对遮挡区域中的视差和场景流的潜在不正确估计产生因此，丢弃损失中的遮挡像素对于实现准确预测至关重要。单解码器vs.单独的解码器。为了验证使用单个解码器将光流成本体积分解为深度和场景流的关键动机，我们将每个任务与具有单独解码器的模型进行比较，该模型遵循其他多任务方法的常规设计[5，28，30，40，60，64]。我们还准备了两个基线，仅用于估计单眼深度或光流，以评估我们修改后的PWC-Net对每个任务的能力。表3显示了我们对网络设计的消融研究。首先，与仅对每个单独任务使用相同网络相比，我们使用单个解码器的模型在深度和opti- cal流任务因此，我们得出结论，使用单个联合网络来求解单场景流可以在相同的训练资源和网络容量的情况下替代两个单独的任务。当分离解码器时，我们发现网络不能稳定地训练，产生不一致的平凡解决方案。这类似于以前的多任务方法所观察到的问题，这些方法需要对多个CNN进行预训练或迭代训练[27，28，30，40，53，60，64]。相反，具有单个解码器通过联合估计解决了不平衡和稳定性问题。我们包括一个更全面的分析，在补充，逐步分裂解码器密切分析其行为。4.3. 单目场景流表4展示了KITTI场景流训练与现有monocular场景流方法的比较。我们在场景流评估指标上与最先进的多任务CNN方法[30，60，61，64]进行比较。我们的模型显著优于这些方法，这证实了我们的方法是迄今为止使用CNN的最准确的例如，我们的方法产生超过40。1%精度增益，用于估计表4. KITTI场景流训练上的单目场景流评估：我们的自监督学习方法在场景流度量SF 1-all上的性能显著优于所有多任务CNN方法（上行）。较低的行提供了半监督方法[3]和我们的微调模型的准确性。方法D1-全部 D2-全部 F1-全部 SF1-全部DRISF [32]2.554.044.736.310.75秒[第24话]2.225.897.649.550.32秒[42]第四十二话5.138.4612.9615.690.13秒UnOS [53]6.6712.0518.0022.320.08秒单SF [3]16.3219.5912.7723.0841 sSelf-Mono-SF（我们的）34.0236.3423.5449.540.09秒Self-Mono-SF-ft（Ours）22.1625.2415.9133.880.09秒表5. KITTI场景流测试的场景流评估：我们将我们的方法与立体（顶部）和单眼（底部）场景流方法进行比较。尽管设置困难，但我们的微调模型实时显示了令人鼓舞的结果。匹配目标图像上的视差（D2-all）。虽然EPC [60]和EPC++ [30] 这两种方法没有提供场景流准确度数（SF1-all），但我们可以得出结论，我们的方法在SF1-all中明显优于所有四种方法，因为SF1-all是D2-all的下界。我们的自我监督学习方法（Self-Mono-SF）仅Mono-SF [ 3 ]优于Mono-SF [3]，Mono-SF是一种使用伪标签、语义实例知识和附加数据集（Cityscapes[6]）的半监督方法。然而，我们的方法运行超过两个数量级的速度更快。我们还提供了我们的微调模型（Self-Mono-SF-ft）在训练集上的准确性以供参考。表5显示了在KITTI Scene Flow 2015基准上与立体和单眼场景流方法的比较图5提供了可视化。半监督微调进一步提高了精度，接近Mono-SF [3]，但运行时间快400倍为了进一步提高精度，例如，刚性细化[24，28]，利用外部数据集[6]进行预处理，训练或伪地面实况[3]可以应用于我们的自监督学习和半监督微调管道之上，而不会影响运行时间。4.4. 单目深度和光流最后，我们在深度和光流的准确性方面与无监督多任务CNN方法[5，28，30，40，60，61，64]进行了比较我们不会-方法D1-全部 D2-全部F1-全部SF1-全部运行时DF-Net [64]46.5061.5427.4773.30–[61]第六十一话49.5458.1737.8371.320.06秒EPC [60]26.8160.9725.74 （>60.97）0.05 sEPC++[30]23.8460.3219.64 （>60.32）0.05 sSelf-Mono-SF（我们的）31.2534.8623.4947.050.09秒7405（越低越好）（越高越好）拆分方法绝对相对平方相对RMSE RMSE日志δ<1。25δ<1。25 2 δ<1。253[64]第64话一千一百二十四 2006年12月31日EPC §[60]0.1091 . 0 0 4 磅 2019 - 11 - 15 00：00：00Liu等 §[28]0.108一千零二十 2019年12月31日自我单声道-SF（我们的）§0.1060.888 4.8530.1750.8790.9650.987[61]第61话一千二百九十六 2017年12月31日[40]第40话一千零七十 2017 - 12 - 15 0.941 0.975GLNet（参考） [5]0.135一千零七十 2019年12月31日EPC §[60]0.127一点二三九 247 0.926 0.969EPC++ §[30]0.1270.9362009年12月31日自我单声道-SF（我们的）§0.1250.978 4.877 0.2080.8510.9500.978表6. 单眼深度比较：我们的方法表现出优越的准确性KITTI分裂和竞争力的准确性特征分裂相比，所有已发表的多任务方法。§使用立体声序列进行训练的方法列车试验方法EPEF1-全部F 1 -全部表7. 光流估计的KITTI分裂：我们的方法表现出相当的准确性，单目和立体为基础的多任务方法。(a) 输入图像（b）单目深度（c）光流（d）场景流图5. KITTI 2015场景流测试中我们的单目场景流结果（Self-Mono-SF-ft）的定性结果：每个场景显示（a）两个输入图像，（b）单目深度，（c）光流，以及（d）估计深度的3D可视化，与参考图像重叠，并使用标准optica用3D场景流的（x，z）坐标着色。l流动彩色编码。使用额外数据集的端口方法（例如，Cityscapes数据集[6]）进行预训练或在线微调[5]，这是已知的准确性提高。对于表6中的单眼深度估计，我们的单眼场景流方法在KITTI分裂[13]上优于所有已发布的多任务方法，并在本征分裂[8]上证明了竞争性准确性。请注意，一些方法[40，61，64]在测试时使用地面真值来正确缩放他们的预测，这给了他们一个不公平的优势，但仍然被我们的方法所超越。对于表6中的光流估计，我们的方法证明了与现有最先进的单眼[5，60，61，64]和立体方法[26，27]相当的准确性，部分优于它们。我们的流准确度可能不会超过所有以前的方法的一个原因是，我们使用3D场景流正则化器，而不是2D光流正则化器。这与我们估计3D场景流的目标一致，但众所周知，在目标空间中使用正则化器对于实现最佳精度至关重要[52]。虽然我们选择的3D正则化器对于光流估计并不理想，但它的好处在3D中体现出来。例如，虽然我们的表现没有超过EPC++[30]在2D流量精度方面，我们明显超过了它，场景流准确度方面（见表4）。因此，我们的方法不仅是直接预测3D场景流的单细胞场景流估计的第一种CNN方法，而且优于现有的多任务CNN。5. 结论提出了一种基于CNN的单目场景流估计方法，该方法基于PWC-Net直接预测3D场景流。一个重要的功能是我们的深度和场景流的单一联合解码器，它可以克服现有多任务方法的局限性，例如复杂的训练计划或缺乏遮挡处理。我们采取了自我监督的方法，其中我们的3D损失函数和遮挡推理显着提高了准确性。此外，我们表明，一个合适的增强方案是至关重要的竞争力的准确性。我们的模型在非/自我监督的单目方法中实现了最先进的场景流精度，并且我们的半监督微调模型接近迄今为止最好的单目场景流方法的精度，同时速度快了几个数量级该方法具有较好的准确性和实时性，为基于CNN的单场景流量估计及后续工作奠定了坚实的基础本征Lai等人[26日]Lee等[53]第二十三话[61]第六十一话DF-Net [64]GLNet [5]欧洲专利公约§[60]EPC++§[30]Liu等[28]Self-Mono-SF（我们的）§7.138.745.5827.1320.88–––19.64–––18.0010.818.988.35–5.435.747.51–25.70––20.52–KITTI单目立体声7406引用[1] Tali Basha，Yael Moses，Nahum Kiryati。多视图场景流估计：一种视图中心变分方法。国际计算机Vision，101（1）：6-21，June 2013. 2[2] Aseem贝尔OmidHosseini贾法里湿婆Karthik Mustikovela ， Hassan Abu Alhaija ， CarstenRother，and Andreas Geiger.边界框、分割和对象坐标：在自动驾驶场景中，识别对于3D场景流估计有多重要？在ICCV，第2574-2583页，2017年。2[3] Fabian Brickwedde，Steffen Abraham和Rudolf Mester。Mono-SF：多视图几何满足单视图深度，用于动态交通场景的单目场景流量估计。在CVPR中，第2780-2790页，2019年。一、二、七[4] 放大图片作者：Daniel J. Butler，Jonas Wulff，Garrett B.Stanley和Michael J.黑色.一个用于光流评估的自然开源电影。在ECCV，第6卷，第611-625页中。2012. 1[5] 陈宇华，考迪莉亚·施密德，克里斯蒂安·斯明奇斯-埃斯库.单目视频中具有几何约束的自监督学习：连接流量，深度和摄像头。在ICCV，第7063-7072页，2019年。一二三五六七八[6] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，TimoScharwächter ， MarkusEnzweiler ， RodrigoBenenson，Uwe Franke，Stefan Roth，and Bernt Schiele.Cityscapes数据集用于语义城市场景理解。在CVPR，第3213-3223页，2016年。七、八[7] 汤姆·范·迪克和吉多·德·克隆。神经网络如何在ICCV，第2183-2191页，2019年。三、五[8] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度参见NIPS*2014，第2366-2374页。六、八[9

下载后可阅读完整内容，剩余1页未读，立即下载