SENSE：一种用于场景流估计的紧凑网络

85 浏览量更新于2023-10-13 收藏 1.77MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3195SENSE：一种用于场景流估计的Huaizu Jiang1 <$Déqing Sun2 Varun Jampani2Zhaoyang Lv3 <$Erik Learned-Miller1JanKautz21 UMass Amherst2 NVIDIA3 Georgia Tech摘要我们引入了一个用于整体场景流估计的紧凑网络，称为SENSE，它在四个密切相关的任务中共享共同的编码器功能：光流估计、来自立体的视差估计、遮挡估计和语义分割。我们的关键见解是，共享特征使网络更加紧凑，诱导更好的特征表示，并可以更好地利用这些任务之间的相互作用来处理部分标记的数据。通过共享编码器，我们可以在训练期间灵活地为不同的任务添加解码器这种模块化设计在推理时导致紧凑和高效的模型。利用这些任务之间的相互作用，使我们能够引入蒸馏和自我监督的损失，除了监督损失，这可以更好地处理部分标记的现实世界的数据。SENSE在几个光流基准测试中取得了最先进的结果它还比较faforably对立体声和场景流的艺术状态，同时消耗更少的内存。1. 介绍场景流估计旨在从由两个或更多个相机捕获的图像序列中恢复场景的3D结构（视差）和运动[52]。它推广了经典的单目图像序列的光流估计和立体图像对的视差预测问题场景流估计已经取得了稳定且令人印象深刻的进展，KITTI基准[39]的结果证明了这现有技术的场景流方法以显著的余量胜过最佳视差（立体）和光流然而，性能最好的场景流方法[5，54]基于能量最小化框架[18]，因此对于实时应用来说计算代价很高，例如[2]作者在NVIDIA实习时就开始了这项工作* 目前隶属于Google。项目页面：http://jianghz.me/projects/sense(a)左摄像头的图像1（b）左摄像头(c)光流（d）流(e)视差（f）视差(g)（a）分段（h）分段（b）图1.给定立体视频，我们通过共享特征来训练紧凑网络以解决3D运动捕捉[11]和自动驾驶[27]。最近，一系列基于卷积神经网络（CNN）的方法已经被开发用于立体和光流的子问题。这些方法实现了最先进的性能和实时运行。然而，虽然立体声和流是密切相关的，但立体声和流的顶级性能网络采用了截然不同的架构。此外，用于场景流的现有网络将用于立体声和光流的子网络堆叠在一起[37，25]，这没有完全利用两个紧密耦合问题的结构。由于立体和流动都依赖于像素特征来建立对应关系，因此相同的特征是否适用于这两个或更多相关的任务？为了回答这个问题，我们一个模块化的方法，并建立一个共享编码器网络的场景流估计（SENSE）。具体来说，我们在四个密切相关的任务中共享一个特征编码器：光流、立体、遮挡和语义分割。共享特征使得网络紧凑，并且还通过多任务学习导致密切相关的任务之间的相互作用进一步证实，3196应变网络训练，改善场景流估计的稀疏地面实况注释的问题。不像许多其他视觉任务，它本质上是难以收集地面实况光流和立体的真实世界的数据。训练数据饥渴的深度CNN通常依赖于合成数据[7，10，37]，这些数据缺乏现实世界中无处不在的细节和多样性。为了缩小领域差距，有必要对真实世界的数据进行微调，但带注释的真实世界数据的稀缺性一直是学习场景流CNN模型的严重瓶颈。为了解决数据稀缺的问题，我们引入了一个半监督损失的SENSE通过添加蒸馏和自我监督损失方面的监督损失。首先，没有现有的数据集为我们解决的所有四个任务提供地面实况注释。例如，KITTI基准没有用于遮挡和语义分割的地面实况注释。1因此，我们使用其他注释数据为缺少地面实况注释的任务训练单独的模型，并使用预先训练的模型其次，我们使用自我监督损失条款，鼓励相应的可见像素具有相似的像素值和语义类，根据光流或立体。自我监督损失项将四个任务紧密耦合在一起，并且对于在没有地面实况的区域（诸如天空区域）中的改进是关键的。在合成和真实世界基准数据集上的实验表明，SENSE实现了光流的最新结果，同时保持了与用于流的专用网络相同的运行时效率它还与视差和场景流估计方面的现有技术进行了比较，同时具有小得多的视差足迹。消融研究证实了我们的设计选择的效用，并表明我们提出的蒸馏和自我监督损失项有助于缓解部分标记数据的问题总而言之，我们做出了以下贡献：• 我们引入了一个模块化的网络设计，整体场景的理解，称为SENSE，集成opti- cal流，立体，遮挡和语义分割。• SENSE在这四个任务之间共享编码器，这使得网络紧凑，并且还通过多任务学习诱导更好的特征表示。• SENSE通过半监督的方式充分利用任务间的交互作用，能够更好地处理部分标记数据;它会导致质量更好的结果，没有地面实况注释的区域。• SENSE实现了最先进的流量结果，同时运行速度与专业流量网络一样快。它与立体声和场景流，同时消耗更少的内存。1分割仅适用于KITTI 2015的左侧图像[1]。2. 相关工作对整体场景理解的全面调查超出了我们的范围，我们回顾了最相关的工作。场景流估计的能量最小化。场景流首先由Vedula等人引入。[52]第52话从几个校准的摄像机观察到的场景中所有点的3D运动。几种经典方法采用能量最小化方法，例如流和立体声的联合恢复[20]以及立体声和流的解耦推理以提高效率[56]。与光流和立体视觉相比，场景流的解空间维数更高，因而更具挑战性。Vogel等人[53]通过假设超像素上的分段刚性移动平面的场景流来减小他们的工作首先从整体的角度处理场景流，并在KITTI基准上大幅优于当代立体声和光流方法[12]。现场了解。运动和细分是鸡生蛋还是蛋生鸡的问题：了解一个简化了另一个。虽然分层方法一直被认为是这两个问题的优雅解决方案[55]，但存在-求解往往陷入局部最小值[47]。在运动分割文献中，大多数方法从作为输入的光流的估计开始，并且通过联合估计（隐式或显式地）相机运动、对象运动和场景外观来分割场景，例如，[6、51]。Lv等人[35]示出了可以直接从两个图像分割运动，而无需首先计算光流。Tay- lor等。[50]证明遮挡也可以是一个有用线索。利用语义分割的进展，塞维利亚等。[46]示出语义信息足够好以初始化分层分割并由此改进光流。Bai等人[2]使用实例级分段处理少量流量参与者。Hur和Roth [22]联合估计光流和时间一致的语义分割，并在这两项任务上获得收益。对象场景流算法[39]将场景分割成独立移动的区域，并强制每个区域内的超像素具有相似的3D运动。其模型中的“对象”被假设为平面的，并且经由自下而上的运动估计来初始化。Behl等人[5]，Renet al.[42]和Maet al.[36]所有这些都表明实例分割有助于自主设置中场景流估计。虽然假设每个单独实例的刚性运动对于汽车很有效，但这种假设在一般场景中往往失败，例如Sintel，我们的整体方法在其上实现了最先进的性能。性能最好的基于能量的方法对于实时应用来说计算成本太高。在这里，我们提出了一个紧凑的CNN模型来全面地推理几何（视差），运动（流）和语义，它比基于能量的方法运行得更快。3197，l光流和视差的端到端学习。近年来，基于CNN的方法在光流和视差这两个场景流估计的子问题上取得了重大进展。Dosovitskiy等人[10]首先介绍两个3. 半监督场景流估计我们遵循KITTI场景流基准[ 39 ]的问题设置，如图所示。d在Fig.二、输入输出是两个用于光流的CNN模型，FlowNetS和FlowNetC随时间立体图像对I1，I2，I1，r，I2，r，其中并带来对光流和视差估计的范例转换。Ilg等[24]提出了几项技术改进，如数据集调度和将基本模型堆叠成一个大模型，即，FlowNet2. FlowNet2具有接近实时的性能，并获得了与手工设计方法相比具有竞争力的结果。Ilg等[25]叠加网络为流程，差异共同为场景的联合任务上标中的第一个数字表示时间步长，第二符号表示左或右摄像机。为了节省空间，如果上下文清楚，我们将省略上标。我们希望分别在第一帧和第二帧处估计从第一左图像到第二左图像的光流F1，l以及从左图像到右图像的视差D1，l和D2，l我们还考虑了两个连续帧O1、O2之间以及两个连续帧O1、O2之间的遮挡。流量估计但是，没有信息共享网络之间的流动和差异。Ranjan和立体图像O1、lF2和O ，以及语义段-D D1，l布莱克[41]介绍了一个空间金字塔网络，每个-参考（左一）图像的位置，即， S. 这些形式与FlowNetC相当，但由于使用了两个经典原则：金字塔和翘曲，参数Sun等人[48]开发了一个紧凑而有效的网络，称为PWC-Net，它经常使用三个原则来构建网络：可学习特征的pyra，warping操作和成本体积处理。PWC-Net在两个主要的光流基准上获得了最先进的性能。FlowNet的工作也启发了立体声估计的新CNN模型[30，8，60]。Kendall等人[30]连接特征以构建成本体积，然后是3D卷积。3D卷积成为常用的立体声，但在计算速度和内存昂贵。Chang和Chen [8]引入了一个金字塔池模块，利用上下文信息在模糊区域中建立对应关系。Yang等[60]结合语义线索来处理无文本区域。Yin等将光流和视差估计转换为概率分布匹配问题[61]，以提供不确定性估计。他们不像我们那样利用两个任务的共享编码器。现有场景流网络[25，36，38]将视差和流的独立网络堆叠在一起。我们有兴趣利用多个相关任务之间的相互作用，设计一个紧凑而有效的网络整体场景理解。我们的整体场景流网络表现良好，对国家的最先进的，同时更快的推理和消耗更少的内存。特别是，我们展示了在不同任务之间共享特征编码器的好处，例如流和视差。从视频中进行自我监督学习。监督学习通常使用合成数据，因为难以获得真实世界视频的地面真实光流和视差。最近提出了自监督学习方法，通过最小化数据匹配成本[65]或插值误差[29，32]来学习场景流。然而，自监督方法尚未达到其监督对应物的性能。额外的输出引入了不同任务以在网络训练中施加更多约束此外，我们假设，这些密切相关的任务之间的共享功能诱导更好的功能表示。我们将首先在3.1节中介绍我们的模块化网络设计，它在不同的任务之间共享编码器，并在训练期间支持灵活的配置。然后，我们将在第3.2节中解释我们的半监督损失函数，它可以使用部分标记的数据进行学习。3.1. 模块化网络设计为了实现不同任务之间的功能共享，并允许在训练期间进行灵活的配置，我们以模块化的方式设计网络。具体而言，我们在PWC-Net [48]之上构建网络，PWC-Net是一种用于优化流量估计的紧凑网络。PWC-Net由一个编码器和一个解码器组成，其中编码器获取输入图像并提取网络不同层次的特征。解码器是专门设计的领域知识的光流。编码器-解码器结构允许我们以模块化的方式设计网络，使用单个共享编码器和用于不同任务的多个解码器。共享编码器。然而，PWC-Net的原始编码器由于容量小而不适合多任务PWC-Net的80%以上的参数集中在解码器中，解码器在每个金字塔级别使用DenseNet [19]块。编码器由普通卷积层组成，使用不到20%的参数。虽然对于光流是足够的，但编码器对于视差估计工作得不够好。为了使编码器能够适应不同的任务，我们进行了以下修改。首先，我们将特征金字塔的层数从6减少到5，这将参数的数量减少了近50%。它还允许我们使用广泛使用的5级ResNet类编码器架构[8，16]，该架构已被证明在各种视觉任务中有效。具体来说，我们用残差块替换普通CNN层[16]，并添加BatchNormaliza。3198光流&闭塞语义分割视差遮挡图2.网络设计插图。虚线箭头指示共享权重。我们为所有输入图像和所有不同的任务提供一个编码器，并为不同的任务保留不同的解码器。右边，从上到下是：光流、前向遮挡掩模、语义分割、视差和视差遮挡。PPM（Pyramid Pooling Module，金字塔池化模块）对光流估计没有帮助。但得益于模块化网络设计，我们可以灵活配置网络。在编码器和解码器中的层[26]。通过这些修改，新模型的参数略少，但提供了更好的视差估计结果（表？）和更好的流动性（表1）。视差解码器。接下来，我们解释如何使PWC-Net适应两个立体图像之间的视差估计。视差是光流计算的一种特殊情况，对应关系位于水平线上。因此，我们只需要为视差构建一个1D成本体积，而原始PWC-Net的解码器为光流构建一个2D成本体积具体地，对于光流，将第一特征图中p=（x，y）处的特征与在扭曲的第二特征图中，在q∈[x−k，x+k]×[y−k，y+k]处的特征对于差异，我们只需要寻找通过比较左特征图中的 p 与扭曲的右特征图中的q∈[x−k，x+k]×y来确定对于光流和视差估计，我们使用k=4在特征金字塔中，我们的视差解码器采用与PWC-Net相同的扭曲和细化过程。为了进一步提高视差估计精度，我们研究了更多的设计选择。首先，我们使用金字塔池模块（PPM）[64]来聚合多个级别的输入图像的学习特征。第二，解码器输出输入分辨率的大小的四分之一的视差图，其倾向于具有模糊的视差边界。作为补救措施，我们添加了一个简单的沙漏模块，广泛用于视差估计[8]。其采用两次上采样的视差、第一图像的特征图和第二图像的变形特征图来预测添加到上采样的视差的残余视差。PPM和沙漏修改都导致视差估计的显著改进他们没有帮助光流估计，表明原始PWC-Net是为光流设计的。模块化设计使我们能够灵活地配置网络，用于不同的任务，如图所示二、桌子？总结了我们的设计选择对视差估计的影响。分割解码器。为了给网络训练引入更多的约束，我们还考虑了语义分割。它鼓励编码器学习一些语义信息，这可以帮助光流和视差估计。对于语义分割解码器，我们使用UPerNet [58]以实现其简单性。遮挡估计。对于遮挡预测，我们将兄弟分支添加到光流或视差解码器以执行逐像素的二进制分类，其中1表示完全遮挡。添加这些额外的模块可以实现整体场景理解，这有助于我们在共享编码器中引入更好的特征表示，并使用额外的监督信号进行网络训练，以处理部分标记的数据，这将在第3.2节中讨论。重要的是，对于场景流估计，共享编码器导致更紧凑和有效的模型。对于光流和视差估计，我们可以在训练过程中根据需要组合模块，而不会影响推理时间。对于场景流估计，取决于配置，可以可选地使用额外的模块。参见第4.2节中的解释。3.2. 半监督损失没有完全标记的数据集可用于直接训练我们的整体场景流网络。例如，KITTI没有地面实况遮挡遮罩。即使对于光流和视差地面实况，KITTI数据中也只有大约19%的像素具有注释，这是由于难以进行2，l1，l（参考系）2001PPMPPM3199左输入图像预先训练的occ。监督丢失+分割丢失+遮挡丢失视差误差图（蓝色较低误差，红色较高误差）放大视图的错误地图的汽车（最好的颜色）图3.将语义分割（中间）和遮挡（右侧）的蒸馏损失添加到监督损失的效果数据捕获合成SceneFlow数据集[38]没有用于语义分割的基础事实。为了解决这些问题，我们引入了我们的半监督损失函数，它包括监督，蒸馏和自监督损失项。监督损失。当相应的地面实况注释可用时，我们将监督损失定义为Lsp=（LF+LOF）+（LD+LOD），（1）图4.自我监督损失的有效性说明从上到下：输入图像、不使用自监督损失的视差估计、以及使用自监督损失的视差估计。我们可以看到，自监督损失有助于大大减少天空区域中的伪影。蒸馏损失。对于遮挡估计和语义分割任务，地面实况注释并不总是可用的。然而，在网络训练期间，它们是重要的。例如，在KITTI上，监督损失只能在稀疏注释的像素上计算为遮挡估计添加额外的监督有助于网络将光流和视差估计外推到缺少地面实况注释的区域，从而产生视觉上吸引人的结果。我们发现由预训练模型在合成数据上提供的遮挡估计相当好，如图所示。3.第三章。作为一种软监督，我们鼓励网络在训练期间的遮挡估计不要偏离它在预训练阶段学到的东西太多因此，我们简单地使用预训练网络的估计作为伪地面实况和平滑l1损失函数。其中LF和LO是用于估计光学特性的在训练期间，在多个金字塔级别中计算为F流动及其相应的闭塞。LD和LOD是用于估计视差的损失项及其相应的遮挡。LF跨多个金字塔层级被定义为LF和L D 使用用于遮挡的蒸馏损失添加额外的监督有助于减少视差中的伪影。估计，如图所示。3 .第三章。对于语义分割，我们使用蒸馏损失LF=中国Fi=1Σωiρp.ΣFi（p），Fi（p）、（二）在[17]中提出的公式。具体地，单个像素p的语义分割蒸馏损失LSd（为了简单起见，在此省略）被定义为其中，ωi表示金字塔层级i处的光流和视差权重，ΣCexp−zi/Tρ（·，·）是测量以下之间的相似性的损失函数地面实况F（p）和估计光流F（p），LSd=Ti=1yilogyi，y~i=ΣK−z/T，（3）实验k我我像素p.视差和遮挡损失函数LD、LOF和LOD以类似的方式定义。我们使用L2和平滑l1 [13，8]损失的光流和视差es。其中C是细分类别的数量。zi和y~i来自一个更有效的教师分割模型，其中zi是第i个类别的输出，就在时间，分别。对于遮挡，我们使用二进制softmax层，也称为logit。我被当地面实况注释可用时，交叉熵损失-能够（例如，FlyingThings3D [37]）。对于语义分割，KITTI 2015仅提供左侧图像的地面实况注释。我们根据经验发现，使用蒸馏损失（仅在下文中介绍）可获得更好的准确性。第i类的后验概率，由超参数T[17]。我们根据经验发现，T = 1在验证集上工作得很好。 yi是我们模型的估计后验概率。在训练图像中的所有像素上聚合蒸馏3200DFFF自我监督损失。为了进一步约束网络训练，我们还定义了自监督损失。光流和视差被定义为两个之间的对应关系表1. MPI Sintel光流数据集的平均EPE结果。“-ft”输入图像。因此，我们可以比较两个对应的由光流或视差定义的像素作为网络训练的监督。最直接的度量是比较两个帧中可见的两个对应像素之间的值，称为光度一致性。在单个金字塔水平中，它被定义为LPC=方法培训测试时间Il−g（Ir，Dl）+I1−g（I2，F1）1⊙O¯女，（4）其中g（·，·）是可微的加权函数，O<$=1−O，表示逐元素乘法，后跟所以，我们要有一个明确的定义，那就是：当一个人的时候，文本是明确的。该损失项通过使用遮挡图调制一致性损失来推断遮挡，并且将遮挡与光流和立体紧密耦合。由于光度一致性对光照变化不鲁棒，因此我们进一步引入语义一致性，鼓励两个相应的像素具有相似的语义分割后验概率。具体来说，这一...Mantic一致性定义为LSC=y~l−g（y~r，Dl）+y1−g（y2，F1）1O<$，（5）其中，y表示来自等式中使用的教师分割网络的后验概率图像（三）、不像原始像素值，分割后验概率对照明变化更鲁棒。最后，我们考虑了结构相似性损失估计也是。因此，我们的网络将这四个密切相关的任务紧密结合在一起。我们最终的半监督损失由监督损失、蒸馏损失和自监督损失项组成。更多详情请参见补充材料。4. 实验4.1. 实现细节立体声和光流的预训练。我们使用合成的SceneFlow数据集[37]，包括FlyingThings3D，LSS=γD.Σ1−SS（Il，IlOD+g（Ir，Dl）O¯D）+Monkaa和驾驶，用于预培训。所有三个数据集包含光流和视差地面实况。闭塞.11γF1−SS（I，IO+g（I2，F1）、（6）标签仅在FlyingThings3D中可用。在训练过程中，我们从所有三个数据集中统一采样图像，并哪里这表明，逐元素只有乘法SS（·，·）是输出单个标量值来度量两个输入图像[63]。注意，对于扭曲图像中的被遮挡像素，它们的值被替换为左侧/第一图像中相同位置处的像素的值。有平凡的解决方案，最小化方程。（4）和等式（5）将OD和OF都设置为1。因此，我们添加正则化项当地面实况可用时计算遮挡损失。在训练过程中，我们使用颜色抖动进行光流和视差训练。此外，我们使用随机裁剪和垂直翻转立体训练图像。作物尺寸为256×512。对于光流训练图像，我们执行广泛的数据增强，包括随机裁剪，平移、旋转、缩放、挤压以及水平和垂直翻转，其中裁剪大小为384 ×640。该网络被训练了100个epochs，批量大小为8LREG=βD ΣOD（p）+βFpΣOF（p），（7）p亚当优化器[31]。我们使用同步的批处理Nor-malization [58]以确保在使用多个GPU时有足够的训练样本来估计Batch Normalization层初始学习率为0.001虽然在以前的工作中已经研究了自监督光度和结构相似性损失项[28，14]，但我们的定义与他们的定义不同，因为我们对遮挡进行了建模。一方面，我们避免在遮挡区域中定义损失项。另一方面，这些自监督项为遮挡在70个时期后降低了10倍。微调对于Sintel，我们使用与[48]中使用的类似的学习率计划。在KITTI 2012 [12]和KITTI 2015 [40]中，我们使用了更长的学习率时间表，其中模型被训练了1.5K个epoch，初始学习率为0.001。我们用一个初始的1 K-D清洁最终清洁最终（s）流场[3]--3.755.8128.0MRFlow [57]1.833.592.535.38480美国有线电视新闻网[4]--3.785.3623.0DCFlow [59]--3.545.128.60[41]第四十一话（3.17）（4.32）6.648.360.16[24]第二十四话2.023.143.966.020.12[24]第二十四话（1.45）（2.01）4.165.740.12[21]第二十一话（1.64）（2.23）4.866.090.09PWC-Net [48]2.553.93--0.03[48]第四十八话（1.70）（2.21）3.865.130.03[25]第二十五话2.083.943.616.030.073201epoch训练3202，l表2. KITTI光流数据集上的结果。“-ft” means fine-tuningKITTI 2012 KITTI 2015表4. KITTI2015场景流数据集上的结果。基于CNN的方法需要处理D2的细化，其中N和R分别表示网络和基于刚性的细化。方法D1-所有D2-全部Fl-allSF-allD2参考时间（s）方法AEPE Fl-Noc AEPE Fl-all Fl-all列车试验流场[3]-19.80%MRFlow [57]----14.09% 12.19%DCF低[59]-15.09% 14.83%感2.237.378.3811.71N0.16SENSE+semi2.226.578.1611.35N0.16SENSE+semi2.225.897.649.55R+N0.32表3.KITTI立体数据集（测试集）上的结果KITTI 2012 KITTI 2015注释样式，为左侧图像提供。4.2. 主要结果光流结果。表1显示了优化的结果。MPI Sintel基准数据集上的校准流估计。我们的方法优于基于CNN的方法，没有或有微调。在测试集的更真实（最终）的通道上，这涉及到更多的渲染细节，如照明变化，阴影，运动模糊等，我们的方法方法所有非发生所有非发生时间执行基于CNN的和传统的手工设计的方法由一个大的利润。表2显示了KITTI2012和KITTI2015的结果。我们的方法显着优于手工设计和CNN为基础的方法在KITTI2012，有和没有微调。在KITTI 2015上，我们的模型比没有预训练的基于CNN的方法（包括我们的）实现了更低的错误率。经过微调后，它的性能优于所有其他方法。我们注意到PWC-Net的改进版本[49]中报告了更好的光流结果，该版本使用 FlyingChairs ，然后使用FlyingThings 3D进行预训练。它还使用长得多的学习率时间表进行微调，因此结果与我们的不能直接比较。平均学习率为0.0002。我们使用320×768的裁剪尺寸对于视差和光流训练图像两者，以及批量大小为8。由于此处篇幅有限，补充材料中提供了更多培训详细信息。训练语义分割。我们联合训练整个网络的所有部分，包括用于光流和视差的预训练编码器和解码器，以及随机初始化的分割解码器。我们根据经验发现，使用随机初始化的分割解码器会产生更好的性能。对于分割蒸馏损失和语义压缩损失的计算，我们首先训练教师分割模型。我们使用ResNet 101-UPerNet[58]在CityScapes [9]上进行预训练，使用其仅具有精细注释的训练集，在valida上实现了75.4%的IoU。差异结果。对于视差估计，SENSE显著优于先前的基于CNN的方法，包括DispNetC [37]和GC-Net [30]，并且实现了与现有技术方法（如PSM-Net [8]、SegStereo[60]和FlowNet 3 [25]）相当的准确性值得注意的是，我们的方法在KITTI2015上的所有和非遮挡区域中的前景区域上表现最好场景流结果。表4显示了KITTI 2015上的场景流结果。与FlowNet3 [25]相比，SENSE在一般基于CNN的场景流方法中表现最好。与ISF [5]相比，SENSE的速度快2K倍，可以处理一般的非刚性场景运动。为了去除由第二帧视差扭曲操作引入的伪影，我们使用具有跳过连接的编码器-解码器结构的细化网络。需要设置。我们在KITTI 2015 [1]上对模型进行了微调，其中I1，l1、O、F、D1、l，且g（D2、l，F1，l）以生成将与CityScapes一致的分割注释从我们的整体输出来看，ISF [5]4.第一章46五、95六、228. 08-600Out-All Out-Noc D1-fg D1-全部D1-fg D1-全部（s）[33]第三十三话3.074.298.584.547.444.001.0DispNetC [37]--4.414.343.724.050.06MC-CNN [62]2.433.638.883.897.643.3367PBCP [45]2.363.458.743.617.713.1768[15]第十五话2.373.095.563.434.953.09265GC-Net [30]一点七七二点三十6.162.875.582.610.9PSMNet [8]一点四九一点八九4.622.324.312.140.41SegStereo [60]1.68 2.033.702.084.072.250.6CSF [34]5.9810.0612.9615.71-80SGM+FF[43]十三岁37二十七岁80二十二岁82三十三岁。57-29感1.772.183.132.332.792.130.06SENSE+semi1.732.163.012.222.762.050.06SDF [2]-2.33.80%- -11.01%[23]第二十三话-2.64.38%-9.93% 10.29%[41]第四十一话（4.13）4.7百分之十二点三一--35.07%[24]第二十四话4.09--10.06 30.37%-[24]第二十四话（1.28）1.8百分之四点八二（二点三十分）(8.61%）10.41%[21]第二十一话（1.26）1.7-（2.16）(8.16%）10.24%PWC-Net [48]4.14--10.35 33.67%-[48]第四十八话（1.45）1.74.22%（2.16）(9.80%）9.60%3203表5. 不同任务的有效性FL蒸馏自动监控流量分配段分段发生的sem等河粉SSF1-发生率↓D1-发生率↓mIoU↑11.16%2.52%-C百分之十点九六2.44%51.48%C11.07%2.38%-CC百分之十一点一七2.33%51.26%C11.11%2.38%-C11.04%2.55%-C11.16%2.47%-CCC11.21%2.58%-CCCCC百分之十一点一二2.49%50.92%我们可以使用刚性细化步骤来细化背景场景流。我们首先根据语义分割输出确定静态刚性区域然后，我们使用高斯-牛顿算法通过最小化光流和视差图像之间最后，我们计算扭曲的场景流使用的参考帧的视差和自我运动，以取代原始场景流只在刚性背景区域。此步骤还以最小的成本产生相机运动和更好的场景流补充材料中提供了细化步骤的详细信息运行时间。SENSE是一个有效的模型。SENSE计算两幅大小为436×1024的图像之间的光流需要0.03s。对于视差，SENSE比PSMNet和SegStereo快一个数量级，并且比PSMNet和SegStereo稍快。FlowNet3.对于使用KITTI图像的场景流，SENSE需要0.15s来生成一个光流和两个dispar- ity图。附加翘曲细化网络需要0.01 s，刚性细化需要0.15 s。模型大小和内存。Sense的尺寸很小。它只有8.8M的光流模型的参数，和8.3M的视差模型。共享编码器的场景流模型有13.4M个参数。相比之下，FlowNet3具有流模型（117 M）和视差模型（117 M），其大20倍。SENSE也有一个较低的GPU功耗-脚印FlowNet3的成本为 7.4GB ，而 SENSE 仅需要 1.5GB RAM 。虽然PSMNet的参数较少（5.1M），但由于3D卷积，它需要4.2GB内存。4.3. 消融研究执行不同的任务。我们使用不同的编码器和解码器的组合报告不同的任务我们的模型使用KITTI 2015的160张图像进行训练，其中一半是上述学习率计划。表5中报告了其余40张图像的结果。我们可以看到，共享编码器模型比单独训练的模型性能更好。半监督损失。为了研究蒸馏和自我监督损失项的影响，我们使用KITTI 2012的所有图像和KITTI 2015的160个图像进行消融研究，以一半的全学习率时间表进行训练。KITTI 2015的其余40个用于测试。我们微调的基线模型使用稀疏流和视差注释。表6显示了定量比较，4定性地突出了效果。关于蒸馏损失，分割和闭合蒸馏损失项对于视差和最佳流估计都是有用的。然而，蒸馏损失无助于减少天空区域中的伪影。因此，自我监督损失是必不可少的，如图所示4、虽然量化的自我监督损失不如量化的自我监督损失有效最后，结合所有的损失条款产生最佳的光流和视差精度。我们还在KITTI上测试了使用半监督损失训练的SENSE，如表2，3和4所总结的。我们可以看到它改善了KITTI 2015上的视差和光流精度，也导致了KITTI 2012上更好的视差。5. 结论我们提出了一个紧凑的网络为四个密切相关的任务在整体场景理解：共享这些任务之间的编码器，不仅使网络紧凑，但也提高了性能，通过利用这些任务之间的它还允许我们引入蒸馏和自我监督损失来处理部分标记的数据。我们的整体网络具有与光流专用网络相似的准确性和运行时间它表现良好，对国家的最先进的差距和场景流的方法，同时更快，内存效率。我们的工作显示了协同密切相关的任务对整体场景理解的好处，我们希望这些见解将有助于这一方向的新研究。确认Huaiizu Jiang 和 Erik Learned-Miller 感谢 AFRL 和 DARPA（#FA8750- 18-2-0126）以及MassTech Collaborative资助UMass GPU集群的支持。美国州长被授权为政府复制和分发再版尽管有任何版权注释。本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表AFRL和DARPA或美国的官方政策或认可，无论是明示还是暗示。州长任务结果低disp seg流量（F1-occ）↓disp（D1-occ）↓seg（mIoU）↑C11.37%--CC--2.73%--47.51%CC11.59%2.61%-CC11.39%-49.54%CC-2.62%百分之四十九点一二CCC11.19%2.59%百分之四十八3204引用[1] Hassan Alhaija ， Siva Mustikovela ， Lars Mescheder ，Andreas Geiger，and Carsten Rother.增强现实与计算机视觉的结合：城市驾驶场景的高效数据生成。IJCV，2018年。二、七[2] Min Bai ， Wenjie Luo ， Kaustav Kundu ， and RaquelUrtasun.利用语义信息和深度匹配实现光流。在Proc.ECCV，2016中。二、七[3] Christian Bailer Bertram Taetz和Didier Stricker流场：用于高精度大位移光流估计的密集对应场。在 Proc.ICCV，2015中。六、七[4] Christian Bailer，Kiran Varanasi，and Didier Stricker. 基于CNN的阈值铰链嵌入损失光流匹配在Proc. CVPR，2017中。6[5] Aseem Behl ， Omid Hosseini Jafari ， Siva KarthikMustikovela，Hassan Abu Alhaija，Carsten Rother，andAndreas Geiger.边界框、分割和对象坐标：在自动驾驶场景中，识别对于3D场景流估计有多重要？在procICCV，2017年。一、二、七[6] Pia Bideau，Aruni RoyChowdhury，Rakesh R Menon，and Erik Learned-Miller.两全其美：结合cnn和几何约束进行分层运动分割。在Proc. CVPR，第508-517页，2018年。2[7] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影在Proc.ECCV，2012中。2[8] 张嘉仁和陈永生。金字塔立体匹配网络。在 Proc.CVPR，2018中。三、四、五、七[9] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在procCVPR，2016年。7[10] AlexeyDosovitskiy，Philipp Fischery，Eddy Ilg，CanerHazir- bas，Vladimir Golkov，Patrick van der Smagt，Daniel Cremers，Thomas Brox，et al. FlowNet：使用卷积网络学习光流。在Proc. ICCV，2015中。二、三[11] 古川康孝和让·庞塞。从同步视频流中捕捉密集的三维运动。在 Image and Geometry Processing for 3-DCinematography，第1931[12] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在Proc.CVPR，第3354-3361页中。IEEE，2012。二、六[13] 罗斯湾娘娘腔。快速R-CNN。在Proc. ICCV，2015中。5[14] C le'mentGodard ， OisinMacAodha ， andGabrielJ. 兄弟 -拖。具有左右一致性的无监督单目深度估计。在Proc.CVPR，2017中。6[15] 法特玛·古尼和安德烈亚斯·盖格。Displets：使用对象知识解决立体模糊性。在Proc.CVPR，2015中。7[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别

下载后可阅读完整内容，剩余1页未读，立即下载