视频中预测道路布局的方法结合了摄像机运动、上下文线索和长期视频信息

47 浏览量更新于2023-10-23 收藏 2.47MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4414最终预测FTMLSTM从视频整体了解道路布局刘步宇1庄兵兵1塞缪尔·舒尔特1潘骥1曼莫汉·钱德拉克1，21NEC美国实验室2加州大学圣地亚哥分校摘要在本文中，我们解决了从视频序列中推断复杂道路场景布局的问题。为此，我们将其表述为俯视道路属性预测问题，我们的目标是准确且一致地预测每个帧与以前的工作相比，我们利用以下三个新的方面：利用视频中的摄像机运动，包括上下文提示和合并长期视频信息。具体来说，我们介绍了一个模型，旨在加强预测consideration的视频。我们的模型由一个LSTM和一个特征转换模块（FTM）组成。前者隐式地将一致性约束与其隐藏状态相结合，而后者在沿视频聚合信息时显式地考虑相机运动此外，我们建议通过引入道路参与者，例如，对象，到我们的模型中。当整个视频序列可用时，我们的模型还能够对局部和全局线索进行编码，例如。来自过去和未来帧的信息。在两个数据集上的实验表明：（1）对全局或上下文线索进行分类可以提高预测准确性，并且利用两者可以获得最佳性能。(2)引入LSTM和FTM模块提高了视频中的预测(3)所提出的方法优于SOTA的一个很大的保证金。1. 介绍从单幅或多幅图像中理解道路场景的三维特性是一项重要且具有挑战性的任务。语义分割[2，3，41]，（单眼）深度估计-[9，16，40]和道路布局估计[10，25，28，38]是用于单图像3D场景理解的一些充分探索的方向与基于图像的输入相比，视频提供了利用更多线索的机会，例如时间相干性，动态和上下文[19]，但视频中的3D场景理解相对不足，特别是长期输入。这项工作通过全面考虑局部，全局和一致性线索，向视频中的3D道路场景理解迈出了一步输入视频顶视图表示法图1：给定捕获3D场景的透视图像（左上），我们的目标是准确和连贯地预测复杂驾驶场景的俯视图布局为此，我们制定这个视频场景理解- ING问题作为一个道路布局估计问题。我们对估计顶视图表示特别感兴趣[25，27]，因为在顶视图中工作有利于下游应用程序的高级推理和决策，例如。路径规划和自动驾驶。给定一个视频序列，我们的目标是准确和连贯地预测每帧的道路布局。为了实现这一目标，我们首先提出了一种新的网络结构来增强视频的时间平滑性。具体来说，我们的网络包括（i）一个LSTM [13]，它包含了长期预测的一致性，以及（ii）一个特征变换模块（FTM），它显式地聚合信息w.r.t.估计的相机运动，并鼓励在特征级别上的一致性通过显式和隐式编码时间平滑约束，我们提出的网络能够提高预测精度和一致性。除了将时间的一致性在视频中，我们进一步建议利用上下文线索在场景属性预测的顶视图。更具体地说，这些线索是用3D对象检测来表示和获得的[17，18]，并为俯视图中的布局估计提供有用的先验和约束例如，通过只看绿色矩形的“顶视图表示”在图。1，可以获得可行驶区域的粗略估计。上述建议适用于4415离线和在线视频场景理解。当不需要在线场景时，我们可以通过利用来自未来帧的更强大的时间线索来使用商用相机进行交通场景取证分析和驾驶员行为研究等应用是需要道路布局估计的示例，同时可以获得整个视频对于这种情况下，我们进一步建议，结合信息获得的本地从个别的vidual帧与全球获得的整个视频序列。具体来说，我们利用运动恢复结构（SfM）[23]和多视图立体（MVS）[24]从视频序列中获得道路场景的密集3D重建。在这样的方法中编码的多视图几何约束自然地聚合来自多个帧的时间信息，从而允许与各个视图相比更相干的场景表示这使我们能够构建具有更好的表示能力和更平滑的模型输入，从而提高预测准确性和一致性（见图1）。1）。我们在两个公共驾驶数据集KITTI [8]和NuScenes [22]上进行实验以验证我们的想法4）.我们的结果证明了全局和上下文线索在预测准确性方面的有效性，以及LSTM和FTM对于一致输出的重要性。总而言之，我们的主要贡献是：• 一种新颖的神经网络，包括（i）隐式地执行视频中的预测一致性的LSTM，以及（ii）显式地编码特征级一致性的特征变换模块。摄像机运动• 一种输入表示，其考虑（i）局部地从各个帧获得的信息，（ii）全局地从整个视频序列获得的信息，以及（iii）从上下文线索获得的信息。• 实验评估在公共数据集上的表现远远超过最先进的水平。2. 相关工作场景理解是计算机视觉中一项重要但具有挑战性的任务，它使我们能够执行诸如机器人导航[11]，自动驾驶[7，15]，增强现实[1]或房地产[20，31]。3D场景理解：3D场景理解最常用于室内场景[1，20，30]，其通常被公式化为房间布局估计问题。然而，不像室内场景，其中强先验，例如，曼哈顿世界假设，都是可用的，场景理解对于室外场景的约束较少，因此可能更具挑战性。为此，已经提出了许多非参数方法[10，34，35]，其中利用分层表示来推理遮挡区域中的几何和语义。最近的工作[25，28]提出了顶视图表示，以提供更详细的描述3D户外场景。至于Seff和Xiao [27]提出了一种模型，该模型由某些道路场景属性组成，并进一步利用神经网络从单个透视RGB图像直接预测它们。然而，这些预定义的属性不够丰富，无法捕获各种类型的道路布局。最近的工作[15]提出了一种基于图形的道路表示，包括车道和车道标记，来自图像的部分分割。然而，该表示仅关注直路同样，一个有趣的模型是由Máttyus等人提出的。[21]以用更丰富的语义扩充现有地图数据。同样，该模型仅处理直线道路，并且需要来自航空图像的额外输入。为了进一步处理复杂的道路布局与交通参与者，盖格等人。[7]提出利用多模态作为输入，例如车辆轨迹、消失点和场景流。最近，提出了更丰富的模型[38]来处理更复杂的道路场景，例如：多车道和不同类型的交叉口。我们的工作遵循[38]中提出的参数表示。与[38]不同的是，它只需要本地信息，例如。像素级的深度和语义分割从一个单一的帧，我们建议探索多个方面的视频，例如。全局信息和上下文线索，以获得准确和连贯的预测。视频中的场景理解：除了准确性之外，视频中的场景理解还需要连续帧之间的一致预测。时空概率图形模型[19，38]被广泛用于户外场景。如今，像LSTM [4，13，32]这样的递归神经网络（RNN）用于随着时间的推移从静止帧传播特征表示。然而，LSTM隐式地执行预测一致性，而没有运动的显式知识。为此，最近的工作[5，29]提出将从图像和运动或光流中提取的特征相结合，以提高表示能力。虽然在上述这些网络中，运动作为网络的附加输入被馈送，但它不用于随时间变换特征以显式地实施特征级一致性。也许[36，42]是在特征扭曲和聚合方面最接近我们的工作。具体来说，[42，43]明确地在帧之间扭曲特征图[6]，并提出以更好的对齐方式聚合它们。为了解决[42]中的固定时间宽度问题，最近的工作[36]引入了一种从一帧扭曲到另一帧的特征记忆，这使得在不查看未来帧的情况下能够实现更长的时间范围。相比之下，我们引入了一个特征转换模块（FTM），该模块扭曲相机运动的特征并在连续帧之间聚合它们。我们还建议将LSTM和FTM结合起来，以隐式和显式地在预测中实现时间平滑。更重要的是，与在场景的透视图中估计流量的先前方法不同，我们的所有模块都在俯视图空间中工作。4416J输入视频模型输入模型结果渲染帧t-1特征提取帧t帧t+1本地+全球背景LSTM预测是单行道：左边没有车道：1距离：26米...FTM是单行道：左边没有车道：1距离：32米...FTM是单行道：左边没有车道：1距离：40米...图2：我们提出的框架概述：给定视频作为输入，从本地，全局和上下文信息聚合的俯视图被馈送到我们的FTM/LSTM网络中，以预测参数化道路场景布局。3. 我们的框架我们简要介绍了参数化场景模型。3.1.然后，我们在第二节中描述了我们提出的带有FTM的LSTM。3.2，其次是利用上下文信息和全球信息在第二节。3.3.我们的框架的概述如图所示。二、视频. 这里，x可以被认为是任何通用表示，诸如道路的RGB透视图像或顶视图图像;我们提出的新颖的顶视图表示法将在第二节中很快讨论。三点三给定xt，我们的整体模型定义如下：yt=fcom（gi（xt），gft（gi（xt−1），3.1. 场景表现Θt=h（gLSTM（g（yt）、（1）给定在透视图中捕获道路的单目视频序列，我们的目标是针对每帧在俯视图中获得连贯而准确的道路布局估计为了描述顶视图布局，我们遵循[38]的参数化表示，其由三种不同类型的场景属性/变量组成，包括Mb=14个二进制变量Θb，Mm=2个多类变量Θm和Mc=22个连续变量Θ。这些参数可以表示其中h、g和f是我们要训练的神经网络，权重分别为γ h、γ g和γ f。 y t是辅助中间特征表示。我们的网络结构如图所示。3.第三章。g i的架构是一个浅层（单层）卷积神经网络（CNN），gj是一个深层（多层）网络。我们首先将单独的输入xt传递给g i并接收特征 gi （ xt ）。然后将该特征与 gft （ gi（xt−1））相结合，得到C多种多样的道路场景布局1.见图1例通过馈送gi（xt−1），从先前的预测的结果。表示场景模型参数Θ ={Θb，Θm，Θc}，我们的目标是对所有t ∈ {1，. - 是的- 是的，T}，其中T是视频中的帧的数量。然而，不是从单个图像进行预测，我们建议增强潜在的特征表示，并从视频中聚合时间信息，以获得更时间一致和鲁棒的预测。3.2. 基于LSTM的模型为了利用长期的时间信息，我们建议利用LSTM进行道路布局预测。此外，我们提出了一个特征变换模块（FTM）更明确地聚合时间信息。我们将在下面讨论更多细节。帧，到FTMgft，并馈送到gj。gj的输出是一个1-维特征向量（对于每一帧），它被进一步馈送到我们的LSTM模块glstm中。然后，G-LSTM输出特征，该特征通过合并来自x-t-1的隐藏状态来隐式地编码来自前一帧的信息，并发送到h。然后，函数h被定义为多层感知器（MLP），其利用从LSTM模块获得的特征来预测场景属性Θt具体地，h被实现为具有针对场景模型2的每个参数组的三个单独预测的多任务网络。3.2.1特征变换模块假设在gi之后，我们能够提取特征图F=gi（x）∈Rhf×wf×cf，其中hf，wf，cf表示高度、宽度和特征尺寸。我们想我们将道路场景的表示为某个视x∈RH×W×C，因此xt在a中的第t帧处[1]我们参考我们的补充材料和[38]了解更多细节。2在实验中，我们还尝试了双向LSTM [26]和Con- vLSTM [39]。我们没有观察到传统LSTM的显著改进4417supΣb我m，ic我ˆt阿3.2.2场景属性标注的损失函数给定由Nr个视频组成的注释数据集Dr我们定义总损失函数Lr如：Nr，Ti，tBCE（Θtˆtb我）+CE（Θtˆtm，i）+θ1（Θtc，i），图3：我们的网络概览。网络通过鼓励时间一致性来学习更鲁棒的特征表示。为此，我们建议从附近的帧中聚合对应于场景中相同位置的特征，并将合成的特征馈送到后面的预测层中。直观地说，我们希望网络利用同一点但来自不同视角的特征进行更稳健的预测，并鼓励更具时间一致性的特征学习。特征对应：为了聚合特征对应于相同的空间位置，我们需要找到一个相邻帧中的两个特征图之间的对应关系。实现这一点的一个明显的方法是通过计算相邻透视图像之间的光流[33]并将对应关系w.r.t.特征图上的流场。我们稍后将在SEC中展示。3.3.2这样的计算可以在这里避免，因为我们有摄像机姿势和从视频构建的道路的3D重建特征变换：给定特征图之间的对应关系，我们可以将时间步t-1的特征图扭曲到当前时间步t，表示为：gft（Ft−1）=φ（Ft−1，St−1（xt，xt−1））（2）其中φ（n）是双线性采样函数[14]，St−1（xt，xt−1）∈Rhf×wf×2是位移（或流）帧t和t-1之间的场。特征组成：我们可以选择不同的方法来计算特征图gft（Ft−1）和Ft。在这里，我们采用以下两个简单的加权求和，fcom （Ft ， gft （Ft−1 ））=α·Ft+（1−α） ·gft（Ft−1），（3）其中α可以是标量，例如 α =1，或矩阵，其中CE表示交叉熵，BCE表示二进制交叉熵。我们进一步表示地面实况布局数据集中的第i个视频序列中的第t个帧的参数为. 请注意，我们对回归任务的连续变量进行了离散化通过将以Θc为中心的狄拉克δ函数与固定方差的高斯函数进行卷积，K=100个仓[38]。3.3. 模型输入正如[38]所建议的，我们的模型输入x的形式对我们的模型有很大的影响。虽然透视RGB图像是x的自然表示，但它在顶视图布局估计中效果不佳。相反，[38]建议将每个透视图像转换为具有像素级深度和语义分割的语义在我们的案例中，由于我们正在处理视频，因此可以探索更多在本节中，我们建议利用视频中的上下文和全局信息来改进x的表示。当地信息：单帧[38]之后，给定单个透视图像，连同其语义分割、CNN预测的密集深度和相机本征，我们可以通过（1）将所有道路像素后向投影到3D点云中以及（2）将所有3D点投影到x-y平面上来获得道路的俯视图像。我们使用这种映射将每个像素的语义类概率分布从透视图转换为俯视图。我们称之bev，记为x∈RH×W×C，其中C为语义类数。H=128和W=64像素，这与点云中的60×30米有关。参见图6用单个图像获得的BEV图的一些示例3.3.1上下文信息考虑到结合上下文线索在许多场景理解任务中被证明是非常有益的，不像[38]α∈Rhf×wf2. 注意，在这两种情况下，α都可以自动仅包括C = 4类（即，道路，人行道，小巷，与网络的其他部分一起学习，而无需任何额外的监督。对于 t = 1 的特殊情况，我们简单地假设 gst（Ft−1）等于Ft。这讨论：请注意，我们可以很容易地扩展我们的模型，通过聚合功能，从帧更远，甚至从未来的帧在离线设置。此外，FTM可以扩展为不同尺度的多个特征图，这可能会进一步提高性能。crosswalk），我们建议在x中进一步编码对象类(soC=5）。具体来说，我们观察到交通参与者，i.e. 车辆，如汽车，通常存在于驾驶场景，并且对于布局估计非常有用，例如，侧面车在预测支路的存在或甚至到支路的距离方面是有用的。一种结合上下文提示的简单方法是遵循其他类的做法，直接将对象的像素级概率映射到顶视图。然而，FTMLSTM、Θ、Θ、Θ4418我们观察到，这种天真的4419（（（（（(a)（b）第（1）款图4：两个例子比较了汽车的盒子表示和点云表示。我们可以在（a）和（b）中观察到四辆正面车，在（b）中观察到一辆侧面车。方法将导致扩散表示3（参见图4的示例）并且可能非常嘈杂。相反，我们建议使用边界框表示。具体来说，我们将现有的3D对象检测器[17，18]应用于我们的视频，并将检测结果映射到俯视图中。为了减少角度预测的影响，我们进一步建议将角度分为两种类型，正面和侧面。只要当预测的偏航角在[−π，π]或[3π，5π]w.r.t.内时图5：生成语义bev-col的示例说明。（a）（b）3D场景重建和语义分割。(c)道路提取和平面拟合。(d)贝夫科尔4 4 4 4相机z轴（向前方向），我们假设这预测物体是正面的。否则，它是侧面的（图。4）.3.3.2来自视频序列的全局信息如图1中的各个帧示例所示。6，bev明显存在一些伪影，例如底部的V形和像素远离的缺失细节。这本质上是由于单视图3D重建在场景中的远点的分辨率观点（e）。(a)（b）第（1）款从COLMAP的俯视图当输入是一个en-��−��−��轮胎视频序列，我们能够解决上述男子-通过生成更完整的3D重建以及随后的bev来消除单个帧中的伪影。具体而言，我们利用来自COLMAP [23，24]的最先进的SfM和MVS算法以及2D图像中的语义分割，以便从视频生成顶视图图（表示为bevcol管道如图所五、我们首先对COLAMP返回的密集点云进行3D语义我们根据可见性图将每个3D点投影到图像中，以从2D语义分割中获得语义候选者;应用简单的赢家通吃策略来确定每个点的最终语义标签（图1）。第5（b）段）。3D语义分割允许我们提取道路部分的3D点，我们通过RANSAC拟合2D平面（图1）。5（c））。Finally, we can generate the bev-col by cropping arectangular box on the 2D road plane accord- ing to thecamera pose and our pre-defined top-view image size andresolution; the 3D points on the plane are converted图6：从单个帧和COLMAP获得的背景类上的bev和bev-col的两个示例。红色圆圈突出了差异。全局平面参数，我们利用摄像机姿态将全局平面参数转换为相对于摄像机的局部参数。注意，在全局平面可以与局部平面相同的良好校准的情况下，可以跳过全局车道估计过程见图6再举两个例子。这里，可以看到，给定2D道路平面中每个bev-col的已知位置和取向，可以很容易地获得两个bev-col之间的密集这种映射被转移到特征图上的对应，并输入到FTM（第12节）。3.2.1）。在这里，我们不处理动态对象的映射，但发现FTM仍然工作良好4。最后，我们还注意到，这里的3D重建的绝对比例可以从驾驶场景中的GPS或相机地面高度讨论：请注意，在我们的案例中，图像中的像素（图）。5（d））。在获得4使用动态对象的GT掩码可能有助于提高3这主要是由于对象的小尺寸，使得其在映射到顶视图时对语义和深度预测噪声的鲁棒性较低性能，但如果没有它们，即使我们目前对动态对象的处理也会产生有希望的结果。44202p+Rk=1道路车道人行横道人行道车图7：一个在我们的bev-final中可视化层的例子。在当前帧中实际上可以看到什么，我们的bev-col用COLMAP模型得到了真正存在的东西。例如，在从单个帧生成的bev中，仅由于表1：[22]道路场景布局估计结果。并将其总结如下。对于二进制变量Θb（如主干道或左侧人行横道的存在）和多类变量Θm（如左侧车道数），我们报告预测精度为Accu.- Bi=114[p =Θ]Σ214k=1kb k缺乏观察视角与此相反，只要我们在这个视频中有观测结果，用全局信息生成的bev-col就能够正确地恢复sideroad（见第6（a）段）。和Accu。Mc= 1[pk=Θm k]。更重要的是，由于我们观察到二元类是非常有偏见的，我们还报告了在Θ b上的F1得分，这在-对我来说，这是一个整体的表现。具体来说，F1。Bi=最终输入：我们的最终输入包含本地信息11414k=12×pk×rk，其中pK KRK精确度和从单个帧，从视频和对象级上下文信息。注意，局部和全局线索可以是相互信息的，例如，基于几何结构的3D重建在一些具有挑战性的情况下可能不准确或不完整，如无纹理区域，但在这种情况下，来自CNN预测深度的顶视图信息可能对布局预测更有信息性（见图1中的组件）。6（b））。综上所述，我们提出的俯视语义图bev-final是在RH×W×C中，其中C=5，并且层代表四个背景类和汽车;我们把Bev-col覆盖在Bev上面把它们融合在一起。具体称之为y，对于具有Bi，j=1的二进制掩码B，如果bev-coli ， j/=0 ，则我们有 bev-final=bev-colB+bev（1−B），其中表示元素级乘积。查看可视化示例在图中的每一层。7.第一次会议。4. 实验在本节中，我们通过在两个数据集上进行几个实验来证明我们提出的增强输入表示和LSTM/FTM的有效性。数据集：我们在两个数据集KITTI [8]和NuScenes [22]上验证了我们的想法。类似地，我们利用[38]中的注释数据，其中包括 KITTI [8] 的大约 17000 个注释和NuScenes [22]的大约1200个注释为了训练我们的分割网络，我们还有1243张图像用于训练，382张图像用于KITTI测试。我们建议读者参考[38，37]以了解数据集的更多详细信息，实施细节可以在补充资料中找到。评价指标：由于我们的输出空间由三种类型的预测组成，并且涉及离散和连续变量，因此我们遵循[38]中定义的度量。二进制属性第k个变量的召回率。对于regres-我们使用均方误差（MSE）来测量变量。此外，我们还报告了Intersection-over-Union（IoU）作为整体性能评估指标。具体来说，我们假设我们可以渲染四类语义顶视图地图的预测结果或地面实况的一个符号。然后我们报告所有测试图像的平均IoU分数有关IoU的更多详情载于补充资料。4.1. 对全局线索和背景线索的评价在本节中，我们将探讨bev-final的影响。为此，我们的目标是验证我们提出的上下文和道路布局预测的全球信息的有效性。我们使用没有LSTM和FTM的基本模型，除非另有说明。这个基本模型的细节可以在图的基础中找到。8.基线：我们将我们提出的方法与[38]中提出的几种竞争方法进行了比较。RGB方法将单个透视RGB图像作为输入并训练模型[12]直接输出场景属性的预测。RGB+D方法共享相同的模型架构w.r.t.RGB，但输出每像素深度图和属性预测。BEV和SOTAH-BEV-DA都以bev作为输入输出场景属性，这意味着它们都是在线方法。区别在于：1）前者在训练期间仅使用来自真实图像的bev，而后者使用额外的模拟bev; 2）前者使用基本模型，而后者具有如[38]中的混合模型。注意，+GM意味着添加时空图形模型作为后处理。我们的建议：除了基线之外，我们还提出了以下具有不同输入表示的方法：K[22]第二十二话方法准确。-双性恋↑准确。-MC.↑MSE ↓欠条↑Bev.846.485.073.217BEV-C.856.471.069.211BEV-J.872.486.036.230BEV-J-O.858.543.027.313+LSTM.859.536.023.3114421LSTM表2：KITTI道路场景布局估计的主要结果[8]。我们可以看出：1）全局（BEV-C、BEV-J）和上下文（BEV-J-O）信息与其单个图像竞争者相比确实有益于单个图像性能。2）引入LSTM和FTM可以进一步提高单图像方法的准确性。• BEV-COLMAP（BEV-C）：我们提出了从视频中获得全局信息的bev - col，如第2节所述。3.3.2.一旦我们得到了贝弗科尔，我们就把它输入基本模型.• BEV-joint（BEV-J）：我们将bev和bev-col组合在一起并获得BEV-J的输入。然后我们将关节输入馈送到基本模型。图8：基线模型架构的图示。我们将上面的一个表示为基本的，下面的一个表示为blstm。• BEV-JOINT-OBJ（BEV-J-O）：作为描述节中3.3.1，我们进一步添加对象信息并获得bev-final作为BEV-J-O的输入。再次，学习基本模型定量结果：选项卡. 2总结了我们在KITTI [8]上的主要结果。我们有以下几点意见。首先，将BEV-C与BEV进行比较，我们可以看到，从整个视频序列生成的3D点云中获取全局信息比依赖于单个深度和语义分割结果更好，例如。F1评分有很大改善这种改进可能来自更高质量的bevinit，特别是在远离相机的区域中的更高精度和更一致的结果方面。其次，如果我们将BEV-J与BEV-C和BEV进行比较，我们可以看到将它们组合在一起可以进一步提高所有属性的性能，例如1.一、4%，3。3%和0。04改进了二进制，多类和回归任务。更重要的是，我们可以将IoU提高10%左右。一个原因可能是，来自BEV-C的输入更多地关注可以靠近和远离的纹理区域，而来自BEV的输入保持所有靠近区域的更多细节。它们在以顶视图表示场景布局方面是互惠的。最后，一旦添加对象信息（BEV-J-O），我们可以进一步将F1分数提高约5%。总之，我们可以观察到添加单个组件时的明显改善。我们还在Tab中报告了NuScenes [22]的部分结果1，并请读者参阅补充资料，以获得完整的。至于NuScenes [22]，我们再次观察到，表3：基于单个图像的道路布局预测的消融研究。在此表中，我们将BEV视为EMV。单独和全局信息提供的结果比任何一个单独提供的此外，添加上下文信息进一步改进了几乎所有任务。消融研究：由于per-turbine boost的主要改进来自完整视频序列以及对象的信息，因此在本节中，我们对以下内容进行消融研究：1）利用全视频序列生成的俯视图的质量对模型的影响，以及2) 对象表示对模型的影响。选项卡. 3总结了我们的结果，其中 *-denseC意味着我们改变COLMAP的3D重建参数，以生成更密集的bev-col作为训练模型的输入。和*-C-O意味着我们将来自BEV-C的输入与对象信息相结合，并学习预测道路属性。从该表中可以看出，密度更大的bev-col绝对可以提高所有任务和测量的性能，这表明通过提高bev-col的质量可以有更多的空间来提高预测精度。此外，进一步的性能提升可以获得对象信息，这再次证明了上下文信息可以在我们的布局预测任务中非常有用。定性结果：我们展示了几个定性的结果在图9中。我们可以从例子中看到，我们的模型成功地描述了一组不同的道路场景。此外，我们的预测与实际情况基本一致。目标检测结果。KITTI [8]方法准确。-双性恋↑准确。-MC. ↑MSE↓ F1毕↑欠条↑RGB [27].811.778.230.176.327RGB [27]+D.818.819.154.109.334BEV [38].820.797.141.324.345BEV [38]+GM.831.802.136.344.357H-BEV-DA[38]+GM .834.831.134.435.404BEV-C.826.779.175.456.317BEV-J.840.832.135.458.416BEV-J-O.831.837.142.494.388+LSTM.845.825.134.537.382+LSTM+FTM.842.841.134.534.405KITTI [8]方法准确。-双性恋↑准确。-MC. ↑MSE↓F1双性恋↑BEV-C.826.779.175.456*-denseC.826.783.148.496*-C-O.836.812.146.507*+LSTM.831.812.136.3604422图9：KITTI单个帧的完整模型的定性结果。每个示例分别示出了透视RGB、地面实况和预测语义顶视图（包括作为绿色矩形的对象边界框）。图10：在来自KITTI的两个示例序列的连续帧中比较BEV-J-O和完整模型的定性结果。我们为每个视图可视化透视RGB图像，分别从BEV-J-O和完整模型进行预测使用[38]中建议的以下指标，并请读者参阅补充材料以了解更多详细信息：• 语义一致性：我们报告属性预测中的平均冲突。• 时间一致性：我们还报告了表4：一致性测量的主要结果。4.2. 对LSTM和FTM的评价我们进一步证明了LSTM和FTM在Tab中的有效性。2.更具体地说，+LSTM模型在图中示出。8（blstm部分）和+LSTM+FTM是我们的完整模型。两个模型都接收bev-final作为输入。从上表可以看出，在LSTM的帮助下，我们可以提高二进制和回归任务的性能。请注意，与单图像方法相比，我们可以进一步将F1分数提高至少4%更重要的是，我们的完整模型，或+LSTM+FTM，提供了最佳的整体性能正如表中所强调的，它几乎总是在所有任务和测量中表现最好或第二好。即使与以前的SOTA相比，它是用真实和模拟数据训练的，并且包括时空图形模型作为后处理，我们可以清楚地观察到，所提出的方法提供了更好的结果，特别是对于F1分数。总之，我们证明了FTM和LSTM在提高预测精度方面的有效性。我们还在Tab中报告了BEV+LSTM。3.我们可以观察到，添加LSTM（blstm）可以提高性能，即使使用bev输入，这证明了局部获得的顶视图表示上的时间信息的有效性。这种趋势也在Tab中的NuScenes上共享。1.一、一致性：由于我们在视频中工作，我们还分析了预测的一致性。为此我们我们预测的变化。我们在Tab中显示。4定量结果的时间以及语义的一致性度量定义的两个数据集。与单个图像基线相比，我们可以观察到所提出的BEV-J-O在两个数据集的一致性方面的显著改善。此外，如果我们与基于视频的现有工作相比较，结合表2中所示的预测精度，我们可以看到所提出的方法优于以前的SOTA，例如。在不牺牲时间平滑性的同时提高精度。结果和我们对NuScenes[22]的分析见补充资料。最后，我们可视化的定性结果连续帧在两个测试序列从KITTI图。10个。可以看出，我们的模型成功地实施了时间平滑。我们还可以观察到更一致的预测，例如，在LSTM和FTM的帮助下，可以计算出支路的宽度和宽度。同样，我们的预测是一致的。目标检测结果。5. 结论在这项工作中，我们提出了一个场景理解框架来估计参数道路布局在视频中的每个视图在只有单一图像输入的情况下，我们建议通过利用LSTM/FTM模型，上下文信息以及全局3D重建来利用视频中的时间信息，从而获得非常有希望的结果。KITTI [8]方法seman.↓温度↓BEV [38]2.653.99H-BEV-DA [38]+GM1.771.93BEV-J-O1.262.78+LSTM+FTM1.261.964423引用[1] 放大图片创作者： Iro Armeni ， Ozan Sener ， AmirR.Zamir ， Helen Jiang ， Ioannis Brilakis ， MartinFischer，and Silvio Savarese.大规模室内空间的三维语义解析。在CVPR，2016年。[2] SamuelRotaBulò ， LorenzoPorzi ， andPeterKontschieder.用于DNN的内存优化训练的就地激活的BatchNorm在CVPR，2018年。[3] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.基于Atrous可分离卷积的语义图像分割编码解码器。在ECCV，2018。[4] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络在IEEE计算机视觉和模式识别会议论文集，第2625-2634页[5] Christoph Feichtenhofer ， Axel Pinz ， and Richard PWildes.用于视频动作识别的时空倍增器网络。在IEEE计算机视觉和模式识别会议论文集，第4768-4777页[6] Philipp Fischer、Alexey Dosovitskiy、Eddy Ilg、PhilipHäusser、Caner Hazırbas、Vladimir Golkov、Patrick Vander Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。 arXiv 预印本 arXiv ：1504.06852，2015年。[7] Andreas Geiger ， Martin Lauer ， Christian Wojek ，Christoph Stiller，and Raquel Urtasun.基于移动平台的三维交通场景PAMI，2014年。[8] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人：KITTI数据集。国际机器人研究杂志（IJRR），2013年。[9] Clément Godard，Oisin Mac Aodha，and Gabriel J. 布罗斯托具有左右一致性的无监督单目深度估计。在CVPR，2017年。[10] Ruiqi Guo和Derek Hoiem。视线之外：标记下面的表面。ECCV，2012年。[11] Saurabh Gupta，James Davidson，Sergey Levine，RahulSuk-thankar，and Jitendra Malik.视觉导航的认知地图和在CVPR，2017年。[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[13] Sepp Hochreiter和Jürgen Schmidhuber长短期记忆。神经计算，9（8）：1735[14] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu.空间Transformer网络。2015年，在NIPS[15] 拉尔斯·昆泽，汤姆·布鲁尔斯，塔兰·苏莱曼诺夫和保罗·纽曼。《小巷之间的阅读》：基于部分分割场景的道路布局重建。智能交通系统国际会议（ITSC），2018年。[16] Iro Laina ， Vasileios Belagiannis Christian Rupprecht ，Fed-erico Tombari，and Nassir Navab.使用全卷积残差网络进行更深的深度预测。在3DV，2016年。[17] 李步宇，欧阳万里，卢胜，曾星宇，王晓刚Gs3d：一个高效的三维物体检测框架4424自动驾驶。在IEEE计算机视觉和模式识别会议论文集，第1019-1028页[18] Peiang Li，Xiaozhi Chen，and Shaojie Shen.用于自动驾驶的基于立体r-cnn的3d目标检测。在IEEE计算机视觉和模式识别会议的论文集，第7644-7652页[19] 刘步宇和何旭明。具有对象级主动推理的多类语义视频分割在IEEE计算机视觉和模式识别会议论文集，第4286-4294页[20] 作者：Chen Xi Liu，Alexander G.Schwing，KaustavKundu，Raquel Urtasun，and Sanja Fidler.Rent3D：单目布局估计的平面图先验。CVPR，2015。[21] Gellért Máttyus，Shenlong Wang，Sanja Fidler，andRaquel Urtasun.高清地图：通过解析地面和航空图像进行细粒度道路分割。在CVPR，2016年。[22] NuTonomy NuScenes 数据集。网址： //www.nuscenes.org，2018年。[23] Johannes L Schonberger和Jan-Michael Frahm.结构-从运动重新审视。在 Proceedings of the IEEEConferenceonComputerVisionandPatternRecognition，第4104-4113页[24] Johannes L Schönberger ， Enliang Zheng ， Jan-Michael Frahm，and Marc Pollefeys.用于非结构化多视图立体的像素视图选择欧洲计算机视觉会议，第501-518页。施普林格，2016年。[25] 塞缪尔·舒特，翟梦华，内森·雅各布斯，曼-莫汉·钱德拉克。学习查

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

视频中预测道路布局的方法结合了摄像机运动、上下文线索和长期视频信息

一种基于视频的道路交通流量监测方法

图像分割中的上下文信息

神经网络中的上下文信息

yolov5时空上下文

flask应用上下文

不使用threadlocal的前提下将用户上下文信息作为参数传递到Spring AOP的切面中然后在需要的方法中获取具体该怎么做？

yolo目标检测如何加入上下文信息

this.$refs.video怎样获取视频上下文

进程上下文和中断上下文的区别

opengl实现摄像机

AEB 自车轨迹预测

进程上下文、线程上下文、中断上下文

android清除上下文

使用什么保存上下文信息

当js调用Android方法时Android方法需要上下文怎么办

上下文信息有哪些网络结构

程序中的上下文是什么意思

最新资源