特征与特征运动的联合预测及其在场景预测中的应用

13 浏览量更新于2023-10-25 收藏 3.5MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1Warp to the Future：特征和特征运动的联合预测JosipSaric<$1MarinOrs ic<$1T onc< $iAntuno vic<$2SachaVrazic<$2Sinis aSegvic<$11Faculty of Electrical Engineering and Computing2 RimacAutomobili克罗地亚萨格勒布大学Sveta Nedelja，克罗地亚摘要我们通过预测未来帧的语义分割来预测场景的发展。几个以前的作品接近这个问题的F2F（功能到功能）预测未来的功能从观察到的功能回归。不同于以往的工作，我们考虑一种新的F2M（特征到运动）公式，其通过根据回归特征流扭曲观察到的特征来执行预测。该公式模拟了过去和未来之间的因果关系，并通过降低预测目标的维度来规范推理 However,emergence of future scenery which was not visible inobserved frames can not be ex- plained by warping.我们建议通过补充F2M预测与经典的F2F方法来解决这个问题。我们将这个想法实现为建立在共享特征之上的多头F2MF模型。实验表明，F2M头占主导地位的静态部分的场景，而F2F头踢在填补新的区域。所提出的F2MF模型与相关特征协同操作，并且在Cityscapes数据集的短期和中期预测中优于所有以前的方法1. 介绍预期的未来[1，29，30]是许多决策系统的宝贵输入例如，在自动驾驶中，未来的行人位置可以实现潜在的救生决策。预测未来事件的模型通常可以在未标记的视频上训练，这是一个取之不尽的训练数据来源。一些最近的工作[20，35，26]解决了给定过去帧预测未来RGB帧的问题然而，在许多有趣的应用中不需要这个困难的任务。例如，在自动驾驶环境中，我们更关心未来语义[37]而不是未来外观。因此，语义预测[18]代表了一种有趣的替代方案，具有明显的提高准确性和速度的潜力。已经提出了几种方法，为未来的antic- ipation上的语义水平。直接语义预测时空对应F2MFF2mBCNNDNCNNDNCNNUPIt-9ItΔt+ΔtF2f图1.建议的F2MF预测方法概述观察到的RGB图像Iτ，τ ∈{t − 9，t − 6，t − 3，t}通过预训练识别模块（CNNDN）处理为低分辨率特征X τ。这些功能丰富了他们的空间-时间相关系数，并转发到F2 M和F2 F模块，其专门用于预测先前观察到的和未观察到的场景。ForecastedfuturefeaturesX t +tareablend（B）F2M和F2F输出。密集预测St+t最终通过预训练的上采样模块（CNN UP）恢复。将过去的预测映射到未来的预测[18，14，2，21，4，38]。不幸的是，这种方法有将单帧预测误差传播到预测中的风险。此外，成功的预测需要在过去的帧中建立至少隐含的对应关系，这在最终预测的水平上是不容易实现的最后，这种方法不能以任务不可知的方式实现。基于流的预测对密集图像运动矢量进行操作[34]。它接收来自过去几帧的重建光流，并以未来帧和最后观察帧之间的光流为未来的预测可以通过用预测流来扭曲过去的预测来恢复然而，这种方法需要预先计算的光流，这意味着单独的训练和降低推理速度。此外，纯粹的几何预测不能利用语义信息和生成的ad-hoc内容在无遮挡像素。企业级预测接收中间特征1064810649tt+1从过去的框架，并针对他们未来的同行。这种方法已成功应用于语义分割[37，28，5]，实例分割[17，7，32]和动作识别[36]。与这两种方法相比，特征级预测更有可能避免传播单帧预测错误，因为特征不限于特定的2. 相关工作光流光流重建相邻图像帧It和It+1之间的密集2D运动。可以在向前或向后方向上定义流。未来图像It+1可以通过前向流ft+1= flow（It，It+1）的前向扭曲[33]先前图像It来近似，或者通过后向扭曲It来近似，其中预测此外，深度卷积表示典型地，对各部分进行二次采样。输入，这允许在存储器占用和计算速度方面的有效实现端到端培训和任务无关操作也有很大的潜力。大多数以前的特征级方法将预测表达为纯粹的识别任务[17，28，32]。这似乎并不令人满意，因为它忽略了未来预期的几何性质，使模型难以理清个别变化因素。预测问题涉及几个几何自由度，如相机运动，深度和单个对象运动。我们假设，如果这些因素中的一些明确存在于模型中，学习和推理会更在给定重建的自我运动和深度的情况下，神经水平预测也可以表示为纯3D重建任务[37]然而，3D解释可能会引入不期望的噪声，而对于实现最佳性能可能不是必需的。这特别涉及到“想象”未观察到的风景的过程。因此，我们更倾向于将预测公式化为先前观察到的结构的2D运动加上新颖场景的2D生成。本文通过将运动引起的变化与新奇引起的变化区分开来，表达了特征级预测。我们的贡献如下。首先，我们改进了基于特征的预测，通过在局部邻域内利用其时空相关系数丰富特征。这促进了跨语义类的泛化，并简化了建立时间对应。其次，我们通过用回归特征流扭曲观察到的特征来对由于运动而引起的变化进行建模。我们将此过程表示为F2M（特征到运动）预测，以强调其与经典F2F（特征到特征）方法的关系[17]。第三，我们利用F2F和F2M方法的互补性，根据密集回归的权重因子混合它们的预测，如图1所示。所提出的F2MF预测模型通过提高先前观测到的区域的准确性并且鼓励F2F模块专注于“想象”新颖的场景来优于经典的F2M预测可以通过前向或后向翘曲实现[33]。这两种方法在我们的实验设置中实现了同样良好的性能。在Cityscapes数据集上的实验表明，F2MF预测在短期和中期都明显优于经典的F2F方法。反向流ft+1= flow（It+1，It）：It+1阶弯曲fw（It，ft+1）阶弯曲bw（It，ft）（1）（1）中的近似相等提醒我们，由于遮挡和视角的变化，两个连续图像之间的双射映射往往不能最近的光流研究利用了深度卷积模型[8，31]，这是由于端到端训练的对应性和猜测不存在对应性的（不）遮挡区域中的运动的能力。这些模型基于充当对应度量的局部嵌入以及相关层内的显式2D运动恢复[8]。注意，正确的基于流的预测需要过去帧和未来帧之间的光流估计，这还有待观察。因此，过去光流的直接外推必然会达到次优精度，即使对于短期预测，特别是在铰接对象，如行人。时间对齐。语义预测与观察到的图像的时间对准有关。来自分割的关键帧的特征可以向当前帧扭曲，以加速视频中的语义分割[41]。为了扩大训练数据集，可以将Groundtruth标签扭曲到周围的未标记帧[42]。当前的预测可以通过相对于过去的帧实施时间一致性来改进[10，27]。直接语义预测。 Luc等人[18]是第一个预测未来语义分割的。他们的S2S模型遵循直接预测方法，对输入进行过去的分割，并对输出进行未来的分割。巴塔查里亚等[2]指出未来的多模态性质，并试图用基于辍学的变分推理来解释它。Nabavi等人[21]以循环方式制定预测，每两个帧之间具有共享参数。他们的工作已经通过加强相邻特征张量之间的时间一致性和利用可变形卷积来改进[4]。这导致了基于注意力的混合，这与我们基于成对相关特征的前向扭曲有关。然而，这些方法的预测准确性大大低于我们的ResNet-18实验，尽管相当大的预测能力和更好的单帧性能。这表明10650F2MF||共享F2M-F2 FW||LBF2mLLF2fF2MFXt-9XtXt+ΔtF2F头部F2M股骨头融合Corr容易对应和避免误差传播对于成功的预测可能是重要的。基于流量的预测。直接语义预测需要大量的训练数据，因为需要逐个学习所有这已经通过允许预测模型访问反映图像平面中的2D运动的几何特征而得到改进[14]。该思想的进一步发展使我们产生了基于流的预测，其根据预测的光流[34]扭曲最后的密集预测，如（1）所示。在我们工作之前，这种方法已经达到了最先进的短期预测精度。他们的卷积LSTM模型从三个观察帧接收后向光流这种公式与我们的F2M模块有关，该模块也通过回归流的翘曲进行预测然而，我们的F2M模块对抽象卷积特征进行操作，并且既不需要外部组件也不需要额外的监督。我们通过联合训练具有特征回归损失的复合深度模型来实现这一点。这意味着由于二次采样分辨率而导致的非常有效的推断，并且由于端到端训练而阻止错误传播。此外，我们考虑了所有过去四帧的特征，而不是仅依赖于最后一个预测。这使我们的F2M模块能够检测复杂的非遮挡模式，并在可能的情况下简单地从过去复制。此外，我们的模块可以访问原始语义特征，这些特征与流模式[9]互补，并且通常与未来的运动密切相关（例如考虑汽车与行人）。最后，我们用纯粹的基于投影的F2F预测来补充我们的F2M模块，它在以前未观察到的场景上优于F2M光流也被用于从单帧输入生成多模态未来视频[16，24]。我们的F2M方法采用相反的方法：我们也预测多个流，但是我们的流将单个未来帧与多个过去帧连接。多模态预测将是我们目前工作的一个有趣的扩展。预测水平。这些方法将过去的特征映射到未来的对应特征，这也被称为F2F（特征到特征）预测。第一个F2F方法[36]从完全连接的AlexNet层操作图像范围的特征。后来的工作通过沿着FPN样式的上采样路径的所有级别回归特征来解决密集预测[17]。然而，精细分辨率的预测在计算上是昂贵的[7]。因此，一些后来的工作恢复到粗特征水平上的预测[5]。通过利用F2F模块中的可变形卷积、使用交叉熵对上采样路径进行微调以及无跳跃连接的单帧模型，实现了最先进的中期精度[28]。前-由于小的帧间位移、丰富的上下文信息和小的计算占用空间，以粗分辨率投射是有利的，尽管在该过程中可能丢失用于恢复小对象的一些信息。我们的工作改进了[28]如下。首先，我们表明，预测精度可以提高预测归一化SPP功能。其次，我们通过恢复嵌入的卷积特征之间的时空相关性来对相邻帧之间的显式对应进行建模。这种几何洞察力进一步提高了预测精度。第三，我们介绍了F2M预测，它通过用回归特征流扭曲先前的特征来操作。我们表明，F2M和F2F的方法互补的多头F2MF模型与共享功能。F2F在场景的新部分中证明更好，其中模型必须想象会发生什么，而F2M在先前观察到的场景中占上风。我们的工作也与[37]有关，他们将特征级预测公式化为重建特征到预测的未来自我位置的重新投影然而，这种纯粹的几何方法在存在（不）遮挡和视角变化的情况下显然是次优的。此外，很难解释运动物体的独立运动。我们的方法远远优于[37]，这表明最佳预测性能需要在重建和识别之间保持谨慎的平衡，而显式3D推理可能不是必要的。3. 基于特征流的我们提出了一种特征级预测方法，该方法利用因果几何洞察力补充了基于推理的推理，如图2所示。拟议图2.建议的F2MF预测方法的详细信息。F2 M和F2 F头接收经处理的级联（||）的特征Xt-9：t：3，以及它们的时空相关系数。F2M头回归未来功能将过去的特征扭曲（W）到其未来位置的流F2F头直接预测未来的功能。复合预测Xt+t是F2M和F2F预测的混合（B）。10651t+3t+ΔtτBWFt+Δtt+ΔtτF2 MF模型接收由预训练的卷积骨干（CNNDN）提取的卷积特征Xt-9，Xt-6，Xt-3，Xt（简称Xt-9 ： t ：3）。在输出时，F2MF模块预测相应的未来特征Xt+t，随后通过预训练的上采样模块（CNN UP）将其转换为密集预测St+t。3.1. 单帧模型图3显示了我们的单帧密集预测模型。下采样路径（CNN-DN）包含ImageNet预训练的主干和金字塔池化模块[39]。所得特征Xt相对于输入分辨率进行32倍二上采样路径（CNN-UP）有三个经过训练的上采样模块[15，23]和一个1×1密集的分类器，并以4倍双线性上采样结束这与以前的工作类似[17，5，28]，但有一个重要的区别。我们的F2F模块可以访问时空相关功能，从而无需从头开始学习对应关系。我们的实验显示了这些特征的明显优势，这表明在现有数据集上不容易学习对应关系。3.4. F2M预测我们的F2M模块提供了F2F预测的正则化变体。它假设过去和未来之间存在因果关系，这可以通过二维扭曲来解释。它接收经过处理的输入要素，并输出密集位移场，以扭曲每个将这四个特征张量转化为它未来的对应物X （τ），τ ∈{t − 9，t − 6，t − 3，t}。最后，我们将四个预测与训练的每像素权重向量混合，使用softmax。因此，预报可以利用观察到的具有最佳视图的帧到场景的未遮挡部分上。我们在图7中证明了这一点。F2M后曲速。F2M forecast can be con-或者由具有双折射τ的背板构成，或以for-图3. Our single-frame model is a SwiftNet [23] without skip-connections.下采样路径（CNN-DN）将输入信号转换为如（1）所示，用t+t +t的形式来表示。在后向情况下把图像It压缩成Xt。上采样路径（CNN-UP）产生密集语义输出St。ˆτt+Δt=F2M（τ）（Xt−9：t：3），τ ∈ {t − 9，. - 是的- 是的，t}。（三）3.2. 时空相关特征未来的特征张量随后通过回-将四个先前特征向量中的每一者向翘曲：我们的相关性模块确定时空相关性，（τ）t+Δt=warpbw（Xτ，τfτ）的情况。（四）相邻帧之间的响应。在输入端，它接收一个具有卷积特征X t−9：t：3的T×C×H×W张量。在所有实验中，我们有T=4（时刻），反向扭曲通过在预测反向流的非整数位置进行插值来获得未来激活：H=32，W=64。我们首先嵌入所有时间瞬间进入具有增强度量属性的空间，（τ）t+Δt[q]=biinearinterp（Xτ，q+fτ[q]）。（五）一个共享的3×3×C'卷积（C'= 128）。这种映射可以恢复不需要的区分信息单帧推理随后，我们通过归一化C '维fea来构造我们的度量嵌入FF2M向前曲速。该F2 M变体预测时间τ∈ {t−9，t−6，t−3，t}处的前向特征流：ft+τfw将余弦相似度转化为点积。最后，我们在d×d内生成时间τ的特征与时间τ−3的对应特征之间的d2未来的特征张量通过前向扭曲四个先前特征向量中的每一个来获得对于每个τ∈ {t−6，t−3，t}。相关-位置q和特征图ud+v处的特征张量Cτ是点（τ）t+Δt=warpfw（Xτ，ft+t）（7）在时间τ和位置q∈ D（F）的度量特征的乘积，其对应特征在时间τ−3偏移（u，v）[8，13]：这通过观察到的溅射产生未来的激活[33]由预测Cτ=FτFτ−3，其中u，v ∈ [0. d）. （二）XtCNNCNNDN UPXXX10652τ向前流动。不幸的是，ud+v，qqq+[u−d，v−d]GPU硬件[22]仅在时间之后才可用2 2我们的实验。因此，我们设计了一个简单的尽管基于matmul的实现效率低下：3.3. F2F预测我们的特征到特征模块接收处理后的输入特征，并直接回归未来特征Xt+Xt。（τ）t+Δt[q]=1ΣNQ p∈D（ X）k（p+ft+ ft[p]，q）·Xt[p].（八）X10653τττ在上述等式中，k表示RBF核，而Nq是归一化因子，其确保预测特征的范数保持在通常范围内：[6]的文件。我们使用基于DenseNet-121 [12]或ResNet-18 [11]的预训练单帧模型。我们的预测目标是从最浓缩的代表中获得归一化特征，k（x，x′）=exp.x− x′-2σ2、（9）单帧模型的位置（参见第3.1节）。我们训练的目的是160个历元，L2丢失，提前停止，批量大小12，ADAM采用余弦退火（lrmax=5e-4，lrmin= 1 e-7）。Nq= Σp∈D（ X）k（p+ft+ ft[p]，q）.（十）我们评估 F2MF 预测的语义分割任务中的短期（TQT=3帧，180毫秒）和中期（TQT=9帧，540毫秒）的实验。我们报告表达式（8）在计算上比（5）密集得多，但由于分辨率小，它仍然是可行的。所提出的两种特征流公式是完全不同的。前向流（6）与观察到的特征对齐，而对应的后向流（3）与预测的特征对齐。考虑在最后观察到的图像中的某个移动对象处的像素它的前向流是通过查看（卷积地说）当前对象位置来推断的。另一方面，反向流必须查看未来对象的位置。因此，反向流需要更大的感受野才能正确操作后向F2M解决了运动的影响：它通过考虑所有可能观察到的激活来做出决定，这些激活可能因此，如果它的感受野足够大，它就有很好的机会正确解决由于遮挡引起的竞争。另一方面，前向F2M处理运动的原因：它通过考虑观察到的特征激活的运动来做出决定因此，forward F2M能够对可行位移的概率分布进行建模，这可能使其成为多模态未来长期预测的有趣选择。3.5.复合F2MF模型复合F2MF模型将F2M和F2F输出与密集softmax激活权重wF2F和wF2M混合：所有类别的准确度（mIoU All），以及8个具有移动对象的类别（mIoU MO）[18，17]。在一些实验中，我们通过水平翻转和训练元组在视频剪辑上的随机滑动来增加训练数据大多数实验使用向后翘曲，因为效率更高4.1. 与先前技术水平的比较表1比较了我们的F2MF模型与以前的工作城市景观价值。第一部分给出了通常的上界（oracle）和通常的基线（复制最后一个分段）[18]。第二部分显示了LSTM M2M [34]和DeformF2F [28]分别实现最佳短期（67.1 mIoU）和中期（53.6 mIoU）性能的文献结果。最后一节介绍了我们基于DenseNet的F2MF模型，在没有数据增强和有数据增强的情况下进行训练。我们最好的模型在短期和中期预测方面都达到了最先进的水平，同时比两个亚军高出2.5和4.3 mIoU点。4.2. 定性结果图4和图5显示了我们对Cityscapes val的六个片段的短期和中期语义细分预测。前三行显示最后观察到的图像，短期：中期：2000年=9F2MFF2fF2FΣF2m（τ）Xt + X t=w·Xt+ Xt+τwτ·Xt+ τt（11）请注意，F2MF模型重复使用由F2M回归的wF2M的softmax融合模块中有1个卷积层，共享模块中有6个层，F2F和F2M头中有1个层。所有层都是BN-ReLU-dconv，其中dconv代表可变形卷积[40]。我们使用两个辅助损耗LF2M和LF2F，以及复合损失LF2MF，如图所示二、所有的损失都有相同的贡献。4. 实验我们对Cityscapes数据集的精细注释子集进行了实验，其中包含2975个训练，500个验证和1525个测试图像。每个标记图像对应于1.8秒长视频剪辑（30帧）的第20帧准确度（mIoU）所有莫所有莫Oracle75.875.275.875.2复制最后一个分段53.348.739.129.73Dconv-F2F [5]57.0/40.8/Dil10-S2S59.455.347.840.8LSTM S2S [21]60.1///面罩-F2 F [17]/61.2/41.2[37]第三十七话61.5/45.4/贝叶斯S2S [2]65.1/51.2/[28]第二十八话65.563.853.649.9LSTM AM S2S [4]65.8/51.3/LSTM M2M [34]67.165.151.546.3F2 MF-DN 121不含d.a.68.766.856.853.1F2MF-DN121 w/d.a.69.667.757.954.610654表1.评估我们基于DenseNet-121的F2 MF模型对Cityscapesval进行语义分割预测。All表示所有类，MO-移动对象，d.a.- 数据增强。10655τ用预言和我们的F2MF预测叠加的未来图像。最后一个ro w可视化wF2M=1−wF2F=τwF2M，它揭示了特定像素是否F2M（红色）或F2F（蓝色）预测。我们注意到，我们的预测会导致一些细节的损失（参见。类杆和人），但在其他方面是相当准确的。 F2M头在建立对应相对容易的静态区域中是首选（参见红色wF2Min图中的第3、4列4，和图中的列2，4。（五）。F2F头有助于动态场景，并承担以前未观察到的像素的全部责任（参见图2中的蓝色 wF2Min 列 2 。 4 和图 1 中的第 1 、 3 、 6 列。（五）。F2F头的贡献在图1的列1中最清楚可见。五、右边的一辆车离开了现场，同时去除了以前未观察到的大我们的模型将未被遮挡的像素分配给F2F头部，该头部正确地填充道路，人行道和建筑物像素。这表明F2F和F2M相辅相成。4.3. 单框架模型表2探讨了单帧性能对预测精度的影响。我们考虑在最后一个卷积层中具有非常瘦的表示的两个骨干。基于DenseNet-121的模型具有更精确的主干和更宽的金字塔池（C=512与C=128）。这些优势使mIoU提高了3.3 ppOracle短期中期准确度（mIoU）所有莫所有莫所有莫F2MF-RN1872.571.566.965.655.952.4F2MF-DN12175.875.268.766.856.853.1表2.单帧语义分割模型对Cityscapes val预测性能的影响。我们不使用数据增强来加速训练。单帧性能如列2-3所示（斜线）。然而，这种性能增益的一部分不会转移到预测任务上。优势下降到1.8短期为0. 90亿mIoU，中期为0. 90亿mIoU。因此，我们在所有进一步的实验中使用基于ResNet-18的模型，以加快处理速度。4.4. 消融和验证实验表3评估了相关性特征和F2M头的贡献我们首先比较独立的F2F和F2M方法（第1行与第2行，第4行与第5行）。F2F总体上略好（高达1 pp mIoU），除了在具有相关性特征的中期预测中，两种方法表现同样出色。随后，我们探索相关性特征的贡献（第1、2、3行与第4、5、6行）。我们注意到持续的业绩改善，短期为0.8-1.1 pp mIoU，中期为1.7-3.1 pp mIoU复合F2MF模式比独立F2F模式更有优势。最后，我们观察到，复合模型优于独立模型，即使它的容量只是稍微大一点（大多数F2F和F2M功能是共享的）。因此，这种改善可能是由于更强的学习信号。F2 MF优于F2 F，0.4-1.1 pp mIoU（无相关性）和0.6-1.6 pp mIoU（有相关性）。总体而言，相关性特征和F2MF2 MF-RN 18配置F2F F2M相关性短期mIoU所有MO中期mIoU所有MO✓64.863.452.247.6✓65.464.052.848.6✓✓65.864.753.449.7✓✓65.664.454.550.7✓✓66.364.954.550.8✓✓✓66.965.655.952.4表3.Cityscapes上的相关性、F2F和F2M消融独立的F2F和F2M模型独立训练。图4.我们最好的模型的短期准确性这些行包含i）最后观察到的图像，ii）我们的预言，iii）我们的预测，以及iv）wF2M的热图，其中红色表示F2M预测的F2MF偏好。iii）和iii）与未来图像重叠。10656图5. 我们最好的模型的中期精度。这些行包含i）最后观察到的图像，ii）我们的预言，iii）我们的预测，以及iv）wF2M的热图，其中红色表示F2M预测的F2MF偏好。iii）和iii）与未来图像重叠。头部在F2F基线基础上带来显著改善：短期为1.5 pp mIoU，中期超过3 pp mIoU表4比较了独立F2M预测的后向和前向公式，三点四分。前向弯曲使用RBF核，其中σ2=0的情况。一百二十五第一部分显示，有趣的是，这两种方法在标准设置中实现了非常相似的结果。因此，我们在所有其他实验中使用后向公式第二部分考虑F2M模型的一个变体，它只有三个卷积层（而不是八个），并使用规则卷积而不是可变形卷积。这些实验表明，在有限的感受野的情况下，向前弯曲的明显优势，并支持我们的假设，即F2M与向后弯曲需要一个更大的感受野。短期中期准确度（mIoU）所有莫所有莫F2M-BW64.863.452.247.6F2M-FW64.663.252.247.3F2 M-BW（有限射频）60.458.145.437.8F2 M-FW（有限射频）61.259.147.641.1表4.比较向后和向前翘曲的独立F2M预测精度的城市景观价值。F_2M在小感受野实验中具有优势4.5. 不同像素组的F2M与F2F性能表3显示，总体而言，独立F2F优于独立F2M。然而，我们知道F2M在新像素中表现非常差，因此假设F2M在先前观察到的区域中可能优于F2F。因此，我们根据F2M权重wF2M（如F2MF模型所预测的）对像素进行分层，并通过比较10个像素组的预测准确度来测试我们的假设，如图所示。六、x轴显示F2M权重，左侧y轴显示准确度（条形图），而右侧y轴显示像素入射（红线）。我们省略了wF2M=0.05的像素组，因为很少有像素属于那里。像素关联曲线表明，F2MF在大多数像素中相信F2M。这是正确的行为，因为在两个图的右侧部分，独立F2M优于独立F2F（wF2M≥0.75）。然而，F2F模式在硬像素（两个图的左侧部分，wF2M≤0.45）。请注意，在这里，以及在第4.4小节中，我们将-为了避免复合训练的干扰，将F2M和F2F模型分开独立该分析证实了第4.2节的实验，该实验表明F2MF模型成功地在新像素处输出低wF2M，并且在静态场景处输出高wF2M这些权重可以被看作是在特定像素处进行F2M预测的容易程度的代理。因此，这些结果也证实了我们的假设，即这两种方法是相辅相成的。图6. Cityscapes上独立F2F和F2M预测的短期（左）和中期（右）分层比较。我们给出了两个模型的准确度（条形图，mIoU）和跨wF2M箱的F2MF像素发生率（红线，%）。4.6. 特征规范化表5探讨了使用训练集均值和方差进行特征归一化对预测准确性的影响。这有助于优化过程，10657所有的特征图都同样重要。注意，这还需要在上采样路径之前对预测特征进行去规范化标准化使短期和中期的准确性提高了1.4和3.1 pp mIoU。短期中期准确度（mIoU）所有莫所有莫F2MF w/norm。66.965.655.952.4F2MF，无标准。65.564.152.848.1表5.特征归一化对Cityscapes值上F2MF精度的影响。我们把w.r.t.训练均值和方差。4.7. 模型决策图7通过视觉上比较F2 MF和F2 F预测之间的gra-1w.r.t.提供了对F2 MF和F2 F预测输入帧[19]。这些列显示了四个观测帧，以及叠加了地震预报和地面实况的未来帧。我们聚焦于用绿色正方形表示的像素，并通过显示前0.1%最大梯度w.r.t.的位置来解释相应的输入像素（红点）。首先，我们考虑自行车车轮上的像素（行1-2）。F2F梯度以不规则的方式在整个自行车和背景上传播（行1），而F2MF梯度集中在最后一帧中的车轮位置周围（行2）。其次，我们考虑一个背景像素，这是由自行车运动的disoccluded。F2F模型试图通过在最后一帧中环顾骑自行车的人来从上下文重建预测。另一方面，F2MF模型成功地检测到场景的该部分实际上已经在最远的过去帧中被观察到因此，它通过简单地将相应的表示复制到未来来执行预测。5. 结论我们提出了一种新的特征级预测方法，该方法通过对过去和未来之间的因果关系进行建模来规范推理。所提出的F2M（特征到运动）预测比经典的F2F（特征到特征）方法更好地推广在许多（但不是全部）图像位置中。我们通过将F2M和F2F预测与密集回归的权重因子混合，实现了两全其美。由此产生的F2MF模型远远超过了Cityscapes数据集上最先进的语义分割预测。据我们所知，这是第一次使用相关性特征进行语义预测。我们的实验表明，这些功能带来了明显的优势，在所有三个特征级的方法：F2F，F2M和F2MF。我们已经考虑了两个F2M变量相对于翘曲方向。具有前向弯曲的F2M在具有小感受野的设置中表现更好，并且允许对运动不确定性进行概率然而，具有向后翘曲的F2M在我们的常规设置中同样推广良好。尽管取得了令人鼓舞的成果，但现实世界的应用还需要大量的未来工作。特别是，我们的方法不解决多模态未来，这是长期预测和最坏情况推理的关键其他合适的扩展包括克服端到端培训的障碍，应用于其他任务和RGB预测，以及执行时间一致性。确认这项工作得到了Rimac Automobili的资助，并得到了欧洲区域发展基金的支持，该基金的赠款为KK. 01.1. 1. 01. 0009 DATACROSS。我们的部分实验实现受益于[3，25]。图7.用绿色方块表示的两个像素中的F2F（行1，3）和F2MF（行2，4）判定的解释我们考虑自行车上的像素（行1-2）和无遮挡背景上的像素（行3-4）。这些列显示了四个输入帧、预测的语义图和覆盖了未来帧的地面实况红点显示绿色像素max-log-softmax w.r.t.的顶部梯度输入.10658引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会lstm：人类在拥挤的空间轨迹预测在IEEE计算机视觉和模式识别会议论文集，第961-971页，2016年。1[2] Apratim Bhattacharyya，Mario Fritz，and Bernt Schiele.使用合成似然的未来街道场景的贝叶斯预测。在2019年学习代表国际会议一、二、五[3] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu ， Jiarui Xu ， Zheng Zhang ， Dazhi Cheng ，Chenchen Zhu ， Tian-heng Cheng ， Qijie Zhao ， BuyuLi，Xin Lu，Rui Zhu，Yue Wu，Jifeng Dai，JingdongWang ， Jianping Shi ， Wanli Ouyang ， Chen ChangeLoy，and Dahua Lin.MM检测：打开mmlab检测工具箱和基准测试。arXiv预印本arXiv：1906.07155，2019。8[4] 陈欣和韩雅红。用于场景解析预测的多时间尺度上下文编码在2019年IEEE多媒体和博览会国际会议（ICME）上，第1624- 1629页IEEE，2019。一、二、五[5] Hsu-Kuang Chiu，Ehsan Adeli，and Juan Carlos Niebles.分割未来。CoRR，abs/1904.10666，2019。二三四五[6] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 32135[7] Camille Couprie，Pauline Luc，and Jakob Verbeek.联合未来语义和实例分割预测。在ECCV研讨会上预测人类行为，第154-168页，2018年。二、三[8] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在IEEE计算机视觉国际会议的论文集，第2758-2766页，2015年。二、四[9] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。卷积双流网络融合视频动作识别。在2016年IEEE计算机视觉与模式识别会议上，CVPR 2016，美国内华达州拉斯维加斯，2016年6月27日至30日，第1933-1941页，2016年。3[10] Raghudeep Gadde，Varun Jampani，and Peter V.盖勒通过表示变形的语义视频cnn。在IEEE国际计算机视觉会议，ICCV 2017，意大利威尼斯，2017年10月22日至29日，第44632[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。5[12] 高煌，刘庄，劳伦斯·范德马腾，和Kilian Q.温伯格密集连接的卷积网络-工程.在2017年IEEE计算机视觉和模式识别会议上，CVPR 2017，檀香山，HI，美国，2017年7月21日至26日，第2261-2269页，2017年。5[13] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.流动网络2.0：使用深度网络进行光流估计的进展。在IEEE计算机视觉和模式识别会议上，2017年7月。4[14] Xiaojie Jin，Huaxin Xiao，Xiaohui Shen，Jimei Yang，Zhe Lin，Yunpeng Chen，Zequn Jie，Jiashi Feng，andShuicheng Yan.预测未来的场景解析和运动动态。神经信息处理系统进展，第6915-6924页，2017年。第1、3条[15] 伊万·克雷索、约瑟普·克拉帕克和西尼萨·塞格维奇。用于大型自然图像语义分割的梯形密集网在2017年IEEE计算机视觉研讨会国际会议上，ICCV研讨会2017年，意大利威尼斯，2017年10月日，第238IEEE计算机学会，2017年。4[16] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.基于流的静态图像时空视频预测在欧洲计算机视觉会议（ECCV）的会议记录中，第6003[17] 宝琳·卢克，卡米尔·库普里，扬·勒昆，雅各布·维尔贝克. 通过预测卷积特征来预测未来的实例分割在欧洲计算机视觉会议（ECCV）的会议记录中，第584-599页二三四五[18] Pauline Luc，Natalia Neverova，Camille Couprie，JakobVer-beek，and Yann LeCun. 预测语义分割的未来。在IEEE国际计算机视觉会议，第648-657页，2017年一、二、五[19] Wenjie Luo ， Yujia Li ， Raquel Urtasun ， and RichardZemel.理解深度卷积神经网络中的有效感受野。神经信息处理系统的进展，第4898-4906页，2016年。8[20] Michael Mathieu，Camille Couprie，and Yann LeCun.超越均方误差的深度多尺度视频预测。arXi

下载后可阅读完整内容，剩余1页未读，立即下载