ACBnicdVDLSgMxFL3js9ZX1aWbYBHqZpiq2HZXFMRlBfuAdiyZNOGZjJDkhHK0L2f4FY/wJ249Tdc+yNm2gpa9UDgcM693JPjRZwp7Tjv1sLi0vLKamYtu76xubWd29ltqDCWhNZJyEPZ8rCinAla10xz2okxYHadMbXqR+845KxUJxo0cRdQPcF8xnBGsj3XYCrAcE8+RyXIiOurm8Y1cqZ06pjH6Tou1MkIcZat3cR6cXkjigQhOlWoXnUi7CZaEU7H2U6saITJEPdp21CBA6rcZJ6jA6N0kN+KM0TGk3U7xsJDpQaBZ6ZTFOqeS8V/Q8L5g7rf2ymzARxZoKMr3sxzpEKWdoB6TlGg+MgQTyUx4RAZYqJNc1nTytfX0f+kcWwXT2zn+jRfPZ/1k4F9OIACFKEVbiCGtSBgIQHeIQn6956tl6s1+nogjXb2YMfsN4+AQowmcA=AB+XicdVDLSgNBEJz1GeMr6tHLYBA8LbsqJrkFvXhMwDwgWcLspDcZMjO7zMwKYckXeNUP8CZe/RrP/oiTh6BRCxqKqm6u8KEM208791ZWV1b39jMbeW3d3b39gsHh0dp4pCg8Y8Vu2QaOBMQsMw6GdKCAi5NAKRzdTv3UPSrNY3plxAoEgA8kiRomxUj3pFYqeW6lceaUy/k1815uhiBao9Qof3X5MUwHSUE607vheYoKMKMoh0m+m2pICB2RAXQslUSADrLZoRN8apU+jmJlSxo8U79PZERoPRah7RTEDPWyNxX/9MJQLK02UTnImExSA5LON0cpxybG0xhwnymgho8tIVQxezymQ6INTasvE3l63X8P2meu/6F69Uvi9XrRT45dIxO0BnyUQlV0S2qoQaiCNADekRPTuY8Oy/O67x1xVnMHKEfcN4+AXjElHk=ACBnicbVDLSsNAFJ3UV62vqEsRBluhgpSkC3VZdOPCRQX7gCaUyWTSDp1M4sxEKErN/6KGxeKuPUb3Pk3TtIutPXAMIdz7uXe7yYUaks69soLC2vrK4V10sbm1vbO+buXltGicCkhSMWia6HJGUk5aipFuLAgKPUY63ugq8zsPREga8Ts1jokbogGnAcVIalvHlagEyI1xIilN5Oqc58g/xTm3wms9M2yVbNywEViz0gZzNDsm1+OH+EkJFxhqTs2Vas3BQJRTEjk5KTSBIjPEID0tOUo5BIN83PmMBjrfgwiIR+XMFc/d2RolDKcejpymxlOe9l4n9eL1HBhZtSHieKcDwdFCQMqghmUCfCoIVG2uCsKB6V4iHSCsdHIlHYI9f/Iiadr9lnNvq2XG5ezOIrgAByBKrDBOWiAa9AELYDBI3gGr+DNeDJejHfjY1paMGY9+APjM8f7xSXfg=ACBnicbVDLSsNAFJ3UV62vqEsRBluhgpSkC3VZdOPCRQX7gCaUyWTSDp1M4sxEKErN/6KGxeKuPUb3Pk3TtIutPXAMIdz7uXe7yYUaks69soLC2vrK4V10sbm1vbO+buXltGicCkhSMWia6HJGUk5aipFuLAgKPUY63ugq8zsPREga8Ts1jokbogGnAcVIalvHlagEyI1xIilN5Oqc58g/xTm3wms9M2yVbNywEViz0gZzNDsm1+OH+EkJFxhqTs2Vas3BQJRTEjk5KTSBIjPEID0tOUo5BIN83PmMBjrfgwiIR+XMFc/d2RolDKcejpymxlOe9l4n9eL1HBhZtSHieKcDwdFCQMqghmUCfCoIVG2uCsKB6V4iHSCsdHIlHYI9f/Iiadr9lnNvq2XG5ezOIrgAByBKrDBOWiAa9AELYDBI3gGr+DNeDJejHfjY1paMGY9+APjM8f7xSXfg=ACBnicbVDLSsNAFJ3UV62vqEsRBluhgpSkC3VZdOPCRQX7gCaUyWTSDp1M4sxEKErN/6KGxeKuPUb3Pk3TtIutPXAMIdz7uXe7yYUaks69soLC2vrK4V10sbm1vbO+buXltGicCkhSMWia6HJGUk5aipFuLAgKPUY63ugq8zsPREga8Ts1jokbogGnAcVIalvHlagEyI1xIilN5Oqc58g/xTm3wms9M2yVbNywEViz0gZzNDsm1+OH+EkJFxhqTs2Vas3BQJRTEjk5KTSBIjPEID0tOUo5BIN83PmMBjrfgwiIR+XMFc/d2RolDKcejpymxlOe9l4n9eL1HBhZtSHieKcDwdFCQMqghmUCfCoIVG2uCsKB6V4iHSCsdHIlHYI9f/Iiadr9lnNvq2XG5ezOIrgAByBKrDBOWiAa9AELYDBI3gGr+DNeDJejHfjY1paMGY9+APjM8f7xSXfg=ACBnicbVDLSsNAFJ3UV62vqEsRBluhgpSkC3VZdOPCRQX7gCaUyWTSDp1M4sxEKErN/6KGxeKuPUb3Pk3TtIutPXAMIdz7uXe7yYUaks69soLC2vrK4V10sbm1vbO+buXltGicCkhSMWia6HJGUk5aipFuLAgKPUY63ugq8zsPREga8Ts1jokbogGnAcVIalvHlagEyI1xIilN5Oqc58g/xTm3wms9M2yVbNywEViz0gZzNDsm1+OH+EkJFxhqTs2Vas3BQJRTEjk5KTSBIjPEID0tOUo5BIN83PmMBjrfgwiIR+XMFc/d2RolDKcejpymxlOe9l4n9eL1HBhZtSHieKcDwdFCQMqghmUCfCoIVG2uCsKB6V4iHSCsdHIlHYI9f/Iiadr9lnNvq2XG5ezOIrgAByBKrDBOWiAa9AELYDBI3gGr+DNeDJejHfjY1paMGY9+APjM8f7xSXfg=33650比较对应关系:具有一一对应损失的视频预测0Daniel Geng Max Hamilton Andrew Owens0密歇根大学0摘要0图像预测方法在需要改变物体位置的任务上经常遇到困难,例如视频预测,会产生模糊的图像,这些图像平均了物体可能占据的许多位置。在本文中,我们提出了对现有图像相似度度量方法的简单改进,使其对位置误差更加鲁棒:我们使用光流匹配图像,然后测量对应像素的视觉相似度。这种改变可以产生更清晰、更符合感知的预测结果,并且不需要对图像预测网络进行修改。我们将我们的方法应用于各种视频预测任务,在简单的网络架构下获得了强大的性能,并应用于与之密切相关的视频插值任务。代码和结果可在我们的网页上找到:https://dangeng.github.io/CorrWiseLosses01. 引言0近年来,图像预测取得了重大进展[6, 11, 38, 46,71],然而这些方法在成功改变图像结构方面经常遇到困难。因此,涉及修改物体位置或形状的任务,如视频预测和与之密切相关的视频插值问题,仍然是具有挑战性的开放问题。通常,对于物体应该位于何处存在基本的不确定性。当发生这种情况时,模型往往会产生模糊的结果。这种不希望的行为通常是由损失函数所鼓励的。在简单的像素级损失函数(如L1距离)下,每个错误定位的像素都与属于不同物体的像素进行比较,从而产生较大的惩罚。使用这些损失训练的模型因此通过对物体可能占据的所有可能位置进行平均来进行“对冲”,从而导致损失较低的图像。我们从经典的图像匹配方法(如Hausdorff匹配[4, 36]和可变形部件模型[21,22,26])中汲取灵感,这些方法通过允许输入图像在比较之前经历小的空间变形来解决这个问题。在测量一个0输入视频0下一帧0的下一帧0F(p)0p0L(,)0L(,)0图1.一一对应的损失。我们提出了一种相似度度量方法,可以对小的位置误差提供鲁棒性,并将其应用于图像生成。我们通过光流将预测图像和真实图像进行对应,然后测量每个像素p及其匹配像素F(p)之间的相似度。我们的度量方法可以产生清晰的预测结果;它惩罚模糊、模棱两可的图像,例如这里显示的图像,因为它们不能与真实图像轻松对应起来。0在比较两个图像时,这些方法首先通过光流对它们进行几何对齐,从而对位置或形状的小变化具有鲁棒性。类似地,我们提出了对现有损失的简单改变,使其对小的位置误差更加鲁棒。在比较两个图像时,我们使用光流将它们进行对应,然后测量匹配像素对之间的相似性。因此,图像之间的比较是在像素对之间进行的。33660与其说是像素,不如说是位于相同空间位置的像素(图1),即损失是通过对应关系计算的,而不是像素级别的。尽管简单,我们提出的“损失扩展”可以产生更清晰、更符合人眼感知的预测结果。为了获得低损失,预测的图像必须通过光流与地面真实图像进行匹配:目标图像中的每个像素都需要在预测图像中找到高质量的匹配,反之亦然。模糊的预测往往会获得高损失,因为它们与地面真实图像之间没有简单、平滑的光流场来建立对应关系。该损失还鼓励将物体放置在正确的位置,因为位置错误会导致质量较差的匹配和遮挡内容,这两者都会受到惩罚。由于光流匹配发生在损失函数内部,我们的方法不需要改变网络本身的设计。这与流行的基于光流的视频预测架构[27, 39, 58,106]不同,后者在网络内部产生变形场,然后通过对输入帧进行变形生成图像。我们通过多种方式证明了我们方法的有效性:•我们通过对各种视频预测任务进行实验表明,我们的方法显著提高了感知图像质量。我们的评估研究了各种损失函数,包括L1和L2距离以及感知损失[28,42]。这些损失在与自我驾驶数据集[13,29]上的对应预测配对时产生更好的结果。•我们在KITTI[29]和Cityscapes[13]上的感知质量指标上,比基于光流的最先进视频预测方法[95]取得了更好的视频预测结果,尽管我们使用的是简单的现成网络架构。•我们将我们的损失应用于与之密切相关的视频插值任务[45],在这个任务中,我们获得了比仅使用L1损失更好的结果。•我们还展示了我们的方法如何改善随机的变分自动编码器(VAE)视频预测架构[15, 88]的性能。02. 相关工作0视频预测。早期的视频预测工作使用循环网络来建模长期依赖关系[44, 64, 65, 80,83]。最近的工作集中在使用大型卷积网络进行逼真的视频预测。Lotter等人[60]提出了一种预测编码方法,并将其应用于驾驶视频。Wang等人[92]预测了未来的语义分割地图,然后将其转化为图像。其他工作使用对抗性损失[50, 52,92],多尺度模型[62]和具有上下文聚合的循环网络来提高图像质量。这些方法与我们的方法相辅相成,因为我们的损失是建立在这些方法之上的。0与体系结构无关。其他工作使用视频预测方法进行基于模型的强化学习[23, 30,68]。最近,Jayaraman等人[40]提出了时间不可知的预测,使模型能够灵活地预测视频中的任何未来帧。我们的方法提出了类似的机制,但是在空间上而不是在时间上。另一方面,一些工作通过随机模型(如变分自动编码器(VAEs)[48])来解决视频预测中的不确定性挑战,这些模型学习了全部结果的分布,然后进行采样[1, 15,100]。值得注意的是,Denton和Fergus[15]引入了一种使用学习的先验分布的循环变分自动编码器。这项工作后来由Villegas等人[88]进行了扩展,引入了架构变化并显著增加了模型的规模,取得了令人印象深刻的结果。CastrejÂon等人[10]还观察到高容量模型改善了生成结果。其他工作引入了组合模型[102]和稀疏预测[31, 33,91]。我们的方法与这一系列工作相辅相成;在我们的实验中,我们在基于VAE的视频预测[15,88]中使用我们的损失获得了好处。0基于流的视频预测。许多视频预测方法不直接输出图像,而是预测每个像素的光流,然后通过对输入图像进行变形合成结果。在早期的工作中,Patraucean等人[72]使用卷积递归网络预测光流。Liu等人[58]预测了一个三维时空流场。Gao等人[27]使用光流回归运动作为伪地面真值,修复遮挡,并使用语义分割。后来,Wu等人[95]扩展了这种方法,将预测条件限制在模型分割和跟踪的物体轨迹上。最近的工作使用了其他的运动表示,如将场景分解为静止和移动的组成部分[14, 87, 89],每像素核[24, 49, 67, 74,90]或欧拉运动[57]。在3D视图合成中采用了一种类似的方法,称为外观流[69, 69,106]。由于这些方法只能“复制和粘贴”现有内容,它们需要特殊的架构来考虑去遮挡和光度变化。例如,最先进的方法[27,95]具有运动估计层,通过空间变换器[39]内部执行变形,并使用单独的修复模块[55,103]来处理去遮挡。由于我们的方法只改变了损失函数,原则上可以与这些架构结合使用。0感知损失。减少模糊的一种方法是使用感知损失,这在视频预测[11, 27, 95]中常用[28,42]。这些方法利用了用于目标识别的不变性,以提供对小的位置误差的鲁棒性。然而,由于目标识别模型只学习了部分不变性,当位置误差超过几个像素时,会产生与简单的基于像素的损失相同的模糊伪影。在我们的33670实验证明,应用我们的方法可以减少这种模糊。0光流。我们的方法使用光流获取每个像素的对应关系。为了解决这个任务,Lucas和Kanade[2,61]做出了亮度恒定的假设并解决了一个线性化模型。Horn和Schunck[34]随后提出了一个用于预测光流的平滑先验。这种方法被扩展为使用鲁棒估计方法[7, 20, 53,81]。更近期的方法使用了通过监督学习[25, 35, 37, 73, 82,84, 101]或无监督学习[5, 43, 56, 75, 94,104]训练的CNN。Teed和Deng[84]提出了一种用于逐步改进光流场的架构。虽然这些方法在帧间找到了时空对应关系,但我们使用它来找到生成图像和真实图像之间的对应关系。这样,我们的工作与使用光流进行其他任务的方法相关,例如匹配场景[54]、特征[97]或物体[66, 77, 105]。0可变形匹配。我们的方法受到了图像匹配中经典工作的启发,特别是Chamfer[4]和Hausdorff[36]匹配。这些方法在比较之前将模板与图像对齐,从而提供了对小的位置误差的鲁棒性。类似的方法已经在图像检索[85]和基于部分的目标检测[21, 22, 26,107]中使用。单张图像深度估计在其损失函数中使用了类似的不变性,如尺度或空间[18,19]。与这些工作类似,我们允许图像在比较之前发生变形,但我们是为了合成而不是匹配或检测。0视频帧插值。帧插值与视频预测面临许多相同的挑战,因为对象的位置和运动通常是不确定的。为了解决这个问题,提出了各种依赖于光流[3, 41, 51, 70,98]、深度[3]或图像核[12,51]的模型。最近,Kalluri等人[45]提出了一种用于插值的3DCNN。我们通过引入我们的损失来增强这个架构,并展示了性能的提升。03. 逐对对应的图像预测0我们的目标是解决在物体位置存在不确定性的图像预测任务。为了解决这个问题,我们提出了一种提供小位置错配鲁棒性的“损失扩展”。给定两个图像x和ˆx,传统的像素级损失(例如,图像之间的L1距离)可以写成:0L P ( x , ˆ x ) =1 |P|0p ∈P L ( x p , ˆ x p ) , (1)0其中L是基本损失(例如,一对像素强度的L1),xp是x中位置p处的像素颜色,P是所有像素索引的集合。0算法1以类似PyTorch风格的伪代码训练图像预测方法,使用逐对对应的L1损失。0# 从加载器中加载包含源图像和目标图像的小批量数据(im_src, im_tgt)0# 使用网络预测图像 im_est =predict_image(im_src)0# 在两个方向上估计光流 F_est = optical_flow(im_tgt, im_est)F_tgt = optical_flow(im_est, im_tgt)0# 正则化流 F_est = (1 - epsilon) * F_estF_tgt = (1 - epsilon) * F_tgt0# 使用双线性滤波进行变形 warp_est =warp(im_est, F_est) warp_tgt = warp(im_tgt,F_tgt)0# 使用现有损失函数进行双向损失 loss1 = l1_loss(im_tgt, warp_est) loss2= l1_loss(im_est, warp_tgt) loss = loss1 + loss20loss.backward()0warp:使用光流场进行双线性变形。0在我们的方法中,与像素级损失中相同索引的像素进行比较不同,我们首先使用光流计算图像之间的像素对像素的对应关系F(x,ˆx)。然后我们将每个像素xp与其对应的像素ˆxF(p)进行比较,其中F(p)是流场匹配的ˆx中的像素。这个损失可以写成:0L C ( x , ˆ x ) =1 |P|0p ∈P L ( x p , ˆ x F ( p ) ) ,(2)0我们将得到的损失称为逐对对应的损失。例如,当L =L1时,我们称之为逐对对应的L1损失。该损失在图1中进行了说明。我们首先详细介绍了损失的实现细节,然后在第3.3节中研究了其性质。包括以下所有实现细节的完整方法的伪代码在Alg. 1中提供。03.1. 正则化0流场缩放。在训练过程中,最小化方程2的模型可能会陷入局部最优解,特别是在图像对于流网络来说是域外的早期阶段。此外,变形过程将对象“吸附”到其真实位置,使模型难以推断在生成的图像中放置对象的位置。为了解决这些问题,我们引入了流场的小乘性衰减:FR(x1, x2) = (1 -ϵ)F(x1,x2)。这减少了长距离匹配,同时鼓励模型将对象放置在目标图像中更接近其真实位置的地方。在每个训练步骤中,如果模型将一个错误放置的对象稍微靠近其真实位置,它可以减少其损失。我们使用ϵ =0.1,并将这种正则化策略称为流场缩放。0替代方法。我们还考虑了一种受Chamfer距离[4]和光流平滑性[43, 81]启发的替代正则化策略,直接惩罚LC(x, ˆx) ≈ L(x, warp(ˆx, F(x, ˆx))),(4)33680L10相关 L1020%运动范围 30%运动范围0(a)不同损失下的平均图像(b)损失 vs. 物体偏移0图2. 位置误差对不同损失的影响。 (a)我们展示了在玩具视频预测任务中最小化预期误差的图像。汽车的位置在中心周围均匀随机采样(图像宽度的20%或30%)。汽车位置的完整范围由黑色条表示。请注意,L1损失的预测模糊,特别是对于30%的设置,而逐对对应的L1损失的预测在两种情况下都很清晰。 (b)我们研究了损失随位置误差(即预测对象与其真实位置的距离)的变化。逐对对应的损失随误差的大小平滑增加。0每个像素在光流场中移动的距离。使用这种方案时,我们的正则化项为 L reg ( u ) = λ 1 || u || 2 + λ 2 L edge ( � u ) ,(3)0其中 L edge是Jonschkowski等人的边缘感知一阶平滑惩罚项,� u是光流梯度,λ i是权重。尽管我们发现这种方法在某些应用中很有效,但我们发现光流缩放通常表现更好,并且需要更少的超参数(见第4.1.3节)。03.2. 实现细节0寻找对应关系。为了找到 F ( x , ˆ x ) ,我们使用RAFT[84],一个预测密集对应关系的光流网络。此外,我们还发现其他模型也有效,例如PWC-Net[82](见第4.1.3节)。变形公式。方程2可以通过迭代像素位置、计算 F ( p )、计算距离,然后求平均来计算。然而,在实践中,我们将我们的方法实现为图像变形,然后进行逐像素损失计算:0其中 warp(ˆ x , u ) 是使用变形场 u进行的反向变形。直观地说,变形操作将像素与其对应关系对齐,然后我们可以应用现有的损失函数。这种形式使得将现有的损失函数(例如在补丁上操作的感知损失[42])转化为对应关系损失变得简单,只需进行变形然后应用损失。对称性。为了使损失对称,我们遵循基于匹配的损失函数的常见做法[36],使用 L sym = L C ( x , ˆ x ) + L C (ˆ x , x )。这样可以避免模型产生多余的内容。0防止生成在目标图像中没有对应关系的多余内容。03.3. 分析对应关系预测0为了帮助理解对应关系损失如何解决位置不确定性的挑战,我们分析了它在几个简化的玩具预测任务上的行为。0运动不确定性。我们创建了一个具有位置不确定性的简单预测任务。在图2中所示的示例中,一个物体以未知速度水平移动到靠近图像中心的一个区域内的位置均匀分布。我们询问在不同损失下的最佳预测是什么。对于损失 L,这是使期望损失 E x �D [ L ( x , x )] 最小化的图像 x,其中 D 是图像分布。我们使用随机梯度下降找到 x。对于 L = L 1 ,得到的图像会模糊1。相比之下,我们基于对应关系的 L 1损失会得到一个锐利的预测,物体位于分布的中心位置。更一般地,我们的损失倾向于偏好对一个位置进行明确预测而不是模糊的预测。这是因为:(i)模糊的预测比通过平滑的光流场进行匹配更困难,(ii)远离正确位置的图像更难匹配。相同的行为也发生在感知损失和其他场景上(见附录)。0位置误差的影响。接下来,我们想知道损失对位置的敏感性如何。例如,一个懒惰的预测方法是否可以将物体放在错误的位置,然后通过光流“修复”错误,即仅重复视频预测模型的方法。01我们注意到,L1损失有一个解析解,即中值,我们的随机梯度下降结果得到了这个解。AB/3icbVC7SgNBFL0bXzG+VgUbm8FEISwm0ItgzYWKSKYByTLMjuZTYbMPpiZFcKawl+xsVDE1t+w82+cTbQxAMDh3Pu5Z45XsyZVJb1bRWVtfWN4qbpa3tnd09c/+gLaNENoiEY9E18OSchbSlmK024sKA48Tjve+CbzOw9USBaF92oSUyfAw5D5jGClJdc8qjRcG52jfoDViGCeNqZujCquWbaq1gxomdg5KUOpmt+9QcRSQIaKsKxlD3bipWTYqEY4XRa6ieSxpiM8ZD2NA1xQKWTzvJP0alWBsiPhH6hQjP190aKAykngacns5hy0cvE/7xeovwrJ2VhnCgakvkhP+FIRSgrAw2YoETxiSaYCKazIjLCAhOlKyvpEuzFLy+Tdq1qX1Ttu1q5fp3XUYRjOIEzsOES6nALTWgBgUd4hld4M56MF+Pd+JiPFox85xD+wPj8AYdrlIM=L1 + LpAB7XicbVA9T8MwEL2Ur1K+CowsFi0SU5V0AMYKFgaGItEPqY0qx3VaU8eObAepivofWBhAiJX/w8a/wWkzQMuTnp6705394KYM21c9sprK1vbG4Vt0s7u3v7B+XDo7aWiSK0RSXqhtgTkTtGWY4bQbK4qjgNOMLnJ/M4TVZpJ8WCmMfUjPBIsZAQbK7WrdwMPVQfliltz50CrxMtJBXI0B+Wv/lCSJKLCEI617nlubPwUK8MIp7NSP9E0xmSCR7RnqcAR1X46v3aGzqwyRKFUtoRBc/X3RIojradRYDsjbMZ62cvE/7xeYsIrP2UiTgwVZLEoTDgyEmWvoyFTlBg+tQTxeytiIyxwsTYgEo2BG/5VXSrte8i5p3X680rvM4inACp3AOHlxCA26hCS0g8AjP8ApvjnRenHfnY9FacPKZY/gD5/MH2OqN/g=L1AB/3icbVC7SgNBFL0bXzG+VgUbm8FEISwm0ItgzYWKSKYByTLMjuZTYbMPpiZFcKawl+xsVDE1t+w82+cTbQxAMDh3Pu5Z45XsyZVJb1bRWVtfWN4qbpa3tnd09c/+gLaNENoiEY9E18OSchbSlmK024sKA48Tjve+CbzOw9USBaF92oSUyfAw5D5jGClJdc8qjRcG52jfoDViGCeNqZujCquWbaq1gxomdg5KUOpmt+9QcRSQIaKsKxlD3bipWTYqEY4XRa6ieSxpiM8ZD2NA1xQKWTzvJP0alWBsiPhH6hQjP190aKAykngacns5hy0cvE/7xeovwrJ2VhnCgakvkhP+FIRSgrAw2YoETxiSaYCKazIjLCAhOlKyvpEuzFLy+Tdq1qX1Ttu1q5fp3XUYRjOIEzsOES6nALTWgBgUd4hld4M56MF+Pd+JiPFox85xD+wPj8AYdrlIM=L1 + LpAB7XicbVA9T8MwEL2Ur1K+CowsFi0SU5V0AMYKFgaGItEPqY0qx3VaU8eObAepivofWBhAiJX/w8a/wWkzQMuTnp6705394KYM21c9sprK1vbG4Vt0s7u3v7B+XDo7aWiSK0RSXqhtgTkTtGWY4bQbK4qjgNOMLnJ/M4TVZpJ8WCmMfUjPBIsZAQbK7WrdwMPVQfliltz50CrxMtJBXI0B+Wv/lCSJKLCEI617nlubPwUK8MIp7NSP9E0xmSCR7RnqcAR1X46v3aGzqwyRKFUtoRBc/X3RIojradRYDsjbMZ62cvE/7xeYsIrP2UiTgwVZLEoTDgyEmWvoyFTlBg+tQTxeytiIyxwsTYgEo2BG/5VXSrte8i5p3X680rvM4inACp3AOHlxCA26hCS0g8AjP8ApvjnRenHfnY9FacPKZY/gD5/MH2OqN/g=L133690地面真实像素级对应关系级0地面真实像素级对应关系级0KITTI0Caltech0图3.使用对应关系损失和不使用对应关系损失的下一帧预测结果。我们在KITTI和Caltech数据集上展示了L1+Lp和L1结果,由最左边的列表示。我们突出显示了每个结果的一个值得注意的部分。使用对应关系损失可以得到更清晰的细节(例如更清晰的道路线)和更强大的对大运动的鲁棒性。0我们将损失可视化为物体位置误差的函数,即如果物体相对于其真实位置预测了给定的偏移量,则会产生的损失。为了减少背景的影响,我们对大量背景的结果进行了平均(详见附录)。我们可以看到,事实上,我们的损失随着位置偏移的增加而稳步增加。此外,全局最小值保持不变。我们发现了三个原因:(i)几乎任何错误的预测都会产生遮挡或多余内容,从而产生较大的损失。(ii)当使用流正则化时,模型会明确地对错误的预测进行惩罚。(iii)光流估计中的隐式平滑先验权衡了重建误差和小的简单运动;流方法倾向于选择产生较大重建误差的匹配项,而不是具有较大流值的匹配项。04. 结果0我们的目标是了解对应点损失与像素级损失的区别,并评估它们的有效性。为此,我们在视频预测和帧插值上进行实验。我们在各种任务、数据集、架构和指标上对像素级和对应点损失进行了对比实验。此外,我们将使用我们的损失训练的模型与最先进的方法进行了比较。0KITTI Cityscapes Caltech0基本损失 Corr. SSIM ↑ LPIPS ↓ 2AFC ↑ SSIM ↑ LPIPS ↓ SSIM ↑ LPIPS ↓0L1 - 0.563 0.438 13.52 0.820 0.231 0.733 0.250 L1 � 0.586 0.359 14.25 0.8190.198 0.734 0.2160L22 - 0.544 0.499 13.36 0.801 0.291 0.701 0.330 L22 � 0.563 0.403 15.16 0.8120.212 0.707 0.2490L1 + Lp - 0.545 0.213 14.46 0.816 0.092 0.717 0.139 L1 + Lp � 0.548 0.191 20.190.810 0.090 0.702 0.1410表1.像素级与对应点损失对比。我们将对应点损失与像素级损失进行比较,展示了其在KITTI、Cityscapes和Caltech上的有效性。第二列表示是否使用对应点损失。2AFC是在真实或伪造的研究中,人类选择生成的视频而不是真实视频的比率。04.1. 视频预测0模型。我们考虑确定性和随机性视频预测架构。为了简化,我们的确定性模型基于Wang等人的广泛使用的残差网络[32, 42],但我们用3D卷积[9,86]替换2D卷积以处理时间信息,并用上采样后跟2D卷积来替换转置卷积以避免棋盘格伪影(详见附录中的完整网络架构)。多帧预测通过将输出图像递归地反馈到模型中进行,就像[27, 60,95]中一样。我们使用的随机模型是SVG模型的介绍33700由Denton和Fergus[15]提出的CNN,具有学习先验和LSTM层。此外,我们采用了Villegas等人提出的SVG模型的扩展[88],从而得到了一个我们称之为SVG++的模型。这是一个大规模模型,相比SVG具有架构改进,并在KITTI数据集上取得了强大的性能。根据Villegas等人的方法,我们通过添加卷积LSTM层[78]来修改SVG,尽管我们保留了[15]中的L2损失(详见附录)。由于我们的目标是了解对应点损失的影响,而不是获得最先进的性能,我们的模型基于中等规模的变体,具有超参数K = 2和M = 2[88],它在普通的多GPU计算基础设施上具有强大的性能。对于光流估计,我们使用RAFT [84],使用在Flying Chairs[17]和FlyingThings[63]上训练的公开可用的检查点。虽然使用在KITTI[29]的驾驶视频上训练的版本可能会提高我们的结果,但我们选择在实验中不这样做,以避免使用领域特定的监督。损失。我们使用三种基本损失:1)L1损失,2)MSE损失(L22),以及3)与感知损失Lp相等权重的L1损失(L1 +Lp),其中使用了在ImageNet特征上预训练的VGG-19[42, 76,79]。指标。为了评估预测结果,我们使用SSIM、LPIPS和两种选择强迫选择的人类研究(详见附录)。数据集。我们在三个标准视频预测数据集上进行评估:KITTI[29]、Caltech Pedestrian [16]和Cityscapes[13](详见附录)。04.1.1像素损失与对应损失0为了理解我们扩展的像素损失的效果,我们使用三个不同的基本损失(L1、L2 2(MSE)和L1 +Lp)训练视频预测模型,从三个先前帧预测三个未来帧,并使用这两种损失进行评估。在KITTI数据集上以512×256的分辨率进行评估,在Caltech上为384×288,在Cityscapes上为512×256,所有情况下都使用三帧输入。为了与KITTI实验保持一致,我们以每秒10帧的频率采样Caltech数据集,与Lotter等人的方法[60]相同。此外,对于L1 +Lp损失,我们在一个epoch中使用像素损失进行预热启动,这显著提高了收敛性。结果可以在表1中找到。对比损失的对应损失在几乎所有指标、数据集和损失上都优于像素损失。此外,我们在所有场景中都看到了定性结果的显著改进,如图3所示。4.1.2与最先进方法的比较0我们遵循Wu等人的评估协议[95],使用KITTI和Cityscapes数据集,并与一些最近的视频预测方法进行比较:0Voxel Flow[58]是一种基于3D时空流的运动合成方法,MCnet[89]是一种卷积LSTM模型,可以分解静止和移动组件,Vid2Vid[92]是一种两阶段方法,首先合成语义掩码,然后将掩码转换为真实图像,OMP[95]是一种结合了复制粘贴预测、修复、物体跟踪、遮挡估计和对抗训练的最先进方法。我们还展示了使用基于像素的卷积架构PredNet[60]的结果,该架构受到了预测编码的启发。我们注意到这些架构是专门针对视频预测任务设计的,可能相对复杂。例如,OMP使用现成的实例分割和语义分割网络[96,108]、修复网络[103]和背景预测网络。它还以光流作为输入[82],跟踪物体,并使用对抗训练。相比之下,我们对一个简单的图像预测网络在使用我们的损失时的表现很感兴趣。根据Wu等人的方法[95],我们在KITTI上使用832×256的图像,在Cityscapes上使用1024×512的图像,使用相同的训练测试划分和数据增强,并将我们的模型条件化为输入视频的四帧,并在KITTI上预测五个未来帧,在Cityscapes上预测十个未来帧。我们使用带有L1 +Lp对应损失的ResNet变体。尽管我们的方法很简单,但我们发现它在两个指标(SSIM和LPIPS)上都明显优于基于复杂流的架构的先前方法(表2)。我们的简单架构使用对应损失训练,在所有时间步骤上始终获得更高的分数。在图4中,我们展示了我们的模型生成的三个信息丰富的定性结果,与OMP生成的帧进行了比较。我们在每个视频中突出显示了具有挑战性的区域。与我们的模型相比,OMP通过使用预测的光流场对输入图像进行变形,当存在错误时会产生变形伪影。在这里,当小物体经历大运动(例如第一个视频中的杆)和不规则几何(例如第二个视频)时,OMP会出现问题。有趣的是,两个模型在不连续区域(例如第一个视频中的汽车)都会产生错误。04.1.3其他消融实验0我们对网络架构、正则化方案和流方法进行了额外