基于一维注意力和相关性的高分辨率光流估计方法

201 浏览量更新于2023-10-13 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10498×基于一维注意力和相关性的高分辨率光流徐浩飞1* 杨娇龙2蔡剑飞3张居庸1童欣21中国科学技术大学2微软亚洲研究院3莫纳什大学{xhf@mail.，juyong @} ustc.edu.cn{jiaoyan，xtong}@ microsoft.com jianfei. monash.edu摘要光流本质上是一个2D搜索问题，因此计算复杂度相对于搜索窗口呈二次增长，使得大位移匹配对于高分辨率图像不可行。在本文中，我们从变压器的启发，并提出了一种新的方法，高分辨率的光流估计与显着减少计算。具体地，首先在目标图像的垂直方向上应用1D关注操作，然后在关注图像的水平方向上进行简单的1D相关能够实现2D对应建模效果。注意力和相关性的方向也可以交换，从而产生两个3D成本体积，其被连接用于光流估计。新颖的1D配方使我们的方法能够扩展到非常高分辨率的输入图像，同时保持竞争力的性能。Sintel，KITTI和现实世界的4K（2160 - 3840）分辨率的图像上进行了广泛的实验证明了我们所提出的方法的有效性和优越性。代码和型号可在https://github.com/haofeixu/flow1d 上获得。1. 介绍光流估计是计算机视觉中的经典主题，是各种现实世界应用的基本构建块，例如3D重建[22]、视频处理[20]和动作识别[31]。深度学习的最新进展使得能够使用神经网络直接进行光流学习[18]。通过进一步改进架构和训练策略，与传统的基于优化的方法[13，46，33，29，44，3]相比，基于深度学习的方法[18，34，35，43，37]表现出更强的性能和更快的推理速度基于深度学习的光流框架中的一个重要组成部分是成本体积[14]，其通常通过两个特征向量之间的点积运算（也称为相关性[10]）来计算。它储存了火柴-*工作主要在MSRA实习期间完成，由JY图1：光流因子分解。我们因式分解的二维光流与一维的注意力和相关性在正交方向上实现大位移搜索高分辨率图像。具体地，对于蓝点的对应（红点），我们首先执行1D垂直注意力以将红点的信息传播到绿点，绿点位于蓝点的同一行。然后，可以应用水平方向上的简单1D相关性垂直成本量同样可以通过切换注意力和相关方向来导出计算源图像中的每个像素与其在目标图像中的潜在对应候选之间的成本通过显式地构建对搜索空间进行编码的成本体积层，网络学习更好地推理相对像素位移，如FlowNetC比没有这样的层的FlowNetS的优越性能所示[10，18]。FlowNetC [10]中的原始成本体积以单一尺度构建，并且由于相对于搜索窗口的二次复杂性，难以对大位移进行建模。PWC-Net [34]通过在中构建多个部分成本卷来迁移此问题由粗到细的翘曲框架。然而，从粗到细的方法往往会错过小物体，因为它们在高度下采样的粗尺度中可能不可见，因此几乎没有机会被正确估计[29，32，3]。此外，扭曲可能会在遮挡区域中引入伪影[24]，这可能会阻碍网络学习正确的对应关系。10499××××× ××× × ××O × × × O × ××××× ××× ××当前最先进的光流方法RAFT [37]保持单分辨率特征图，并以迭代方式逐渐估计流更新，消除了先前粗到细框架的若干限制。RAFT中的一个关键组件是通过计算所有对的相关性而获得的4D成本体积（H W HW）。由于这样一个大的成本卷，UME，RAFT实现既定的基准惊人的性能。然而，由于相对于图像分辨率的二次复杂性，4D成本体积要求使得难以缩放到非常高分辨率的输入尽管可以通过对下采样图像进行处理来部分地缓解这个问题，但是一些细粒度的细节，这对于某些场景（例如，球类运动和自动驾驶汽车），将不可避免地在这样的过程中迷失。此外，随着消费级高清晰度相机的普及，访问高分辨率视频比以前容易得多，这相应地提高了能够以高效率处理这种高分辨率视频的需求为此，我们提出了一种新的高分辨率光流估计的成本量的建设方法我们的关键思想是将2D搜索分解为垂直和水平方向的两个1D替代品，这样我们就可以使用1D相关性来构建紧凑的成本卷。直观地，这样的1D相关性是不够的光流估计，这是一个固有的2D搜索问题。然而，如图所示。1，如果我们可以沿着方向或正交于相关方向传播目标图像上的信息，则计算的成本体积将包含源像素与其对应物之间的有意义的相关性。这种洞察力促使我们设计适当的功能传播和聚合方案的一维相关性。受Transformers [38]的启发，我们建议使用注意力机制来学习这种传播，其中我们首先将1D自我注意力应用于源特征（图中未显示）。1为简洁起见），然后在源和目标特征之间的1D交叉注意（见图1）。（3）第三章。我们的1D公式产生两个大小为（H W）的3D成本体积W）和（HWH），其然后被级联用于随后的光流回归。通过这种方式，我们将所有对相关性[37]的复杂性从（ H W H W ）降低到（ H W（H+W）），使我们的方法能够以显著更少的计算扩展到非常高的分辨率输入。例如，我们的方法消耗6少内存比RAFT 1080 p（1080 - 1920）的视频。我们还展示了真实世界的4K（2160 - 3840）分辨率图像的流结果，我们的方法可以在具有32 GB内存的GPU上处理超过8 K（4320 - 7680）分辨率的图像。同时，对Sintel [4]和KITTI [26]的评估表明，我们的方法的准确性仅略差于RAFT，但优于其他方法，如FlowNet 2 [18]和PWC-Net [34]。我们的贡献可归纳如下：• 我们探索了一种创新的成本量构造方法，它与现有的所有方法有着根本的不同。• 我们表明，使用1D相关性构建的成本体积，尽管有点反直觉，可以实现惊人的流量估计精度，与现有技术水平相当。• 我们的方法是稍微逊色RAFT相比，在准确性方面，但享有显着更少的内存消耗，使我们能够处理非常高分辨率的图像（超过8 K分辨率（4320 -7680）在我们的实验）。2. 相关工作光流传统上被表述为优化问题[13，3]。在[33]中可以找到对传统方法的全面比较和在本节中，我们主要从不同的角度回顾了最近的基于学习的方法。成本量。成本体积的概念可以追溯到立体匹配文献[14，30]。成本卷存储不同像素位移候选的匹配成本（即，立体中的视差）。因此，它是立体匹配中的3D张量（H W D），其中D是最大视差范围。成本体积用作搜索空间的判别表示，并且可以采用强大的优化方法来过滤离群值，因此它通常会导致准确的结果[12，14]。成本体积的有效性也有利于光流界，无论是传统的[6，42]还是基于学习的方法[10，34，43，24，47，37]。然而，与立体中的1D视差不同，光流中的搜索空间是2D的，因此导致4D成本体积（HW（2R+1）（2R+1））对于搜索半径R，这对于搜索半径R是计算昂贵的。大位移。为了缓解这个问题，流行的策略是使用粗到细的翘曲方案[2，34，43，47]。然而，由粗到细的方法往往会错过快速移动的小物体[29，24，37]。最近，RAFT [37]提出通过计算所有空间相关性来构建4D成本体积（H W H W）。尽管RAFT具有最先进的性能，但由于二次复杂度，它固有地受到输入分辨率的约束。相比之下，我们建议分解的二维光流与一维的注意力和相关性，导致显着降低的复杂性，并允许我们处理更大的图像分辨率。流量回归图。性能最佳的基于学习的光流方法大多具有类似的结构：从粗略的流量估计开始，然后逐渐改进初始预测[17]。它们大致可分为两类：非迭代法和迭代法10500×−图2：我们的框架概述。给定一对源图像和目标图像，我们首先利用共享的骨干网络提取8个下采样特征。然后使用这些特征来分别构建具有垂直关注、水平相关性和水平关注、垂直相关性的两个3D成本量。两个成本卷，然后级联光流回归，其中我们采用RAFT在多次迭代之后，可以获得最终的光流预测。更多详情可在第二节中找到。4.第一章耗氧物质这里，我们使用“非迭代”来表示细化网络具有自己的可训练权重，而“迭代”表示网络权重在每个细化阶段共享。代表性的非迭代框架包括FlowNet 2[18]，PWC-Net [34]及其变体[16，45，43，47]。[2017- 02 -17][2017 - 02 -17][2017 - 02][2017 - 02 - 17][2017 -02][2017 - 02 - 02][2017 - 02 - 02][2017 - 02] 17：00：00]典型的迭代方法。IRR-PWC共享卷积解码器以在具有有限次数的迭代的粗到细帧中估计流，而RAFT使用ConvGRU [8]并将该架构应用于大量迭代（10+）。在本文中，我们验证我们建议的成本量结构方法与RAFT但在理论上，我们的关键思想是正交的流回归方案采用。注意力机制。注意力机制在建模长距离依赖关系方面取得了显著的成功。然而，它有一个重要的限制，即计算复杂度相对于输入大小呈二次方增长。由于大量的图像像素，当将注意力应用于视觉任务时，这个问题变得更加严重。大量的工作试图通过稀疏连接模式[7]、低秩近似[40]或递归操作[9]来降低注意力的复杂性。有效注意机制的全面综述见[36]。在这些方法中，也许与我们的视觉最相关的是CCNet [15]和Axial-Deeplab [39]，这两种方法都使用两个1D自我注意力进行全局依赖。dency建模与CC-Net和Axial-Deeplab中的自注意不同，我们使用1D交叉注意和一对源图像和目标图像之间的1D相关性来实现大位移对应搜索。此外，在我们的情况下，输出是成本量，以显式地对匹配成本进行建模，而CCNet和Axial-Deeplab输出特征图。3. 光流分解光流本质上是一个2D搜索问题，但由于相对于搜索窗口的二次复杂性，在2D图像空间上直接搜索对于非常大的位移在例如，对于搜索范围[ 50，50]，潜在搜索空间可以高达10× 4像素。这个问题对于高分辨率图像来说更加明显。为了使高分辨率图像上的光流估计如示于图1、为了实现蓝点和红点之间的二维对应建模效果，我们可以先将红点的信息传播到与蓝点位于同一行的绿点。然后沿水平方向的1D搜索可以捕获红点的信息。鉴于此，我们建议在正交方向上用1D注意力[38]和1D相关性[10]分解2D光流，以实现高分辨率图像上的大位移搜索。具体来说，我们首先执行10501∈Σ···−···−N∈L图3：在目标图像特征的垂直聚合过程中的自我注意和交叉注意的图示为了将红点的信息（蓝点然后在源和目标之间执行1D垂直交叉关注，其中绿点接收以紫点特征为条件垂直方向上的1D注意力，其计算相同列中的像素的加权组合然后在水平方向上的简单的1D相关可以实现2D搜索效果。所得到的成本体积是3D的，类似于立体方法[25，41]。通过交换注意力和相关性的方向，我们可以获得另一个3D成本体积。这两个成本量被连接用于光流回归（参见图11）。2）的情况。接下来，我们将详细介绍我们的水平成本量结构，其中包含1D垂直关注和1D水平相关性。其垂直对应物可以类似地导出。对于源图像I1和目标图像I2，首先使用共享卷积主干来提取特征（参见图1B）。2），然后我们在特征级构造成本量。3.1. 1D注意使用源要素和目标要素F1、F2RH× W × D，其中H，W，D表示高度，宽度和特征尺寸，在这方面，我们的目标是生成一个新的特征F2，其中每个特征向量都知道点的特征在F2中位于同一列。这样，我们就可以沿着水平方向执行简单的1D搜索，以实现2D对应建模效果。具体地，我们将F？2定义为以下的线性组合：来自F2的列式特征：H−1F2（h，w）= fi，h，wF2（i，w），（1）i=0时其中h=0，1，，H1，w=0，1，，W1，F2（h，w）是位置（h，w）处的输出特征向量，fi，h，w是组合权重。我们提法的关键在于如何图4：垂直方向的一维交叉注意力计算图位置编码P被添加到输入特征。两个1×1卷积用于学习而“”表示最后两个维度上的矩阵乘法。对最后一个维度执行softmax操作。矩阵尺寸用灰色字体表示，注意时进行适当整形。以找到可以适当地聚合列信息以帮助随后的1D对应搜索的fi，h，w（图2）。①的人。受Transformers [38]在建模远程依赖关系方面的成功启发，我们建议使用注意力机制来学习组合系数。然而，与计算所有成对相似性的原始注意力不同，我们仅以轴对齐的方式执行1D注意力。如示于图注意操作的目标是将红点（蓝点的对应）的信息传播到与蓝点位于同一行的绿点上。为了实现这一点，一个简单的解决方案是在源和目标的同一列之间应用1D交叉注意操作，以使目标特征聚合依赖于源特征。然而，源图像中的同一列可能不包含相应的像素（蓝点），从而难以学习正确的聚合。为了解决这个问题，我们首先在计算交叉注意力之前在源特征的水平方向上执行1D自注意力操作，交叉注意力传播源特征的信息。将源图像上的对应点映射到整行。一维垂直交叉注意的计算图如图所示4.第一章输入是自关注源特征和原始目标特征。我们还在注意力计算中引入了位置信息PRH×W ×D，其中P是与DETR [5]相同的固定二维位置编码我们首先使用两个1×1卷积来投影注意力的重量。” denotes element-wise10502××××××W−1√×ˆ× ××∈−××××D××ˆH−1Σ···− − −······−·2一个重塑目标的恐惧-C（h，w，R+r）=DF1+P和F2+P到嵌入空间F<$1和F<$2中. 然后，垂直方向上的注意力矩阵可以通过首先将F1和F2整形为W来获得HD和WDH，然后执行矩阵最后两个维度上的乘法，这导致W H H矩阵。通过用softmax函数对最后一个维度进行归一化，我们得到了注意力矩阵A∈RW×H×H。最后参加的功能F可以COM-在垂直方向上跨越图像高度，在水平方向上跨越最大搜索半径R。因此，垂直注意和水平相关的理论搜索范围是H（2R+1）。同样，在进行横向关注和纵向关联时，我们可以获得另一种成本体积C~∈RH×W×（2R+1），其中1Σ在最后两个维度上的真实（W×H×D）通过重塑j=0（四）所得的WHD矩阵到HWD，我们得到最终特征F2。在1D交叉注意操作之后，F？2中的每个位置已经编码了位置的信息它们在同一列中该过程可以类似地应用于一维水平自注意计算，通过用源特征替换目标特征并在宽度维度上执行矩阵乘法。3.2. 一维相关使用垂直聚集特征F？2，我们可以沿着水平方向执行简单的1D搜索以构建3D成本体积CRH×W ×（2R+1），类似于立体方法[25，41]。我们用R表示沿水平方向的搜索半径，我们有在这种情况下，理论搜索范围是W（2R+1）。连接这两个成本体积导致形状为HW2（2R+1）的成本体积，并且理论搜索范围变为（2R+1）（H+ W）（2R+1）2，其中（2R+1）2是这两个成本体积的重叠区域。作为比较，以前的基于局部窗口的ap-方法[10，18，34]通常构造形状为HW（2R+1）2的成本体积，并且搜索范围为（2R+1）2。因此，我们的方法享有更大的理论搜索范围，同时保持一个小得多的成本体积。4. 流程回归框架我们使用RAFT框架[37]验证了我们提出的成本量构建方法的有效性作为插图-图中的12，我们首先提取8×下采样特征C（h，w，R+r）=√DF1（h，w）·F2（h，w+r）（2）其中·表示点积运算符，r ∈ {−R，−R +1，···，0，···，R − 1，R}，√1是一个归一化因子，以避免点积后的大值[38]。在我们在一个实施方式中，我们预先计算大小为Hff的3D成本体积W通过在宽度维度上执行F1和F2之间的矩阵乘法。然后是Eq的等价形式。可以通过对具有搜索半径R的3D成本体积执行查找操作来获得（2）。虽然我们只执行1D的相关性，我们的方法可以模型的2D对应由于注意操作。具体来说，我们的成本量构造法的理论搜索范围是（2R+1）（H+W）−（2R+源和目标图像，然后构建两个3D成本量与我们在第二节中提出的方法。3 .第三章。接下来，迭代地应用共享更新算子来估计流更新。在每次迭代时，将通过查找具有当前流量估计的3D成本体积来生成一组相关值。还利用RAFT之后的附加网络从源图像中提取上下文特征，其在图1中被省略。2为简洁起见。然后，将这些数据与估计的流量和上下文特征一起馈送到ConvGRU单元以产生流量更新，该流量更新被添加到当前流量估计。在我们的框架中，查找操作是通过用当前流对预先计算的成本量进行索引来定义的估算具体地，如果当前流量估计为f=1）2.这可以通过替换Eq来证明。（1）到Eq. （二）：（f，f），则查找中心变为（h+f，w+f）Xy y xC（h，w，R+r）=1F（h，w）·ΣfF（i，w+r）对于像素位置（h，w）。我们在R并获得两个3D成本体积（H×W×（2R+1）），其√D11H−1=√i=0时i，h，w+r2i=0时fi，h，w+r[F1（h，w）·F2（i，w+r）]，（三）被连接用于光流回归。我们注意到，相关性查找等效于Eq.（2）通过将相关中心修改为（h + f y，w +f x）。5. 实验其中fi，h，w+r是用第二节中的1D注意力操作定义的。第3.1条根据等式1中的项F1（h，w）F2（i，w +r），（3）其中i=0，1，H1，且r=R，R+1，，0，，R1，R，我们可以看到位置（h，w）的搜索范围D乘矩阵法fj，h+r，w [F1（h，w）·F2（h+r，j）].10503数据集和评估设置。我们考虑两种评估设置，遵循先前的方法[18，34，37]。首先，我们在FlyingChairs[10]和FlyingTh-ings 3D [25]数据集上预训练我们的模型，然后评估交叉数据集10504- -(a) 源图像（b）帧步幅1（c）帧步幅3（d）帧步幅6（e）帧步幅9图5：1D垂直注意力的可视化。我们固定源图像（5a）并且从具有逐渐增加的帧步幅的视频序列中选择目标帧（5 b-5e）绿色行像素的注意力权重被可视化到图像上其示出了注意力通常集中在相关像素上（例如，移动的头）。(a)帧步幅1（b）帧步幅3（c）帧步幅6（d）帧步幅9图6：1D水平注意力的可视化。可以观察到类似的现象，如图1所示。五、Sintel（列车，清洁）成本量EPEEPE（x）EPE（y）yattn，xcorr3.101.662.12x发送，y校正 4.053.551.13联系双方1.981.480.94表1：横向（x）和纵向（y）成本量分析。EPE（x）和EPE（y）分别表示水平和垂直流分量的终点误差Sintel [4]和KITTI [26]训练集的泛化能力。其次，我们对Sin- tel和KITTI训练集进行额外的微调，然后在在线基准上进行评估。终点误差（EPE）在评价中报告。对于KITTI，还报告了另一个评估度量F1-all，其表示所有像素的异常值的百分比对于消融研究，我们还使用不同运动幅度的EPE，以更好地了解性能增益。具体来说，我们使用s0−10，s10−40和s40+来表示速度在010，10 40和超过40像素的区域上的EPE。对于非常高分辨率图像的实验，我们混合 FlyingThings3D ，Sintel，HD1K [21]和Slow Flow [19]数据集进行额外的微调。实作详细数据。我们在PyTorch [27]中实现了我们的框架，并使用AdamW [23]作为优化器。我们遵循RAFT[37] 进行数据集调度和训练超参数。首先在FlyingChairs数据集上进行100K次迭代的训练，然后在FlyingThings3D数据集上进行另外100K次我们还对Sintel和KITTI数据集执行特定于数据集的微调对于训练，我们使用12次迭代进行流回归。为了评估Sintel和KITTI的迭代次数分别设置为32成本体积查找中的搜索范围R被设置为32，其对应于原始图像分辨率中的256个像素。更多的实施细节在补充材料中介绍。5.1. 分析消融研究。我们首先分析了我们在Tab中提出的方法中二、当不使用1D自我和交叉注意力时，我们的成本体积降低到纯垂直和水平1D搜索，这显然会丢失太多信息[1]。结果，性能下降很多。我们还注意到，从不同运动幅度的详细metrics，我们的完整模型显示出显着的改善大运动（s40+），demonstrating所提出的方法的有效性，为大位移。我们还评估了计算交叉注意权重时自我注意的有效性。通过执行1D自关注，2D像素关系被更准确地建模，从而导致更好的结果。同时，在注意力计算中使用的位置编码是有帮助的，正如以前的工作[38，5]所证明的那样。我们还分析了每个3D成本卷在Tab中的作用。1.一、我们观察到，水平或垂直流的性能与相关方向相耦合。水平成本量主要负责水平流估算，垂直成本量也是如此。将这两个成本量连接起来，可以为网络提供必要的信息，用于估计水平和垂直流分量。注意力可视化。为了更好地理解我们提出的方法是如何工作的，我们进一步可视化了学习到的1D交叉注意力。对于1D垂直注意力，10505××××方法Sintel（train，clean）Sintel（train，final）KITTI（train）EPE s0−10s10−40 40岁以上 EPEs0−10s10−40s40+EPE s0−10s10−40 s40+F1-全部不自交2.94 1.75 4.65 24.96 4.72 2.43 6.69 30.27 14.01 0.99 3.87 29.06 38.25表2：我们的成本体积设计的消融研究模型在FlyingChairs和FlyingThings3D上进行训练方法 Sintel（列车）KITTI（列车）参数448×1024 1088 ×1920清洁最终EPE F1-所有存储器时间（ms）存储器时间（ms）[第37话]1.432.715.0417.405.26M0.48GB948.33GB393[18]第十八话2.023.1410.0630.37162.52M1.31GB1863.61GB496PWC-Net [34]2.553.9310.3533.679.37M0.86GB241.57GB84Flow1D1.983.276.6922.955.73M0.34GB791.42GB332表3：在FlyingChairs和FlyingThings3D数据集上训练后的评估。在V100 GPU上，对448×1024和1088×1920分辨率下的内存和推理时间进行了测试，RAFT和本文方法的迭代次数为12次。3530252015105图像大小（假设高度等于宽度）图7：内存消耗与输入分辨率RAFT和我们的方法。红色叉号表示RAFT会导致高分辨率输入出现内存不足错误，即使在32GB GPU上也是如此。注意力图具有形状H W H，其包括每个像素的垂直注意力权重。我们取一行像素，并在图中将它们的垂直注意力 5，同样的水平注意图。六、为了研究注意图如何随时间变化，我们选择不同帧步长的目标帧进行比较。观察到学习的注意力是相当稀疏的，并且一般集中在最相关的像素上，验证了我们所提出的方法的工作机制。5.2. 与现有成本量的为了证明本文提出的成本量构建方法的优越性，我们从不同方面与现有的成本量进行了全面的Setup. 我们主要比较了三种有代表性的成本量构建方法：FlowNet 2 [18]的单尺度成本量，用堆叠网络进行细化; PWC-Net [34]的具有粗到细框架的多个小成本体积和RAFT [ 37 ]的4D成本体积来迭代地估计光流。在FlyingChairs和FlyingThings3D数据集上训练后评估性能。Sintel和KITTI结果。表3示出了综合评价结果。在精度方面，我们的方法高于FlowNet 2和PWC-Net，特别是在KITTI数据集上，但不如RAFT。详尽地构建大的4D成本体积确实有利于在RAFT中获得高度准确的流，而我们的3D成本体积可能具有丢失相关像素的风险。这种现象可以在图1B中的学习注意力图的可视化中部分地观察到。图5和图6：虽然大多数像素能够找到正确的对应关系，但注意力地图中几乎没有导致丢失像素的噪声。更好的注意力矩阵计算设计可能会进一步提高性能。然而，我们的方法表现出更高的效率比RAFT在内存消耗和推理速度。对于高分辨率，图像.例如，在1088 ×1920图像分辨率下，我们的方法比RAFT1消耗的内存少6倍。高分辨率结果。我们进一步展示了一些高分辨率（1080）的视觉比较1920）戴维斯[28]图中的数据。8.我们可以使用RAFT实现类似的结果，同时消耗的内存减少6倍我们也1注意：尽管RAFT可以通过在每次迭代时使用定制的CUDA实现重新构建成本量来减少内存，但实际上推理时间会大幅增加（慢4倍）筏Flow1D内存（GB）无自身2.15一点四四3.83 20.87 3.54 2.16 5.49 25.29 8.67 0.89 2.49 17.82 27.25无位置1.981.493.8019.65 3.61 2.49 5.61 25.45 7.71 0.84 2.31 15.49 25.37Flow1D1.981.683.9218.86 3.27 2.06 5.18 23.76 6.69 0.80 2.18 13.41 22.9510506×OO××××Sintel（火车）Sintel（试验）KITTI（F1-all）方法清洁最终清洁的终（火车）（测试）[18]第十八话（1.45）（2.01）4.16 5.74（6.8）11.48PWC-Net+[35]（1.71）（2.34）3.45 四块六毛（第5.3条）7.72HD3 [45]（1.87）（1.17）4.79 4.67（4.1）6.55VCN [43]（1.66）（2.24）2.81 四点四分（4.1）6.30MaskFlowNet [47]--2.52 4.17-6.10[第37话]（0.77）（1.27）1.61 2.86（1.5分）5.10Flow1D（0.84）（1.25）2.24 3.81（1.6）6.27表4：Sintel和KITTI数据集上的基准性能。括号中的数字是对方法进行微调的数据的结果。显示了4K（2160 3840）分辨率图像上的其他结果。9，由于内存消耗巨大，RAFT无法处理。我们实现了令人满意的光流估计，而消耗只有5.8GB的内存。更多的结果可以在补充材料中找到。可扩展性。我们进一步比较我们的方法与RAFT的可扩展性。对于大小为H W D的输入特征图，在RAFT [37]中构建4D成本体积的计算复杂度为（（HW）2D）。作为比较，我们的是两个3D成本卷的（HW（H+W）D）我们在图中测量了不同输入分辨率下的实际内存消耗。7，我们的方法能够扩展到超过8K分辨率（43207680，内存消耗为21.81GB）的图像，而RAFT即使在具有32GB内存的高端GPU上也会迅速导致内存不足问题，证明了我们方法的优越性。5.3. 基准测试结果辛特尔为了提交到Sintel数据集，我们对混合的KITTI[11，26]，HD1K [21]，FlyingThings3D [25]和Sintel [4]数据集进行微调，以进行100K迭代。评价结果见表。4.第一章我们的方法仅次于RAFT，优于之前的代表性方法，如PWC-Net [34]和FlowNet 2 [18]。凯蒂我们进一步对KITTI 2015训练集进行了微调，以进行50K次迭代。表4示出了评价结果。我们的方法性能优于PWC-Net+，但略低于MaskFlowNet，这可能是由于KITTI数据集的有限训练数据造成的6. 结论我们提出了一种新的高分辨率光流估计的成本体积的建设方法。通过使用1D注意力和1D相关性对2D光流进行因子化，我们能够扩展到8K以上的分辨率图像，同时保持竞争性能。我们希望我们的新视角能促进未来成本的研究图8：DAVIS数据集的高分辨率（1080 1920）图像我们实现了与RAFT相当的结果，同时消耗的内存少6倍图9：DAVIS数据集4K分辨率（2160×3840）图像的光流预测结果。体积压缩和高效的高分辨率光流估计。谢谢。这项工作得到了国家自然科学基金（第1998号）的部分支持。62122071）、中国科学院青年创新促进会（编号：Flow1D图像筏105072018495）和中央高校基础研究基金（编号：2018495）。WK3470000021）。10508引用[1] 尼古拉·安科纳和托马索·波焦。来自1-D相关性的光流：应用于一个简单的碰撞时间检测器。InternationalJournal of Computer Vision，14（2）：131-146，1995。6[2] ThomasBrox ， Andre 'sBruhn ， NilsPapenberg ，andJoachimWeickert.基于翘曲理论的高精度光流估计。欧洲计算机视觉会议，第25-36页。Springer，2004. 2[3] 托马斯·布洛克斯和吉坦德拉·马利克大排量光学流量：变分运动估计中的描述符匹配。IEEE Transactions onPattern Analysis and Machine Intelligence，33（3 ）：500-513，2010. 一、二[4] Daniel J Butler 、 Jonas Wulff 、 Garrett B Stanley 和Michael J Black。一个用于光流评估的自然开源电影。欧洲计算机视觉会议，第611-625页。Springer，2012.二、六、八[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。arXiv预印本arXiv：2005.12872，2020。四、六[6] Qifeng Chen和Vladlen Koltun。全流：通过规则网格上的全局优化进行在IEEE计算机视觉和模式识别会议的论文集，第4706-4714页2[7] Rewon Child ， Scott Gray ， Alec Radford ， and IlyaSutskever. 用稀疏变换器生成长序列。 arXiv 预印本arXiv：1904.10509，2019。3[8] KyunghyunCho，BartVanMerrieenboer，DzmitryBahdanau，and Yoshua Bengio.关于神经机器翻译的特性：编码器-解码器方法。arXiv预印本arXiv：1409.1259，2014。3[9] Zihang Dai ， Zhilin Yang ， Yiming Yang ， JaimeCarbonell，Quoc V Le，and Ruslan Salakhutdinov.变压器-xl：超越固定长度上下文的注意语言模型。arXiv预印本arXiv：1901.02860，2019。3[10] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在 IEEE InternationalConference on Computer Vision的Proceedings，第2758-2766页，2015年。一、二、三、五[11] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。IEEE计算机视觉和模式识别会议论文集，第 3354-3361 页。IEEE，2012。8[12] 海科·赫希穆勒基于半全局匹配和互信息的立体图像处理 IEEE Transactions on Pattern Analysis and MachineIntelligence，30（2）：328-341，2007. 2[13] Berthold KP Horn和Brian G Schunck。确定光学流量。图像理解的技术和应用，第281卷，第319-331页。国际光学与光子学学会，1981年。一、二[14] Asmaa Hosni ， Christoph Rhemann ， Michael Bleyer ，Carsten Rother，and Margrit Gelautz.快速的成本-体积过滤，用于视觉对应和超越。IEEE Transactions onPattern Analysis and Machine Intelligence，35（2 ）：504-511，2012. 一、二[15] Zilong Huang，Xinggang Wang，Lichao Huang，ChangHuang，Yunchao Wei，and Wenyu Liu. Ccnet：Criss-cross attention for semantic segmentation.在IEEE计算机视觉国际会议论文集，第603-612页，2019年。3[16] Tak-Wai Hui，Xiaoou Tang，and Chen Change Loy. Lite-flownet：用于光流估计的轻量级卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第8981- 8989页3[17] Junhwa Hur和Stefan Roth。联合光流和遮挡估计的迭代残差细化。在IEEE计算机视觉和模式识别会议论文集中，第5754-5763页，2019年。二、三[18] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变。在IEEE计算机视觉和模式识别会议的论文集，第2462-2470页，2017年。一二三五七八[19] Joel Janai、Fatma Guney、Jonas Wulff、Michael J Black和Andreas Geiger。慢流：利用高速摄像机获得准确多样的光流参考数据。在IEEE计算机视觉和模式识别会议的论文集，第3597-3607页，2017年。6[20] Huaiizu Jiang ， Deqing Sun ， Varun Jampani ， Ming-Hsuan Yang，Erik Learned-Miller，and Jan Kautz.超级斯洛莫：用于视频内插的多个中间帧的高质量估计。在IEEE计算机视觉和模式识别会议论文集，第9000- 9008页，2018年。1[21] Daniel Kondermann ， Rahul Nair ， Katrin Honauer ，Karsten Krispin ， Jonas Andrulis ， Alexander Brock ，BurkhardGusse- feld ， Mohsen Rahimimoghaddam ，Sabine Hofmann，Claus Brenner，et al. HCI基准测试套件：城市自动驾驶的不确定性立体和流动地面实况。在IEEE计算机视觉和模式识别研讨会会议论文集，第19-28页，2016年。六、八[22] Zhengqi Li ， Tali Dekel ， Forrester Cole ， RichardTucker，Noah Snavely，Ce Liu，and William T Freeman.通过观察冷冻人来学习感动人的深度在IEEE计算机视觉和模式识别会议的论文集，第4521-4530页1[23] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重

下载后可阅读完整内容，剩余1页未读，立即下载