基于Patchmatch的深度逆向光流估计方法

63 浏览量更新于2023-10-25 收藏 20.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

89250DIP: 高分辨率光流的深度逆向Patchmatch0郑子华 1 聂妮 1 凌智 1 熊鹏飞 2 刘江宇 1 王浩 1 李建坤 101 Megvii 2 腾讯0{zhengzihua, nieni, lingzhi, liujiangyu, wanghao03, lijiankun}@megvii.com0xiongpengfei2019@gmail.com0摘要0最近，密集相关体积方法在光流方面取得了最先进的性能。然而，相关体积计算需要大量内存，这使得在高分辨率图像上进行预测变得困难。在本文中，我们提出了一种新颖的基于Patchmatch的框架，用于高分辨率光流估计。具体而言，我们引入了第一个端到端的基于Patchmatch的深度学习光流。它可以通过Patchmatch的传播和局部搜索获得高精度的结果，并从中受益于较低的内存消耗。此外，我们提出了一种新的逆传播方法，将传播的复杂操作解耦，可以显著减少多次迭代中的计算量。在提交时，我们的方法在流行的KITTI2015[28]基准测试中在所有指标上排名第一，在Sintel[7]清晰基准测试中的EPE排名第二，超过了已发表的光流方法。实验证明我们的方法具有很强的跨数据集泛化能力，F1-all达到了13.73%，比KITTI2015上最佳发表结果17.4%降低了21%。此外，我们的方法在高分辨率数据集DAVIS[1]上显示出良好的细节保留结果，并且内存消耗比RAFT[36]少2倍。代码将在github.com/zihuazheng/DIP上提供。01. 引言0光流是描述两个连续图像之间亮度模式的视觉运动的二维位移场[13]，它提供了有关被观察对象的空间排列和排列变化速率的有价值信息[39]。自从Horn和Schunck（HS）[13]以及Lucas和Kanade（LK）[25]在1981年提出了微分方法来计算光流以来，已经提出了许多扩展算法[22,30,42]。因此，光流已被广泛应用于各种应用，如视觉监控任务[43]、分割[38]、动作识别[31]、障碍物检测[12]和图像序列超分辨率[26]。0(a) 图像0(b) RAFT [36]0(c) SCV [19]0图1.在DAVIS数据集的高分辨率（1080×1920）图像上的比较。与RAFT和SCV相比，我们的方法在更低的内存消耗下实现了更好的细节。0最近，深度学习在解决光流问题方面取得了巨大进展。自从FlowNetC[10]之后，许多方法已经达到了最先进的结果。对于深度学习来说，除了准确性之外，性能和内存也是挑战，特别是在高分辨率下预测光流时。为了减少计算复杂度和内存使用量，之前的方法[16-18，34，46]使用了粗到细的策略，但可能会遇到低分辨率错误恢复问题。为了在大位移上保持高准确性，特别是对于快速移动的小目标，RAFT[36]构建了一个全对全的4D相关体积，并使用卷积GRU块进行查找。然而，当预测高分辨率光流时，它会遇到内存问题。为了在保持高准确性的同时减少内存使用量，我们引入了Patchmatch的思想来计算相关性。Patchmatch实现了一种随机初始化、迭代传播和搜索算法，用于近似最近邻场估计[5,6,14]。它只需要在附近的像素上执行相关计算，并将其成本信息传播到下一个匹配。89260迭代地通过匹配点来更新，而无需构建全局匹配代价。因此，Patchmatch算法极大地减少了由相关体积引起的内存开销。此外，Patchmatch中的迭代传播和搜索可以通过GRU[36]轻松实现。为此，我们提出了一种基于Patchmatch的光流框架，可以在保持高准确性的同时有效减少内存。它包含两个关键模块：传播模块和局部搜索模块。传播模块有效地减小了搜索半径，局部搜索模块加速了收敛并进一步提高了准确性。同时，我们通过自适应层迭代实现了高精度光流的高分辨率预测。此外，我们提出了一种新的逆传播方法，提前偏移和堆叠目标块。然后，与每次传播都需要偏移和变形的传播相比，它只需要进行一次变形，从而显著减少了计算时间。我们在具有挑战性的Sintel [7]和KITTI-15[28]数据集上展示了我们的方法。我们的模型在KITTI-15上排名第一，在Sintel-Clean上排名第二。图1显示了我们的Deep Inverse Patchmatch(DIP)的结果。与之前的方法[20,36]相比，DIP在内存使用最低的情况下保持了最佳效果。同时，我们的方法在不同数据集上具有很强的泛化能力，F1-all的性能达到了13.73%，比KITTI2015[28]上最佳发布结果17.4%降低了21%。此外，补充材料展示了我们的DIP在立体领域中的域不变性。总之，我们的主要贡献包括：0•我们设计了一个高效的框架，首次将Patchmatch引入端到端的光流预测中。它可以提高光流的准确性，同时减少相关体积的内存消耗。0•我们提出了一种新颖的逆传播模块。与传播相比，它可以在保持相当性能的同时有效减少计算量。0•我们的实验证明该方法在性能和内存之间取得了良好的平衡，在公共数据集上与最先进的方法相比具有可比性的结果，并在不同数据集上具有良好的泛化能力。02. 相关工作0深度流方法第一个端到端的基于CNN的光流估计可以追溯到[10]，它提出了一个类似U-net的架构FlowNetS来直接预测光流。在一个名为FlowNetC的不同版本中包含了一个相关层。在FlowNet2中，Ilg等人[18]提出了一个名为FlowNet2的版本。0引入了一种变形机制和堆叠的沙漏网络来提高对小运动区域的性能。PWC-Net[34]使用特征变形和一个粗到细的代价体积以及一个上下文网络进行光流细化，从而同时提高了准确性和减少了模型大小。为了解决模糊对应和遮挡问题，Hui等人[15]提出了具有自适应仿射变换和局部光流一致性约束的LiteFlowNet3。RAFT[36]引入了一个共享权重的迭代细化模块，用于更新从4D全对相关体积中检索到的光流场。为了减少高分辨率图像中2D搜索的计算复杂度，Xu等人[44]将2D搜索分解为两个方向上的1D搜索，并结合注意机制。Jiang等人[20]提出了直接通过计算一个特征图中每个特征向量的k个最近匹配来构建稀疏相关体积。它们的内存消耗比RAFT要少，但准确性较差。另一方面的工作集中在将图像分割和光流估计任务结合在一起[8, 9, 33,37]，它们传播了两个不同的互补特征，旨在提高光流估计的性能和反之亦然。0基于Patchmatch的方法Patchmatch最初由Barnes等人提出[5]。其核心工作是在一对图像中计算补丁对应关系。其背后的关键思想是邻近像素通常具有一致的匹配。MBleyer等人将Patchmatch应用于立体匹配，并提出了一种倾斜支持窗口方法来计算聚合以获得亚像素视差精度。为了减少Patchmatch在光流中由于运动不连续性引起的误差，Bao等人提出了保边Patchmatch算法。Hu等人提出了一种粗到细的Patchmatch策略，以提高光流的速度和准确性。在深度学习中，Bailer等人将Patchmatch视为一个二分类问题，并提出了一种阈值损失来提高分类的准确性。Shivam等人开发了一个可微分的Patchmatch模块，在立体视差估计网络中实现了实时性。但是该方法是稀疏的，只适用于视差维度。Wang等人引入了迭代多尺度Patchmatch，采用自适应传播和可微分的变形策略，在多视图立体问题中取得了良好的性能。03. 方法0我们从对光流任务中不同相关体积的观察和分析开始。这些方法需要高内存使用和计算量来计算相关体积。受到Patchmatch在对应点匹配中高效率的启发，我们使用它来减少光流的搜索空间。Corrmijkl =122m89270(a) 传播0(b) 逆传播0图2.传播和逆传播的相关计算过程。图中的红色点表示根据种子点在光流或图像上的位移操作，绿色点表示根据光流在图像上的变形操作，蓝色点表示源图像和变形图像之间的相关计算操作。图(b)中的蓝色框表示初始化阶段，红色框表示运行阶段。0它用于减少光流的搜索空间。03.1. 观察0局部相关体积在现代基于局部相关体积的光流方法中[10]，其计算可以表示如下：0Corr = {F1(x) ∙ F2(x + d) | x ∈ X, d ∈ D}, (1)0其中F1是源特征图，F2是目标特征图，d是沿x或y方向的位移。X = [0, h) × [0, w)，D = [−dmax,dmax]^2，h是特征图的高度，w是特征图的宽度。因此，相关体积的内存和计算量与hw(2dmax +1)^2成线性关系，并且与搜索空间半径的平方成二次关系。受搜索半径大小的限制，在高分辨率的复杂场景中很难获得高精度的光流。0全局相关体积最近，RAFT[36]提出了一种全对全的相关体积，取得了最先进的性能。在F1的位置(i, j)和F2的位置(k,l)处的全局相关计算可以定义如下：02m×020q (F1(i, j) ∙ F2(2mk + p, 2ml + q)),0(2)其中m是金字塔层级编号。2m是池化核大小。与局部相关体积相比，全局相关体积包含N^2个元素，其中N =hw。当F的高度h或宽度w增加时，内存和计算量会成倍增加。因此，在高分辨率推理时，全局方法在内存上存在不足。0Patchmatch方法Patchmatch是由Barnes等人提出的[5]，用于在结构编辑中找到图像之间的密集对应关系。其背后的关键思想是我们可以通过大量的随机样本获得一些好的猜测。0通过大量的随机样本获得一些好的猜测。并且基于图像的局部性，一旦找到一个好的匹配，信息可以高效地传播到其邻居。因此，我们提出使用传播策略来减小搜索半径，并使用局部搜索进一步提高准确性。Patchmatch方法的复杂度为hw(n +r^2)，其中n是传播次数，r是局部搜索半径，这两个值都很小，并且不随位移或分辨率的增加而改变。详细内容请参见下一小节。03.2. 光流问题中的Patchmatch0传统的Patchmatch方法[5, 6, 14,23]有三个主要组成部分。1）随机初始化。通过大量的随机样本获得一些好的猜测。2）传播。基于图像的局部性，一旦找到一个好的匹配，信息可以从其邻居中高效地传播。3）随机搜索。在后续的传播中使用，以防止局部优化，并在邻居中找不到好的匹配时获得好的匹配。迭代的传播和搜索是解决光流问题的关键。在传播阶段，我们将特征图的一个点视为一个块，并选择4个邻居种子点。因此，每个点可以通过将光流图向4个邻居方向进行位移来获得光流候选。然后，我们可以基于邻居光流候选和其光流计算一个5维相关性体积。给定所有光流的位移∆p，传播的相关计算可以定义为：0Corr = F1 ∙ W(F2, S(flow, ∆p)), (3)0其中，S(flow,∆p)表示根据∆p进行位移的光流，W表示将F2与位移后的光流进行变换。毫无疑问，选择更多的种子点需要更多的操作。当选择n个种子点进行m次迭代时89280(a) DIP架构0(b) 逆向传播块0(c) 局部搜索块0图3. (a) 架构概述.给定一对光流图像，我们首先提取深度1/4和1/16比例的特征和上下文信息。然后，使用提取的特征和上下文信息对1/16逆向Patchmatch进行初始化，该初始化结果输入逆向传播块、局部搜索块和GRU模块进行光流的迭代优化。然后，我们使用在1/16上预测的光流对1/4逆向Patchmatch进行初始化，并重复逆向Patchmatch网络的操作。请注意，1/4和1/16逆向Patchmatch网络使用的参数完全相同。 (b)逆向传播块传播邻居信息。 (c) 局部搜索块用于优化光流。0在传播阶段，传播需要将光流位移n ×m次并对源特征进行n ×m次变换。这增加了内存操作和插值计算，特别是在预测高分辨率光流时。为了减少选项的数量，我们首次将传播替换为逆向传播。在搜索阶段，我们将随机搜索改为适用于端到端网络并实现更高准确性的局部搜索方法。有关Patchmatch方法的更多细节，请参见补充材料。03.3. 深度逆向Patchmatch0逆向传播在传播中，光流位移和特征变换是串行和耦合的，因为变换过程依赖于位移后的光流。此外，在每次迭代中需要进行多次光流位移，因此计算量增加。从理论上讲，将光流向右下位移的空间相对位置与将目标向左上位移的相对位置相同。而两种方法的相关性图在绝对空间坐标上有一个像素的偏移。我们将将目标位移的方式称为逆向传播，并可以将逆向传播表示为：Corr = F1 ∙ S(F'2, -∆p), (4)0F'2 = W(S(F2, ∆p), flow) (5)0理论上，将公式（5）和公式（4）结合起来完全是0等同于公式（3）。由于∆p非常小，我们在实现中忽略了反向传播的过程。然后，公式（4）可以替换为：0Corr = F1 ∙ F'2 (6)0在逆传播中，目标特征点被分散到其种子点并通过种子点的光流进行变形。因此，我们可以提前将目标特征进行平移和堆叠，然后只需进行一次变形即可获得每次迭代中的变形后的目标特征。逆传播的详细过程可以参考图3b。在本工作中，种子点是静态的，并且不随迭代次数的增加而改变。因此，目标特征只需要平移到种子点一次，并且平移后的目标特征可以在每次迭代中重复使用。通过这种方式，如果有n个种子点用于m次传播迭代，我们只需要平移目标特征n次，并将平移后的目标特征变形m次。图2b显示了逆传播阶段，整个阶段可以分为两个子阶段：0•初始化阶段：输入源特征、目标特征。根据种子点对目标特征进行平移，然后将这些平移后的目标特征沿深度维度堆叠为共享的目标特征。0•运行阶段：输入一个光流，根据光流对共享的目标特征进行变形，并计算源特征和变形后的目标特征之间的相关性。89290局部搜索仅通过补丁传播很难获得非常精确的光流，因为随机初始化的光流值的范围非常稀疏。因此，在每次补丁传播之后，本工作进行局部邻域搜索。与[5]不同，[5]在每次传播后执行随机搜索，并随着迭代次数的增加减小搜索半径。我们仅在每次传播后执行固定的小半径搜索，并称之为局部搜索。整个局部搜索块如图3c所示。给定光流增量∆f，局部搜索可以表示为：0Corr = F1 ∙ S(W(F2, flow), ∆f) (7)0在本工作中，根据实验结果，我们将最终搜索半径设置为2。详细信息请参见第4.2节。为此，逆Patchmatch模块主要由逆传播块和局部搜索块组成，如图3a所示。在每次迭代中，逆传播后跟随局部搜索。值得注意的是，两个块都使用GRU [36]进行成本聚合。03.4. 网络架构0为了在高分辨率图像上获得高精度的光流，我们设计了一个名为DIP的新的光流预测框架。DIP的概述可以在图3中找到。它可以描述为两个主要阶段：（1）特征提取；（2）多尺度迭代更新。0特征提取首先，将特征编码器网络应用于输入图像，以提取1/4分辨率的特征图。与之前的工作[19, 20, 36,44]不同，这些工作使用上下文网络分支来专门提取上下文。DIP直接将源特征图激活为上下文图。然后，我们使用平均池化模块将特征图降低到1/16分辨率。并且我们对1/4分辨率和1/16分辨率使用相同的主干和参数。因此，DIP可以在两个阶段进行训练，并且在处理大图像时，我们可以使用更多阶段进行推理。0多尺度迭代更新我们的方法基于邻域传播，因此必须迭代更新光流。我们的网络由两个模块组成，逆传播模块和局部搜索模块。在训练阶段，我们从大小为1/16的随机流开始，然后使用金字塔方法在1/16和1/4两个尺度上迭代优化光流。在推理阶段，我们可以执行与训练阶段相同的过程。为了获得更准确的光流，我们还可以在1/8尺度上对光流进行细化，然后在1/4尺度上优化结果。更高分辨率的详细比较可以在补充材料中找到。0我们的网络在推理阶段还接受初始化的光流作为输入。在这种情况下，我们根据初始化光流的最大值来调整金字塔的推理层数。例如，当处理视频图像的光流时，将前一幅图像的光流的前向插值用作当前图像的输入。有了先前光流的信息，我们可以使用两个或更多金字塔来处理大位移以确保准确性，并使用一个金字塔来处理小位移以减少推理时间。04. 实验0在本节中，我们展示了DIP在Sintel [ 7 ]和KITTI [ 28]排行榜上的最新性能，并表明它在Sintel和KITTI的零射击泛化设置中优于现有方法。评估中报告了端点误差（EPE）。对于KITTI，还报告了另一个评估指标F1-all，它表示所有像素的异常值百分比。用于基准性能评估的Sintel上的d 0 −10和d 10 − 60也用于估计小运动区域的光流。这里，d 0 −10表示距离最近遮挡边界小于10个像素的区域的端点误差。04.1. 训练计划0DIP在16个RTX 2080 Ti GPU上使用Pytorch [ 29]实现。遵循RAFT [ 36 ]，我们在训练过程中使用AdamW [24 ]优化器和OneCycle学习率调度[ 32 ]。0训练细节在泛化实验中，我们在FlyingChairs [ 10]和FlyingThings3D [ 27]数据集上训练我们的模型，并在Sintel [ 7 ]和KITTI2015 [28]的训练集上评估泛化能力。在预训练阶段，我们决定将FlyingChairs和FlyingThings3D按1:10的比例组合在一起。首先，将训练尺寸设置为512 ×384，批量大小为32，进行100k步的模型训练。然后，将模型在尺寸为768 ×384的情况下进行另外100k步的微调，批量大小为16。在消融研究的训练和推理过程中，我们使用6次迭代进行DIP光流回归。在基准性能评估中，迭代次数设置为12。我们还在Sintel [ 7 ]，KITTI [ 28 ]和HD1K [ 21]数据集上进行了微调。我们使用Sintel和FlyingThings3D [27]的数据组合对Sintel进行了100k次微调，训练尺寸为768 ×384。最后，我们使用FlyingThings，Sintel，KITTI-15和HD1K的数据组合进行了100k次微调，训练尺寸为832 ×320。0我们的损失函数与RAFT [ 36]类似。DIP每次迭代输出两个光流。因此，N =pmSintelKITTI-151088 1920411.262.934.8914.33372421.272.834.4113.51432431.312.854.5413.80523821.282.794.4513.77503i=N89300方法 Sintel（训练） KITTI-15（训练）参数 448 × 1024 1088 × 19200清洁的最终EPE F1-all 内存时间（毫秒）内存时间（毫秒）0稀疏全局 [ 20 ] 1.29 2.95 6.80 19.30 5.00M 3.04G 839 5.98G 3971 稠密全局 1.30 2.97 4.96 14.02 3.40M10.47G 234 OOM -0只有p(N=4) 1.62 3.40 7.63 19.81 2.78M 1.48G 112 3.27G 325 只有ls(r=1) 1.48 3.02 12.38 23.76 3.40M1.56G 96 3.45G 373 pm(N=4, r=1) 1.26 2.93 4.89 14.33 5.10M 1.56G 106 3.70G 3720表1. 关于相关体积的消融研究。模型在FlyingChairs [ 10 ]和FlyingThings3D [ 27 ]上进行训练。内存和推理时间在RTX2080 TiGPU上测量。global表示全局相关体积。only p(N=4), ls(r=1)表示仅使用种子为4的传播或半径为1的局部搜索。pm(N=4,r=1)表示将传播和局部搜索结合的Patchmatch。Patchmatch的迭代次数设置为6，其他方法的迭代次数设置为12。最佳结果用粗体标记，次佳结果用下划线标记。0N r 清洁的最终EPE F1-all 时间（毫秒）0表2.基于Patchmatch的种子数量和局部搜索半径的消融研究。在Sintel和KITTI-15训练数据集上验证，迭代次数设置为6。最佳结果用粗体标记，次佳结果用下划线标记。0方法 Sintel KITTI-15 1088×19200清洁最终EPE F1-all 时间（毫秒）0pm 1.27 2.83 4.41 13.51 432 ipm 1.30 2.824.29 13.73 3270表3.Patchmatch和逆Patchmatch在Sintel和KITTI-15训练数据集上的消融研究。其中，传播的种子为4。局部搜索的半径为2。最佳结果用粗体标记。0iters × 2 × 2预测是在使用1/16和1/4分辨率的N次迭代时在训练过程中输出的。由于有多个输出进行监督，我们采用与RAFT类似的策略，计算一个加权序列，并将预测序列的损失与之相加。总损失可以表示如下：0损失 =0i = 0 wi ∙ M（|fi - fgt|），（8）0其中N是预测序列的长度，M（x）表示矩阵x的均值，wi可以通过公式（9）计算，我们在训练中使用γ = 0.8。0w i = γN-i-1（9）04.2. 消融研究0相关体积我们首先分析了我们提出的方法中关键组件的准确性、内存和推理时间，具体结果见表1。在这个比较实验中，我们选择了SCV（稀疏全局）[20]作为基准，因为它在内存中具有较低的相关体积和最先进的性能。此外，我们构建了分辨率为1/16和1/4的4D相关体积，每次迭代都像RAFT[36]一样进行查找。利用这些基准，我们进行了部分实验比较。在实验中，我们分别使用种子点为4的传播实验和半径为1的局部搜索实验。结果清楚地表明，仅有传播（仅p）或局部搜索（仅ls）在大分辨率下在内存和速度方面具有很大优势，但准确性相对于全局方法有所降低。传播和局部搜索的组合（pm）使用更少的时间和内存，实现了与全局方法相当或更好的结果。特别地，DIP在1088×1920的尺寸上的推理时间比SCV少10倍。0超参数基于Patchmatch，我们进一步对超参数进行实验，并在表2中呈现。首先，将传播种子点的数量设置为4，将局部搜索的半径从1改变到3。我们可以看到，当搜索半径从1增加到2时，准确性进一步提高。当增加到3时，准确性基本与半径2相同，但模型推理时间增加了21%。因此，将局部搜索的半径固定为2。然后，将传播种子点的数量从4改变到8。然而，结果没有显著改善，但模型消耗增加。因此，我们将种子点的数量设置为4进行进一步优化。HD3 [46]3.848.7713.1724.0LiteFlowNet [16]2.484.0410.3928.50PWC-Net [34]2.553.9310.3533.7LiteFlowNet2 [17]2.243.788.9725.90VCN [45]2.213.688.3625.10MaskFlowNet [47]2.253.61-23.10FlowNet2 [18]2.023.5410.0830DICL [41]1.943.778.7023.60RAFT [36]1.432.715.0417.4089310图4. 在Sintel-Clean数据集上的光流估计的视觉比较。与RAFT和SCV相比，我们的方法表现出色，我们的结果在放大的图像帧中接近GT。更多结果可以在补充材料中找到。0Patchmatch和逆Patchmatch最后，我们验证了逆Patchmatch的有效性，并在表3中展示了结果。在这个实验中，我们将传播的计算方法从传播改为逆传播，并采用了之前的训练和评估策略。实验表明，逆传播可以实现与传播几乎相同的结果。在尺寸为1088×1920的情况下，逆Patchmatch的推理时间比Patchmatch减少了24%。总之，基于我们的Patchmatch框架，我们可以在更低的内存消耗下实现更好的性能，并使用逆Patchmatch代替Patchmatch以实现更快的推理速度。04.3. 与现有方法的比较0为了展示我们方法的优越性，我们与现有方法进行了全面比较，包括泛化性能、内存和特殊结果。泛化性能为了验证模型的泛化性能，我们选择使用FlyingChairs [ 10 ]和FlyingThings3D[ 27 ]进行训练，Sintel [ 7 ]、KITTI [ 28]进行测试。详细信息请参见第4.1节，结果请参见表4。实验表明，我们的方法具有很强的泛化性能，在KITTI-15数据集中取得了最先进的结果。其中，F1-all为13.73%，比最佳发布结果（17.4%）降低了21%。在Sintel数据集上，我们也取得了与最先进方法可比较的结果。内存和高分辨率结果我们在图5中测量了不同分辨率下不同相关体积算法的准确性和内存。由于流任务的真实高分辨率数据集很少，所以在实验中我们使用了上采样的KITTI数据集来评估内存和准确性。可以看出，在11GB内存限制下，RAFT [ 36]的最大输出图像尺度仅为2.25。此外，随着图像尺度的增加，SCV [ 20]的准确性迅速下降。这证明了我们的方法在将相关体积缩放到更高分辨率时，在节省内存和保持准确性方面的有效性。0方法 Sintel（训练集） KITTI-15（训练集）0清洁最终 EPE F1-all0Flow1D [ 44 ] 1.98 3.27 6.69 22.95 SCV [ 20 ]1.29 2.95 6.80 19.30 我们的方法 1.30 2.82 4.2913.730表4.Sintel和KITTI的结果。EPE表示平均端点误差，F1-all表示所有像素的光流异常值的百分比。最佳结果用粗体标记，次佳结果用下划线标记。缺失的条目'-'表示在比较的论文中未报告该结果。0实验中，我们使用上采样的KITTI数据集进行内存和准确性评估。可以看出，在11GB内存限制下，RAFT [ 36]的最大输出图像尺度仅为2.25。此外，随着图像尺度的增加，SCV [ 20]的准确性迅速下降。这证明了我们的方法在将相关体积缩放到更高分辨率时，在节省内存和保持准确性方面的有效性。0基准结果我们的DIP在Sintel和KITTI-15基准测试中的性能如表5所示。我们FlowNet2 [18]4.163.271.465.744.812.5511.486.94PWC-Net+ [35]3.453.911.244.64.782.047.724.91LiteFlowNet2 [17]3.483.271.434.694.041.897.744.42HD3 [46]4.793.221.374.673.581.766.55-VCN [45]2.813.260.864.44.381.786.33.89MaskFlowNet [47]2.522.740.94.173.781.746.13.92ScopeFlow [4]3.593.451.264.14.021.686.824.45DICL [41]2.122.20.583.443.271.286.31-RAFT [36]1.94--3.18--5.13.0789320方法0Sintel（测试集） KITTI-15（测试集）0清洁最终 F1-all0EPE d0-10 d10-60 EPE d0-10 d10-60 所有像素非遮挡像素02视图0Flow1D [ 44 ] 2.24 2.18 0.87 3.81 3.60 1.75 6.27 - SCV [ 20 ] 1.72 1.39 0.45 3.6 3.24 1.426.17 3.43 我们的方法 1.67 1.18 0.45 3.22 2.68 1.23 4.21 2.430热启动 RAFT 1.61 1.62 0.51 2.86 3.11 1.13 - - SCV 1.77 - - 3.88 - - - - 我们的方法 1.44 1.10 0.41 2.832.72 1.09 - -0表5.Sintel和KITTI测试数据集上的基准性能。缺失的条目'-'表示在比较的论文中未报告该结果，也无法在在线基准测试中找到。最佳结果用粗体标记，次佳结果用下划线标记。0图5.高分辨率尺寸上采样结果。内存限制为11GB，气泡的面积是F1-all度量的映射。我们使用KITTI数据集进行上采样来评估内存和准确性，尺度为1时的分辨率为375 x 1242。'OOM'表示内存不足。0在双视图情况下,我们在Sintel-Clean数据集上取得了最先进的结果(1.72 →1.67). 与RAFT类似, 我们也采用了“热启动”策略,即使用前一帧的光流估计结果初始化当前的光流估计.在Sintel-Clean基准测试中, 我们的方法在EPE方面排名第二.与RAFT相比, 我们将EPE从1.61提高到1.44(提高了10.5%).有趣的是, 我们的方法实现了0在d 0-10和d 10-60上取得了最佳结果,这表明我们的方法在估计小运动区域的光流方面具有明显优势. 图4显示了DIP在Sintel上的定性结果.与RAFT和SCV相比,我们的结果在细节结构区域更接近于真实值.0在KITTI-15基准测试中, 我们的方法在所有指标上排名第一,超过了已发表的光流方法. 与RAFT相比,我们将非遮挡像素的F1-all从3.07%提高到2.43%(提高了20.8%),将所有像素的F1-all从5.10%提高到4.21%(提高了17.5%).05. 结论0我们提出了一种用于光流的深度逆Patchmatch框架,重点是减少密集相关体的计算成本和内存消耗.通过减少计算和内存开销,我们的模型可以在高分辨率下工作并保留细节的细节结构.同时, 我们在性能和成本之间取得了良好的平衡. 同时,我们在公共基准测试上实现了与最先进方法相当的结果,并在不同数据集上具有良好的泛化能力.我们相信我们的逆Patchmatch方案可以在更多任务中使用,如立体匹配, 多视角立体视觉等. 未来,我们将更加关注运动模糊, 大遮挡和其他极端场景.89330参考文献0[1] Mohammed Almatra�和Keigo Hirakawa. Davis相机光流.《计算成像IEEE交易》, 6:396-407, 2019. 10[2] Christian Bailer, Kiran Varanasi和Didier Stricker.基于CNN的光流补丁匹配与阈值铰链嵌入损失. 在《计算机视觉和模式识别IEEE会议论文集》中, 页码3250-3259,2017. 20[3] Linchao Bao, Qingxiong Yang和Hailin Jin.用于大位移光流的快速边缘保持Patchmatch. 在《计算机视觉和模式识别IEEE会议论文集》中, 页码3534-3541,2014. 20[4] Aviram Bar-Haim和Lior Wolf. Scope�ow:光流的动态场景范围. 在《计算机视觉和模式识别IEEE/CVF会议论文集》中,页码7998-8007, 2020. 80[5] Connelly Barnes, Eli Shechtman, Adam Finkelstein和Dan BGoldman. Patchmatch: 一种用于结构图像编辑的随机对应算法.《ACM Trans. Graph.》, 28(3):24, 2009. 1 , 2 , 3 , 50[6] Michael Bleyer, Christoph Rhemann和Carsten Rother.Patchmatch立体匹配与倾斜支持窗口. 在《Bmvc》中, 卷11,页码1-11, 2011. 1 , 2 , 30[7] Daniel J Butler, Jonas Wulff, Garrett B Stanley和Michael JBlack. 用于光流评估的自然开源电影. 在《欧洲计算机视觉会议》中, 页码611-625. Springer, 2012. 1 , 2 , 5 , 70[8] Jason Chang和John W Fisher.具有潜在流的拓扑约束分层跟踪. 在《计算机视觉国际会议论文集》中, 页码161-168, 2013. 20[9] Jingchun Cheng, Yi-Hsuan Tsai, ShengjinWang和Ming-Hsuan Yang. Seg�ow:视频对象分割和光流的联合学习. 在《计算机视觉国际会议论文集》中, 页码686-695, 2017. 20[10] Alexey Dosovitskiy，Philipp Fischer，Eddy Ilg，PhilipHausser，Caner Hazirbas，Vladimir Golkov，Patrick Van DerSmagt，Daniel Cremers和Thomas Brox.Flownet：使用卷积网络学习光流。在IEEE国际计算机视觉会议论文集中，第2758-2766页，2015年。 1 , 2 , 3 , 5 , 6 , 70[11] Shivam Duggal，Shenlong Wang，Wei-Chiu Ma，RuiHu和Raquel Urtasun.Deeppruner：通过可微分的Patchmatch学习高效的立体匹配。在IEEE/CVF国际计算机视觉会议论文集中，第4384-4393页，2019年。 20[12] HW Ho，Christophe De Wagter，BDW Remes和GuidoCHE de Croon.用于自监督学习障碍物外观的光流。在2015年IEEE/RSJ国际智能机器人和系统大会上，第3098-3104页。IEEE，2015年。 10[13] Berthold KP Horn和Brian G Schunck.确定光流。人工智能，第17卷，第1-3期，第185-203页，1981年。 10[14] Yinlin Hu，Rui Song和Yunsong Li.用于大位移光流的高效粗到细Patchmatch。在IEEE计算机视觉和模式识别会议上，第5704-5712页，2016年。 1 , 2 , 30[14] Yinlin Hu，Rui Song和Yunsong Li.用于大位移光流的高效粗到细Patchmatch。在IEEE计算机视觉和模式识别会议上，第5704-5712页，2016年。 1 , 2 , 30[15] Tak-Wai Hui和Chen Change Loy.Liteflownet3：解决对更准确的光流估计的对应关系模糊问题。在欧洲计算机视觉会议上，第169-184页。Springer，2020年。 20[16] Tak-Wai Hui，Xiaoou Tang和Chen Change Loy.Liteflownet：一种用于光流估计的轻量级卷积神经网络。在IEEE计算机视觉和模式识别会议上，第8981-8989页，2018年。 1 , 70[17] Tak-Wai Hui, Xiaoou Tang和Chen Change Loy.一种轻量级的光流CNN——重新审视数据保真度和正则化。IEEE模式分析与机器智能交易，第43卷，第8期，第2555-2569页，2020年。 1 , 7 , 80[18] Eddy Ilg，Nikolaus Mayer，Tonmoy Saikia，MargretKeuper，Alexey Dosovitskiy和Thomas Brox. Flownet2.0：使用深度网络进行光流估计的演变。在IEEE计算机视觉和模式识别会议上，第2462-2470页，2017年。 1 , 2 , 7 , 80[19] Shihao Jiang, Dylan Campbell, Yao Lu, HongdongLi和Richard Hartley.学习使用全局运动聚合估计隐藏运动。arXiv预印本arXiv:2104.02409，2021年。

下载后可阅读完整内容，剩余1页未读，立即下载