稀疏相关体积的光流估计方法

24 浏览量更新于2024-01-22 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1659233从几个匹配中学习光流姜世豪1，2，3姚璐1，2，3李宏东1，2理查德·哈特利1，21澳大利亚国立大学2ACRV3 Data61，CSIRO摘要用于光流估计的最新神经网络模型需要高分辨率的密集相关体积虽然密集的相关体积是准确估计的信息，但其繁重的计算和内存使用，(a) 第一张图片（b）第二张图片6 6根据这一观察，我们提出了一种替代的位移表示，称为稀疏相关体积，−402040608010020400−402040608010020400通过在一个特征图中为另一个特征图中的每个特征向量计算K个最接近的匹配来直接构建，并存储在稀疏数据结构中。实验结果表明，该方法可以显著降低计算成本和内存使用，同时保持高精度与以前的方法相比，密集的神经网络，(c) 密集相关体(d) 稀疏相关体体积。1. 介绍光流估计是计算机视觉中的经典问题[11]。它的目的是找到两个图像之间的像素对应关系。传统上，它被公式化为通过连续[4，11，32]或离散[22，7，31]优化解决的优化问题自深度学习的发展以来，光流估计已被公式化为一个学习问题，其中来自神经网络的直接回归成为一种常见方法[9，16]。密集对应问题中的一种流行表示是相关（成本）体积，首先由Hosni等人引入。[12 ]第10段。相关体积给出了每像素位移的显式表示，并证明了它们在立体匹配[18]和光流[9，27]的学习问题中的广泛用途与搜索空间沿着扫描线的立体匹配问题相反，光流问题具有2D搜索空间，这导致两个挑战：当直接处理4D体积时，大存储器消耗和高计算成本。(e) 光流（RAFT [29]）（f）光流（我们的）图1：密集相关体积和稀疏相关体积的光流估计。（c）及（d）显示─计算第一幅图像中单个像素（黄点）的相关体积。（b）中的白色十字表示前k个匹配。我们表明，准确的光流可以估计只有几个匹配的相关性。为了减少存储器和计算成本，现有方法[27，34，33，13，36]首先构建特征金字塔并以粗略分辨率计算相关体积，然后基于上采样流逐渐扭曲上层特征图并在有限的搜索范围内构建局部相关体积在以前的工作[4，32，20]中观察到的一个值得注意的问题是，当流动位移大于流动结构时，由粗到细的框架无法解决这种情况，即著名的小物体快速移动问题。最近的方法，Devon和RAFT [20，29]提出在第二个图像中使用直接搜索来消除扭曲的需要。RAFT特别证明了以下优点：保证了模型的有效训练和部署。在88在本文中，我们表明，密集相关体积代表，44表示是冗余的，准确的流量估计可以22只有一小部分元素在里面就可以实现。基于0−20−216593XF1F2F1F2(a) 密集相关卷需要保存所有匹配对。(b) 稀疏相关卷要求仅保存前k个匹配。图2：密集相关体积和top-k稀疏相关体积之间的比较。在稀疏相关卷中，仅存储前k个匹配，其余的被丢弃。首先构造一个所有对的相关体积，并以单一分辨率直接处理它，而不是以粗到细的方式。然而，所有对相关体积需要两个特征图之间的成对点积因此，时间和空间复杂度都是O（N2），其中N是图像的像素数需要较小的N来减少内存消耗，因此RAFT只能使用1/ 8分辨率的特征图。低分辨率的特征图不能完全表示图像的细节。我们想知道是否有一种方法来构建一个所有对搜索范围的相关卷，但不超过最大GPU内存。因此，我们质疑存储所有两两配对的图像的必要性，并假设仅存储每个像素的前k个图像可能就足够了。我们的直觉是，一个图像中的特征向量在另一个图像中只有几个特征向量具有高相关性来匹配。因此，在密集相关体积中可能存在大的冗余，其中小的冗余对预测没有贡献图1示出了密集相关体积和稀疏相关体积之间的比较。我们提出了一种稀疏相关体积表示，其中只有每个像素的前k个相关性存储在由{值，坐标}对定义的稀疏数据结构中。在本文中，我们演示了如何稀疏相关体表示可以用来解决光流问题.我们提出了一种方法来构建和处理这样一个稀疏的相关体积的光流学习框架。我们证明，即使只有一小部分元素被存储，我们的结果仍然可以与以前的工作[29]相媲美，后者采用了密集的相关体积。最后，我们证明了稀疏的方法可以构建一个高分辨率的相关卷，它可以预测精细结构的运动比以前的方法更准确。2. 方法设I1，I2：Z2→R3为两幅RGB图像.问题是估计稠密流场f：Z2→R2，它将每个像素坐标x映射到位移向量f（x）。在现代深度学习光流方法中，首先应用特征提取网络从图像对F1，F2：Z2→Rc中提取特征图，其中c是频道数。相关体积C：Z4→R通过计算两两之间的内积形成特征向量，C（x，d）= F1（x）·F2（x + d）.（一）输出是一个四维张量，可以表示为一个集合C={C（x，d）|x ∈ X，d ∈ D}。（二）这里，X=[0，h）× [0，w）<$Z2是特征映射F1的域，|X|=hw，其中h和w分别表示F 1的高度和宽度。位移集D被定义为D=[-d，d]2<$Z2，其中d表示沿x或y方向的最大位移，|=（2 d + 1）2。|=(2 d +1) 2. 因此，关联体C包含hw（2d +1）2个元素.为了减小相关体积的大小，先前的方法使用粗到细和翘曲方法来约束d的大小[27，13，33]。为了准确处理大位移，RAFT [29]构建了一个所有对的位移体积，其中位移范围包含整个特征图。排除范围外的匹配，RAFT因此，需要较低分辨率的特征图来约束N。在这项工作中，我们表明，所有对相关体积实际上可以是一个稀疏张量，其中只有一小部分的值被存储和处理。我们表明，我们可以有效地减少空间复杂度从O（N2）到O（Nk），只有一个轻微的性能下降，其中k给出了我们想要保持的匹配数。图2展示了主要思想。2.1. 稀疏相关体对于每个x∈ X，我们定义一个集合S（k）= arg max<$C（x，d）（3）S. D，|S |= kd∈S16594KNN梯度没有梯度D∈S（k）di−fi递归解码器FC，FI，0xC（x，点积稀疏相关体积多尺度位移编码器密集运动张量GRU更新块˜˜XF1F2h一期+1，一期+1图3：单次迭代的网络架构和剩余流量预测。（1）F1和F2是由特征提取网络提取的特征图。我们首先计算一组位移d0∈K∈k与KNN的相关性然后，我们将F1中的每个特征向量与F2中的k个对应特征向量进行点积。虚线箭头表示没有梯度流的路径，而实线箭头表示有梯度流的路径。（2）在每次迭代中，通过减去残余流di-Δ fi来更新位移向量，以更新4D相关体积。应用多尺度位移编码器将4D稀疏相关体积编码为2D密集运动张量。（3）应用GRU更新块来预测用于下一次迭代的残余流。GRU块还获取表示当前迭代的隐藏状态向量的hi、Fc、fi的输入、由上下文网络提取的特征图和光流的当前估计，并且输出用于下一次迭代的隐藏状态向量以及残余流。包含给出最大相关性的k个位移相关体积现在可以表示为四维稀疏张量C={C（x，d）|d∈S（k），x∈X}.与直接预测光流f相比，在每一步预测残余流f1+ 1，并将其用于更新当前流估计f1+ 1= f1+ f1+ 1。在每一步中，F1中的像素x被映射到F2ac中的xi根据流的当前估计xi=x+fi。我们该稀疏相关体积包含hwk元素，而不是具有h2w2元素的原始密集相关体积常数k通常是一个很小的数（例如k=8）。我们现在展示如何构建稀疏相关体积并从中估计光流。我们的网络架构如图3所示。2.2. k最近邻我们首先使用两个权值共享的特征提取网络从输入图像中提取1/4分辨率的特征图。我们的特征提取网络由六个残差块组成，特征通道的数量为256。为了构建稀疏相关体积，我们使用k-最近邻（kNN）模块[17]来计算一组指数，其中每个特征向量在F1中具有k个最大相关得分。稀疏相关体积通过取F1中的每个特征向量与由F2中的索引给出的前k个特征向量之间的点积来计算。在反向传播过程中，梯度仅传播到由kNN模块选择的k个特征向量。2.3. 位移更新我们采用了一种整体迭代的残差精化方法。如以前的工作[15，29]所示，估计剩余流可以有效地减少搜索空间，并预测比直接回归更好的结果[16，9]。而在2.1节中描述的稀疏相关体积C可以被认为是在i = 0处的初始估计f0= 0。当坐标xi更新为xi+1= xi+ fi，C中的相对位移也应相应更新。为此，我们通过从di中减去k-最近邻diffi来移动稀疏相关张量的坐标。在每一步中，Ci（x，di）=Ci+1（x，di−fi），如图4a所示。注意，这里我们允许di− fi是浮点数。同样重要的是要注意，内积是在开始时仅计算一次，因为在每个步骤中，只有相关坐标改变，而相关值保持不变。2.4. 多尺度位移编码器在任何稀疏方法中经常会遇到的一个问题是如何处理一个稀疏张量，因为正常的稠密h×w×c张量的正则性丢失了。可以使用稀疏卷积[8]，然而，我们将在这里提出一种更简单和更有效的方法一个密集的全对相关体积的维数为h×w×h×w，我们将其简化为一个具有h×w×k个元素的稀疏张量，其中只保存每个像素的前k个相关性我们可以看到前两个维度-宇宙仍然是密集的，而第三和第四维度已经变得稀疏。这里的目标是编码k个元素，并形成一个密集的h×w×c张量，稍后可以用来预测kfi+1。根据以前的工作[29]，我们建议创建（四）16595XXXXXyyXidi−fi+1个xi+ diXfi萨夫一世XDi我F1F2(a) 位移更新。当像素的坐标通过增加Δ ff i而更新时，相对位移减少Δ ff i。双线性注意在级别l处的缩放的位移，其利用当前的dlfi通过dl=（di-dlfi）/2 l-1更新。此外，我们将水平l处的相关值表示为对于d∈S（k），Cl（x，dl）=C（x，d）.在每个级别，我们通过恒定半径r约束位移，并在级别l定义相关值的窗口集，. . dl，Cl（x，dl）n. <$dl<$∞≤r，d∈S（k）<$。（五）由于坐标dl不一定是整数，因此我们需要重新采样到整数坐标，以便使相关性的稀疏张量致密化。我们提出了一种方法，我们称之为“双线性溅射”。相关值被双线性地散布到四个最近的整数网格。例如，根据下式，位置dl处的相关性Cl（x，dl）被传播到四个相邻整数点中的每一个，由[dl]=（dx，dy）表示：SplattingCl（x，[dl]）=. 1−|dl− d|Σ.1− |dl− d |l（x，dl）.致密化重塑(b) 多尺度位移编码器。我们首先形成一个多层次的稀疏相关金字塔通过缩放坐标由不同的- ent常数。然后，我们双线性splat的相关性的整数网格和提取相关值内的本地窗口。提取的窗口被转换为稠密张量，并被重塑和连接以形成单个h×w×c张量。图4：如何以迭代方式处理稀疏数据卷的图示。多尺度稀疏张量和在不同分辨率下具有固定半径的局部采样位移。较粗的分辨率提供较大的背景，而较细的分辨率提供更准确的位移。然后，我们将每个级别的稀疏张量转换为密集张量，并将它们连接起来以形成单个2D张量。这在图4b中示出。在每次迭代i，对于每个像素x，我们从前k个相关位置S（k）的集合。那么，布景{.d，C（x，d）|d∈S（k）}记录前k个相关性像素x的值及其位置，使用kNN获得算法我们通过将坐标除以（1，2，4，8，16）并将其分解来构造一个五级稀疏相关体金字塔。然后，将这些值相加以获得相关性集合并且将每层的稀疏张量转换为稠密张量，重新整形并连接以形成维度为5（2r+ 1）2的单个2D稠密张量，其中5是金字塔层的数量。我们在这里介绍的方法不需要学习。它仅仅是稀疏张量和稠密张量之间的转换，因此比稀疏卷积更简单。2.5. GRU更新块该2D密集张量中的每个向量对位置信息以及k个匹配的相关值进行我们将2D运动张量与上下文特征和当前流量估计连接起来，并将其通过门控递归单元（GRU）更新块。GRU更新块估计用于在下一步骤中移动相关体积坐标的残差流Δffi+13. 实验3.1. 实现细节我们首先提取具有256个通道的四分之一分辨率特征图。我们的特征提取网络包含六个残差块。当将特征映射传递给k个NN时，我们设置k=8。也就是说，对于每个特征向量，返回给出最大内积的前8个特征向量的索引。GRU更新块将光流的当前估计以及上下文特征图作为输入。上下文特征图由具有128个通道的单独网络提取。GRU更新块还更新128维隐藏状态特征向量。在训练期间，GRU迭代8次，而RAFT则是12次[29]。X16596NSintel（train）KITTI-15（train）Sintel（test）KITTI-15（test）训练数据方法清洁最终EPEF1-全部清洁最终F1-全部[14]第十四话2.243.788.9725.9---VCN[33]2.213.688.3625.1---MaskFlowNet[36]2.253.61-23.1---[第16话]2.023.5410.0830.03.966.02-C + TDICL[30]1.943.778.7023.6---[第29话]1.432.715.0417.4---我们1.292.956.8019.3---[第16话]（1.45）（2.01）（二点三十分）（6.8）4.165.7411.48[28]第二十八话（1.71）（2.34）（1.50）（5.3）3.454.607.72[14]第十四话（1.30）（1.62）（1.47）（4.8）3.484.697.74HD 3 [34]（1.87）（1.17）（1.31）（4.1）4.794.676.55IRR-PWC [15]（1.92）（2.51）（1.63）（5.3）3.844.587.65VCN [33]（1.66）（2.24）（1.16）（4.1）2.814.406.30C+T+S/K（+H）MaskFlowNet[36]----2.524.176.10ScopeFlow[1]----3.594.106.82DICL[30]（1.11）（1.60）（1.02）（3.6）2.123.446.31RAFT[29]（热启动）（0.77）（1.27）--1.612.86-[29]第二十九话（0.76）（1.22）（0.63）（1.5）1.943.185.10暖启动（warm-start）（0.86）（1.75）--1.773.88-我们的（2视图）（0.79）（1.70）（0.75）（2.1）1.723.606.17表1：Sintel和KITTI 2015数据集的定量结果。 EPE是指平均端点误差，F1-all是指所有像素上光流离群值的百分比。“C +T”是指在Chairs and Things数据集上预先训练的结果。“S/K(+H)”Paratheses指的是培训结果，最好的结果以粗体显示。训练时间表在之前的工作之后，我们首先在FlyingChairs [9]上预训练我们的模型，进行120k次迭代，批量大小为6，然后在FlyingThings [21]上进行另外120k次迭代，批量大小为4。然后，我们对Sintel[6]、KITTI 2015 [23]和HD1K的组合进行[19]用于Sintel评估的120k迭代和KITTI 2015 [23]用于KITTI评估的50k迭代。我们使用批量大小4进行微调。我们在两个2080Ti GPU上训练模型。烧蚀实验是在一台Tesla P100 GPU上进行的。我们使用PyTorch库实现[24]。损失函数与RAFT [29]类似，我们采用了一种回流网络架构，其中预测了一系列剩余流。每个步骤中的光流预测可以表示为fi+1= fi+ Δ fi+1，并且初始值为f0= 0，Δ f0= 0。我们将损失函数应用于光流预测序列。给定地面真实光流fgt和每个步长f1处的预测光流，损失函数被定义为：L=<$γN−i<$fi− fgt<$1。i=116597对于Chairs and Things的预训练，权重γ设置为0.8，对于Sintel和KITTI的微调，权重γ设置为0.85。总步数N被设置为8。我们使用faiss库[17]在gpu上运行kNN。目前，我们正在应用蛮力精确搜索方法，因为我们的问题规模仍然被认为很小。faiss库提供了优化的k-选择例程来加速计算，更多细节我们请读者参考原始文章[17]。3.2. 结果我们在表1中显示了与现有工程的定量比较。我们在双视图情况下在Sintel干净数据集上取得了最先进的结果，获得11。3%的改善（1。94 → 1。72）在RAFT上[29]。我们还测试了RAFT中的在先前帧中估计的光流以初始化当前光流估计。我们发现，这并没有帮助我们的表现，因此我们的结果仍然落后于RAFT在Sintel最终数据集上，我们的结果与最先进的结果相当，目前落后于RAFT [29]和DICL[30]，但优于所有其他结果。16598输入图像1地面实况RAFT [29]我们的图5：Sintel的定性结果。我们比较了预训练模型（在Chairs + Things上训练）的结果， Sintel训练数据集。将结果与RAFT进行比较。我们演示的情况下，四分之一分辨率的相关量优于第八分辨率的相关量。前两行是两个明显的例子，由于大的下采样而不能被第八分辨率相关体积捕获然而，它可以通过我们的方法准确地最好在屏幕上观看时放大。方法.在KITTI-15数据集上，我们的结果落后于RAFT[29]和MaskFlowNet [36]，并取代了其他方法。我们通过在Sintel和KITTI-15上评估预训练模型（C+T）来测试我们的我们在Sintel clean上取得了最好的成绩，在Sintel final和KITTI-15上仅次于RAFT [29]。Sintel clean的改进可归因于更大的相关体积（1/ 4分辨率vs 1/ 8分辨率）。我们在图5中提供了定性结果，这清楚地表明了构建成像体积和以高分辨率预测光流稀疏度方法椅Sintel（train）KITTI-15（train）可以看出，精细结构的运动不能被RAFT捕获，但可以通过我们的方法准确地预测，使用1/ 4分辨率相关体积。使用Sintel final和KITTI-15，存在明显更多的运动模糊和无特征区域。因此，设置k=8可能太小而不能达到与密集相关体积相同的性能。我们在3.3节中通过烧蚀实验分析了k的影响。我们想强调的是，即使我们在所有数据集中的表现都不优于RAFT[29]，但令人惊讶的是，考虑到相关值的存储很少，稀疏方法几乎可以做得一样好对于每个像素，我们只存储和处理k=8个相关系数，而RAFT需要存储h×w个相关系数，限制了其扩展到更高分辨率的能力表2：消融实验结果。在我们最终模型中使用的设置都加了下划线。详情见第3.3节。我们还给出了RAFT的原始代码上运行的结果我们进行了这些实验，1/8决议。3.3. 消融研究我们进行了烧蚀实验，以验证我们的假设，前k相关性足以给出一个很好的代表性的完整的相关体积。这里的主要设定是k应该有多大。我们展示了在1/ 8分辨率上选择不同k的可以清楚地看到，较大的k给出更好的性能。甚至（价值）清洁最终EPEF1-全部八0.951.553.075.7420.2分辨率季度0.711.292.956.8019.3k=11.141.973.447.5625.6我们的k=40.981.723.076.3221.8K=80.951.553.075.7420.2k=11.203.134.2614.439.3K=80.931.642.977.1822.8RAFTk=320.871.502.825.7719.5稀疏度k=1280.841.502.755.6119.0[29]第二十九话0.911.442.755.0916.7密集0.881.442.735.1017.516599稀疏度1/ 4分辨率1/ 8分辨率大小内存大小内存密集7. 8 ×1083 .第三章。1GB四、8×107191 MBk= 82. 2× 1050的情况。9MB五、5×1040的情况。2MBk= 328. 9× 1053 .第三章。6MB二、2×1050的情况。9MBk= 1283. 6× 106十四岁3MB8 .第八条。8×1053 .第三章。5MB(a) 基于一对大小为436×1024的图像的相关体积的大小和内存。大小是指元素的数量，相关卷存储在32位浮点数中。方法批次= 1批次= 2[第29话]10.6 GB20.0 GB我们6.1 GB9.3 GB(b) 在Sintel数据集上训练时的实际内存消耗。相关体积从1/4分辨率特征图构建。我们使用400×720的随机裁剪。批量大小设置为1和2。表3：内存消耗的结果。当k=1时，结果仍然是合理的，并且不会完全失效。我们还比较了1/ 4分辨率相关体积和1/ 8分辨率相关体积，我们可以看到，除了KITTI-15中的EPE之外，1/4分辨率相关体积在所有数据集上都给出了更好的结果由于大的相关体积是从更高分辨率的特征图中构建的，因此我们认为较大的相关体积更能描述图像细节，并且结果与我们的假设一致。我们进行的另一个实验是RAFT我们将前k个元素保留在相关体积中，并将其余元素设置为零。我们将k变为{1， 8， 32， 128}。在表2中，ReLU是指将所有负值设置为零，只保留正值相关性我们还使用原始代码进行了训练，该代码表示为我们可以看到，较大的 k 给出了更好的结果，k={32， 128}几乎达到了与稠密方法相同的性能。ReLU的性能甚至超过了KITT-15上的密集方法。这再次验证了我们的假设，即在当前的稠密方法中存在显著的冗余，并且具有足够大k的稀疏相关体也可以做得很好3.4. 内存消耗我们的方法处理稀疏相关体积不引入新的学习参数。我们网络中的参数数量为5。3 MB，与RAFT相同。给定一个大小为436× 1024的图像对，稀疏相关体和密集相关体的大小和内存都是有限的表3a列出了1/ 4和1/8分辨率的相关体积。当从1/ 8分辨率特征图构建相关卷时，我们的方法不会导致显著的内存节省。这是由于kNN搜索库的恒定2 GB内存开销，并且当分辨率较小时，相关卷不是内存瓶颈（当批大小= 1时为191 MB）。然而，我们的方法证明了一个明显的优势，当相关体积是从1/ 4分辨率的特征图的大小为436× 1024的图像训练时分辨率为1/4，随机裁剪400× 720的原始图像和批量大小= 1和2，我们的与RAFT相比，它占用了总内存的50%左右。结果见表3b。这展示了我们的方法在节省内存的有效性时，相关卷缩放到更高的分辨率。3.5. 限制将分辨率提高到1/ 4，我们观察到精细结构运动的持续改善（例如，竹序列在Sintel）。然而，通常用于总体评估的度量，平均EPE，被定义为偏向于大区域上的大运动我们的方法的一个由于模糊性，这样的特征通常具有大量的匹配，top-k可能不足以覆盖正确的匹配，并且可能给出误导的运动预测。图6中显示了一个示例故障情况。可以看出，红色头发包含显著的运动模糊，其中我们的前k个相关性不包含正确的匹配，因此导致不正确的预测。4. 相关工作光流首先用变分方法表述为连续优化问题[11]。随后的各种论文都致力于提高鲁棒性[2] 和能量项[35]，将描述符匹配纳入能量最小化[4]并改进正则化[26]。在小排量情况下，可以得到精确的流场.然而，它们的性能是有限的，在大位移，由于使用一阶泰勒近似。金字塔方法被开发来处理立体和光流中的大位移，由Quam等人开创。[25]第10段。传统方法构建高斯金字塔[5]并以粗略到精细的方式预测光流或立体。相比之下，深度光流方法[27，34，13，14，15，33，1，36，30]构建了一个特征金字塔，通过学习在不同层次上提取更具代表性的信息。然后，以从粗到细的方式预测光流。在每一级中构造具有有限搜索范围的局部相关体积，基于与来自前一级的上采样流一起翘曲的特征映射。这种方法限制了16600(a) 图1（b）图2（c）GT（d）RAFT（e）Ours图6：一个失败案例。当场景包含显著的无特征区域或运动模糊时，前k个相关性可能不包含正确的匹配并且可能导致不正确的流预测。然而，如在先前的工作[20，10，29]中所指出的，金字塔形扭曲方法在遮挡处可能具有重影效应。它们在处理小物体、大运动问题时也有局限性，并且精细级预测常常无法恢复在较粗糙级中产生的相比之下，我们的方法在单一分辨率下操作，并且不会遇到这样的问题。金字塔方法的目的是处理大的运动，同时保持内存成本小。然而，它们并不是处理大运动的唯一成功方法。在深度学习时代之前，光流估计通过求解马尔可夫随机场（MRF）被公式化为离散优化问题[3]。Chen等人[7]提出了一种具有距离变换的单一分辨率的一次性全局离散优化方法，然后使用连续优化进行改进。Menze等人[22]提出了通过近似最近邻搜索将每个像素的k个匹配我们的想法是类似的，在这个意义上，我们都限制搜索空间top-k，但不是解决MRF，我们提出明确构建一个稀疏的迭代体积，并使用迭代细化预测光流。主要的区别是，我们的最终解决方案不一定位于top-k解决方案空间，这提供了更好的遮挡处理。我们的想法也受到了最近关于学习寻找稀疏匹配的论文的启发，该论文提出先找到前k个匹配，然后再进行稀疏卷积。然而，我们不使用稀疏卷积，而是将稀疏相关体积转换为密集的十-排序与我们提出的多尺度位移编码器。RAFT [29]最近在深度光流估计方面取得了突破，提出在单一分辨率上构建密集的所有对相关体积，并采用递归网络迭代预测光流。由于存储容量的限制，特征图的分辨率被限制为原始图像分辨率的1/ 8我们的方法在三个主要方面与RAFT不同：1. 而不是构建一个密集的所有对的相关体积，我们构建一个稀疏的相关体积，其中只有前k个相关性被存储。这使得我们可以将空间复杂度从 O（N2）降低到O（N），其中N是指一个像素的像素数。形象2. 由于节省了内存成本，我们可以从更高分辨率的特征图（1/ 4 vs. 1/ 8）构建相关量，而不会限制搜索范围。这使得我们的方法能够准确地预测更精细结构的运动。3. 我们提出了一种新的迭代解码稀疏相关体的方法。我们不是在不同位置的密集相关体积中采样，而是迭代地更新稀疏相关体积的坐标，并应用5. 结论自RAFT [29]发表以来，由于其与金字塔方法相比的优越性能，使用全对（大位移）相关体积正成为求解光流的标准方法。然而，所有对成像体积的内存消耗随着像素数量的二次方增长，迅速限制了其处理高分辨率图像或捕获精细结构运动的能力我们观察到一个相当令人惊讶的事实，即只存储前k个相关性提供了几乎与存储密集相关性卷一样好的结果本文提出的稀疏相关体方法提供了一种存储全匹配信息的方法，在保证光流场准确预测的同时，大大减少了计算量。实验验证了稀疏相关体用于光流场估计的可行性。我们相信，我们的论文为未来的光流研究方向铺平了道路，其中相关体积的内存需求不再是一个限制因素。确认本研究部分由 ARC 机器人视觉卓越中心（ CE140100016 ）、 ARC Dis- 细化项目资助（ DP200102274）和（DP 190102261）资助。我们感谢所有评论者的宝贵意见。16601引用[1] 阿维拉姆·巴尔-海姆和里奥·沃尔夫Scopeflow：光流的动态场景范围。CVPR，2020年。五、七[2] 迈克尔·J·布莱克和帕德马纳班·阿南丹。一个光流鲁棒估计的框架。ICCV，1993年。7[3] 尤里·博伊科夫和弗拉基米尔·科尔莫戈洛夫。最小割/最大流算法在视觉能量最小化中的实验比较TPAMI，2004年。8[4] Thomas Brox，Christoph Bregler，and Jitendra Malik.大位移光流。CVPR，2009年。第1、7条[5] 彼得·伯特和爱德华·阿德尔森。拉普拉斯金字塔作为一个紧凑的图像代码。 IEEETransactions oncommunications，1983. 7[6] D. J. Butler，J. Wulff，G. B. Stanley和M. J·布莱克。一个用于光流评估的自然主义开源电影ECCV，2012年。5[7] Qifeng Chen和Vladlen Koltun。全流：通过规则网格上的全局优化进行光流估计。CVPR，2016. 1、8[8] ChristopherChoy ， JunYoungGwak ， andSilvioSavarese.4D时空卷积神经网络：Minkowski卷积神经网络。CVPR，2019年。3[9] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。ICCV，2015年。一、三、五[10] MarkusHofinger ， SamuelRotaBulo` ， LorenzoPorzi ，ArnoKnapitsch，Thomas Pock，and Peter Kontakeder.在金字塔层次上改进光流。ECCV，2020年。8[11] Berthold KP Horn和Brian G Schunck。确定最佳流量。图像理解的技术和应用，1981年。第1、7条[12] Asmaa Hosni ， Christoph Rhemann ， Michael Bleyer ，Carsten Rother，and Margrit Gelautz.快速的成本-体积过滤，用于视觉对应和超越。TPAMI，2012年。1[13] Tak-Wai Hui，Xiaoou Tang，and Chen Change Loy. Lite-flownet：一个用于光流估计的轻量级卷积神经网络。CVPR，2018年。一、二、七[14] Tak-Wai Hui，Xiaoou Tang，and Chen Change Loy.一种轻量级光流法--数据保真与正则化。TPAMI，2020年。五、七[15] 许俊华和斯特凡·罗斯。联合光流和遮挡估计的迭代残差细化CVPR，2019年。三五七[16] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的发展。CVPR，2017年。一、三、五[17] 我是约翰逊，马修·杜兹，还有她是我的。使用GPU进行十亿级相似性搜索。 arXiv 预印本 arXiv ：1702.08734，2017。三，五[18] Alex Kendall，Hayk Martirosyan，Saumitro Dasgupta，Peter Henry，Ryan Kennedy，Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习ICCV，2017年。1[19] Daniel Kondermann ， Rahul Nair ， Katrin Honauer ，Karsten Krispin ， Jonas Andrulis ， Alexander Brock ，Burkhard Gusse- feld ， Mohsen Rahimimoghmann ，Sabine Hofmann ， Claus Brenner ， et al. The hcibenchmark suite ： Stereo and flow ground truth withuncertainty for urban autonomous driving.CVPR研讨会，2016年。5[20] Yao Lu，Jack Valmadre，Heng Wang，Juho Kannala，Mehrtash Harandi，and Philip Torr.Devon：用于学习光流的可变形体积网络。WACV，2020年。1、8[21] N.Maye r ， E. Ilg ， P.Hausser ， P.Fische r ， D.Cremers，A. Dosovitskiy和T.布洛克斯一个大型数据集，用于训练用于视差、光流和场景流估计的卷积网络。CVPR，2016. 5[22] Moritz Menze，Christian Heipke，and Andreas Geiger.光流离散优化。GCPR，2015年。1、8[23] Moritz Menze，Christian Heipke，and Andreas Geiger.车辆与场景流联合三维估计。ISPRS图像序列分析研讨会（ISA），2015年。5[24] Adam Paszke，Sam Gross，Soumith Chintala，GregoryChanan，Edward Yang，Zachary DeVito，Zeming Lin，Al-ban Desmaison ， Luca Antiga ， and Adam Lerer.pytorch中的自动微分。NIPS研讨会，2017年。5[25] 关颖珊。层次曲速立体声。计算机视觉读物，1987年。7[26] Rene 'Ranftl，Kristian Bredies和Thomas Pock。光流估计的非局部全广义变分。ECCV，2014年。7[27] 孙德清，杨晓东，刘明宇，扬·考茨。Pwc-net：使用金字塔，扭曲和成本体积的光流的Cnns。CVPR，2018年。一、二、七[28] 孙德清，杨晓东，刘明宇，扬·考茨。模型很重要，训练也很重要：cnn用于光流估计的实证研究。2019年，泰国旅游协会。5[29] 扎卡里·提德和贾登。Raft：光流的ECCV，2020年。一、二、三、四、五、六、七、八[30] Jianyuan Wang ， Yiran Zhong ， Yuchao Dai ， KaihaoZhang，Pan Ji，and Hongdong Li.精确光流估计的位移不变匹配成本学习。NeurIPS，2020年。五、七[31] Jia Xu，Rene 'Ranftl，and Vladlen Koltun.通过直接成本体积处理实现精确光流。CVPR，2017年。1[32] 李旭，贾佳雅，松下康之。保持运动细节的光流估计。TPAMI，2011年。1[33] 杨庚山和德瓦·拉玛南。光流的体积 NeurIPS，2019年。一、二、五、七[34] 尹智超，特雷弗·达雷尔，于菲。用于匹配密度估计的分层离散分布分解。CVPR，2019年。一，五，七[35] 克里斯托弗·扎克托马斯·波克霍斯特·比肖夫实时tv-l1光流的一种基于对偶的方法。联合模式识别研讨会，2007年。7[36] Shengyu Zhao ， Yilun Sheng ， Yue Dong ， Eric IChang ， Yan Xu ， et al. Maskflownet ： Asymmetricfeature matching with learnable occlusion mask. CVPR，166022020年。一、五、六、七

下载后可阅读完整内容，剩余1页未读，立即下载