DEQ-RAFT光流估计器：深度平衡、高效准确，替代循环算法

106 浏览量更新于2023-10-25 收藏 12.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

TTTTT30.814.613.812.752.58Truth6200深度平衡光流估计0Shaojie Bai 1* Zhengyang Geng 2* Yash Savani 1 J. Zico Kolter 1,301 卡内基梅隆大学 2 北京大学 3 Bosch AI中心0{shaojieb,ysavani,zkolter}@cs.cmu.edu zhengyanggeng@gmail.com0nstep = 1，EPE = 23.350DEQ-RAFT0nstep = 3，EPE = 10.330DEQ-RAFT0nstep = 7，EPE = 2.950DEQ-RAFT0nstep = 10，EPE = 2.150DEQ-RAFT0nstep = 11，EPE = 2.080DEQ-RAFT0帧0nstep = 1，EPE = 30.810RAFT0nstep = 3，EPE = 14.610RAFT0nstep = 7，EPE = 3.810RAFT0nstep = 10，EPE = 2.750RAFT0nstep = 11，EPE = 2.580RAFT0地面真值0图1.深度平衡（DEQ）光流估计器直接将光流建模为一种与路径无关的“无穷级”固定点求解过程。我们建议使用这种隐式框架来替代现有的循环方法进行光流估计。DEQ光流收敛更快，需要更少的内存，通常更准确，并且与先前的模型设计（例如RAFT [1]和GMA [2]）兼容。0摘要0许多最新的光流模型使用有限步骤的循环更新操作来模拟传统算法，通过鼓励迭代细化以获得稳定的光流估计。然而，这些循环神经网络会带来大量的计算和内存开销，并且不能直接训练以建模这种“稳定估计”。它们可能收敛不良，从而导致性能下降。为了解决这些缺点，我们提出了深度平衡（DEQ）光流估计器，这种方法直接将光流作为隐式层的无穷级固定点来求解（使用任何黑盒求解器）[3]，并通过这个固定点进行解析微分（因此需要O（1）的训练内存）。这种隐式深度方法不依赖于任何特定的模型，因此可以应用于各种最新的光流估计模型设计（例如RAFT [1]和GMA[2]）。使用这些DEQ光流估计器可以更快地计算光流，例如使用固定点重用和不精确梯度，与循环对应物相比，消耗的训练内存少4�6倍，并且在相同的计算预算下取得更好的结果。此外，我们提出了一种新颖的稀疏固定点校正方案来稳定我们的DEQ光流估计器，这解决了DEQ模型普遍存在的一个长期挑战。我们在各种实际设置中测试了我们的方法，并展示了它在Sintel和KITTI数据集上以更好的计算和内存效率改进了SOTA方法。0* 相等贡献。我们的代码在这里可用。01. 引言0光流估计是经典的计算机视觉任务，用于预测视频帧之间的像素级运动[1,4-7]。基于学习的方法在这个问题上取得了优于传统方法的表现，提出了使用传统的深度卷积网络来学习光流估计[6-8]。最近的进展表明，有限步骤的展开和循环更新操作显著改善了估计性能，RAFT[1]方法的出现是一个例证。采用这种方法的当代光流模型通常依赖于门控循环单元（GRU）[9]来迭代地细化光流估计。这种方法的动机是模拟传统的基于优化的方法，并相应地定义了更新操作符，已成为最先进的光流模型的标准设计[1, 2,10-12]。尽管这些展开的循环网络具有更好的性能，但它们也存在一些缺点。首先，训练这些模型需要在反向传播通过时间（BPTT）算法中跟踪长时间的隐藏状态历史，这会产生显著的计算和内存负担。因此，这些模型在处理更大的图像和更多迭代时往往扩展性较差。其次，尽管这些模型旨在模拟以所需的步骤数解决“稳定估计”的传统优化方法，但循环网络并不直接建模这种最小能量最优状态。相反，它们在预定义的L个更新步骤之后停止，并且仍然使用BPTT以路径相关的方式进行训练。我们还在图3中展示了GRU经常振荡而不是收敛的情况。6210在这项工作中，我们介绍了基于最近在隐式深度学习中取得的进展的深度平衡（DEQ）流估计器，这些进展由DEQ模型[3,14-17]代表。我们的方法作为一种优越且自然的框架，可以替代现有的基于展开的流估计方法。有多个原因使得这种方法更可取。首先，DEQ模型不再依赖于天真的迭代层堆叠，而是将其输出定义为单个层fθ的固定点，使用输入x，即z�=fθ(z�,x)，模拟了“无限层”的平衡表示。我们可以使用专门的黑盒求解器（例如拟牛顿方法[18,19]）直接求解固定点，这与传统的基于优化的观点[5,20]更加一致。这种方法加快了稳定的流估计过程，通常会产生更好的结果。其次，我们不再需要执行BPTT。相反，DEQ模型可以直接通过最终的固定点z�进行微分，而无需在前向计算过程中存储中间状态，大大降低了训练内存成本。第三，这种固定点形式证明了许多隐式网络增强的合理性，例如1）从相邻视频帧重用固定点；和2）不精确的梯度[21-23]。前者有助于避免冗余计算，从而大大加速了流估计；后者使得反向传播的计算几乎是免费的！第四，DEQ方法不依赖于fθ的任何特定结构。因此，DEQ是一个适用于各种这些SOTA流估计模型设计（例如RAFT [1]，GMA[2]和Depthstillation[24]）的框架，并且我们可以根据fθ的特定结构获得上述计算和内存优势。0除了将DEQ流估计器作为现有循环方法的优越替代品之外，我们还解决了训练DEQ网络的长期不稳定性挑战[3, 15, 25,26]。受RAFT模型的启发，我们提出了一种新颖的稀疏固定点校正方案，大大稳定了我们的DEQ流估计器。0本文的贡献如下。首先，我们提出了深度平衡（DEQ）方法作为光流方法建模的新的自然起点。DEQ方法直接建模并大大加速了流估计过程的固定点收敛，避免了视频帧之间的冗余计算，并且几乎不需要反向传播。其次，我们展示了DEQ方法与先前的建模工作（专注于模型设计和特征提取）[1,2]和数据相关工作[10]是正交的，因此是兼容的。使用DEQ，这些先前的方法在计算和内存效率以及准确性方面都得到了提高。例如，在KITTI-15[27]（训练集）上，基于DEQ的零样本RAFT模型将最先进的F1-all度量进一步降低了14.0％，同时使用相同的基础RAFT模型。0第三，我们引入了一种稀疏固定点校正方案，该方案在光流问题上显着稳定了DEQ模型，同时只增加了最小的成本，并且在流估计任务上表现优于最近提出的基于雅可比矩阵的正则化方法[26]。02. 相关工作0迭代光流。尽管光流是一个经典问题，但最近在这个领域取得了实质性的进展。早期的方法[5,28-31]使用连续优化将光流预测制定为能量最小化问题，使用不同的目标项。这种观点启发了多个改进，使用离散优化来建模光流，即基于条件随机场[32]、全局优化[33]和在全局4D成本体积上的推理[34]。最近，随着深度学习的进步，有许多努力试图通过深度神经网络来模拟这些优化步骤。例如，许多光流方法基于依赖于粗到细金字塔的深度架构[6, 8,35-39]。具体而言，最近的研究工作转向了迭代细化，通常涉及堆叠多个直接流预测模块[38,40]。RAFT模型[1]，这项工作的灵感来源，首次展示了他们可以使用相关体积和卷积GRU更新算子在光流任务上实现最先进的性能，该算子模拟了传统优化器的行为，倾向于收敛到稳定的流估计。在RAFT的循环展开框架之上，江等人[2]在循环阶段之前引入了一种额外的自注意式全局运动聚合（GMA）模块，以改善遮挡的建模。另一项当代工作AutoFlow[10]利用双层优化来自动渲染和增强光流的训练数据。最后，江等人[41]提出通过将密集相关体积替换为稀疏替代品来加速这些流估计器。本文的重点是与这些建模工作在很大程度上正交且互补的方向。我们挑战并改进了“默认”的循环展开流估计器的公式化。借助隐式深度学习的最新进展（见下文），我们可以保持相同的收敛流估计公式，同时付出更少的计算和内存成本。0隐式深度学习。最近的研究提出了一类新的深度学习架构，这些架构不像传统网络那样具有预定义的计算图或分层堆叠的层次结构。相反，这些隐式网络的输出通常被定义为底层动力系统的解[3, 17, 25, 42,43]。例如，神经ODEs[25]将残差块建模为ODE流。深度平衡（DEQ）网络[3]（本文主要受到其启发）是另一类隐式模型，它直接求解浅层fθ（例如，Transformer块）的固定点表示，并通过这个固定点进行微分，而在前向传递中不存储中间状态。这使得可以使用恒定的内存训练隐式网络，同时完全解耦训练的前向和后向传递。然而，已知这些隐式模型存在一些严重的问题，这些问题已经被后续的研究所研究，例如计算效率低[25, 44]，不稳定性[3, 25, 26]和缺乏理论收敛保证[15,16]。值得一提的是，后续的研究也表明，基于DEQ的模型在语言建模[3]、生成建模[45]、语义分割[14]等具有挑战性的任务上可以取得竞争性的结果。然而，据我们所知，这些隐式模型尚未应用于光流估计任务。在本文中，我们展示了这个任务也可以从DEQ的公式中获益。residual block as an ODE flow. A deep equilibrium (DEQ)network [3] (which this work is primarily inspired by) isanother class of implicit model that directly solves for afixed-point representation of a shallow layer fθ (e.g., , aTransformer block) and differentiates through this fixed pointwithout storing intermediate states in the forward pass. Thisallows one to train implicit networks with constant memory,while fully decoupling the forward and backward passes oftraining. However, it is known that these implicit modelssuffer from a few serious issues that have been studied bylater works, such as computational inefficiency [25, 44],instability [3, 25, 26], and lack of theoretical convergenceguarantees [15, 16]. On a positive note, followup works havealso shown that DEQ-based models can achieve competitiveresults on challenging tasks such as language modeling [3],generative modeling [45], semantic segmentation [14], etc.However, to the best of our knowledge, these implicit modelshave not been applied to the task of optical flow estimation.In this paper, we show that this task could substantiallybenefit from the DEQ formulation as well.62203. 方法0我们首先介绍现有流量估计器的一些准备工作。这些模块通常直接应用于原始图像对，然后将提取的表示传递到迭代细化阶段。我们以RAFT[1]作为示例，但需要注意的是，尖端的流量估计器通常具有类似的结构（即用于上下文提取和视觉相关计算）。03.1. 准备工作0给定RGB图像对p1，p2∈R3×H×W，光流估计器旨在学习对应关系f∈R2×H×W0在两个坐标网格c1，c2之间存在一个描述连续帧之间每个像素运动的像素运动f = c2 -c1，其中dx和dy分别描述了水平和垂直方向上的运动。为了处理匹配的图像对，我们首先对p1，p2的特征u1，u2∈RC×H×W进行编码，并从第一张图像p1中产生一个上下文嵌入q。然后，我们构造一组金字塔全局相关张量C =�C0，∙∙∙，Cp−1�，其中Ck∈RH×W×H/2k×W/2k通过首先计算u1和u2中所有超像素对之间的内积得到，即C0，即0C0ijmn = 0d u 1 ijd u 2 mnd (1)0然后将最后两个维度下采样以生成Ck（k>0）。将相关金字塔C和上下文嵌入q作为输入传递到迭代细化阶段。在本文中，我们保持相关和上下文计算部分不变（见图2），并集中在迭代上。0细化阶段。我们建议感兴趣的读者参考Teed和Deng[1]对特征提取过程的更详细描述。03.2. 深度平衡流量估计器0由于流量估计任务的固有挑战，先前的研究表明，显式神经网络很难准确预测流量，需要大量的训练迭代[6]。最近的研究[1, 2,24]采用了模仿传统基于优化的算法[5]的RNNs（例如convGRUs）。然而，这些方法在某些方面仍然与传统方法有很大的不同。例如，基于优化的方法1）具有自适应和明确定义的停止准则（例如，每当它们达到最优点时）；2）对求解器的选择是不可知的（例如，一阶或二阶方法）；3）本质上是路径无关的（即，仅需要输出本身）。这些属性都不能直接由递归网络的有限步展开来表征。我们提出用DEQ方法来弥合这个差距。具体而言，给定上下文嵌入q和金字塔相关张量C，DEQ流量估计器同时解决了两个交替流的收敛的固定点：1）潜在表示h，它构造流量更新；2）流量估计f本身，其更新通常如下所示：0h [t +1] = H（h [t]，f [t]，q，C）f [t +1] =F（h [t +1]，f [t]，q，C）。（2）0这个公式捕捉了突出的流估计器模型设计的形式，如RAFT[1]或GMA [2]。形式上，输入x =（q，C）和模型参数fθ=（H，F）共同定义了一个动力系统，DEQ流模型可以直接使用以下流更新方程在其正向传递中解决固定点：0（h �，f �）= z � = fθ（z �，x）= fθ（（h �，f �），x）。（3）0直观地说，这对应于一个“无限深度”的特征表示z�，如果我们执行一次流更新步骤fθ，流估计f和潜在状态h都不会改变（从而达到一个固定点，即一个“平衡”）。重要的是，我们可以利用更先进的根求解方法，如拟牛顿方法（例如Broyden方法[18]或Anderson混合[19]），来找到这个固定点。这些方法保证了比无限多次天真展开步骤（如循环网络所做的，但由于计算和内存限制只能进行有限次数的步骤）更快（超线性）和更高质量的收敛。此外，我们注意到，前期关于隐式网络的工作表明，fθ的确切结构包含了各种模型设计，例如4D Correlation Volumes Ckui+1). . .z[0] =h[0]h[0](4)Theorem 1. (Implicit Function Theorem (IFT) [3, 51])Given the fixed-point flow representation z∗ = (h∗, f ∗), thecorresponding flow loss L(h∗, f ∗, fgt) and input x = (q, C),the gradient of DEQ flow is given by∂L∂θ = ∂L∂z∗�I − ∂fθ∂z∗�−1 ∂fθ(z∗, x)∂θ(5)For the proof, see Bai et al. [3]. Importantly, this theoremenables us to decouple the forward and backward passesof a DEQ flow estimator; i.e., to perform gradient update,we only need the final output z∗ and do not need to runbackpropagation-through-time (BPTT). It means a hugememory reduction: whereas an L-step recurrent flow estima-tor takes O(L) memory to perform BPTT, a DEQ estimatorreduces the overhead by a factor of L to be O(1) (e.g., RAFTuses L = 12 for training, so using a DEQ flow can theoreti-cally reduce the iterative refinement memory cost by 12×).To summarize, a DEQ flow’s forward pass directly solvesa fixed-point flow-update equation via black-box solvers;and its backward pass relies only on the final optimum z∗,which make this flow estimation process much more akin tothe optimization-based perspective [5].3.3. Accelerating DEQ FlowsFormulating optical flow estimation as a deep equilibriumsolution also enables us to fully exploit the toolkit fromimplicit deep learning. We elaborate below on examples ofhow this equilibrium formulation can substantially help usimprove the forward and backward pipeline and significantlysimplify the overall overhead of modern flow estimators.Inexact Gradients for Training DEQs.Despite the nice-ness of the implicit function theorem (IFT), inverting theJacobian term could quickly become intractable as we dealwith high-dimensional feature maps. To combat this, Baiet al. [3] proposed exploiting fast vector-Jacobian productsand solving a linear fixed-point system g⊤ = g⊤ ∂fθ∂z∗ + ∂L∂z∗ .However, this approach is still iterative in nature, and in prac-tice, it is no cheaper than the forward flow solving process.Recent works on implicit networks’ backward dynam-ics [21–23] suggest that they can typically be trained, andeven benefit from, simple approximations of the IFT, whilestill modeling an “infinite-depth” representation through thefixed-point forward pass. That is, we do not need the exactsolution to Thm. 1 to train these networks. Instead we use∂L∂θ ≈�∂L∂θ = ∂L∂z∗ A∂fθ(z∗, x)∂θ(6)where A is a Jacobian (inverse) approximation term. For ex-ample, [21, 22] proposes to use A = I (i.e., Jacobian-free),which simplifies the backward pass of a DEQ flow estimatorto a single step computation ∂L∂θ ≈∂L∂z∗∂fθ(z∗,x)∂θ. There-fore, unlike the BPTT-based recurrent framework used byexisting flow estimators, a DEQ flow estimator’s backwardpass that uses inexact gradient consists of a single step (andthus is almost free)! Empirically, since we almost eliminatethe backward pass cost, the inexact gradients significantlyreduce the total training time for DEQ flow estimator furtherby a factor of almost 2×. The capability of using inexactgradients is a direct and unique consequence of the fixed-point formulation and assumes a certain level of stability for6230Frame i0Frame i0Frame i + 10h∙，∙i0u i0q i ContextNetwork0Feature Network0Correlation + Context Modules0L-step ConvGRU0h [L]0= z �0Anderson solver0Broyden solver0Newton solver L（f �，f gt）0f [0]0Forward passBackward pass0f [0]0rrent (Unrolled) Flow（e.g., RAFT）0Deep supervision: L（f [t]，f gt）for t < L0（Forward: Any solver; Backward: IFT (+inexact gradient)（Forward: Iterative unrolling; Backward: BPTT0x =（q，C）x =（q，C）0x =(q,C)0图2.DEQ流估计器和循环展开流估计器的视觉比较。在相关性和上下文模块之后（见第3.1节），DEQ流使用快速的黑盒固定点求解器（例如Anderson）直接解决稳定（固定点）流z�=（h�，f�），并通过廉价的不精确梯度对z�进行微分。这使得DEQ流的反向传递几乎是免费的。相比之下，循环流估计器必须展开多个步骤，并且需要执行BPTT，这在计算和内存方面都是昂贵的。0Transformer block [3, 46]，a residual block [14, 47]，or agraph layer [48–50]。Similarly, for the deep equilibriumflow estimator, Eq. (2) engulfs exactly the designs ofstate-of-the-art optical flow models, which we follow anduse without modification. For example, for RAFT [1]，0x = Conv2d�[q，f�，C（f�+c0）]�0h � = ConvGRU（h �，[x，q]）f �= f � + Conv2d（h �），0其中C（f�+c0）表示与RAFT[1]中的相关性查找相同。我们还在附录中展示了GMA[2]可以以类似的更新形式轻松编写。关键问题是，我们如何更新和训练DEQ流估计器。事实证明，我们可以直接通过这个“无限级别”的流状态（h�，f�）进行微分，而不需要对正向固定点轨迹有任何了解：0...0z⇤0 = [h⇤0|f ⇤0 ] =z[0]0 = [h[0]0 |f [0]0 ] =h⇤0f ⇤0h⇤0f ⇤0z[0]1 =...h⇤1f ⇤1z[0]2 = h⇤1f ⇤1...h⇤2f ⇤2z[0]3 = h⇤2f ⇤2Solver trajectory..Solver trajectorySolver trajectoryf ⇤3z[0]4 = h⇤3f ⇤3...h⇤4f ⇤4(7)∂Lcor∂θ≈ γ ∂Lcor∂z[i]∂fθ(z[i], x)∂θ.(8)6240...和更快的后续帧0较慢的第0帧...0重用0重用0重用0求解器轨迹0求解器步骤0视频帧0图3.（左）通过重用前一帧的光流估计的固定点z�，我们可以“启动”后续的平衡求解，从而分摊求解器的成本并加速收敛。（右）比较DEQ和循环流估计器在Sintel视频（50帧）上的前向收敛。“DS”代表RAFT [1]使用的深度监督。具有固定点重用的DEQ流收敛最好；总体上，DEQ流的收敛速度比RAFT [1]快。0这些估计的稳定性的一个长期挑战是不断增长的不稳定问题。简而言之，由于DEQ流估计器没有离散的层（或步骤），它们在训练过程中很难收敛。换句话说，稳定的光流估计z � = ( h � , f �)可能变得计算成本很高。这表明光流估计过程在训练过程中变得更慢。在这项工作中，我们提出了稀疏地应用固定点修正项来稳定DEQ流的收敛。形式上，假设黑盒求解器（例如Broyden方法）产生一个收敛路径（z [0]，...，z [ i ]，... z �），其中z [0]0DEQ流的稀疏固定点修正。训练隐式网络的一个长期挑战是不断增长的不稳定问题。简而言之，由于DEQ流估计器没有离散的层（或步骤），它们在训练过程中很难收敛。换句话说，稳定的光流估计z � = ( h � , f �)可能变得计算成本很高。这表明光流估计过程在训练过程中变得更慢。在这项工作中，我们提出了稀疏地应用固定点修正项来稳定DEQ流的收敛。形式上，假设黑盒求解器（例如Broyden方法）产生一个收敛路径（z [0]，...，z [ i ]，... z �），其中z [0]0是初始猜测，z � 是最终的光流估计。然后我们随机选择z [ i ] =( h [ i ] , f [ i ])在这条路径上（例如可以均匀间隔），并定义我们的总损失为0L total = L main + L cor = ∥ f � − f gt ∥ 2 2 �主要损失0+ γ ∥ f [ i ] − f gt ∥ 2 2 � �� 固定点修正0其中γ <1是一个损失权重超参数。这受到了传统流估计器（如RAFT[1]）中密集逐步深度监督的启发。然而，我们这里的应用有两个重要的不同之处。首先，我们以一种稀疏的方式应用它，我们的主要目标是纠正不稳定性。其次，与RAFT不同，后者通过RNN链执行昂贵的BPTT，这个固定点修正损失仍然是路径无关的，可以理解为粗粒度的固定点估计。因此，我们也可以对这个修正损失进行不精确的梯度更新；即0根据经验，我们发现这显著稳定了DEQ流估计器，同时对性能没有明显的负面影响。这个结果与现有的方法形成了鲜明的对比。0与Jacobian正则化等稳定方法相比[26，53]，我们的方法只在z�上局部应用，并且通常会损害模型的准确性（见第4节的消融研究）。此外，由于方程（8）中的不精确梯度，我们的方法几乎不增加额外的计算或内存成本。虽然我们在这里的范围仅限于流估计，但我们相信这种方法提供了一种潜在有价值且轻量级的解决方案，用于解决隐式模型的通用不稳定性问题，这是我们留给未来工作的。0为了更好地初始化，固定点重用。DEQ流估计器的独特公式还继承了一些有用的性质，这些性质来自于一般的优化框架。其中一个好的性质是能够执行固定点重用，以进一步加速流估计的收敛。这样做的动机是因为视频的连续帧通常高度相关。例如，前景中可能只有几个物体在移动，而其他大部分内容和背景在这些相邻帧中几乎是相同的。更正式地说，如果p i，p i +1和p i+2是3个连续的视频帧，那么真实的光流f i（在p i和p i+1之间）通常与下一个真实的光流f i+1高度相关。因此，当我们使用像FlowNet [6]和RAFT[1]这样的传统网络进行实时流估计时，我们经常执行大量冗余计算。相比之下，使用DEQ流，我们可以将上一帧的固定点解z � i（估计f i）作为后续帧固定点求解器的初始猜测z[0] i+1。直观地说，这些DEQ流能够通过利用这个更加明确的初始猜测来自动调整它们的前向优化，从而促进收敛速度。它将流估计的成本分摊到长视频序列上，因为只有第0帧需要完整的固定点求解，而其余帧都可以重用其前一帧的光流。我们注意到，这种重用与RAFT[1]的预热方案相关，但仍然有所不同，后者仅适用于f，不包括h，并且仍然需要展开多个步骤。在我们的情况下，因为DEQ流直接模拟了一个6250固定点，通过利用视频数据的归纳偏差，这种自适应计算是合理的。图3显示了在Sintel视频序列上重复使用固定点的实用性。通过重复使用固定点，我们可以将DEQ流估计器的推理速度进一步加速约1.6倍。有趣的是，虽然RAFT的迭代展开旨在模拟迭代收敛，但我们发现其激活通常在大约15次更新迭代后震荡在相对较高的水平上。总结一下，传统的循环流估计器（如RAFT）需要展开L步并通过相同的L步链进行反向传播，而深度平衡流估计器：1）利用IFT，仅需要O（1）的训练内存，2）使用不精确的梯度将反向传递减少为O（1）的计算，3）可以利用相邻帧之间的相关性将流估计成本分摊到长序列中，从而显着加速前向传递。04. 实验0我们在本节中展示了实验结果。具体而言，我们突出了DEQ流估计器的计算和内存效率，并分析了固定点校正如何改善DEQ流。我们的方法在MPI Sintel [54]数据集和KITTI 2015[27]数据集上实现了最先进的零样本性能，F1-all得分减少了惊人的12.9％，EPE提高了6.6％（同时仍然使用与RAFT[1]类似的训练预算）。04.1. 结果0我们的定量评估结果如表1所示。按照之前的工作[1,2]，我们首先在FlyingChairs [6]和FlyingThings3D[55]数据集上预训练DEQ流模型。然后，我们在MPI Sintel[54]和KITTI 2015[27]数据集的训练集上测试模型。该模型被称为“C +T”，评估了DEQ流模型的零样本泛化能力。然后，我们在FlyingThings3D [55]、MPI-Sintel [54]、KITTI 2015[27]和HD1K[56]上对DEQ流估计器进行微调，用于测试提交。我们训练的模型与RAFT（5.3M）[1]和GMA（5.9M）[2]的大小完全相同，只是使用DEQ流形式而不是循环更新。它们分别被称为DEQ-RAFT-B和DEQ-GMA-B。利用DEQ流模型的内存效率（参见第4.2节），我们可以将更大的模型适应于两个11GB 2080TiGPU的相同计算预算中。为此，我们还通过增加更新算子内部隐藏层的宽度训练了DEQ-RAFT-L（8.4M）和DEQ-RAFT-H（12.8M）。我们还通过复制fθ中的ConvGRU训练了DEQ-RAFT-D（9.4M）。如图5所示，即使是最大的DEQ-RAFT-H模型，其流估计内存消耗也只占用了不到一半0通过标准尺寸的RAFT模型，同时在KITTI-15上实现了显著更好的准确性（AEPE为4.38，F1-all得分为14.9，请参见表1）。04.2. 性能-计算折衷0我们进一步验证了DEQ流模型在Sintel（清洁）[54]数据集上的计算和内存优势，该数据集使用基于RAFT的更新算子（参见公式（4））在FlyingChairs [6]和FlyingThings3D[55]上进行训练。结果如图5所示。具体而言，当使用每个GPU 3个批次（RAFT能够适应的最大批次数，每个GPU11GB）在Sintel上训练DEQ流估计器时，我们观察到流估计过程的内存成本减少了超过4倍（红色柱状图）。请注意，由于我们保持模型的其余部分不变（例如，相关金字塔和上下文提取；参见第3.1节），DEQ流估计器不会改善内存负担的其他部分，这现在成为新的主要内存开销来源。此外，当我们使用模型进行推理时，我们遵循Teed和Deng[1]的方法，对RAFT使用32个循环步骤（带有热启动），对DEQ-RAFT使用Anderson求解器（带有重用），如果相对残差低于ε =10-3，则停止。我们的结果表明，DEQ流收敛到准确的解，并且在实践中比具有相同结构和大小的RAFT模型快约20％（蓝色柱状图）。最后，我们展示了我们可以利用这种内存节省来构建更大更准确的流估计器（DEQ-RAFT-H），同时仍然在计算和内存预算范围内。04.3. 消融研究0在本小节中，我们旨在回答以下问题：1）与规范IFT相比，固定点校正对性能、稳定性和速度有多大帮助？2）DEQ流的收敛性如何与流估计的质量相关？与第4.2节中一样，我们使用RAFT[1]的模型设计来实例化我们的DEQ流。默认情况下，我们使用FlyingChairs[6]数据集上的默认训练超参数进行消融实验，并报告其验证集上的平均端点误差（AEPE）。0通过固定点校正稳定DEQ。如第3.3节所述，未正则化的规范DEQ模型（以及其他隐式网络如神经ODE[25]）通常会遇到不断增长的不稳定问题，通常表现为越来越昂贵的前向固定点求解过程。我们进行了一项消融实验，研究我们提出的稀疏固定点校正方案如何帮助缓解这个问题。为了理解该方案的效果，我们使用Anderson[19]和Broyden[18]求解器分别进行36和24次前向迭代训练DEQ流模型。为了简化，我们将求解器收敛轨迹均等地分为r+1个段（其中r030.820.840.860.880.900.92CorrectionIFT0323456CorrectionIFT030.820.840.860.880.900.92CorrectionIFT0310203040506070CorrectionIFTstability). As shown in Fig. 4, our proposed fixed-point cor-rection significantly outperforms the standard IFT trainingprotocol by about 9%, and reduces the fixed-point error bya conspicuous margin, e.g., over 60%. Moreover, we findt

下载后可阅读完整内容，剩余1页未读，立即下载