没有合适的资源?快使用搜索试试~ 我知道了~
5150DCVNet:用于快速光流的扩张成本体积网络东北大学Boston,MA02115电子邮箱:h.jiang@northeastern.eduErik Learned-Miller马萨诸塞大学阿默斯特分校Amherst,MA01003elm@cs.umass.edu摘要捕获跨两个输入图像的可能对应的相似性的成本当对对应进行采样以构建成本体积时,需要大的邻域半径来处理大的位移,从而引入显著的计算负担。为了解决这个问题,通常采用成本体积的粗到细或递归处理,其中具有小半径的局部邻域中的对应采样就足够了。在本文中,我们提出了一种替代方案,通过构建不同的膨胀因子的成本卷,以同时捕获小位移和大位移。一个有sikp con的U网PWC-Net筏DCVNet(Ours)dilution:D成本量⋯GRU光流光流光流采用关联将膨胀的成本体积转换为所有可能的捕获位移之间的插值权重,以获得光流。我们提出的模型DCVNet只需要处理一次成本量在一个简单的前馈方式,而不依赖于顺序处理策略。DCVNet获得了与现有方法相当的精度,并实现了实时推理(在中端1080tiGPU上为30 fps)。1. 介绍光流场作为一个密集匹配问题,是关于估计两个连续视频帧之间每个像素这是计算机视觉中一个经典且长期研究的问题,可以追溯到20世纪80年代初[8]。光流在广泛的其他问题中有应用,例如场景流估计[23],动作识别[25]以及视频编辑和合成[3]。与许多其他计算机视觉问题一样,光流估计的最新方法都基于深度神经网络。然而,在开始时,光流的深度为了缩小性能差距,一种方法是堆叠多个网络以增加容量,图1. 我们所提出的模型,DCVNet,COM-与现有的两个代表性的方法的说明。 DCVNet是现有方法的替代方案,它不需要对成本量进行顺序处理。其核心思想是构造具有不同膨胀率的成本体积,以同时捕获小位移和大位移它在中端1080ti GPU(30 fps)上实现了实时推理,并具有与现有方法相当的精度[12]这是一个很大的进步。然而,网络容量的增加导致了巨大的网络和较慢的推理。从[24]开始,越来越多来自传统最优流量估计方法的经典原理被纳入神经网络设计中特别是,成本体积,这是一个更有区别性的表示光流相比,级联的特征表示的两个图像,现在是一个重要组成部分的国家的最先进的方法。为了构建成本量,我们需要沿着水平和垂直方向对邻域中两个输入图像之间的位置对进行采样,以计算它们的相似度(或成本)。需要大的邻域来捕获大的位移,但是这导致非常大的成本体积和显著的计算负担。结论成本量成本数量金字塔第一⋯convconvconv成本数量金字塔N成本数量金字塔第0经纱经纱成本量扩张:1成本量扩张:2conv5151×目前,为了计算效率,大多数现有模型通过使用具有小邻域的成本体积以顺序方式捕获大位移。具体来说,从粗到精的策略在最先进的进步中被广泛采用[29,11,36,32],其中建立了基于深度卷积神经网络(CNN)的特征层次结构的金字塔在每一层金字塔中,前一层的光流估计被用于构造具有扭曲操作的成本体积。尽管在最近的开创性工作[30]中构建了全范围成本量,但采用递归神经网络(RNN)仅处理每次递归时具有小邻域的部分在本文中,我们提出了一种替代这些pre-vailing方法,它不使用序贯估计策略来处理成本量。相反,同时构造具有不同膨胀率的成本体积。即使搜索邻域很小,也可以同时捕获小位移和大位移。通过将这样的成本量连接在一起,然后采用简单的卷积网络(U-Net)来处理膨胀的成本量仅一次以获得光流。具体地说,我们估计的插值权重之间的所有可能的位移捕获的膨胀的成本体积,以获得光流。除了计算光流的损失,我们还设计了一个损失项,以更好地监督插值权重,从而提高精度。与其他方法(如PWC-Net [29]和RAFT [30])相比,我们的方法在概念上更简单,并且不需要对成本量进行顺序处理,如图所示。1.虽然在标准基准测试中获得了可比的错误率,但我们的方法在推理时运行速度明显更快,对于Sintel分辨率图像(大小为1024 436)在中端1080ti GPU上。我们的代码也是 因为模型权重将公开提供。2. 相关工作在本节中,我们讨论以前的光流法。由于空间限制,我们专注于基于神经在[6]中提出的FlowNet有两个变体,FlowNetS和FlowNetC,两者都具有编码器-解码器结构。FlowNetS简单地连接从编码器获得的两个图像的特征表示,并让解码器学习如何计算光流。相比之下,FlowNetC通过计算两个特征图之间的匹配成本(或相似性)来为了提高精度,特别是对于大位移,FlowNet2 [12]将FlowNetS和FlowNetC变体串联在级联中,其中光流估计是逐步完善。这是第一个实例,其中神经网络报告了与经典工程方法相比更好或相同的光流结果虽然FlowNet2达到了很好的精度,但它有162M个参数。更紧凑的SpyNet在[24]中提出。它通过使用从经典方法借用的金字塔结构,以从粗到细的方式计算流量PWC-Net [29]扩展了SpyNet中使用的金字塔结构。在每个金字塔级别中,通过使用前一级别中的光流估计来扭曲第二图像的特征图来构建成本体积。因此,可以以顺序方式捕获在其他方法中使用类似的从LiteFlowNet [11]还使用金字塔结构以级联方式估计光流,并提出了流正则化层。在最近的扩展LiteFlowNet3 [10]中,自适应调制先验被添加到成本体积中,并且局部流consideration被用于提高最终精度。HD3 [37]将光流估计转换为离散分布分解。SENSE [15]扩展了PWC-Net,以使用共享编码器同时解决光流和立体视差。在[36]中,提出了一种可分离的4D卷积来处理成本体积,该成本体积被转换为两个连续的3D卷积。在[32]中,2D卷积被独立地应用于成本体积中的每个采样位移,用于位移不变成本学习(DICL)。在[35]中,光流估计通过计算特征的相似性被建模为全局匹配问题RAFT [30]中使用RNN,而不是使用特征层次进行粗略到精细的它建立了一个全方位的成本卷捕捉两个图像之间的所有位置对之间的相似性但是在每个递归步骤中,仅使用小邻域中的部分成本体积来估计偏移。该偏移用于迭代地移动估计的光流(位移)以更接近最佳值。在[16]中,使用稀疏匹配而不是全成本卷来减少内存消耗。在类似的努力[34]中,使用1D注意力和相关性,以便RAFT可以用于高分辨率图像。Zhang等人提出使用可分离的成本体积模块,其使用非局部聚合层来减少运动模糊性[38]。内核补丁注意力用于更好地使用局部亲和度来隐式地增强平滑度约束[21]。DIP [41]使用一种受经典PatchMatch算法启发的新的逆传播,以更好地估计成本量。CRAFT建议用Transformer跨帧注意力替换点积相关性[27]。在[40]中,将argmax应用于4D成本体积以有效计算全局匹配,从而更好地捕获大位移。在[2]中,提出了深度平衡(DEQ)流量估计器来代替RNN。51522∈ − ∈ −⊙ −⊙11··SS121× × ××2这种顺序估计方法固有地缓慢,因为在每个金字塔等级或重现步骤处的光流估计取决于前一个中的结果与这些由粗到细或基于递归的方法不同,我们构建了具有不同膨胀因子的成本卷,以同时有效地捕获小位移和大因此,我们的方法不需要序贯估计策略。还有其他方法,它们的努力与我们的努力是互补的。ScopeFlow [4]中提出了一系列关于模型训练协议的改进,包括数据采样过程、模型正则化和数据增强。在[33]中提出了一种可学习的成本体积,它通过为不同的通道分配不同的权重来考虑不同特征通道的有效性。Sun等人建议学习生成训练数据来训练光流模型[28]。在[1]中,使用单眼深度估计模型学习的深度用于利用虚拟相机生成光流。中提出了保留细节的残差特征金字塔模块,其保留特征图中的重要细节以更好地计算成本量[19]。在[14]中提出了自监督一致性损失,在成本量中使用扩张并不完全是新的。FlowNetC [6]仅使用单个膨胀因子2,这没有充分利用利用膨胀来捕获大位移的潜力在Devon [20]中,扩张成本卷被用作顺序粗到细估计模型中翘曲模块的替代。与FlowNetC [6]形成鲜明对比的是,我们使用多个膨胀因子来更好地捕获小位移和大位移。此外,与Devon [20]不同,我们使用扩张的成本体积作为顺序估计策略的替代方案来计算光流。此外,我们的模型实现了比FlowNetC [6]和Devon [20]更好的准确性。3. 扩张成本量网络3.1. 扩张成本给定两个输入图像I1和I2,高度为H,宽度为W,我们使用CNN在步幅s处提取它们的L2-赋范特征表示xs和xs,其中s对应于(a) 输入图像(b)膨胀=1(c)膨胀=5图2. 使用膨胀捕获小位移和大位移的图示。(a)输入点A和B分别移动到A′和B′的两个(b)在两幅图中A周围的两个斑块。(c)两幅图中B周围的两个斑块。(b)和(c)中的蓝点对应于构建成本体积时的候选位移。在小的搜索半径(在该示例中为2)的情况下,可以使用两个不同的膨胀因子来捕获正确的位移(分别由红色和蓝色最好用彩色观看。和Xs分解成C个子向量,并计算每对对应子向量之间的余弦相似度。因此,f的输出具有C维。由于我们需要在局部2D邻域中对所有可能的对应性进行采样,因此我们使用[k,k]和v[k,k],其中k是邻域半径 。 因 此 , 全 成 本 卷 大 小 为 C U VHW , 其 中U=V=2k+1。由于步幅因子,这样的成本体积c捕获在s[k,k]范围内的两个输入图像上的候选水平位移1,其中表示标量和矢量之间的逐元素乘法。为了简单起见,我们只使用水平位移来表示图中所示(垂直位移可以类似地进行分析为了考虑大位移,这对于精确的光流估计是关键的,可以使用较大的步幅s或邻域半径k然而,这两种方法都有问题。更大的步幅意味着更多的下采样和空间分辨率的损失。另一方面,大的邻域半径导致大的成本体积和繁重的计算。相反,我们建议使用膨胀因子来构造1 2响应于空间分辨率下采样因子w.r.t.输入图像。为了搜索xs中位置p=(x,y)的正确对应,我们需要比较其特征2同时处理小排量和大排量。具体来说,我们有cs,d(u d,v d,x,y)=f. xs(x,y),xs(x+ud,y+vd)≠,其中u和v是像素从p到q的偏移。为了测量p处的特征向量与q我们有cs(u,v,x,y)=f(xs(x,y),xs(x+u,y+v)),(1)其中u d∈ d <$[−k,k],v d∈ d <$[−k,k]。(二)这里d是膨胀因子。现在,在两个输入图像上的位移的搜索范围是sd[−k,k]。 在这1在本文中,我们使用其中f(i)是测量两个特征向量之间的相似性的函数。这里我们把每个向量xs两个输入图像和因此,位移是对应关系乘以特征图的步幅。与候选位置q=(x+u,y+v)的矢量的矢量5153联系我们××ΣΣ≥88× × × ××2×��� ×���3×���×���特征提取光流彩色编码图3.DCVNet的管道。 从编码器获得两个输入图像的特征表示,其用于以不同的步幅和膨胀率构造膨胀的成本体积。一个U-Net被用来处理成本体积,以产生一组插值权重,在成本体积中捕获的位移来计算光流。表1. 使用不同的步幅和膨胀因子捕获的输入图像上的位移。步长伸缩候选水平位移(s)(d)2 1{-8,-6,-4,-2,0,2,4,6,8}8 1{-32,-24,-16,8,0,8,16,24,32}8 5{-160,-120,-80,-40,0,40,80,120,160}8 9{-288,-216,-144,-72,0,72,144,216,288}8 16{-512,-384,-256,-128,0,128,256,384,512}d=1d=2d=3d=5这样,我们可以通过具有大的d同时保持小的k和s来捕获大的位移,这保留了成本体积的计算效率和空间分辨率。图2说明了膨胀如何帮助捕获具有小邻域半径的小位移和大位移。具体地说,在本文中,我们考虑s=8和d1,2,3,5,9,16.如我们在表1中所看到的,可以使用膨胀因子d=16、步幅s=8和邻域半径k=4来捕获大到512个像素的位移。随着膨胀因子的增加,候选位移之间的差距也变得更大。为了解决这个问题,我们还构建了s=2和d=1的成本体积,以捕获小而精细的位移。我们做空间山姆-将空间分辨率设置为4,以使空间分辨率与在跨度8上构建的成本体积兼容最后,我们将不同步幅和扩张因子下的所有成本量我们的最终成本量的维数为C′H其中C′=DCUV和D是伸缩因子的总数(在我们的例子中D = 7)。3.2. 光流场的代价体滤波到目前为止,我们已经介绍了我们扩大的成本量。我们如何将这些成本转化为精确的像素-d=1d=2d=3d=5图4. 插值权重的图示。 对于点A和B,在右边,我们显示了获得的插值权重分别在顶部和底部具有和不具有U-Net过滤。每个图像表示UV(9 9)插值权重。特征步幅为8,不同的膨胀因子显示在底部。我们可以看到,对于运动幅度小的点A,小的膨胀因子足以捕获对应性。而对于运动幅度较大的点B,需要较大的伸缩因子。(颜色编码:蓝色接近0,黄色接近1。最好是彩色的)。明智的位移,即,光流我们不是直接回归光流值,而是在所有可能的位移之间进行插值,具体来说,我们有f=ωi,s,dfi,s,d,(3)i,s,d哪里i,s,dωi,s,d=1和ωi,s,d0. fi , s , d=(µi,s,d,νi,s,d)是步长s处的单个2D位移,其中= 8,���{1,2,3,5,公司简介���88n=2,成本量过滤C′×× ××225154∈ ⊙ − ∈ ⊙ −ΣLL×dilationd,其中μi,s,d sd[k,k],νi,s,d sd[k,k]。在特定步幅处,对于每个膨胀因子,在成本体积中存在UV这样的采样位移。为了获得插值权重,我们使用一个U-Net,将我们的扩张成本量作为输入来估计ωi,s,d,其中添加了从成本量到输出的跳过连接。在U-Net的输出上执行softmax,我们提出的扩张成本-体积网络(DCVNet)的结构如图所示。3.我们使用与[30]中使用的特征编码器类似的特征编码器,除了我们仅使用步长为2的单个残差块,使用实例归一化[31]层来提取输入图像的特征以构建成本体积。我们根据经验发现,具有另一个上下文编码器并没有显著的帮助,但却大大增加了参数的数量DCVNet的其余部分没有归一化层我们对整个网络使用斜率为0.1的Leaky ReLU我们使用与[30]中使用的相同的凸上采样策略来将估计的光流上采样到输入我们在补充材料中提供了有关网络架构的更多详细信息。3.3. 损失函数将上采样之前和之后的估计的光流表示为相对于速度,并且将地面实况表示为表2. MPI Sintel光流数据集的平均EPE结果。“-ft” meansfine-tuning on the MPI Sintel 括号中的数字是对方法进行微调的数据结果。它们不能直接比较,放在这里是为了完整性。†表示模型使用额外的训练数据。方法培训测试时间 #段清洁的终清洁 最终(s)(男)[第12话]2.023.143.966.020.12 162[29]第二十九话2.553.93--0.04 8.8LiteFlowNet [11]2.484.04--0.07 5.4LiteFlowNet22.243.78--0.03-[13]第十三话2.083.943.616.030.07117[37]第三十七话3.848.77--0.14 38.6[第15话]1.913.78--0.04 8.3VCN [36]2.213.68--0.26 6.2MaskFlow [39]2.253.61--- -德文郡[20]2.453.72--0.04-DICL [32]1.943.77--0.08 9.8小型筏[30]2.213.35--0.051.0[30]第三十话1.432.71--0.3 5.3我们1.913.28--0.037.9F.我们使用L1损失来监督网络训练。Lf=α||1个以上||f−f||ˆf−f||1,(4)其中f ′是f的下采样真值,其具有与f′相 同 的 分 辨 率。α根据经验设定为0.25。同时,我们发现,增加额外的约束的插值权重ωi,s,d导致更好的结果。注意,ωi,s,d有许多合理的解,它们产生相同的光流。为了增加每个像素的插值权重的约束,我们在地面实况光流值周围的四个最近的位移向量上计算双线性插值权重我们使用估计的ωi,s,d和生成的地面实况ωi,s,d之间的交叉熵损失。Lω=−ωi,s,dlogωi,s,d。(五)i,s,d最终损失的定义为L=Lf+βLω,(6)其中β平衡f和ω。 我们根据经验发现,它通过使用余弦时间表对β进行退火来获得更好的精度,其中初始值为1,最终值为0。我们假设在训练开始时,使用双线性插值权重将强先验添加到ωi,s,d有助于训练,但随着训练的进行,它变得不那么有效。4. 实验4.1. 实现细节训练前。我们在[15]之后的合成场景流数据集[22]上训练我们的模型,该数据集由Fly-ingThings 3D,Driving和 Monkaa 组 成 。 我 们 发 现 使 用 FlyingChairs [6] 和FlyingThings会导致我们模型的结果更差。只有光流注释用于训练。有趣的是,这种预训练导致RAFT的结果更差(MPI-Sintel训练集最终通过的平均终点误差为3.16vs 2.71 [5])。在训练过程中,我们严格遵循RAFT中使用的设置[30]。具体来说,我们使用广泛的数据增强,包括颜色抖动,随机作物,随机调整大小,随机水平和垂直翻转。产量为400 720。DCVNet使用AdamW优化器训练80万次迭代,批量大小为8 [17]。初始学习率为0.0002,并根据OneCycle学习率计划[26]进行线性退火更新。[6]第六话(3.66)(4.44)6.967.520.02 38.7FlowNetC-ft [6](3.50)(3.89)6.858.510.03 39.1[24]第二十四话(3.17)(4.32)6.648.360.16 1.2[12]第十二话(1.45)(2.01)4.165.740.12 162[29]第二十九话(1.70)(2.21)3.865.130.04 8.8[11]第十一话(1.45)(1.78)4.545.380.07 5.4LiteFlowNet 2-英尺[9](1.30)(1.62)3.484.690.03-[10]第10话(1.32)(1.76)2.994.450.05 5.2[13]第十三话(1.47)(2.12)4.355.670.07117[37]第三十七话(1.87)(1.17)4.794.670.14 38.65155表3. KITTI光流数据集上的结果。“-ft”表4. 在Sintel上测量的不同光流模型的参数数量、GPU内存消耗和推理速度。KITTI 2012KITTI 2015PWC-NetVCN二c1筏我们方法AEPE AEPE Fl-Noc列车试验AEPE Fl-all Fl-all列车试验#段落(男)9.376.239.785.267.87#Mem.(GB)1.112.332.781.371.16速度(fps)253.812.53.330[24]第二十四话(4.13)4.7百分之十二点三一--35.07%[12]第十二话(1.28)1.8百分之四点八二(二点三十分)(8.61%)10.41%[29]第二十九话(1.45)1.74.22%(2.16)(9.80%)9.60%[11]第十一话(1.26)1.7-(2.16)(8.16%)10.24%[11]第十一话(0.91)1.32.51%(1.26)(3.82%)7.34%[13]第十三话(1.19)-3.45%(1.79)-8.60%[37]第三十七话(0.81)1.42.26%(1.31)(4.10%)6.55%SENSE-ft [15](1.18)1.53.03%(2.05)(9.69%)8.16%VCN-英尺[36]---(1.16)(4.10%)6.30%[39]第三十九话-----6.10%德文郡-英尺[20](1.29)2.6-(2.00)-百分之十四点三一DICL-ft [32]---(1.02)(3.60%)6.31%水上摩托[30]---(0.63)(1.50%)5.10%Ours-ft(0.94)1.65.33%(1.22)(4.41%)9.62%策略和0.05的预热因子。我们还使用值1执行梯度范数裁剪。微调 对于Sintel,我们使用最终和干净的通道来微调预训练模型。在之前的工作之后,我们可以选择使用KITTI2015 [7]和HD1K [18]的额外数据进行训练。该模型是针对400K进行训练的,批量大小为8。初始学习率 设 置 为 0.000125 , 并 按 照 与 预 训 练 阶 段 相 同 的OneCycle计划进行更新对于KITTI,我们训练模型进行40万次迭代,批量大小为8。初始学习率为0.0001,使用OneCyle学习对于Sintel和KITTI,在预训练阶段中使用类似的数据增强。Sintel和KITTI的产量分别为368×768和336×9444.2. 主要结果光流结果。表2和表3分别总结了不同基于神经网络的方法的MPI Sintel和KITTI基准数据集的定量结果。我们可以看到,我们的方法相比,favorably其他方法之前和之后的微调。具体来说,在更具照片真实感的最后一遍中,考虑到照明条件变化、阴影效果、运动等因素[第12话]4.09--10.06 30.37%-[29]第二十九话4.14--10.35 33.67%-[13]第十三话3.69--9.33--[37]第三十七话4.65--13.17 24.9%-[第15话]2.55--6.2323.29%-VCN [36]- --8.36百分之二十五点一-MaskFlow [39]- ---23.1%-德文郡[20]4.73--10.65--DICL [32]- --8.7023.60%-小型筏[30]- --7.5126.91%-[30]第三十话- --5.04百分之十七点四-5156×模糊等,我们提出的模型DCVNet使用最先进的方法(如DICL [32]和RAFT [30])实现了相同的端点误差(EPE)。特别地,我们的模型优于Devon [20],其使用扩张的成本量作为顺序成本到精细光流模型中的扭曲模块的替代。我们在图中展示了从不同方法估计光流的一些视觉结果。5.我们可以看到,我们的方法DCVNet可以捕获具有挑战性的场景的运动,从而产生类似于其他人的视觉上吸引人的结果。特别是,对于竹子图像,与PWCNet [29]和VCN [36]相比,我们的方法在背景中产生了更清晰的运动边界和更平滑的运动估计。我们建议读者参考补充材料,以获得更多的视觉效果。模型大小和内存。与其他最先进的方法相比,我们的模型实现了合理的模型紧凑性和内存消耗,如表4所示对于GPU内存,我们的DCVNet需要1.16GB,低于RAFT,DICL和VCN。推理速度。与现有的方法相比,我们的DCVNet运行速度明显更快,满足实时推理的要求。在中端1080tiGPU上,我们的ap-proach只需要33 ms来处理两个RGB图像从Sintel数据集(分辨率为1024 436),运行在30 fps。我们使用CUDA实现的成本卷的建设,这需要10毫秒。大部分时间花在特征提取部分,需要14ms。解码部分将代价量转换为光流需要9ms。4.3. 消融研究为了验证扩张成本量和插值权重的损失项的有效性,我们进行了消融研究。我们在SceneFlow数据集上训练模型扩张的有效性。我们首先研究了使用扩张的成本量的有效性。我们将膨胀率的数量从7变化到1。为了保持捕获大位移的能力,我们保持最大的步幅和膨胀率,并逐渐去除较小的步幅和膨胀率。我们报告错误率与图中扩张率的数量。6.我们可以清楚 地 看 到 , 随 着 扩 张 数 量 的 增 加 , MPI Sintel 和KITTI 2015数据集这验证了我们对工程造价的核心理念5157L(a) 输入图像(b)PWCNet [29](c)VCN [36](d)RAFT [30](e)我们的DCVNet图5。光流估计的视觉比较。从左至右:(a)输入图像,(b)PWCNet [29],(c)VCN [36],(d)RAFT [30]和(e)我们的DCVNet。对于每种方法,我们显示彩色光流和误差图(从在线服务器获得)。对于误差图,白色和红色表示大误差,而黑色和蓝色表示小误差。最好用彩色观看。表5. 损失项Lω对监督内部5.255.004.754.504.254.003.753.50极化权重Sintel-clean Sintel-final KTTI 2012 KITTI 2015β=01.993.472.6523.91%β=11.913.322.6124.13%退火β1.913.282.5623.68%3.25123 4 5 6 7成本中的扩张次数5045403530251 2 3 4 5 6 7成本中的扩张次数图6. 成本量扩张的有效性。顶部:EPE与MPI Sintel训练集最终通过时的扩张率数量。底部:F1-所有错误率与KITTI 2015训练集上的扩张率数量。同时处理小位移和大位移的膨胀体积监督插值权重。我们研究了损失项ω的有效性。 通过设置β=0,我们完全消除了对插值权重的监督。另一方面,通过设置β=1,而不是退火版本,我们对插值权重施加了强约束从表5中我们可以看出,它们中没有一个比退火的β更好。5. 结论本文提出了一种基于光流场的扩张代价体积网络我们的核心思想是使用不同的膨胀率来构建成本体积,以同时捕获小位移和大位移,并使用小邻域来保持模型效率。通过这样做,我们的方法不再依赖于光流的顺序估计我们的方法在中端1080ti GPU上以30fps的速度运行,并在标准基准测试中达到与现有模型相当的精度。引用[1] Filippo Aleotti,Matteo Poggi,and Stefano Mattoccia.从静止图像学习光流。在CVPR,2021年。[2] Baojie Bai,Zhengyang Geng,Yash Savani,and J. 济科·科尔特深平衡光流估计。在CVPR,2022年。[3] 放大图片作者:Simon Baker,Daniel Scharstein,J.放大图片作者:Michael J.布莱克和理查德·塞利斯基光流数据库和评价方法。IJCV,92(1):1-31,2011.[4] 阿维拉姆·巴尔-海姆和里奥·沃尔夫。Scopeflow:光流的动态场景范围。在CVPR,2020年。[5] D. J. Butler,J. Wulff,G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影。在Proc.ECCV,2012中。EPE在Sintel最后通行证(培训)F1-所有在KITTI 2015(培训)5158[6] AlexeyDosovitskiy,Philipp Fischery,Eddy Ilg,CanerHazir- bas,Vladimir Golkov,Patrick van der Smagt,Daniel Cremers,Thomas Brox,et al. FlowNet:使用卷积网络学习光流。在Proc. ICCV,2015中。[7] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。在Proc.CVPR,第3354-3361页中。IEEE,2012。[8] B.K.P. Horn和B.G.Schunck 确定光流。人工智能,1981年。[9] Tak-Wai Hui,Xiaoou Tang,and Chen Change Loy.一种轻量级光流cnn--再访数据保真度和正则化。IEEE Trans.on Pattern Anal.还有Mach 内特尔,2020年。[10] 许德威及陈昌来。Liteflownet3:解决对应模糊性以获得更准确的光流估计。在ECCV,2020年。[11] Tak-Wai Hui,Xiaoou Tang,and Chen Change Loy. Lite-flownet:用于光流估计的轻量级卷积神经网络。在Proc.CVPR,2018中。[12] Eddy Ilg , Nikolaus Mayer , Tonmoy Saikia , MargretKeuper,Alexey Dosovitskiy,and Thomas Brox.FlowNet2.0:深度网络光流估计的演变。在Proc. CVPR,2017中。[13] Eddy Ilg,Tonmoy Saikia,Margret Keuper,and ThomasBrox.遮挡,运动和深度边界与视差,光流或场景流估计的通用网络。Proc. ECCV,2018。[14] Jisoo Jeong ,Jamie Menjay Lin ,Daughh Porikli, andNojun Kwak.光流估计的一致性。在CVPR,2022年。[15] 蒋怀祖,孙德清,Varun Jampani,吕朝阳,Erik G.Learned-Miller和Jan Kautz。SENSE:用于场景流估计的共享编码器网络。在ICCV,2019年。[16] Shihao Jiang , Yao Lu , Hongdong Li , and RichardHartley.从几场比赛中学习光流。在CVPR,2021年。[17] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。InProc. ICLR,2015.[18] D.孔德曼河Nair,K. Honauer,K. Krispin,J. 布罗克湾Güssefeld,M. Rahimimoghoun,S. 霍夫曼角 Brenne r和B. 是的。HCI基准套件:城市自动驾驶的不确定性立体声和流地面实况在CVPRW,2016年。[19] 李波龙和Jochen Lang。光流场的细节保持剩余特征金字塔模块。在WACV,2022年。[20] Yao Lu,Jack Valmadre,Heng Wang,Juho Kannala,Mehrtash Harandi,and Philip Torr.Devon:用于学习光流的可变形体积网络。在WACV,2020年3月。[21] 罗傲,范阳,李欣,刘帅成。基于核补丁注意的光流学习。在CVPR,2022年。[22] NikolausMayer,EddyIlg,PhilipH¨usser,PhilippFischer, Daniel Cremers , Alexey Dosovitskiy ,and Thomas Brox.用于训练卷积网络的大型数据集,用于视差,光流和场景流估计。在CVPR,2016年。[23] Moritz Menze和Andreas Geiger。自动驾驶车辆的目标场景流 在proc CVPR,第3061-3070页,2015年。[24] Anurag Ranjan和Michael J Black。使用空间金字塔网络的光流在Proc. CVPR,2017中。[25] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。NeurIPS,2014。[26] 莱斯利·N史密斯和尼古拉·托平。超收敛:使用大学习率快速训练残差网络。CoRR,abs/1708.07120,2017年。[27] Xiuchao Sui , Shaohua Li , Xue Geng , Yan Wu ,Xinxing Xu , Yong Liu , Rick Siow Mong Goh , andHongyuan Zhu. CRAFT:交叉注意力流量Transformer,用于实现强大的光学流量。在CVPR,2022年。[28] 孙德清,丹尼尔·弗拉西克,查尔斯·赫尔曼,瓦伦·詹帕尼,迈克尔·克莱恩,张惠文,拉明·扎比,威廉·T。弗里曼和刘策。Autoflow:学习光流的更好的训练集。在CVPR,2021年。[29] 孙德清、杨晓东、刘明宇和Jan Kautz。Pwc-net:使用金字塔、扭曲和成本体积的光流的Cnns。在CVPR,2018年6月。[30] Zachary Teed和Jia Deng。RAFT:光流的循环全对场变换。在ECCV,2020年。[31] Dmitry Ulyanov、Andrea Vedaldi和Victor S. Lempitsky实 例 规 范 化 : 快 速 样 式 化 缺 少 的 成 分 。 CoRR ,abs/1607.08022,2016。[32] Jianyuan Wang , Yiran Zhong , Yuchao Dai , KaihaoZhang,Pan Ji,and Hongdong Li.用于精确光流估计的位移不变匹配成本学习。在NeurIPS,2020年。[33] Taihong Xiao,Jinwei Yuan,Deqing Sun,Qifei Wang,Xin-Yu Zhang,Kehan Xu,and Ming-Hsuan Yang.使用凯莱表示法的可学习在ECCV,2020年。[34] Haofei Xu,Jiaolong Yang,Jianfei Cai,Juyong Zhang,and Xin Tong.来自一维注意力和相关性的高分辨率光流。ICCV,2021。[35] HaofeiXu , JingZhang , JianfeiCai , HamidRezatofighi,and Dacheng Tao.Gmflow:通过全局匹配学习光流。在CVPR,2022年。[36] 杨庚山和Deva Ramanan。光流的体积NeurIPS,2019。[37] Zhichao Yin,Trevor Darrell,and Fisher Yu.用于匹配密度估计的分层离散分布分解。在CVPR,2019年。[38] 张 飞 虎 , Oliver J. Woodford , Victor Prisacariu , andPhilip H. S. 乇可分离流:学习光流估计的运动成本ICCV,2021。[39] Shengyu Zhao,Yilun Sheng,Yue Dong,Eric I-ChaoChang,and Yan Xu.Maskflownet:具有可学习遮挡掩模的非对称特征匹配。在CVPR,2020年。[40] Shiyu Zhao,Long Zhao,Zhixing Zhang,Enyu Zhou,and Dimitris N. Metaxas基于重叠注意力的全局匹配光流估计。InCoRR,2022.[41] Zihua Zheng , Ni Nie , Zhi Ling , Pengfei Xiong ,Jiangyu Liu,Hao Wang,and Jiankun Li.DIP:用于高分辨率光流的深度反向补丁匹配。在CVPR,2022年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功