没有合适的资源?快使用搜索试试~ 我知道了~
Marwane Hariat1, Antoine Manzanera1, David Filliat 1, 21U2IS, ENSTA Paris, Institut Polytechnique de Paris, Palaiseau, France2INRIA FLOWERS{marwane.hariat, antoine.manzanera, david.filliat}@ensta-paris.fr12670重新平衡梯度以改善深度、里程计和光流预测的自监督协同训练0摘要0我们提出了CoopNet,一种通过动态调整梯度分配来改善协同训练网络合作的方法,以确保公平的学习进展。它应用于基于运动感知的自监督深度图预测,通过引入一种新的混合损失,该损失基于深度+里程计配对网络和光流网络产生的光度重建误差的分布模型。该模型基本上假设移动物体的像素(必须在深度和里程计训练中舍弃)对应于两个重建强烈不一致的像素。我们通过理论考虑和实验证据来证明这个模型的合理性。在KITTI和CityScapes数据集上进行的比较评估表明,CoopNet在深度、里程计和光流预测方面改进或与最先进的方法相当。我们的代码可在此处找到:https://github.com/mhariat/CoopNet。01. 引言0人类在从单眼图像中推断场景的三维结构方面表现出惊人的能力。这种能力从他们的生命的第一天开始就被获得,当婴儿学习理解他们环境的几何特性和规律时。然后,他们通过使他们的视觉感知与他们对世界的内在理解保持一致,学会将二维图像解释为三维场景。这种机制可以通过自监督学习来模拟。为此,深度神经网络执行中间视觉任务,如深度、光流和相机姿态估计,以从不同视点重现场景。整个流程可以以端到端的方式进行训练,利用观察到的一致性。0仅通过监督信号[43,8]的图像和合成视图来训练网络只有在中间估计结果与其真实值足够接近时才能表现良好。自监督具有优势,因为产生视觉任务的底层过程更加稳健,并且可以更好地推广到新的未知数据,而不像直接监督设置中的可用真实数据[6]那样容易过拟合,因为缺乏约束。自监督网络必须发展几何和上下文推理技能,这些属性对数据集的依赖性要小得多,以纠正视图重建的不一致性。自监督除了具有良好的训练条件外,还具有很大的灵活性。它允许从更大范围的数据中学习,因为不需要真实数据。微调还可以在增量学习策略中堆叠,只会带来轻微的可管理的时间和内存增加。在我们的工作中,我们特别关注深度估计。然而,其他中间视觉估计,如里程计或光流,也将被考虑,并使用适当的度量进行评估。我们将仅使用单目图像,以尽可能多地利用上下文信息来解决模糊性,并且因为它只需要一台廉价且普遍存在的单目相机。视图合成训练策略需要应对纹理变化、光反射和遮挡等情况。但最具挑战性的问题肯定是处理移动物体,因为扭曲变换假设场景是静态的,移动区域可能会通过误导性的高重建误差污染学习过程。我们的贡献是提出一种新的策略,依赖于光流、深度和姿态网络在学习过程中的合作。基本上,对于这些网络在视图上存在不一致的区域,我们假设这些网络的不一致性是由于移动物体引起的。(1)(3)LGLNet =�s,pΨ�It (p) , ˆIθ,αs(p) , ˆIδs (p)�(6)with ˆIθ,αsand ˆIδs respectively given by Eq. 3 and Eq 4, andΨ is the adaptive photo-metric loss:Ψ (x, y, z) = min (Φ (x, y) , Φ (x, z))(7)This approach therefore tries to detect moving pixels bythe difference between the optical flow and rigid flow pre-dictions, assuming a worse prediction by the rigid flow.Other approaches such as [40, 41, 30, 27, 25, 7] propose toinfer a moving object mask using a pre-determined metric12680必要时从训练样本中删除合成图像。我们完全自监督的训练策略在KITTI [9]和Cityscapes[4]上进行了评估。尽管简单,我们的方法在处理移动物体的无监督训练策略方面表现出色,超过了当前最先进的方法。它还与利用来自现成算法的语义信息的方法竞争。02. 相关工作0自监督学习框架。最近,许多关于无监督单目深度预测的研究工作涌现出来,希望缩小与完全监督方法之间的差距。其原理基于图像变形过程[8,17]。通过计算变形图像ˆIs,将场景中的源视图s重建为目标视图t。选择的源时间戳s围绕目标时间戳t,并通常设置为0。用于训练神经网络的监督信号为:0L = �0σ0�0s0pσΦ�Iσt(pσ), ˆIσs(pσ)�0光度误差函数Φ定义为:0Φ(x, y) = α1 − SSIM02 + (1 − α)|x − y|(2)0其中SSIM是结构相似性[38],σ是一个尺度索引,因为在过程中考虑了中间的降采样估计,以解决双线性插值[17]引起的梯度局部性问题。这里的Iσ0是图像I的缩放版本,缩放因子为1/2σ,pσ是在尺度σ下调整大小的图像的像素索引。在本文的其余部分,我们将省略σ以提高可读性。现在,根据目标,可以通过两种不同的方式获得变形图像ˆIs。一种是由[43]引入的,使用深度网络Dθ和相机姿态网络Tα,应用重投影公式:0ˆIθ,αs(p) = Is � KˆTt→sˆDt(p)K−1p�0ˆTt→s = �R, t� ∈ SE(3)(3)0其中K是标定矩阵,ˆT是由Tα预测的位移矩阵,ˆD是由Dθ预测的深度图。另一个方法[31,42]使用光流网络Fδ直接预测位移向量Fδ:0ˆIδs(p) = Is(p + Fδ(p))(4)0考虑运动。与公式4的变形不关心运动的起源不同,公式3的变形在移动区域不再有效,对应于具有自身位移的物体。因此,将刚性流定义为仅由相机运动引起的表观运动流,在刚性假设下计算如下:0Fθ,α(p) = KˆTt→sˆDt(p)K−1p − p(5)0在移动物体区域内,尽管深度和姿态预测是正确的,但光度损失Φ会产生错误的值,并破坏姿态和深度网络中的反向传播过程。解决这个问题有两种方法。一种是像[26]和[11]那样对ˆT t →s添加残差校正,以考虑潜在的移动物体。另一种方法是决定从损失L中删除移动物体像素,如公式1所示。这是我们在本文中决定采用的策略。能够检测图像的移动区域是一个真正的挑战。因此,一些方法[2,24]选择依赖于现成的实例分割算法[14]来消除潜在的移动物体。这里的一个主要限制是缺乏泛化性。事实上,这些现成的算法是在不同的数据集[29]上训练的,因为在单目深度估计中使用的主流数据集没有足够的注释的真实数据。一些研究尝试通过将实例分割部分纳入学习流程[23],使用现成的算法预测作为真实数据。或者使用现成网络的特征图来驱动不同的视觉任务网络[28,13]。在这两种情况下,问题仍然存在。此外,这些方法不符合我们完全自监督学习的设置。我们希望能够在学习过程中不断学习,并从大范围的数据中受益。与我们的工作密切相关的是,[3]使用公式3和公式4中的两种正交方式对图像进行变形。然后修改监督信号如下:related to the geometric inconsistency between the opticalflow and the rigid flow.Following the idea of [3], our contribution, rather, incor-porates a loss-oriented component as part of the decision onmoving pixels, while taking care of the different progres-sion speeds between networks to make them benefit fromeach other in the best way. Additionally, we continuouslyadapt our decision criterion along the training process usinga quantile based approach.3. Limits of the adaptive photo-metric loss3.1. InstabilityThe goal of the adaptive photo-metric loss of [3] is toco-train, on the one hand the pair (Dθ, Tα) and, on theother hand Fδ. Since the loss distributes the pixel errors toboth networks, according to arg miny,z (Φ(x, y), Φ(x, z)),the networks are actually competing against each other. Allthings being equal, the optical flow Fδ is intrinsically betterat learning from the photo-metric loss than (Dθ, Tα), as there-projection (Eq. 3) is more constrained compared to Eq. 4.We will call this property the intrinsic bias throughout thepaper. This unbalanced learning capacity between the twocontestants is worsen over the training epochs. Indeed, theΨ operator splits the set of pixels in two parts based on thesign of the random variable ∆ defined as:∆ (p) = Φ�It(p), ˆIθ,αs(p)�− Φ�It(p), ˆIδs (p)�(8)The probability density function f∆ is approximatelyGaussian. In [3], pixels for which ∆ has non-zero nega-tive values are used to train the pair (Dθ, Tα), whereas therest of the pixels train Fδ.Figure 1: Density models of ∆ used in our work, for all thepixels (black), rigid pixels (blue dashed), and mobile pixels(red dashed). This is the result of the statistical analysis of∆ on all the images of KITTI and highlights the intrinsicbias of the Gaussian distribution, the moving pixels follow-ing a bimodal distribution centred on both sides of the tailsand the rigid pixels located around the mean value. Notethat since rigid pixels are the vast majority, µrigid ≊ µ.Over the training iterations, Fδ takes advantage of itsbetter learning abilities over (Dθ, Tα), shifting f∆ to theright as shown in Fig. 1, thus creating an imbalance on thenumber of pixels allocated to each contestant. It benefits theoptical flow network, which gets even better at the expenseof the depth and pose networks. The resulting sequence ofmean values (µn = E [∆n])n∈N, where n refers to the train-ing iteration index, has an upward trend that needs to be keptunder control to avoid a degenerative state where the opticalflow is too good and prevents the pair (Dθ, Tα) from learn-ing anything. The criterion used to study stability is the con-vergence of the sequence�θn = 1/P�∆n < 0��n∈N, with Pthe probability measure. We provide in supplementary ma-terial a proof that the operator Ψ can make θn diverge ifthe intrinsic power of Fδ is not taken care of. Practically,the procedure is very sensitive to small changes, especiallywhen it advantages the optical flow. For the same hyper-parameter settings, the depth network can, depending on theinitialized weights, either give good predictions or producebad map estimations as displayed in Fig. 2.12690图2:黑色污渍(对应无限深度)在整个图像上蔓延的退化情况。03.2. 根本问题0如图1所示,移动像素∆移动的值特别集中在分布的尾部。尾部右侧的值是由于(Dθ,Tα)对于任何移动位移的系统无能力而产生的。尾部左侧的值通常对应于移动物体,光流在这些物体上面临平滑问题,如图3所示,而不是对深度和姿态网络的更好预测。它们共同负责∆的很大一部分变化,从而导致σ刚性<σ。刚性像素∆刚性的值主要位于µ的附近。直观地说,(Dθ,Tα)和Fδ对于场景的静态区域有一致的理解。因此,∆的取值更加稳定且相对接近,忽略了固有偏差。如前所述,[3]的想法是考虑∆(p)具有负值的像素p来训练该对Lδ =Lθ,α =LCoopNet = Lθ,α + Lδ(10)w (p) =Γ =] − ∞, q−η[∪]qη, +∞[(11)12700图3:移动物体周围的平滑问题。热色图图像旨在表示∆函数的符号和绝对值(参见色条)。0然而,通过这样做,不仅会丢弃大量的刚性像素,因为区间[µ − σ刚性 , µ + σ刚性],它涵盖了约68%的刚性像素的值,满足以下条件:0] − ∞ , 0[ ∩ [ µ − σ刚性 , µ ] = � if σ刚性 <µ (9)0但更重要的是,它错误地考虑了尾部左侧的移动像素(见图1)。04. 方法0我们的工作的主要目的是为(Dθ,Tα)和Fδ提供一种更健康的学习协议。受前一节中提出的不同问题的启发,我们提出了基于分位数的概率密度函数f∆的分割,以达到以下目的:0•仅在µ的紧邻上训练(Dθ,Tα)对,并停止考虑左尾部的像素值,从而更好地关注静态像素。0• 在分布的尾部的∆值的像素上以更大的权重训练光流。0我们的方法CoopNet的图示如图4所示。与[3]不同,该方法是基于合作的。与师生技术的精神相同,(Dθ,Tα)等待更强的网络Fδ的批准,以选择要进行训练的像素。如果光流Fδ与(Dθ,Tα)对于给定像素p的位移达成一致,那么这个像素p可以被安全地视为刚性像素,并用于馈送损失Lθ,α,该损失在下面的公式10中定义。04.1. 描述0对于η∈[0,0.5],让我们表示qη为概率密度函数f∆的(0.5+η)-分位数。我们还定义0Vη=[q−η,qη]是µ的一个邻域。如前所述,大多数刚性像素的∆值接近µ。这就是为什么在我们的方法中,(Dθ,Tα)只在属于∆−1(Vη)的像素上进行训练(见图1),其中∆−1是逆映射。区间Vη越大,接近尾部的可能性越大,移动像素的大绝对值|∆(p)|的污染也越大,这是不可取的。相反,较小的Vη将过滤掉许多像素,(Dθ,Tα)可能学不到任何东西,因为反向传播需要足够的样本才能工作。因此,超参数η必须调整以找到最佳平衡。尝试了不同的训练策略来找到训练光流网络的最佳方式,我们发现从所有像素学习是最有效的方式,通过加权求和来优先考虑移动像素。与尾部的值∆(p)相对应的像素p,特别是η分位数和(1−η)分位数的权重更大(公式11)。这两个想法将损失L(eq1)分为两个项,如下所示:0对于所有 p ∈ P ,计算 w( p ) Φ ( I t ( p ) , ˆ I δ s ( p0对于所有 p ∈ ∆ − 1 ( V η ),计算 Φ ( I t ( p ) , ˆ I θ,α s (p ) )0其中 P 是所有像素的集合,w 定义如下:0如果 p ∈ ∆ − 1 (Γ),则 | ∆ − 1 (Γ)|,否则 |P|0| ∆ − 1 ( Γ ) |,否则0损失函数 L θ,α 和 L δ 分别用于训练 ( D θ , T α ) 和 F δ 。Figure 4: Diagram depicting CoopNet. The Quantile Module takes as input the rigid flow inferred by the pair (Dθ, Tα) andthe flow produced by Fδ to compute ∆. The running values ( �q−η, �qη) are updated with the P 2 algorithm [18] to be used atthe next epoch. The current values (q−η, qη) determine the neighbourhood Vη to induce a mask map {p /∈ Vη}.(13)(14)127104.2. 相对于自适应光度损失的优势0在不同的集合上训练光流,例如使用 ( D θ , T α )这对的补集 V η ,就像 [3]所做的那样,会导致次优的结果。光流网络在刚性区域的性能将非常差,接近于随机预测。因此,刚性像素 p rigid 的∆ ( p rigid ) 值会显著为负,并且会与 F δ无法正确预测的移动像素的大负值混合在一起。尽管最重要的是正确区分由 F δ正确预测的移动像素和刚性像素,后者数量更多,但这并不理想。相比之下,我们的方法中,概率密度函数 f ∆具有如图1所示的聚集分布模式,有三个明确分界的聚类。刚性聚类与另外两个移动聚类的交集非常有限。综上所述,可以合理地质疑在 [3] 的方法中,如前一节所述,∆的分布如何保持聚集的三个聚类。光流是在 ∆ − 1 (] − ∞ ,0[)这个子集上进行训练的,该子集恰好由足够数量的刚性像素组成,使得 F δ在静态区域上表现良好。不幸的是,此属性在此后没有得到充分利用。0最后,让我们定义:0L 1 = E 对于所有 p ∈ P ,且 ∆ ( p ) ∈ V η ,计算 Φ ( I t ( p ) , ˆ Iθ,α s ( p ) ) 的平方0L 2 = E 对于所有 p ∈ P ,且 ∆ ( p ) < 0 ,计算 Φ (I t ( p ) , ˆ I θ,α s ( p ) ) 的平方0我们在补充材料中给出了数学证明,证明了 L 1 < L 2。这个不等式从理论上证明了引入邻域 V η 相对于使用 ∆(p ) 的符号(如 [3] 所做)的好处。04.3. 正则化集合0我们实验观察到,即使将超参数 η设置为非常严格,太多的移动像素仍然会污染邻域 V η。这是由于光度函数 Φ (公式4) 的已知弱点:由于 Φ基于颜色相似性来比较图像,它在均匀区域中很难具有区分性。因此,尽管 ( D θ , T α ) 和 F δ 在移动像素 p的位移上存在不一致,∆ ( p )的值可能仍然类似于刚性像素的值,从而落入 V η。因此,我们提出在像素位移上增加两个网络的一致性的新约束。我们引入 ∆ flow 的定义如下:0∆ flow ( p ) = F θ,α ( p ) − F δ ( p ) 除以 F θ,α ( p )的平方加上 F δ ( p ) 的平方0其中 F θ,α ( p ) 是图像变形产生的像素位移。与 ∆ 类似,( D θ , T α ) 和 F δ 越接近,∆flow 越小。然而,流值 F θ,α ( p ) 和 F δ ( p ) 是具有两个分量的向量,因此 ∆ flow是一个二维随机向量。由于流值在图像中的位置上具有很强的依赖性(接近的像素倾向于具有比远处像素更高的流量大小),因此在公式13的分母中添加了一个归一化项。随机变量 ∆ flow 不考虑颜色强度,因此不受先前提到的均匀性问题的影响。此外,由于运算符Φ 的存在,∆ 具有固有的偏差,而 ∆ flow 没有。最后,选择用于计算 L θ,α 的邻域 V η0在公式10中,可以用V来替换:0V = V η ∩ V ζ0V ζ = V flow, x ζ ∩ V flow, y ζ(15)12720其中V flow, x ζ和V flow, y ζ的定义方式与Vη相同,分别使用∆ x flow和∆ yflow。以损失为导向的邻域Vη仍然是决策过程的主要因素,而Vζ可以看作是具有正则化效果的先验,用于解决均匀性问题。人们可能会问为什么不考虑流差异的大小。原因是这个选择使得所有关于∆的假设(假设具有有符号值和正态分布的随机变量)仍然成立。04.4. 实现细节0附加损失 除了在公式10中定义的LCoopNet之外,我们还考虑以下附属损失:0• 几何一致性损失L gc,由[1]提出。0• 光流F δ的前后一致性检查L fwd,bwd,如[31,44]中所做。0• 深度图和光流图的标准边缘感知平滑损失Ls。这里使用归一化的视差,如[36]所提出的,以避免发散。0• 使用[3]中提出的不同版本的极线约束Lep(见补充材料)。0• 深度图的方差的倒数L var,用于稳定训练过程[21]。0最终损失为:0L final = L CoopNet + λ gc L gc + λ fwd,bwd L fwd, bwd + λ s Ls + λ ep L ep + λ var L var0网络架构。我们的重点是推广我们的合作学习协议,并看看它与其他已建立的自监督深度估计训练策略[10, 43, 3,26]相比如何。为了更好地比较,我们决定使用与这些方法相同的标准网络。特别是,对于深度和光流网络,我们采用了UNet结构,其中包含四个中间多尺度预测,如[43]所提出的。姿态网络基于ResNet编码器,最后预测出一个6自由度向量。对于深度网络,我们使用[10]的特定DispResNet架构。对于光流网络,我们实现了[41,25]的ResFlowNet。深度和姿态网络都使用ResNet18骨干网络,而光流网络使用ResNet50编码器。当然,更高效的网络可以进一步提高性能。例如,对于深度网络,PackNet[12]、使用注意力[20, 7, 19, 27]和/或成本体积[39,20]的架构都表现良好,就像光流预测中的FlowNet[5]和PwC-Net [15,34]一样。遮挡以两种方式处理。使用[37]的warping模块来在L δ中屏蔽遮挡像素。0硬遮挡阈值设置为0.2。对于Lθ,α,通过标准的最小重投影[10]处理遮挡像素。参数设置:我们的方法使用PyTorch实现。使用Adam[22]优化器进行训练,β 1 = 0.99,β 2 =0.999。ResNet骨干网络使用ImageNet[33]预训练权重进行初始化。网络训练30个epochs,批大小为4。初始学习率设置为10^-4,20个epochs后降低到10^-5。进行标准的数据增强,包括水平翻转、随机对比度、饱和度、色调和亮度调整。在训练过程中使用了一个5个epochs的burning步骤,其中对(D θ, Tα)进行训练[10]。分位数是根据[18]的算法实时计算的。邻域Vη是根据上一个epoch的分位数值确定的(见图4),其中η= 0.15,ζ =0.25。损失权重是通过网格搜索确定的,最终设置为λ gc =0.001,λ fwd, bwd = 0.001,λ s = 0.01,λ ep =0.001和λ var = 10^-6。我们使用一块NVIDIA GTX 1080Ti GPU进行训练,训练时间为12小时。05. 实验0我们进行了大量的深度、相机姿态和光流估计实验,以验证我们的方法。我们在两个数据集上呈现了所获得的结果:0KITTI[9]是评估深度和自我运动估计的最流行的基准。它由城市、乡村和高速公路图像组成,通过在卡尔斯鲁厄市周围驾驶时捕获。我们使用标准评估协议从激光雷达传感器数据中获取地面真实深度值,并按照[6]提出的标准数据划分使用22,600对训练图像和697对测试图像。0Cityscapes[4]也由城市图像组成,但它包含更多种情况,图像来自50多个欧洲城市,由于包含更多带有移动物体的场景,因此具有挑战性。按照[26]的协议,我们使用22,973对图像对进行训练,其中包括2975个常规训练图像和19,998个额外训练图像。评估时,我们使用1,525个测试图像。05.1. 深度0定量结果见表1。CoopNet在几乎所有不同指标上都以相当大的优势超越了已经非常有效的方法。定性结果见图5。总体而言,CoopNet生成的深度图最清晰,在挑战性情况下(如薄物体、高KCSerrerrerrerr◦/100m)ORB[32]15.300.263.680.48Zhou[43]17.846.7837.9117.78Bian[1]11.23.3510.14.96CoopNet8.422.667.292.14FlowNetS[5]8.1214.19FlowNet2[16]4.9310.06LgcLepLsLfwd,bwdLvarLphotoAbs RelAPE12730设置 方法 尺寸 绝对相对误差 平方相对误差 均方根误差 对数均方根误差 δ < 1.25 δ < 1.25^2 δ < 1.25^30Li等[26] 128 × 416 0.130 0.950 5.138 0.209 0.843 0.948 0.9780DLNet[19] ‡ 128 × 416 0.128 0.979 5.033 0.202 .851 0.954 0.9800CoopNet 128 × 416 0.126 1.014 5.091 0.204 0.856 0.954 0.9800CoopNet R50 128 × 416 0.121 0.971 5.055 0.199 0.863 0.955 0.9800Monodepth2[10] 192 × 640 0.115 0.903 4.863 0.193 0.877 0.959 0.9810SGDepth [23] † 192 × 640 0.117 0.907 4.693 0.191 0.879 0.961 0.9810Tosi等[35] † 192 × 640 0.126 0.835 4.937 0.199 0.844 0.953 0.9820CoopNet 192 × 640 0.113 0.872 4.824 0.190 0.878 0.959 0.9820Insta-DM[24] † 256 × 832 0.112 0.777 4.772 0.191 0.872 0.959 0.9820Struct2Depth[2] † 128 × 416 0.145 1.737 7.28 0.205 0.813 0.942 0.9780Gordon[11] † 128 × 416 0.127 1.330 6.96 0.195 0.830 0.947 0.9810Li等[26] 128 × 416 0.119 1.29 6.98 0.190 0.846 0.952 0.9820CoopNet 128 × 416 0.121 1.443 7.01 0.190 0.846 0.951 0.9800表1:深度估计结果。我们只与最新和最有竞争力的算法进行比较。这里的所有结果都是针对不同的图像尺寸呈现的。每个指标中,最佳结果以粗体显示,第二个结果以下划线显示。深度截断设置为80m。对于红色指标,数值越低越好。对于蓝色指标,数值越高越好。† - 使用现成的语义算法。‡ -使用变换器深度网络。K:在KITTI上进行训练和评估。CS:在Cityscapes上进行训练和评估。R50:使用ResNet50作为深度网络的主干,而不是ResNet18。0方法 Seq. 09 Seq. 100表2:KITTIOdometry数据集序列09和10的平均平移和旋转误差。0方法 Noc All0GeoNet[41] 8.05 10.810GLNet[3] 4.86 8.350CoopNet 5.10 9.430表3:光流:KITTI2015流数据集上非遮挡(Noc)和所有(All)像素的平均端点误差(以像素为单位)。0� � 0.157 11.930� � 0.144 12.260� � 0.130 9.740� � � 0.130 9.210� � � � 0.130 9.160� � � � 0.128 9.270� � � � � � 0.126 9.430� � � � � 0.135 8.350表4:消融研究中的绝对相对误差(深度)和平均端点误差(光流)。分辨率大小:128×416。在我们的基线中,光流Fδ和对(Dθ,Tα)都使用标准的光度损失L(参见方程1到4)进行训练,该损失计算所有像素。作为常规做法,平滑损失Ls在所有实验中都被使用。最后一行对应于GLNet[3]。0纹理和移动区域。表4还展示了消融研究。请注意,与两种其他类型的光度损失(第1-2行)相比,LCoopNet(第3行)带来的巨大改进。如第二部分所示。0消融研究表明,与LCoopNet相比,附属损失的效益微不足道。05.2. 光流和里程计0为了评估光流,我们使用包含200个带注释的训练图像的KITTI2015流数据集作为测试图像。表3显示,CoopNet在接近GLNet[3]的结果的同时,优于所有其他方法。我们在KITTI上训练的相机姿态估计结果显示在表2中。同样,我们的方法在所提出的方法上取得了显著的增益。我们选择与[1]进行特定比较,因为他们的比例一致方法特别侧重于测距。然而,结果仍然低于传统方法[32]。05.3. ∆的视觉分析0图6显示了一些∆值的示例。我们实验观察到,刚性像素p_rigid与µ(蓝色和红色值)之间的∆(p_rigid)差异最大,对应于12740图5:在具有挑战性的情况下比较深度图估计算法。虚线矩形框标志着我们的方法带来的改进。0(a) 细小物体0(b) 高纹理区域0(c) 边缘0图6:在具有挑战性的情况下,∆在正值和负值之间的大幅变化的示例,表明存在很强的歧义。还要注意红色的主导地位,这是由第3.1节提到的固有偏差造成的。0在一些棘手的情况下,即使对于人类来说,确定光流位移也是相当困难的,例如边缘像素、高纹理区域或细小物体周围的像素。相反,附近的值µ(白色值)来自容易推断的刚性像素。这支持我们的观点,当η足够小时,邻域Vη可以被看作是一个一致区域。换句话说,Dθ,Tα和Fδ共享对像素从∆−1(Vη)进行位移的机制的相同理解。06. 结论0我们提出了CoopNet,这是一种训练策略,在深度、自我运动等方面取得了竞争性的性能0并使用无监督训练进行光流估计。它依赖于不同视觉任务之间的良好合作,以便每个任务都可以从其他任务中受益,依赖于网络在像素的变形位移预测上达成一致的事实。这个想法可以通过将其与自我运动的显式残差校正相结合来进一步改进[26]。在这种情况下,Vη不再仅代表刚性像素,但仍然可以被视为一个一致区域,可以利用它来强调网络不一致的像素的训练过程。12750参考文献0[1] J.W. Bian,Z. Li,N. Wang,H. Zhan,C.Shen,M.MCheng和I.Reid。从单目视频中无监督的尺度一致深度和自我运动学习。在神经信息处理系统国际会议(NIPS)上,页35-45,2019年。0[2] V. Casser,S. Pirk,R. Mahjourian和A.Angelova。无传感器的深度预测:利用结构进行无监督的单目视频学习。在AAAI人工智能会议上,卷33,页8001-8008,2018年。0[3] Y. Chen,C. Schmid和C.Sminchiescu。在单目视频中使用几何约束的自监督学习。在ICCV中,页7063-7072,2019年。0[4] M. Cordts,M. Omran,S. Ramos,T. Rehfeld,M.Enzweiler,R. Benenson,U. Franke,S. Roth和B.Schiele。用于语义城市场景理解的Cityscapes数据集。在CVPR中,页3213-3223,2016年。0[5] A. Dosovitskiy,P. Fischer,E. Ilg,P. Hausser,C.Hazirbas,V. Golkov,P. Van der Smagt,D. Cremers和T.Brox。Flownet:使用卷积网络学习光流。在ICCV中,页2758-2766,2015年。0[6] D. Eigen,C. Puhrsch和R.Fergus。使用多尺度深度网络从单个图像预测深度图。在神经信息处理系统国际会议(NIPS)上,页2366-2374,2014年。0[7] F .Gao,J. Yu,H. Shen,Y. Wang和H.Yang。用于动态场景中自监督深度姿态学习的注意力分离和聚合网络。在机器人学习会议(CoRL2020)中,剑桥MA,2020年。0[8] R. Garg,V. Kumar,B.G. Gustavo和I.Reid。用于单视图深度估计的无监督CNN:几何救援。在ECCV中,页740-756。Springer International Publishing,2016年。0[9] A. Geiger,P. Lenz和R.Urtasun。我们准备好自动驾驶了吗?KITTI视觉基准套
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功