没有合适的资源?快使用搜索试试~ 我知道了~
立体深度估计的序列到序列角度下的Transformer方法的应用与优势
value is computed as the aggregated sum. This self-imposeddisparity range is necessary to enable memory-feasible im-plementations of these methods but is not flexible to prop-erties of the physical scene and/or the camera setup. In ap-plications such as autonomous driving and endoscopic in-tervention, it is important to recognize close objects irre-spective of camera setup (with disparity values potentiallylarger than 192) to avoid collisions, suggesting the need torelax the fixed disparity range assumption.Geometric properties and constraints such as occlusionand matching uniqueness, which led to the success of non-learning based approaches such as [18], are also often miss-ing from learning-based approaches. For stereo depth es-timation, occluded regions do not have a valid disparity.Prior algorithms generally infer disparities for occluded re-gions via a piece-wise smoothness assumption, which maynot always be valid. Providing a confidence estimate to-gether with the disparity value would be advantageous fordown-stream analysis, such as for registration or scene un-derstanding algorithms, to enable weighting or rejection ofoccluded and low-confidence estimates.However, mostprior approaches do not provide such information. More-over, pixels in one image should not be matched to multi-ple pixels in the other image (up to image resolution) sincethey correspond to the same location in the physical scene[28]. Although this constraint can be clearly useful to re-solve ambiguity, most existing learning-based approachesdo not impose it.The aforementioned problems largely arise from short-comings of the contemporary view of stereo matchingwhich attempts to construct a cost volume. Approaches thatconsider disparity estimation from a sequence-to-sequencematching perspective along epipolar lines can avoid thesechallenges. Such methods are not new, to our knowledge,the first attempt using dynamic programming was proposedin 1985 [28], where intra- and inter-epipolar line informa-tion is used together with a uniqueness constraint. How-61970从序列到序列的角度重新审视立体深度估计问题与Transformer0Zhaoshuo Li,Xingtong Liu,Nathan Drenkow,Andy Ding,Francis X. Creighton,RussellH. Taylor和Mathias Unberath0约翰霍普金斯大学 {zli122, mathias}@jhu.edu0摘要0立体深度估计依赖于左右图像上共面线上像素的最佳对应匹配来推断深度。在这项工作中,我们从序列到序列的对应关系角度重新审视了这个问题,用位置信息和注意力代替了代价体积构建的密集像素匹配。这种方法被称为STereoTRansformer(STTR),具有以下几个优点:1)放宽了固定视差范围的限制;2)识别遮挡区域并提供置信度估计;3)在匹配过程中施加唯一性约束。我们在合成和真实数据集上报告了有希望的结果,并证明STTR在不进行精调的情况下可以泛化到不同的领域。01. 引言0立体深度估计具有重要意义,因为它可以实现三维信息的重建。为此,左右相机图像之间的对应像素进行匹配;对应像素位置的差异,即视差,可以用来推断深度并重建三维场景。最近基于深度学习的立体深度估计方法显示出有希望的结果,但仍然存在一些挑战。其中一个挑战与有限的视差范围的使用有关。理论上,视差值可以从零到图像宽度不等,这取决于相机的分辨率/基线以及它们与物体的接近程度。然而,许多表现最佳的方法受限于手动预先指定的视差范围(通常最大为192像素)[21]。这些方法依赖于“代价体积”,其中为多个候选匹配计算匹配代价,并预测最终的视差61980(a) 网络概述0(b) Scene Flow0(c) MPI Sintel0(d) KITTI 20150(e) Middlebury 20140(f) SCARED0图1. (a)STTR通过首先使用共享特征提取器从立体图像中提取特征来估计视差。然后,Transformer使用提取的特征描述符进行密集的自注意力和交叉注意力计算,得到原始的视差估计。一个上下文调整层进一步通过在左图像上对极线上的信息进行条件化来优化视差,实现了跨极线的最优性。(b-f) 仅在合成的SceneFlow数据集上训练的STTR的推理结果。顶行显示左图像,底行显示预测的视差。用于可视化视差的颜色映射相对于图像宽度,并显示在右侧。黑色表示遮挡区域。最好以彩色查看。0然而,它只使用像素强度之间的相似性作为匹配准则,在局部匹配之外是不足够的,因此限制了其性能。基于注意力的网络在捕捉特征描述符之间的长程关联方面取得的最新进展,促使我们重新审视这个问题。我们利用最近提出的用于语言处理的Transformer架构[36]和特征匹配的最新进展[31],提出了一种新的端到端训练的立体深度估计网络,称为STereoTRansformer(STTR)。STTR的主要优势在于它可以密集地计算像素之间的相关性,并且不构建固定视差的代价体积。因此,STTR可以在性能上减轻大多数现代方法的缺点,而几乎不需要妥协。我们在合成和真实图像基准上报告了有竞争力的性能,并证明仅在合成图像上训练的STTR也能很好地推广到其他领域而无需调整。我们在以下方面取得了以下技术进展,以实现STTR的实现:0-与传统的立体深度估计方法(如[28])中基于像素强度的逐像素相关不同,我们采用了一个交替的自注意力和交叉注意力的Transformer,结合了之前在稀疏特征匹配中展示的最优传输理论[31]。这种设计允许我们明确而密集地匹配像素,同时施加唯一性约束。0-我们为特征描述符提供了相对像素距离编码,并使用定制的注意力机制来定义匹配过程中的判别特征。这有助于解决匹配过程中的歧义问题。0匹配过程中的特征匹配。0-我们设计了一种适用于内存的STTR实现,使得可以在传统硬件上训练所提出的模型。为了实现无缝分发和可重复性,我们的代码可在线获取,并且仅使用现有的PyTorch函数[29]。02. 相关工作02.1. 立体深度估计0一般而言,立体深度估计任务包括两个关键步骤(1)特征匹配和(2)匹配代价聚合[21]。传统上,该任务通过动态规划技术来解决,其中匹配是基于像素强度计算的,代价要么在1D中水平聚合[28],要么在2D中多方向聚合[18]。最近,出现了基于学习的方法,通过点积相关来匹配特征。早期的方法如[6]基于特征块计算特征相似性,并使用马尔可夫随机场来优化匹配。后续的方法[25,22]利用基于学习的特征提取器,并计算每个像素的特征描述符之间的相似性。[39]通过跨尺度信息聚合进一步提高了性能。同时,像[20,5]这样的网络通过将不同视差处的特征进行串联来构建一个4D特征体,并通过3D卷积来学习计算/聚合匹配代价。在[43]中,还使用了额外的半全局和局部信息。01 代码可在 https://github.com/mli0603/stereo-transformer 上找到3.2. Transformer61990提出了成本聚合层以提高性能。在通过学习的3D卷积计算匹配成本的相同思想下,其他工作[40, 7, 41,15]尝试通过多分辨率方法实现高分辨率推理,缓解内存限制,并/或利用更丰富的上下文信息。还出现了混合方法,如[16],它将显式相关性和3D卷积结合起来进行匹配和成本聚合。其他工作采用了不同的设计理念,例如[2]采用了基于分类的视差估计方法。然而,以上先前的工作都没有利用立体匹配的顺序性和几何特性,这导致了非学习型方法(如[28,18])的成功。此外,无论是通过相关性计算匹配还是通过3D卷积学习匹配,在上述工作中都设置了最大视差以缓解内存和计算需求。对于每个像素,存在一个固定且有限的离散位置集,像素可以映射到其中,从而生成匹配成本体积。对于超出这个预定义范围的视差,这些方法无法推断出正确的匹配。这限制了网络在不同场景和立体相机配置之间的泛化能力。此外,大多数基于学习的方法没有明确处理遮挡,即使遮挡区域的视差在理论上可以是任意的。最后,在匹配过程中没有施加明确的唯一性约束,这可能由于匹配的不一致性而影响性能。02.2. STTR与先前基于学习的立体范式的比较0我们使用卷积神经网络作为特征提取器,将其输入到Transformer中,以捕捉像素之间的长程关联。STTR利用了立体匹配的顺序性和几何特性。STTR与基于相关性的网络相比:STTR在匹配过程中施加了唯一性约束以解决歧义。STTR还在图像内部和图像间交替进行相关性操作,即自注意力和交叉注意力,并通过同时考虑图像上下文和位置信息来更新特征表示。STTR与基于3D卷积的网络相比:STTR明确且密集地计算左右图像之间的相关性。我们首先沿着极线进行匹配,然后通过2D卷积在极线上聚合信息,而不是使用3D卷积来聚合成本体积。02.3. 注意力机制和Transformer0注意力已经被证明是自然语言处理中的有效工具[36]。最近,注意力-0基于注意力的架构已经在计算机视觉任务中得到了应用,例如图像分类[11],目标检测[4],全景分割[37]和单应性估计和视觉定位[31],在纯CNN架构的基础上取得了改进的结果。这可能是因为注意力可以捕捉到长程关联,这对于本文提出的工作尤为重要。我们采用Transformer来重新审视最初在[28]中提出的序列到序列立体匹配范式。03. 立体变换器架构0在接下来的章节中,我们将矫正的左右图像对的高度和宽度表示为Ih和Iw。我们将特征描述符的通道维度表示为C。03.1. 特征提取器0我们使用类似于[23]的沙漏形状的架构,不同之处在于编码路径使用残差连接和空间金字塔池化模块[5]来更有效地获取全局上下文。解码路径由转置卷积、密集块[19]和最后的卷积层组成。每个像素的特征描述符,表示为大小为Ce的向量eI,编码了局部和全局上下文。最终的特征图与输入图像具有相同的空间分辨率。0这里使用的Transformer架构的概述如图2所示。我们采用[31]中的交替注意力机制:自注意力计算同一图像中沿着极线的像素之间的注意力,而交叉注意力计算左右图像中相应极线上的像素之间的注意力。关于这两个注意力模块的详细信息将在第3.2.1节中介绍。如图2所示,我们在N-1个层之间交替计算自注意力和交叉注意力。这种交替方案根据图像上下文和相对位置不断更新特征描述符,如第3.2.2节所讨论的。在最后一个交叉注意力层中,我们使用最具关注度的像素来估计原始视差。我们添加了专属于该层的操作,包括最优传输以符合唯一性约束(第3.2.3节)和注意力掩码以减少搜索空间(第3.2.4节)。03.2.1 注意力0注意力模块[36]使用点积相似度计算一组查询向量和键向量之间的注意力,然后用于加权一组值向量。我们采用多头注意力,通过将特征描述符的通道维度Ce分成Nh组Ch = Ce /Nh来增加特征描述符的表达能力,其中Ch是每个头的通道维度Qh = WQheI + bQhKh = WKheI + bKhVh = WVheI + bVh ,(1)αh = softmax(QTh Kh√Ch) .(2)VO = WO Concat(α1V1, ..., αNhVNh) + bO ,(3)eI = eI + VO .(4)+ eTI,iW TQWKep,j(2) data-position+.(6)+,(7)̸62000图2.带有交替自注意力和交叉注意力的Transformer模块概述。请注意,在最后一个交叉注意力层中,添加了最优传输和注意力掩码。0和Nh是头的数量。因此,每个头可以有不同的表示,并且可以按头计算相似性。对于每个注意力头h,使用一组线性投影来计算查询向量Qh、键向量Kh和值向量Vh,使用特征描述符eI作为输入:0其中WQh、WKh、WVh ∈ RC×C,bQh、bKh、bVh ∈RC。我们通过softmax对相似性进行归一化,得到αh:0输出值向量VO可以计算为:0其中WO ∈ RCe×Ce和bO ∈RCe。然后将输出值向量VO添加到原始特征描述符中形成残差连接:0对于自注意力,Qh、Kh、Vh是从同一图像计算得到的。对于交叉注意力,Qh是从源图像计算得到的,而Kh、Vh是从目标图像计算得到的。交叉注意力是双向应用的,因此在一种情况下,源→目标是从左到右,另一种情况是从右到左。03.2.2 相对位置编码0在大面积无纹理区域,像素之间的相似性可能是模糊的。然而,这种模糊性可以通过考虑与显著特征相关的相对位置信息来解决0通过考虑与显著特征(如边缘)相关的相对位置信息,我们通过位置编码e p提供数据相关的空间信息。由于其具有平移不变性,我们选择编码相对像素距离而不是绝对像素位置。在传统的Transformer [36]中,绝对位置编码e p 直接添加到特征描述符中0e = eI + ep . (5)0在这种情况下,方程2中第i个像素和第j个像素之间的注意力可以扩展[10](忽略偏差以简化)为0αi,j = eTI,iWTQWK eI,j � �� � (1)data-data0e T p,i W T Q W K eI,j � �� � (3) 位置-数据0+ e T p,i W T Q W K ep,j � �� � (4) 位置-位置0如图所示,项(4)完全依赖于位置,因此应该被排除在外,因为视差基本上取决于图像内容。相反,我们使用相对位置编码并删除项(4)0α i,j = e T I,i W T Q W K e I,j � �� �(1) 数据-数据0e T I,i W T Q W K e p,i −j � �� � (2) 数据-位置0+ e T p,i − j W T Q W K e I,j� �� � (3) 位置-数据0其中 e p,i − j 表示第 i 个像素和第 j个像素之间的位置编码。请注意, e p,i − j � = e p,j − i。直观地说,注意力取决于内容相似性和相对距离。与我们的开发同时进行的是,[17]发现类似的注意机制对于NLP任务是有益的。然而,相对距离的计算成本在图像宽度 I w上是二次的,因为对于每个像素,有 I w个相对距离,并且这个计算需要进行 I w次。我们在附录A中描述了一种有效的实现,将成本降低到线性。03.2.3 最优运输0在[28]中尝试了强制执行立体匹配的唯一性约束,其中右图像中的每个像素最多分配给左图像中的一个像素。然而,这种硬分配会阻止梯度流动。相比之下,熵正则化的最优运输[9]是一个理想的选择,因为它具有软分配和可微性,并且以前已经证明对于稀疏特征[31]和语义对应[24]匹配是有益的。给定长度为 I w 的两个边缘分布 a 和 b 的成本矩阵M ,熵正则化的最优T =argminT ∈RIw×Iw+Iw,Iw�i,j=1TijMij − γE(T )s.t. T 1Iw = a, T T 1Iw = b(8)62010通过求解来寻找最优耦合矩阵 T 的运输尝试0其中 E ( T ) 是熵正则化。如果两个边缘分布 a, b是均匀的,那么 T对于分配问题也是最优的,这施加了一个软唯一性约束[30]并减轻了歧义[24]。通过迭代的Sinkhorn算法[9]可以找到方程8的解。直观地说, T中的值表示成对匹配的概率,类似于方程2中的softmaxed注意力。由于遮挡,一些像素无法匹配。根据[31],我们通过添加一个可学习参数 ϕ的垃圾桶来增加成本矩阵,直观地表示设置像素未匹配的成本。在STTR中,成本矩阵 M被设置为由方程2中的交叉注意力模块计算的注意力的负值,但没有softmax,因为最优运输将规范化注意力值。03.2.4 注意力掩码0设 x L , x R是同一物理点在左右极线上的投影位置(从左到右 +x)。立体摄像机的空间布局确保对于所有经过矫正的点, xR ≤ x L。因此,在最后一个交叉注意力层中,左图像中的每个像素只需要关注右图像中与相同坐标的像素更靠左的像素(即只关注右图像中的点 x ,其中 x ≤ x L)。为了施加这样的约束,我们在注意力上引入了一个下三角形二进制掩码。附录B中还可以找到其他可视化结果。03.2.5 原始视差和遮挡回归0在大多数先前的工作中,使用所有候选视差值的加权和。相反,我们使用修改后的取胜者通吃方法[35]来回归视差,这种方法对于多模态分布是鲁棒的。原始视差通过从最优运输分配矩阵 T 中找到最可能匹配的位置(记为 k)并在其周围建立一个3像素窗口 N 3 ( k )来计算。对3像素窗口内的匹配概率进行重新归一化,使其总和为1。候选视差的加权和是回归的原始视差 ˜ d raw ( k )。将分配矩阵 T 中的匹配概率表示为 t ,我们有0˜ t l = 0l ∈N 3 ( k ) t l , for l ∈ N 3 ( k )(9)0˜ d raw ( k 0l ∈N 3 ( k ) d l ˜ t l (10)0在这个3像素窗口内的概率之和表示网络对当前分配的置信度的估计,以逆遮挡概率的形式表示。因此,我们可以使用相同的信息回归遮挡概率p occ ( k ) ,如下所示:0p occ ( k ) = 10l ∈N 3 ( k ) t l . (11)03.3. 上下文调整层0原始视差图和遮挡图是在极线上回归的,因此缺乏跨多个极线的上下文信息。为了缓解这个问题,我们使用卷积来根据具有交叉极线信息的输入图像调整估计值。上下文调整层的概述如图3所示。首先,将原始视差图和遮挡图沿通道维度与左图像进行拼接。使用两个卷积块来聚合遮挡信息,然后使用ReLU激活函数。最终的遮挡图通过Sigmoid激活函数估计。视差通过残差块进行细化,该块在ReLU激活之前扩展通道维度,然后将其恢复到原始通道维度。ReLU之前的扩展是为了促进更好的信息流动[42]。原始视差与残差块重复拼接以获得更好的条件。残差块的最终输出通过长跳跃连接与原始视差相加。0图3.上下文调整层的概述。使用卷积块和Sigmoid激活函数进行遮挡细化(顶部),使用具有长跳跃连接的残差块进行视差细化(底部)。定性结果见附录F。03.4. 损失0我们采用[23]中提出的相对响应损失L rr对匹配矩阵T进行训练,包括匹配像素集合M和由于遮挡而不匹配的像素集合U。网络的目标是最大化对真实目标位置的关注。由于视差是亚像素级别的,我们使用最近整数像素之间的线性插值来找到:62020匹配概率t�。具体而言,对于左图像中的第i个像素,其地面真实视差为d gt,i,0t � i = interp(T i, p i − d0L rr = 10N M0i ∈M − log(t � i) + 1 N U0i ∈U − log(t i,ϕ)(12)0其中interp表示线性插值,ti,ϕ是不匹配的概率。我们在原始视差和最终视差上使用平滑L1损失,分别表示为L d 1 ,r和L d 1,f。最终的遮挡图通过二元熵损失Lbe,f进行监督。总损失为:0L = w 1 L rr + w 2 L d 1 ,r + w 3 L d 1 ,f + w 4 L be,f, (13)0其中w是损失权重。03.5. 内存可行的实现0注意机制的内存消耗与序列长度的平方成正比。具体而言,对于float32精度计算,0内存消耗(以位为单位) = 32 I h I 2 w N h N. (14)0例如,给定 I w = 960,I h = 540 和 N h = 8,训练一个N = 6层的Transformer大约需要消耗216GB的内存,这在传统硬件上是不切实际的。根据[8],我们采用了梯度检查点[14]来处理每个自注意力和交叉注意力层,其中在前向传播过程中不保存中间变量。在反向传播过程中,我们再次运行前向传播过程来重新计算梯度。因此,内存消耗受限于单个注意力层的要求,理论上使得网络在注意力层数量N方面能够无限扩展。此外,我们使用混合精度训练[27]来提高训练速度和减少内存消耗。最后,我们使用注意力步长s >1来稀疏采样特征描述符,这相当于对特征图进行下采样。复杂度分析:在现有的成本体积范式中,基于相关性的网络的内存复杂度为O(IhIwD),而基于3D卷积的网络的内存复杂度为O(IhIwDC),其中D是最大视差值,C是通道大小。通常将D设置为小于Iw的固定值,牺牲了预测超出范围的视差值的能力。STTR的复杂度为O(IhI2w/s3),与之前的工作相比,它提供了一种替代的权衡,不需要设置最大视差。给定s,STTR在不同视差范围内以恒定的内存消耗运行,与之前的工作相比。在推理过程中,可以将s调整为较大的值,从而减少内存消耗,并在轻微牺牲任务性能的情况下保持最大视差范围。定量分析权衡的结果0s的性能和内存之间的权衡在附录G中。我们还在附录H中介绍了一种轻量级的STTR实现,没有灵活调整s的能力,以提高速度和降低内存消耗。STTR和之前的工作在推理速度/内存方面的比较在附录I中。04. 实验、结果和讨论0数据集:场景流[25]FlyingThings3D子集是一个随机对象的合成数据集。MPISintel[3]是一个来自动画电影的合成数据集,其中包含各种逼真的伪影和运动模糊。KITTI 2015[26]是一个街景数据集。Middlebury 2014[32]四分辨率子集是一个室内场景数据集。SCARED[1]是一个腹腔镜手术的医学场景数据集。对于预训练,我们使用场景流的默认拆分。对于跨域泛化评估,我们使用每个数据集提供的所有数据。对于KITTI2015基准评估,我们在KITTI2012和2015数据集上进行训练,并保留20张图像进行验证。数据集和预处理步骤的详细信息在附录J中。训练持续时间和参数数量在附录L中。超参数:在我们的实验中,我们使用了6个自注意力和交叉注意力层,C e =128。我们运行Sinkhorn算法进行10次迭代。我们在训练过程中使用注意力步长s =3。我们使用AdamW作为优化器,权重衰减为1e-4。我们将所有损失权重w设置为1。我们在场景流上进行了15个时期的预训练,使用了固定的学习率1e-4进行特征提取器和Transformer的训练,以及2e-4进行上下文调整层的训练。为了模拟真实的立体伪影,我们使用了不对称的(即左右图像不同)增强,包括RGB偏移、高斯噪声、亮度/对比度偏移、垂直偏移和旋转。对于KITTI2015基准提交,我们使用指数学习率调度器进行预训练模型的微调,衰减率为0.99,持续400个时期。我们在一块Nvidia Titan RTXGPU上进行实验。我们使用3像素误差(大于3像素的错误百分比)和EPE(绝对误差)作为评估指标。请注意,本节其余部分报告的所有定量指标仅针对非遮挡区域;我们使用IOU来评估遮挡估计。04.1. 消融研究0我们使用场景流合成数据集进行消融研究,并提供了关于注意力掩码、最优传输层、上下文调整层和位置编码效果的定量结果,总结如表1所示。与之前的工作一样,我们直接在测试集上进行验证,因为场景流仅用于预训练。唯一性约束:通过最优传输层施加软唯一性约束,通过沿着同一极线的像素之间的交互来实现。AMOTCALRPEError ↓EPE ↓IOU ↑3.610.920.78✓2.770.840.77✓✓2.320.700.87✓✓✓2.210.630.88✓✓✓✓1.260.450.9262030表1. 场景流数据集的消融研究。AM: 注意力掩码。OT:最优传输。CAL: 上下文调整层。RPE: 相对位置编码。0组件 3像素遮挡0我们发现它在所有指标上都改善了结果,特别是在遮挡IOU方面(表1中的第3行)。相对位置编码:为了可视化位置编码的效果,我们使用PCA将特征图降维到R3。给定一个具有大面积无纹理区域的图像,例如图4(a)中所示的桌子,直接从特征提取器中提取的特征呈现出相似的模式,如图4(b)所示。在没有位置编码的情况下,随着层数的加深,特征图在整个过程中仅发生微小变化,如图4(c-d)所示。通过为所有层提供相对位置编码,层4中出现了与边缘平行的步幅,如图4(e)所示,最终在层6中步幅传播到整个区域,如图4(f)所示。这表明Transformer需要相对位置信息来解决无纹理区域的歧义。通过为所有层添加位置编码,所有三个指标的结果都有所改善(表1中的第5行)。0(a) 左图像。0(b) 特征提取器的输出。0(c)不带位置编码的Transformer层的输出。0(d)不带位置编码的Transformer层的输出。0(f) 带有位置编码的Transformer层的输出。图4.特征描述符可视化。Transformer更新的特征的完整演变可以在附录C中找到。0注意力的泛化:原则上,STTR允许视差范围随图像宽度缩放,因为像素密集地进行比较。然而,我们评估STTR是否确实可以在其训练的视差范围之外进行泛化。我们通过仅计算视差范围之外的像素来训练另一个模型。0在小于192像素(0.2 I w)的视差上计算损失,并忽略超出此范围的像素。在测试过程中,1像素误差范围内的最大视差预测为458像素(0.48 Iw),这证明了其泛化能力。注意力范围:我们分析自注意力和交叉注意力[33,34]的每个层的注意力范围(即所有像素上的注意力值分布)。我们的结果(详见附录D)显示,自注意力和交叉注意力都从相对全局的上下文(300像素,0.31 I w)开始,并转移到局部上下文(自注意力为114像素,0.12 Iw ;交叉注意力为15像素,0.01 I w)。由于注意力范围在更深的层次上减小,我们得出结论:全局上下文主要在早期层次中使用,但在后期层次中对视差细化没有实质性贡献。这为未来的工作提供了机会,可以根据前面层次的注意力范围逐渐减小搜索窗口,以提高效率。04.2. 与先前工作的比较0在多个评估设置下,我们将STTR与先前工作进行比较,涵盖了主要的基于学习的立体深度范式,包括基于相关性的AANet [39]、基于3D卷积的PSMNet [5]和GANet-11[43]、相关性和3D卷积混合方法GwcNet-g[16]以及基于分类的Bi3D [2]。04.2.1 场景流基准结果0在SceneFlow上的预训练结果如表3所示。当仅在视差小于192的像素上进行评估时(第2-3列),STTR的表现与先前工作相当。然而,在无约束的设置下,由于其无界视差估计(第4-5列),STTR在性能上大幅优于先前工作,而其他方法的最大视差固定为D = 192。为了公平比较,我们再次以D =480进行评估(覆盖测试数据集中的所有视差值),以对先前工作进行评估。STTR的性能与D =192设置相同,并且与先前工作相当。此外,如图1qualitatively所示,并在表1quantitatively中显示,STTR可以准确地识别遮挡区域,而先前的工作没有尝试这一点。04.2.2 跨领域泛化0我们通过将STTR与仅在SceneFlow合成数据集上训练的先前工作进行比较,来检验STTR的领域泛化能力。请注意,我们没有将模型优化到测试数据集。为了公平比较,我们将先前工作的最大视差D =192,并仅评估在此范围内的像素。我们还使用了与STTR相同的非对称增强技术来训练先前的工作,以避免不一致性[38],同时保持原始的训练方案(优化器、学习率、损失和数量)。HAMNet [12]20191.393.201.69AANet [39]20201.804.932.32LEAStereo [7]20201.292.651.51PSMNet [5]20181.714.312.14GANet-15 [43]20191.403.371.73GwcNet-g [16]20191.613.491.92Bi3D [2]20201.793.112.01STTR1.703.612.0162040表2. 在MPI Sintel、KITTI 2015、Middlebury2014和SCARED数据集上进行无微调的泛化。粗体表示最佳。‡:使用非对称数据增强训练的模型。†:由于内存限制,STTR的s =4。OOM:内存不足0MPI Sintel † ( 1024 × 436 ) KITTI 2015 ( 1242 × 375 ) Middlebury 2014 (varies) SCARED † ( 1080 × 1024 )03像素误差 ↓ EPE ↓ 遮挡IOU ↑ 3像素误差 ↓ EPE ↓ 遮挡IOU ↑ 3像素误差 ↓ EPE ↓ 遮挡IOU ↑ 3像素误差 ↓ EPE ↓ 遮挡IOU ↑0PSMNet [5] 6.81 3.31 N/A 27.79 6.56 N/A 12.96 3.05 N/A OOM OOM N/A PSMNet ‡ 7.93 3.70 N/A 7.43 1.39 N/A 10.24 2.02 N/A OOM OOM N/A GwcNet-g [16] 6.261.42 N/A 12.60 2.21 N/A 8.59 1.89 N/A OOM OOM N/A GwcNet-g ‡ 5.83 1.32 N/A 6.75 1.59 N/A 6.60 1.95 N/A OOM OOM N/A AANet [39] 5.91 1.89 N/A 12.42 1.99N/A 12.80 2.19 N/A 6.39 1.36 N/A AANet ‡ 6.29 2.24 N/A 7.06 1.31 N/A 9.57 1.71 N/A 3.99 1.17 N/A0STTR ‡ 5.75 3.01 0.86 6.74 1.50 0.98 6.19 2.33 0.95 3.69 1.57 0.960表3.场景流评估。模型权重由作者提供。D:最大视差值。OOM:内存不足。N/A:模型仅在192范围内推断。0D=192 D=4800视差 < 192 所有像素视差 < 192 所有像素03像素 3像素 3像素 3像素0误差 ↓ EPE ↓ 误差 ↓ EPE ↓ 误差 ↓ EPE ↓ 误差 ↓ EPE ↓0PSMNet 2.87 0.95 3.31 1.25 3.09 0.92 3.60 1.03 GwcNet-g 1.57 0.48 2.09 0.89 1.60 0.501.72 0.53 AANet 1.86 0.49 2.38 1.96 N/A N/A GANet-11 1.60 0.48 2.19 0.97 OOM OOMBi3D 1.70 0.54 2.21 1.16 OOM OOM0STTR 1.13 0.42 1.26 0.45 1.13 0.42 1.26 0.450尽管不对称增强在某些情况下可以提高泛化性能(证实了[38]的发现),但其效果并不一致。尽管如此,STTR在四个数据集上的泛化性能相当,并且在遮挡IOU方面保持较高的水平。STTR在3像素误差方面表现良好,但不一定在EPE方面表现良好。这是因为如果将像素错误地识别为遮挡,将预测为零视差,从而导致较大的EPE。我们在附录E中可视化了STTR的泛化机制。04.2.3 KITTI基准结果0由于KITTI基准提供了一定数量的图像用于微调,并且在之前的工作中通常被使用,我们选择KITTI基准进行微调后的比较。KITTI 2015基准的结果如表42所示。STTR在与几种竞争方法的比较中表现出色,甚至与为更好的上下文聚合而设计的多分辨率网络相比也不逊色。04.2.4 挑战设计的缺点0虽然STTR与之前的工作相比表现出色,但值得一提的是,这些真实世界数据集中的测试集相对较小。具体而言,KITTI 2015、Middlebury2014和SCARED的测试集分别包含200、15和19张图像。为了更全面地评估性能,需要更大的测试数据集。数据的匮乏性进一步加剧了这些数据集上竞争模型之间的性能差异。02 KITTI基准的完整结果。0在细化和跨领域泛化后,STTR的性能提升不到1%,对于交叉领域泛化只有几个百分点。因此,我们无法得出这些方法之间是否存在显著的性能差异的结论。此外,KITTI仅报告小于192的视差,并且没有与STTR的一些核心优势相关的度量标准(例如,无限视差和遮挡检测)。因此,对于这个基准的结果可能无法完全反映性能比较的全貌。尽管存在以上限制,但某些进展为成本-体积方法带来了显著的性能改进。从低分辨率(例如PSMNet[5])到使用特征金字塔进行更好的上下文聚合的多分辨率的转变(例如LEAStereo[7])似乎是一条有成果的道路,其中LEAStereo[7]在这个结构中进一步通过神经架构搜索进行了优化。我们未来的工作目标是将这些发展纳入我们的设计中。0Table 4. 在KITTI 2015上的3像素或5%误差评估. 背景: 背景. 前景:前景. 多分辨率: 网络在多个分辨率上操作. 低分辨率:网络在降采样分辨率上操作.0方法 年份 背景 ↓ 前景 ↓ 总体 ↓0多分辨率0低分辨率05. 结论0总之,我们提出了一种名为STereoTRansformer的端到端网络架构,它结合了CNN和Transformer架
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功