没有合适的资源?快使用搜索试试~ 我知道了~
光学视觉的立体匹配问题具有搜索空间有限和遮挡区域的挑战
1939ChiTransformer:从线索走向可靠的立体声佐治亚州立大学qsu3@gsu.edu佐治亚州立大学sji@gsu.edu摘要当前的立体匹配技术受到搜索空间有限、遮挡区域和绝对尺寸的挑战。虽然单个图像深度估计免于这些挑战并且可以利用外单目线索实现令人满意的结果,但是缺乏立体关系使得单目预测自身不太可靠,特别是在高度动态或杂乱的环境中。为了解决这两种情况下的这些问题,我们提出了一种受光学交叉启发的自监督双目深度估计方法,其中具有门控位置交叉注意(GPCA)层的视觉Transformer(ViT)被设计为实现视图之间的特征敏感模式检索,同时保留通过自注意聚集的广泛上下文信息。单目线索从一个单一的角度,然后有条件地纠正混合层与检索到的模式对。这种交叉设计在生物学上类似于人类视觉系统中的视隙结构,因此被称为Chi- Transformer。我们的实验表明,这种架构比最先进的自监督立体方法产生了11%的实质性改进,并且可以用于直线和非直线(例如,鱼眼)图像。11. 介绍在计算机视觉的背景下,现在几乎所有主流的深度估计方法都是基于深度学习的,并且可以大致分为两种流行的方法,即立体匹配和单眼深度估计。由于立体匹配与人类视觉系统的紧密联系,立体匹配一直任务是找到或估计两个整流图像中所有像素的对应关系[3,5,54]。实际上,目前所有的工作都采用基于卷积神经网络(CNN)的方法来计算匹配成本,因为它在2015年首次被引入该任务[16,71]。继FlowNet [16]的开创性工作之后,已经发表了1https://github.com/ISL-CV/ChiTransformer.git图1.根据线索进行深度估计。单目深度估计依赖于深度线索来进行预测。而我们的自监督立体方法ChiTransformer利用从立体声中检索和校正的深度线索来进行具有上下文一致性的卓越使用CNN相关的方法[39],将性能提高了50%以上。随着时间的推移,一些根深蒂固的问题,如薄结构、大的无纹理区域和闭塞已得到缓解或解决[32,73]。到目前为止,立体匹配是被动立体声应用中最常用的技术。然而,随着视觉系统被大大缩小尺寸并安装在具有更高移动性的平台上(例如,无人机、商用机器人)。这表明更加拥挤、混乱和动态的操作环境,其中曾经的次要问题变成主要问题,即,巨大差距,单深度2 [25]DPT [51](左)输入ChiTransformer1940可能涉及的严重遮挡和非直线图像。因此,大多数现有的立体匹配方法不是针对这种新趋势而建立的,并且不能适当地解决这些问题另一方面,单目深度估计(MDE)免于这些挑战,因为深度从单个视图估计。继[19]之后,目前的工作利用深度模型来获得更多描述性线索,以实现更好的预测。最近的工作集中在融合多尺度信息,以进一步提 高 像 素 级 深 度 估 计 [40 , 44] 。 最 近 , 视 觉Transformer在任务中得到了利用,并产生了具有更细粒度的全局组织和一致的预测[6,51]。最先进的MDE方法可以相对准确地获得令人印象深刻的结果63>0。99与监督训练[21,26,43,69]。然而,MDE估计的可靠性基本上是基于假设现实世界中的场景大多是规则的。因此,由于缺乏立体关系,MDE更局限于其训练数据集,并且对这使得MDE在安全关键应用中不可靠,例如自动驾驶和视觉辅助无人机。通过以上讨论,我们可以看出立体匹配和MDE的局限性和优势是互补的。因此,在本文中,我们提出了一种新的方法,通过跨越立体声和MDE方法,使立体声信息可以注入到MDE过程中,以纠正和改善从深度线索的估计,共同解决其局限性。因此,我们介绍了ChiTransformer,一个受光学交叉启发的自监督双目深度估计网络。ChiTransformer采用最新的视觉变换器(ViT)[15]作为主干,并将仅编码器的变换器扩展为类似于自然语言处理的编码器-解码器结构[14,59]。不是端到所有的连接,交错连接被用于交叉注意,以使得能够在自回归过程中将编码的深度线索从附近视图渐进地灌输到主视图。我们的主要内容是检索交叉注意层的设计。ChiTransformer的交叉注意机制不像常规的多头注意(MHA)那样关注编码之间的多层次上下文关系,而是从另一视角提取具有强上下文和特征一致性的深度线索为了实现这一点,我们用一个自伴算子来调节初始状态(查询),而不破坏现代Hopfield网络的收敛规则[50]。正定算子被频谱分解以使编码特征空间内的极化注意力能够强调某些线索,同时尽可能多地保留原始信息。我们表明,这种设计有利于可靠的检索,并导致更精细的功能一致的细节上的全球一致的es,估计此外,通过使用门控位置嵌入,该模型可以进一步扩展到非直线图像,例如鱼眼[12]。我们用可学习的相对位置的二次多项式对极几何建模。考虑到按像素标记的数据在规模上获取具有挑战性,更不用说非直线图像了,我们选择使用从工作中定制的自监督学习策略来训练模型[25]。与传统的立体方法相比,我们的方法放弃了像素级匹配优化,但利用了两个视图的上下文注入深度线索,以提高整体深度预测。利用全局感受野,Chi-Transformer不仅不限于某些核线几何学,例如,校正的规则立体对的水平共线核线,而且还能够处理大的视差。此外,在单个图像内的深度估计的固有能力下,可以适当地处理在大的遮挡区域处的估计,从目前的MDE方法的增强,我们的方法提供了可靠的预测与立体声对的引导线索,使ChiTransformer更适合于复杂和动态的环境。实验进行深度估计任务,提供立体对。我们的研究结果表明,ChiTrans- former提供了超过11%的改进的一致性,以最高性能的自监督立体声方法。该架构还测试立体声任务,以评估立体声线索带来的增益和潜在的可靠性所产生的灌输立体声信息。为了展示ChiTransformer在非直线图像中的潜力,我们训练我们的模型来预测来自[18]的翻译合成鱼眼序列的距离,并获得视觉上令人满意的结果。2. 相关工作自[19,20]的出版物以来,端到端可训练的基于CNN的模型一直是密集深度[24,25,52]或视差估计[29,31,56,67]的原型架构。主要思想是利用学习的表示来提高匹配成本[36,54]或深度线索[7]与适当大的局部区域的上下文信息。流行的编码器-解码器结构使得能够以不同尺度对表示进行渐进式下采样和上采样[10,17,44,66,74],并且来自先前层的中间结果通常被重用以恢复细粒度估计,同时确保足够大的上下文。在展示了 广泛的NLP任务的示 例性性能之后 ,attention或特别是Transformer在视觉任务中表现出了竞争力或卓越的能力,例如图像识别[15,57],对象检测[9,76],语义分割[68],超分辨率[65],图像修复[72],图像生成[53],文本图像合成[1]等。这些成功也引发了人们对1941SA融合融合融合深度估计RSB左图像CASAResNet-50SA ×lSA右图像ResNet-50SA ×lSASA×01RSB×lDCR补丁嵌入器自注意(SA)层交叉注意(CA)层混合层重新组装(RSB)深度线索校正(DCR)融合图2.ChiTransformer的架构。立体声对(左:主,右:参考)最初通过Siamese ResNet-50塔嵌入到令牌来自两个图像的2D组织的标记被展平,然后分别用可学习的位置嵌入和额外的类标记来增强然后令牌被并行地馈送到两个大小为lSA的自注意(SA)栈中。之后,将标记馈送到一系列(IDCR)深度校正块(DCR)中,在每个深度校正块中,参考图像的标记通过SA层,而主图像的标记通过极化交叉注意(CA)层,随后是SA层。在极化CA层中,从参考SA的输出中提取相关令牌以校正主设备来自不同阶段的令牌随后以多分辨率(蓝色)重新组装成类似图像的排列,并通过融合块逐渐融合和上采样,以生成细粒度的深度估计。立体声和深度估计社区。[63]利用级联注意力来计算沿对极线的匹配成本,并在自监督立体匹配方法中取得了有竞争力的结果[2,34,42,75]。最近,视觉Transformer代替卷积网络作为[51]中密集深度预测的骨干,与最先进的卷积对应物相比,实现了28%的显著改进。在细化阶段采用迷你ViT块[6]以促进自适应深度箱计算,以及工作顶部KITTI [23]和NYUv2 [55]排行榜。受[51]的启发,我们的方法利用ViT在学习长距离复杂上下文信息中的能力来校正深度线索,而不是执行立体匹配。上面讨论的大多数作品都是完全监督的,这需要逐像素标记的地面实况进行训练。然而,在许多现实世界的设置中,获取大规模的密集注释是具有挑战性的。解决方法之一是采用自我监督学习。对于立体自监督训练,通常预测同步立体对的像素视差[2,34,42,66,75],而对于个街区.我们遵循视觉变换器的配置[15]作为骨干,并保持普遍的整体编码器-解码器结构,因为它们在各种密 集 预 测 任 务 中 反 复 验 证 成 功 。 我 们 展 示 了ChiTransformer中立体声对之间的编码表示或线索的相互作用,以及它们如何有效地转换为密集的深度预测。讨论了这种方法的启发和成功的直观性。3.1. 架构概 述 : ChiTransformer 的 完 整 架 构 如 图 2 所 示 。ChiTransformer采用一对混合视觉转换器作为ResNet-50[27]第27话我的秘密 两个ResNet50个是共享的,以确保表述的一致性。图像块嵌入首先被投影到768维,然后在被馈送到注意块之前与位置嵌入进行平坦化和求和。对于大小为H × W的图像,其中斑块大小为P × P,结果是集合T={t,t,. ..,不},其中N=H·WP2必须估计相机姿态以帮助重建图像并约束估计网络[8,24,60,70,75]。考虑到该方法的通用性和潜在的应用前景,我们选择了ChiTransformer的自监督训练。3. 方法本节介绍了ChiTransformer的整体架构,并详细介绍了关键构建而t0是类令牌。在这里,补丁的作用是Transformer的在下文中可互换地称为“单词”或“令牌”。参考视图的注意力块紧密遵循[15]中的设计,包括类令牌,而主令牌在前多个SA层中是自关注的,然后是交叉注意(CA)和自关注(SA)层。 主ViT(和训练中的参考ViT)的输出到- kens然后重新组合成类似图像的排列。单目自我监督训练,不仅深度,而且Npp194228 2{···}我我2--我--我我我k=1i,ki,kPP⇥⇥在不同尺度s S下的特征表示Is被逐步聚合并融合到融 合 块 中 的 最 终 深 度 估 计 中 , 该 融 合 块 是 从RefineNet [45]修改的。融合块在训练阶段为两个视图共享,但在推理中专用于主视图。注意层次:自我注意层是变压器和其他基于注意力的方法,以实现其非注意力的竞争对手的优越性能的关键部分。关键的优点是复杂的上下文信息可以在全球范围内聚集。有了多层SA,编码会随着上下文的变化而逐渐调整,CNN的输出减少到基于余弦相似性的匹配。如果没有大范围的位置相关上下文信息,模式容易出现病态和低可分性。Giv enatok enpair(mti,mt0i),i1、,Np,其中m表示主视图,r表示参考视图,并且t0表示检索到的标记,然后通过以下混合过程来重新确定深度线索:fproj(mti,mt0)=MLP(mt>,mt0>m),(1)形成,因为它深入到注意力层。这种机制产生了全球一致的预测。因此,我们在ResNet-50的输出处放置多个(1个SA=4个具有适当上下文的提示信息导致后续CA层中更可靠的模式检索。这种设计提高了训练收敛性和预测性能。交叉关注层是我们在Chi- Transformer中的主要贡献。它是立体视觉的推动者,来自两个深度线索的高级深度线索表达的融合mti=mti+Heat(pa)·LN(fp ro j(mti,mt0i))。(二)我们设mt00=rt0,以统一表达式. GELU[28]用于MLP非线性,LN,层归一化[4],pa,mti的注意力得分的向量,以及Heat,用稳定的注意力熵计算的置信度得分,热(pai)=1-g(H(pai),n,c),(3)其中H(pa)=-PNp palog(pa +n),且g(·)是a意见.我们认为,传统的四步策略的有效性将大大削弱不适定性的来源,如闭塞,更广泛和更接近的深度范围,深度不连续性和非线性,变得越来越频繁或突出。目前基于深度学习的方法依赖于学习到的丰富表示来构建成本量,然后将其正则化以进行估计。在这种情况下,输出质量在很大程度上取决于表示的质量和场景与匹配正则化表示的一致性[54]。虽然可以通过许多方法来学习良好的表示,但是当场景远离适合立体匹配时,很少有方法来修复受损的成本量。因此,我们不拘泥于匹配策略,而是提出了一种新的模式检索机制,它受联想记忆的启发,从另一个角度来检索对应的模式。我们假设可以学习一组模式以很好地分离,使得每个模式至少可以在亚稳态中被检索相似模式的固定平均值[50]。由现代Hopfield网络[13,38]建模,联想记忆的检索规则与Transformer的注意机制优雅地一致。当然,我们利用交叉注意层从对主视图的引用中检索模式(标记)。为了促进可靠的有效检索,我们设计了一种新的注意机制-极化注意,它使特征敏感的检索,同时保留包含在模式中的上下文信息,而不违反收敛规则。从[63],我们观察到,直接注意在表示在箝位功能(例如,(S形或平滑步)与TEM-温度和偏移量C。类令牌的热量设置为1。通过这样做,令牌被检索回固定状态,即,具有非常低的熵的那些将被安全地纠正,而具有高熵的那些被禁止更新,因为它们很可能驻留在被遮挡的区域中。因此,被遮挡或融合块:我们的卷积解码器遵循[45,51]中的细化块。注意力层的输出IR(Np+1)D被重新组装成像状排列-通过四个步骤的操作来实现IRH0W0D0RSB=(rescale reshape MLP cat)。(四)类令牌在被投影到维度D0以获得t\0之前与所有其他令牌连接(通过广播)。然后,根据图像嵌入的原始布置将最后,将t10重新采样为大小Hs1WSLDl代表l级的不同尺度。对于sl>1,重采样方法是二维转置卷积(上采样);对于sl1,重采样方法是跨二维卷积(下采样)。<对于我们的模型,来自注意力块中的级别1attn=11、7、3的特征(对于ChiTransformer-8总共12个)和级别1 res = 11、7、3的特征(对于ChiTransformer-8总共12个)。 1、0(前2个块)在ResNet-50中重新组装。通过来自RefineNet [45]的自定义特征融合块连续融合来自这些级别的重组特征图在每一级,特征图被上采样2倍,最后1943∈···.ΣIJ.Σ.Σi=1S其中,β是设置为1/10d的比例因子。我们假设12猫i=1我Aij=norm(1− σ(λ))Acnt,ij +σ(λ)Apos,ijxij是通过极化计算的内容注意力分数%.Σ···-你好参考(右图)(1245)(1311)(5,22)(10、39)(7,66)深度估计图达到输入图像的原始分辨率。ChiTransformer的架构在结构上类似于我们视觉系统中的视交叉结构,并且在生物学上类似于我们视觉系统中的视交叉结构,其中双眼覆盖的视野被融合以通过立体视觉处理双眼深度感知[54],因此我们的模型被命名3.2. 极化注意力我们提出了一种新的注意力机制来突出或抑制功能,这很像信号极化,但在特征域。理想情况下,对于以张量t=(t1,,tN)表示的一组标记,其被很好地分离,突出显示或抑制可以潜在地以标记方式实现。粒度然而,在实践中难以实现理想的可分性,因为常规注意力机制的注意力张量A被计算为:A=softmaxβtTWtTW,(5)其在所有信道上的联合激活时易于有噪声,并且难以直接学习W虽然流行的MHA寻求多级上下文而不是检索,因为令牌被映射到每个头部的不同(子)空间,每个头部生成其自己的注意力权重并与投影的令牌一起输出。为了实现检索行为,在不失一般性的情况下,我们坚持Hopfield网络的更新规则,以保证检索行为,具有自伴算子GIRd×d的查询模式,tsoftmax.βtTGβ,(6)在精馏的热量计算中使用了s个封头。图3反映了检索机制的有效性,其中不同标记的放大注意力图与参考视图重叠。图3.在第二DCR的CA层中以Meta稳定状态检索的令牌的As=1深绿色对应于较高的注意力分数。正如预期的那样,区别性特征的标记具有更集中的注意力,而无纹理区域的标记导致更分散的注意力。3.3. 可学习的对极几何令牌可分离性可能受到存储器大小和图像内容的限制(例如,图像中存在重复的或统一的纹理)。为了进一步确保在不破坏编码信息的情况下安全检索,我们通过门控位置交叉注意(GPCA)用极几何学约束注意机制,如下[12]。在GPCA中,位置嵌入被建模为相对位置嵌入的可训练二次多项式,编码vpTosRij[11]。 对于常规校正立体声,可以-查询和内存应该保留在一个正定G分解为G=M T M所满足的同一子空间。它可以进一步被频谱分解以得到:其中U是正交矩阵,Λ是正对角矩阵.为了实现特征敏感的检索,同时考虑嵌入中的所有信息,我们希望diag(Λ)不为零丰度,即,特征选择为了实现这一点并且还实现多模态检索,学习多个Λs,并且我们希望sΛi接近I,使得如果一个didate检索驻留在共线水平线内。因此,我们设置vpos=α(0,0,0,0,1,,0),r = 1,δ1,δ2,δ1δ2,δ2,δ2,0,,0.对于非直线图像,例如, fisheye,vpos是可训练曲线co的向量。系数,这将在我们介绍鱼眼图像的结果时讨论。在上面的等式中,r是(δ1,δ2)的位置向量,其是相对于查询的相对坐标局部强度α >0确定了如何沿着水平线集中注意力(即,当δ2= 0时)。位置注意力分数被计算为关注的令牌和查询之间的softmax归一化L2要素在一种模式下高亮显示,则应抑制该Apos,ij=softmaxvpTosrij .(九)在其他模式。因此,新的注意力机制使用可学习的门控参数λ,GPCA注意力得分计算为:′= WβtTU T<$U。(8)ss对于我们的模型,t是主视图中的标记,t是引用视图中的标记,s= 2,W投影concate-其中,norm[x]=k×ik,σ是sigmoid函数,并且一将令牌返回到其原始维度,并且“0”是重新定义的。从参考视图中提取标记。最小熵注意s。为了避免GPCA被卡在λ >>1,我们为所有层初始化λ=1、(10)scnt,ij1944·h·i|·|OS不y不i=1e1依赖于预测值来生成置信度图i=111正交矩阵<$1=(5,5),<$2=(5,5)也是一个解。Q来自最后一个GPCA层的映射被上采样到输出3.4. 正则化矩阵U必须是正交的,以保证查询和内存在同一空间中。然而,美国在哪里! 是主视图的权重,pe()是摄影重建误差[64]:PE每一层都有可训练的参数;即使它可以被(X,Y)=2 (1-SSIM(X,Y))用正交矩阵初始化,在训练过程期间正交性可能不保持。因此,我们将正交正则化损失引入U,如下所示:+(1-)kX -Y k1(14)=0.85且It0!t是重新投影的图像:1L(U)=U-Ik·kF、(11)我是0!t=双样本hproj(Dt,Tt!t0, K)i,(15)其中d是U的大小,是的Frobenius范数矩阵 虽然U可以通过Cay正交化,其中K是预先计算的固有矩阵,proj是从源视图ley大矩阵作为反演涉及,我们发现它是更多通过p0t:=KTt!t0Dt[pt]K-1pt(16)在我们的情况下很难收敛和不稳定为了将对角矩阵训练成期望的形式,我们将Hoyer正则化器[30]修改为miti-而bi-sample是双线性采样器。我们还在深度中强制边缘感知平滑,以提高深度特征一致性,定义为解决比例缩放问题,同时把矩阵从单位矩阵中拉出来。 介绍了L=|@d|e-|@xIt|+的|@d|e-|@yIt|、(十七)正则化之后|Qs|⇤i|i=1-我|我其中dt=d/dt是[ 61 ]中的平均归一化逆深度。L=Qs、克鲁克与现有的自监督立体匹配方法不同,其中e是元素级绝对函数。 身份矩阵只是一个可能的,但不是首选的解决方案,|吉吉|e-I =0。以二维矩阵为例,diag-以检测遮挡,例如,左-右一致性检查,Chi-Transformer以以下形式实时检测遮挡区域然而,当最优解接近时,Eq的命名者12号染色体的长度(125)远大于12号染色体的长度分辨率,并在损失计算中用作掩码mh为接近单位矩阵(2.0)。此外,最终损失是重构损失和正则化损失的组合;有了适当的超参数μλ,学习到的ε s将被从I中拉出来。3.5. 培训在本节中,我们将详细介绍我们使用的训练我们密切关注[25]中提供的自我监督立体声训练方法。该模型被训练为从立体对中的另一个视点预测目标图像与经典的双目和多视图立体方法不同,在我们的情况下,图像合成过程受到预测深度的约束,而不是作为中介的视差变量具体地,给定目标图像It、源图像It0和预测深度Dt,通过两个视图Tt!的t0 用所提供的立体声基础宽度(0. KITTI为54m)和校准信息-信息,可以计算两个图像之间的对应坐标。在[33]之后,可以使用双线性采样从源图像重建目标图像,这是次可微的。深度预测应最小化为主视图和参考视图构建的光度重投影误差,如下所示:Lp=! ·pe(It,It0!t)+(1-!)·pe(It0,It!t0),(13)FD2X(十二)F整改阶段的热图。 在训练中,1945立体训练、静态相机和物体与相机之间的同步移动都不是问题,因此我们不应用二进制自动掩蔽来遮挡图像中的静态区域在推断期间,只有主ViT输出被放大和细化以进行预测。而在训练阶段,ChiTransformer中的两个ViT塔被串联训练以预测深度并计算损失Lp和Ls。最终训练损失通过组合重建损失、来自两个视图的每像素平滑度以及矩阵U和U的正则化,最终训练损失为:L=平均值(mhLp)+µsLs+µoLo+µλLλ,(18)其中,μ m是平衡不同损失项贡献的超参数。我 们 的 模 型 在 PyTorch 中 实 现 。 使 用 预 训 练 的ResNet-50补丁特征提取器和[51]的部分细化层,使用Adam [37]训练模型30个时期,批量大小为12,输入分辨率为1216×352。在前20个时期,我们对ResNet-50使用1e-5的学习率,对网络的其余部分使用1e -4的学习率,然后在其余时期衰减到1e-5 准备!=0。6,μs=1e-4,μo=1e-7,μλ=1e-3。1946图4.与自立体监督全卷积网络Monodepth2的样本结果比较。ChiTransformer显示出更好的全局一致性(例如,天空区域、图像的侧面),并提供特征一致的细节。4. 实验该模型在KITTI 2015上训练[23]。我们表明,与基于CNN的顶级模型相比,我们的模型显着提高了准确性。本节中给出了与最先进的自监督立体方法的并排比 较 [42 , 62 , 63] 。 进 行 消 融 研 究 以 验 证ChiTransformer中的几个功能有助于改进预测。最后,我们将我们的模型扩展到鱼眼图像,并得到了视觉上令人满意的结果。4.1. KITTI 2015 Eigen Split我们按照Eigen等人的方法划分KITTI数据集。[19 ]第10段。通过将摄像机主点设置在图像中心并将焦距设置为KITTI的平均焦距,将相同的内参数应用于所有图像。对于立体声训练,根据KITTI传感器设置,立体声对的相对姿态被设置为固定长度(0.54 m)的纯水平平移。为了公平比较,根据标准,深度被截断为80米表1. 定量结果方法NOC ALLD1 D1 D1 D1 D1(bg)(fg)(全部)(bg)(fg)(全部)DispNet [47] 4.11 3.72 4.05 4.32 4.414.43GC-Net [35] 2.02 5.58 2.61 2.21 6.16 2.87[44] 2.07 2.76 2.19 2.25 3.40 2.44PSMNet [10] 1.71 4.31 2.14 1.86 4.62 2.32 Yu et al.[34]--8.35--19.14Zhou等人[75]--8.61--9.91SegStereo [66]--7.70--8.79OASM [42] 5.44 17.30 19.42 8.98PASM net stec192 [63] 5.02 15.16 16.36 7.23[46]第46话 14.62 6.61pSGM [41] 4.20 10.08 11.64 5.97MC-CNN-WS [58] 3.06 9.42 4.11 3.78 10.93 4.97沪公网安备31010502000114号PVSstereo [62]2.095.73 2.692.296.50 2.99ChiT-8(我们的)2.24 4.33 2.56 2.50 5.49 3.03ChiT-12(我们的)2.113.79 2.382.344.05 2.60我们的模型与最先进的自我监督双目立体方法的比较。所有指标越低越好。-聚焦区域-闭塞区[62]第46话:我的世界,我的世界[63]图5.左侧闭塞区预测的比较。实践[24]。4.2. 定量结果我们比较了我们的模型的两种不同的模拟结果与最先进的自监督立体方法。ChiT-8具有4个SA层,随后是4个整流块,而ChiT-12具有6个SA层和6个整流块。表1中的结果表明,Chi- Transformer优于大多数现有方法,特别是在前景区域的预测方面。正如预期的那样,前景区域更有可能充满有益于深度线索校正的独特特征图5中示出了与现有的自监督立体方法相比在遮挡区域中的定性结果。他们的全部预言都是用柔软的材 料 给 出 的 与 现 有 的 自 监 督 方 法 相 比 , Chi-Transformer通过两种视图的深度线索提供了与图像特征一致的更多细节。我们还将我们的方法与顶级自立体监督MDE方法进行了比较,以显示在精度提高方面的可靠性增益。为了进行公平的比较,我们选择了在KITTI上训练的具有立体声超视的模型不考虑在多个数据集上训练的方法。定量结果示于表2中。并排预测比较如图4所示。自监督ChiTransformerMonodepth2监督左图像1947Q表2.附件 与 SELF-立体声-监督 单眼方法单深度2 [25]ChiT-12(我们)0.073 0.634 3.105 0.118 0.924 0.989 0.997上表中列出的所有模型都是使用立体声对的自监督方法进行训练的 与单目方法相同,ChiTransformer依赖于深度线索来估计深度,仅使用来自第二张图像的额外信息。表3. ABLATION STUDYChiT+PAbsRel0.106RMSE4.845RMSElog6<1. 256<1. 2526<1 2530.204 0.878 0.960ChiT+G+LEG 0.1014.7830.2030.8950.9660.983ChiT+P+线性0.0924.5350.2010.8890.9640.987ChiT+P+LEG 0.0853.9240.1810.9060.9790.991在KITTI 2015上训练的ChiTransformer(ChiT)的不同设置的评估,“P”表示注意力的两极分化。”G” stands for the direct learning of matrix “LEG”代表了极线几何学的可学习性特征。“线性”是单线注意区。仅启用P的ChiT由于较差的令牌可分离性而具有最低分数。随着LEG的加入,ChiT+P+LEG模型成为性能最好的模型,并显示出P对ChiT+G+LEG的优势。ChiT+P+Linear具有第二好的性能。由于“线性”的锯齿效应在很大程度上4.3. 消融研究为了了解每个主要功能如何影响ChiTransformer的整体性能,通过抑制或激活模型的特定我们观察到,我们的模型中的每个组件都被设计为将性能向前推一点,这会导致相当大的改进。在这里,我们提供了一些基于观察的主要特征的见解。自我注意层大大提高了每个标记与长距离复杂上下文信息的可分性。如果没有SA层,检索过程将采取跳跃行为,并导致错误的预测。极化注意力我们通过矩阵G的谱分解来学习矩阵G,以获得对其行为的更多控制。G的直接学习往往会导致特征忽略,因为令牌中包含的主要特征占主导地位或获得所有奖励。具有互补特征突出抑制策略,因为我们希望P2P接近I,所以来自双方的特征都可以参加。同时,由于m不是多孔的零,即,不涉及Lasso正则化,所有信息都包含在to-肯或多或少受到关注。可学习的对极几何直观地,对于矫正的立体,保证像素对驻留在同一水平线中,并且因此参与空间应该是该线。然而,开槽的注意区域损害了线间连接,并且即使该特征是独特的,也会对垂直特征造成锯齿效应,例如,一种优势。而GPCA中的可学习对极几何通过允许线上的全局但聚焦的视图解决了该问题,并且同时进一步改进了跨线分离性。定量结果见表3。定性结果见补充材料。合成鱼眼图像平面深度估计图6.ChiTransformer用于鱼眼深度估计的示例结果。 利用可学习的对极曲线vpos,ij =(1,a,b,c,d,e)ij(常数项设置为1以避免比例缩放)和圆形掩模,ChiTransformer可以直接在圆形图像上工作而不变形。4.4. 鱼眼图像最后,由于其多功能性,ChiTransformer可以应用于非直线(例如,鱼眼)图像。图6中提供了示例结果。5. 结论通过研究两种流行的深度估计方法的局限性,我们提出了ChiTrans- former,一种新颖且通用的立体模型,其利用校正的深度线索而不是立体匹配来生成可靠的深度估计。 通过三个主要贡献:(1)极化注意机制,(2)可学习的对极几何,(3)深度线索校正方法,我们的模型优于现有的自监督立体方法,并达到最先进的精度。此外,由于其多功能性,ChiTransformer可以应用于鱼眼图像而不会变形,从而产生视觉上令人满意的结果。6. 确认这项研究得到了VMware Inc.的部分赞助根据合作协议#W911NF-22-2-0025,为其大学研究基金和陆军研究实验室提供资金。本文件中包含的观点和结论是作者的观点和结论,不应被解释为代表陆军研究实验室或美国政府的官方政策,无论是明示的还是暗示的。政府的美国尽管本文件载有任何版权注释,政府仍获授权为政府目的复制及分发方法AbsRelSqRelRMSERMSE日志6<1. 256<1. 2526<1. 253Garg等人[22日]0.1521.2265.8490.2460.7840.9210.967[49]第四十话0.1290.9965.2810.2230.8310.9390.974美国(公告牌热门单曲榜)[49]0.1191.2015.8880.2080.8440.9410.978超级深度+页(1024页382)[48]0.1120.1090.8750.8734.9684.9600.2070.2090.8520.8640.9470.9480.9770.9751948引用[1] Ramesh Aditya , Pavlov Mikhail , Goh Gabriel 和 GrayScott. Dalle:从文本创建图像。在OpenAI,2021年。2[2] 艾瑞亚·艾哈迈迪和扬尼斯·帕特雷用于运动估计的无监督 卷 积 神 经 网 络 。 2016 年IEEE 图 像 处 理 国 际 会 议(ICIP),第1629-1633页。IEEE,2016. 3[3] 亚 历 克 斯 · 安 德 鲁 计 算 机 视 觉 中 的 多 视 图 几 何 。Kybernetes,2001年。1[4] Jimmy Lei Ba,Jamie Ryan Kiros和Geoffrey E.欣顿。层归一化。arXiv预印本arXiv:1606.08415,2016。4[5] Stephen T Barnard和Martin A Fischler。计算立体声。ACM Computing Surveys ( CSUR ) , 14 ( 4 ) : 553-572,1982. 1[6] Shariq Farooq Bhat , Ibraheem Alhashim , and PeterWonka. Adabins : 使 用 自 适 应 箱 的 深 度 估 计 。 在IEEE/CVF计算机视觉和模式识别会议论文集,第4009-4018页,2021年。二、三[7] Amlaan Bhoi.单目深度估计:一个调查。arXiv预印本arXiv:1901.09402,2019。2[8] Arunkumar Byravan和Dieter Fox Se 3-nets:使用深度神经网络学习刚体运动。2017年IEEE机器人与自动化国际会议(ICRA),第173-180页。IEEE,2017年。3[9] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中,第213-229页Springer,2020年。2[10] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集,第5410- 5418页,2018年。二、七[11] Jean-Baptiste Cordonnier 、 Andreas Loukas 和 MartinJaggi。自我注意与卷积层的关系。arXiv预印本arXiv:1911.03584,2019。5[12] 阿斯科利Convit:用软卷积电感偏置改进视觉变换器arXiv预印本arXiv:2103.10697,2021。二、五[13] 我是德米尔西吉尔,朱迪思·赫塞尔,马蒂亚斯·罗维,斯旺·厄普冈,弗兰克·弗梅特.关于一种大容量联想记忆模型Journal of Statistical Physics,168(2):288-299,2017. 4[14] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。2[15] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. arXiv预印本arXiv:2010.11929,2020。二、三[16] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流。在IEEE计算机视觉国际会议的论文集,第2758-2766页,2015年。1[17] Shivam Duggal ,Shenlong Wang , Wei-Chiu Ma , RuiHu,and Raquel Urtasun. Deeppruner:通过可区分的patchmatch学习有效的立体匹配。在IEEE/CVF计算机视觉国际会议论文集,第4384-4393页,2019年。2[18] 安德里亚·艾肯瑟和安德烈·考普。提供合成和真实世界鱼眼视频序列的数据集。2016年IEEE声学
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功