ChiTransformer：光学视觉的立体匹配与深度估计新方法

PDF格式 | 1.04MB | 更新于2025-01-16 | 103 浏览量 | 举报

"ChiTransformer: 一种从线索走向可靠的立体声的自监督双目深度估计方法，由佐治亚州立大学的研究者提出，利用光学交叉的灵感，结合门控位置交叉注意（GPCA）层的视觉Transformer (ViT)，在解决搜索空间有限、遮挡区域问题的同时，实现了视图间的特征敏感模式检索。该方法在单目深度估计的基础上，通过条件校正提升预测的可靠性，尤其在动态或杂乱环境中表现优秀。实验结果显示，ChiTransformer相比最先进的自监督立体方法有11%的显著改进，并能处理直线和非直线（如鱼眼）图像。" 正文: 立体匹配和单眼深度估计是深度学习在计算机视觉中的两大主流方法。立体匹配，模仿人类视觉系统，旨在寻找两个整流图像间像素的对应，通常采用CNN计算匹配成本。尽管已有许多进展，如解决薄结构、无纹理区域和遮挡问题，但在移动性和复杂环境需求增加的背景下，现有技术面临挑战。 ChiTransformer是针对这些挑战提出的解决方案，它结合了光学交叉的概念和Transformer架构。Transformer模型的自注意力机制能够捕获广泛的上下文信息，而GPCA层则确保了特征敏感的模式检索。这种方法独特之处在于，它不仅利用单目线索进行深度预测，还通过条件校正层利用检索到的立体模式，提高了预测的一致性和准确性。这一设计灵感来源于人类视觉系统中的视隙结构，故命名为Chi-Transformer。 ChiTransformer的优势在于其自监督学习策略，这使得它能够在没有大量标注数据的情况下进行训练，降低了数据获取的难度。此外，该方法适用于不同类型的图像，包括直线和非直线（如鱼眼）图像，扩大了应用范围。实验证明，与现有的自监督立体方法相比，ChiTransformer在性能上有显著提升，提升了11%的精度，展示了在复杂环境中的优越性能。在未来的应用中，这种技术有望被集成到移动平台的视觉系统中，如无人机和机器人，帮助它们在更复杂、动态的环境中进行精确的深度感知和导航。此外，ChiTransformer的创新设计可能启发新的深度学习模型，进一步改善立体匹配和深度估计的性能。

1941

融合

深度估计

RSB

左图像

CASA

ResNet-50

SA ×l

右图像

ResNet-50

SA ×l

RSB

×l

DCR

补丁嵌入器自注意（

）层交叉注意（

）层混合层

重新组装（

RSB

）

深度线索校正（

DCR

）融合

图

2.ChiTransformer

的

架构。立体声对（左：主，右：参考）最初通过

Siamese ResNet-50

塔嵌入到令牌来自两个图像的

组织的标记

被展平，然后分别用可学习的位置嵌入和额外的类标记来增强然后令牌被并行地馈送到两个大小为

lSA

的自注意（

）栈中。之后，将

标记馈送到一系列（IDCR）深度校正块（

DCR

）中，在每个深度校正块中，参考图像的标记通过

层，而主图像的标记通过极化交叉

注意（

）层，随后是

层。在极化

层中，从参考

的输出中提取相关令牌以校正主设备来自不同阶段的令牌随后以多分辨率

（蓝色）重新组装成类似图像的排列，并通过融合块逐渐融合和上采样，以生成细粒度的深度估计。

立体声和深度估计社区。[63]利用级联注意力来计算

沿对极线的匹配成本，并在自监督立体匹配方法中取

得了有竞争力的结果[2，34，42，75]。最近，视觉

Transformer代替卷积网络作为[51]中密集深度预测的

骨干，与最先进的卷积对应物相比，实现了28%的显

著改进。在细化阶段采用迷你ViT块[6]以促进自适应

深度箱计算，以及工作顶部KITTI [23]和NYUv2 [55]排

行榜。受[51]的启发，我们的方法利用ViT在学习长距

离复杂上下文信息中的能力来校正深度线索，而不是

执行立体匹配。

上面讨论的大多数作品都是完全监督的，这需要逐

像素标记的地面实况进行训练。然而，在许多现实世

界的设置中，获取大规模的密集注释是具有挑战性

的。解决方法之一是采用自我监督学习。对于立体自

监督训练，通常预测同步立体对的像素视差[2，34，

42，66，75]，而对于

个街区.我们遵循视觉变换器的配置[15]作为骨干，并

保持普遍的整体编码器-解码器结构，因为它们在各种

密集预测任务中反复验证成功。我们展示了

ChiTransformer中立体声对之间的编码表示或线索的相

互作用，以及它们如何有效地转换为密集的深度预

测。讨论了这种方法的启发和成功的直观性。

3.1.

架构

概述：

ChiTransformer 的完整架构如图 2 所示。

ChiTransformer采用一对混合视觉转换器作为ResNet-

[27]第27话我的秘密两个ResNet

50个是共享的，以确保表述的一致性。图像块嵌入首

先被投影到768维，然后在被馈送到注意块之前与位置

嵌入进行平坦化和求和。对于大小为H × W的图像，

其中斑块大小为P × P，

结果是集合T=

，t

，. ..，

不

}，其中N

必须估计相机姿态以帮助重建图像并约束估计网络

[8，24，60，70，75]。考虑到该方法的通用性和潜在

的应用前景，我们选择了ChiTransformer的自监督训

练。

方法

本节介绍了ChiTransformer的整体架构，并详细介绍

了关键构建

而

是类令牌。在这里，补丁的作用是

Transformer的

在下文中可互换地称为“单词”或“令牌”。参考视图的

注意力块紧密遵循[15]中的设计，包括类令牌，而主

令牌在前多个SA层中是自关注的，然后是交叉注意

（CA）和自关注（SA）层。主ViT（和训练中的参

考ViT）的输出到- kens 然后重新组合成类似图像的

排列。

单目自我监督训练，不仅深度，而且

剩余11页未读，继续阅读

cpongm

粉丝: 6

ChiTransformer：光学视觉的立体匹配与深度估计新方法

立体匹配中的若干问题研究

论文研究-基于SLM的显微立体遮挡校正 .pdf

双目立体视觉

3D-matching-algorithm:立体匹配算法基础-鸠摩智

基于双目视觉的图像匹配算法研究.docx

基于双目视觉的图像匹配算法研究.pdf

立体视觉深度估计：顺序约束与匹配

深度解析：立体匹配技术概述与应用

"计算机视觉中双目匹配技术研究及展望

双目立体视觉技术：从原理到应用探索

最新资源