ChiTransformer:光学视觉的立体匹配与深度估计新方法

PDF格式 | 1.04MB | 更新于2025-01-16 | 103 浏览量 | 0 下载量 举报
收藏
"ChiTransformer: 一种从线索走向可靠的立体声的自监督双目深度估计方法,由佐治亚州立大学的研究者提出,利用光学交叉的灵感,结合门控位置交叉注意(GPCA)层的视觉Transformer (ViT),在解决搜索空间有限、遮挡区域问题的同时,实现了视图间的特征敏感模式检索。该方法在单目深度估计的基础上,通过条件校正提升预测的可靠性,尤其在动态或杂乱环境中表现优秀。实验结果显示,ChiTransformer相比最先进的自监督立体方法有11%的显著改进,并能处理直线和非直线(如鱼眼)图像。" 正文: 立体匹配和单眼深度估计是深度学习在计算机视觉中的两大主流方法。立体匹配,模仿人类视觉系统,旨在寻找两个整流图像间像素的对应,通常采用CNN计算匹配成本。尽管已有许多进展,如解决薄结构、无纹理区域和遮挡问题,但在移动性和复杂环境需求增加的背景下,现有技术面临挑战。 ChiTransformer是针对这些挑战提出的解决方案,它结合了光学交叉的概念和Transformer架构。Transformer模型的自注意力机制能够捕获广泛的上下文信息,而GPCA层则确保了特征敏感的模式检索。这种方法独特之处在于,它不仅利用单目线索进行深度预测,还通过条件校正层利用检索到的立体模式,提高了预测的一致性和准确性。这一设计灵感来源于人类视觉系统中的视隙结构,故命名为Chi-Transformer。 ChiTransformer的优势在于其自监督学习策略,这使得它能够在没有大量标注数据的情况下进行训练,降低了数据获取的难度。此外,该方法适用于不同类型的图像,包括直线和非直线(如鱼眼)图像,扩大了应用范围。实验证明,与现有的自监督立体方法相比,ChiTransformer在性能上有显著提升,提升了11%的精度,展示了在复杂环境中的优越性能。 在未来的应用中,这种技术有望被集成到移动平台的视觉系统中,如无人机和机器人,帮助它们在更复杂、动态的环境中进行精确的深度感知和导航。此外,ChiTransformer的创新设计可能启发新的深度学习模型,进一步改善立体匹配和深度估计的性能。

相关推荐