transformer双目
时间: 2023-09-27 20:06:43 浏览: 210
Transformer
双目深度算法中的Transformer是指基于Transformer的方法(STTR),它是一种用于双目视差估计的方法。该方法在视差估计领域打破了传统的基于Correlation或者Cost Volume的方法,使用Transformer网络架构进行视差估计。
具体来说,STTR方法的网络构架包括以下几个部分:
1. 特征提取器(Feature Extractor):用于从输入图像中提取特征。
2. Transformer:采用Transformer网络结构,包括相对位置编码(Relative Positional Encoding)、最优传输(Optimal Transport)、注意力掩码(Attention Mask)、原始视差和遮挡回归(Raw Disparity and Occlusion Regression)等模块。
3. 上下文调整层(Context Adjustment Layer):用于调整特征的上下文信息。
STTR方法还使用了特定的损失函数来训练网络,并进行了实验以验证方法的有效性和性能。该方法提出了三大优势:解放了视差的限制、明确定义了遮挡区域、保证了匹配的唯一性。相关实验结果表明该方法在双目视差估计任务上具有良好的性能和准确度。
在双目视差估计中,常常使用像素匹配代价来衡量两个像素之间的差异,具体方法是以一个像素为中心取一个固定大小的窗口(特征窗口),然后比较两个像素的特征窗口的图像块相似性。这种方法能够更准确地衡量两个像素在图像上的差异,从而进行立体匹配。
阅读全文