鲁棒光流估计的交叉注意流Transformer架构CRAFT及其在光学光流估计中的应用研究

189 浏览量更新于2023-10-25 收藏 922KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17602∼CRAFT：用于鲁棒光流的交叉注意流Transformer隋秀超1*李少华1*薛庚2吴燕2徐新星1刘勇1吴立军1朱宏远21高性能计算研究所，A*STAR{xiuchao.sui，shihua}@ gmail.com，{xuxinx，liuyong，gohsm}@ ihpc.a-star.edu.sg2信息技术研究所，A*STAR{耿雪，吴，zhu}@ i2r.a-star.edu.sg摘要光学光流估计的目的是通过识别两幅图像之间的对应像素来找到2D运动场。尽管基于深度学习的光流方法取得了巨大进展，但准确估计运动模糊的大位移仍然是一个挑战。这主要是因为相关体积，像素匹配的基础，被计算为两个图像的卷积特征的点积。卷积特征的局部性使得计算的相关性对各种噪声敏感。在具有运动模糊的大位移上，噪声相关性可能导致估计的时间序列中的严重误差。为了克服这一挑战，我们提出了一种新的架构“交叉注意流转换器”（CRAFT），旨在振兴相关体积计算。在CRAFT中，语义平滑转换层转换一个帧的特征，使它们更具全局性和语义稳定性。此外，点积相关性被变换器跨帧注意力所取代。该层通过查询和关键字投影过滤掉特征噪声，并计算出更准确的相关性。在Sintel（Final）和KITTI（前台）基准测试中，CRAFT实现了新的最先进性能。此外，为了测试不同模型对大运动的鲁棒性，我们设计了一种图像移位攻击，该攻击将输入图像移位以生成大的人工运动。在这种攻击下，CRAFT比RAFT和GMA这两种有代表性的方法表现得更为稳健.CRAFT的代码可在https://github.com/askerlee/craft上获得。1. 介绍光学光流估计两个连续视频帧之间的逐像素2D运动，*同等贡献。Sintel（清洁）Sintel（最终）框架1框架2筏GMA工艺图1.由RAFT、GMA和CRAFT在来自Sintel测试集的两个帧上估计的光学场，其中龙正在追逐鸡。在Clean过程中，所有三个方法都类似地执行- form。在最终过程中，由于红色矩形中包含的区域具有较大的运动（80 100像素），并且具有运动模糊，因此 RAFT 和 GMA 仅识别了部分运动。尽管如此，CRAFT仍然表现良好。像素它是一个基本的计算机视觉任务，在动作识别[31，34，37]，视频分割，心理[43，45]，视频帧插值[17]，医疗图像配准[28]、表示学习[10，41]、自动驾驶[26]和机器人导航[5]。近年来，基于深度学习的方法极大地推进了光学光流估计[7，13，18，30，36、38、42、47]。虽然最新的方法在基准数据上非常准确，但在某些条件下，例如具有运动模糊的大位移[9]，但误差仍然很大。它促使我们更深入地挖掘，以确17603定根本原因。17604这些方法中的大多数基于相关体积（也称为成本体积）来执行光学光流估计，相关体积存储帧1中的每个像素与帧2中的另一个像素之间的成对相似性。给定相关量，后续模块尝试匹配两个图像，目的是最大化匹配区域之间的总体相关性。当前范例计算成对像素相似性作为两个卷积特征向量的点积。由于卷积的局部性和刚性权重，有限的上下文信息被合并到像素特征中，并且计算的卷积具有高度的随机性，因此大多数高相关性值都是虚假匹配（图6）。相关性中的噪声随着输入图像中的噪声而增加，诸如纹理损失、光照变化和运动模糊。当然，噪声相关性可能导致不成功的图像匹配和不准确的输出流（图1）.当存在大位移时，这个问题变得更加突出。减少噪声相关性可以导致对噪声流估计的实质性改进[11，46]。近年来，变压器被广泛用于计算机视觉任务[4，6]。与卷积相比，视觉变换器（ViTs）的一个重要优势是，变换器特征可以更好地对全局上下文进行编码，方法是根据像素的内容使用动态权重处理像素。对于光学光流任务，有用的信息可以从清晰区域传播到模糊区域，或者从非遮挡区域传播到遮挡区域[18]，以改善后者的光流估计。最近的一项研究[29]表明，ViT是对特征图进行空间平滑的低通滤波器。直觉上，经过Transformer自关注后，相似的特征向量相互取加权和，平滑了不规则性和高频噪声。受ViTs的特征去噪特性的启发，我们提出了“交叉注意流Transformer”（CRAFT），一种新的架构，用于光学相干流估计。通过两个新的组件，CRAFT振兴了相关体积的计算。首先，语义平滑转换层融合了一幅图像的特征，使它们更具全局性和语义平滑性。第二，跨帧注意力层代替用于相关计算的点积运算符。它通过查询和关键字投影提供了额外的特征过滤级别，因此计算的相关性更准确。我们在常见的光学基准上对CRAFT进行了广泛的评估。在Sintel（最终）和KITTI（前景）基准测试中，CRAFT实现了新的最先进（SOTA）性能。此外，为了测试不同模型对大运动的鲁棒性，我们设计了一种图像移位攻击，该攻击将输入图像移位以生成大的人工运动。随着运动幅度的增加，CRAFT算法的性能较好，而RAFT和GMA两种代表性算法的性能则严重下降.2. 相关工作FlowNet [7]是一项开创性的工作，它使用深度神经网络进行端到端的光学光流学习。它启发了一系列深度学习方法，如 FlowNet2.0 [13] ， DCFlow [42] ， SpyNet[30]，PWC-Net [36]，MaskFlowNet [36]。[47] LiteFlowNet3 [11]，ScopeFlow [2]和IRR [12]。这些方法中的大多数使用相关体积作为像素匹配的基础。RAFT [38]是深度学习方法的重要发展。通过使用多尺度相关体和迭代光流修正，RAFT实现了良好的性能，并且是几个连续作品的先驱，例如GMA [18]，RAFT-Stereo [21]和CRAFT。[18]是的。是将Transformer结合到opti- cal光流方法中的第一批工作之一。在运动回归阶段（参见图2），它使用自注意力将运动特征从非遮挡区域传播到遮挡区域，并帮助估计更准确的遮挡区域的运动。它补充了CRAFT对相关卷的改进。所有上述方法使用卷积特征的点积或余弦相似性来计算相关性。在这种范式中，一些工作提高了相关体积的效率，如VCN [44]和DICL [40]。与我们的目标类似，可分离流[46]旨在提高相关体积的准确性，通过将4D相关体积分解为两个3D体积，对于u和v方向的Cowow回归，重新计算。可分离流本质上施加了更强的归纳偏差，以获得比RAFT更准确的相关性，以及更准确的流1。相比之下，CRAFT通过使用上下文化的帧特征和减少特征噪声来改进相关性计算。光学光流训练需要大量昂贵的注释数据集。SelFlow[22]和Auto Encodow [35]是两种生成合成注释的自监督方法。SMURF [33]集成了一组技术来对未注释的视频帧进行自监督学习，并取得了有希望的结果。3. CRAFT架构图2展示了CRAFT的架构。它在RAFT的基本流程估计管道中[38]。我们的主要贡献是用两个新组件来振兴相关体积计算部分（虚线绿色矩形）：第2帧特征上的语义平滑Transformer，以及用于计算相关体积的跨帧注意力层。这两个分量有助于抑制相关性卷中的虚假相关性，如图6所示。[1]不幸的是，我们无法将可分离流与CRAFT wrt进行比较。相关量的准确性，因为他们的源代码是不可用的。17605出来出来出来出来框架1Frame-1特性功能网络Q4D相关体积邻域相关性相对位置偏差跨帧注意迭代运动回归K框架2功能网络语义平滑TransformerFrame-2特征关注GRU框架1场境特征GMA关注上下文网络GMA模块图2. CRAFT架构。在相关性体积计算部分（绿色虚线矩形）中，两个新组件突出显示为带有红色边框的框：语义平滑Transformer融合并平滑第2帧特征，跨帧注意力层计算相关性体积。底部的GMA模块是全局运动聚合模块[18]。3.1. 语义平滑Transformer给定两个连续的图像为了用更好的全局上下文增强帧特征，使用语义平滑Transformer（或简称SSTrans）来变换帧2特征。为了更好地适应不同的功能，我们采用[20]中提出的扩展注意力作为SSTrans，而不是常用的多头注意力（MHA）[39]。扩展注意力是一种专家混合型[32] 具有更高的容量，并已证明了优于MHA的图像分割任务。扩展注意力（EA）层由N个模式（子变换器）组成，计算N组特征，这些特征使用动态模式注意力聚合成一组[20]：X（k）= Transformer（k）（X），（1）B（k）=线性（k）（X（k）），（2）其中k∈{1，···，N}，（3）G=softmax。B（1）、· · ·、B（N ）、（4）EA（X）=GT·。X（1），···，X（N），（5）17606∈∈联系我们∈{···}∈.国家的所有模式功能。为了更好地保留原始帧特征，我们添加了一个可学习权重为w1的加权跳过连接：SSTrans（X）=w1X+（1−w1）EA（X），（6）为了施加空间偏差，我们发现传统的位置嵌入不会形成有意义的偏差，而是使用相对位置偏差[8，23]。偏差是与计算的注意力相加的一个半径BR（2r+1）×（2r+1），其中r是指定偏差的局部范围的半径。具体来说，假设原始注意力矩阵被重新整形为4维张量ARH×W×H×W，其中H、W是帧特征的高度和宽度地图对于i，j处的每个像素，其中i1，，，H..相对位置偏差B被添加到像素（i，j）的半径r的邻域：A′（i，j，i+x，j+y）=A（i，j，i+x，j+y）+B（x，y），如果|X| ≤r，|y| ≤ r A（i，j，i + x，j + y）.否则（七）在我们的实现中，我们选择模式的数量为4，并且相对位置偏置的半径r为7。其中B（k）是模式注意力分数，并且模式注意力概率G是沿着模式维度的所有B（k）输出特征EA（X）是线性组合，图3显示了在Sintel上训练的CRAFT的学习相对位置偏差。观察到两种有趣的模式：17607∈−Σ∼∈∈×11CRH×W×H×W（图2中的虚线绿色矩形）。传统上，相关体积被计算为f1和f2之间的成对点积[38]：C（i，j，m，n）=<$D f 1（i，j）T·f 2（m，n）.（八）图3.在半径r= 7的情况下学习相对位置偏差。可以观察到两种有趣的模式，详情如下。1. 最小偏置值大约为2，位于（0，0）处，这意味着当计算像素（i，j）的新特征时，该偏置项将使其自身特征的权重减少2。如果没有该项，像素（i，j）对自身的注意权重可能占主导地位从概念上讲，相关体积本质上是transformers中的Cross Attention [39]，没有Query和Key投影的特征变换。查询/关键字投影可以被视为特征过滤器，其分离出用于相关性的大多数信息特征。此外，为了捕捉不同的相关性，我们可以使用多个查询和关键预测，就像扩展注意力（EA）一样[20]。在具有多个通道的VCN [ 44 ]中追求类似的多方面相关性。这些好处促使我们用简化的EA取代点产品：其他像素的权重，作为特征向量是最重要与自己相似。该术语减少了组合输出fea中像素的旧特征Ck（i，j，m，n）=D（f1（i，j）Qk）TK·Kkf2（m，n），（9）tures，有效地鼓励来自其他像素。2. 最大的权重是2 3像素2远离中心像素，这意味着这些周围的，ING像素的功能是最常用的，以补充功能的中心像素。这两个观察结果在图8中得到了证实，其中每个查询都从附近区域提取了新的特征。将位置偏差设置为0会导致性能下降。在两个框架的特征上应用transformers是很有吸引力的。然而，在我们的实验中，这样做会导致性能下降。我们的假设是基于这样一个共同的信念，即图像匹配严重依赖于局部和结构性的高频（HF）特征[14]。同时，大量的高频噪声污染了图像的信息特征，影响了匹配效果. SSTrans用作低通滤波器以抑制HF噪声[29]，但同时可能会减少HF特征并增强低频（LF）特征。因此，该模型学习在帧2中的LF和HF分量之间进行权衡以与帧1匹配。在对两个帧应用SSTrans之后，两个帧都包含较少的HF分量和较多的LF分量。匹配它们可能会产生许多虚假的相关性，并损害数据流的准确性。这种直觉在图7中得到证实。3.2. 相关体积在当前范例中，相关体积是跨帧像素匹配的基础。在框架特征 f1 之后RH×W×D 和 f2计算了RH×W×D，并将关联体积计算为四维张量2这里的“像素”是指特征图中的点，对应于8输入图像中的像素。C（i，j，m，n）=s o f t m a x （C k（i，j，m，n））C k（i，j，m，n），k=1（十）其中Qk、Kk是第k个查询和关键投影，re-k;C k（i，j，m，n）是用第k个模式计算的相关性。softmax算子沿着K个模式进行，并聚合K个相关性。这里的EA通过删除价值投影和前馈网络来简化。由于两个帧之间的相关性是对称的，因此Qk和Kk的权重全局相关性归一化有时极端值可能会出现在相关体积中，这可能会破坏像素匹配。为了匹配一个像素，直觉上与候选像素的相关性的相对顺序比绝对相关值更重要。在这种情况下，我们对整个相关体积进行层归一化[1]以稳定相关性。从经验上讲，这会略微提高性能。4. 实验我们的实验包括六个部分：1. 标准评价。我们在Sintel [3]和KITTI [27]上评估了不同的方法。在两个公开排行榜上，CRAFT在Sintel（最后一关）和KITTI（前地区）都取得了最先进的成绩。2. 错误分布wrt.运动幅度。为了研究运动变大时模型的行为，我们计算了模型的误差分布wrt。不同的运动幅度。CRAFT在大运动上比其他方法更准确，在小运动上也同样出色。176083. 消融研究。分析CRAFT中不同组件的影响，即，语义平滑Transformer、跨帧注意力和GMA模块，我们删除了它们中的每一个，并在KITTI-2015基准上评估消融模型。所有该等组成部分均对最终表现显示重要性。4. 图像转移攻击。为了测试模型的鲁棒性，我们通过移动第一帧手动创建大的运动。在非常大的变化，RAFT和GMA严重恶化。CRAFT明显更强大。5. 相关体积的可视化。我们将帧1中的查询点与帧2中的所有像素之间的相关性可视化，以直观地了解由不同模型计算的相关体积之间的与RAFT和GMA相比，CRAFT具有最少的虚假干扰。6. 可视化语义平滑Transformer注意。为了直观地了解像素如何通过SS Transformer从周围像素获取信息，我们将查询点与帧2中所有像素之间的自注意可视化。训练损失在RAFT [38]之后，我们采用的损失函数是加权的多次迭代l1损失。训练时间表我们遵循相同的光学流水训练过程[18，38]，首先在FlyingChairs（“C”）[ 7 ]上预训练模型对于Sintel评估，我们在FlyingThings，Sintel（“S”）[ 3 ]，KITTI 2015（“K”）[ 27 ]和HD 1 K（“H”）[ 19 ]的组合上微调所有模型，批次（批量= 6）。对于KITTI评估，我们在KITTI 2015上对所有模型进行了50k次迭代（批量大小= 6）。在[18，38]之后，我们采用具有相同学习率的单周期学习率调度器，其中5%的迭代用于预热。评估指标Sintel排行榜3也使用的主要评估指标是平均端点误差（AEPE），它是按像素数测量的平均像素级流误差。KITTI排行榜4使用Fl-fg（%）和Fl-All（%）度量，其指的是异常值（其端点误差为>3个像素或地面真实值的5%（低幅度），分别在前景区域和所有像素上4.1. 标准评价比较了七种最近的方法，其中大多数是从Sintel上性能最好的方法中选出的，3 http://sintel.is.tue.mpg.de/quant? metric_id=0 selected_pass=0KITTI排行榜：• RAFT[38]：一种重要的近期方法，在被GMA超越之前是SOTA。• RAFT-A[35]使用合成的AutoFlow数据集（而不是• Perceiver-IO[15]是一种通用架构，并非专门为光学光流估计而设计。与RAFT-A一样，它在自动导航上进行了预先训练。他们的论文中没有报告测试集的性能。• RFPM[24]取代了RAFT的下采样层，以改善精细细节的下采样估计。在他们的论文中没有报道在“C+T / Auto Quarrow”训练下的性能• 可分离流[46]将4D相关体积分解为u和v方向的两个3D体积。• GMA[18]：最近的一种方法，使用全局运动聚合模块增强RAFT，以更好地估计被遮挡像素的运动。• CRAFT：在扩展注意力层中有4种模式表1总结了7种方法对Sintel和KITTI的评价结果。训练集上的结果（在括号中，表格左侧）很难反映模型对新数据的推广效果，仅供参考。测试集上的结果是根据Sintel和KITTI服务器提供的数据进行评估的，并从他们的排行榜中获得，以及更好的响应模型。虽然在训练集上的表现接近于其他方法，但CRAFT在测试集上显示出明显的优势，并且在 Sintel （ Final ）和 KITTI Fl-fg（即，最少的前地异常值）。我们认为，这两个性能指标（AEPE对Sintel Finalpass，和Fl-fg对KITTI）具有重要的实际意义。对于真实世界的性能，Sintel（最终）的结果比Sintel（干净）更具指示性，因为最终通过图像更接近真实世界的视频，具有各种照明变化，阴影和运动模糊。此外，由于KITTI中的前景物体通常是汽车、行人等，这自然比背景更重要。因此，由F1-fg测量的前景区域中的较小像素误差可能意味着比背景中的较小误差更大的实际益处。4.2. 误差分布wrt. 运动幅度为了分析不同模型在面对不同幅度的运动时的行为，我们将像素分为4 http：//www. cvlibs。 net/datasets/kitti/eval_scene_flow.php？基准=流量5截至2021年11月17609训练数据关于训练集关于排行榜方法Sintel（火KITTI-15（列Sintel（试KITTI-15（试清洁最终AEPEFl-所有（%）清洁最终Fl-fg（%） Fl-所有（%）C + T/汽车发动机工艺（1.27）（2.79）（4.88）（17.5）----C + T +S/K + H工艺（0.60）（1.06）（0.58）（1.34）1.452.42†5.85†4.79表1. Sintel和KITTI 2015基准测试结果。我们报告了平均终点误差（AEPE）（未另行说明），以及KITTI数据集的Fl-fg和Fl-all指标，它们是分别在前景区域和所有像素上计算的光学低误差离群值（具有显著低误差的像素）的百分比。 Sintel（测试）上的所有结果都是使用“热启动”策略生成的†结果在两个公共排行榜上排名前1（截至2021年11月），其中包括许多其他未在此列出的方法（结果）表示训练集的结果，此处列出以供参考。4.3. 消融研究KITTI-15（试验）Fl-fg（%）Fl-所有（%）手工艺5.85 4.79-SS trans6.41 5.06- 非洲法郎6.15 4.90- 全球海洋环境状况评估表2. 不同运动范围内的AEPE on Things （验证集）。CRAFT在大幅度运动时显著降低AEPE根据其地面实况运动幅度划分五个子集，并评估每个子集内的AEPE。由于Sintel和KITTI的确认/测试分割不可用，因此分别对FlyingThings、Clean pass和Final pass的确认分割进行评价。对RAFT、GMA和CRAFT三种模型进行了评价。所有模型都是在“C+T”上训练的。表2显示了不同运动幅度下的AEPE。当运动是20像素时，CRAFT执行<与GMA相同。对于大于30像素的大运动，CRAFT比RAFT和GMA的AEPE低10- 15%表3.KITTI-2015（测试）排行榜上的消融模型。CRAFT有三个重要组成部分：语义平滑Transformer（“SS transs”）、跨帧注意（“CFA”）和GMA模块。为了研究它们各自的贡献，我们在每一轮中移除其中一个，用标准时间表训练消融模型，并在KITTI-2015排行榜上进行评估。表3显示了所有三个组件对整体性能的重要贡献。4.4. 图像移位攻击通常，标准基准图像中的大多数像素具有小运动，并且大运动仅出现在局部区域中。因此，当模型出现大的错误时，在大的局部运动中，由于这些误差是局部的，救生筏[38]（1.43）（2.71）（5.04）（17.4）----RAFT-A [35]（1.95）（2.57）（4.23）----[15]第十五话（1.81）（2.42）（4.98）----救生筏[38]（0.76）（1.22）（0.63）（1.5分）1.612.866.875.10RAFT-A [35]----2.013.145.994.78[24]第二十四话（0.61）（1.05）（0.60）（1.41）1.412.90-4.79可分离流[46]（0.69）（1.10）（0.69）（1.60）1.502.676.244.64GT系列<1[1，10](10，20](20，30]>30所有清洁用品筏0.450.540.751.407.553.14GMA0.420.460.681.297.713.14工艺0.430.460.681.266.642.77Things-Final筏0.460.520.741.447.112.98GMA0.410.450.681.256.762.80工艺0.420.450.651.216.112.5717610∼≈≈ − ≈−×=2帧1，移动（220，110）帧2（不变）移位地面实况Δu超过160时，RAFT和GMA迅速恶化;相比之下，CRAFT在AEPE显著较小的情况下表现得更为稳健。可能是由于运动模糊，RAFT和GMA在慢流上的AEPE比Sintel大80 100像素，而CRAFT在慢流上的AEPE仅大35像素，显示了其对运动模糊的鲁棒性。4.5. 关联图CRAFT性能更稳健的主要原因是计算出的相关体积可能包含RAFT，AEPE 366像素GMA，AEPE 286像素CRAFT，AEPE 1.57像素更少的虚假相关性，由于SS transmits，图4.通过RAFT、GMA和CRAFT在来自慢流数据集的两帧上估计流场（Δu，Δv）=（220，110）像素。RAFT和GMA以巨大的AEPE失败。CRAFT仍能做出准确的估计。通过考虑上下文的小运动，可以容易地进行校正，使得最终的流程仍然可以是准确的。因此，大运动的脆弱性隐藏在小的AEPE之下。为了充分揭示模型对大运动的鲁棒性，我们设计了一种图像移位攻击，即，通过沿u，v平面移动一个图像来产生大的运动。局部校正在这样的图像对上几乎不起作用，因为所有的像素将具有大的位移。具体地说，我们将第一帧I1向右下方移动（Δu，Δv），得到新的图像位移u，v（I1）。新图像在原始图像边界处被截断假设模型M在原始图像对上准确地估计了真实流F 0：F0= M（I1，I2）F gt，其中F gt是真实流。我们在移位对上测试M，得到新的流程：F1=M（移位u，v（I1），I2）.然后我们将F1解移位，得到F2.如果模型对偏移具有鲁棒性，则可以证明以下等式成立：F2位移u，v（F0）（Δu，Δv）移位u，v（Fgt）（Δu，Δv）。（十一）图4给出了一个移位攻击的例子。这两帧来自慢流[16]，这是一个具有运动模糊的数据集（慢流幅度=100，模糊持续时间=3）。在将原始图像从（1280，720）下采样到（640，360）之后，第一图像移位（220，110）。RAFT和GMA完全没有估计出这股气流，其AEPE很大。相比之下，CRAFT仍然产生准确的估计。图5给出了在移动攻击下RAFT、GMA和CRAFT的定量评估。模型使用“C+T+S+K+H”进行训练在我们的实验中，Δu∈[100，300]，垂直位移Δv.1Δu。当Δu≤160，所有模型在AEPE8下均表现良好。<当前者和跨帧注意力层。为了直观地了解不同模型计算的相关体积之间的差异，我们可视化帧1中的查询点与帧2中的所有像素之间的相关性。查询点在第1帧中标记为红色小方块（投影到第二帧中的绿色小方块）。它移动到第2帧中的红色小方块。绿色虚线矩形是一个256以查询点为中心的256像素正方形，在图像边界处截断。它包含了模型在第一次迭代时的视场（FoV）。仅显示FoV内的相关性。图6显示了来自Sintel（最终）的两个帧上的相关体积，使用阴影和运动模糊进行渲染。热图中明亮的斑点是高度相关的，而那些不在地面实况位置（红色方块）的斑点是虚假的，可能是失配的目标。由RAFT和GMA计算的相关体积6如果重新移动SS Transformer（保留跨帧注意层），则CRAFT产生更多噪声相关性，但它们仍然少于RAFT和GMA，这表明跨帧注意层也有助于去噪。此外，如第3.1节所述，我们测试了将SS Transformer应用于第1帧和第2帧（称为“双SS Transformers”），并观察到性能下降。为了阐明为什么会发生这种情况，图7可视化了使用双SST的计算相关性。与标准的“单次SST”相比，观测到了更多的虚假相关。这可以解释为什么低精度的下降。4.6. 语义平滑Transformer自注意的可视化图8显示了SS Transformer在第2帧中的三个查询上的自我关注权重。对于每个查询（红色小方块），其注意力权重与6所有的矩阵都被归一化为[0，1]，以确保模式差异不是由范围差异引起的。176111401201008060402012010080604020游艇GMA CRAFT300250200150100500100120140160180200220240260280300水平移位(a) Sintel（清洁）0100120140160180200220240260280300水平移位(b) Sintel（最终）0100120140160180200220240260280300水平移位(c) 慢流（100-3）图5. RAFT、GMA和CRAFT的AEPE随像移幅度的变化不同。（a）-（c）在Sintel（清洁）上，Sintel（最终）和Slow Flow分别。水平位移Δu从100变化到300，垂直位移Δ u从100变化到300。1.一、当Δu超过160，RAFT和GMA迅速恶化，CRAFT表现得更加稳健。Δv=2Δu第1帧第2慢流查询点1查询点2RAFTGMACRAFT（无SStranss）工艺Sintel（最终）查询点3图8.SS Transformer自关注的热图，在查询点（红色矩形）和同一图像中的所有像素之间。最激烈的地区是查询点支付最高的地方图6. Sintel测试集上第2帧与第1帧中的查询点（红色小方块）之间的相关性热图（最终通过）。第2帧中的绿色小方块表示第1帧中查询的原始位置由于图像是模糊的，细节粗糙，RAFT和GMA使许多噪声相关。相比之下，CRAFT的噪声相关性要少得多关注和借鉴特色，丰富自己。5. 结论提出了一种新的光流估计方法 -- 交叉注意流Transformer（CRAFT）。它revitivizes计算的相关体积与两个新的组成部分：语义平滑Transformer和跨帧注意力。它们通过空间平滑特征语义和过滤特征噪声来帮助计算更准确的相关体积。CRAFT实现了新的无SSTrans单次SST扫描双SSTransstate-of-the-art performance on a few metrics, and is espe-图7.在Sintel测试集上，帧2和帧1中的查询点之间的相关性图像被裁剪。标准的CRAFT设置（相同的图像被显示为热图。最高的注意力区域是查询点周围的某个地方（在不同的相对方向上）。我们猜测，这些领域可能提供的纹理或上下文信息缺席的查询。在具有运动模糊的大位移上是典型鲁棒的。确认这项研究是由A*STAR在其事业发展基金（批准号：C210812035和C210112016），以及其先进制造和工程人机协作人工智能计划（批准号：A18A2b0046）。AEPEAEPEAEPE17612引用[1] Jimmy Lei Ba，Jamie Ryan Kiros，Geoffrey E Hinton.层归一化。arXiv：1607.06450，2016。4[2] 阿维拉姆·巴尔-海姆和里奥·沃尔夫。示波器示波：用于光学示波器的动态场景示波。在CVPR，2020年6月。2[3] 放大图片作者：Daniel J. Butler，Jonas Wulff，GarrettB. Stanley和Michael J.黑色. 一个自然主义的开放源码电影的opti- cal的视频流评估。 In Andrew Fitzgibbon,Svetlana Lazeb- nik, Pietro Perona, Yoichi Sato, andCordelia Schmid, edi- tors, ECCV, 2012. 四、五[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。端对端使用Transformers进行目标检测在ECCV，2020年。2[5] G. C. H. E. de Croon角De Wagter和T.赛德尔通过学习机器人的视觉外观线索来增强基于光流的控制NatureMachine Intelligence，3（1）：331[6] AlexeyDosovitskiy ， LucasBeyer ， AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，et al.一张图片相当于16x16个单词：用于大规模图像识别的变压器ICLR，2021年。2[7] Alexey Dosovitskiy ， Philipp Fischer ， Eddy Ilg ，PhilipH¨usser ， CanerHazirbas ， VladimirGolkov ，Patrickvander Smagt ， Daniel Cremers ， and ThomasBrox.Flownet ：使用卷积网络学习光学流在ICCV，2015年。一、二、五[8] PhilippDufte r，MartinSchmitt，andHinrichSchütze. 变压器中的位置信息：概述。arXiv：2102.11090，2021。3[9] Fatma Guney ， Laura Sevilla-Lara ， Deqing Sun ， andJonas Wulff.“光学激光是干什么用的？“：研讨会结果和总结。在ECCV研讨会，2018年。1[10] Tengda Han，Weidi Xie，and Andrew Zisserman.用于视频表示学习的自监督协同训练。在NeurIPS，第33卷，2020年。1[11] 许德威及陈昌来。LiteFlowNet3：解决对应模糊性以获得更精确的光流估计。在ECCV，2020年。2[12] Junhwa Hur和Stefan Roth。用于联合光流和遮挡估计的迭代残差修正。在CVPR中，2019年6月。2[13] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，AlexeyDosovitskiy，andThomasBrox.Flownet 2.0：深度网络的光流估计的演变。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年7月。一、二[14] M. Irani和P.阿南丹鲁棒的多传感器图像对齐。载于ICCV，1998年。4[15] AndrewJaegle ， SebastianBorgeaud ， Jean-BaptisteAlayrac，Carl Doersch，Catalin Ionescu，David Ding，Skanda Koppula ， Daniel Zoran ， Andrew Brock ， EvanShelhamer，Ol i vierJ. 我是马特，我是M Botvinick，Andre wZis-serman，OriolVin yals，andJoaBazoCarreira.Perceiv erIO ：结构化输入输出的通用架构 & 。 arxiv ：2107.14795，2021。五、六17613[16] 乔 l Janai， Fatm a Guéney，乔纳斯 W ul f f ，迈克尔 Black，和安德烈亚斯盖格。慢速光流：利用高速摄像机获得准确多样的光流参考数据。在CVPR，2017年。 7[17] Huaiizu Jiang，Deqing Sun，Varun Jampani，Ming-Hsuan Yang，Erik Learned-Miller，and Jan Kautz.超级斯洛莫：用于视频内插的多个中间帧的高质量估计。在CVPR，2018年6月。1[18] Shihao Jiang，Dylan Campbell，Yao Lu，HongdongLi，and Richard I.哈特利学习使用全局运动聚合来估计隐藏运动ICCV，2021。一二三五六[19] Daniel Kondermann 、Rahul Nair、Katrin Honauer 、Karsten Krispin、Jonas Andrulis、Alexander Brock、Burkhard Gusse- feld 、 Mohsen Rahimimoghoun 、Sabine Hofmann、Claus Brenner和Bernd Jahne。HCI基准测试套件：立体声和低噪音地面实况与城市自动驾驶的不确定性。在CVPR研讨会，2016年。5[20] Shaohua Li ， Xiuchao Sui ， Xiangde Luo ， XinxingXu，Yong Liu，and Rick Goh.利用压缩-膨胀变换器进行医学影像分割。在IJCAI，2021年。三、四[21] Lahav Lipson，Zachary Teed，and Jia Deng.筏式立体声：用于立体匹配的多级递归场变换。在3DV，2021。2[22] Pengpeng Liu ， Michael Lyu ， Irwin King ， Jia Xu.Self-low：自监督学习光学流程。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年6月。2[23] Ze Liu ， Yutong Lin ， Yue Cao ， Han Hu ， YixuanWei ， Zheng Zhang ， Stephen Lin ， and BainingGuo.Swin Transformer ：使用移位窗口的分层视觉Transformer。在ICCV，第10012-10022页，2021年10月。3[24] 李波龙和Jochen Lang。用于光学全息图的细节保持残余arXiv：2107.10990，2021。五、六[25] Ni k olaus Maye r，Eddy Ilg，Philip H¨ usse r，PhilippFischer， Daniel Cremers ， Alexey Dosovitskiy ， andThomas Brox. 一个大型数据集，用于训练卷积网络进行视差、光学光流和场景光流估计。在CVPR，2016年。 5[26] Moritz Menze和Andreas Geiger。自动驾驶汽车的目标场景流程在IEEE计算机视觉和模式识别会议论文集，第3061- 3070页，2015年。1[27] Moritz Menze，Christian Heipke，a

下载后可阅读完整内容，剩余1页未读，立即下载