给定时间编码器的输出,[22]提出了一种新版本的可变形卷积模块,进一步提高了可变形卷积的上限,对先前工作的做了进一步的完善与发展,这样一种新的模块被它的提出者命名为DCNv2,利用其卷积网络的精化模块计算分支之间的偏移和掩码。首先,使用,和通过3×3个卷积层的堆栈进行处理。然后,用独立的2D卷积计算每一个膨胀d={3,6,9,12,15}处的偏移和掩码。小膨胀用来捕获运动较小的局部信息,大膨胀编码则快速运动。然后,细化模块通过并行的偏移和掩码独立地预测关键点流的位置。最后,将每个膨胀的输出相加并进行归一化处理,从而达到细化关键点位置的目的。时间补丁嵌入:受ViViT[19]的启发,通过堆叠特征来实现时间补丁嵌入,首先,热图X = {| ∈ , i ∈ {1, 2, . . . , }}被划分为一个补丁网格,其中表示关节的数量。然后将每个贴片堆叠在相同的位置以形成D维嵌入特征体积,其中D和L表示×和,这里表示堆叠特征的数量。对于时间编码器,将设置为8,对于遮挡编码器,设置为1。通过以这种方式嵌入补丁,时间信息累积到相同位置的每个补丁中。然后将Z投影为Q、K和V,以表示查询、键和值。简洁地描述下这段话的意思
时间: 2024-02-16 21:01:29 浏览: 105
基于可变形卷积和注意力机制的滚动轴承故障诊断
5星 · 资源好评率100%
这段话主要介绍了一个名为DCNv2的新版本可变形卷积模块,用于计算分支之间的偏移和掩码,以提高可变形卷积的性能。DCNv2模块通过独立的2D卷积计算每个膨胀的偏移和掩码,来捕获不同大小的局部信息,从而更好地预测关键点的位置。此外,该模块还利用时间补丁嵌入方法,将时间信息累积到相同位置的每个补丁中。具体来说,将输入的热图X划分为补丁网格,并将每个补丁堆叠在相同的位置,形成一个D维嵌入特征体积。然后将Z投影为查询、键和值,以表示这些特征的不同方面。最后,将不同膨胀的输出相加并进行归一化处理,以得到细化后的关键点位置。
阅读全文