4个G. Pei等人
分割和跟踪视频中具有不同运动和表现的目标。最近,随着人工神经
网络的复兴,
深度
模型(
例如,
,CNN[77,70], RNN[55,65,1],
GNN[63,36])使UVOS能够快速发展。尝试在该领域应用深度学习技
术的一个典型例子是LSMO[59], 它学习多层感 知器来检测移动对
象。基于完全卷积网络的许多后续方法减少了计算负担,例如双流结
构[58,21,28,54],基于CNN的编码器-解码器架构[79,6,78]和暹
罗网络[37,34]。随着光流估计领域[19,57,56]的蓬勃发展,越来越
多的基于光流的UVOS方法[22,69,75,50]获得了巨大的性能改进。
与上述基于光流的方法的主要区别在于,我们重新考虑帧与光流之间
的失配。我们的HFAN执行层次特征对齐和运动外观特征的自适应,
以实现视频中主要对象的准确特征表示。
2.2
特征对准
特征对齐被广泛应用于各个领域,
例如:
[2019 - 04- 16][2019 - 04 -
05][2019 - 04][2019 - 05] 对于对象检测,特征对齐主要涉及锚框和卷积
特征之间的未对齐,以及特征图中同一点的多个锚。现有的图像分割
模型通常采用特征金字塔网络(FPN)[33]来获得不同分辨率的特征
图以提高性能。然而,这增加了在下采样期间边界信息的损失以及具
有用于上采样的不同分辨率的未对齐特征图一种有效的方法[16,31]
是将特征从粗分辨率对齐到最细分辨率,以匹配特征图之间的位置。
调整和适应运动和外观特征的多层次表示从同一个编码器实现了我们
的HFAN。因此,保证了两种模态之间的分层特征映射基于相同的主
要对象来对齐它们各自的特征。
3
该方法
我们的HFAN由两个模块组成:
特征对齐
(FAM,
§
3.2)和
特征自适应
(FAT,§ 3.3)。 FAM将外观和运动特征图的层次特征与主要对象对
齐。FAT在像素级融合了这两个对齐的特征图,并具有可学习的自适
应权重。
3.1
任务定义
给定具有
N
帧的输入视频
I
,我们可以选择每个帧I∈
R
H
×
W
×
3
, 并通过[57]
计算相对光流O∈
R
H
×
W
×
3
(可视化为RGB图像)。在多级特征表示的第i阶
段(
i
∈