基于加权光流的平面目标跟踪方法及其性能评估

129 浏览量更新于2023-10-16 收藏 4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1593∈基于加权光流的平面目标跟踪约翰·马塔斯，你是我的朋友CMP视觉识别组，控制论系，电气工程学院，捷克技术大学，布拉格{serycjon，matas}@ fel.cvut.cz摘要我们提出了WOFT -一种新的方法，用于平面物体跟踪，估计一个完整的8自由度的姿态，即。单应性W.R.T.参考视图。该方法使用了一种新颖的模块，该模块利用密集光流并为每个光流对应分配权重，以完全可微的方式通过加权最小二乘估计单应性。在大多数情况下，训练模块对不正确的对应关系（离群值）赋予零权重，使该方法鲁棒，并消除了对通常使用的不可微鲁棒估计器（如RANSAC）的需要。所提出的加权光流跟踪器（WOFT）在两个基准POT-210 [23]和POIC [7]上实现了最先进的性能，在各种场景中始终跟踪良好。1. 介绍在本文中，我们解决的刚性平面目标跟踪问题，这是视觉目标跟踪的一个特定的子课题给定在第一帧中识别的对象，跟踪器应当在视频序列的每个后续帧上输出所跟踪的对象姿态或该对象在该帧中的不存在。在一般的无模型设置中，除了来自第一帧初始化的目标特定信息之外，跟踪器没有关于目标类的先验知识。在标准跟踪基准中，例如OTB [46]，VOT[18、20]，拉索 [11]、 T RACKING N ET [30]，或YT-BB [36]，对象姿态由轴对齐或旋转的边界框表示。近年来，使用分割掩码表示的跟踪越来越受欢迎，基准测试如VOT2020 [19]，DAVIS [33，35]，[47]第47话，在平面刚性目标跟踪中，当使用透视相机时，目标姿态通过8自由度（DoF）同像关系与其初始姿态平面跟踪器可以输出精确的8-DoF对象姿态，实现使用边界框或分割遮罩无法实现的图1.基于光流对应的加权最小二乘单应性模型（WFH）估计单应性的平面目标跟踪所提出的可训练流权重CNN基于来自相关成本-体积的样本向每个流向量分配权重wi[0，1]。水平跟踪器，在电影后期制作，视觉伺服[50，5]，SLAM [41]或无标记增强现实[44，34，39]等领域。人造物体通常是完全平面的或由平面表面组成，允许在广泛的场景中进行当前最先进的方法在标准平面对象跟踪数据集POT-210 [23]和POIC [7]中的看似玩具般的序列上挣扎。目标平面性提出了挑战，强烈的透视失真、由镜面高光引起的显著照明变化以及由抖动的手持照相机引起的运动模糊。在这项工作中，我们介绍了一种新的无模型平面目标跟踪器。该方法利用深度光流网络估计模板（初始图像）和当前图像之间的密集对应关系。然后，一种新颖的单应性估计模块为每个光流对应分配权重，并且单应性被估计为加权最小二乘问题的解。该网络将低权重分配给不正确的流向量，因此没有必要使用像RANSAC这样的鲁棒离群值检测算法。使用密集OF对应有几个优点。首先，OF估计得到了很好的研究，并且高质量的方法是现成的。其次，密集的每像素对应有助于低纹理的物体，其中稀疏的关键点对应失败。最后，具有密集对应使我们能够计算homography对应支持集并检测跟踪重量估算加权最小二乘单应4D成本-体积流量估测骨干1594∈∈失败，如果支持是小的。所提出的单应性估计过程是完全可微的，允许我们使用单应性监督来训练权重估计器和光流网络。这项工作的主要贡献如下。• 我们提出了一种新的完全可微单应性估计神经网络模块。• 我们提出了一种新的平面目标跟踪器采用加权流单应性估计（代码公开1）。• 拟议的跟踪器在POT-210 [23]，POT-280 [22]和POIC [23]数据集上设置了新的最先进技术，在所有挑战类型中表现良好。在POT-210上，跟踪器误差是最佳竞争方法误差的一半。• 我们分析了POT-210数据集的地面实况，并发布了1对其子集的精确重新注释。原始注释的不准确性占所提出的跟踪器的错误的一半。2. 相关工作一般的视觉对象跟踪方法一直在不断改进，基于深度学习的跟踪器在经典方法中占主导地位[21，19]。相比之下，平面对象跟踪器最近才开始使用深度学习。单应性跟踪器可以大致分为三个主要类别[23]：关键点方法、直接方法和深层方法。传统的基于关键点的跟踪包括三个步骤：（i）关键点检测和描述，例如，SIFT[27]或SURF[3]，（ii）通过描述符空间中的最近邻搜索进行关键点匹配，以及（ iii ）使用RANSAC的鲁棒单应性估计[12]。SOL [14]跟踪器使用SVM来学习关键点描述符和PROSAC [9]排序。在GRACKER [45]中，关键点不是仅基于描述符相似性独立匹配的，而是使用图形匹配方法。OBD [29]跟踪器使用ORB关键点进行目标检测和光流跟踪。在POT-280 [22]基准测试中，作者比较了几种基于深度学习的单应性跟踪器。最好的方法是使用SIFT关键点检测器，这是一种深度学习描述符，如GIFT [25]，MATCHNET [13]，SOSNET [43]或[32]第32话，然后是RANSAC。直接方法将跟踪任务表述为图像配准。给定当前帧，他们试图找到一个homography扭曲，优化当前帧与初始帧中的对象的对齐。在经典的Lucas-Kanade [28]和逆合成[2]方法中，直接在图像上测量翘曲质量1https://cmp.felk.cvut.cz/强度的平方差之和。ESM [4]跟踪器通过使用有效的二阶最小化（ESM）技术避免了Lucas-Kanade中Hessian的昂贵计算。GO-ESM [8]通过在图像强度上添加梯度方向特征并将ESM跟踪器推广到多维特征，提高了对光照变化GOP-ESM [7]跟踪器通过特征金字塔和从粗到细的迭代方法扩展了GO-ESM。Chen等人[6]提出了使用ESM算法作为一个可微层的连体神经网络架构。ESM层迭代地对齐模板和查询帧特征映射，该查询帧特征映射从在IMAGENET上预训练的RESNET-18 [16]主干中获得。然后，整个架构在从MS-COCO数据集合成的图像对上进行微调[24]。直接方法在POIC[7]数据集上表现良好，但通常在运动模糊，部分遮挡和部分视野外目标上失败，例如。在POT-210数据集中[23]。深度学习单应性估计通常通过四个控制点的回归来完成。HOMOGRAPHYNET [10]和UDH [31]通过CNN馈送一对关联的单应性相关图像，并将单应性估计公式化为四个控制点的直接回归。Rocco等人[37]提出从包含Siamese VGG-16 [40]特征图之间的每个相似性的相关成本-体积回归四个单应性控制点。最近提出的HDN[49]方法也使用了四点回归，该方法将单应性分解为相似性变换和单应性残差。这些控制点回归方法与遮挡作斗争，并且通常假设整个图像通过同态相关，并且不区分目标和背景运动。PFNET [48]使用自定义卷积架构来估计密集流场，然后将其用于RANSAC，使得该方法不可验证并且端到端训练不可能。3. 方法我们提出了一个加权流单应性模块（WFH），分配一个流权重w i[0，1]为每个的对应关系，并估计单应性使用加权最小二乘公式（节。第3.1节）。WFH是可区分的，使得WFH和OF网络的端到端训练成为可能。节中 3.2 ，我们提出了一个加权光流跟踪器（WOFT）周围的WFH单应性估计。3.1. 加权流单应性模块WFH模块的思想是为每个光流矢量计算流权重wi[0，1]标准的最小二乘单应性拟合是感测-1595Σ∥Σ∈.Σλ=0用AR2N×9对数据约束进行编码。系统-问题通常是通过一个奇异值在最小范数意义下求解的∥wjAwjbj对严重不正确的对应关系（离群值）敏感。这通常由RANSAC解决，RANSAC使用重复的假设采样来找到单应性及其无离群值的对应支持集。相反，WFH通过将其流量权重设置为接近零来消除离群值，从而实现稳健的单次迭代和完全可微的加权最小二乘拟合。我们使用光流估计网络（如RAFT [42]）处理一对图像以获得OF对应（pi，p′i），其中pi=（x i，y i）是一个图像中的位置，p′i=（x′i，yi′）是第二个图像中的对应位置。然后，我们将OF网络的适当内部表示传递给权重估计CNN，该CNN预测每个OF向量的流权重wi最后，我们估计单应性求解方程组的加权最小二乘。首先介绍了最小二乘同调估计，然后描述了加权变分和训练损失函数。最后，我们详细描述了权重估计CNNLSq单应性。给定光流对应，我们要找到一个单应矩阵H∈R3×3图2.高权重的光流（黄色）主要出现在角落和纹理良好的区域。底部：具有最高平均流权重的POT-210目标（左）;当被反射“遮挡”时，权重值下降（pur- ple）最好用彩色观看用相应的估计流权重Wi，并找到2Nmin（三）超定齐次方程组Ah=0，其中h∈R9 ×1是平坦H-矩阵∈2N . √j=1j=1Σj，·. √Σ最大值分解（SVD）。我们使用PyTorch机器学习框架，其中包括可微SVD，但反向传播的梯度通常不稳定。为了克服这个问题，我们通过固定其右下角元素h3，3=1来约束单应性，从而导致非齐次系统Ah=b，可以在使用QR分解的最小二乘意义，稳定梯度并不是所有的单应性都可以用这个约束来表示（见第二节）。1.1.2在[15]，但我们没有将加权问题（3）转化为非加权问题（Eq. （2））通过将A的每个r w和A的每个元素相乘，b乘以相应权重的平方根训练WFH。我们使用预测单应性的损失函数来训练WFH权重估计CNN。我们通过地面真值单应性HGT向前弯曲点，然后通过估计的H的逆向后弯曲点，最后计算投影误差的L1损失，如下所示：N在跟踪场景中遇到了这样的情况。在非均质配方中，每个相应的-L（H）=1pNii=1-H−1HGTpi2（五）对A∈R2N×8和b∈R2N，我们把两个方程加到了一起：Σ0 0 0−xi−yi−1yi′xiyi′yih=−yi′光流网络和流权重估计CNN都使用单个损失函数进行训练，并且我们不使用额外的流权重xi yi1 0 0 0−x′ixi−x′iyi我们解决最小二乘问题2Nmin<$A<$j，·h<$−bj<$2X′i（一）（二）预测器所学习的流权重类似于关键点检测器输出（角落、纹理良好的补丁），但具有来自两个图像的信息，因此对遮挡或显著外观变化给出低权重，如图2所示。建议的WFH模块2h=1通过数据矩阵的QR分解A=QR，然后求解三角系统Rh=Qb（PyTorch中提供的三角系统求解器）。加权LSq单应性。在建议的加权最小二乘公式，我们加权每对方程在RAFT [42]光流估计器的相关成本-体积金字塔上操作，但该想法适用于其他OF网络（第2节）。4.2）。 RAFT计算相关体积C1RH/8×W/8×H/8×W/8，其捕获从两个输入图像提取的所有特征向量对之间的相似性。接下来，他们构建一个4层相关金字塔ΣΣ2映射到′′、. 这导致wj<$A<$j，·h<$−bj<$2（xi，yi，1）（λxi，λyi，λ）h~2=minh−∥2（四）1596C1，C2，C3，C4。最后，9 ×9贴片159713→××→W−×∈×联系我们0→GΣ Σi，j，k，l图3. WOFT跟踪器使用最后一个良好姿势对当前帧进行预变形（1）。然后，它估计模板和预扭曲帧之间的单应性（2），并评估所估计的单应性的可靠性（3）。当估计不可靠从该金字塔中采样以当前为中心的流矢量估计这被重复几次以产生最终的光流场。在WFH中，我们在最后的OF位置上再次对相关性金字塔进行采样，得到994 fea-每个流动矢量的空间分辨率为年龄，导致类似于典型I（t-1）的运动I t光流场景。可能的外观不同-模板和暂时远离的帧（主要由照明变化和运动模糊引起）之间的差异由光流特征编码器隐含地处理。其次，我们计算模板帧I0和预包装的当前帧I1t之间的全局光流2以及对应的流权重。我们掩盖了流动的核心-响应，只留下在模板掩模内开始并在当前图像内结束的响应为了加快单应性估计，我们随机对对应进行子采样，仅保留500。然后，我们估计homograph yH0t使用第2节中所述的加权最小二乘法进行拟合。3.1.计算模板和预变形当前帧之间的单应性可防止误差累积和目标漂移（第12节）。4.2）。我们将加权光流与计算的单应性一起传递到状态逻辑块，该状态逻辑块决定跟踪是否成功。基于估计的单应性的支持集大小做出丢失/未丢失的决定。特别地，对于光流对应（pi，p′i），我们使用同形图hyH0→ti来扭曲每个位置p i=（xi，yi），并计算欧几里得到位置p′i=（x′i，yi′）的距离。第i个对应是内点，（H0tt，pi）皮5pixels-平面跟踪基准的标准阈值[23，7]。当追踪器的支持集很小时，我们声明它丢失，I.E.小于20%的内点。当跟踪器没有丢失时，我们返回H0→t=H/8和 W/8。为了抓住全球背景，我们随后-挂起包含平均相关性H−10→GH0→t更新并更新用于H/8W/8体积响应M（i，j）=C1m=1n=1针对给定预翘曲G=t。当追踪器丢失后，我们第二次尝试使用局部优化来估计姿态cal flowI（t−1）→It.当地的水流倾向于漂移，但是position（i，j）1、. . . 、H/81、. . . ，W/8在第一输入图像特征图。我们使用三层卷积网络（内核大小为3，128个输出通道，ReLU）处理生成的特征fi，jR 9×9×5，然后使用11卷积（单输出通道）和全局平均池化。最后，我们使用RAFT上采样模块对结果进行上采样，并应用sigmoid激活来获得权重在0和1之间的H×W评分图。3.2. 单应性跟踪器我们提出了一个平面目标跟踪器的基础上加权流单应性模块，WFH。我们的加权光学流量跟踪器，表示为WOFT，由四个主要部分组成，如图所示。3.第三章。首先，我们应用预扭曲技术来减少大的姿态差异，这是不能很好地处理的OF方法。当前视频帧It通过来自最后一个可靠帧IG的单应性被预扭曲1，其中G=0最初是前warpIt=W（H−1，It）降低了它有助于在短期内跟踪目标姿态暂时接近的输入图像在外观上接近（类似的照明、类似的运动模糊等）。我们用上述加权最小二乘法估计 H （ t−1 ） →t4 ，输出 H0→t=H （ t−1 ） →tH0→（t−1）。此外，当跟踪器丢失超过10个帧时，我们重置预扭曲最后一个好帧索引G= 0。目标姿势可能在10帧内发生显著变化，从而使预扭曲信息过时。此外，一个坏的扭曲前单应性可以破坏任何恢复的机会，例如.过时的强透视变化预扭曲使当前的目标区域变形到不可识别的程度，并且G = 0的识别单应性是最安全的选择。3.3. 实现细节对于光流，我们使用作者提供的在Sintel上训练的RAFT检查点。然后，我们在具有50000个图像对的合成数据集上训练了10个epoch的权重估计CNN。我们通过重复生成训练集-模板和当前之间的姿势差异，立即采样随机MS COCO[24]图像并扭曲。1598∈×W≤≤图4.精确的重新注释示例。原始地面实况注释（左），改进的地面实况注释（右）。绿色通道中的灰度模板，红色和蓝色通道中的GT扭曲的当前注释不精确导致绿色和洋红色阴影，而精确对齐的图像产生灰度结果。顶部和右侧的绿色带分别是由当前帧上的部分遮挡引起的。在改进的地面实况上评估的原始GT的对准误差为15。8 px（顶部）和7。2px（底部）。对象出现在7个视频序列中，具有不同的缩放属性--序列具有501帧的固定长度。POT-280 [22]扩展了POT-210，增加了10个新对象。POIC[7]：具有照明变化的平面对象数据集由20个不同长度的序列组成，总共22971帧。该数据集包含具有平移、平面内和平面外旋转以及缩放变化的序列，但主要关注强镜面高光和其他显著照明变化，使其成为POT-210的补充。评价方案：在POT-210和POIC上，跟踪器在第一帧上初始化，并一直跟踪到序列结束。对准误差eAL是针对每个注释帧计算的。给定四个参考点xi在第一帧中的X，对准误差被定义为它们通过地面真值单应性H和通过跟踪器单应性H到当前帧中的投影之间的均方根误差，.‚4e（H;H∈，X）=.，1<$（W（H<$，x）−W（H，x））2，AL用两个随机单应性表示TEM，板和当前帧姿势。随机同形-4我i=1我（六）通过用长度高达图像对角线的20%的随机向量扰动图像的每个角来我们模糊的第二个扭曲的图像的长度为20像素的随机线性运动。最后，两张图像都通过JPEG压缩，质量设置为25。我们使用DAM W [26]优化器进行训练，初始学习率为1e-3，然后在每个历元后减半。最后，我们对整个网络进行微调，包括RAFT2个epoch，从学习率1e-5开始，每个epoch后将其减半。为了稳定训练过程，我们丢弃损失超过100的训练样本该追踪器在GeForce RTX 2080 Ti GPU（i7- 8700 KCPU@3.70GHz）上运行速度约为3.5 FPS。大部分时间花在光流计算上（275 ms）。权重计算（2ms）、权重上采样（1ms）和最小二乘单应性估计（5ms）花费的时间可以忽略不计。图像预扭曲（在CPU上完成），opti- cal流掩蔽和子采样花费额外的7 ms。一个更快的变体WOFT↓s将输入图像缩小到H/sW/s，并将输出单应性重新缩放到原始分辨率。4. 实验我们评估了两个标准的平面对象跟踪数据集，POT-210和POIC，并表明它始终实现高精度和鲁棒性的跟踪器。POT-210[23]：Planar Object Tracking in the Wild基准测试包含30个对象的210个视频。每一个Ob-与（H，x）表示向量x通过单应性H跟踪器精度被测量为eAL5px（P@5分数）的帧的分数此外，我们测量eAL15px（P@15得分），对应于目标未被完美跟踪但也未完全丢失的帧的分数4.1. 地面实况质量在分析POT-210的WOFT性能时，我们发现在许多情况下，地面实况（GT）注释的准确性低于官方的5px误差阈值。我们对POT-210数据集的一个子集进行了重新注释，以测量原始GT质量，并提供更准确的跟踪器性能估计，见图。4.我们的注释工具显示模板，当前帧上的对象用当前的一个符号扭曲，最重要的是，对齐可视化。我们将模板帧和当前帧都转换为灰度，并将扭曲的帧覆盖在模板上，将模板放入绿色通道，将当前帧放入红色和蓝色通道。这允许在目标的整个范围内进行非常精确的对齐，这与用于原始注释的注释界面不同（图1）。4 in [23]）。我们已经完全手动重新注释了每个序列的第82、172、252、332和412帧，而没有看到WOFT估计的姿势，新的GT将公开提供。补充资料中有更多重新注释叠加的示例。评估了原GT的对准误差1599−×是3. 平均为63，在15%的情况下比官方的54.2. 消融研究在表1中，我们显示了WOFT的各种设计选择对POT-210性能的影响首先，我们展示了计算模板和预翘曲的当前帧之间的光流的重要性在第1、2行中，我们只使用局部流（从I（t-1）到It）。跟踪器漂移并很快失去目标，导致整体性能不佳。实现了很大的性能改进通过使用全局流（从I0到It）和使用用于预扭曲的前一帧（行3、4）。另一个推动因素通过受控的预扭曲（行5 - 9）来实现性能，其中当全局流失败时使用局部流，并且当目标“丢失”超过10帧时重置预扭曲单应性使用加权最小二乘单应性估计一致地提高了性能-将行2与行1进行比较（P@5 + 1）。3），第4行至第3行（P@5 + 10. 7），第6第5行（P@5 + 8. （3）第三章。在第7行中，我们使用相同的设置如WOFT（第6行），但没有RAFT微调，导致P@5（7.4）.我们还进行了实验（第8行），用加权迭代重加权最小二乘（IRLSq）代替普通加权最小二乘估计单应性我们已将IRLSq设置为优化Huber损失（也称为平滑L1损失），它对离群值比最小二乘法更鲁棒。这并没有改变性能（w.r.t.行6），这表明我们估计的权重已经考虑了离群值，并且鲁棒估计器是不必要的。接下来，我们将RANSAC（第9行）与所提出的WOFT（第6行）进行比较。加权最小二乘方法取得了更好的结果（P@5 + 0。9）在一个单一的可微通道中。图10-12显示WOFT与LITE FLOW NET 2 [17]流量（补充资料中的详细信息），而不是RAFT。同样，加权LSq估计器（行12）比普通LSq（行10）或RANSAC（行11）工作得更好4.3. 权重评估图5显示了学习的权重如何与光流质量相关。低纹理区域和模糊的特征通常被分配低权重（图1）。2）即使当相应的光流是正确的。重要的是，不正确的流向量被分配低权重。4.4. POT-210和POT-280评估我们将WOFT方法与POT-210 [23]数据集上的最佳执行方法进行了比较。即重点法：SIFT [27]，OBD[29]和G RACKER [45]，深度控制点回归HDN [49]，[22]中评估的基于深度学习的方法：SOSN ET [43]，MPW HW FP@15岁时5个Porig 雷安orig 雷安(1)R––5.70.816.610.7(2)R–✓ ✓7.02.122.517.3(3)R✓LSQ–57.663.668.168.9(4)R✓LSQ✓ ✓66.774.375.576.4(5)RC LSq–73.182.189.992.080.690.493.995.6(6)RC LSq✓ ✓(7)RC LSq✓–75.183.087.387.8(8)RC IRLSq✓ ✓80.690.493.995.6(9)RC RSAC–79.588.892.793.5（十）LC LSq–66.974.882.382.6（十一） LC RSAC–72.880.984.485.1（十二） LC LSq✓–72.881.086.187.1表1. POT-210的消融研究，根据原始地面实况（orig）和重新注释（rean）进行评价。在所有的实验中，加权最小二乘法在P@5和P@15两种情况下的性能都优于非加权最小二乘法。M -流量法：筏（右），LITE F LOW N ET 2（左）。PW -使用全局预扭曲流：never（-），always（），controlled（C）.H-单应性估计方法：最小二乘（LSq）、具有Huber损失的迭代重加权最小二乘（IRLSq）、RANSAC（RSAC）。使用估计的重量。F -0.50.01.00.50.00-1 1-2 2-5 5-1010-15 15-20 20-inf流量误差[px]图5.根据重新注释的POT-210 [23]地面实况测量的不同光流误差范围的权重分布橙色中位。顶部：每个流量误差范围的频率。权重网络学会了将零权重分配给不正确的流向量（离群值），并将高权重分配给一些正确的流向量。SUPER G LUE [38]，LISRD [32]，直接方法：GOP-ESM[7]和SIAM-ESM [6]（深度+直接）。所提出的WOFT在POT-210数据集上达到了最先进的水平。对准误差eAL结果如图所示。6、在Tab 2.在所有210个序列上进行评估（所有图）WOFT跟踪器在准确性（P@5）和鲁棒性（P@15）方面都优于所有其他方法。WOFT的5 px阈值误差中有一半以上是由几何变换不精确引起的。在H/3W/3图像上运行的WOFT ↓3变体接近实时，并达到最先进的精度（补充资料中有详细信息）。WOFT还在POT-280上取得了最高成绩[22]（76. 9 P@5，93。2P@15），见补充资料。重量Freq16001.00.50.01.00.50.01.0POT-210秤0 5 10 1520对准误差阈值POT-210模糊0 5 10 1520对准误差阈值POT-210无约束1.00.50.01.00.50.0POT-210旋转0 5 10 1520对准误差阈值POT-210闭塞0 5 10 1520对准误差阈值1.00.50.01.00.50.0POT-210透视图0 5 10 15 20对准误差阈值POT-210视野外0 5 10 15 20对准误差阈值0.50.00 5 10 15 20对准误差阈值图6. POT-210 [23]（原始GT）上的对准错误。WOFT在所有序列类型上都表现良好，将官方5px阈值上的错误减少到最佳竞争对手的一半方法类型：（红色圆圈）1.00.50.0POIC所有0 5 10 1520对准误差阈值表2. POT-210 [23]数据集上的结果。所提出的WOFT跟踪器在准确性（P@5）和鲁棒性（P@15）方面设置了新的最先进的性能。根据原始地面实况（orig）和重新注释（rean）进行评估。以每秒帧数（FPS）为单位的跟踪速度*速度从文件，不同的硬件。4.5. POIC评价我们比较（图。7）在POIC [7]数据集上评估的顶级方法的WOFT跟踪器性能。除了在POT-210上评估的方法外，图7. POIC上的对准误差评估[7]。建议的WOFT达到国家的最先进的96。1 P@5和98。0P@15。包括SOL [14]和BIT-PLANES [1]。WOFT以96. 1 P@5和98。0P@15。更多结果在补充材料中。POT-210和POIC上的WOFT输出示例见图8。5. 讨论和限制WOFT跟踪器处理POIC数据集中存在的部分遮挡、中等量的运动模糊以及照明变化和纹理缺失。相比之下，在POIC上表现良好的其他方法（SIAM ESM [6]，GOP-ESM [7]）在POT-210上的性能较低，POT-210全部1.00.50.00 510 15 20对准误差阈值WOFT（我们的）GrackerOBDSIFTsiamESMGOP-ESMHDNSuperGlueSOSNetLISRD精度WOFT（我们的）溶胶SIFT格拉克SiamESM位平面GOP-ESMHDN精度精度精度精度精度精度精度精度方法年FPSP@5P@15orig雷安orig雷安GOP-ESM [7]20194.95*42.949.7超级胶水[38，22]20203.7*39.142.158.055.7[45]第四十五话20174.8*39.263.2SiamESM [6]2019–58.766.2SOSNet [43，22]20191.5*56.660.969.967.0SIFT [27，22]20040.8*62.265.871.369.6[29]第二十九话202130*48.454.379.379.2LISRD [32，22]20207*61.668.379.679.2HDN [49]202210.6*61.370.991.592.4WOFT↓3（我们的）WOFT（我们的）19.23.568.980.680.590.491.293.992.395.61601图8.WOFT追踪状态可视化-红色：跟踪，青色：丢失-切换到本地流。第一行：WOFT处理POT-210 V18 5序列上的强第二行：在V06 7 POT-210上成功跟踪，不受透视变化、部分遮挡、比例变化和运动模糊的约束。第三行：在POIC盘序列中的成功跟踪，其中目标表面的大部分由于镜面反射而改变外观。最后两行显示选定的跟踪失败。第4行：跟踪器然而，对于模板帧，局部单应性估计防止完全失败。第5行：目标几乎完全被遮挡，跟踪器切换到跟踪附近的干扰块。后来WOFT重新获得了正确的目标。最后一行：WOFT可以处理中等程度的运动模糊，但在极度模糊的帧上失败。反之亦然（LISRD [32]，SIFT [27]）。WOFT不具有重新检测方案，并且仅估计预变形步骤之后的残差变换。当跟踪器在比例子集上丢失超过10帧时，这会导致问题。在将预扭曲源帧重置为G=0（使用单位单应性进行预扭曲）后，残差变换的尺度分量有时会比流网络可以处理的大（见图10）。（八）。我们在RAFT OF网络上测试了所提出的WFH单应性方法，该方法是准确的（图1）。5），但速度慢（每帧275 ms）。然而，OF估计是一个活跃的研究领域，我们期望在未来发表新的准确和快速的方法WFH的核心理念-用LITE FLOW NET 2替代RAFT的消融研究结果支持该声明。我们还提出了一个简单的WOFT↓3变体，刷新速度快（19.2 FPS），仍然达到最先进的水平。6. 结论提出了一种基于加权最小二乘的深度单应性估计新公式。加权流单应性（WFH）模块是可微分的，并且可以与提供密集对应的光流网络一起进行端到端训练。一种新的平面对象跟踪器，称为WOFT，使用WFH进行评估的两个互补的平面对象跟踪基准，并设置一个新的国家的最先进的POIC，POT-210和POT-280。在POT-210上，它的性能大大优于所有其他已发表的方法。POT-210地面实况的不准确性占WOFT误差的一半。我们发布了WOFT代码，训练模型和POT-210子集2的改进GT注释。鸣谢。这项工作是由丰田汽车欧洲，由CTU学生资助SGS 20/171/OHK 3/3 T/13，并由信息学研究中心项目 CZ.02.1.01/0.0/0.0/16019/0000765由OP VVV资助的支持。2https://cmp.felk.cvut.cz/1602引用[1] 哈特姆·艾里斯梅尔布雷特·布朗宁和西蒙·露西在弱光和突然光照变化下的鲁棒跟踪。2016年第四届3D视觉国际会议（3DV），第389-398页。IEEE，2016.[2] 西蒙·贝克和伊恩·马修斯。卢卡斯-卡纳德20年：统一的框架。国际计算机视觉杂志，56（3）：221[3] Herbert Bay，Andreas Ess，Tinne Tuytelaars，and LucVan Gool.加速健壮功能（冲浪）。计算机视觉和图像理解，110（3）：346[4] Selim Benhimane和Ezio Malis使用有效的二阶最小化的实时基于图像的飞机在2004年IEEE/RSJ智能机器人与系统国际会议（IROS）（IEEE Cat。No.04CH37566），第1卷，第943-948页。IEEE，2004年。[5] Selim Benhimane和Ezio Malis基于单应性的二维视觉跟踪与伺服。国际机器人研究杂志，26（7）：661[6] 林晨，陈耀武，凌海滨，田翔，田月松。学习鲁棒特征用于平面目标跟踪。IEEE Access，7：90398[7] 林晨，凌海滨，沈宇，周凡，王平，田翔，陈耀武.基于梯度方向金字塔的平面目标鲁棒视觉跟踪电子成像杂志，28（1）：1[8] 林晨，范洲，沈宇，向天，凌海滨，陈耀武。平面目标跟踪的光照不敏感高效2017年IEEE机器人与自动化国际会议（ICRA），第4429-4436页。IEEE，2017年。[9] Ondrej Chum和Jiri Matas。与prosac匹配-渐进样本共识。在2005年IEEE计算机社会计算机视觉和模式识别会议IEEE，2005年。[10] Daniel DeTone，Tomasz Malisiewicz，and Andrew Rabi-novich. 深度图像单应性估计。 arXiv 预印本 arXiv ：1606.03798，2016。[11] Heng Fan ， Liting Lin ， Fan Yang ， Peng Chu ， GeDeng ， Si-jia Yu ， Hexin Bai ， Yong Xu ， ChunyuanLiao，and Haibin Ling. Lasot：大规模单目标跟踪的高质量基准。在IEEE计算机视觉和模式识别会议论文集，第5374- 5383页[12] Martin A Fischler和Robert C Bolles。随机样本一致性：一个范例模型拟合与应用程序的图像分析和自动制图。Communications of the ACM，24（6）：381[13] Han Xufeng，Thomas Leung，Yangqing Jia，Rahul Suk-thankar ， and Alexander C Berg. Matchnet ： Unifyingfeature and metric learning for patch-based matching. 在Proceedings of the IEEE conference on computer visionand pattern recognition，pages 3279[14] Sam Hare，Amir Saffari，and Philip HS Torr.基于关键点的对象跟踪的高效在2012年IEEE计算机视觉和模式识别会议上，第1894-1901页IEEE，2012。[15] R. I. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，ISBN：0521540518，第二版，2004。[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[17] Tak-Wai Hui，Xiaoou Tang，and Chen Change Loy.一种轻量级的光流计算方法--重访数据保真和正则化。IEEE模式分析和机器智能交易，43（8）：2555[18] Matej Kristan ， Ales Leonardis ， Jiri Matas ， MichaelFels- berg ， Roman Pflugfelder ， Luka Cehovin Zajc ，TomasVojir ， GoutamBhat ， AlanLukezic ，Abdelrahman Eldesokey ， et al. The sixth visual objecttracking vot2018 challenge results.欧洲计算机视觉会议，2018年。[19] Matej Kristan ， Ales Leonardis ， Ji r Matas ， MichaelFels-ber g，RomanPflugfelder，Joni-Kris tianKmara inen，Martin Danelljan ， LukaCehovinZajc ， AlanLuk ez ic ，OndrejDr-bohlav，et al.第八届视觉对象跟踪vot2020挑战赛结果出炉。欧洲计算机视觉会议，第547-601页。Springer，2020年。[20] Matej Kristan ， Jiri Matas ， Ales Leonardis ， MichaelFels-berg，RomanPflugfelder，Joni-KristianKamarainen ， Luka Cehovin Zajc ， Ondrej Drbohlav ，Alan Lukezic，Amanda Berg，et al.第七届视觉对象跟踪投票2019挑战赛结果揭晓。在IEEE计算机视觉研讨会国际会议论文集，第0[21] Matej Kristan 、 Ji r Matas 、 Ales Leonardis 、 MichaelFelsberg、RomanPflugfelde r、Joni-KristianKmar a inen、HyungJin Chang 、 MartinDanelljan 、 LukaCeh o vin 、AlanLu k e zi c、On-drejDrbohl av、JaniKpyl a 、Gust avH a ge r、 SongYan、 Jin yu Yang 、 ZhongqunZhang 和Gust av oFern a ndez。第九届视觉物体追踪vot2021挑战赛结果。在IEEE/CVF计算机视觉国际会议（ICCV）研讨会上，第2711-273

下载后可阅读完整内容，剩余1页未读，立即下载