干扰感知暹罗网络:提升视觉目标跟踪的鲁棒性

0 下载量 162 浏览量 更新于2024-06-20 收藏 1.16MB PDF 举报
"这篇文章主要探讨了视觉目标跟踪中面临的问题,特别是如何处理干扰子的影响,提出了干扰子感知连体网络的解决方案。文章介绍了暹罗网络在视觉跟踪领域的应用,但指出传统的特征区分方法可能无法有效应对空间背景干扰,导致跟踪器的鲁棒性降低。作者提出了一种新的策略,通过在训练阶段采用分布控制策略来增强特征的区分性,并在推理阶段设计了增量学习模块,适应视频中的变化。此外,还引入了局部到全局搜索区域策略,以提高长期跟踪的性能。实验结果显示,这种方法在多个数据集上显著优于现有技术,同时保持了较高的运行速度。" 正文: 视觉目标跟踪是计算机视觉领域的一个关键任务,涉及在复杂动态环境中持续定位和识别目标。近年来,暹罗网络因其在准确性和实时性之间的平衡表现,成为解决这个问题的一种流行方法。暹罗网络基于深度学习框架,通过比较目标模板与视频帧中的候选区域来判断目标是否存在。 然而,尽管暹罗网络取得了显著的成果,但它们通常忽视了一个重要的问题,即空间背景中的干扰子(如运动背景或相似物体)对跟踪性能的影响。这些干扰子会混淆网络,降低其区分目标与非目标区域的能力,从而影响跟踪的准确性与鲁棒性。 针对这一挑战,文章提出了一种干扰子感知连体网络,其核心在于学习能够识别和区分干扰子的特征。为了提高特征的区分性,研究者在训练阶段采用了有效的采样策略,平衡训练数据的分布,使模型能够专注于学习语义干扰项的特征。这种分布控制策略有助于模型更好地理解并忽略不相关的背景元素。 在推理阶段,文章引入了一个增量学习模块,允许网络根据当前视频帧的上下文信息动态调整其表示。这种增量学习方法使得模型能够适应视频流中的视觉变化,从而实现更准确和长期的跟踪。 此外,为了增强长期跟踪能力,研究人员设计了一个局部到全局的搜索策略。这个策略扩大了搜索范围,考虑了目标可能的移动范围,减少了因目标暂时离开视线而导致的跟踪丢失。 实验部分展示了所提方法在VOT2016和UAV20L数据集上的卓越性能,相对增益分别为9.6%和35.9%,证明了该方法的有效性。而且,该跟踪器在短期和长期基准测试中都保持了高效的速度,分别达到了160FPS和110FPS。 这篇论文通过干扰子感知连体网络和相关策略,为视觉目标跟踪提供了新的视角,不仅提高了跟踪的准确性,还增强了模型对环境变化的适应性。这些创新对视觉跟踪领域的发展具有重要启示,可能对未来的研究和应用产生深远影响。