实时MDNet:多域卷积神经网络的高效视觉跟踪

0 下载量 22 浏览量 更新于2024-06-20 收藏 1.82MB PDF 举报
"本文介绍了一种基于多域卷积神经网络(MDNet)的快速、精确视觉跟踪算法,旨在加速特征提取并学习更具有判别性的模型,从而提高目标和背景的表示质量。通过保持高分辨率特征图和引入新的损失项来区分不同域中的前景实例,增强对具有相似语义的目标对象的辨别能力。该算法在多个跟踪基准数据集上表现出优越性能,同时实现了约25倍的速度提升和几乎相同的精度,适用于实时跟踪任务。" 正文: 视觉跟踪是计算机视觉领域的一个核心问题,尤其在自动驾驶、监控系统和机器人导航等领域具有广泛的应用。近年来,卷积神经网络(CNN)因其强大的特征学习能力,在视觉跟踪中取得了显著进展。然而,基于CNN的高精度跟踪算法往往计算复杂度较高,不适用于实时系统。 MDNet是这类算法中的一个代表,它借鉴了对象检测网络R-CNN的思想,对视频中的候选区域进行采样,利用预训练的CNN进行特征提取。尽管MDNet的多域学习框架能有效强调目标与背景的区别,但其在区分跨域的潜在目标实例时表现不足,这可能导致对具有相似语义的不可见目标的误识别。 为解决这些问题,研究者们提出了一种改进的实时MDNet算法。首先,他们优化了特征提取过程,以减少计算时间和空间消耗。其次,引入了RoIAlign技术,通过双线性插值避免RoIPooling的量化误差,从而提高定位精度。然而,大RoI可能导致目标内部细节的丢失,对此,研究者设计了一个新的损失项,以区分不同域中的前景实例,这有助于学习更具鉴别性的目标对象嵌入。 新算法将这些改进集成到MDNet框架中,不仅显著提升了速度,而且保持了与原MDNet相当的跟踪精度。在OTB2015、UAV123和TempleColor等流行跟踪基准数据集上,该算法无需针对特定数据集调整参数,就能持续超越先进的实时跟踪方法。 关键词如“快速视觉跟踪”、“多域学习”和“卷积神经网络”强调了算法的核心概念。多域学习允许模型在不同场景下适应目标的变化,而卷积神经网络则提供了强大的特征表示能力。RoIAlign和实例嵌入损失的引入,是提升算法性能的关键技术创新。 这项工作展示了如何通过优化现有CNN跟踪框架,兼顾速度和精度,以实现更高效、更准确的视觉跟踪。这对于推动实时视觉跟踪系统的发展具有重要意义,为未来的研究提供了新的方向。