更深更宽的连体网络用于实时视觉跟踪

145 浏览量更新于2023-10-18 收藏 886KB PDF 举报

中国科学院大学

微软研究院

身份认证购VIP最低享 7 折!

30元优惠券

4591用于实时视觉跟踪的更深更宽的连体网络张志鹏中国科学院大学zhipeng. nlpr.ia.ac.cn彭厚文（音译）微软研究院houwen.peng@micrsoft.com摘要暹罗网络在视觉跟踪中以其准确性和速度的平衡而引起了人们的极大关注。然而，暹罗跟踪器中使用的骨干网络相对较浅，例如AlexNet [18]，它没有充分利用现代深度神经网络的能力。在本文中，我们研究了如何利用更深更宽的卷积神经网络来增强跟踪的鲁棒性和准确性。我们观察到，用现有的强大架构（如ResNet [14]和Inception [33]）直接替换主干，）+%“&）而不是带来改善。其主要原因是：（1）神经元感受野的大幅度增大导致特征的可分辨性和定位精度降低;以及2）卷积的网络填充在学习中引起位置偏差。为了解决这些问题，我们提出了新的残差模块，以消除填充的负面影响，并进一步设计新的架构，使用这些模块控制的感受野大小和网络步幅。所设计的架构是轻量级的，并且在应用于SiamFC [2]和SiamRPN [20]时保证实时跟踪速度实验表明，仅仅由于对于提出的网络架构，我们的SiamFC+和SiamRPN+在OTB-15，VOT-16 和 VOT-17 数据集上分别获得了 9.8%/5.7%（ AUC ）， 23.3%/8.8% （ EAO ）和 24.4%/25.0%（EAO）的相对改进1. 介绍视觉跟踪是计算机视觉中的基本问题之一。它的目的是估计一个arbitrary目标在视频序列中的位置，只给定其在初始帧中的位置实时跟踪在许多视觉应用中起着至关重要的作用，例如监控，机器人和人机交互[10，21，30，43]。最近，基于暹罗网络的跟踪器[2，7，12，13，20，34，40]由于其高速度和准确性而引起了极大的关注。然而，这些跟踪器中使用的骨干网络仍然是经典的AlexNet [18]，*通讯作者图1：成功曲线的AUC与网络深度和宽度（英寸）由W表示）。这里，宽度指的是模块中分支的数量。通过对OTB-13的评估，使用具有不同骨干网络的SiamFC [2而不是现代深度神经网络，后者已被证明在特征嵌入方面更有效。为了研究这个问题，我们用更深更广的网络取代了浅层骨干网，包括VGG [29]，Inception [33]和ResNet [14]。出乎意料的是，这种简单的替换并没有带来太大的改进，甚至会在网络深度或宽度增加时导致性能大幅下降，如图所示。1.一、这种现象与增加网络深度和宽度有利于提高模型能力的证据背道而驰[14，33]。一个直观的推理是，这些更深更宽的网络架构主要是为图像分类任务而设计的，其中对象的精确定位并不重要。为了探讨其具体原因，我们分析了Siamese网络的结构，发现神经元感受野大小、网络步长和特征填充是影响跟踪精度的三个重要因素特别地，感受野确定用于计算特征的图像区域。较大的感受野提供较大的图像背景，而较小的感受野可能无法捕获目标对象的结构。网络步长影响定位精度的程度，特别是对于小尺寸的对象。同时，它控制了输出特征图的大小，影响了特征的可区分性和检测精度.此外，对于全卷积架构[2]，卷积的特征填充导致（美元）（）下一页（一））的方式（）下一页（）下一页#，美元/美元（一））'（（$100&）（一））'（）（$）！%$（）下一页美元/美元（）下一页% *（（#%）4592模型训练中的潜在位置偏差，使得当对象移动到搜索范围边界附近时，很难做出准确的预测。这三个因素一起阻止暹罗跟踪受益于当前更深入和更复杂的网络架构。在本文中，我们通过设计新的剩余模块和架构，让更深，更广泛的骨干网络释放他们的权力，在暹罗跟踪器解决这些问题。首先，我们提出了一组基于“瓶颈”残差块的裁剪内部残差（CIR）单元CIR单元在块内裁剪出受填充影响的特征（即，接收填充信号的特征），从而防止卷积滤波器学习位置偏差。其次，通过对CIR单元的堆叠，设计了两种网络体系结构，即深度网络和广度网络。在这些网络中，步长和神经元感受野被公式化以提高定位精度。最后，我们将设计的骨干网络应用于两个代表性的暹罗跟踪器：SiamFC[2]和SiamRPN [20]。实验表明，仅仅由于Siamese体系结构将图像对作为输入，包括样本图像z和候选搜索图像x。图像z表示感兴趣对象（例如，以第一视频帧中的目标对象为中心的图像块），而x通常较大并且表示后续视频帧中的搜索区域。两个输入都由参数为θ的ConvNet处理。这产生了两个特征图，它们互相关为fθ （ z ， x ） =fθ （ z ） fθ （ x ） +b·fθ（1）其中b·f θ表示在每个位置取值b∈R的偏置项当量1、做一个有意义的事情--在图像x上的图案z的主动搜索。目标是将响应映射f中的最大值与目标位置匹配。为了实现这一目标，使用从训练视频中获取的随机图像对（z，x）和对应的地面实况标签y来离线训练网络。ConvNet的参数θ通过最小化训练集上的以下逻辑损失获得：在所提出的网络结构中，暹罗跟踪器获得了高达9.8%/5.7%（AUC），23.3%/8.8%（EAO），argminθE（z，x，y）fθ（z，x））。（二）在OTB-15、VOT-16和VOT-17数据集上，相对于原始版本 [2 ， 20] 的相对改进分别为 24.4%/25.0%（EAO）。此外，设计的架构是轻量级的，并允许跟踪器以实时速度运行。这项工作的主要贡献是双重的。• 本文系统地研究了影响暹罗机器人跟踪精度的脊椎网络因素，并为暹罗机器人的结构设计提供了指导跟踪框架。• 我们为暹罗跟踪器设计了新的更深更广的网络架构，基于我们提出的无填充剩余单元。实验结果表明，新的体系结构提供了明显的改善，比基线跟踪器。代码和模型可在https://github.com/researchmm/SiamDW上获得。在本文的其余部分，我们首先回顾了背景下暹罗跟踪在SEC。二、这是随后的性能下降的分析在秒。3 .第三章。在分析的基础上，我们提出了新的剩余模块和网络架构。4.第一章实验和比较报告见第二节。五、最后，我们对相关工作进行了讨论，并在第二节中得出了结论。6和图72. 关于Siamese Tracking在分析性能下降的原因之前，如图所示。1，我们简要回顾了全卷积暹罗跟踪器SiamFC [2]，它作为本工作中讨论的基本框架。标准以前的方法[2，12，13，20，40，42]通常使用-将经典且相对较浅的AlexNet [18]作为该框架中的骨干网络。在我们的工作中，我们研究了如何设计和利用更先进的ConvNet学习器来学习有效的模型θ，从而增强跟踪鲁棒性和准确性的问题。3. 性能退化分析在本节中，我们将分析图中所示的性能下降的根本原因。1.一、我们对网络结构的内部因素进行了烧蚀实验然后，我们提出了一套实用的网络架构设计的指导方针，旨在减轻负面影响。3.1. 分析定量分析相性能下降可以直接归因于网络结构，因为它是图1的实验中唯一改变1.一、因此，我们首先确定这些网络架构之间的结构差异1.如Tab.所示。2，除了深度和宽度外，还有几个其他的网络内部因素在网络之间不同，包括步幅（STR），填充（PAD），最后一层神经元的感受野（ RF ）和输出特征大小（OFS）。为了研究这些因素的影响，我们进行了消融研究。我们修改了AlexNet，VGG，1请注意，网络结构与其原始版本略有不同[14，29，33]，其中网络步幅和填充根据SiamFC [2]进行了4593数量① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩RF1最大值（127）+24 +16 +8 ±0（87）±0-8-16+16 +16STR8 8 8 8 8 8 8 8 16 4OFS1 3 4 5 6 16 7 8 2 7垫✗ ✗ ✗ ✗ ✗ ✓ ✗ ✗ ✗ ✗亚历克斯0.56 0.57 0.60 0.610.55 0.59 0.58 0.55 0.59数量① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨RF+32 +16+8 ±0（91）±0-8-16 +16 +16STR8 8 8 8 8 8 8 16 4OFS1 3 4 5 16 6 7 2 6垫✗ ✗ ✗ ✗ ✓ ✗ ✗ ✗ ✗ResNet0.56 0.59 0.60 0.62 0.56 0.60 0.60 0.54 0.58Incep.20.58 0.60 0.61 0.63 0.58 0.62 0.61 0.56表1：AlexNet、VGG- 10、Incep.-上的网络内部因素分析22和ResNet-33。数字①-表示不同的版本，其中卷积核大小，下采样层和填充被修改以显示趋势。由于篇幅有限，有关修改的详细情况1为了更好地显示趋势，我们将±0表示为网络的原始RF大小+和-表示在原始值上增加和减少大小Max（127）表示最大有效RF，其与范例图像的大小相同，即 127 × 127像素。2对于Inception网络，其RF大小在一个范围内。这里我们只列出了理论上的最大大小，以便与ResNet进行比较。表2：不同网络的内部因素：网络最后一层神经元的感受野（RF）、步幅（STR）、输出特征大小（OFS）、填充（PAD）和宽度（W）。由于Inception在一个块中包含多个分支，因此其RF位于一个范围内Inception和ResNet，并揭示内部因素的影响。如Tab.所示1时，当网络步幅（STR）从4或8增加到16时，性能显著下降（100vs.③对比。在AlexNet和VGG上搜索。②对。Incep. ResNet）。这说明暹罗跟踪者更喜欢中级特征（步幅4或8），这在对象定位方面比高级特征（步幅）更精确≥16）。对于最大感受野大小，最佳值在一个较小的范围内。对于AlexNet来说，范围从87-22，其范围从91- 16（Incep. m）到91 + 8（Incep.③）像素。VGG-10和ResNet-17也表现出类似的现象。在这些情况下，最佳感受野大小是输入范例图像z大小的约60%至80%（例如，91对 127）。有趣的是，这个比率对于各种净资产来说都是稳健的。在我们的研究中起作用，它对它们的结构不敏感。这说明RF的大小对于Siamese框架中的特征嵌入至关重要其根本原因是RF决定了计算特征时使用的图像区域。一个大的感受野覆盖了大量的图像上下文，导致提取的特征对目标对象的空间位置不敏感。相反，小的一个可能不捕获对象的结构信息，因此它是用于匹配的较少区分。因此，只有在一定尺寸范围内的RF才允许特征提取物体的特征，其理想尺寸与样本图像的尺寸为输出特征尺寸，观察到小尺寸（OFS ≤3）不利于跟踪精度。这是因为，小微...真实地图缺乏对目标对象的空间结构描述，因此在图像相似性计算中不鲁棒。输入ResNet接口CIResNet-22输入ResNet接口 CIResNet-22图2：在模型中学习的位置偏差的可视化w/和w/o padding（选项卡中的 2 vs. 我们的）。（A）在图像中心呈现目标，而（B-D）显示它移动到边界，以使前一帧中的跟踪位置不精确。第如Tab中所示。1（相对于. 在AlexNet和VGG上搜索。Incep. 和ResNet），我们观察到网络填充对最终性能具有高度负面影响。为了进一步检验这一点，我们进行了定性实验。定性分析Siamese网络提供成对的样本和搜索图像作为训练数据，并学习用于匹配的特征嵌入。如果网络包含填充操作，则从原始样本图像加上附加（零）填充区域中提取样本图像的嵌入特征。相应地，对于搜索图像的特征，它们中的一些仅从图像内容本身提取，而一些从图像内容加上附加（零）填充区域（例如，边界附近的特征）。结果，在搜索图像中出现在不同位置处的目标对象的嵌入之间存在不一致性，并且因此匹配相似性比较劣化。图2呈现了测试阶段中的这种不一致性引起的效应的可视化示例。它表明，当目标对象移动到图像边界，其峰值并不精确地指示目标的位置。这是由跟踪器漂移引起的常见情况，当预测的目标位置在前一帧中不够精确时。3.2. 准则根据上述分析，我们总结了四个基本准则，以减轻网络架构中结构性因素的负面影响。• 暹罗追踪者喜欢相对较小的网络步幅。网络步幅影响感受野重叠率亚历克斯VGG-10Incep.- 16 Res.-17Incep.- 22 Res.-33RF8710323至183 22739至519 739STR888 816 16OFS6416 168 8垫✗✗✓ ✓✓ ✓W114 14 1AUC0.610.610.59 0.570.56 0.554594BNReLU此外conv1x1，p0，s1conv3x3，p1，s1conv1x1，p0，s1256-d in共计32个分支机构256，1x1，4 256，1x1，4BN，ReLUBN，ReLU4，3x3，4 4，3x3，4BN，ReLUBN，ReLU4，1x1，256 4，1x1，256BNBNBN此外ReLU裁剪：1：N-1256-d输出（d）CIR-NeXt4，1x1，2564，3x3，4256，1x1，4BNReLU此外conv1x1，p0，s1conv1x1，p0，s2作物1：N-1conv3x3，p1，s2conv1x1，p0，s1conv1x1，p0，s1conv3x3，p1，s1conv3x3，p1，s1conv1x1，p0，s1conv1x1，p0，s1conv1x1，p0，s1conv1x1，p0，s1BN，ReLUBN，ReLUBN此外ReLUBN，ReLUBN，ReLUBN，ReLUBN，ReLUBN此外ReLUBN，ReLUBN，ReLUBN孔卡特ReLUBN，ReLUBN，ReLUBN，ReLUBN，ReLU(a) 原始裁剪：1：N-1（a′）CIRMaxpoolS2(b) 原始（b′）CIR-D裁剪：1：N-1(c) CIR-初始图3：建议的裁剪内部剩余单元。（a）和（b）是原始残差单元和下采样单元，而（a′）和（b′）是我们提出的。（c）和（d）是拟议的广泛留守部队。灰色箭头表示方便信息传播的快捷路径，而蓝色框突出显示与原始单元的差异字母步，分别。（d）中的‘p’和‘s’的设置对于两个相邻的输出特征。从而决定了定位精度的基本程度。因此，当网络深度增加时，步长不应关于准确性和效率，经验上有效的选择是将步幅设置为4或8。• 输出特征的感受野应根据其与样本图像大小的比例进行设置对一个典型图像，有效率为60%~80%. 适当的比率允许网络提取一组每个特征捕获目标对象的不同空间部分的信息。这使得提取的特征在计算区域相似性时是鲁棒的特别地，最大RF不应大于样本图像，否则性能将显著下降。• 在设计网络结构时，应将网络步幅、感受野和输出特征大小作为一个整体来考虑。这三个因素并不独立-彼此之间，如果一个改变了，其他人也会随之改变。综合考虑它们可以帮助所设计的网络在一个连体框架中提取更多的判别• 对于一个完全卷积的Siamese匹配网络，处理两个网络流之间有两可行的解决方案。一种是去除网络中的填充操作，另一种是放大输入样本和搜索图像的大小，然后裁剪出受填充影响的特征。4. 更深更广的暹罗网络在本节中，我们设计了新的模块，即裁剪内部残差（CIR）单位，以消除潜在的位置偏差。然后，我们通过堆叠新的剩余模块来建立更深更广的骨干网络步幅和感受野大小根据指导方针得到很好的控制。我们进一步应用所设计的网络，两个有代表性的暹罗跟踪器，即。SiamFC [2]和SiamRPN [20]。4.1. 裁剪内部残差（CIR）单位残差单元[14]是网络体系结构设计中的一个关键模块，因为它易于优化和强大的表示能力。它由3个堆叠的卷积层和一个绕过它们的快捷连接组成，如图所示。第3（a）段。三层分别为1×1，3×3和1×1卷积层。解决方案，其中1×1层负责减少然后恢复维度，留下3×3层作为具有较小输入和输出维度的瓶颈。这瓶颈卷积包括大小为1的零填充，以确保在加法之前的兼容输出大小。CIR股。如第3，网络填充可能在连体框架中引入位置偏差。因此，当利用剩余单元构建连体网络时，有必要去除剩余单元中的填充为此，我们使用裁剪操作来增强残差单元，其在特征添加之后被并入，如图1A所示。3（a ′）.裁剪操作移除其计算受零填充信号影响的特征。由于瓶颈层中的填充大小为1，因此仅裁剪出特征图边界上的最外层特征。这个简单的操作巧妙地去除了残留单元中受填充影响的特征。下采样CIR（CIR-D）单元。下采样残差单元是网络设计的另一个关键构建块。它被用来减少空间大小的特征图，同时加倍的数量的特征通道。类似对于残差单元，下采样单元还包含填充操作，如图2所示。3（b）款。因此，我们也修改了它的结构，以消除由填充引起的负面影响。如图3（b ′），我们在瓶颈层和捷径连接内将卷积步长从2改变为1。在添加操作之后再次插入裁剪以移除受填充影响的特征。最后，采用最大池化来执行特征图的空间下采样。这些修改的关键思想是确保仅去除受填充影响的特征，同时保持固有块结构不变。如果我们仅在加法操作之后插入裁剪，如在所提出的CIR单元中所做的，而不改变下采样的位置，则在下采样的位置处将不改变下采样的位置。conv1x1，p0，s1conv1x1，p0，s1conv1x1，p0，s1conv3x3，p1，s14595表3：用于连体跟踪器的设计骨干网络的架构。CIR-D单元用于“conv 3”阶段的第一个区块裁剪后的特征将不会从输入图像中的最外面的像素接收任何信号。随着网络深度的增加，这将有效地导致更多的图像内容被移除，从而导致噪声/不完整的提取特征。CIR-Inception和CIR-NeXt单元。我们还为CIR单元配备了多分支结构，使其能够用于构建广泛的网络。类似于Inception [33]和ResNeXt [39]，我们使用多个特征变换来扩展CIR单元，生成CIR-Inception和CIR-NeXt模块，如图所示。3（c-d）。具体来说，在CIR-Inception结构中，我们插入一个1×1卷积，添加到快捷连接中，并合并要素两个分支的连接，而不是通过加法。在CIR-ResNeXt中，我们将瓶颈层拆分为32个转换分支，并通过加法聚合它们。此外，对于CIR-Inception和CIR-NeXt的下采样单元，修改与CIR-D中的修改相同（图1B）。3（b ′）），其中卷积步幅被减小并且最大池化被添加。这两个多分支结构使单元能够学习更丰富的特征表示。4.2. 网络架构通过堆叠上述CIR单元，我们建立了更深更广的网络。这些建筑物是按照我们的设计指导方针建造的.首先，我们确定网络步幅。步长为8的网络用于构建3级网络，而步长为4的网络用于构建2级网络。然后，我们堆叠CIR单位。我们控制每个阶段中的单元数量和下采样单元的位置。目标是确保最后一层中神经元的感受野大小位于导出范围内，即样本图像的60%-80%。此外，当网络深度增加时，接收场可能会超过这个范围。因此，我们将步幅减半为4，以控制感受野。更深层次的网络。我们使用CIR和CIR-D单元构建更深层次的网络。这些结构类似于ResNet [14]，但具有不同的网络步幅，感受野大小和构建块。在选项卡中。3、我们提出四个深裁剪内部剩余网络，即CIResNet-16、19、22和43。由于这些网络具有相似的结构，我们仅提供其中两个的详细信息：CIResNet-22和CIResNet-43。CIResNet-22具有3个阶段（stride=8）并且由22个加权卷积层组成。除第一个7×7卷积外，其余均为CIR单元.裁剪操作（大小为2）遵循7×7卷积，以删除受填充影响的特征。中的要素降采样前两个阶段由卷积和步幅2的最大池化执行，遵循原始ResNet [14]。在第三阶段中，由所提出的CIR-D单元执行下采样，该CIR-D单元位于该阶段中的第一块（总共4当特征图尺寸被下采样时，过滤器的数量被加倍以增加特征可辨别性。输出特征图的空间大小为5×5，每个特征接收来自输入图像平面上的大小为93×93像素，即正确的-感受野的大小。在构建CIResNet-43时，我们进一步将网络深度增加到43层。由于其深度大，CIResNet-43设计为只有2个阶段，以保持其感受野大小在建议范围内。在CIResNet-43的第二级中，有14个块，其中第四个具有用于特征下采样的CIR-D单元。值得注意的是，CIResNet-43几乎达到了骨干网络的最大深度，可以在SiamFC [2]框架。它有6.07G的浮点运算（乘加）和运行在 SiamFC 帧的平均每秒 1035 帧的 GeForce GTX1080GPU的工作。更广泛的网络。我们构建了两种类型的宽网络架构，分别使用CIR-Inception和CIR-NeXt单元。在这里，我们仅以22层结构为例，因为其他更广泛的网络与这种情况类似。如表所示3、广泛的网络，即CIResInception-22和CIResNeXt-22，在网络步长、构建块数目和输出特征大小方面与CIResNet-22具有相似的结构。但网络阶段CIResNet-16CIResNet-19CIResNet-22CIResInception-22CIResNeXt-22CIResNet-43conv17×7，64，步幅2conv22×2最大池，步幅21× 1，643× 3， 641× 1，2561× 1，643× 3， 641× 1，2561× 1，643× 3， 641× 1，2561× 1，643× 3， 641× 1，2561× 1，643× 3， 641× 1，256[1×1，64]×31× 1，643× 3， 64，C= 321× 1，256conv31× 1，1283× 3， 1281× 1，5121× 1，1283× 3， 1281× 1，5121× 1，1283× 3， 1281× 1，5121× 1，1283× 3， 1281× 1，512[1×1，128]×41× 1，1283× 3，128，C= 321× 1，512互相关方程1射频数量77859313∼ 9393105#OFS765556#参数1.304百万1.374百万1.445百万1.695百万1.417百万1.010百万浮点数2·43g2·55g2·65g2·71g2·52g6.07 G4596通过多分支构建块，宽度分别增加了2倍和32此外，感受野大小变得多样化（即，CIResInception- 22中的最大值（13 93），但由于多分支级联，仍在建议范围内。4.3. 应用我们将设计的更深更宽的网络应用于两个代表性的暹罗跟踪器：经典的 SiamFC [2] 和最近提出的SiamRPN [20]。在这两个跟踪器中，我们替换了原始的浅背骨，即。5层AlexNet [18]，我们设计的网络，这是对原始框架的唯一修改。5. 实验本节介绍了我们在多个基准数据集上更深入和更广泛的Siamese网络的结果，并与最先进的跟踪算法进行了比较。消融研究也提供了建议的网络中的组件的影响进行分析。5.1. 实验细节训练我们的网络的参数是用ImageNet上预先训练的权重初始化的[28]。在训练过程中，我们冻结第一个7×7卷积层的权重，并从后面到前面。我们解冻每个块中的层的权重（即建议的裁剪内部剩余单元）。总共有50个历元，与[2，20]相同。SiamFC和SiamRPN的学习率分别从10−3/10−2对数下降到10−7/10−5。权重衰减设置为10−4，动量设置为0。9（SiamFC和SiamRPN）。我们在4个GPU上使用同步SGD [19]，每个GPU托管32个图像，因此每次迭代的小批量大小为128个图像。SiamFC的训练图像对是从ImageNet VID数据集[28]中收集的，而 SiamRPN 是从 ImageNet VID [28] 和Youtube-BB [27]中生成的，这与原始框架[2]中的训练图像对相同，20]。示例图像的大小为127×127像素，而搜索图像的大小为255×255像素。试验. 跟踪遵循与SiamFC [2]和SiamRPN [20]中相同的协议。在第一帧处计算一次目标对象的嵌入 θ（z），然后连续地匹配到后续搜索图像θ（x）。为了处理尺度变化，SiamFC在三个尺度上搜索对象1。0482{-1，0，1}，并通过系数为0的线性插值来更新比例。3629提供阻尼。SiamRPN仅在一个尺度上搜索，因为它采用建议细化来处理尺度变化。对提案尺寸和长宽比的较大变化的惩罚是OTB（AUC）VOT-17（EAO）FPS骨干SiamFCSiamRPNSiamFCSiamRPN暹罗足球会AlexNet 0.608[2] 0.637[20] 0.188[17] 0.244[20]101[2] 190[20]CIResNet-160.6320.6510.2020.26075160CIResNet-190.6400.6600.2250.27973155CIResNet-220.6620.6620.2340.30170150CIResIncep.- 220.6660.6730.2150.29667145CIResNeXt-220.6540.6600.2300.28572155CIResNet-430.6380.6520.2070.2653575表4：我们的网络架构在SiamFC和SiamRPN中的性能。与报告的原始结果进行比较在[2，17，20]中，SiamFC在OTB-2013和VOT-17上进行了评价，而SiamRPN在OTB-2015和VOT-17上进行了评价。速度（FPS）是在GeForce GTX 1080GPU上测量的。图4：VOT-15、16和17的预期平均重叠（EAO）图。列出的方法，如 EBT[41] ， LDP[24] ， nSAMF[22] ， TCNN[25] ，MLDF[36]，CFMCR [36]和CFCF[11]在VOT挑战中进行比较[9，16，17]。设置为0。四百三十九我们的网络和跟踪器使用Python 3实现。PyTorch0。3 .第三章。1.一、实验是在一台配有GeForce GTX1080 GPU和Xeon E5 2.4GHz CPU的PC上进行的5.2. 与基线的我们首先将我们更深更广的网络与 SiamFC 和SiamRPN框架中的基准AlexNet进行如表所示。4、在OTB-13、OTB-15和VOT-17数据集上，我们提出的网络性能优于基准 AlexNet 。特别是配备 CIResNet 的SiamFC22骨干网获得9. 8%（AUC）和24. 在OTB-2015和VOT-17上分别比原始AlexNet高4%（EAO）。与此同时，配备CIResNet- 22的SiamRPN实现了4. 4%和23。3%的相对收益。4597表5：五个跟踪基准的性能比较。红色、绿色和蓝色字体分别。跟踪器年OTB-2013OTB-2015VOT15VOT16VOT17AUC预处理AUC预处理一REAO一REAO一REAOSRDCF [5]20150.630.840.600.800.561.240.290.540.420.250.490.970.12SINT [34]20160.640.85--------缝钉[1]20160.600.800.580.780.571.390.300.540.380.300.520.690.17SiamFC [2]20160.610.810.580.770.530.880.290.530.460.240.500.590.19ECO-HC [4]20170.650.870.640.86---0.540.30.320.490.440.24PTAV [8]20170.660.890.640.85---------DSiam [12]20170.640.81-----------CFNet [35]20170.610.800.590.78---------StructSiam [40]20180.640.880.620.85-----0.26---[7]20180.620.820.590.78--------0.20SiamRPN [20]2018--0.640.850.581.130.350.560.260.340.490.460.24SiamFC+我们0.670.880.640.850.57-0.310.540.380.300.500.490.23SiamRPN+我们0.670.920.670.900.59-0.380.580.240.370.520.410.30这验证了我们设计的架构解决了图中所示的性能下降问题。1.一、此外，它显示了我们提出的CIR单位的有效性，为连体网络。值得注意的是，当CIResNets在-表6：SiamFC上残留装置与CIR装置的消融。CIResNet-20CIResNet-22 CIResIncep.- 22Res. 单元0.2040.2130.227CIR单元0.2710.3010.282表7：SiamFC中使用的不同下采样设置下的消融。解释见正文折痕从16层增加到22层，性能得到了提高。CIResNet-20CIResNet-22 CIResIncep.- 22相应地。但是当增加到43层时，CIResNet设置10.2640.2920.266而不是获得更多的收益。主要有两个原因。1）The设置20.2590.2870.275网络步幅被改变为4，使得重叠被-CIR-D0.2710.3010.282两个相邻特征的感受野之间的差异很大。因此，它在目标定位方面不如步长为8的网络精确。2)输出特征通道的数量减半，相比其他网络在标签。3（即256vs.512通道）。总体参数大小也较小。这两个原因一起限制了CIResNet-43的性能。此外，更广泛的网络也为暹罗追踪者带来了收益。虽然CIResNeXt-22包含更多的转换分支，但其模型大小较小（请参见表1）。（3）第三章。因此，其性能不如CIResIncep。22和CIResNet-22。5.3. 与最先进的跟踪器的我们进一步比较我们的增强型暹罗跟踪器的国家的最先进的跟踪算法。我们选择了一些目前表现最好的跟踪器，以及其他最近的暹罗跟踪器进行比较。我们的增强型跟踪器采用性能最佳的CIResNet-22作为骨架，并且表示为SiamFC+和SiamRPN+。对五个数据集进行比较： OTB-2013、 OTB-2015、 VOT15、VOT 16和VOT 17。OTB 基准。对 OTB-2013 和 OTB-2015 的评估遵循[37，38]中提出的标准方案。两个度量，即成功图的精确度和曲线下面积结果报告在表中。五、这表明我们的SiamFC+和SiamRPN+优于其他Siamese跟踪器，例如最近提出的StructSiam [40]和TriSiam [7]。这证明了我们设计的架构的有效性此外，与其他最先进的算法（如ECO-HC [4]和CFNet [35]）相比，我们的跟踪器在精度和速度方面仍然优越。VOT基准。 VOT基准测试的评价由官方工具包执行[17]，其中准确性(A)鲁棒性（R）和期望平均重叠（EAO）用作度量。VOT-15 我们将我们的SiamFC+和SiamRPN+与最先进的追踪器在vot-2015挑战赛中进行了比较。结果报告于图1中。4（顶部）。我们的SiamRPN+实现了最佳结果，略优于MDNet [26]。此外，SiamRPN+运行速度比MDNet快得多，后者运行速度更快。以每秒1001帧的速度生成。与基线相比，即SiamFC和SiamRPN是我们更深入的网络增强型跟踪器，tain 8. 8%和8。9%的相对改善。VOT-16 VOT-16中的视频序列与VOT-15中的视频序列相同，但是地面实况边界框被精确地重新注释。我们将我们的追踪器与挑战中的前10名追踪器进行比较。如图4（mid-dle），SiamRPN+在EAO方面排名第一。它超过了2016年挑战赛的冠军CCOT [ 6 ] 3。9分，以及最近的VITAL [31] 4。七分。此外，SiamFC+也在基线上以较大幅度改善，即六、0点EAO。VOT-17 图4（底部）显示了与2017年挑战中的跟踪器的比较。我们的SiamRPN+实现了3的EAO。01，略逊于性能最佳的LSART跟踪器[32]。然而，SiamRPN+的运行速度为150fps，比LSART快150倍。与实时跟踪器相比，SiamRPN+在准确性和鲁棒性。令人惊讶的是，即使是普通的SiamFC+也超过了2017年CSRDCF++的实时跟踪器冠军[23] 2。2分。这进一步验证了我们为暹罗跟踪器设计的更深层次网络架构的有效性。45985.4. 消融研究在选项卡中。6-8，我们评估了我们设计的网络中不同因素对VOT-16数据集的影响。带与不带CIR装置。裁剪内部剩余单元是我们的网络架构中的关键组成部分。为了评估其影响，我们将其替换为网络中的原始残差单元[14]。如Tab.所示。6，这种替换导致显著的性能下降，例如，8的降解。从0分到8分301比0 213在CIResNet上。二十二岁它清楚地验证了填充去除在CIR单元，它基本上消除了学习中的位置偏差。图2中CIResNet-22的预测热图也证明了这一点。带与不带CIR-D装置。我们比较了网络中三种不同的下采样设置：1）直接使用原始下采样残差单元，即图3（b），2）在下采样残差单元中的加法之后插入裁剪操作，以及3）所提出的CIR-D单元，即图3（b′）。选项卡. 第七，展示成果。它表明前两个设置相当，但不如第三个。这表明我们的CIR-D单元是有效的。特别地，在第二设置中引入的裁剪没有带来改进，因为它去除了内部特征的部分（即，而不是受填充影响的特征），从而导致来自原始输入的信息丢失。感受野、特征大小和步幅的影响我们调整这些因素的大小，并显示其对最终性能的影响。具体来说，我们改变最后一个裁剪内部残差块中的卷积核大小，以改变感受野和输出特征的大小以CIResNet-22为例，我们将内核大小从1变为6，这将导致特征大小从7变为2。为了改变网络的步幅，我们在网络中用CIR-D单元替换一个CIR单元。选项卡. 8显示结果。我们可以观察到，当RF变大时，性能显著下降（即，从表1中的“0”到表1中的“①”（八）。其根本原因是大的RF覆盖了很多图像上下文，导致提取的特征对空间位置不敏感的目标对象。对于输出特征，观察到小尺寸（OFS≤3）不利于准确性。此外，大的网络步幅，即16，不像中等大小的那样精确，即8.这些结果与我们在本文开头提出的分析和指导方针相呼应.6. 讨论网络架构。本文所讨论的问题可以看作是网络体系结构设计的一个子任务，它主要从两个方面展开：使网络更深[29，14]或更宽[33，39]。为了使网络更深入，ResNets [14]引入了一种身份映射，使训练超深度网络成为可能。为了使网络更广泛，GoogLeNet [33]及其后代采用了表8：网络内部因素分析。数量①②③④⑤⑥⑦⑧RF+24+16+8±0（93）-8-16+16 +16OFS23456762STR888888416CIResNet-160.220.23 0.240.260.25 0.24 0.23 0.20CIResNet-190.230.26 0.260.280.27 0.26 0.24 0.21CIResNet-220.250.27 0.280.300.29 0.27 0.26 0.23CIResIncep.- 220.240.26 0.270.280.27 0.26 0.25 0.22一个Inception模块，用于引入多个特征转换，从而增强模型表示能力。我们的工作利用这些深和广泛的网络架构，并修改它们，以有效地适应暹罗网络。提出了连体龙骨设计的两个关键原则一种是去除网络结构中的填充操作，另一种是控制感受野大小和网络步长。

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

更深更宽的连体网络用于实时视觉跟踪

Python-更深入更广泛的Siamese网络实时视觉跟踪

卡尔曼滤波视觉跟踪 matlab

视觉跟踪技术的科学问题

仿真环境 yolo视觉跟踪

opencv实现视觉目标跟踪

计算机视觉目标跟踪看法

计算机视觉目标跟踪分析

视觉目标检测与跟踪pdf

用于计算机视觉的transformer

opencv机器人视觉跟踪

深度收缩残差网络有那些

图神经网络和计算机视觉

波门跟踪算法图像处理实现的重要性

E-I平衡网络在计算机视觉的应用

树莓派视觉小车人脸跟踪介绍

计算机视觉在aigc

计算机视觉与神经网络

基于YOLO的双目视觉跟踪小车

深度学习卷积神经网络应用于手势跟踪系统

离散余弦变换用于计算机视觉

最新资源