没有合适的资源?快使用搜索试试~ 我知道了~
2528SMART ADAPT:一种面向移动视频的Ran Xu1,Fangzhou Mu2,Jaynan Lee1,PreetiMukherjee1,Somali Chaterji1,Saurabh Bagchi1,YinLi21普渡大学2威斯康星大学麦迪逊分校1 2{xu943,lee3716,mukher57,schaterji,sbagchi}@ purdue.edu{fmu2,yin.liwisc.edu}@www.example.com摘要最近的几项工作试图创建用于移动设备上的视频对象检测的轻量级深度我们观察到,许多现有的检测器,以前认为计算昂贵的手机,本质上支持自适应推理,并提供一个多分支对象检测框架(MBODF)。在这里,MBODF被称为具有许多执行分支的解决方案,并且可以在推理时动态地从其中进行选择,以满足不同的延迟要求(例如,通过改变输入帧的分辨率)。在本文中,我们问,并回答,在所有MBODF广泛的问题:如何暴露正确的执行分支集,然后如何调度最佳的推理时间?此外,我们揭示了在运行哪个分支时做出内容感知决策的重要性,因为最佳决策取决于视频内容。最后,我们探讨了一个内容感知的调度器,一个Oracle的,然后一个实用的,封装各种轻量级的功能提取器。我们的评估表明,在基于Faster R-CNN的MBODF上分层,符合7个基线,我们的S MART A DAPT在ILSVRC VID数据集的准确性与延迟空间中实现了更高的帕累托最优曲线。1. 介绍目标检测可以说是计算机视觉中的核心问题之一。在过去的几年里,基于深度学习的物体检测器取得了很大进展。尽管这些模型在标准基准点上的准确性令人印象深刻,但它们的复杂性和计算成本是有代价的。这对在具有严格延迟要求的资源受限设置下部署这些模型施加了主要障碍最近的几项工作试图通过在移动设备上设计轻型模型来解决这一挑战[11,14,35,44,58],特别是ular,用于视频对象检测[6,21,22,24]。人们普遍认为,针对准确性进行了优化的物体检测器,例如具有ResNet-50主干的Faster R-CNN,对于移动视觉来说过于昂贵。实际上,针对准确性进行优化的检测器相当复杂,通常使用不同的输入分辨率进行训练,并配备多个阶段(例如,提案生成)。 这些探测器可以在推理时适应不同的设置,这也许并不奇怪。考虑更快的R-CNN[30]的例子,人们可以降低输入分辨率或降低延迟的建议数量,同时仍然保持合理的准确性。可调参数的选 择 的 这 种 组 合 将 构 成 多 分 支 对 象 检 测 框 架(MBODF)。使用特定输入分辨率和特定数量的建议的更快的R-CNN检测器可以被认为是一个执行分支。我们的关键观察是,如果允许在推理时从大量细粒度的expliction分支中进行选择,则可以显着提高检测精度和延迟(参见图1)。因此,关键的研究问题是:如何在现有的对象检测器中暴露正确的执行分支集,然后如何在推理时调度最佳分支?一个理想的调度器不仅要考虑模型中的分支及其属性(准确性和延迟),还要考虑输入内容。例如,如果输入视频仅包含较大的对象,则对检测器使用较低的输入分辨率就足够了。另一个例子是,如果视频内容大部分保持静止,则使用然而,这种调度器的设计对于流视频是具有挑战性的。这是因为调度程序必须“预测”潜在的本文针对移动设备上流媒体视频对象检测这一具有挑战性和实用性的任务,提出了一种简单的自适应对象检测方法。我们的主要创新是利用标准的现有对象检测器(Faster R-CNN、EfficientDet、SSD、YOLO)来控制2529构造用于自适应视频对象检测MBODF。MBODF结合了对象检测器和对象跟踪器,并提供了许多执行选择(分支)。我们证明,尽管我们的方法简单,但可以适应移动GPU设备上的广泛延迟要求,范围从10到50 FPS-NVIDIA Jetson TX 2(广泛用于嵌入式/移动视觉基准测试的设备[19,33,41,43]),只有轻微的准确性损失。例如,我们的方法在TX2上以流模式以20 FPS运 行 时 , 在 大 规 模 数 据 集 上 实 现 了 70% 的 mAP(ImageNet视频对象检测基准)。相比之下,性能最好的检测器MEGA [5]支持流媒体视频,其mAP为75.4%,并且仅以1.2 FPS运行。此外,SMAR-T ADAPT实现了比我们先前的多分支算法[17]高20.9%至23.6%的mAP,给出了对流延迟的相同约束(每帧33-100毫秒)(图6,FR+MB vs.FastAdapt)。接下来,我们揭示了对运行哪个分支做出内容感知决策的重要性,因为最佳分支取决于视频内容。我们探索了一个内容感知调度器-Oracle的,然后是一个实用的,它使用各种轻量级的功能提取器,以适应(在运行时)的内容。我们表明,我们的内容感知的Oracle调度器实现了6.6%-8.3%的mAP比内容不可知的(表3,FR+MB+Oracle与。FR+MB)。使用我们的现实内容感知调度器(CAS),增益更温和,尽管仍然存在,范围从0.1%-2.3% mAP(表3,FR+MB+CAS与FR+MB,FastAdapt+CAS与FastAdapt)。SMART ADAPT的优势在于协同使用了一组精心设计的功能,这些功能既具有低计算开销又具有高准确性,并使用MBODF公开了一组细粒度的分支。因此,我们的贡献可以概括为:1. 我们指出,现代检测器本质上是自适应的,并且可以重新用作MBODF,使用一组(单独)证明的自适应属性,在推理时实现不同的延迟和准确性权衡。2. 不 同 于 以 往 的 解 决 方 案 [6 , 54 其 结 果 是 SMARTADAPT,它结合了一组旋钮(例如,输入分辨率和提议的数量),并以细粒度的方式调整这些旋钮的范围和步长。S MARTDAPT可在移动终端上部署现有检测器,以满足各种延迟要求,同时精度下降较小3. 我们表明,一个MBODF可以实现显着的性能增益时,执行分支的选择是最佳的输入内容的条件(例如。物体的大小和速度)。我们还采取了探索性的一步,向实际的内容感知自适应对象检测。2. 相关工作高效的目标检测模型。 在功率有限的嵌入式或移动设备上,效率至关重要。许多解决方案设计更有效网络体 系 结 构 ( 例 如 , [11 , 12 , 18 , 32 , 36 , 44 ,58]),导致为移动设备定制的对象检测器,例如SSDLite[32] , SqueezeDet[45] , Pelee[42] ,EfficientDet [37]和Mo-bileDet [49]。最近的几项工作探索了时间恢复以加速移动设备上的视频对象检测,通过融合来自附近帧的特征[21]或使用允许卷积在稀疏位置集上运行的门控函数[10]。虽然这些方法可以有效地降低FLOPS方面的计算成本,但它们很少在移动GPU上进行评估。此外,FLOP的减少并不总是转化为延迟的减少[10,35]。另一个研究流是通过“检测跟踪”方案将昂贵的目标检测模块与相对便宜的目标跟踪器模块相结合我们的方法还建立在“检测跟踪”的基础上图像识别的自适应推理。这些模型利用输入图像的内容特征,并根据这些特征做出执行决策。上一页我们的作品集成了几个子网络[16,40],或设计了一个具有多个出口的网络[15,38,51],或在推理时选择输入分辨率[55]。然而,这些工作仅限于在一维和窄范围内的适应,并且没有通过摄取可用于对象检测流水线的丰富的输入特征集来优化执行选择。此外,他们不考虑视频识别。视频识别的自适应推理。 与图像不同,视频在相邻帧之间表现出固有的时间冗余。最近的几个作品利用这种重新定义来进行有效的视频分类。这些努力包括设计有效的3D网络[7,34,39],动态选择输入帧或中间特征分辨率[25,47],跳过冗余帧[9,48],重用先前帧的特征[26],或探索高维参数空间中的调度策略[50,52这些努力极大地解决了移动和物联网系统中的挑战[1]。只有少数以前的作品考虑自适应视频对象检测,这是从根本上不同于视频分类。这些作品包括ST-Lattice[4],AdaScale [6],Skip-Conv [10],以及我们以前的ApproxDet [54]和FastAdapt [17]。在这些工作中,ST-Lattice [4]不是为移动视觉设计的。AdaS-cale [6]和Skip-Conv [10]无法实现延迟和准确性之间的显式权衡。SMART ADAPT、ApproxDet和FastAdapt之间的主要区别在于能够切换到多个细粒度执行分支2530使用内容感知调度器。3. SMART ADAPT:方法与设计我们的目标是在严格的延迟约束下(例如,33毫秒)。我们现在介绍我们的解决方案设计并描述我们的技术。3.1. 多分支目标检测框架通过检测进行跟踪。这是我们的出发点,以显著降低目标检测模型的延迟,同时略微降低准确性。严格地说,我们将帧组(GoF)定义为流视频中的di(检测间隔)连续帧的序列,其中我们运行对象检测器(例如,更快的R-CNN,EfficientDet,YOLO),在第一帧上,并运行对象跟踪器(例如。Me-dianFlow、KCF)对剩余的帧。在流媒体场景中,当我们逐帧处理视频时,对象检测器可以在没有先决条件的情况下在任何帧上运行,而对象跟踪器取决于检测结果,无论是来自检测器还是来自前一个视频帧上的跟踪器。考虑到我们在更快的R-CNN对象检测器(PyTorch [27]中,具有移动GPU)和Medi-anFlow对象跟踪器(OpenCV [3]中,具有移动CPU)上的实现,跟踪器的运行速度快了114倍,提高了效率。在推理时间调整旋钮。为了进一步提高效率和避免大的精度降低,我们设计了调谐旋钮,这种跟踪检测方案。我们的设计在五个独立的维度上探索了准确性-延迟的权衡:(1)检测器间隔(di),控制对象检测器被触发的频率,(2)检测器的输入分辨率(rd),控制馈送到对象检测器中的调整大小后的图像的形状,(3)建议数(nprop),控制区域建议的最大数量。从更快的R-CNN检测器的RPN模块获得,(4)对象跟踪器的输入分辨率(rt),控制馈送到对象跟踪器中的调整大小的图像的形状,以及(5)跟踪的置信度阈值(ct),控制置信度上的最小阈值。图1.一个5-旋钮MBODF和一个2-旋钮子框架的精度比较(输入分辨率,建议数).图1显示了2-旋钮54-分支、5-旋钮368-分支和5-旋钮3,942-分支MBODF之间的准确度比较,其中Pareto最优曲线上的每个点代表ILSVRC VID数据集上单个分支的 准 确 度 和 延 迟 性 能 。 5- 旋 钮 MBODF 比 2- 旋 钮MBODF(rd和nprop)更有效。它实现了6.1倍的加速,仅减少了2.41%的mAP,相比之下,3.0倍的加速,减少了2.37%的mAP在2旋钮MBODF。相比之下,具有10倍多分支(3,942)的5-旋钮MBODF仅略优于具有分支子集的MBODF(368)在等待时间约束的任何给定值处。这种降低的准确性改进的根本原因是在选择以视频内容为条件的执行分支时缺乏智慧。换句话说,如果只在整个数据集上应用单个静态分支,而没有更细粒度的内容揭示(如图3所示),则无法从更大规模的MBODF中获益。3.2. 分支选择问题调度程序是MBODF中的一个关键组件,它根据某些 标 准 决 定 哪 个 分 支 是 最 佳 运 行 分 支 。考 虑MBODF,m=| M|在 -依赖的扩张分支b∈{b1,b2,.,bm},能够完成流式视频,我们使用分支的延迟作为约束,并最大限度地提高其准确性作为优化目标:对象的dence分数,低于该分数的对象不由跟踪器跟踪并输出。多旋钮设计导致组合配置空间,因为我们可以调整b选择=argmaxa(b,X),s. t.l(b,X)≤l0,(1)B每个旋钮独立地且以不同的步长。这允许广泛的适应,是关键的SMAR-TADAPTMBODF。我们命名的多旋钮跟踪检测方案,与每个旋钮的范围和步长,多分支对象检测框架(MBODF)。MBODF中的执行分支是值的实例每个旋钮。请注意,不是配置空间中的每个分支都有效,例如。对于在每个帧(di= 1)上运行对象检测器的分支,RT和CT旋钮(其专用于对象跟踪器)是不相关的。其中,X1表示输入视频帧,在一个平均值上的每个帧的十个cy约束,以及a(b,Xx)l(b,X)表示分支的准确度和潜伏度B.图2显示了SMART ADAPT的工作流程,其中调度程序将视频帧作为输入,并确定MBODF中的执行分支运行。在调度程序中,工作流如下:(1)提取内容特征,(2)用内容感知准确度预测器预测准确度,然后(3)使用分支选择器来选择最佳分支。特别地,给定MBODF中的检测跟踪方案,其中GoF2531图2. SMART ADAPT的工作流程。是调度的单位,X与Go F有关。在流式传输场景中,调度器应当能够在流式传输视频中的ny帧xt处做出决定,其中Xy是从帧xt开始的GoF。由于最佳分支选择以当前帧和几个未来帧1为条件,因此可以使用内容感知的分支选择。图3.针对具有不同内容特征的三个所选视频片段和整个数据集的帕累托最优分支。图4.内容感知调度的上界性能,即。先知调度器利用这样的GoF中的内容特性来最大化准确性。相比之下,内容不可知的调度器考虑跨整个数据集的不同分支的平均准确性,这丢失了片段级视频特征的细微差别。在图3中,我们显示了三个随机选择的具有不同内容特征的视频片段的Pareto最优分支,以及输入X x的整个数据集的分支。我们发现,准确的潜在边界在片段之间变化很大,并且与整个数据集的“平均值”不同这促使使用内容感知调度器来识别视频对象检测流水线的前分支。根据我们的研究,MBODF中83.4%的分支在任何延迟要求下对于至少一个视频片段是最准确的。在来自ILSVRC VID数据集的1,256个视频片段的数据集中,我们发现627个独特的准确性-延迟边界分支集。因此,我们得出结论,重要的是确定给定视频片段的最佳分支,而不是使用整个数据集的单个分支。后一种方法在一些先前的工作中也有好处,通过使用内容不可知的调度器[17]或使多个子模型能够从[55,56]中选择来解决。3.3. 内容感知型Oracle服务器我们定义了一个完美的内容感知的MBODFM的“Oracle”调度程序的调度程序。这样的调度程序选择最佳的分支b选择执行。准确度-Oracle调度程序的延迟性能确定了内容感知调度程序的性能上限,这是迄今为止尚未确定的。为了实现Oracle调度器,我们授予它三个不实际的权力-(1)它可以访问GoF中的未来帧,(2)它具有对象的注释以计算地面真实准确度a(b,f(X)),从而不执行预测,(3)它详尽地测试所有可用的分支并选择最准确的分支,服从延迟约束。图4显示了Oracle调度程序在两个5-knob MBODF实例上的性能,分别有3,942和368(子集)个分支,并进行了比较1在MBODF中,GoF的大小通常在1到100之间。与内容无关的调度程序,它为整个数据集选择一个静态分支。我们观察到,Or- acle调度器在10,20,30和50 FPS(移动设备上的四个典型延迟约束)下的368分支MBODF中有3.2%至4.6%的mAP改进。这与368个分支的基线有关。有趣的是,Oracle调度程序的mAP改进对于3,942个分支的MBODF来说更高,为6.6%-8.3%,而上面提到的是3.2%-4.6%(对于368个分支的MBODF)。相比之下,这种大规模的MBODF在内容不可知的设置中没有好处。大的间隙促使内容感知调度器可以适应大而细粒度的旋钮范围。3.4. 设计内容感知型浏览器(CAS)Our goal is to design a light-weight scheduler to de-termine the content-specific execution branches on-the-fly,bereft of the impractical powers that we granted to the Or-acle.如等式2 suggests, the branch selector in the sched-uler requires a latency predictor and an accuracy predictorto solve the optimization.前者已经在我们之前的工作[54]中通过每个执行分支上的资源争用传感器和内容感知延迟预测器在这项工作中,我们专注于设计一个基于简单内容特征的内容感知准确度预测器内容特征提取器。内容特征提取器旨在建立从帧表示X到其特征表示的映射f(·),因为帧表示它有太多的冗余。内容特征提取器被期望是有区别的,使得其携带的特征值可以用于预测每个执行分支的内容特定的准确性。 然后,准确预测模型旨在建立一个映射a(·)从特征表示f(X)到给定执行分支b的精度。因此,调度器模型可以公式化如下:bopt=argmaxa(b,f(X)),s. t.l(b,X∈)≤l0.(二)B一个设计良好的内容特征提取器应该具有内容特征丰富、区分度高、计算量小等特点。表1总结了我们的内容特性、规格和描述的列表。我们从2532表1. S MART A DAPT的内容感知调度程序中的特征提取器。一些轻的特征不需要提取成本,即,视频帧的高度和宽度、对象的数量以及对象的平均尺寸。然后,我们选择了两个传统的视觉特征-直方图的颜色(HoC)和直方图的有向分量(HOG)的字符化的颜色和梯度信息。由于对象检测器本身是一个具有中间特征的神经网络,我们从Faster R-CNN主干的特征提取器头之后的层中平均池一个,即。ResNet-50,一个来自对象类的预测logits。这两个特征是有吸引力的,因为它们不产生额外的计算成本,但编码视频中的对象信息。最后,我们建议使用广泛使用的基于DNN的特征提取器MobileNetV2 [32]。它在计算成本方面是轻量级的,并且可以与下游内容感知准确度预测器联合训练。自然地,在推理时,调度器必须在MBODF之前运行由于视频帧中的时间平滑性[9,25],这种简化在实践中效果良好内容感知准确度预测器。内容感知的准确度预测器推断给定特征向量的MBODF中的所有分支的准确度。我们使用一个5层完全连接的神经网络(NN)与ReLU,所有隐藏层中有256个神经元,以及剩余连接[13]。由于光特征和其他特征的尺寸在1到3个数量级上变化很大,因此在将特征连接并馈送到5层NN之前,我们添加了一个特征投影层。特征投影层将光特征和其他高维特征投影到固定的256维向量,使得它们在准确度预测器中具有同等代表性。我们使用MSE损失并在ILSVRC VID的派生片段粒度数据集上训练NN(参见第二节)。4的细节),其中分支的地面实况准确性被离线地剖析。内容和延迟的联合建模要求。我们还探讨了一个网络,共同模型的内容和延迟要求分支选择。与之前的设计不同,该模型不与延迟预测器配对,因此设计更简单具体来说,我们首先使用多层感知器(a) A 368分支MBODF(b)A 3,942分支MBODF图5.从最优分支选举中召回顶级候选分支(按MBODF中分支数量的百分比)。(MLP)。在FiLM [28]之后,我们的模型使用另一个MLP从延迟特征Fl回归一组仿射权重γ和偏置β,并随后将卷积变换为非线性′帐篷特征Fc为Fc=γ·Fc+β。在此过程中,我们的模型适应当前的延迟要求,通过模-内容特色的形成。 MLP进一步处理′调制的内容特征Fc,并预测所有树枝 我们使用相同的MSE损失来训练模型,之前,除了当延迟要求被违反时,我们将分支的目标精度设置为零。我们在实验中表明,这种联合建模方案是最有效的紧延迟约束下。候选分支。对数千个分支机构进行预测是一项挑战。SMARTDAPT缩小了设计中候选执行分支的数量第一步,K。 直觉告诉我们,最高的K值表现出-对于适当选择的K,分支应该覆盖跨不同内容特性和不同等待时间约束的视频的大多数最优分支。我们使用称为最优分支选举(OBE)的方法来选择K个候选分支。图5(a)显示了使用K个分支(即最优分支是最高的K个分支之一,而不是所有368个分支的比例。我们看到,在368分支的MBODF中,10.1%的分支足以达到90%的召回率。此外,如果我们考虑特定延迟约束的候选分支,则可以考虑的分支甚至更少为了达到90%的召回率,K分支的百分比为1.4%,2.7%,3.3%和7.1%,给定20,33.3、50和100毫秒延迟限制。图5(b)显示了具有3,942个分支的较大规模MBODF上的这种关系,需要考虑的分支比例较低。因此,使用前K个候选可以有效地降低在线调度和离线剖析的成本4. 实施方式所有模型都在配备两个NVIDIA P100 GPU的服务器上进行训练;在配备256核NVIDIA Pascal GPU和8 GB统一内存的NVIDIA TX 2上进行了评估。我们的方法在PyTorch中实现,但使用TensorRT可能会进一步加速。侧写一旦确定了目标探测器的调谐旋钮,就必须确定范围和步长名称Dim.可训练描述光4没有由高度、宽度、物体数量、平均值组成物体的年龄大小HoC768没有红色、绿色、蓝色通道生猪5400没有梯度方向直方图ResNet501024没有ResNet50功能来自MBODF,高度和宽度尺寸的平均合并,仅保留通道尺寸CPoP31没有“Class来自MBODF的对象检测器,在所有区域提议上平均汇集,并且仅保留类维度(包括背景类)MobileNet1280是的高效、有效的特征提取器,平均池化从全连接层之前的特征图中,仅保留通道维度2533di路npropRTCT1,2,4,820、50、100 *224*,352,384,288,320,416*,448 *,480 *,512 *3*、5 *、10*、20 *一百,一千25%,50%百分百0.05,0.10.2,0.4*表2.在368分支变体中使用更快的R-CNN对象检测器的MBODF中的调谐旋钮的选择(* 表示3,942分支变体中的其他选择每个旋钮的值的大小。我们分析了多旋钮跟踪检测方案,并评估每个旋钮上的准确性-延迟关系然后根据这种关系的单调范围和每个旋钮的约束条件确定最后,我们在Faster R-CNN(368分支和3,942分支变体),EfficientDet , YOLOv 3 和 SSD 上 实 现 了 我 们 的MBODF。具体来说,我们为Faster R-CNN对象检测器实现了5个调谐旋钮(表2)。其他探测器的数据见附录。片段粒度数据集。我们推导了一个片段粒度数据集来研究内容感知的准确性的 的 执行 树枝给定 一 视频数据集{v1,v2,…对于H个视频,我们将每个视频剪辑成L帧视频片段,并且每个视频片段是我们用于评估内容特定准确性的单元。 太小了,值使mAP无意义,并且太大的值会降低内容感知粒度 。 对 于 ILSVRC 2015 VID 数 据 集 , 我 们 选 择 l=100。为了进一步扩大训练数据集,我们使用滑动窗口来提取更多的视频片段。假设时间跨度为s帧,从索引为s的倍数的帧开始的每个I帧片段被选择为视频片段(我们使用s= 5),从而将训练数据集放大1/s。训练内容感知调度器模型。我们训练了400个epoch的内容感知准确性预测器,批量大小为64,权重衰减为0.01,SGD优化器的固定学习率为0.01,动量为0.9。5. 实验我们的实验结果由三部分组成。首先,我们评估了我们在多个骨干对象检测器上的最佳性能模型,并与内容不可知的基线进行比较。其次,我们使用FasterR-CNN(FR+MB+CAS)和FastAdapt(FastAdapt+CAS)原型对MBODF进行了我们的技术消融研究,并研究了内容感知技术的影响。最后,我们讨论了后处理方法在离线分析和在线调度的准确性和延迟成本方面的好处我们报告了ILSVRC 2015 VID数据集和数据集的片段粒度衍生物的结果(仅表4),并使用不同的延迟约束来证明我们方法的强度我们在20 FPS下实现了在我们展示结果之前,我们总结了我们的评估场景,数据集和指标,以及协议的命名约定。流推理。在研究移动设备上高效、自适应的目标检测系统时,典型的应用场景是以视频源的速度对视频进行处理,即:30 FPS,流媒体风格。这意味着(1)不能使用原始视频帧或未来视频帧的特征来细化当前帧上的检测结果,(2)不能细化过去帧的检测结果,以及(3)算法应当以时间戳顺序逐帧处理视频。Wediscuss the comparison with other protocols in the offlinemode with post-processing techniques in Sec. 五点二。数据集和指标。 我们使用ILSVRC 2015 VID数据集进行评估。特别地,我们在从ILSVRC 2015 VID训练数据集(包含3,862个视频)导出的片段粒度数据集上训练我们的特征提取器和准确性预测器。我们的片段粒度数据集的1,256个视频片段来自训练数据集中的10%视频,考虑到我们的MBODF中执行分支的显著数量。我们在ILSVRC 2015 VID验证数据集和片段粒度数据集上评估了我们的模型。前者包含555个视频,我们通过报告(1)IoU= 0.5时的平均平均精度(mAP)作为准确性指标和(2)NVIDIA Jetson TX2上每帧的平均执行延迟作为延迟指标来评估对象检测性能。后者有1,965个视频片段。在这里,我们评估我们的准确度预测结果,并报告均方误差(MSE),斯皮尔曼等级相关(SRC),以及预测准确度和地面真实准确度之间最准确分支的召回。协议. 我们制定了几个协议,实现了一套有效的视频对象检测技术。我们复制了SOTA目标探测器,并通过设计调谐旋钮和确定每个旋钮的范围和步长为每个模型创建MBODF(第二节)。4). SMART ADAPT的变体(名称中包含“MB”或“CAS”的任何产品• FR+MB我们的MBODF在更快的R-CNN [30]对象检测器上使用ResNet-50 [13]和FPN [20]。我们有一个368分支和一个3,942分支的变体,每个旋钮都有不同的范围和步长。• ED+MB:我们在EfficientDet上的MBODF [37]。• YL+MB:我们在YOLOv3上的MBODF [29]。• SSD+MB:我们在SSD上的MBODF [23]。• FastAdapt[17]: 具有1,036个近似分支和内容的自适应对象检测系统,不可知调度程序。• ApproxDet [54]:另一种自适应对象检测系统,但效率低于FastAdapt。• FR+MB+CAS:我们的内容感知调度器,在Faster R-CNN之上使用我们的MBODF。• FastAdapt+CAS:我们的内容感知调度器,2534协议20.0 ms33.3毫秒 50 ms100 msFR+MB+Oracle(3,942br.)71.5%百分之七十五点八百分之七十六点三77.6%FR+MB+Oracle(368条)百分之六十七点一72.1%百分之七十二点九74.8%FR+MB+CAS64.1%68.3%69.8%71.1%FR+MB63.6%百分之六十七点五69.7%71.0%FastAdapt+CASN/A46.1%47.1%50.3%FastAdaptN/A百分之四十三点八46.4%49.0%ED+MB百分之四十五点一百分之五十一点三52.0%百分之五十二点五SSD+MBN/A45.5%46.3%46.7%YL+MBN/A42.1%45.8%百分之四十七点三近似值N/AN/AN/A百分之四十六点八图6.准确性-延迟边界。我们在Faster R-CNN(FR+MB)之上的MBODF在宽延迟范围(2 - 85 FPS)下实现了更高的准确性现成的自适应目标检测系统。• AdaScale [6]:一个自适应和高效的视频对象检测模型,带有比例旋钮。我们评估了多尺度(MS)变体作为其主要设计,并包括几个单量表(SS)进行比较。• Skip-Conv ED D 0 [10]:我们在EfficientDet D 0模型之上使用Skip-Conv的范数门变体。的原始实现仅显示CPU上的MAC和壁时间减少。我们在移动GPU上对Skip-Conv进行了评估,以与SMARTADAPT进行比较。• MEGA RN101 [5]:MEGA的ResNet 101版本。在我们的流式推理场景中,我们无法访问帧或特征,或者在过去细化检测。因此,我们报告的准确性的静止图像中的目标检测的MEGA基线。这也适用于SELSA RN101和REPP YOLOv3。• SELSA RN 101 [46]:SELSA的ResNet-101版本。• REPP YOLOv3 [31]:REPP的YOLOv3版本5.1. MBODF的性能图6显示了每个协议的准确性和延迟性能,其中延迟标度是对数的,以包括各种协议。我们可以观察到,我们的FR+MB协议在我们的工作中将准确性-延迟 边 界 组 合 引 导 到 基 线 和 其 他 MBODF 特 别 地 ,FR+MB在TX2上在30 FPS下实现67.5% mAP,在20FPS下实现69.7%自适应范围是40.5倍的延迟(9.8倍,精度降低3%),精度优于所有其他原型,给定相同的延迟约束。另一方面,我们的ED+MB,YL+MB和SSD+MB也提高了效率,以实现实时推理速度(30FPS)。至于基线协议,MEGA和SELSA,它们具有更深的ResNet 101内核,它们比我们在FR+MB中最准确的分支高出2.9%和1.1%,并且比我们慢得多(以1.2和0.4 FPS运行)。重复,跳过-2535表3.在ILSVRC VID验证数据集上给定严格延迟约束的情况下,在所有有效基线上比较S MART A DAPT的准确度。对象检测器FR、ED、SSD和YOLO不能满足MBODF的100毫秒延迟约束,因此未示出。N/A意味着精度低得无法使用。度量MSESRC召回特征368 br.3,942br.368 br.3,942br.368 br.3,942br.基线0.0910.1090.3770.3760.3540.343光0.0830.1090.3850.3850.3680.347HoC0.0830.1090.3870.3850.3690.348生猪0.0840.1030.3860.3840.3470.348MobileNet0.0820.1020.3850.3850.3680.347移动网络树0.083N/A0.385N/A0.361N/A表4.在Faster R-CNN对象检测器上评估我们的内容感知MBODF,使用不同的内容提取器对片段级数据集上的内容不可知MBODF(基线)进行评估。不适用意味着培训无法在合理的时间内完成。Conv、AdaScale、FastAdapt和ApproxDet都比我们的FR+MB协议更差,准确性更低,延迟更高。总之,我们的MBODF在四个流行的对象检测器之上可以大大 提 高 效 率 , 以 实 现 实 时 速 度 , 其 中 最 好 的FR+MB,领先于准确性-延迟前沿,并具有与准确性优化模型相当的准确性。然后,我们研究了所有能够在每帧100毫秒(10FPS速度)内运行的自适应和高效协议,并在表3中检查了50,30,20和10 FPS的准确性。结果表明,FR+MB+CAS通过其内容感知调度器实现了比FR+MB略好0.1%至0.8%mAP的准确性结果。与FastAdapt基线相比,我们的内容感知计划实现了更高的收益,0.7%至2.3%的mAP改善。请注意,我们的CAS结果仍然与Oracle结果相差甚远,因为(1)我们无法穷尽地运行每个分支并选择最准确的分支,(2)我们无法在线访问注释以计算地面真实准确度,以及(3)我们 无 法 访 问 未 来 帧 , 调 度 程 序 To summarize, inaddition to the illuminating results in Fig- ure 6, ourexploration on the content-aware design boosts theaccuracy-latency frontier further.我们进一步评估了CAS与不同的特征提取器。在片段级数据集上,表4显示了我们的完整技术堆栈的MSE,SRC和召回率,这些技术具有不同的现成和可训练的特征提取器,在368分支和3,942分支FR+MB之上。再-2536图7.CAS中的延迟故障,每次运行,在TX2板上测量请注意,CAS不会在每个帧上运行。因此,较高的成本是可以接受的。图8.在FastAdapt的执行内核的延迟之上,内容感知调度器的延迟沿视频平均CAS中的故障Light特征的成本为零,ResNet50和CPoP特征提取器的成本很小,因为ResNet50和CPoP特征来自对象检测器本身。HoC和HOG特征的成本是中间的,在每次运行20到35毫秒之间,考虑到其触发频率范围从每8到50帧,增加了较小的开销。MobileNetV2功能的成本,无论是否可训练,每次运行约为65毫秒。图 8 进 一 步 评 估 了 具 有 33.3 毫 秒 延 迟 约 束 的FastAdapt+CAS。执行内核的延迟几乎相同,并且总延迟满足延迟结果显示,与内容不可知基线相比,所有特征提取器在CAS中具有一致的较低MSE、较高SRC和召回率我们在补充中包括了进一步详细的消融研究,包括特征提取器,候选分支以及联合训练和建模。5.2. 进一步讨论离线模式下后处理精度的影响。为了公平地比较SMART ADAPT与精度优化模型,我们将REP [31]和Seq-BBox匹配(SBM)[2]后处理方法应用于离线模式下的检测与FR+MB相比,平均mAP改善为2.60%和2.38%。我们在补充中显示了两种方法的每个准确性延迟前层分支的准确性改进的细节。虽然这些处理技术的延迟成本很大程度上取决于给定视频中的对象数量,但每帧的总体平均延迟成本对于REPP为24毫秒,对于SBM为9毫秒此外,我们已经在在线模式下评估了这些后处理方法。我们发现,这种在线模式下的延迟成本比离线模式高出这指出了通过现有的后处理技术来提高流传输内容的准确性的困难。离线性能分析成本。分析MBODF以实现Oracle调度程序并导出片段粒度数据集以研究内容感知的准确性的成本非常高。反将3,942个分支的MBODF置于FRCNN对象检测器之上,在基本情况下,我们需要在训练和测试数据集上运行每个分支,以收集其延迟和准确性。我们部署了一套工程技术,通过并行化分析(准确性分析可以在服务器上运行,而不是在移动终端上运行)和跨分支机构重用结果(详见补充资料)来加快分析速度。结合这些技术,我们能够在5天内在两台服务器上完成配置文件(规格见第12节)。4).内容感知型缓存(CAS)的开销。虽然CAS提高了MBODF的准确性-延迟边界,我们进一步评估它的延迟开销,因为幼稚的设计将导致在MBODF的延迟图7显示了延迟所有特征提取器(包括最昂贵的MobileNetV2)的预算,这是由于保守的分支选择策略,其中分支选择器使用第95百分位延迟作为选择分支的标准。此外,我们发现MobileNetV 2的延迟成本可以减少20%,使用64x64 x3的较小输入分辨率,具有类似的性能-我们可以利用许多优化来进一步降低成本。6. 结论我 们 已 经 在 多 分 支 ( 视 频 ) 对 象 检 测 框 架(MBODF)中演示了如何公开正确的执行分支集,然后如何在推理时调度最佳分支。我们发现了在要运行的expertation分支上做出内容感知决策的重要性。最后,我们探讨了一个内容感知调度器SMART ADAPT,一个Oracle的,然后一个实用的,它使用各种轻量级的特征提取器,以适应在运行时的内容。我们证明了我们的方法,尽管它的简单性,可以适应广泛的延迟要求(范
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功