没有合适的资源?快使用搜索试试~ 我知道了~
5158BlockCopy:具有块稀疏特征传播和在线策略的Thomas Verelst Tinne TuytelaarsESAT-PSI,KU Leuven比利时鲁汶{thomas.verelst,tinne. telaars}@ esat.kuleuven.be摘要在本文中,我们提出了BlockCopy,这是一种与标准逐帧处理相比,加速预训练的基于帧的CNN以更有效地为此,轻量级策略网络确定图像中的重要区域,并且使用自定义块稀疏卷积仅在选定区域非选定区域的特征简单地从前一帧复制,从而减少计算的数量和延迟。执行策略使用强化学习以在线方式进行训练,而不需要地面实况注释。我们的通用框架在密集预测任务上进行了演示,例如行人检测,实例分割和语义分割 , 使 用 最 先 进 的 技 术 ( 中 心 和 规 模 预 测 器 ,MGAN,SwiftNet)和标准基线网络(Mask-RCNN,DeepLabV 3+)。BlockCopy实现了显著的FLOPS节省和推理加速,对准确性的影响最小。1. 介绍大多数当代卷积神经网络(CNN)都是在图像上训练的,并且为了简单起见或由于缺乏大型注释视频数据集而逐帧处理视频。例如,用于大规模对象检测的流行COCO数据集[21然而,视频通常在时间域中包含大量冗余,其中一些图像区域几乎是静态的。基于图像的卷积神经网络不利用时间和空间冗余来提高效率:它们对每个像素和每个帧应用相同的操作。已经提出了表示扭曲以节省计算[8,51,17],但是光流是昂贵的,并且扭曲不能处理诸如新出现的对象的大的变化其它视频处理方法,例如使用3D con-图1:BlockCopy通过稀疏执行卷积来加速现有CNN,同时在非重要区域复制先前执行的特征在行人检测的这个示例中,推断速度增加了一倍以上,而检测未命中率的增加可以忽略不计。卷积或递归神经网络[18,28,22]专注于通过使用时间信息来提高准确性,而不是通过利用冗余来减少计算。在这项工作中,我们提出了一种方法,以提高效率和推理速度的卷积神经网络的作品密集的预测任务,通过结合时间特征传播与稀疏卷积作为illustration。稀疏执行+特性复制(我们的)加工复制标准密集执行执行的所有像素时间5159在图1中显示。一个轻量级的、可训练的策略网络选择重要的图像区域,而昂贵的任务网络仅在所选区域上稀疏地执行卷积来自非重要区域的特征简单地从先前执行复制,从而节省计算。策略网络以在线方式通过强化学习进行训练:大型任务网络(例如Mask-RCNN [12])的输出用作训练在线策略的监督信号。使用在线强化学习有几个优点。首先,不需要标记数据,并且可以在部署期间优化现成的网络,其次,在线训练允许网络在部署时根据任务和数据集微调策略。最后,通过简单地调整策略本工作的主要贡献如下:• 我们提出了BlockCopy,以适应现有的CNN更有效的视频处理,使用块稀疏卷积和时间特征传播。我们的框架在PyTorch中实现,使用自定义CUDA操作。• 我们利用强化学习以在线方式训练策略网络,而不需要地面事实标签。• 我们展示了我们的行人检测,实例分割和语义分割任务的方法,并表明现有的现成的CNN可以显着加速,而不会在准确性上有重大影响。• 我们表明,BlockCopy通过与现有方法、较低分辨率和较低帧速率基线进行比较,提高了代码可在线获取1。2. 相关工作降低卷积神经网络计算成本的众所周知的方法是修剪[19],量化[15]或知识蒸馏[14]。最近,动态方法[43,46]引起了人们的兴趣,根据图像的难度调整网络视频处理方法是互补的,因为它们避免了使用时间维度的冗余计算。2.1. 条件执行和稀疏处理动态神经网络,也称为条件执行[3,39],根据图像的难度调整网络复杂度SkipNet [43]和ConvNet-AIG [39]跳过残差块以获得简单的图像,从而减少了1https://github.com/thomasverelst/blockcopy-video-processing-pytorch图像分类的平均计算量。使用强化学习[43]或重新参数化技巧[39]来学习确定要跳过哪些块的策略。最近,这已经通过跳过单个像素扩展到空间域[7,47,40]。然而,PyTorch和TensorFlow等深度学习框架默认不支持逐像素稀疏卷积,并且在GPU上高效实现具有挑战性[9]。因此,大多数工作仅证明了CPU [47],特定架构[40]的性能改进,或仅考虑理论优势[7]。基于块的处理,其中像素被分组在块中,是更可行的,并且已经在GPU上加速[35,41]。简单地将图像分割成块并且然后单独地处理这些图像是不够的,因为特征应当在块之间传播以实现大的接收场并且避免边界伪影。为此,SBNet [35]提出使用部分重叠的块,并将其应用于3D对象检测。SegBlocks [41]介绍了一个带有BlockPadding模块的框架,用于在块中处理图像。在这项工作中,我们将条件执行扩展到视频域,使用与基于块的稀疏处理和特征转移相结合的再训练学习2.2. 视频处理大多数视频处理方法专注于视频分类和动作识别应用[6,38],使用多帧非最大值抑制[10]、特征融合[26]、3D卷积[18,28]、递归神经网络[22]或其他自定义操作[42]等方法合并多帧运动信息。效率和速度可以通过利用时间冗余来提高ClockworkNets [36]提出了一种基于语义稳定性自适应执行网络阶段的方法。Deep Feature Flow [51]、NetWarp [8]、GRFP [30]、Awan和Shin [2]以及Paul等人。[34]使用光流在帧之间扭曲表示,Accel [17]引入了一个轻量级的第二个分支来微调表示。DVSNet [48]提出了一种自适应关键帧调度,选择关键帧执行,而其他帧使用扭曲表示。Awan和Shin [1]使用训练学习来训练关键帧选择方案。然而,光流是昂贵的计算,因此这些方法主要集中在大型网络,例如DeepLabV3+[4],其中与分段网络相比,引入的开销是Jain和Gonza-lez [16]使用块运动矢量,已经存在于压缩视频中。低延迟视频语义分割(LLVSS)[20]不使用光流,而是使用轻量级的每帧更新分支来更新关键帧表示Mullapudi等人[29]在线5160状态更新块-稀疏转换特征块-稀疏转换特征阻止-阻止-稀疏稀疏转换转换政策网骨干头更新任务网络(冻结)复制REINFORCE政策梯度以前的执行信息先前状态信息以前的输出信息转移功能转移功能传递特征状态更新块-稀疏转换特征块-稀疏转换特征阻止-阻止-稀疏稀疏转换转换政策网骨干头更新复制任务网络(冻结)REINFORCE政策梯度信息增益信息增益图2:针对两个视频帧示出的BlockCopy流水线的概述。策略网络输出执行决策。该网络使用块稀疏卷积来执行,并且来自先前迭代的特征被复制到未执行的区域。每个块的重要性是使用信息增益来衡量的,它作为更新策略权重的奖励用于视频对象分割的知识蒸馏,其中,通过从大型教师网络学习,针对视频中的给定位置对我们的方法不需要关键帧,并且只完整地执行每个剪辑的第一帧。稀疏地执行所有其他帧,从而与基于关键帧的方法相比,导致更一致的处理延迟。3. BlockCopy方法和策略网络BlockCopy通过将块稀疏卷积与特征传输相结合,优化了大型任务网络,以实现更有效的视频处理。我们的方法包括两个主要部分:使用时间特征传播以块稀疏方式有效地执行CNN架构的框架,以及确定是否应该执行或传送块的策略网络。策略网络是一个轻量级的、可训练的卷积网络,选择要执行的块。由于每个区域、执行或传输的决策是二进制的,因此标准反向传播不能用于训练策略网络。因此,我们使用基于每块奖励的强化学习,以基于任务网络的输出的在线自蒸馏方式来训练策略网络。奖励函数基于信息增益,表示exe切割该区域而不是仅仅转移特征。注意,任务网络图2显示了下一小节中讨论的组件的概述。3.1. 具有特征转移的用于深度学习的标准库,如PyTorch [33]不支持有效的稀疏卷积。我们建立在SegBlocks [41]引入的框架上,通过首先将图像分割成块并应用其BlockPadding模块来处理在执行时,整个网络中的表示使用高效和专业的CUDA模块进行存储和复制3.2. 在线策略与强化学习对政策网络进行训练,以选择对输出具有高影响的重要使用视频序列的地面实况注释,可以提取输出变化的区域。然而,许多计算机视觉数据集不包含视频序列,并且注释地面实况是昂贵的。我们没有使用地面实况注释,而是选择了一种更灵活的自升华和在线强化学习方法。当一个块被执行时,这个执行的重要性-时间5161先前输出HO图3:视频序列的图示,包括执行网格、帧状态和输出。帧状态仅针对选定区域(黄色)进行更新,而来自其他区域的特征将从上一帧(紫色)中重新使用。对于分数大于0.5的检测,输出边界框被可视化,而奖励随着检测分数而缩放可以在补充材料中找到具有可视化的视频。图4:策略网络体系结构。尺寸为W×H×C,输入图像为2048×1024×3像素。使用信息增益来确定。输出发生大变化的块这样,策略网络可以在执行时学习块的相对重要性,而不需要单独的训练管道、昂贵的教师网络或注释数据。3.3. 策略网络体系结构策略网络使用轻量级的8层ResNet骨干网与完全卷积头相结合,其架构如图4所示。主干对由4个输入组成的特征表示St进行• 当前帧It:时间t处的RGB帧。• 先前帧状态t-1:先前帧状态是RGB帧,其中每个块具有该位置的最后执行块的图像内容。通过使用先前状态而不是简单地使用先前帧,我们确保网络能够检测到小的累积变化。• 先前输出t-1:我们使用每个个体的概率掩码课对于分割,使用每像素的输出概率。• 上一次执行网格At-1:上一次执行128 x 64 x 64当前帧4x下采样前一帧状态执行决策网格策略功能4x下采样ResNet-83x3 ConvBNReLU步幅23x3 ConvBNReLU步幅23x3 ConvBN步幅2随机采样先前输出16 x 8先前执行加强2048 x 1024 x 164 x 32 x 6432 x 16 x 6416 x 8 x 15162Σ。ΣΣΣ←O×OOOO联系我们|SPA网格是指示哪些块是针对前一帧执行的二进制掩码结合先前的输出,这提高了策略的探索能力,因为先前执行的没有信息增益的块不太可能包含新信息。3.4. 信息增益为了确定每个区域的重要性,我们将每个输出像素的信息增益(IG)定义为表示与使用先前输出相比通过执行该像素的模型而获得的附加信息量的量。信息增益IGt时间t是输出Ot和先前输出的函数t−1。信息增益的公式是依赖于任务的,利用任务的特性来最小化所需计算的数量,同时最大化输出准确度。每个像素p确定信息增益,并且之后使用最大池化每个块bIG b= max IG pp ∈ b。(一)对象检测对于对象检测任务,信息增益取决于对象的移动和预测的得分。对于每个新帧,通过使用边界框的交集-并集IoUbb选择最重叠的检测,将预测的边界框与先前的检测匹配。高重叠意味着低信息增益,静态对象没有信息增益。如果对象不与在先前帧中检测到的任何对象重叠,则对象是新的检测并且具有等于检测分数的信息增益与当前帧中的任何对象不匹配的先前帧中的对象也具有等于先前检测的分数的信息增益,因为应当移除那些检测。算法1用于确定信息增益。注意,重要的是还将信息增益分配给先前帧中的检测的像素,以便在需要时更新或移除那些检测。图3包含信息增益的可视化。实例分割实例分割的信息增益的定义类似于对象检测的信息增益的定义,但是Intersection-over-Union由实例掩码而不是边界框确定语义分割语义分割是一个密集的逐像素分类任务,其中网络输出每个像素的概率分布。每个输出像素的信息增益由输出概率分布之间的逐像素KL-散度确定算法1用于对象检测的require:输出t,先前输出t−1#将信息增益初始化为大小为H WIG0H×W的零填充矩阵对于所有检测detintdo#查找先前输出IoUbest←0prevDetbest←NULL对于t-1中的所有检测prevDet,如果IoU(det,prevDet)>IoU,则IoUbest←IoU(det,prevDet)prevDetbest←prevDet#为检测对于所有像素p∈detdoIGp←max(IGp,(1 −IoUbest)·detscore)#为匹配检测对于所有像素p∈prevDet,最好IGp←max(IGp,(1 −IoUbest)·prevDetscore)#处理与当前检测不重叠的先前检测对于t-1中的所有检测,如果prevDet未被处理,则IGp ←prevDet评分像素p∈prevDet返回IG3.5. 强化学习具有参数θ的策略网络fpn输出每个块b的概率pb,指示该块中的特征是否应该被计算而不是仅仅被转移。网络对要素制图表达进行St={It,Ht−1,At−1,Ot−1}(2)并输出每个块的执行概率b:Pt= fpn(St; θ)(3)其中Pt=[p1,. . . 、Pb、. . . ,pB]∈[0,1]B.(四)概率t被采样到执行决策t=[al,. . .、ab、. . .,a B] 0,1B. 策略πb,θ(abt)给出行动ab的概率。执行裁定书b=1导致块b的执行,而b=0导致从先前执行的特征转移。与简单阈值相比,根据概率的随机采样鼓励搜索空间探索。由于梯度不能通过采样操作反向传播,我们采用强化学习来优化手头任务的策略行动应该最大化每个区块的奖励,目标是在每个时间步最大化,由下式给出BO5163RmaxJ(θ)=maxEab<$πb,θRb(ab)(5)b=1其中b是基于信息增益如后所述。奖励,损失,目标和5164Σ。ΣRR×我Σi∈在每个时间步长t确定参数,为了简化符号,我们省略了时间步长t。策略网络θ←θ+αθ[J(θ)].(6)基于REINFORCE政策梯度[44],我们可以将损失函数分解为(参见补充资料)BL= −Rb(a b)logπ b,θ(a b|St)。(七)b=1奖励b取决于该块的信息增益。一个简单的状态是执行所有的块。因此,我们引入由超参数γ加权的奖励成本来平衡计算的数量:Rb(a b)=RIG(a b)+ γRcost(a b)。(8)执行的块对于正信息增益具有正奖励。相比之下,未执行的块具有负-增加被处决可能性的奖励.IGbifab=1,公开可用的实现。实现细节在相应的小节中给出。在全卷积单级架构中,例如CSP [25]和Swift-Net [31],我们将我们的块稀疏卷积与所有卷积层中的时间特征传播相结合。对于两阶段架构,例如Mask-RCNN [12]和MGAN [32],仅优化骨干网和区域提议网络,网络头作为正常应用。数据集Cityscapes [5]数据集用于评估实例和语义分割。该数据集由2975,500和1525个视频序列分别用于训练,每个视频序列包含20帧的2048 - 1024像素记录在17赫兹,最后一帧具有详细的语义和实例注释。我们使用标准的19类进行语义分割,8类进行实例分割。CityPersons [49]通过为35000人添加高质量的边界框注释来构建Cityscapes。请注意,我们不使用地面实况注释来训练RIG(ab)=−IGb如果一个最佳(九)= 0。我们的方法,因为策略网络以自蒸馏的方式训练。地面实况标签仅用于其中IGb是块中的信息增益帧的成本是已执行块的百分比BaCt=B∈ [0,1]。(十)由于某些帧可能需要比其他帧更多的执行块,我们定义了一个动量为μ的移动平均线:Mt=(1−µ)·Ct+µ·Ct−1。(十一)不是简单地最小化成本,而是使用目标参数τ[0,1],其定义期望的平均成本。这导致更稳定的训练,对γ的精确值的依赖性更小。成本奖励由下式给出:在加速推理后评估准确性。评估指标行人检测的准确性使用对数平均未命中率(MR)标准进行评估,遵循CityPersons的标准指标(合理,裸露,部分,沉重)[49]。实例分割使用COCO风格的平均精度(AP)和AP50进行评估,重叠率为50%,而语义分割使用平均交集(mIoU)度量。计算成本由两个指标衡量:运算次数和推理速度。运算次数报告为数十亿次乘法累加(GMACS)。推理速度是以平均推理速度来衡量的R(a)=.τ−Mtifab=1,(十二)每帧处理时间,包括数据加载和后处理成本B−(τ− Mt)ifab=0。处理,在Nvidia GTX 1080 Ti 11 GB GPU与英特尔i7CPU,PyTorch 1.7和CUDA 11。执行的块,其中ab=1,在以下情况下具有正奖励计算次数低于目标τ。焦油-get可以在执行时调整,动态地改变模型的复杂性。4. 实验使用包含高分辨率视频序列的数据集,在行人检测、实例分割和语义分割任务上评估BlockCopy实现的加速。行人检测是一个单类目标检测问题。我们的方法是特别适合这项任务,因为小的人需要在高分辨率的图像进行检测。对于每项任务,我们都将BlockCopy集成到最先进的现有网络中,使用5165∈对于所有任务,我们使用RMS优化器以在线方式训练策略网络,学习率为1e−4,权重衰减为1e−3。为了减少反向传递和权重更新的影响,我们仅每4帧更新一次策略权重。之前在验证集或测试集上运行,在400个训练剪辑上初始化策略视频序列的第一帧总是完全执行,并且使用BlockCopy框架和策略稀疏地处理以下19帧我们用不同的成本目标τ[0,1]来评估每个网络和任务,以获得具有不同计算复杂度的模型。 超参数γ设置5166未命中率(MR)-越低越好未命中率(MR)-越低越好×表1:CityPersons val/测试集的结果(对数平均未命中率)。标记为†的值使用Pedestron [11]实现确定。在GTX 1080Ti GPU上测量的每帧推理时间。方法主干合理[测试]合理裸部分重型GMAC avg. 秒/imgCSP + BlockCopy(τ =0. 第三章ResNet-5012.5011.47.610.849.5393 0.151秒MGAN + BlockCopy(τ =0. 第三章VGG-1610.8311.26.310.960.5560 0.140秒CSP(CVPR2019)[25]ResNet-50-11.07.310.449.31128 <$0.330秒MGAN(ICCV2019)[32]VGG-16-11.0--50.31104 † 0.224秒†MGAN规模×1。3[32]ALFNet(ECCV2018)[24]VGG-16ResNet-509.29-9.912.0-8.4-11.445.451.91665 † 0.370秒†-0.270秒AdaptiveNMS(CVPR2019)[23]VGG-1611.1710.86.211.454.0- -OR-CNN(ECCV2018)[50]VGG-1611.3211.05.913.751.3- -[27]第二十七话VGG-1611.2610.7--46.9-0.760秒40 40奖励条款之间的余额固定为5,其中成本动量µ设置为0.9。3535除了与其他方法的比较之外,我们还将我们的推理加速方法与较低的空间分辨率和较低的帧速率基线进行了比较。降低输入分辨率会减少运算次数并提高推理速度,但对小对象的预测结果会更差。通过跳过帧来降低帧速率会降低时间分辨率。我们的实验表明,降低帧速率对准确性有显着影响,强调了快速处理的重要性。302520151020040060080010001200GMACS-越低越好(a) 未命中率与GMACS3025201510100150200250300350毫秒/img-越低越好(b) 未命中率与推理时间4.1. 行人检测我 们 将 我 们 的 方 法 集 成 在 中 心 和 规 模 预 测 器(CSP)[25]和掩模引导注意力网络(MGAN)[32]架构中。CSP是一个单级无锚检测器,预测的中心和规模 的 每 个 对 象 的 纵 横 比 固 定 为 0 。 41 岁 它 建 立 在ResNet-50 [13]主干上。MGAN是使用VGG [37]主干的双级检测器。我们的实现基于Pedestron [11]框架。标准评估设置使用Citypersons数据集上分辨率为20481024的17 Hz视频序列[49]。图5a和图5b分别显示了使用BlockCopy的CSP [25]的检测结果,其中比较了操作数(GMACS)和推理时间。BlockCopy模型(具有不同的目标成本τ)与较低的分辨率和较低的帧速率基线相比,可以实现更好的检测结果(更低的未命中率),提高效率。其中τ =0。3、操作量和处理时间减少了一半以上,失误率仅增加0.4% 表1将BlockCopy与其他方法,并表明我们的方法是比现有的方法更快,同时实现竞争力的准确性。4.2. 实例分割我们将BlockCopy集成到流行的Mask- RCNN [12]架构中,其中ResNet-50 [13]骨干图5:使用BlockCopy的CSP [25]上的CityPersons验证集的结果报告了合理子集的未命中率(MR)。具有BlockCopy的模型始终优于具有类似复杂性的较低分辨率基线。例如使用Detectron2 [45]提供的基线进行分割。图6a和图6b示出了在τ =0的情况下对BlockCopy进行积分。3将浮点运算量减半,精度降低0.9%,而每秒处理的帧从6.7增加到11.0 FPS。我们的方法的测试集提交(τ =0.(5)实现31.7AP,与Mask-RCNN的32.0 AP相比基线[12],×1。65更快的推理。4.3. 语义分割我们比较BlockCopy与其他视频处理使用的光流和自适应关键帧调度上的一个SEMANIC分割任务。我们的方法可以被看作是自适应调度的稀疏版本,其中每个块被单独调度。BlockCopy集成在流行的DeepLabV 3 +[4]网络中,结合了ResNet-101 [13]主干,以及更快的SwiftNet [31]模型和ResNet-50。由于其他方法在不同的GPU上报告推理时间,因此我们将这些值缩放为与Nvidia102417Hzx102417HzCSP基础埃莱讷-雷斯埃莱讷-弗拉残液1024x512CSP +8.5 HzBlockCopy1280x640=0.11536x768=0.3=0.5=0.72048xCSP基础线-线- 分辨率帧率1024x5128.5CSP +HzBlockCopy1280x6401536x768=0.1=0。3=0 .5=0.720485167表3:用于行人检测的CSP网络中的BlockCopy组件的开销[25]。方法总任务网络策略GMACS任务GMACS策略 Acc. (MR)稀疏转换功能开销转移Ops政策告知。网络增益向后传递+重量更新CSP基线330 MsN.A.N.A.330N.A.N.A.N.A.1128N.A.11.0%CSP + BlockCopy 275毫秒204毫秒150 Ms30毫秒9毫秒25毫秒12毫秒21毫秒15毫秒215毫秒146毫秒92毫秒9毫秒3毫秒9毫秒4毫秒9毫秒3毫秒9 Ms8 ms10 ms812(-28%)599(-47%)388(-65%)6.56.56.511.1%11.3%11.4%(τ= 0.7)CSP + BlockCopy(τ= 0.5)CSP + BlockCopy(τ= 0.3)3836343230282624100 150 200 250300GMACS-越低越好(a) AP与GMACS3634323028262460 80 100 120 140毫秒/img-越低越好(b) AP与推理时间表2:策略网络的消融。骨干 OnlineItIt−1Ft−1Ot−1At−1 GMACS先生CC6.413.0%CCC6.412.0%ResNet-8CCCCCCC6.46.512.0%11.7%CCCCC6.5百分之十一点五CCCCCCCCC6.56.511.4%百分之十三点三ResNet-20CCCCC34.111.5%使用专门为语义分割设计的方法,并以较低的推理时间实现较高的mIoU。图6:Cityscapes实例分割值集。787674727068666450 100 150 200 250 300 350毫秒/img-越低越好图7:Cityscapes语义分割验证集的结果其他方法的推理时间是补偿GPU的性能,以匹配GTX 1080钛(见补充精神)。其他视频方法是Accel [17],Awan和Shin[2],BMV-prop-mv [16],Clockwork [36],DFF [51],[48][ 49]GTX 1080 Ti,如其他作品提出的公平比较[31]。所有数据,包括非补偿推断时间和GPU缩放因子,可以在补充中找到图7表明我们的方法是有竞争力的=0.3平均精度(AP)-越高越好1024 17平均精度(AP)-越高越好mIoU-越高越好=0.3=0.5=0.7Hz1536x7 682048x=0128.10x6408.5 Hz1024x512Mas马斯马斯k-RCNNk-RCNN- 决议- 帧率+ BlockCopy2048x102417Hz=0.5=0.71280x6401536x768=0.18.5 Hz1024x512MasMask-RCNN-k-RCNN-分辨率帧率Mask-RCNN + BlockCopyτ=0Bloτ=0.7.5ckCopy(SwiLLVSS-LLftNet-RN50)LLVSSBlockCopy(DeepLabV3plus-RN101)τ=0.7τ=0.6τ=0.5Accel-101DVS-DeepLab- 快τ=0.4一Accel-50ccel-38OKSS阿万·申DVSτ=0.3D实验室VS-DeepV2Accel-18BMV-支柱-mv深快速实验室DFFτ=0.3BMV-prop-mv发条τ=0.2SwiftNet-RDeeplabV3其他视频N50+ RN101o方法51685. 消融表2中给出了策略网络的消融,并且示出了包括关于先前帧的更多信息是有益的。在线学习略优于离线学习。BlockCopy引入的开销在表3中给出。与任务网络相比,策略网络的执行和基于信息增益的权重更新相对便宜。6. 结论我们提出了BlockCopy框架,可以应用于现有的预训练卷积神经网络,提高其基于高分辨率视频处理的效率。我们将该方法集成到各种网络中,用于不同的计算机视觉任务,证明了强大的推理加速,而准确性只有很小的下降。诸如行人检测和实例分割的任务特别适合于该方法,因为只有少数图像区域是重要的。通过不需要训练标签,我们的方法可以集成在从现有的预训练模型开始的部署管道中。确认这 项 工 作 是 由 FWO 资 助 的 SBO 项 目 , 协 议S004418N。5169引用[1] Mehwish Awan和Jitae Shin。一种用于语义视频分割的在线关键帧选择方法。2020年IEEE国际消费电子会议-亚洲(ICCE-亚洲),第1-5页。IEEE,2020年。二、八[2] Mehwish Awan和Jitae Shin。基于稠密双扭曲空间特征的 语 义 视 频 2020 年 国 际 信 息 和 通 信 人 工 智 能 会 议(ICAIIC),第129-132页。IEEE,2020年。二、八[3] YoshuaBengio,NicholasL e'onard和AaronCourville。条件计算中 通过随机神经 元估计或传 播梯度。 arXiv:1308.3432 [cs],2013年8月。2[4] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议(ECCV)的会议记录中,第801-818页,2018年。二、七[5] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。 IEEE计算机视觉与模式识别会议(CVPR),2016年。6[6] Ali Diba , Mohsen Fayyaz , Vivek Sharma , AmirHossein Karami , Mohammad Mahdi Arzani , RahmanYousefzadeh, andLucVanGool.Temporal3DConvnets : New Architecture and Transfer Learning forVideo Classification.arXiv 预 印 本 arXiv : 1711.08200 ,2017。2[7] Michael Figurnov,Maxwell D Collins,Yukun Zhu,LiZhang , Jonathan Huang , Dmitry Vetrov , and RuslanSalakhutdinov.残差网络的空间自适应计算时间。在IEEE计算机视觉和模式识别会议论文集,第1039- 1048页,2017年。2[8] Raghudeep Gadde,Varun Jampani,and Peter V Gehler.通过表示变形的语义视频cnn。在IEEE计算机视觉国际会议的论文集,第4453-4462页,2017年。一、二[9] 特雷弗·盖尔,马泰·扎哈里亚,克里夫·杨,埃里希·埃尔 森 . 用 于 深 度 学 习 的 稀 疏 gpu 内 核 。 arXiv 预 印 本arXiv:2006.10901,2020。2[10] Wei Han , Pooya Khorrami , Tom Le Paine , PrajitRamachan-dran , Mohammad Babaeizadeh , HonghuiShi,Jianan Li,Shuicheng Yan,and Thomas S Huang.用于 视 频 对 象 检 测 的 Seq-nms 。 arXiv 预 印 本 arXiv :1602.08465,2016。2[11] Irtiza Hasan , Shengcai Liao , Jinpeng Li , Saad UllahAkram,and Ling Shao.可推广的行人检测:房间里的大象2020 7[12] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961二六七[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。进行中-IEEE计算机视觉和模式识别会议的论文集,第770-778页,2016年。7[14] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。stat,1050:9,2015. 2[15] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。量化神经网络:使用低精度权 重 和 激 活 训 练 神 经 网 络 。 The Journal of MachineLearning Research,18(1):6869-6898,2017。2[16] Samvit Jain和Joseph E Gonzalez。基于块运动特征插值的视频快速语义分割在欧洲计算机视觉会议(ECCV)研讨会论文集,第0-0页二、八[17] Samvit Jain,Xin Wang,and Joseph E Gonzalez. Accel:一个 用于 视频 高效 语义 分割的 校正 融合 网络 。在IEEE/CVF计算机视觉和模式识别会议论文集,第8866-8875页,2019年。一、二、八[18] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维IEEE transactions on Pattern Analysis and MachineIntelligence,35(1):221-231,2012。一、二[19] Hao Li,Asim Kadav,Igor Durdanovic,Hanan Samet,and Hans Peter Graf.修剪过滤器以实现高效的卷积。arXiv预印本arXiv:1608.08710,2016。2[20] Yule Li,Jianping Shi,and Dahua Lin.低延迟视频语义分割。在IEEE计算机视觉和模式识别会议论文集,第5997-6005页二、八[21] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740Springer,2014. 1[22] Mason Liu,Menglong Zhu,Marie White,Yinxiao Li,and Dmitry Kalenichenko.看起来快和慢:记忆引导的移动视频对象检测。arXiv预印本arXiv:1903.10172,2019。一、二[23] 刘松涛,黄迪,王云红。自适应nms:改进人群中的行人检测。在IEEE/CVF计算机视觉和模式识别会议论文集,第6459-6468页,2019年。7[24] Wei Liu,Shengcai Liao,Weidong Hu,Xuechi Liang,and Xiao Chen.学习有效的单级行人检测器的渐近定位拟合。在欧洲计算机视觉会议(ECCV)的会议记录中,第618-634页,2018年。7[25] Wei Liu,Shengcai Liao,Weiqiang Ren,Weidong Hu,and Yinan Yu.高级语义特征检测:行人检测的新视角。在IEEE/CVF计算机视觉和模式识别会议论文集,第5187-5196页,2019年。六七八[26] Yifan Liu,Chunhua Shen,Changqian Yu,and JingdongWang. 具有每帧推理的高效语义视频分割欧洲计算机视觉会议,第352-368页。Springer,2020年。25170[27] Ruiqi Lu,Huimin Ma,and Yu Wang.语义中心增强了人群中行人的检测。神经计算,400:343-351,2020。7[28] Daniel Maturana和Sebastian Scherer。Voxnet:用于实时对象识别的3D卷积神经网络。2015年IEEE/RSJ智能机器人和系统国际会议(IROS),第922-928页。IEEE,2015年。一、二[29] Ravi Teja Mullapudi,Steven Chen,Keyi Zhang,DevaRa- manan,and Kayvon Fatahalian.用于高效视频推理的在线模型蒸馏在IEEE/CVF计算机视觉国际会议论文集,第3573- 3582页,2019年。2[30] David Nilsson和Cristian Sminchisescu基于门控递归流传播的语义视频分割。在IEEE计算机视觉和模式识别会议的论文集,第6819-6828页,2018年。2[31] Marin Orsic 、 Ivan Kreso 、 Petra Bevandic 和 SinisaSegvic。为道路驾驶图像的实时语义分割的预训练
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功