没有合适的资源?快使用搜索试试~ 我知道了~
13573用于高效视频推理的在线模型蒸馏Ravi Teja Mullapudi1 Steven Chen2 Keyi Zhang2 Deva Ramanan1 Kayvon Fatahalian21卡内基梅隆大学2斯坦福大学摘要高质量的计算机视觉模型通常解决理解真实世界图像的一般分布的问题。然而,大多数相机只观察到这种分布的一小部分。这提供了通过将紧凑、低成本模型专用于由单个相机观察到的帧的特定分布来实现更有效的推断的可能性。本文在分析了现有文献的基础上,我们采用模型蒸馏(modeldistillation)技术(使用高成本教师的输出来监督低成本学生模型),以将精确的、低成本的语义分割模型专门化到目标视频流。我们不是在视频流的离线数据上学习专门的学生模型,而是在实时视频上以在线方式训练学生 在线模型蒸馏产生语义分割模型,接近他们的Mask R-CNN老师,推理运行时成本降低7到17倍(FLOP为11到26倍),即使目标视频的分布是非平稳的。我们的方法不需要离线在目标视频流上进行预训练,与基于流或视频对象分割的解决方案相比,实现了更高的准确性和更低的成本,并且可以表现出比原始教师更好的时间我们还提供了一个新的视频数据集,用于评估长时间运行的视频流的推理效率。1. 介绍许多计算机视觉算法专注于理解真实世界图像的最一般分布相比之下,大多数真实世界的摄像机捕获以窄得多的图像分布为特征的场景,并且该分布可以随时间不断地演变。例如,固定摄像机观察随着一天中的时间、变化的天气条件以及随着不同主体在场景中移动而演变的场景。电视摄像机平移和缩放,大多数智能手机视频是手持的,车辆或机器人上以自我为中心的摄像机在动态场景中移动。图1:在线模型蒸馏概述:一个低成本的学生模型的任务是生成一个高分辨率的,每帧的语义分割。为了保持高精度,当新帧到达时,昂贵的教师模型(MRCNN)的输出被周期性地我们称学生模型为在本文中,我们接受了这一现实,不再试图在事先策划的相机特定数据集上预训练模型,而是在新视频帧到达时在实时视频流上在线训练模型。具体来说,我们应用这种方法来实现高精度和低成本的语义分割模型,不断适应视频流的内容的任务。我们采用模型蒸馏技术[2,16],训练一个轻量级的我们发现,简单的模型可以是准确的,只要它们在新帧到达时连续地适应视频流的特定内容(即,模型可以学会欺骗--分割坐在公园草坪上的人可能就像寻找绿色的阴影一样容易!为了实现高效率,我们需要一个新的模型架构,同时支持低成本的推理和快速训练,以及judicious选择何时定期运行的教师,以获得监督。我们表明,在线模型蒸馏产生的语义分割模型非常接近他们的Mask R-CNN [13]老师,推理运行时间降低了7到17倍成本(11-26倍,当比较浮点数),即使当焦油-得到视频我们方法不需要对来自tar的数据进行离线预训练,13574得到视频流,具有少量的超参数,并提供更高的准确度分割输出,比低成本的视频语义分割解决方案的基础上流。我们的低成本学生模型的输出可能比昂贵的教师模型的输出更好(在时间稳定性方面)。我们还提供了一个新的视频数据集,旨在评估长时间运行的视频流的推理效率2. 相关工作专业化蒸馏:训练一个小的,有效的模型来模仿一个更昂贵的教师的输出已经被提出作为一种形式的模型压缩(也称为知识蒸馏)[2,16]。虽然蒸馏的早期探索集中在近似整个原始数据分布上的大型模型的输出,但我们的工作与系统社区[21]的其他近期工作一样,利用蒸馏来创建高度紧凑的领域专用模型,这些模型只需要为所需的数据子集模仿教师。先前的专业化方法依赖于繁琐的模型配置[25,9]或仔细选择模型训练样本,以免错过罕见事件[26]。我们不是将模型优化视为固定目标分布的离线训练预处理(并且会产生高的前期训练成本和为每个唯一视频流策划代表性训练集的挑战),而是在线执行蒸馏以使学生模型动态适应视频流的变化内容。在线培训:随着新视频帧的到来在线训练模型违反了传统随机梯度下降优化的独立同分布(i.i.d)假设。虽然已经探索了从非i.i. d数据流的在线学习[5,37],但一般来说,在相关流数据上的“深度”非凸预测器的在线优化方面的工作相对较少主要的例外是关于深度约束学习的工作[30],其重点是从经验中学习在线蒸馏可以被公式化为强化或元学习问题[8]。然而,在典型的训练环境中采用的训练方法[36,29]在计算上是昂贵的,需要大量的样本,并且主要用于离线使用。我们的目标是训练一个紧凑的模型,在一个小的时间窗口中模仿老师。在这种情况下,我们证明了标准梯度下降是有效的在线训练我们的紧凑架构。跟踪:传统的对象跟踪方法[20,12,15]和基于深度特征层次结构[27,45,17,31]的最新方法可以被视为一种快速在线学习视频外观模型的形式。跟踪- ing使用边界框而不是分割掩模和其成本在复杂度上随被跟踪的对象的数量而缩放。我们的在线蒸馏方法侧重于像素级语义分割,并提出了一组不同的性能挑战。它可以被视为学习整个场景的外观模型,而不是单个对象。紧凑型模型的快速再训练:一我们工作中的基本主题是,不广泛通用的低成本模型是有用的,只要它们可以快速重新训练到新的分布。因此,我们的想法与最近的工作相似,通过在线适应类别倾斜[39]和实时模型训练来加速视频中的图像分类,以实现图像超分辨率[40]。视频对象分割:视频对象分割(VOS)的解决方案利用高容量深度模型对所提供的参考分割的在线适配,以便将实例掩码传播到未来帧[32,47,44,4]。这些算法的目标是学习用于短视频剪辑的子帧的高质量、视频特定的分割模型,而不是将低成本近似合成到预训 练 的 一 般 分 割 模 型 , 如 Mask R-CNN [13](MRCNN)。VOS解决方案需要对每个短视频剪辑进行数秒至数分钟的训练(比直接评估一般分割模型本身更长),从而排除了它们在实时设置中的使用我们相信,我们的紧凑型细分架构和在线蒸馏方法可用于显著加速性能最佳的VOS解决方案(见第5节)。视频中的时间相干性:利用视频流中的帧到帧相干性(诸如背景减除或差异检测)是在处理视频流时减少计算的常见方式。更先进的方法寻求根据预期的变化率以不同的时间频率激活不同的网络层[22,38],或者使用帧到帧流来将推断结果(或中间特征)从视频中的先前帧扭曲到后续帧[10,48]。我们表明,对于语义分割任务,以模型专业化的形式利用帧到帧的连贯性(使用在最近帧上训练的紧凑模型对近期帧进行推理)比基于流的方法更准确,更有效。3. 即时模型蒸馏图1提供了用于高质量、低成本视频语义分割的在线模型提取的高级概述在每个视频帧上,运行一个紧凑的模型,产生像素级分割。这种紧凑的学生模型使用来自高质量教师模型(如MRCNN [13])的预测定期进行调整由于学生模型是在线训练的(及时调整,13575Conv1x3步幅1conv 1x1步幅s输入大小s r c行动型号FLOPS(B)参数(M)时间(ms)160 x 90 enc_block 2 2 6480 x 45 enc_block 3 2 12840 x 23 dec_block 3 1 2 64表1:JITNet和MRCNN的FLOPS(推断、训练)、参数计数和运行时间. JITNet的参数减少了47倍,所需的推理和训练分别减少了91倍和34倍图2:左:JITNet架构。右:编码器/解码器块细节。s =步幅,r =调整大小,c =输出通道。今后使用),我们称之为“JITNet”。为了使在线蒸馏在实践中有效,我们的方法必须:1)使用推理速度快且适应速度快的学生网络,2)使用不完美的教师输出在线训练该学生,以及3)确定当新帧到达时何时以及如何向教师询问标签。接下来,我们将逐一讨论这些挑战。3.1. JITNet架构有效的在线自适应需要一个学生架构,(1)即使在产生高分辨率输出时也能有效评估,(2)适合快速学习。进行高分辨率预测的能力对于处理具有不同尺度对象的真实世界视频流是必要的。快速和稳定的适应对于在少量迭代中从教师学习是必要的。我们的JITNet架构是一个紧凑的编码器-解码器[1],由三个修改的ResNet [14]块组成。 为了减少计算,我们将第二个每个块中的3×3滤波器具有可分离的滤波器(1×3后跟3×1),并且还限制了高分辨率特征图的通道数量。为了确保快速训练,我们添加从每个编码器块到对应的解码器块的跳过连接。这允许梯度信号有效地传播到较低层。我们包括诊断实验,以评估这些跳跃连接的影响,在补充。表1给出了参数计数、浮点运算次数以及JITNet和MRCNN在NVIDIA V100 GPU上的720p视频帧上的运行时间。(We为JITNet提供推理和培训费用Com-紧凑的分割模型,如基于MobileNet V2 [35,43]的模型,在高分辨率下比JITNet慢3-4倍,并且不是为快速、稳定的在线训练而设计的。我们评估了MobileNetV2架构作为研究模型,并证明在线蒸馏是可行的。能够使用现成的架构。但我们发觉以效率为导向的架构。这两项研究均包含在补充报告中。3.2. 使用梯度下降进行在线训练在线培训带来了许多挑战:来自视频流的训练样本(帧)是高度相关的,在内容中存在连续的分布偏移(过去可能不代表未来),并且在训练中用作“地面实况”的代理的教师预测可能表现出时间不稳定性或误差。更新JITNet参数的方法必须考虑到这些挑战。为了生成用于训练的目标标签,我们使用MRCNN提供的高于置信度阈值的实例掩码,并将其转换为像素级语义分割标签。没有报告实例的所有像素都标记为背景。在大多数视频流上,这导致与其他类别相比显著更高的背景分数。这种不平衡降低了学生模型快速学习的能力,特别是对于小对象,因为大部分损失都是在背景上加权的。我们通过对每个预测实例边界框(扩大15%)中的像素损失进行加权,使其比框外的像素高五倍,来解决这个问题。这种加权将训练集中在物体边界附近的挑战区域和小物体上。使用这些加权标签,我们使用加权交叉熵损失和梯度下降来计算用于更新模型参数由于在视频上从随机初始化训练JIT- Net需要大量的训练来适应流,因此我们在COCO数据集上预训练JIT- Net,然后使预训练模型适应每个流。当离线微调模型时,通常只更新几层或使用小的学习率来避免灾难性的遗忘。与此相反,在线调整的目标是尽量减少调整JITNet模式的费用,以便对当前和不久的将来的视频内容保持高度准确性。快速专业化的紧凑型JITNet的时间上下文保持低成本的高精度因此,我们以高学习率更新所有层。经验上,我们发现具有高动量(0.9)和学习率(0.01)的梯度下降法效果显著1280 x 720Conv 3x328推断火车推断火车640 x 360Conv 3x328JITNet15.242.03730320 x 180enc_block 1264Conv 3x3MRCNN1390.0-141300-步幅s80 x 45dec_block 21232Conv 3x1步幅1比MRCNN推理的FLOPS。160 x 90dec_block 11432640 x 360Conv 3x3132+JITNet更适合于同时实现更高的准确性和640 x 360Conv 3x31232和效率。我们还评估了JITNet的变体,1280 x 720conv 1x1132标准的语义分割,使其相对于其他135763如果t≥0(modδ),则4Lt←MaskRCNN(St)5u←0,update←true6whileupdatedo7Pt←JITNet(θt,St)8acurr←MeanIoU(Lt,Pt)9如果u umax和curr一个thresh,15δ←min(δmax,2δ)其他16个17δ←max(δmin,δ/2)还有18个19Pt←JITNet(θt,St)20θt+1←θt用于更新JITNet参数。我们相信高动量稳定训练是由于对教师预测噪音的弹性。我们对所有在线训练实验使用相同的参数。算法一:在线蒸馏输入:S0. n,umax,δmin,δmax,athresh,θ0输出:P0. n1 δ←δmin2 对于t←0到n,3.3. 自适应在线蒸馏最后,我们需要确定学生何时需要老师的监督。一种选择是以固定速率运行教师(例如,每N帧一次然而,如果采用动态方法,只有在准确性下降时才在教师监督下调整JITNet,就有可能提高效率。因此,我们需要一种算法,动态地确定何时需要适应JITNet,而不需要在每帧运行教师的成本来评估JITNet我们的策略是利用先前帧上的教师标签,不仅用于训练,而且用于验证:我们的方法根据最近的学生准确性提高(或降低)教师监督的速度。具体来说,我们使用指数回退[11],如算法1所述。我们的在线蒸馏算法的输入是视频流(St)、在单个帧上执行的最大学习步骤数(umax)、教师调用之间的最小/最大帧步长(δmin,δmax)、所需的准确度阈值(athresh)和初始JITNet模型参数(θ0)。该算法以流式方式运行,并支持按时间顺序处理视频中的帧。教师仅在是当前步幅(δ)的倍数的帧上执行。当教师运行时,算法计算当前JITNet预测(Pt)相对于教师预测(Lt)的准确性。如果如 果 JITNet 准 确 度 低 于 期 望 的 准 确 度 阈 值 ( 平 均IoU),则使用上一节中详细介绍的教师预测更新模型。训练JITNet模型,直到它达到设定的精度阈值(thresh)或每帧更新迭代的上限(umax)。一旦训练阶段结束,如果JITNet达到准确性阈值,则运行教师的步幅加倍;否则,它被减半(由最小和最大步幅限定)。准确度阈值是算法中唯一的用户暴露旋钮。正如我们的评估所示,修改阈值可以在一定范围内提高准确度,效率权衡。即使当连续视频帧包含显著运动时,它们的整体外观也可能不会显著改变。因此,最好在当前帧上执行更多的学习迭代,而不是在新的但视觉上相似的帧上运行教师的高成本选择最大步幅,以便系统可以在几秒内响应变化(64帧在25 fps视频上约为2.6秒)。 每帧的最大更新量大约是JITNet训练时间与教师推理成本的比率。对于所有实验,我们将δmin和δmax分别设置为8和64,并且将umax设置本文还对这些参数、网络设计中的选择以及训练方法作了进一步的讨论和研究。4. 长视频流(LVS)数据集评估快速视频推理需要一个长时间运行的视频流数据集,该数据集代表真实世界的摄像机部署,例如自动零售结账、体育运动中的球员分析、交通违规监控以及用于增强现实的可穿戴设备视频分析。现有的大规模视频数据集已被设计为支持训练各种任务的高质量模型,例如动作检测[23,41],对象检测,跟踪和分割[33,46],并且由精心策划的各种短视频剪辑(几秒到几分钟)组成。我们创建了一个新的数据集,旨在评估在现实世界中,长期运行的情况下有效推理的技术。我们的数据集名为长视频流数据集(LVS),包含30个高清视频,每个视频持续时间为30分钟,分辨率至少为720p。(900分钟总数;相比之下,YouTube-VOS [46]是345分钟。与其他用于有效推理的数据集不同,这些数据集由来自固定视点摄像机(如交通摄像机)的流组成[19],我们捕捉到了各种各样的挑战:从固定视点摄像机到不断移动和变焦的电视摄像机,以及手持和自我中心的视频。鉴于这些视频流的性质,最常见的对象包括人、汽车和动物。要获得数据集所有900分钟(160万帧)的地面实况、人类标记的分割是不切实际的。因此,我们策划了一套具有代表性的13577MRCNN JITNet 0.9 MRCNN JITNet 0.9图3:MRCNN(左)和JITNet 0.9(右)从LVS数据集中的视频子集生成的帧分割视频,并使用MRCNN [13]来生成对所有帧的预测。(We评估了其他分割模型,如DeepLab V3 [6]和InplaceABN [3],并发现MR-CNN可以产生最高质量的标签。我们使用最高质量的MRCNN [7],没有测试时数据增强,并为所有数据集框架提供其输出,以帮助评估分类,检测和分割(语义和实例级)方法。图3显示了来自数据集的视频样本及其相应的MRCNN分割(每组中的左图)。我们建议读者补充MRCNN预测的其他数据集细节和可视化。5. 评价为了评估在线蒸馏作为有效视频分割的策略,我们将其准确性和成本与替代的基于运动的插值方法[48]和视频对象分割的在线方法[4]进行了比较。虽然我们的重点是评估长视频流(LVS)的准确性和效率,但我们还补充了DAVIS视频基准[33]的结果。5.1. 实验装置我们的评估集中在相对于MR-CNN的语义分割方法的效率和准确性上。尽管在COCO数据集上训练的MRCNN可以分割80个类,但在30分钟的跨度内从单个摄像机捕获的LVS视频流例如,没有一个室内对象类(如器具和餐具)出现在室外交通路口或运动流中 。 因 此 , 我 们 仅 在 流 中 存 在 的 并 且 具 有 可 靠MRCNN预测的类上测量准确性。我们的评估-评估集中于可以独立移动的对象类,因为可以使用更简单的方法有效地处理静止对象我们观察到,如果一个实例是汽车、卡车或公共汽车,MRCNN经常因此,我们只评估以下类别的准确性:鸟、自行车、汽车、狗、大象、长颈鹿、马和人。表2显示了在每个流中计算的类,作为流名称后面的缩写列表。所有评估的方法都为视频中的每个类生成像素级预测。 我们在每个视频中的类上使用平均交集(meanintersection over union)(平均IoU)作为准确性度量。 所有结果均报告在每个视频的前30,000帧(16-20分钟,到期到变化的fps),除非另有说明。定时装置JITNet、MRCNN(见表1)和其他基线方法的测试是在 NVIDIA V100 GPU 上 使 用 TensorFlow 1.10.1(CUDA 9.2/cuDNN 7.3)和PyTorch 0.4.1 for MRCNN执行的。所有的加速比都是相对于MRCNN的挂钟时间报告的。请注意,MRCNN执行实例分割,而JITNet在类的子集上执行语义分割。5.2. 精度与在线蒸馏的效率表2给出了使用JITNet在三种不同精度阈值下进行在线蒸馏的精度和性能:JITNet 0.7、0.8和0.9。性能是相对于MRCNN运行时的平均加速,包括教师评估和在线JITNet培训的成本。为了直观地了解不同类型视频的可能加速,我们将LVS组织成类似视频的类别,并显示每个类别的平均值(例如,运动(Moving)13578线下流动[48]在线蒸馏视频Oracle(20%)慢(2.2×)(12.5%)快速(3.2×)(6.2%)JITNet 0.7JITNet 0.8JITNet 0.9整体80.376.665.275.5(17.4×,3.2%)78.6(13.5×,4.7%)82.5(×7.5,8.4%)类别A4体育(固定)87.581.271.080.8(24.4×,1.6%)82.8(21.8×,1.8%)87.6(10.4×,5.1%)运动(Moving)82.272.659.876.0(20.6×,2.1%)79.3(14.5×,3.6%)84.1(6.0×,9.1%)运动(自我)72.369.455.165.0(13.6×,3.7%)70.2(9.1×,6.0%)75.0(4.9×,10.4%)动物89.083.273.482.9(21.7×,1.9%)84.3(19.6×,2.2%)87.6(14.3×,4.4%)交通82.382.674.079.1(11.8×,4.6%)82.1(8.5×,7.1%)84.3(5.4×,10.1%)驾驶/步行50.669.355.959.6(5.8×,8.6%)63.9(4.9×,10.5%)66.6(4.3×,11.9%)单个视频流乒乓球(P)89.484.875.481.5(24.7×,1.6%)83.5(24.1×,1.6%)88.3(12.9×,3.4%)卡巴迪(P)88.278.966.783.8(24.8×,1.6%)84.5(23.5×,1.7%)87.9(7.8×,6.3%)花样滑冰(P)84.354.837.972.3(15.9×,2.8%)76.0(11.4×,4.1%)83.5(5.4×,9.4%)无人机(P)74.570.558.570.8(15.4×,2.8%)76.6(6.9×,7.2%)79.9(4.1×,12.5%)鸟类(Bi)92.080.068.085.3(24.5×,1.6%)85.7(24.2×,1.6%)87.9(21.7×,1.8%)犬(P、D、A)86.180.471.178.4(19.0×,2.2%)81.2(13.8×,3.2%)86.5(6.0×,8.4%)自我躲避球(P)82.175.560.474.3(17.4×,2.5%)79.5(13.2×,3.4%)84.2(6.1×,8.2%)骑自行车(P,BK)70.771.661.368.2(12.7×,3.5%)72.3(6.7×,7.3%)75.3(4.1×,12.4%)苏梅岛街(P,A,Bk)80.683.876.578.8(8.8×,5.5%)82.6(5.3×,9.5%)83.7(4.2×,12.2%)驾驶(P、A、Bk)51.172.259.763.8(5.7×,8.8%)68.2(4.5×,11.5%)66.7(4.1×,12.4%)表2:准确性(不包括背景的所有类的平均IoU),相对于MRCNN的运行时加速(如适用)以及执行MRCNN的帧的比例的比较。每个视频中出现的类都用字母表示(A - Auto,Bi - Bird,Bk - Bike,D - Dog,E - Elephant,G - Giraffe,H - Horse,P -Person)。总的来说,使用JITNet的在线蒸馏提供了比基于基准流的方法更好的准确性/效率权衡[48],并且具有与Oracle离线模型相当的准确性13579图4:上图:JITNet 0.8和Offline Oracle相对于MRCNN的准确性。下图:在线蒸馏期间更新JITNet的次数。标绘的点是视频的30秒间隔上的平均值图像对应于底部图中圈出的点,并显示了JITNet需要经常培训以保持准确性的时间。显示使用移动摄像机拍摄的七个体育视频的平均结果),以及提供10个视频的选择的每个视频结果我们还 显 示 了 使 用 MRCNN 预 测 的 帧 的 比 例 例 如 , 在Kabaddi视频流上,JITNet 0.8比MRCNN快23.5倍,平均IoU为84.5,并使用30,000帧中的510帧(1.7%)进行监督。所有流的详细结果和视频,显示MRCNN和补充资料中提供了JITNet的预测,供进行定性平均而言,在所有序列中,JITNet 0.9保持了82.5的平均IoU,运行时加速为7.5倍(FLOP为11.3倍)。在较低的精度范围内,JITNet 0.7平均快17.4倍(FLOP为26.2倍),同时保持平均IoU为75.5。表中的平均借据不包括背面-地面类,其中所有的方法都有很高的精度。作为13580图5:顶部:JITNet 0.9对花样滑冰视频中间隔约0.13秒(4帧)的三帧序列的预测。下图:大变形、物体和摄像机运动证明了基于流的插值具有挑战性。预计,当准确性阈值增加时,JITNet的准确性会提高,但会使用更大比例的教师框架进行监督。来自固定摄像机的运动流的平均加速比高于移动摄像机。即使在具有明显运动模糊的以自我为中心的体育视频上,JITNet 0.9也能提供4.9倍的加速,同时保持75.0的平均IoU。尽管JITNet在体育(固定)、体育(移动)、动物和交通类别上的准确性表明有改进的潜力,但我们观察到,对于具有大型对象的流如果JITNet或MRCNN产生更高质量的预测。图3显示了带有MRCNN(左)和JITNet(右)预测的样本帧(放大以查看详细信息)。JITNet在大型物体上产生的边界(第一次行)比MRCNN更平滑,因为MRCNN生成的低分辨率掩码(28× 28)被上采样到全分辨率。然而,对于包含小对象的视频,例如交通摄像头(图3,第3行,右)或鸟瞰图(第2行,左),MRCNN会产生更清晰的片段。选项。JITNet来自运动(自我)类别的流由于快速运动而表现出显著的运动模糊。教师对模糊帧的预测可能不可靠,并导致破坏性的模型更新。驾驶/步行流穿过繁忙的市中心和拥挤的海滩,并且预计对于在线蒸馏具有挑战性,因为对象实例在这些视频中仅在屏幕上持续很短的时间间隔。更准确地处理这些场景需要更快的在线模型适应方法。5.3. 与离线Oracle专业化认证的上一节表明,仅在COCO上预训练的JITNet模型可以不断适应新的视频流,只需适度的在线训练成本。我们还比较了JITNet对每个流的内容完全离线进行专门化的结果的即时适应的准确性,并且不进行在线训练。为了模拟接近最佳情况的离线预训练的效果,我们训练JITNet对整个20分钟测试视频序列的每第5帧进行建模(6,000个训练帧)。我们将这些模型称为所有离线oracle 模 型 都 在 COCO 上 进 行 了 预 训 练 , 并 使 用transmitting random-batch SGD在4个GPU上进行了一个小时的预训练。(See补充更多细节)。回想一下,相比之下,在线自适应不会产生,并且以流媒体方式进行训练。如表2所示,JITNet 0.9平均比离线oracle更准确。请注意,JITNet 0.9平均只使用8.4%的帧进行监督,而oracle使用20%的帧进行训练。这一趋势也适用于子类平均数。这表明,紧凑的JIT-Net模型没有足够的能力来完全捕获20分钟流中存在的多样性。图4显示了三个视频的JITNet 0.8和离线oracle在不同时间的平均IoU。上图显示了两种方法的平均IoU(数据点是30秒时间间隔的平均值)。底部的图显示了在每个时间间隔内JITNet模型更新的次数。图上方的图像是需要最多JITNet更新的时间间隔的代表性帧。在鸟类视频(左)中,这些间隔对应于新鸟类出现的事件。相比之下,大象视频(中)包含来自不同视点和摄像机角度的一头大象。当大象浸入水中时,离线oracle模型会导致准确性显著(This罕见事件仅占离线训练集的一小部分。JITNet 0.8显示了较小的下降,因为它专门针对新颖的场景特征。驾驶视频(右)对离线预言和在线JITNet都具有挑战性,因为它具有显著的视觉多样性和持续变化。然而,虽然两种方法的平均IOU较低,但在线自适应在这种情况下也始终优于离线预言机。5.4. 与基于运动的插值的比较提高视频分割效率的另一种方法是在稀疏帧集上计算教师预测,并使用流对结果进行插值。表2显示了使用Dense Feature Flow [48]传播像素分割的两个基线,尽管我们将FlowNet2 [18]的流量估计网络升级为现代方法。(We传播标签,而不是特征,因为这被证明是有效的[48]。昂贵的变体(Flow(Slow))每第8帧运行MRCNN,并使用PWC-Net [42]来估计帧之间的光流。MRCNN标签使用估计流传播到接下来的七个帧快速变体(Flow(Fast))使用相同MRCNN是一种新的传播机制,但每16帧运行一次MRCNN,并使用更快的PWC-Net。整体JITNet 0.7为2.8×13581类别OSVOS(3.3%)JITNet 0.8一B整体59.960.077.4(14.5×,4.6%)体育(固定)75.775.782.3(24.0×,1.6%)运动(Moving)69.169.378.7(16.3×,2.9%)运动(自我)67.668.174.8(9.5×,5.9%)动物79.379.886.0(19.7×,2.1%)交通22.321.970.8(8.4×,7.7%)驾驶/步行36.736.366.8(4.3×,11.8%)表3:JITNet 0.8在LVS上生成的分割精度比OSVOS高百分比给出了用于MRCNN监督的帧的分数比快速流变体更快、更准确,而JIT- Net 0.9除了在驾驶/步行类别之外,其准确性明显高于慢速图5说明了使用流对稀疏预测进行插值的挑战。请注意视频中的溜冰者是如何经历显著变形的,这使得他们很难通过流动来跟踪。相比之下,在线蒸馏训练JITNet学习场景对象的外观(它通过在本地时间内重用模型来利用时间一致性),使其能够在复杂运动的情况下产生高质量的分割。与驾驶(自行车)和步行(汽车)流中的稀有类的在线适应相比,较慢的流基线考虑到流和在线自适应的正交性质,这些方法的组合可以用于处理具有快速外观变化的流。5.5. 与视频对象分割的比较虽 然 不 是 出 于 效 率 的 考 虑 , 但 视 频 对 象 分 割(VOS)解决方案采用了一种在线自适应形式:它们训练模型以基于在第一帧中提供的监督来分割未来的视频帧。我们在每个LVS视频的两分钟片段上评估了OSVOS [4]方法相对于JIT- Net的准确性。(OSVOS太昂贵,无法在更长的段上运行对于每个30帧的片段间隔,我们使用MRCNN生成一个起始前景掩码,在起始掩码上训练OSVOS模型,并使用生成的模型分割接下来的29帧。我们在每个起始帧上训练OSVOS 30秒,这需要大约一个小时在每个两分钟的视频片段上运行OSVOS由于分割LVS视频中的所有类需要每个类运行一次OSVOS,因此我们只在每个视频(每个流中的人或动物类)的一个类上运行OSVOS,并将JITNet的准确性与指定类上的OSVOS进行比较。(回想一下JITNet对所有类别的划分。)此外,我们运行OSVOS的两种配置:在模式(A)中,我们使用来自前一个30帧间隔的OSVOS模型,下一个间隔中训练的起始点(一种持续适应的形式)。在模式(B)中,我们为每30帧间隔重置为预训练的OSVOS模型。表3比较了两种OSVOS变体与JITNet在线蒸馏的准确性。该表还提供了模型准确性,相对于MRCNN的运行时加速,以及JITNet 0.8在两分钟间隔内用于监督的帧的比例。总的来说,JITNet 0.8比OSVOS更准确,快了两个数量级。在具有小对象的交通流和具有快速外观变化的驾驶/步行流上,OS-VOS的准确性明显低于JITNet 0.8。我们还观察到,OSVOS的模式A变体(持续适应)比重新初始化的变体执行得更差。我们相信JITNet架构可以作为一种手段来显着加速在线VOS方法,如OnAVOS [44]或最近的OSVOS-S [28](每帧使用MRCNN预测)。6. 结论在这项工作中,我们证明,对于常见的,现实世界的视频流场景,它是可以执行紧凑(低成本)模型的在线蒸馏,以获得语义的分割精度,这是一个昂贵的高容量的教师相媲美。展望未来,我们希望我们的研究结果能够鼓励对领域适应和自我监督学习的在线蒸馏的探索。更一般地说,随着高分辨率视频流的连续捕获变得越来越普遍,我们认为更广泛的社区应该考虑模型的设计和训练,这些模型不是在精心策划的数据集上离线训练的,而是每天不断地使用他们从特定视频流中观察到的数据我们希望长视频流数据集能够为这一研究提供服务。鸣谢本研究基于NSF Grant 1618903和IIS-1422767部分支持的英特尔视觉云系统科学技术中心(ISTC-STIM)、国家情报总监办公室(ODNI)、情报高级研究项目活动( IARPA ) , 通 过 IARPA& 研 发 合 同 号 : D17 PC00345和美国国防高级研究计划局(DARPA)根据合同号D17 PC 00345,HR 001117 C 0051,以及GoogleFaculty Fellowship。本文中包含的观点和结论是作者的观点和结论,不应被解释为必然代表ODNI、IARPA或美国的官方政策或认可(无论是明示还是暗示)。政府。美国政府被授权复制和分发再版政府的目的noýstanding- ing任何版权注释。13582引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegNet:用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on Pattern Anal-ysis and MachineIntelligence,39(12):2481-2495,2017。3[2] Cristia nBuciluaˇ,RichCaruana,andAle xandruNiculescu-Mizil.模型压缩。第12届ACM SIGKDD知识发现和数据挖掘国际会议集,第535-541页。ACM,2006年。一、二[3] Samuel Bulo,Lorenzo Porzi,and Peter Kontakheder.用于DNN的记忆优化训练的就地激活的batchnorm在IEEE计算机视觉和模式识别会议论文集,2018。5[4] Sergi Caelles , Kevis-Kokitsi Maninis , Jordi Pont-Tuset,LauraLeal-Taixe',DanielCremers和LucVanGool。单镜头视频对象分割。IEEE计算机视觉和模式识别会议(CVPR)。IEEE,2017年。二、五、八[5] 尼科洛·塞萨-比安奇和加博尔·卢戈西。出版、学习和游戏。剑桥大学出版社,2006年。2[6] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv:1706.05587,2017. 5[7] 公 平 Detectron Mask R-CNN 。 https://github.com/facebookresearch/Detectron,2018. 5[8] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。在Doina Precup和Yee Whye Teh 编 辑 的 Proceedings of the 34 thInternationalConferenceonMachineLearning ,Proceedings of Machine Learning Research 第70 卷 ,第1126澳大利亚,2017年8月6日至11日。PMLR。2[9] Francois Fleuret,Jerome Berclaz,Richard Lengagne,and Pascal Fua.使用概率占用图的多摄像机人跟踪IEEETransactionsonPatternAnalysisandMachineIntelligence,30(2):267-282,2008。2[10] Raghudeep Gadde,Varun Jampani,and Peter V Gehler.通 过 表 示 变 形 的 语 义 视 频 CNN 。 CoRR ,abs/1708.03088,2017。2[11] Jonathan Goodman,Albert G Greenberg,Neal Madras,and Peter March.二进制指数回退的稳定性Journal of theACM(JACM),35(3):579-602,1988. 4[12] Sam Hare 、 Stuart Golodetz 、 Amir Saffari 、 VibhavVineet、Ming-Ming Cheng、Stephen L Hicks和Philip HSTorr。Struck:使用内核的结构化输出跟踪。 IEEETransactionsonPatternAnalysisandMachineIntelligence,38(10):2096-2109,2016。2[13] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功