没有合适的资源?快使用搜索试试~ 我知道了~
边缘设备实时视频推理的自适应模型流
4572基于自适应模型流的边缘设备实时视频推理Mehrdad Khani,Pouya Hamadanian,Arash Nasr-Esfahany,MohammadAlizadeh{khani,pouyah,arashne,alizadeh}@csail.mit.edu摘要由于深度神经网络的高计算成本,在手机和无人机等边缘设备上进行实时视频推理具有挑战性。我们提出了自适应模型流(AMS),一种新的方法,以提高性能的有效的轻量级模型的视频推理的边缘设备。AMS使用远程服务器来持续训练和调整在边缘设备上运行的小型模型,使用来自大型最先进模型的在线知识蒸馏来提高其在实时视频上的性能我们讨论了网络模型自适应视频推理的挑战,并提出了几种技术来降低这种方法的通信成本:避免过度拟合、更新一小部分重要模型参数以及在边缘设备处对训练帧进行自适应采样。在视频语义分割的任务上,我们的实验结果显示,与跨多个视频数据集的预训练模型相比,平均Intersection-over-Union改进了0.4- 17.8%。我们的原型可以在三星Galaxy S10+手机上以每秒30帧的速度执行视频分割,相机到标签延迟为40毫秒,使用设备上的上行链路和下行链路带宽小于300 Kbps1. 介绍实时视频推理是许多应用的核心组件,例如增强现实、基于无人机的传感、机器人视觉和自动驾驶。这些应用程序使用深度神经网络(DNN)进行推理任务,如对象检测[52],语义分割[7]和姿态估计[6]。然而,最先进的DNN模型太昂贵而无法在低功率边缘设备上运行(例如,移动电话、无人机、消费机器人[57,58]),并且甚至不能在诸如Coral Edge TPU和NVIDIA Jetson的加速器上实时运行[12,59,38]。提高推理效率的一种有前途的方法是为特定的视频和任务专门化轻量级模型基本思想是使用蒸馏[30]将知识从大的“教师”模型转移为图1:真实世界户外视频的语义分割结果:从上到下的行表示无自定义、一次性、远程+跟踪、即时和AMS。上行链路和下行链路带宽使用在每个变体下面报告。AMS以有限的带宽提供更好的准确性并减少伪像(例如,参见第二列中的无/一次性定制模型和远程跟踪例如,Noscope [33]训练学生模型以离线检测特定视频上的Just-In-Time [46]通过在线训练学生模型,将其扩展到实时动态视频,并在视频帧到达时将其专门化这些方法为在强大的机器上执行推理的场景(例如,服务器级GPU),但它们对于边缘处的设备上推断是不切实际的。离线方法是不期望的,因为视频可能在设备之间显著变化(例如,视频的分辨率)。不同的位置、照明条件等),并且随着时间对于同一设备(例如,在不同区域上空飞行的无人机)。另一方面,在边缘设备上在线训练学生模型在计算上是不可行的。在本文中,我们提出了自适应模型流(AMS),一种新的方法,实时视频推理的边缘设备,卸载知识蒸馏到远程服务器与边缘设备通过网络进行通信AMS不断调整在边缘设备上运行的小型学生模型,以提高其实时特定视频的准确性边缘设备定期发送样本视频4573⇠⇥⇥在一些实施例中,边缘设备可以向远程服务器发送帧,远程服务器使用它们来微调边缘设备的模型(的副本)在网络上执行知识蒸馏引入了一个新的挑战:通信开销。诸如即时(Just-In-Time)之类的现有技术将学生模型积极地过拟合相反,我们表明,在最近帧的适当选择的范围内训练学生模型-不要太小而不能过拟合狭窄,但不要太大而不能超过模型的泛化能力-可以实现高精度,与即时训练相比,模型更新数量级更少。即便如此,网络模型训练的简单实现也需要大量的带宽。例如,每10秒发送具有200万(float16)参数的MobileNetV2 [54] 主 干 的 ( 小 ) 语 义 分 割 模 型 ( 如DeeplabV3)将需要超过3 Mbps的带宽。我们提出的技术,以减少AMS的下行链路(服务器到边缘)和上行链路(边缘到服务器)的带宽使用。对于下行链路,我们开发了一种坐标下降[61,47]算法来训练并在每次更新中发送一小部分模型参数。我们的方法识别对模型准确性影响最大的参数子集,并且与像Adam [36]这样的保持状态(例如,梯度矩)。对于上行链路,我们提出的算法,动态调整帧采样率在边缘设备的基础上如何快速场景在视频中的变化。总之,这些技术将下行链路和上行链路带宽分别减少到仅181-225 Kbps和57-296 Kbps(跨不同视频),以用于具有挑战性的语义分割任务。从长远来看,AMS我们使用轻量级模型(具有Mo-bileNetV 2 [54]主干的DeeplabV 3)评估我们的实时语义分割方法。该模型在三星Galaxy S10+手机(使用Adreno 640 GPU)上以每秒30帧的速度运行,相机到标签延迟为40毫秒。我们的实验使用四个数据集,其中长(10分钟以上)视频跨越各种场景(例如,城市驾驶、户外场景和体育赛事)。我们的结果显示:1. 与预训练没有视频特定定制的相同轻量级模型相比,AMS提供了平均交集对并集(mIoU)的0.4-与一次定制模型相比,它还将mIoU平均提高了4.3%(高达39.1%)使用每个视频的前60秒。2. 与伴随设备上光流跟踪的远程推理基线[67,1]相比,AMS在mIoU中提供了5.8%(高达24.4%)的平均改善3. AMS 需 要 平 均 少 15.7 的 下 行 链 路 带 宽 ( 高 达44.5),以实现与即时[46](上行链路带宽减少类似)相比相似的精度。图1显示了三个可视示例 比较AMS与这些基线方法的 准 确 性 。我 们 的 代 码 和 视 频 数 据 集 可 在https://github.com/modelstreaming/ams上在线获取。2. 相关工作我们在§1中描述了先前关于视频知识蒸馏的工作。在这里,我们讨论其他相关的工作。设备上的推断。手动[54]和使用神经架构搜索[70,62]设计了小型移动友好型模型模型量化和权重调整[28,39,3,8]已被进一步证明可以减少此类模型的计算占用空间,同时精度损失较小。具体到视频,一些技术通过使用光流方法来对一些帧跳过推断来分摊推断成本[68,67,32]。尽管取得了这一进展,但轻量化模型和最先进的解决方案的性能仍存在很大差距[16,31]。AMS是对设备上优化技术的补充,并且也将受益于它们。远程推理。若干提议将计算的全部或部分卸载到远程机器[35,10,9,49,14,65],但是这些方案通常需要高网络带宽,招致高延迟,并且容易受到网络中断的影响[21,14]。像边缘计算[56,22,5]这样将远程机器放置在边缘设备附近的建议减少了这些障碍,但并没有消除它们并产生额外的基础设施和维护成本。AMS需要比远程推理少得多的带宽,并且受网络延迟或中断的影响较小,因为它在设备上本地执行推理。在线学习。我们的工作还涉及在线学习[55]算法,用于最小化动态或跟踪regret [24,66,45]。动态后悔将在线学习者的表现与一系列最优解决方案进行比较。在我们的例子中,目标是跟踪视频中每个点的最佳轻量级模型几个理论工作已经研究了在线梯度下降算法在这种情况下的损失函数的不同假设[69,25]。其他工作集中在我们的方法基于在线梯度下降,因为在服务器上跟踪每个视频的多个模型是昂贵的。模型适应的其他范例包括生命-4574推断。相训练阶段B←B←我2个←BB我←←我我算法1自适应模型流服务器1:使用预训练参数初始化学生模型w02:发送w0和边缘的学生模型架构3:初始化要存储的带时间戳的缓冲区(样本帧、教师预测)元组4:对于η2 {1,2,…}do5:Rn←来自边缘设备的新样本帧的集合6:对于x2Rndo7:y~←使用教师模型推断x的标签图2:AMS系统概述。长期/持续学习[41],元学习[19,51],反馈学习[43]和无监督域自适应[2,34]。由于我们的工作与这些努力仅有一点关系,我们将其讨论推迟到附录B。3. 自适应模型流图2提供了AMS的概述每个边缘设备将采样的视频帧缓冲T更新秒,然后压缩并将缓冲的帧发送到远程服务器。服务器使用这些帧来使用监督知识蒸馏[ 30 ]训练边缘设备模型的副本具体来说,我们描述了我们的设计语义分割,但该方法是通用的,可以适应其他任务。Server. 算法1示出了用于服务单个边缘设备的服务器过程(我们在附录E中讨论了多个边缘设备)。服务器处的AMS算法在从边缘设备接收的每一新批次的帧上迭代地运行。它包括两个阶段:推理和训练。推理阶段:为了训练,服务器首先需要标记传入的视频帧。它使用最先进的分割模型(如DeeplabV3 [7]与Xception65 [11]主干)获得这些标签,该模型作为监督知识蒸馏的“老师”。服务器在新帧上运行教师,并将帧、其时间戳和标签添加到训练数据缓冲区。训练阶段:服务器训练学生模型,以最小化其缓冲区中来自视频的最后T地平线秒的样本帧的损失。为了减少带宽使用,服务器选择一个小子集(例如,5%)的参数,并在随机采样的小批量帧上训练它们进行K 我们在§3.1中讨论服务器如何选择要训练的参数。服务器还根据视频特性(场景变化的速度)动态调整边缘设备使用的帧采样率,如§3.2所述。边缘设备。边缘设备在新模型到达时立即部署它们以执行本地推理。为了在不中断推理的情况下切换模型,边缘设备在内存中维护运行模型的非活动副本,并将模型更新应用于该副本。一旦准备就绪,它将交换活动和非活动模型。边缘设备还以服务器指定的速率对帧进行采样,并将其发送到8:将(x,y)加到具有接收x的时间戳9:结束10:n选择模型参数索引的子集Kdo12:Sk均匀地对来自最后T个视野秒13:候选更新计算Adam优化器更新关于Sk14:将候选更新应用于由n索引的模型参数15:结束16:w~nN=由n表示的模型参数的值17:发送(w〜n,n)用于边缘设备18:等待T更新秒19:结束服务器每T秒更新一次。3.1. 降低下行链路带宽下行链路(服务器到边缘)带宽取决于(i)我们更新学生模型的频率,(ii)每次模型更新的成本我们逐一讨论。3.1.1多长时间训练一次?所需的训练频率主要取决于每次模型更新的训练范围(T范围)。先前的工作,即时[46],每当检测到准确度低于阈值时,就会训练学生模型这种方法倾向于在最近的帧上过拟合,因此需要频繁的重新训练以保持期望的精度。虽然当训练和推理发生在同一台机器上时,这是可能的,但对于AMS来说是不切实际的(§4)。虽然轻量级模型(例如,为移动设备定制的那些)具有比大模型更小的容量,但是它们仍然可以在某种程度上通用(例如,在同一街道、家中的特定房间等中捕获的视频帧上)。因此,AMS使用几分钟的训练视野,而不是狭窄地过拟合到一个或几个帧。这降低了所需的模型更新频率,并有助于缓解场景更改期间模型滞后时准确性的急剧下降(请参见图5)。对于使用具有Mo-bileNetV 2 [54]主干的DeeplabV 3作为学生模型的语义分割,我们发现Thorizon= 4分钟和Tupdate= 10秒在各种各样的视频中工作良好(§4)。然而,这些参数的最佳值可以取决于模型ca和模型b两者4575我←←←-←-←B2个←·-·-2M我我⇥mn,k← Ø1·mn,k-1+(1-Ø1)·gn,k氮钾pacity和视频。例如,容量较低的学生模型可能受益于较短的T范围和T更新,并且具有很少场景变化的静止视频可以使用更长的T更新。附录C讨论了以下相互作用:算法2Adam优化器的梯度引导方法1:n中绝对值最大的ç分数指数{进入第n个培训阶段}2:bn←模型参数的二进制掩码;1 iff由In索引补间模型容量地平线 ,T更新更详细地,3:wn,0 wn-1{使用最新的模型参数作为下一次启动点}并且附录D描述了动态地适配T更新以最小化带宽消耗(特别是对于静止视频)的简单技术。3.1.2要更新哪些参数?简单地将整个学生模型发送到边缘设备可能会消耗大量带宽。例如,使用MobileNetV2主干发送DeeplabV3(具有200万(float16)参数),每10秒需要3.2 Mbps的下行带宽。为了减少带宽,4:mn,0 mn1,K{将一阶矩估计初始化为其最新值}5:vn,0 vn1,K{将二阶矩估计初始化为其最新值}6:对于k 1,2,…Kdo7:Sk从过去的T个视野秒内8:gn,k←rwL〜(Sk;wn,k-1){获取所有模型pa的梯度-9:参数w.r.t. Sk上的损失}{更新一阶矩估计10:vn,kØ2vn,k1+(1Ø2)g2{更新二阶矩估计值}11:i ←i+1{递增Adam我们采用坐标下降[61,47],其中我们训练一个小子集(例如,5%)的参数In十二:un,k←·q1-Øi1pn,k{计算Adam更新,相位n,并且仅将那些参数发送到边缘设备。1-Øi所有模型参数}vn,k+为了选择In,我们使用模型梯度来识别13: wn,k←wn,k-1-un,kbn{更新索引的参数(一)(。wise mul.)}参数(坐标),其在更新时提供损失函数中的最大改进。 一种标准的方法,称为高斯-索斯韦尔选择规则[48],是用最大的梯度幅度更新参数。我们可以计算整个模型的梯度,但只更新具有最大梯度值的坐标这种方法适用于简单的无状态优化器,如随机梯度下降(SGD),但是像Adam [36]这样在训练迭代中保持一些内部状态的优化器需要更细致的方法。Adam在训练迭代中跟踪梯度的一阶矩和二阶它使用此状态来基于在梯度中观察到的“噪声”的大小动态地调整每个参数的学习率[ 36 ]。Adam因此,为了确保内部状态是正确的,我们不能简单地计算K次迭代的Adam更新,然后选择只保留最后变化最大的坐标。我们必须事先知道我们打算更新哪些坐标,以便我们可以更新Adam的内部状态,使其与整个训练过程中访问的实际点序列一致。我们的Adam优化器的坐标下降方法基于在前一个训练阶段中变化最大的坐标来计算将在每个训练阶段开始时更新的参数子集。然后,在该训练阶段中,对于Adam的K算法2中的伪代码描述了第n个训练阶段中的 每个训练阶段包括K个迭代,其中随机采样小批量数据点14:结束15:un←un,K16:wn←wn,K从视频的最后T地平线秒。在迭代k中,我们使用典型的Adam规则更新优化器的一阶矩和二阶矩(mn,k和vn,k然后,我们计算所有模型参数un,k的Adam更新(第11-12行然而,我们仅对由二进制掩码bn确定的参数应用更新(第13行)。这里,bn是与模型参数相同大小的向量,其中在In中的索引处为1,否则为0。我们选择In来索引向量un-1(第1行)中具有最大绝对值的参数的分数。我们在每个训练阶段结束时更新un,在第一训练阶段中,均匀随机地选择n在每个训练阶段结束时,服务器发送更新的参数wn及其索引n。对于索引,它发送标识参数的位置的位向量由于位向量是稀疏的,因此可以对其进行压缩,并且我们在实现中使用gzip [15总而言之,使用梯度引导坐标下降在每次模型更新中发送5%的参数,与更新完整模型相比,下行链路带宽减少了13.3,性能损失可以忽略不计(§4.2)。3.2. 降低上行链路带宽AMS根据视频中场景变化的范围和速度这有助于减少静止或缓慢变化的视频的上行链路(边缘到服务器)·4576k=0k=0TTΣi⇥{T}- -图3:驾驶视频的自适应帧采样。每当汽车在红灯前减速时,采样率就会降低,而当信号灯变为绿灯时,采样率就会增加。为了获得场景变化的鲁棒信号,我们定义了一个度量,$-score,它跟踪与视频帧相关联的标签与原始像素相比,标签通常在小得多的空间中取值(例如,几个对象类),并因此提供用于测量变化的更鲁棒的信号服务器使用教师模型的标签计算$-score。考虑一个帧服务器通过将其与前一步骤的训练阶段性能因此,可以在慢速模式下操作H.264,实现显著的压缩。在我们的实验中,压缩缓冲样品花费至多1秒。并且由(Ik)n表示教师对于每个帧Ik,我们使用定义任务的相同损失函数来定义$k,但是分别使用(Ik)和(Ik-1)作为预测和地面实况标签来计算换句话说,我们将$k设置为教师模型对I k的预测相对于标签T(I k- 1)的损失(误差)因此,$k得分越小,Ik和Ik-Ι的标签越相似,即,固定场景往往获得较低的分数。服务器测量最近帧上的平均$得分,并且周期性地(例如,每6t= 10秒)更新边缘设备处的采样速率$-接近目标值的得分$target:4. 评价4.1. 方法数据集。我们使用四个视频数据集评估AMS的语义分割任务:Cityscapes [13]法兰克福驾驶序列(1个视频,46分钟长) 1,LVS [46](28个视频,共8小时),A2D2 [23](3个视频,共36分钟)和户外场景(7个视频,共1.5小时),我们从Youtube收集,以涵盖一系列场景变化,包括步行,跑步和驾驶速度的固定摄像机和移动摄像机(见附录A的细节和样本从户外场景视频)。公制。 为了评估不同方案的准确性,我们将边缘设备上的推断标签与la-rt+1=hrt+r·$¯t— $targetRmax,(1)rmin使用教师模型为相同的视频帧提取的贝尔。对于Cityscapes、A2D2和Outdoor Scenes数据集其中是步长参数r,并且符号[·]rmax我们使用DeeplabV 3 [7]模型与Xception 65 [11]备份-意味着采样率被限制在rmin[rmin,rmax]。在Cityscapes数据集[13]上训练的骨骼(2048 1024输入分辨率)作为教师模型。对于LVS,我们遵循Mul-我们使用rmin= 0。1fps(每秒帧数)和rmax=1fps在我们的实现。图3显示了驾驶视频的自适应采样率示例请注意,当汽车停在红色交通灯后时,采样率会降低,而当交通灯变绿且汽车开始移动时,采样率会增加。压缩。边缘设备不会立即发送采样帧。相反,它缓冲对应于一个模型更新间隔(T更新,服务器将其传送到边缘)的样本,并且它在该缓冲器上运行H. 264 [60]视频编码以在传输之前对其进行压缩。在边缘设备处填充压缩缓冲器并传输新一批样本所花费的时间被隐藏而不被计算。lapudi等人[46]使用Mask R-CNN [27]在MS-COCO数据集[40]上训练作为教师模型。使用教师模型标记每个帧在V100 GPU上需要200我们报告了相对于由该参考模型产生的标签的该度量计算每个类的交集对并集(定义为真阳性的数量除以真阳性、假阴性和假阳性的总和),并对类取平均值我们手动选择这些视频1此视频序列未标记,是Cityscapes提供的唯一长视频序列(应要求提供)。10的情况00 50 100 150 200 250 300 350 400 450 500 550 600 650 700 750 800 850时间采样率(fps)4577⇥⇥⇥⇥⇥如附录A表4所示。阴 谋 在 边 缘 设 备 上 , 我 们 使 用 DeeplabV3 和MobileNetV2 [54]骨干,输入分辨率为512 256,在三星Galaxy S10+ 手 机 的 Adreno 640 GPU 上 以 30 帧 每 秒(fps)的速度实时流畅运行,对于所有方案,我们在服务器上使用我们比较以下方案:• 无自定义:我们在边缘设备上运行预训练模型,而无需特定于视频的定制。对于LVS数据集,我们使用在PASCAL VOC 2012数据集上预训练的检查点[17]。对于其余的数据集,我们使用了为Cityscapes预训练的检查点[13]。• 一次性:我们在服务器上对视频的前60秒微调整个模型,并将其发送到边缘。这种适应对于每个视频仅发生一次。将该方案与AMS进行比较将显示出持续适应的益处。• 远程+跟踪:我们在远程服务器上使用教师模型来推断样本帧上的标签(每秒一帧),然后将其发送到设备。该设备使用光流跟踪将标签本地内插到每秒30帧[67,1]。对于跟踪,我们使用Farneback光流估计[18]的OpenCV实现,具有5次迭代,大小为64的高斯滤波器,3个金字塔级别,以及多项式次数为分辨率为1024512。虽然在Linux CPU机器上的测试中计算每个帧的流需要700 ms,但我们假设具有边缘硬件支持的优化实现可以实时运行[44],以支持这种方法。我们将采样率设置为1 fps,这与AMS的最大采样率相匹配。请注意,与AMS不同,这种方法不能应用为了避免精度损失,我们使用此方案以全质量发送样本;这需要大约2 Mbps的上行链路带宽。2• 即时:我们在服务器上部署了[46]提出的在线蒸馏该方案在最近的样本帧上训练学生模型,直到其训练精度达到阈值。使用默认参数,如果在最大训练迭代次数内无法满足阈值精度,则会增加采样/训练频率(最多每266 ms更新一次模型Mullapudi等人[46]还提出了一个特定轻量级模型JITNet。然而,他们的即时适应算法是通用的,可以与任何模型一起使用我们使用默认的学生模型(DeeplabV3和MobileNetV2主干)和JITNet架构评估了即时培训,发现它们实现了类似的参考mIoU)和模型更新的数量。3因此,我们报告了与AMS相同的模型的这种方法的结果,以进行更直接的比较。与AMS类似,我们使用梯度引导策略(§3.1.2)用于该方案,以在每次更新中调整5%的模型参数,这实际上实现了略好的整体性能(例如,在户外场景数据集上增加1.2%的mIoU我们还尝试使用ASR进行实时生产。虽然添加ASR将上行链路带宽要求降低了2倍,但仍然7大于AMS因此,我们使用Just-In-Time及其原始采样策略进行更公平的比较。准确度阈值是确定模型更新的频率的可控超参数。更高的阈值以用于发送模型更新的更高下行链路带宽为代价实现更好的准确性。我们设置准确度阈值,以在每个视频上实现与AMS大致相同的准确度,从而允许我们以相同的准确度比较它们的带宽使用情况。使用Just-In-Time的默认阈值(75%)可将整体准确度提高1.0%,但代价是带宽增加3.3倍。在[46]之后,我们使用动量为0的动量优化器[50]。9 .第九条。• AMS:我们在服务器上使用算法1,其中T水平=240秒,并且K = 20次迭代。 我们将ASR参数r_min和r_max分别设置为0.1和1帧每秒,其中δ t =10秒。除非另有说明,否则使用梯度引导策略选择5%的模型参数 在上行链路中,我们使用H.264以中等预设速度和200Kbps的目标比特率在双通道模式下压缩和发送§ 3.2中描述的采样帧的缓冲区。我们对四个数据集的所有39个视频使用了具有相同超参数集的AMS。对于训练,我们使用Adam优化器[36],学习率为0。001( 001= 0. 9,则λ2= 0。999)。4.2. 结果与基线的比较。表1总结了四个数据集的结果。我们报告mIoU,上行链路和下行链路带宽,在每个数据集中的视频上取平均值。我们还在表2中报告了户外场景数据集的每个视频结果。主要结论如下:1. 适配边缘模型提供了显著的mIoU增益。AMS的mIoU评分比无定制高0.42. 一次性有时比无定制更好,有时更差回想一下,One-Time基于视频的第一分钟当第一分钟代表整个视频时,一次性性能方面的准确性(小于2%的差异)3我们在Samsung Galaxy S10+上实现的JITNet模型2作为参考,每秒发送一帧具有良好JPEG质量的移动CPU运行2与此分辨率下的(质量指数为75)相比,在相同输入分辨率下较慢,需要700Kbps的带宽。DeeplabV3和MobileNetV2主干。4578⇥⇥⇥⇥⇥⇥数据集指标没有定制一次性远程+跟踪Just-In-TimeAMS户外场景mIoU(%)63.6869.7369.0573.1474.26上行/下行带宽(Kbps)0/063.1/91.41949/54.62735/3109189/205A2D2 [23]mIoU(%)62.0550.7863.2569.2369.31上行/下行带宽(Kbps)0/056.9/1001927/40.52487/2872158/203城市景观[13]mIoU(%)73.0863.9066.5375.7575.66上行/下行带宽(Kbps)0/08.2/49.21667/50.82920/3294164/226LVS [46]mIoU(%)59.3264.8861.5265.7067.38上行/下行带宽(Kbps)0/048.1/77.41865/21.62456/3264165/207表1:跨4个视频数据集的不同方法的mIoU(以百分比计)、上行链路和下行链路带宽(以Kbps计)的比较描述无客户 一次性剩余+ Trac. JIT AMS8070表2:场景变化速度对mIoU的影响(以百分比计)60102103104在Outdoor Scenes数据集中的视频中使用不同的方法可以提高准确性。然而,在随时间显著变化的视频上(例如,A2D2和Cityscapes中的驾驶场景),第一分钟定制模型可能会适得其反。相比之下,AMS持续提高准确性(某些视频的准确率高达39.1%,与One-Time相比平均为4.3%当场景长时间不改变时,连续训练可能会过度拟合模型,这就是为什么One-Time略优于它的原因平均下行带宽(Kbps)图4:不同参数下AMS和即时通信的mIoU与下行链路带宽的关系。每个颜色表示一个数据集,每个标记AMS和即时有影响其准确性和模型更新频率的参数。为了更全面地比较这些方案,我们扫描这些参数并测量它们在每个操作点处实现的mIoU和下行链路带宽对于实时,我们在55- 85%的区间内改变目标准确度阈值在舞蹈录制视频中我们讨论一个简单的机械-附录D中的培训率调整原则。对于AMS,我们改变T更新在10到40秒之间。图-3. Remote+Tracking在静态视频上表现更好,因为光流跟踪在这些情况下效果更好然而,它在更动态的视频上表现得比AMS差(某些视频上高达24.4%,平均5.8% ) 。 例 如 , 请 注 意 , 在 表 2 中 ,Remote+Tracking 在 “Driving in LA” 、 “Walking inParis” 和 “Running” 视 频 上 的 表 现 并 不 比 “NoCustomization”(不使用网络)好。与即时和AMS相比,远程+跟踪在下行链路中需要更少的带宽,然而,在上行链路中,它需要大约2Mbps的带宽,因为它不能缓冲和压缩帧以确保它以低延迟接收标签(不像AMS)。4. 即时实现与AMS最接近的总体mIoU分数,但是它跨所 有视 频 需要 多 4.4-44.5的 下行 链 路带 宽 (平 均15.7)和多5.2-37.1的上行链路带宽(平均16.8)。在所有视频中,AMS只需要181AMS和实时参数的影响。两图4示出了3个数据集(Cityscapes、A2D2和OutdoorScenes)的结果4比较两种方案的相同颜色的数据点(相同的数据集),我们观察到Just-In-Time需要大约10个以上的带宽才能达到与AMS相同的精度 注意,我们将我们的梯度引导参数选择应用于即时;如果没有这一点,它将需要比AMS多150倍的带宽。AMS对有限带宽的敏感度低于即时(请注意mIoU与两种方案的带宽)。如第3.1.1节所述,原因是AMS在较长的时间范围内(而不是最近的单个帧)训练学生模型因此,它更好地推广,可以容忍更少的模型更新更优雅。梯度引导方法的影响 表3比较了§ 3.1.2中描述的梯度引导方法与在室外场景数据集的训练阶段选择参数(坐标)子集的其他方法。First、Last和First Last方法从4我们从这些结果中省略了LVS数据集,以降低在云中运行实验的成本。即时AMSmIoU(%)采访71.9187.4089.9886.47 87.75舞曲唱片72.8084.2686.4184.40 83.88街头喜剧演员54.4965.0658.8169.7972.03漫步巴黎69.9467.6369.5975.2275.87漫步在纽约49.0554.9654.4956.5459.74在LA66.2666.3066.4870.9571.01运行61.3262.5157.5768.6469.554579⇥分数策略20% 10% 5% 1%最后一层-5.98-6.58-8.98-10.99第一层-2.63-5.54-8.37-15.45第一层最后一层-1.0-2.29-3.54-7.30随机选择-0.21-0.70-2.90-5.29梯度引导+0.13-0.13-0.73-2.87带宽(Kbps)715 38420546全型号BW(Kbps)33020-0 5-1-1 5-22 4 6 8 10数量的客户端表3:对于Outdoor Scenes数据集上的不同坐标下降策略,相对于全模型训练的mIoU的平均差异(以百分比计)。10的情况。80的情况。60的情况。40的情况。20电话:+86-20 - 88888888传真:+86-20 - 88888888mIoU相对于无自定义方案的增益(%)图5:针对不同方案,跨所有帧的mIoU增益相对于无定制的CDF初始层、最后层以及分别从这两个层平均分割。从整个网络中均匀地随机梯度引导执行得最好,其次是随机。当训练一小部分(1%)模型参数时,随机明显比梯度引导更差仅更新第一个或最后一个模型层的方法比其他方法差得多。总的来说,表3表明AMS的梯度引导方法非常有效。仅发送5%的模型参数导致平均仅0.73%的准确度损失此外,在类似的实验中,在模型更新的所有部分,梯度引导优于使用具有Gauss-Southwell选择规则的SGD,对于5%的部分,它们的差距达到1.94%(以mIoU计)。对场景变化的鲁棒性。AMS是否始终提高所有帧的准确性,或者其优势仅限于具有固定场景的某些视频片段?图5绘制了所有方案的所有帧(四个数据集超过100万帧)中相对于无定制的mIoU改进的累积分布AMS始终优于其他方案。令人惊讶的是,尽管更新模型的频率要高得多,但即时模型的准确性比AMS差。AMS实现图6:在Outdoor Scenes数据集上,与单客户端性能相比,多客户端mIoU的平均性能下降。在93%的帧中,mIoU比无定制更好,而即时和一次性定制仅在82%和67%的时间内更好。这表明AMS多个边缘设备。图6显示了准确度下降(w.r.t.单个边缘设备),当多个边缘设备以循环方式在服务器处共享单个GPU时。通过为具有更多场景变化的视频提供更多 GPU 时 间 , AMS 可 扩 展 到 在 服 务 器 上 的 单 个V100GPU上支持多达9个边缘设备,而mIoU损失不到1%(有关更多详细信息,请参见附录D5. 结论我们提出了AMS,这是一种用于提高低功耗边缘设备上的实时视频推理性能的方法,该方法使用远程服务器来不断地训练和流式传输模型更新到边缘设备。我们的设计以减少通信开销为中心:避免过度的过拟合、更新一小部分模型参数、以及在边缘设备处自适应地对训练帧进行采样。AMS使网络模型自适应成为可能,具有几个100 Kbps的上行链路和下行链路带宽,在当今的(无线)网络上容易维持我们的研究结果表明,与各种视频的预训练(未定制)模型相比,AMS使用移动友好模型将语义分割的准确性提高了0.4-6. 致谢我们要感谢我们的匿名评论者和元评论者的宝贵反馈。 这项工作得到了NSF资助CNS-1751009、CNS-1955370、CNS-1910676、Cisco研究中心奖、Microsoft教师奖学金以及Machine-LearningApplications @CSAIL和MIT.nano NCSOFT程序奖的部分支持。一次性远程+跟踪即时AMSAMS(全模型)CDF∆mIoU(%)4580引用[1] Steven S.Beauchemin和John L.巴伦光流的计算ACM计算调查(CSUR),27(3):433二、六[2] Shai Ben-David , John Blitzer , Koby Crammer , andFernando Pereira.域适应的表示分析。神经信息处理系统的进展,第137-144页,2007年三、十二[3] Davis Blalock , Jose Javier Gonzalez Ortiz , JonathanFrankle和John Guttag。神经网络修剪的状态是什么arXiv预印本arXiv:2003.03033,2020。2[4] Keith Bonawitz,Hubert Eichner,Wolfgang Grieskamp,Dzmitry Huba,Alex Ingerman,Vladimir Ivanov,ChloeKid- don , Jakub Konecny , Stefano Mazzocchi , HBrendan McMa- han,et al.Towards Federated Learning atScale:System Design.arXiv预印本arXiv:1902.01046,2019。12[5] Flavio Bonomi,Rodolfo Milito,Jiang Zhu,and SateeshAd- depalli.雾计算及其在物联网中的作用。在MCC关于移动云计算的研讨会的第一版的会议录(Proceedings ofthe First Edition of the),MCC美国纽约,2012年。计算机协会2[6] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别会议论文集,第7291-7299页,2017年。1[7] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L.尤尔。Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40:834一、三、五[8] 余成,王铎,潘周,张涛深度神经网络的模型压缩和加速综述ArXiv,abs/1710.09282,2017。2[9] Sandeep Chinchali、Apoorva Sharma、James Harrison、Amine Elhafsi、Daniel Kang、Evgenya Pergament、EyalCidon、Sachin Katti和Marco Pavone。云机器人的网络卸载 策略 :基于 学习的 方法 。arXiv预印 本arXiv:1902.05703,2019。2[10] Sandeep P Chinchali,Eyal Cidon,Evgenya Pergament,Tian-shu Chu,and Sachin Katti.神经网络满足物理网络:边缘设备和云之间的分布式推理。在Proceedings ofthe 17 th ACM Workshop on Hot Topics in Networks,第50-56页2[11] F. 胆Xception:使用深度可分离卷积的深度学习2017年IEEE计算机视觉和模式识别会议(CVPR),第1800二三五[12] 珊 瑚 Edge TPU 性 能 基 准 测 试 。 https : //coral.ai/docs/edgetpu/benchmarks/,2020年。1[13] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。2016年IEEE计算机视觉和模式识别会议(CVPR),第3213-3223页五六七十二十三[14] Daniel C
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功