自适应DNN输入失真的GearNN架构的优化算法及其准确性评估

86 浏览量更新于2023-10-20 收藏 878KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1适配器基地（针对每种输入质量进行微调）（所有输入相同）失真等级1基于失真水平的开关视觉输入失真等级2各种压缩、分辨率、亮度等失真度鲁棒DNN推理的部分权值自适应谢秀峰惠普实验室Xiufeng. hpe.comHewlett PackardLabskyu-han.kim邮件hpe.com摘要原始DNN主流视频分析使用预先训练的DNN模型，假设推理输入和训练数据遵循相同的概率分布。然而，这个假设在野外并不总是成立的：不稳定的无线带宽要求视频的自适应比特率流;并且，推理服务器可以服务来自het的输入，0.2 重量百分比99.8%推断结果异构物联网设备/摄像头。在这种情况下，输入失真的水平迅速变化，从而重塑输入的概率分布我们提出了GearNN，一种自适应推理架构，可容纳具有不同失真的DNN输入。GearNN采用优化算法来识别一组“失真敏感”的DNN参数，给定内存预算。根据输入的失真水平，GearNN只调整失真敏感的参数，同时在所有输入质量中重用其余的DNN参数。在我们对动态输入失真的DNN推理的评估中，GearNN的准确性（mIoU）比使用未失真数据集训练的DNN平均提高了 18.12% ，比 Google 的稳定性训练提高了4.84%，仅增加了1.8%的内存开销。1. 介绍视频分析解决方案通常使用具有预训练权重的DNN进行推断，假设训练和测试数据集之间的概率分布一致不幸的是，DNN推理的输入可能会有各种扭曲，这些扭曲会改变概率分布，并在实践中损害DNN性能自动驾驶车辆可能会在阴影中进出，导致捕获的视频中的亮度突然变化;无人机可以在基于无线链路带宽向推断服务器流式传输时改变视频帧的压缩比;边缘服务器可能需要处理来自具有异构相机硬件和压缩策略的IoT设备的数据。在这些具有高动态范围的输入失真场景中，依赖于具有恒定预训练权重仅比原始DNN多花费1.8%的内存，以适应10个失真级别图1：GearNN，一种自适应推理架构（这是一个简化的图示，适配器中的DNN层和基础中的DNN层可以相互交错）。严重的损失[23]。我们观察到，在我们的实验中，58%的准确率损失（§5）。处理具有不稳定失真水平的输入的一种解决方法是通过增强训练数据以匹配特定失真水平来针对每个可能的失真水平训练DNN，然后根据当前输入的失真水平在它们之间切换。然而，存在大量的失真水平（例如，JPEG有100个质量级别），由于内存有限，并发运行如此多的DNN是不可行的。在磁盘和磁盘之间交换DNN会导致巨大的延迟，因此是不切实际的。本文提出了GearNN，一种自适应DNN推理架构，以适应具有各种失真的真实世界输入，而不会牺牲内存效率。GearNN只适应一小部分（例如，0的情况。§4）中DNN大小的2%同时在所有输入中重用大多数权重（称为基础以这种方式，自适应导致高推理准确性，同时重用大多数权重guarantees存储器效率和可扩展性。我们将我们的设计命名为GearNN：就像帮助一个引擎处理不同车速的变速箱一样，GearNN帮助单个DNN基础来适应各种输入失真。GearNN工作流程可以总结如下：(i) 离线识别失真敏感权重。给定一个用未失真的训练数据集预训练的DNN，9573……9574GearNN首先将DNN微调为多个版本，每个版本都具有特定失真水平的训练数据接下来，通过比较原始DNN和微调版本，GearNN运行优化问题（§3.2.2）以在约束条件下识别额外的内存预算。(ii) 部分DNN微调离线。GearNN然后通过仅更新失真敏感权重（即，适配器），同时冻结其余的预先训练的DNN权重（即，碱）。该步骤产生多个适配器，每个适配器用于特定的失真水平。(iii) 部分DNN适应在线。通过多个微调的小适配器和加载在内存中的基础的单个副本，GearNN在适配器之间切换，遵循当前输入失真级别（如压缩级别），同时在所有可能的输入中重用基础我们使用 PyTorch 在流行的 DNN 模型（如DRN[21，22]和Mask R-CNN[6]）上对GearNN进行了原型设计，并使用语义分割和检测任务进行了广泛的评估（§5）。我们的评估表明，GearNN能够在各种输入失真水平下进行鲁棒的DNN推理，同时保持算法的效率。更具体地说，GearNN达到了18。平均推理准确率比使用未失真数据训练的原始DNN高12%。GearNN还优于其他替代方案，如稳定性训练，谷歌或微调DNN使用具有混合失真水平的数据集，它只消耗1。8%以上的内存比这样的单一DNN解决方案，以适应10失真水平。同时，与在多个DNN之间切换相比，GearNN将内存消耗减少了88. 7%，同时达到类似的准确度。我们的贡献可归纳如下：• 我们提出了GearNN，这是一种通用技术，可以提高DNN模型对高动态范围输入失真的容忍度，而不会影响DNN模型的性能。理论效率。我们通过最先进的 DNN 验证了GearNN，它优于现有的解决方案。• GearNN制定了一个优化问题，在给定的内存消耗约束下，选择一组微小的DNN权重进行调整。• GearNN是第一个在自适应比特率（ABR）流媒体上实现强大视频分析的公司，遵循现代视频流媒体的趋势。• GearNN可以快速自定义（在我们的原型中仅需要4个训练时期）任何预先训练的DNN，以适应所需的输入失真动态范围，部署灵活GearNN根据输入失真水平在它们之间进行调整输出Ysd��ℎ稳定性训练图2：自适应DNN可以比恒定DNN更好地提供宽2. 相关工作自适应神经网络现有的工作[1，18]讨论了基于瞬时输入的神经网络结构。然而，这些解决方案仅关注通过提前退出[1]或跳过卷积层[18]来加速推理。相比之下，GearNN旨在提高DNN在各种动态输入失真下的鲁棒性，而不会影响内存消耗。此外，GearNN适应DNN权重值，而不是网络架构，这保证了快速适应和向后兼容性。改进训练以提高鲁棒性。一些现有的工作建议改进训练阶段，使DNN对小的输入扰动更具鲁棒性。来自Google的Stabil- ity training[23]使用修改后的训练架构，将输入-输出映射放在输入图像的一个小邻域中。然而，对于具有宽范围的扰动，很难使一个输入-输出映射平坦化，如图1所示。二、因此，稳定性训练- ING不能容忍各种输入失真。另一方面，GearNN通过使用不同的输入-输出映射来处理具有不同失真水平的输入，因此，它在各种输入失真下更容易容忍。DNN修剪。DNN修剪[4，11，8]识别并重新移动平凡神经元以减小模型大小和计算成本。这种方法乍一看与我们的解决方案相似，但本质上不同。GearNN专注于“失真敏感”的一些DNN权重可能对输入失真不敏感，但对输出仍然至关重要。换句话说，GearNN可以在不同的输入失真水平上重用这些权重，但DNN在修剪这些权重后无法正常工作。此外，DNN修剪使用修剪后的常数DNN进行推理，而GearNN在推理过程中在线调整DNN（部分）。迁移学习。由于构建大型训练数据集的成本很高，迁移学习[12，16，20]被提议在一个任务上定制预训练模型以适应另一个任务。虽然GearNN遵循以下原则：9575迁移学习-定制预先训练的模型以适应具有相同输入类型但不同失真水平的另一任务-它与迁移学习的现有实践截然不同：（i）GearNN主动识别“失真敏感”权重，并仅微调这些权重。相比之下，典型的迁移学习只微调全连接层或所有DNN权重。（二）DCT系数频率响应图像处理DNN地面实况LGearNN在运行时推理中实现了部分权重自适应，而典型的迁移学习仍然使用预训练的DNN进行推理。自适应比特率流。自适应比特率（ABR）流媒体近年来迅速流行[9，13，15]。ABR流媒体技术通过动态调整网络带宽来实时调整流媒体质量，从而实现了高吞吐量和低延迟的双重目标不幸的是，现有的基于DNN的推理解决方案大多使用单个DNN，并且不能适应ABR流上的动态相比之下，GearNN可以调整DNN以适应动态流质量。3. GearNN：部分权重自适应在本节中，我们首先分析了使用扭曲的训练数据微调DNN的效果（§3.1），然后揭示了我们的观察结果，即大多数DNN权重在使用扭曲的数据微调后都有微小的变化（§3.2）。最后，我们详细介绍了GearNN的设计，其特点是基于我们的观察（§3.3）的部分3.1. 微调DNN时会发生什么3.1.1视觉畸变的频域特征由于人眼对视觉输入的高频分量（在空间-频率域中）不敏感，所以像JPEG和H. 264这样的编码器压缩这样的高频分量。积极的成分。类似地，在降低图像亮度之后，人眼仍然感知到对象轮廓（低频）。组件），但不是纹理（高频。组件）。换句话说，典型的视觉失真实际上是在高频上增加了噪声件.3.1.2微调后DNN受人眼空间频率响应的启发如图3、在典型的离散傅里叶变换的基础上，增加了离散傅里叶逆变换（IDCT）模块，DNN训练框架，然后输入的频率分量（DCT系数）成为叶节点，并且我们可以执行反向传播以获得损失w.r.t. 每个输入频率分量。更高图3：使用损失梯度对DNN的频率进行建模。域感知灵敏度（频率响应）。并且我们将所有输入频率分量的梯度图然后，我们比较原始DNN和用失真训练数据微调的DNN的频率响应。我们重复比较4种类型的失真：（i）H.264压缩，质量（CRF）为24;（ii）JPEG压缩，质量为10;（iii）以原始图像的10%亮度进行欠显;（iv）在一个训练集中混合具有不同质量（CRF从15到24）的H.264帧的数据增强。图4示出了测量的DNN频率响应。我们看到，与原始DNN相比，使用失真训练数据进行微调的DNN在所有测试情况下对高频分量变得不那么敏感，即，为了更好的鲁棒性，它们学会避免查看有噪声的高频分量3.2. 失真敏感DNN权重微调DNN是更新其权重以适应新的训练集。在§ 3.1中，我们揭示了用失真的数据集微调DNN相当于重塑其频率响应，以便从差异中过滤掉噪声。折磨在本节中，我们将进一步深入了解哪些DNN权重在重新塑造频率响应方面比其他权重发挥更关键的作用。我们将这样重要的权重定义为“失真敏感”。值得注意的是，有些权重对于推理来说可能是至关重要的，不应该被修剪。然而，它们同时可以对输入失真不敏感，即，它们的值在使用失真的训练数据进行微调后不会发生太大变化-3.2.1DNN权重对失真的敏感性建模我们首先通过使用扭曲的训练数据集来微调预训练的DNND，并将所得权重与原始模型进行比较。设K表示中的层数，D，并且li表示每一层，其包含Ni个权重，那么我们有一个v eli={p1，p2. -是的-是的 pNi}。令pj表示第j个我我我频率分量的梯度幅度指示DNN对该频率上的输入噪声更敏感原始预训练的DNN中的层li的权重，以及fq（·）表示具有一定距离的微调过程。IDCT输入输出损失反向传播梯度振幅w.r.tDCT系数��L=6L6s9576我我我i∈Siv00.20.40.60.81空间频率00.2 0.4 0.6 0.8 1(a) 原始DNN00.20.40.60.81空间频率00.2 0.4 0.6 0.8 1(b) 微调DNN00.20.40.60.81空间频率00.2 0.4 0.6 0.8 1(c) 微调DNN00.20.40.60.81空间频率00.2 0.4 0.6 0.8 1(d) 微调DNN00.20.40.60.81空间频率00.2 0.4 0.6 0.8 1(e) 微调DNN8e-56e-54e-52e-50e0使用H.264（CRF=24）JPEG（Q=10）相对亮度0.1通过数据扩充灵敏度差异：微调的DNN对嘈杂的高频带变得不那么敏感00.20.40.60.81空间频率00.2 0.4 0.6 0.8 100.20.40.60.81空间频率00.2 0.4 0.6 0.8 100.20.40.60.81空间频率00.2 0.4 0.6 0.8 100.20.40.60.81空间频率00.2 0.4 0.6 0.8 12e-50e0-2e-5(f) （a）-（b）的差异(g) （a）-（c）的差异(h) （a）-（d）的差异(i) （a）-（e）的差异图4：比较原始和微调后的DRN-D-38的DCT频谱灵敏度（频率响应）。我们使用不同的调色板在第一行的灵敏度和灵敏度差异（可以是负的）在第二行。1e11e01e11e-21e-31e-41e-5权重偏压1e21e31e41e51e6层的大小[参数#]1e-38e-4第6 e-4条4e-42e-40e0权重偏压1e1 1e2 1e3 1e4 1e5 1e6 1e7层大小[参数#]8e-4第6 e-4条4e-42e-40e0权重偏压1e1 1e2 1e3 1e4 1e5 1e6 1e7层大小[参数#](a)DRN-D-38微调H.264 CRF=23。(b) Mask R-CNN使用JPEG Q=10进行微调。(c) Mask R-CNN微调相对亮度0.2。图5：微调引起的每层平均权重值变化我的意思是我的意思是然后，fq（pj）是微调后的DNN的相应权重，我们可以计算由微调引起的层li中权重值的平均变化q1Nij j权重具有不可忽略的变化（例如，>2×10−4），用失真数据进行微调后。为了使DNN适应失真的输入，我们可以重塑频率响应，通过改变DNN权重的一小部分来改变DNN。vi=我j=1<$pi−fq（pi）<$（1）具有高vq值的层在被微调以适应失真水平q时产生权重值的显著变化，这意味着它们对失真水平敏感3.2.2选择DNN权重的子集进行微调由于在使用失真数据进行微调之后，只有一小部分DNN权重具有不可忽略的变化，因此，我们定义vq由于失真灵敏度给定内存使用的约束，GearNN可以选择莱伊莱岛下式（1），我们针对三种情况测量由微调引起的层级权重变化：在图5a中用质量水平（CRF）23的H. 264微调的DRN-D-38;在图5 b中用质量水平（Q）10的JPEG微调的掩码R-CNN;以及在图5c中用相对亮度0.2的暗淡图像微调的掩码R-CNN。图5a，DRN参数（包括然后仅微调这些我们制定这作为一个背包问题在方程。其中，层1 i的“成本”是其参数编号N i，并且层1 i的“值”是其在等式（2（一）. 更具体地说，我们需要选择DNN的列表S最大化总“值”（失真灵敏度）的层vq，在总“成本”（内存）两个权重都有偏差。我们用“权重”这个词用法）i∈SN i在用户定义的界M内。表示其他地方为简单起见），其变化超过2 ×10−4MaxSΣQi∈Si微调后仅占模型大小的1.44%同样，只有0。08%和0。0058%的掩码R-CNNΣS.T.Nii∈S≤M（2）图中的权重变化超过2×10−45b和图5c.第二个问题。因此，我们有一个关键的观察：只有一小部分DNN平均参数值变化空间频率空间频率空间频率平均参数值变化空间频率空间频率空间频率空间频率空间频率平均参数值变化空间频率灵敏度（绝对值。梯度）灵敏度（绝对值。梯度）N9577在获得层的最优列表S之后，我们微调对应的DNN部分Aq={li：i∈S}（我们称之为9578灵敏度（绝对值。梯度）∗∗Q我Q空间频率0 0.2 0.4 0.6 0.8 100.20.40.60.81(a) 预训练DRN-D-38空间频率0 0.2 0.4 0.6 0.8 100.20.40.60.81(b) 微调DRN-D-38H.264（CRF 24）空间频率0 0.2 0.4 0.6 0.8 100.20.40.60.81(c) 部分微调的DRN-D-38（0.2%参数）8e-56e-54e-52e-50e0算法1DNN分裂部分微调（离线）。输入：Q={q1，. . . ..输出：q-1：对所有q∈ Q做第二章：用失真水平q的数据微调Dq=fq（D）q1Nij j第三章：计算v i=Nij=1<$pi−fq（pi）<$对于每个图6：DRN的部分微调。4：获得“值”列表vq={vq，. - 是的- 是的，v q}，使用Eq.（一）1K空间频率0 0.2 0.4 0.6 0.8 100.2空间频率0 0.2 0.4 0.6 0.8 100.2空间频率00.2 0.4 0.6 0.8 100.28e-4第6e-4条5：获得“成本”列表n={N1，. - 是的- 是的，NK}6：S=背包（value=vq，cost=n，bound=M）7：要微调的层的子集是Aq={li：i∈S}8：用失真水平q微调A=f（A）0.40.60.80.40.60.80.40.60.8qq q4e-42e-41(a) 预训练的Mask-RCNN1(b) 微调的Mask-RCNN（具有1(c) 部分微调的Mask-RCNN0e0将DNN拆分到适配器底座相对亮度0.2）（参数的0.8%）图7：Mask R-CNN的部分微调。适配器）与质量为q的数据集，同时保持DNN的其余部分（我们称之为基础Bq= D\Aq）冻结。我们将该部分微调步骤表示为A = f q（Aq）。3.2.3部分微调DNN我们进一步比较了部分微调和完全微调DNN的频率响应，以了解部分微调的效果。我们的实验包括两个模型：DRN-D-38和0. 2%的重量微调（图 6）和MaskR-CNN为0。8%的权重微调（图（七）. 通过比较图在图6b和图6c中，我们观察到微调整个DRN和微调仅0.具有相同失真数据集的2%的DRN权重产生具有接近频率响应的DNN-与图1中的原始DNN相比，两者都避免查看噪声高频分量。早上6我们从图中也有类似的观察。7 .第一次会议。3.3. GearNN工作流基于§3.2中的算法，我们设计了GearNN，这是一种鲁棒推理架构，它只适应DNN的一小部分，遵循瞬时输入失真。分离DNN（离线）。第一步是将DNN分成两部分-适配器将根据输入失真水平实时改变，而基础保持不变。拆分如下§3.2.2：对于每个失真水平q，GearNN使用失真的训练数据，并将结果与原始DNN进行比较，以获得每个DNN层的失真敏感度度量vq 然后，通过求解优化问题，在Eq.（2），GearNN挑选层的子集进行微调，其是失真水平q的适配器Aq。部分微调（离线）。GearNN然后微调适配器，每个适配器使用扭曲到特定图8：部分权重微调工作流程。水平（失真之前的原始数据集与DNN分裂步骤中使用的数据集相同），同时冻结基础，如图所示。8. 通过这种方式，GearNN获得多个微调适配器A，每个适配器适配特定输入失真电平。Alg. 1总结了上述步骤。部分自适应（在线）有了微调的自适应器和基础，我们可以在线运行GearNN。由于适配器的大小很小，因此推理服务器可以以较低的开销为所有支持的失真级别加载多个适配器。接下来，给定具有各种失真级别的可视输入流（例如，ABR流或从异构物联网硬件接收），GearNN在适配器之间切换以适应瞬时输入失真水平，同时保持基本权重不变，如图所示。1.一、得到瞬时输入帧的失真水平是直接的。对于JPEG图像，质量信息嵌入在图像中;对于DASH视频流，帧分辨率是直接可用的;对于亮度级别，我们可以根据其像素值计算图像的亮度总的来说，GearNN可以快速确定当前输入帧使用哪个适配器，从而实现实时适配。为什么要在层次上进行调整？调整DNN权重的子集不仅需要它们的新值，还需要它们在模型中的位置。例如，我们可以使用0-1向量来标记每个权重（1表示进行自适应，0表示不进行自适应），那么具有数百万权重的DNN需要非常长的向量，导致巨大的开销。相比之下，标记DNN层会产生很小的开销，因为DNN通常有多达数百个层。更新参数冻结参数具有特定失真级别的数据集图像损失反向传播微调此特定失真级别的适配器DNN输出培训空间频率空间频率空间频率空间频率空间频率空间频率灵敏度（绝对值。梯度）L9579图9：GearNN和基准测试的实现。蓝色的模块在处理输入实例时是活动的，而黑色的模块是开销。4. 执行4.1. DNN相关配置我们使用PyTorch实现GearNN[14]。由于GearNN被设计为通用推理架构，因此我们使用两种流行的DNN模型来实现它：扩张残差网络（DRN）[21，22]和Mask R-CNN模型[7]。此外，我们在Cityscapes数据集[2]上运行DRN进行城市驾驶场景语义分割，并在Penn-Fudan数据集[17]上运行Mask R-CNN进行行人分割和检测。我们的实现使用0的小学习率。001，并且在微调适配器时仅运行4个epoch，因为它仅稍微更新了使用未失真数据集训练的原始DNN。由于GearNN允许用户指定内存约束，我们评估了具有各种适配器大小的GearNN，范围从原始DNN大小的0.1%到1%，我们的经验结果表明，具有原始DRN大小的0.2%或Mask R-CNN大小的0.4%的适配器最好地平衡了推理精度和内存消耗。4.2. 基准解决方案对于基准测试，我们使用4种替代方案（也在图中）。9）：原始DNN。原始DNN是使用原始未失真数据集预训练的DNN，并且可在公共中使用在我们的实现中，我们从其作者提供的公共链接中下载并使用原始DNN模型。DNN切换使DNN输入适应各种失真的直接解决方案是训练和使用多个DNN，每个DNN用于特定的失真水平。混合训练。使DNN鲁棒的一种常见技术是通过数据增强使用扰动图像进行训练。我们将原始数据集转换为多个版本，每个版本对应一个特定的失真水平，然后从这些失真数据集中随机采样，形成一个新的混合失真数据集。最后，我们用混合数据集微调DNN。稳定性训练。 Google提出稳定训练[23]以提高DNN对噪声输入的鲁棒性。该解决方案迫使DNN将具有小扰动的输入映射到其原始输入图像，以实现相同的推理输出。稳定性训练只是改进了训练阶段，推理仍然使用常数DNN。4.3. 失真类型我们现在定义GearNN中使用的输入失真类型。分辨率缩放。GearNN的一个主要动机是使视频分析适合自适应比特率（ABR）视频流，而ABR流的标准方式是像MPEG-1那样调整视频分辨率。DASH [15]. 缩小视频维度会减小其大小并导致失真。我们使用H.264编码器压缩原始分辨率的Cityscapes数据集{2048×1024}到6个分辨率较小的不同版本：{1920 ×960，1600 × 800，1280 × 640，1024 × 512，800×400，512×256}。所有这些帧共享一个常数速率因子（CRF）为18，意味着小的量化损失。JPEG压缩。JPEG图像的质量由范围从1到100的整数值Q定义，并且较高的Q表示较高的图像质量和较少的失真。我们将无损PNG格式的数据集（如Cityscapes）压缩为10个具有JPEG质量级别的不同版本，范围从10到100，步长为10，同时保持与未失真数据集相同的分辨率。亮度松开太亮或太暗的视觉输入会显著影响DNN的推理性能。我们通过Pillow调整图像亮度，以使同一数据集具有多个版本，每个版本都具有与原始数据集特定的相对亮度我们的实施方案-分辨率包括从0.1（原始亮度的10%）到2.0（原始亮度的两倍）的相对亮度级别，分辨率不变。GearNN通过为每个分辨率、压缩级别、亮度甚至它们的组合微调适配器来处理失真的输入。在第5节中，我们分别评估了不同的失真类型，以显示每种类型的影响。5. 实验我们现在展示了在不同的失真类型、数据集、任务和基准测试下的实验结果5.1. JPEG质量等级在服务器（在边缘或云端）处理来自远程IoT设备的图像的实际场景中，服务器处的推理引擎可能会遇到各种质量级别的JPEG图像，因为JPEG是主要的图像压缩标准。在这种情况下，我们评估GearNN的输入，我们使用Cityscapes数据集，并在DRN-D-22（一个较小的DRN）上构建GearNN与§ 5.2中的模型不同，以表明它不限于特定的模型。按照§4.3，我们将数据集转换为10个具有不同JPEG质量级别的版本，并设置adap-大小为0。2%的模型大小（§4.1），则内存开销为0。2%×（10−1）=1。比原来的DNN高出8%。（b）切换DNN（a）原始DNN/稳定性训练/数据扩充视觉输入推理输出视觉推理输入输出（c）GearNN视觉推理输入输出…………9580mIoU [%]mIoU [%]707060656050齿轮NN55原始DNN40DNN交换5020混合训练04572706866GearNN64原始DNNDNN切换62混合训练58102030405060708090 100输入质量[JPEG质量指数](a) 不同的JPEG质量。51280010241280160019202048输入宽度（宽高比2：1）(b) 不同的决议。0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0相对亮度(c) 不同的亮度。图10：GearNN可以适应各种输入失真水平。表1：内存开销。尽管GearNN和DNN切换的准确性相似，但GearNN的成本仅为1。2%的内存开销，10 JPEG质量（DRN-D-22）参数开销7 H.264决议（DRN-D-38）参数开销原始DNN（表1），而DNN切换需要在存储器中保持多个DNN，因此遭受高存储器开销。当每个输入分辨率出现的机会相等时，GearNN达到2。平均准确率比原始DNN高88%，1。70%以上的混合训练，和0。超过DNN交换的71%。5.3.亮度水平图中的结果。10a证实了GearNN在所有JPEG质量级别上的高推理准确性。相比之下，原始DNN在低质量下遭受显著的准确性下降，并且其mIoU在质量低于50时下降到40%以下混合训练也比GearNN实现了更低的准确性，特别是在具有高质量的输入上&，因为它试图将图像的不同失真版本映射到相同的推理输出，这对于单个DNN来说是困难的。2）。DNN切换的精度与GearNN当每个质量级别在输入中出现的概率相同时，GearNN达到18。12%的平均精度增益比原来的DNN和1。95%以上的混合训练。与内存消耗型DNN切换的精度差异仅为0。百分之二十二5.2. H.264分辨率然后，我们评估GearNN如何保证在动态输入视频分辨率的高推断精度，使用Cityscapes数据集、DRN-D-38模型和7个分辨率级别的帧缩放作为失真（§4.3）我们将适配器大小设置为0。2%的模型大小（§4.1），则内存开销为0。2%×（7−1）= 1。比原来的DNN高出2%。从图中的结果10b我们看到GearNN和DNN切换都明显优于原始DNN和混合训练，在分辨率低于10241的情况下，准确度提高了约4%（mIoU）。1使用原始图像训练的DNN在较小的输入大小下实现了最高的准确性（图1）。10b），这意味着将对象缩放到GearNN的另一个应用场景是自动驾驶，摄像头可以捕捉不同亮度级别的视频帧。在这种情况下，突然的亮度变化甚至可能导致人眼暂时失灵。在这个实验中，我们揭示了基于DNN的计算机视觉也有同样的问题，lem和GearNN可以通过部分地使DNN适应亮度变化来解决这个问题。根据§4.3，我们改变数据集的亮度并使用DNR-D-38模型。从图10 c中，我们看到在各种亮度水平下测试解决方案的相同性能排名其次，原始DNN在所有亮度级别上的性能最差。总的来说，考虑从 0. 1 比 2 。 0 ，GearNN成本只有0。2% ×20=4%的内存开销，相比之下原始DNN，而DNN交换成本1900%的额外内存，使其不切实际。如果所有亮度级别有相同的机会出现在输入中，GearNN达到5。平均准确率比原始DNN高11%，1. 11%，比混合训练略低0。与DNN切换精度相差05%。5.4. 不同的数据集和任务为了证明GearNN不局限于特定的模型或数据集，我们使用Penn-Fudan数据集对行人检测和分割运行GearNN我们使用DNN内核的匹配视场可以补偿信息损失。然而，这一意见超出了本文件的范围GearNN原始DNN DNN切换数据aug.mIoU [%]vs. 原始vs. 原始GearNN16,193,465百分之一点八26,334,993百分之一点二原始DNN15,907,1390%的百分比26,022,7230%的百分比稳定性训练15,907,1390%的百分比26,022,7230%的百分比9581mIoU [%]mIoU [%]80 85758070齿轮NN7565原始DNNDNN交换60混合训练30 350 0706560GearNN原始DNN55DNN交换混合训练45= 0.1= 0.1= 0.5= 0.5=1=1= 2=2原始DNNGearNN1020304050607080 901001020304050607080 901002423 2221 2019 181716 15输入质量[JPEG质量指数]图11：基于Mask R-CNN的GearNN（语义分割）。输入质量[JPEG质量指数]图12：基于Mask R-CNN的GearNN（边界框检测）输入质量[CRF索引]图13：不同配置下GearNN与稳定性训练的对比使用ResNet-50作为主干掩码R-CNN，并执行行人的分割和边界框检测。我们的GearNN原型运行在Mask R-CNN 模型并支持 10 个 JPEG 输入质量级别（§4.3），用于行人分割（图4）。 11）和边界框检测（图。第12段）。因为我们将适配器大小设置为0。4% 的模型大小（ §4.1 ），内存开销为 0 。 4%×（10−1）= 3。比原来的DNN高出6%。根据图中的分割结果11、我们先看当输入质量低于20时，原始DNN和混合训练遭受严重的准确性损失。GearNN具有与DNN切换相似的精度，如在所有其他实验中一样。随着输入质量的提高，原始DNN和混合训练的精度仍然低于GearNN但差距小于Cityscapes数据集，因为PennFudan数据集的分辨率低于Cityscapes，并且低分辨率数据集上的语义分割更简单，对输入失真更鲁棒。在图12中，我们进一步绘制了从同一组实验中测量的边界框检测精度。结果表明，GearNN总是比原始DNN和混合训练获得更高的准确性，特别是在低输入质量下。同时，它实现了类似的准确性，同时保持比DNN交换低得多的内存开销。总的来说，如果所有JPEG质量级别在输入中出现的概率相同，则GearNN达到5。16%（分割）/3。53%（检测）比原始DNN的平均准确率，1。20%（分割）/1。33%（检测）高于混合训练，并有小0。43%（分割）/0。24%的（检测）准确度与内存消耗的DNN切换不同。5.5. 与稳定性训练的在提高DNN对失真/扰动输入的鲁棒性方面，只有少数现有的解决方案。其中最著名的作品是Google提出的稳定性训练。因此，我们对各种配置下的稳定性训练进行了广泛的性能比较。特别是，我们实现了基于DRN-D-38模型的GearNN和稳定性训练，在Cityscapes数据集上对它们进行评估，H.264编码器。对于稳定性训练，有两个可配置参数：（i）α控制未失真输入的稳定性和准确性之间的权衡，（ii）σ控制失真容限。我们测试了α和σ的多种组合，然后在图中显示结果。十三岁我们首先观察到GearNN在任何输入失真水平下都优于所有测试的α和σ组合。我们还看到，α和σ控制着稳定性训练的性能。总的来说，较高的α或σ导致对失真的它基本上牺牲了低失真输入的perfor- mance，以提高高失真输入的perfor- mance，从而平衡了整体perfor-mance。与α=2和σ=0时精度最高的稳定性训练配置相比。1，GearNN达到4. 84%的平均精度增益，而最高精度增益为7。CRF为24和3时为15%。18%，通用报告格式为15。总之，稳定性训练使用单个DNN来适应广泛的失真，因此它必须在不同失真水平之间权衡性能。相比之下，GearNN部分地调整权重以适应当前的输入失真水平，这保证了其高精度和低内存开销。6. 结论在本文中，我们提出了GearNN，一种内存高效的自适应DNN推理架构，以对抗各种DNN输入失真。GearNN能够在广泛的输入失真下进行鲁棒的推理，而不会影响内存消耗。它只识别和调整失真敏感的DNN参数，DNN的一小部分（例如，0的情况。总尺寸的2%），遵循瞬时输入失真水平。我们的评估表明，GearNN的性能优于基准解决方案，如谷歌的稳定性训练，当输入的失真水平因自适应视频分辨率，JPEG压缩或亮度变化而变化时作为一种通用的推理架构，GearNN可以潜在地应用于许多现有的DNN模型，并使它们能够适应物联网时代的各种DNN输入失真。mIoU [%]9582引用[1] Tolga Bolukbasi ， Joseph Wang ， Ofer Dekel ， andVenkatesh Saligrama.用于高效推理的自适应神经网络。在第34届机器学习国际会议论文集-第70卷，2017年。2[2] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在IEEE计算机视觉和模式识别会议（CVPR）上，2016年。6[3] 冈汉·丹达和肯尼斯·罗斯量化对多层神经网络的影响。IEEE Transactions on Neural Networks，1995年。3[4] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。2[5] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。3[6] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE国际计算机视觉会议（ICCV）的论文集，2017。2[7] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页6[8] Yihui He，Xiangyu Zhang，and Jian Sun.用于加速深度神经网络的通道修剪。在IEEE计算机视觉国际会议论文集，第1389-1397页，2017年。2[9] Te-Yuan Huang ， Ramesh Johari ， Nick McKeown ，Matthew Trunnell，and Mark Watson.基于缓冲器的速率自适应方法：从一个大型视频流媒体服务中找到的证据。ACM SIGCOMM计算机通信评论ACM，2014年。3[10] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。量化神经网络：用低精度权重和激活训练神经网络。机器学习研究杂志，2017年。3[11] Ehud D Karnin.一个简单的修剪反向传播训练神经网络的过程. IEEE神经网络学报，1990年。2[12] Sinno Jialin Pan 和 Qiang Yang 。迁移学习研究 IEEETransactions on Knowledge and Data Engineering ，2009。2[13] 罗杰·潘托斯和威廉·梅Http直播。RFC，2017年。3[14] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaiso

下载后可阅读完整内容，剩余1页未读，立即下载