量化U网定位算法

42 浏览量更新于2023-10-13 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于量化密集连接U网的地标定位算法Zhiqiang Tang1，Xi Peng2，Shijie Geng1，LingfeiWu3，Shaoting Zhang4，and Dimitris Metaxas11RutgersU niversity，{zt53，sg1309，dnm}@ rutgers.edu2宾厄姆顿大学，xpeng@binghamton.edu3IBMT. 4SenseTime，zhangshaoting@sensetime.comlwu@email.wm.edu抽象。在本文中，我们提出了量化的密集连接的U-网有效的视觉地标定位。其思想是，相同语义含义的特征在堆叠的U网中被全局重用。这种密集的连接性极大地改善了信息流，从而提高了定位精度。然而，普通密集设计在训练和测试中都会遇到关键的效率问题为了解决这个问题，我们首先提出了K阶密集连接来修剪长距离捷径;然后，我们使用内存高效的实现来显着提高训练效率，并研究了一种可以将模型大小减半的迭代改进。最后，为了减少训练和测试中的内存消耗和高精度操作，我们进一步将定位网络的权重，输入和梯度量化为低位宽数字。我们验证我们的方法在两个任务：人体姿态估计和人脸对齐。结果表明，我们的方法实现了最先进的定位精度，但使用的参数少了70%，模型大小减少了98%，与其他基准定位器相比，节省了32倍的训练内存。1介绍定位视觉地标，如人体关节[37]和面部关键点[41]，是一个重要但具有挑战性的问题。堆叠的U形网，例如沙漏（HG）[23]被广泛用于界标定位。一般来说，他们的成功可以归因于设计模式：1）在每个U-Net内，连接自上而下和自下而上的特征块以促进梯度流;以及2）将多个U-Net堆叠在级联中以逐步改进预测。然而，在类似的U-Ne t中，这种shortcutcutnectionexx仅是“locacally”的[ 32]。这是一种非“全局”的网络连接，可以通过U- Ne t来实现。不同U-网中的块不能共享特征，这可能阻碍信息流并导致冗余参数。我们提出密集连接的U-网（DU-Net）来解决这个问题。关键思想是直接连接相同语义的块，即。在自上而下或自下而上的上下文中具有相同的分辨率，从任何U-Net到所有2Tang等人1x1，128256堆叠式U形网耦合U型网瓶颈1瓶颈23x3，128321x1，N1283x3，128128级联.联系我们1x1，256128图1.一、堆叠的U型网和DU型网的图示堆叠U型网络仅在每个U型网络内具有跳过相比之下，DU-Net还将不同U-Net中具有相同语义含义的功能重用可以显著减少每个块中的瓶颈大小，如右图所示因此，在相同数量的U形网的情况下，DU-Net仅具有堆叠U形网的30%参数随后的U网。请参考图1为例。密集连接性类似于DenseNet [14]，但将设计理念从特征推广到语义层。在堆叠的 U-Net 上，Itencouragesinformationfl〇w以及“gl 〇b ally”地被使用，从而产生改进的然而，在设计DU-Net时存在关键问题：1）参数的数量将具有二次增长，因为n个堆叠的U-Net可以生成O（n2）个连接。2）简单的实现可能会为每个连接分配新的内存，这使得训练非常昂贵，并限制了DU-Net的最大深度。我们对这些效率问题的解决方案有三个方面。首先，我们不连接所有堆叠的U-Net，而是只连接一个U-Net到它的K个后继者。我们称之为K阶连通性，其目的是通过切断长距离连接来平衡拟合精度和参数效率第二，我们在训练中采用了一种关键思想是重用预先分配的内存，以便所有连接的块可以共享相同的内存。与朴素的实现相比，这种策略可以训练一个非常深的DU-Net（实际上是2倍深）。第三，为了进一步提高效率，我们研究了一种迭代设计，可以将模型大小减少到一半。更具体地，DU-Net的第一遍的输出被用作第二遍的输入，其中检测或回归损失被应用作为监督。除了缩减网络参数的数量外，我们还研究了进一步量化每个参数。这源于无处不在的移动应用程序。虽然目前的移动设备可以承载几十MB的模型，但部署这样的网络需要高端GPU。然而，量化模型可以通过一些专门设计的低成本硬件来加速。除了在移动设备上部署模型[18]之外，最近出现了在分布式移动设备上训练深度神经网络[22]。为此，我们还尝试在训练中不仅对模型参数进行优化，还对其输入（中间特征）和梯度进行优化。这是第一次尝试使用量化输入和梯度来研究训练地标定位器。总而言之，我们的主要贡献是：基于量化密集连接U网的地标定位算法3– 据我们所知，我们是第一个提出量化的密集连接的U-网的视觉地标定位，这在很大程度上提高了信息流和特征重用的语义水平。– 我们提出了K阶连通性来平衡准确性和效率.它减少了增长的模型大小从二次线性删除平凡的连接。– 非常深的U形网可以使用内存高效的实现来训练，其中预先分配的内存被所有连接的块重用– 我们进一步研究了一个迭代的改进，可以减少一半的模型大小，通过转发DU-Net两次使用检测或回归监督。– 与以前只量化模型参数的努力不同，我们是第一个量化它们的输入和梯度，以提高地标定位任务的训练通过为权重、输入和梯度选择适当的量化位宽，量化DU-Net实现了32倍的内存节省，性能与最先进的方法相当。– 通过详尽的实验从不同方面对DU-Net在人体姿态估计和人脸对齐方面，DU-Net表现出相当的定位精度，并且与最先进的方法相比，使用了2%的模型大小2相关工作在本节中，我们回顾了最近在设计卷积网络架构，量化神经网络，人体姿态估计和面部标志定位方面的发展。网络架构。身份映射使得可以训练非常深的ResNet [12]。流行的堆叠U形网[23]是基于剩余模块设计的最近，DenseNet [14]在图像分类任务中优于ResNet，受益于其密集的连接。我们希望将密集连接用于多个U型网络。网络量化。训练深度神经网络通常会消耗大量的计算资源，这使得难以在移动设备上部署。最近，网络量化方法[9，19，47，40，31]提供了一种有效的解决方案，通过减少高精度运算和操作数来减小网络的大小。在最近的二值化卷积地标定位器（BCLL）[5]架构中，XNOR-Net [31]被用于网络二值化。然而，BCLL仅量化用于推断的权重并引入实值缩放因子。由于其训练精度要求高，无法节省训练内存和提高训练效率。为此，我们探索同时在训练和推理中量化我们的DU-Net。人体姿态估计。从DeepPose [37]开始，基于CNN的方法[39，6，4，28，15，20，3，46]成为人类姿势估计和预测的主流。最近，堆叠沙漏[23]的架构在可用性和准确性方面明显击败了所有以前的架构4Tang等人ℓ因此，所有最近的最先进的方法[8，42，7，26]都建立在其架构上。他们用更复杂的模块替换剩余模块，添加图形模型以获得更好的推理，或者使用额外的网络来提供对抗性监督或进行对抗性数据增强[26]。相比之下，我们设计了一个简单但非常有效的堆叠U型网络的连接模式。面部标志定位。同样，CNN在很大程度上重塑了面部标志定位领域。基于CNN的传统方法可以很容易地胜过[44，45，21，24，25]。在最近的Menpo面部地标定位挑战[43]中，堆叠沙漏[23]实现了最先进的性能。所提出的K阶连通U-网可以产生更好的结果，但具有更少的参数。3我们的方法在本节中，我们首先在回顾堆叠的U型网之后介绍DU-Net然后，我们提出了阶K连接，以提高其参数效率，一个有效的实现，以减少其训练内存，和一个迭代的改进，使其参数效率更高最后，利用网络量化进一步减少训练内存和模型大小。3.1DU-NetU-Net包含自上而下、自下而上的块以及它们之间的跳过连接。假设多个U形网堆叠在一起，对于第六个自上而下的U形网和第二个自下而上的U形网，在U-Net中的底部备份块中，我们使用n（·）和g（·）来确定不存在此错误。ℓ ℓ在一个实施例中，线性变换形式是。输出由yxn和yn表示。f n（·）和ℓ ℓ ℓgn（·）是C〇nv 〇 l（C〇 nv）、Batc〇nor_malizati〇n（BN）[16]、整流线性单元（ReLU）[11]和池化的组合运算。堆叠U型网。在第nU-Net的第n个自上而下和自下而上块处的特征转换是：xn=fn（xn），yn= gn（yn+ xn）.（一）ℓ ℓ ℓ−1ℓ ℓ ℓ −1ℓ跳过连接仅在每个U-Net内本地存在，这可能限制信息跨U-Net流动。DU-Net。为了使信息在堆叠的U-网之间有效地流动，我们提出了一种全局连接模式。不同U-Net的相同位置处的块具有直接连接。因此，我们将这种密集连接的U-Net架构称为DU-Net。图1给出了说明。在数学上，第nU-Net的第X个自上而下和自下而上块处的特征转换可以公式化为：xn =fn（[xn，X n−1]），y n= g n（[y n，x n，Y n−1]），（2）ℓ ℓ ℓ−1ℓℓ ℓ ℓ −1ℓℓ其中，Xn−1= x0， x1，· · ·， xn−1是中第个自上而下块ℓ ℓℓ捷克共和国-1 01n−1所有之前的U网。类似地，Y =y，y，···，y表示输出基于量化密集连接U网的地标定位算法5ℓ订单0订单12阶图二. K阶连通性的图解为简单起见，每个点表示一个U-Net。红线和蓝线是内部语义块和外部输入的捷径连接。阶-0连通性（顶部）仅通过其输入和输出将U网串在一起，即堆叠U形网。顺序连接（中间）具有用于相邻U-Net的捷径连接类似地，顺序连接（底部）有3个邻近的U-Net的快捷连接图3.第三章。存储器高效实现的图示它是针对每个瓶颈结构中的Concat-BN- ReLU-Conv（1× 1）。ReLU未被示出，因为它是没有存储器请求的就地操作。高效的实现预先分配固定的内存空间来存储连接块的协调和规范化特征相比之下，朴素的实现总是为它们分配新的内存，导致高内存消耗。从他的心脏到心脏的血液。 [···]不需要在现有技术中进行计算，这可以使信息流比等式1中的求和运算更有效。根据等式2，块不仅从当前U-网中的连接块接收特征，而且还从其所有先前U-网接收相同语义块的输出特征。请注意，这种语义级别的密集连接性是DenseNet [14]中的密集连接性的概括，其仅连接每个块内的层。3.2K阶连通性在上述DU-Net的公式中，我们在所有U-Net中连接具有相同语义含义的块。连接将在深度方向上具有二次增长。为了使DU-Net参数有效，我们建议切断一些琐碎的连接。为了补偿，我们在每个U-Net的末尾添加了一个中间监督中间监督，作为跳跃连接，也可以缓解梯度消失的问题。在数学上，特征Xn−1和ℓ公式2中的Yn−1变为Xn−1 = xn−k，···， xn−1，（3）ℓ ℓ ℓYn−1 = yn−k，···， yn−1，（4）ℓ ℓ ℓ其中0≤k≤n表示有多少个先前的邻近U-网与当前的U-网连接。k=n或k=0将导致堆叠的U形网或完全密集连接的U形网。中等阶可以将DU-Net参数的增长从二次减少到线性。因此，它大大提高了DU-Net的参数效率，并可以使DU-Net增长数倍。瓶颈输入级联新Mem.BatchNorm新Mem.卷积（1x1）输出NveImplementionEffientImmention共享内存1共享内存26Tang等人所提出的K阶连接具有与变阶马尔可夫（VOM）模型[2]类似的原理。每个U-Net都可以被视为马尔可夫模型中的一个状态。当前的U-网取决于固定数量的在前的附近U-网，而不是在前的仅一个或所有U-网。以这种方式，远程连接被切断。图2示出了三个不同阶的连接。在图2中，中心轴上方的连接遵循阶数-0、阶数-1和阶数-2的V0 M模式，而中心轴与其下方的连接一起遵循阶数-1、阶数-2和阶数-3的V0M模式稠密连通性是K阶连通性在K极限上的一种特殊情况.对于小的K，K阶连通性的参数有效性要高得多但是较少的连接可能会影响非常深的DU-Net的预测精度。为了使DU-Net同时具有高的参数效率和预测精度，我们建议使用阶K连接与中间监督。相比之下，DenseNet [14]在最后只有一个监督。因此，它不能有效地利用K阶连通性。3.3内存高效实现得益于K阶连通性，我们的DU-Net是相当参数有效的。然而，一个简单的实现会阻止训练非常深的DU-Net，因为每个连接都会复制输入特征。为了减少训练记忆，我们遵循有效的实现[29]。更具体地，所有U网中的相同语义块的级联操作共享存储器分配，并且它们的后续批量范数操作共享另一存储器分配。假设DU-Net包括N个U-Net，每个U-Net具有L个自顶向下块和L个自底向上块。我们需要为2L个语义块中的每一个预分配两个存储器对于第X个自顶向下块，连接后的特征[x1， X0]，· · ·，[xN−1， XN−2]共享相同的存储器空间。同样地，ℓ−1ℓ ℓ −1ℓ连接的要素[y0，x0]，[y1，x1， Y0]，· · ·，[yN−1， xN−1， YN−2] inℓ−1ℓℓ−1ℓℓℓ−1ℓ ℓ第九个自底向上块共享相同的存储空间。在一个共享存储器分配中，稍后产生的特征将覆盖先前的特征。因此，需要在后向相位中重新计算级联及其后续批范数运算。图3示出了简单且有效的实现。3.4迭代细化为了进一步提高DU-Net的参数效率，我们考虑了一种迭代精化方法。它只使用DU-Net的一半，但可以实现相当的性能。在迭代细化中，DU-Net具有两个前向通道。在第一遍中，我们将第一个和最后一个U网的输入连接起来，并将它们合并在一个小的密集块中。然后，在DU-Net中再次前馈细化的输入由于精细化的输入，预期会有更好的输出。在该迭代管道中，DU-Net在第一和第二迭代中具有两组监督。检测和回归监督基于量化密集连接U网的地标定位算法7n2k−1[4]已经在地标检测任务中使用。然而，没有调查他们如何相互比较。为此，我们可以尝试两次迭代的检测和回归监督的不同组合我们的比较可以为未来的研究提供一些指导。3.5网络量化我们的目标是在DU-Net的训练和推理阶段减少高精度的操作和参数权值的位宽可以通过符号函数或对称阈值减少到一个或两个比特，而分层梯度和输入通过线性映射量化。在之前的XNOR-Net [31]中，引入了缩放因子来近似实值权重。然而，计算这些浮动因子花费额外的计算资源。为了进一步减少内存使用和模型大小，我们尝试删除缩放因子并遵循WAGE [40]在训练期间量化数据流。更具体地，通过以下等式将权重二进制化为-1和1q（x）=sign（clip（x，−1，1））（5）或通过如[19]所述的方法将Σ化为0-1，0和-1，其中δ≈0。7ni=1 |假设wi由高斯分布初始化。|provided that w iis initialized by Gaussiandistributions. 的数据流，即梯度和输入被量化为k比特值线性映射函数：q（x，k）=clip（σ（k）·round（xσ（k））−1+σ（k），1−σ（k））（6）这里，通过σ（k）=1来计算单位距离σ.在下面的实验中-我们探索不同的位宽组合，以平衡性能和内存消耗。4实验在本节中，我们首先通过与堆叠U网的比较来证明DU-Net的有效性。然后我们探讨了预测精度与K阶连通性之间的关系.在此之后，我们评估了将DU-Net参数减半的迭代细化。最后，我们测试了网络量化。不同的位宽组合，以找到适当的平衡精度，模型大小和内存消耗。最后给出了一般性一些定性结果如图6所示。网络输入分辨率归一化为256×256。在DU-Net之前，步长为2的Conv（7 × 7）过滤器和最大池化将产生128个分辨率为64×64的特征。因此，DU-Net的最大分辨率为64×64。DU-Net中的每个块都有一个瓶颈结构，如图1. 在每个瓶颈的开始，来自不同连接的特征被连接并存储在共享内存中然后，通过Conv（1× 1）将连接的特征压缩为128个特征。最后，对Conv（3× 3）8Tang等人还产生了32个新特征。在卷积之前使用批处理范数和ReLU。训练我们使用PyTorch实现了DU-Net。DU-Net由优化器RMSprop训练。当训练人体姿态估计器时，初始学习率为2。5× 10−4，在100个历元后衰减到5× 10−5整个训练需要200个epoch。面部标志定位器更容易训练。也从2开始。5× 10−4，其学习率在第30、60和90个时期分别除以5、2和2。上述设置对于量化的DU-Net保持相同。为了匹配数据流的速度，我们为梯度和输入设置相同的位宽。除了第一个和最后一个卷积层之外，我们在整个DU-Net上量化数据流和参数，因为定位是一项细粒度的任务，需要高精度的热图。人体姿势数据集。我们使用两个基准人体姿势估计数据集：MPII人体姿势[1]和利兹运动姿势（LSP）[17]。MPII是从YouTube视频中收集的，其中包含广泛的人类活动。它有25K张图像和40K个带注释的人，它们被分成29K的训练集和11K的测试集在[35]之后，从训练集中选择3K个样本每个人有16个标记的关节。LSP数据集包含来自许多运动场景的图像。它的扩展版本有11K训练样本和1K测试样本。LSP中的每个人有14个标记的关节。由于一张图片中通常有多个人，我们将每个人裁剪并将其大小调整为256x256。我们还使用缩放（ 0.75-1.25），旋转（-/+30）和随机翻转来增加数据。面部标志数据集。在HELEN、AFW、LFPW和IBUG的复合物上进行面部标志局部化的实验，这些复合物在300-W挑战中被重新注释[33]。每个人的脸有68个标志。在[48]和[21]之后，我们使用HELEN，LFPW和AFW的所有图像的训练图像，总共3148个图像作为训练集。测试在公共子集（HELEN和LFPW的测试图像）、挑战子集（来自IBUG的所有图像）及其并集上进行。我们使用300-W挑战中提供的边界框来裁剪面部。应用与人类姿态估计中相同的缩放和旋转的增强公制。我们使用的标准度量在人类姿态估计和面部对齐。具体而言，正确关键点百分比（PCK）用于评估人体姿势估计方法。并采用归一化平均误差（NME）来衡量人脸特征点定位的性能。遵循300-W激发的惯例，我们使用眼间距离来标准化平均误差。对于网络量化，我们提出了平衡指数（BI），以检查性能和效率之间的权衡。4.1DU-Net与堆叠式U-Net为了证明DU-Net的优势，我们首先将其与传统的堆叠U-Net进行比较。该实验在MPII验证集上完成所有DU-Net使用顺序连接和中间监督。表1示出了具有4、8和16个U形网的三对比较他们的PCKh和数量基于量化密集连接U网的地标定位算法9表 1. 订购 -1\f25 DU-Net-1\f6v.s. 通过PCKh（%）和参数编号测量的MPII验证集上的堆叠 U 形网。 -1\f25Order-1\f25 DU-Net-1（阶-1\f25 DU-Net-1）的性能与-1\f25 Stacked U-Net-1（堆叠的-1\f25 U-Net-1）相当但它只有约30%的堆叠U形网的参数。U-Net之间的特征重用使得每个U-Net变得轻量化。表2.使用1阶 DU-Net（4）对300-W的NME（%）进行迭代细化、检测和回归监督。顶部两行和底部三行是非迭代结果和迭代结果。迭代细化可以降低定位误差。回归监督优于检测监督。方法PCKh#参数参数比方法Easy HardFull#Subset SubsetSet Para.堆叠式U形网（16）-50.5M百分百检测仅3.635.604.01 3.9MDU-Net（16）89.915.9M百分之三十一点五仅回归2.915.123.34 3.9M堆叠U型网（8）89.325.5M百分百检测检测3.525.593.93 4.1MDU-Net（8）89.57.9M31.0%检测回归2.955.123.37 4.1M堆叠U型网（4）88.312.9M百分百回归回归2.874.973.28 4.1MDU-Net（4）88.23.9M百分之三十点二的卷积参数。我们可以观察到，在相同数量的U网的情况下，DU-Net可以获得相当甚至更好的准确性。更重要的是，DU-Net中的参数数量减少了约70%的堆叠U-网。U-Net之间的特征重用使得DU-Net中的每个U-Net变得轻量级。此外，高参数效率使得可以在12 G GPU中以批量大小训练16阶连接的U-Net16. 相比之下，训练16个堆叠的U形网是不可行的。因此，阶-1加上中间监督可以使DU-Net获得准确的预测以及较高的参数效率，与堆叠的U-Net相比。4.2K阶连通性的评价提出的K阶连通性是提高DU-Net参数效率的关键。在这个实验中，我们研究了PCKh和卷积参数数如何随着阶数的变化而变化。图4给出了MPII验证集的结果。左图和右图显示了具有8个和16个U-Net的DU-Net的结果显然，卷积参数数目随着阶数变大而增加。然而，左右PCKh曲线具有先增大后减小的相似形状。-1阶连通性总是优于-0阶连通性然而，非常密集的连接可能不是一个好的选择，这有点违反直觉。这是因为中间监督已经提供了额外的梯度。过密的连接会使梯度积累过多，导致训练集的过拟合过拟合的进一步证据如表3所示阶数-7连接在所有训练时期中具有阶数-1的更高训练PCKh但其有效性PCKh在最后一个训练时期稍低。因此，建议在DU-Net中进行小额订单。10Tang等人训练内存（GB）89.589.088.5x1061098790.089.589.010 ×6 ×121082723619 4152012470124815订单K订单K见图4。MPII验证集上PCKh（%）、#参数和阶K连通性DU- Net的参数数目与连通度的阶数近似线性增长.然而，PCKh先增加，然后减少。小的阶数1或2将是预测精度和参数效率的良好平衡2 4 6 8 10 12 14 16U型网数量图五、简单实现与内存高效的实现。使用顺序连接、批量大小16和12GB GPU。简单的实现最多只能支持9个U-Net相比之下，内存高效的实现允许训练16个U-Net，这几乎是DU-Net深度的两倍。表 3. 订购 -1\f25 DU-Net （ 8 ） -1与-1\f25 order- 7 DU-Net（8），通过在MPII上训练和验证PCKhs（%）来测量。Order-7 DU-Net（8）稍微过拟合了训练集。它的验证PCKh最后是较低的，虽然它总是有较高的训练PCKh。表 4. 迭代阶 -1DU-Net （ 4 ）与通过NME测量的300- W上的非迭代阶迭代DU-Net（4）在DU-Net（4）上具有很少的附加参数，实现了与DU-Net（8）相当的性能。故《易经》有效的细化有可能使训练集参数的DU-Net，但仍然保持相当的性能。轻松硬完整#验证集方法子集子集参数DU-Net（4）2.915.123.343.9MIter DU-Net（4）2.874.973.284.1MDU-Net（8）2.825.073.267.9M4.3有效实施内存高效的实现使得训练非常深的DU-Net成为可能图5示出了具有1阶连接性的DU-Net的朴素和存储器高效实现训练记忆随着U-网数量的线性但高效实现的内存增长速度要比简单实现慢得多如果批量大小为16，我们可以在12 GB GPU中使用16个U-Net训练DU-Net。在相同的设置下，朴素的实现只能接受9个U-Net。PCK h#段落PCK h#段落无障碍高效实施时代150100150订购-1\f25 DU-Net（8）20.383.287.791.7订购-7 DU-Net（8）25.284.789.393.1时代150100150订购-1\f25 DU-Net（8）29.482.885.787.1订购-7 DU-Net36.684.085.186.7基于量化密集连接U网的地标定位算法114.4迭代精化迭代精化的目的是使DU-Net更有效的参数。首先，使用DU-Net（4）在300-W数据集上进行实验。结果如表2所示。对于检测和回归监督，增加迭代可以降低定位误差，证明了迭代精化的有效性。同时，模型参数仅增加了0.2M，使DU-Net的参数效率更高此外，回归监督优于检测一个，无论是在迭代或非迭代设置，使其成为一个更好的选择地标定位。此外，我们比较了迭代DU-Net（4）和非迭代DU-Net（8）。表4给出了比较。我们可以发现，迭代DU-Net（4）可以获得与DU-Net（8）相当的NME然而，DU-Net（8）具有DU-Net（4）的双参数，而迭代DU-Net（4）仅在DU-Net（4）上增加0.2M附加参数。4.5网络量化的评价通过网络量化，高精度的操作和参数可以有效地表示为几个离散值。为了找到适当的位宽选择，我们基于阶数-1 DU-Net（4）在300-W数据集上尝试了一系列位宽组合。这些组合在几种方法上的性能和平衡能力如表5所示，其中DU-Net（4）是具有4个块的DU-Net，BW和TW分别表示没有α的二值化权重和三值化权重，BW-α是具有浮点缩放因子α的二值化权重，后缀QIG表示量化的输入和梯度。对于具有有限计算资源的移动设备，稍微的性能下降是可以容忍的，只要相应的大的效率提高。为了评估的目的，我们提出了一个平衡指数（BI），以更好地检查性能和效率之间的权衡：BI=NME2·TM·MS（7）其中TM和MS分别是训练存储器和模型大小压缩比的缩写，与原始网络相比没有量化。在上述公式中计算NME的平方，以强调性能的优先重要性。对于BI，值越小，平衡能力越好。根据表5，BW-QIG（818）可以在所有组合中实现性能和模型效率之间的最佳平衡BW-QIG（818）可以减少超过4倍的训练内存和32倍的模型大小，同时达到比TSR更好的性能 [21]。此外， BW-α-QIG（818）、BW-QIG（616）和TW-QIG（626）也具有较小的平衡指数。在所有组合中，具有缩放因子α的二值化网络，即BW-α获得与原始网络DU-Net（4）最接近的误差。对于BW-α-QIG（818），性能并不比BW-QIG（818）好这主要是因为BW-α严重依赖于参数α。但12Tang等人方法杨Wei Bulat Chu Newell DU-Order-1 DU-等人[42]等。[39]等。[4]等. [8]等. [23] Net-BW-α（16）表5.通过NME（%）测量的300-W数据集上不同位宽值组合的性能和平衡能力，所有量化网络都基于1阶BW和TW是二进制化和三进制化权重的缩写，α表示浮点缩放因子，QIG是量化输入和梯度的缩写。位I、位W、位G分别表示输入、权重、梯度的位宽。训练内存和模型大小由原始DU-Net的压缩比表示（4）。平衡指数通过等式7计算。通过对模型参数进行二值化处理，可以获得相当的误差率。进一步量化输入和梯度可以大大减少训练存储器，同时增加一些检测误差。平衡指数是用于平衡量化和准确性的指标。方法BitIBitWBitGNME（%）NME（%）NME（%）训练模型平衡全套易套硬套内存大小指数DU-Net（4）3232323.382.955.131.001.0011.4BW-QIG6165.935.109.340.170.030.18BW-QIG8184.303.676.860.250.030.14BW-α-QIG8184.473.757.400.250.030.15BW321323.753.205.991.000.030.42BW-α321323.583.125.451.000.030.38TW322323.733.215.851.000.060.83TW-QIG6264.273.706.590.170.060.19TW-QIG8284.133.556.500.250.060.26数据流的量化会降低α的逼近能力。TW和TW-QIG通常比BW和BW-QIG获得更好的结果，因为它们在权重值方面有上述结果证明了网络量化的有效性，但正确的位宽组合是一个关键因素。表6.卷积参数数（百万）和模型大小（兆字节）与最先进方法的比较。DU-Net（16）有27%-62%的其他方法的参数。其二进制化版本DU-Net-BW-α（16）具有小于2%的模型大小。4.6与最先进方法的人体姿态估计。表7和9示出了MPII和LSP测试集上的人类姿势估计的比较。阶-1 DU-Net-BW-α（16）实现了相当的最先进性能。如表6所示，它#参数28.0M 29.7M 58.1M 58.1M 25.5M15.9M15.9M型号大小110.2MB 116.9MB 228.7MB 228.7MB 100.5MB62.6MB2.0MB基于量化密集连接U网的地标定位算法13见图6。人体姿态估计和面部标志定位的定性结果。DU-Net可以处理各种各样的人体姿势，即使有遮挡。它还可以检测各种头部姿势和表情的准确面部标志表7. MPII测试集的PCKh（%）比较-1阶DU-Net可以实现与最先进方法相当的性能。更重要的是，DU-Net-BW-α（16）至少有30%的参数，最多有2%的模型大小。方法头Sho. Elb. Wri. 髋膝关节是说P ishchulinetal. [27 ]第二十七话74.3 49.0 40.8 34.1 36.5 34.4 35.244.1tom ps o netal。[36 ]第三十六话95.8 90.3 80.5 74.3 77.6 69.7 62.879.6C arreiraetal. C VPR' 16 [ 6]95.7 91.7 81.7 72.4 82.8 73.2 66.481.3tom ps o netal。 CVPR ' 15 [ 35]96.1 91.9 83.9 77.8 80.9 72.3 64.882.0Huetal. C V PR' 16 [3]95.0 91.6 83.0 76.6 81.9 74.5 69.582.4P ishchulinetal. CV P R' 16 [ 28] 94.1 90.2 83.4 77.3 82.6 75.7 68.682.4我觉得这是个好主意。[20 ]第二十话97.8 93.3 85.7 80.4 85.3 76.6 70.285.0G ki oxaryetal。 ECCV' 16 [1]96.2 93.1 86.7 82.1 85.2 81.4 74.186.1R afietal。 BMVC' 16 [ 30]97.2 93.9 86.4 81.3 86.8 80.6 73.486.3Belagiannisetal. FG' 17 [ 3]97.7 95.0 88.2 83.0 87.9 82.6 78.488.1这是一个有趣的故事。 E CC V'16 [ 15]96.8 95.2 89.3 84.4 88.4 83.4 78.088.5我们都是。 CVPR' 16 [ 39]97.8 95.0 88.7 84.0 88.4 82.8 79.488.5B ulatetal。 ECCV' 16 [ 4]97.9 95.1 89.9 85.3 89.4 85.7 81.789.7新的一天。[2 3 ]第二次世界大战期间，美国的军事行动。 C VPR' 17 [ 8]98.298.596.396.391.291.987.188.190.190.687.488.083.685.090.991.5订购-1\f25 DU-Net-1（16）97.4 96.4 92.1 87.7 90.2 87.7 84.391.2订单-1\f25 DU-Net-BW-α（16） 97.696.4 91.7 87.3 90.487.3八十三点八91.0只有27%-62%的参数和小于2%的模型大小的其他最近的国家的最先进的方法。DU-Net简洁明了。其他最先进的方法使用具有复杂模块[42]，图形模型[8]或对抗网络[7]的堆叠U网。面部标志定位。DU-Net还与300-W上的其他最先进的面部标志定位方法进行了比较。请参见表8。我们使用比人类姿态估计中更小的网络阶数-1\f25 DU-Net（8），因为定位面部标志更容易。阶-1 DU-Net-BW-α（8）采用最先进的方法[23]获得可比误差然而，阶-1DU-Net-BW-α（8）只有2%的模型大小。14Tang等人表8.NME（%）与300-W数据集上最先进的面部标志定位方法的比较DU-Net-BW-α是指具有二值化权重和缩放因子α的DU-Net。二值化DU-Net获得了与最先进方法相当的性能[23]。但它有50×更小的模型尺寸。方法[44]注册[34][48个][45个][38][21日][23日]DU-Net（8）Net（8）-BW-α简易子集5.504.514.734.804.834.362.902.823.00硬子集16.7813.809.988.6010.14 7.565.155.075.36全套7.696.315.765.545.884.993.353.263.46表9.LSP测试集的PCK（%）比较-1\f25Order-1\f25 DU-Net-1也可以获得相当的最新性能。但是DU-Net-BW-α（16）的参数最多比其他最先进的方法少70%，模型大小最多比其他最先进的方法小50倍方法头Sho. Elb. Wri. 髋膝关节是说Belagiannisetal. FG' 17 [ 3]95.2 89.0 81.5 77.0 83.7 87.0 82.885.2我觉得这是个好主意。[20 ]第二十话96.8 89.0 82.7 79.1 90.9 86.0 82.586.7P ishchulinetal. CV P R' 16 [ 28] 97.0 91.0 83.8 78.1 91.0 86.7 82.087.1这是一个有趣的故事。 E CC V'16 [ 15]97.4 92.7 87.5 84.4 91.5 89.9 87.290.1我们都是。 CVPR' 16 [ 39]97.8 92.5 87.0 83.9 91.5 90.8 89.990.5B ulatetal。 ECCV' 16 [ 4]97.2 92.1 88.1 85.2 92.2 91.4 88.790.7C uetal. C VPR' 17 [ 8]98.1 93.7 89.3 86.9 93.4 94.0 92.592.6新的一天。[23 ]第二十三话98.2 94.0 91.2 87.2 93.5 94.5 92.693.0Y a ngetal。[42 ]第四十二话98.3 94.5 92.2 88.9 94.4 95.0 93.793.9订单-1\f25 DU-Net（16）97.5 95.0 92.5 90.1 93.7 95.2 94.2 94.0订单-1\f2 DU-Net-BW-α（16）97.8 94.3 91.8 89.3 93.1 94.9 94.4 93.65结论我们将稠密连通性推广到堆叠U-网，从而得到一个新颖，简单和有效的DU-Net。它将不同U-Net中具有相同语义的块连接起来为了提高其参数效率，提出了K阶连通性.同时引入了一种迭代精化方法，使其参数效率更高.它可以将DU-Net减半，但达到相当的精度。通过网络量化，可以同时进一步减少训练内存消耗和模型大小。人体姿态估计和人脸对齐的实验表明，DU-Net可以达到最先进的性能，但只有约30%的参数和约2%的模型大小。6确认这项工作的部分支持下，空军科学研究办公室（AFOSR）的动态数据驱动的应用系统计划，NSF 1763523，1747778，1733843和1703883奖。CFAN深CFSSTCDCNMDMTSRHGs（4）订单订单DU-基于量化密集连接U网的地标定位算法15引用1. Andriluka，M.，Pishchulin，L.Gehler，P.Schiele，B.：2D人体姿势估计：新基准和最新分析。在：CVPR（2014）2. 贝格

下载后可阅读完整内容，剩余1页未读，立即下载