基于旋转一致性边缘损失的低比特人脸识别

145 浏览量更新于2023-10-25 收藏 961KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6866基于旋转一致性边缘损失的低比特人脸识别吴宇东1，吴一超1，龚瑞浩1，2，吕元浩1，陈肯1，丁亮1，胡小林3，刘祥龙2，严俊杰11商汤科技2北京航空航天大学3清华大学{吴玉东，吴义超，梁定，严俊杰}@ sensetime.com摘要本文研究了开集协议下人脸识别的低比特量化与闭集图像分类任务中的低比特量化不同我们在角空间中重新定义了量化误差，并将其分解为类误差和个体误差。这两部分分别对应于类间可分离性和类内紧性而不是消除整个 QE ，我们提出了旋转一致的边缘（RCM）损失，以尽量减少个别错误，1009080706050(a) 闭集和开集0.030.020.01这对于特征辨别能力更重要前-40Top1 TPR（关闭）TPR（打开）0.00025 50 75100125Angle（）在流行的基准数据集上进行了广泛的实验，(b) 准确度比较(c) 正对角MegaFace Challenge、Youtube Faces（YTF）、LabeledFace in the Wild（LFW）和IJB-C显示了低位（例如，4位、3位）FR量化任务。1. 介绍近年来，人脸识别（FR）问题已得到充分研究[41，42，12，4，25，8，46，54]。其中，深度FR技术利用分层和重量级网络架构[43，34，38，14，16]，显著提高了最先进的性能并促进了广泛的应用。然而，过多的内存和计算消耗使得在移动或嵌入式设备上部署大规模网络变得不切实际量化技术[6，5，31，55，56，10]作为一种优雅的压缩解决方案出现，以解决这个问题。该方法的核心思想是通过将连续值映射为离散整数来减少权重和激活的位宽，这样不仅可以减少内存占用，而且可以直接加速推理。尽管具有吸引人的益处，但低比特宽度可能由于量化误差（QE）而降低精度。为了最小化QE，已经提出了许多方法[53，36，2，1]，并且已经在闭集计算机领域中被证明是成功的图1：闭集和开集量化之间的差异。(a)分别描述了闭集和开集的量子化过程。Wi是最后一个全连接层的权值（第i类权值）的第i列。灰色圆圈表示测试集中未知的人脸类别，绿色虚线表示决策边界。(b)比较了量化后top1精度和TPR的下降。FP是指全精度。(c)说明了由量化引起的正对之间的角度的增加。视觉问题1，如图像分类和目标检测[23]。然而，对于现实世界的FR，测试身份（ID）与训练集不相交是很常见的，这使得开集FR2问题更具挑战性和实用性[25，11]。在这项研究中，我们表明，FR是更敏感的QE比闭集分类任务，因此需要新的复杂的技术来解决这个问题。从本质上讲，FR是度量学习的典型场景，其中不同ID的特征被期望具有区分性的大边缘，而不仅仅是可分离的，如图所1a. 为了证明开集模型量化的困难为1对于闭集协议，所有测试类都在训练集中预定义[25]。2本文中“94.593.588.086.066.0FP4位50.0准确度（%）FP4位12121保证金21开集2闭集比例（%）6867闭集协议，我们从CASIA-WebFace [52]中选择100个类别，然后选择所有数据的70%作为训练集，其余作为测试集。对于开放集方案，收集10个额外类别作为开放测试集。我们训练ResNet18 [14]并将其转换为4位。如图1b，在量化后，分类的top1准确率基本保持不变，而FR的真阳性率（TPR）下降了20%以上，尤其是在开放测试集上。正对（两个样本属于同一id）之间的角度在量化后也显著增加（图1）。1c），这表明降低了类内紧性。先前的闭集分类量化训练方法试图通过精心设计的量化器[53，1，2]或知识分解（KD）[31]完全消除QE。在本文中，我们认为，提高性能的低比特FR模型并不完全等同于减少QE，并提出了一种新的旋转一致的边缘（RCM）损失函数的有效低比特FR量化。我们将人脸特征表示的量化误差定义为人脸特征的全精度（FP）特征与其量化特征之间的夹角，称为“A-QE”。对于单个样本，A-QE可以分解为两部分：类误差和个体误差.类误差是指由量化引起的类的整体旋转我们观察到，虽然它在低比特模型中是巨大的，但它并没有削弱类间的可分性。另一方面，个体误差是指每个样本的组内偏差。它代表了类内结构的变化，从本质上影响了量化FR模型的因此，在这项研究中，我们试图通过将其引入到基于余弦的softmax损失函数中作为角裕度来最小化个体误差而不是整个纠缠A-QE，我们称之为旋转一致裕度（RCM）。已知FR分布在固定半径超球面上的嵌入特征[35，8，46，45，54]。因此，QE可以被认为是在原始分布上的旋转。旋转一致性是指无论类的旋转如何，类内紧致性都保持不变，可以保持与FP模型相同的特征区分度。所提出的方法通过关注最小化个体误差有效地同时，由于量化宽松是内在的，不可能完全消除，因此轮换一致性更现实，更容易实现。在 MegaFace[21]，LFW [17]，YTF [51]和IJB-C [28]上进行的大量实验表明，RCM损失函数显著提高了低比特FR模型的性能。此外，我们的方法可以与其他量化方法相结合，提高其性能。总之，我们的贡献可以归纳为三个部分：• 我们在角空间中重新定义了FR的QE，并讨论了将QE分为类错误和个体错误。前者改变了类间分布，后者决定了类内紧性的变化。•我们重新思考了改进量子化FR的本质模型，并提出了一种新的损失函数命名为ro，通过最小化个体误差，有效降低低比特FR模型训练的•据我们所知，我们是第一个，探索FR的量化大量的实验在几个可访问的基准数据集上的实验表明，我们的方法有效地提高了不同低比特FR模型的性能。2. 相关工作2.1. 大规模人脸识别FR的实际应用通常是在开集协议下，其中测试类别与训练类别不同。因此，FR被认为是一个典型的度量学习任务[33，40，47，25，46]，其目标是增加类内紧凑性和类间差异。为此，已经提出了许多损失函数。Sun et al. [41，42] and Wang et al.[50]将softmax损失与对比度损失或中心损失结合起来，以显式地增加不同类别之间的裕度或减少正样本对之间的距离。FaceNet [38]采用三元组损失直接优化嵌入特征，大大提高了性能。最近的工作[26，25，46，8，45]提出了基于余弦的softmax损失函数，并与裕度结合以增强特征区分能力。在这些方法中，特征和类权重被归一化到一个固定的尺度，超球流形分布假设相应地出现，并被广泛认可，由于简洁的几何解释和令人印象深刻的性能实现这些损失函数。2.2. 网络量化网络量化是一种网络压缩技术，其工作原理类似于模数转换器：将FP权重和激活量化为低精度定点整数。通过有效的位运算或纯整数运算，它既能减少存储开销，又能显著加快推理速度。常见的量化类型包括二进制/三进制[5，6，18，22，57]，单形式[58，31，29，55，20，48]和不均匀[56，44，3，53，13] quantization.均匀和二进制/三进制量化器都是硬件友好的，可以直接在现成的硬件上享受训练后量化和量化感知训练是两种典型的量化方案。前者无需重新训练即可求解值范围后者在模拟量化方案中微调优化的FP模型，通常会产生更高的精度。6868JJ2n−13. 预赛3.1. 基于余弦的softmax损失函数在原始的深度FR方法[43，41]中，使用softmax交叉熵损失函数3训练模型，ezi，j表示n位定点数中的连续值对于单个值x，QE定义如下，QE（x）=x-Q（x）（3）其中Q（x）是xQ的解量化FP值。对于n比特均匀量化，去量化操作是：Lsoftmax=−lognj=1 i，j，（1）Q（x）= xmin+ xQmin。（四）其中zi、j=WTfi是第j类的logit W J∈Rd是在以前的作品[53，1]中，d维特征的QE或张量被定义为每个维度的平均误差最后一个全连接层的第j列权重，以及为了简单起见，省略了偏置，fi∈Rd是指特征QE（fi）=1Σd（fl−Q（fl））2，（5）第i个样本。最近，有人认为，香草softmax损失可以-迪伊l=1其中f1是特征f的第l维。至于FR，不强制特征具有更高的区分能力，i i提出了一种结合裕度的基于余弦的softmax算法[8，54，46]，其中WTfi被重新表示为s·cosθi，j，θi，j是Wj和fi之间的夹角，s是尺度超参数。ArcFace [8]使用加性角度mar ginzi，j=s·cos（θi，j+ε{j=yi}·m），CosF ace [46]特征是成角度分布的，即，表面上固定半径的超球面，角度或余弦相似性模型样本之间的相互关系。合理地将人脸特征的量化误差定义为量化特征与FP特征之间的夹角，使用additiv e cosine mar ginzi，j=s·（cosθi，j−θ{j=yi}·m），而SphereFace [25]使用乘法角A-QE（fi）=arccos..fi，||F||Q（fi）ˆΣΣ、（6）边缘zi、j=s·cos（θ{j=yi}·m·θi、j）的情况。指示器I2||2||2当j=yi时，函数f{j= yi}返回1，否则返回0所有这些都取得了显著的改善。3.2. 量化过程通常，深度模型的权重和激活以32位的FP值表示。网络量化以具有较低位宽的定点整数（例如，8位、4位等）。在流行的量化器中，二进制和均匀量化器是硬件友好的，这使我们能够直接在现成的硬件上加速推理[20，19，9，30]。因此，以下讨论均在统一协议下进行。对于n比特均匀量化，该过程可以定义为：其中，Q（fi）是量化模型的特征。相比使用香草均方误差定义，A-QE具有更清晰的几何解释，在FR中也更直观。它直观地反映了量子化引起的旋转。4.2.解开量化宽松在这一部分中，我们通过理论分析和实证实验研究了A-QE对FR的影响，并提出将单个样本的A-QE分解为类别误差和个体误差。首先，我们将类中心表示为所有样本特征的平均值：1Σn.夹钳（x，xΣ，x）−xcyi=fi，s. t. fi∈Cyi，（7）xQ=舍入最小最大最小∆、（二）其中Cyni=0时是第yi个类集。对于f∈ Cy，我们表示其中xQ 是n位宽的整数，xmin，我我我如果将1维的量化QE的中心设为δ1，则xmax是FP值的下限和上限对于每-在层量化方案中，整个层共享相同的（ xmin ，xmax），并且对于每通道方案，每个通道具有不同的边界。 x =x最大值−x最小值是间隔同学们qcl=1<$Q（fl）我爱我1Σ=（fl+δl）（八）6869长度ni i=1fl+1δl，4. 该方法4.1. FR中基于角度的量化误差nini其中Qcyi表示量化类的中心。如果我们假设δl是高斯分布，即δl通常，当位宽下降时，N（μy，σ2），则qcl = cl+微升. 旋转角II II III I量化模型的性能由于QE而急剧下降量化后类中心的QE为请参阅舍入和截断误差，θc= arccos. Σdl=0l·（clyi我Σ+µl）我.（九）3我们在下面的章节中将其简称为yicyqci2yi2C68702我我我65432100 20 40 60 80 100Angle（）5×10121086420708090100110120Angle（）另一方面，我们也研究了量子化后类内紧性的变化。类内散布的原始定义是基于样本和类中心之间的距离4。我们用角度代替欧氏距离，并在图中显示类内角度。2c.(a) 类中心44321(b) 类间角观察3。类内角度在量化后显著增加，这意味着类内紧凑性显著降低，特别是在低比特模型中。类内角在FP中约为30°模型，而当量化为4位时，它们会飙升至90kHz分析. 我们可以根据经验得出结论，020406080100Angle（）(c) 类内角图2：FR模型的QE分析。我们在CASIA-WebFace [52]数据集上训练ResNet 18 [14]，并分别将其转换为8位，6位和4位。(a)绘制了不同位宽模型的类中心的旋转角度。(b)说明了所有类中心对之间的角度（类间角度）。（3）展示类内角度。为了揭示 FR 中的实际旋转角度，我们在 CASIA-WebFace上进行了实验[52]，并在图中绘制了每个类中心的A-QE2a. 具体来说，我们使用Arcface [8]训练FPResNet18 [14]模型，并将其分别转换为8位，6位和4位。为了避免修改模型权重，我们采用了后训练量化方案。观察1。如图2a，类中心的旋转角度是显著的，并且随着位宽的减小而急剧增加。我们将这种旋转称为量子化引起的旋转，即，A-QE（cyi），作为类错误。分析. 显著类错误指示同类样品的A-QE不完全相同，随机;样本在一个共同的方向旋转。因此，整个班级轮流上课。在MobileNetV2 [37]，VGG [39]上进行重复实验以排除网络架构的影响，并观察到相同的现象。类的分布主要决定类间可分性。为了进一步研究，我们使用类中心对之间的角度（类间角度）来演示不同位宽模型的整体类间可分性。分布如图所示。2b.观察结果2。与原始FP模型相比，量化后的类间角度没有明显变化：大多数都在π附近。当位宽减小时，这种观察保持不变。分析. 稳定的类间夹角意味着类间差异在量化后保持稳定。基于以上两点，我们可以简单总结一下--类内紧凑性，并且随着位宽减小，弱化程度增加。在此基础上，我们提出将样本的A-QE分解为类误差和个体误差两部分，A-QE（fi）= A-QE（cyi）+I（fi），（10）其中I（fi）是指个体误差。从单个样本的角度看，量化引起的样本旋转可以认为是遵循类中心的，然后在课堂上转移类内偏差降低了原有稳定的类内紧凑性，导致性能下降解剖示意图见图3。图3：A-QE的剖析。左边展示了一类FP模型，右边展示了量化后的该类。圈和星指的是类中心和个体样本.绿色实线表示样本的整个A-QE，蓝色表示分类误差，橙色表示个体误差。为了清楚地说明，我们使用欧几里得距离而不是矢量角度来表示误差。4.3. 旋转一致性裕度最初，量化方法[20，49，18]通过将量化器作为一般运算符来忽略QE，并直接使用任务损失来调整量化感知训练中的模型。因此，有几种方法试图通过精心设计的量化器[53，1，2]或知识蒸馏[31]来最小化整个QE，并且通常会产生更高的性能。尽管减少整个QE带来了改善，但值得思考的一个问题是：”“虽然，”他说。4类内散布矩阵定义为SwΣni=1（xi−阶级之间的能动性并没有减弱。μy）（xi−μy）T，其中μy是y i类中所有样本的平均值。4×104位6位8位8位FP6比特4位Number×104位6位8位FPNumberNumber=6871量化浮点不动点2错误：类错误��−��：个体误差��−��图4：由RCM损失函数LA监督的低比特FR模型的训练过程。首先计算量子化类中的y，θyi。然后，我们使用两个类中心（量化之前和之后，用bi表示）。G. 圆）作为锚点，得到类误差（θ1）。整个还计算样本的A-QE（以星号表示），即，θ= arccosfi ，Q（fi），个别误差为|θ-θ|. 我们2||fi||2||Q（fi）||212用θy=θy+λ|θ1 − θ2|+ m作为计算logits的最终角度。logit然后通过softmax函数并贡献给交叉熵损失FP特征fi在训练之前离线提取量化模型的精确度完全等同于减少所有量化误差？我们的回答是通过对A-QE的剖析，将样本的QE分解为类误差和个体误差.类错误是所有类样本（类）的共同部分，它将类作为一个整体旋转。尽管它是相当大的，但它并不损害类间的差异。实际上，由于高维类权重的稀疏性，在整个训练过程中，类间角度保持在π附近，这一现象在其他作品中也得到了验证[58，15]。我们验证了这种现象也存在于低比特的情况下。这表明，在训练期间，类间可分性的目标保持为正则化，而不是在FP或低比特模型中将类权重进一步分开。相比之下，个体误差是每个样本的唯一部分（样本方面），并且它改变了类内结构。如图2c，类内离散度在量化后显著增加，这意味着个体误差破坏了类内紧凑性。因此，我们认为，提高量化FR模型的精度并不完全等同于减少所有的量化误差。如果我们直接将整个A-QE最小化，其中λ是缩放参数，我们将{j=yi}写为为了清晰的演示。作为原始的基于余弦的softmax损失函数不是我们讨论的重点，为了简单和公平，我们选择目前竞争性的损失函数ArcFace [8]作为我们的基线。我们保持原来的加法余量m。单个误差计算如下，θQ=|A-QE（fi）−A-QE（cyi）|-是的（十二）由LA监督的完整训练管道在图中示出。4.第一章旋转一致性意味着类内紧致性保持稳定，而不管类的巨大旋转，并且即使类错误仍然很大，性能也会得到改善，这在第5.2节中得到了验证。通过最小化个体误差，该损失能有效地增强受损紧性。同时，通过分类损失对类间分布进行适当的调整，而不是将其拉向原来的位置.4.4. 讨论为什么要角保证金。除了将个体误差合并到基于余弦的softmax作为角度裕度之外，通过加权和进行组合也是减少个体误差的直观方式，类错误的大小将驱动模型拉取类而不是重建受损Lsum =Lcos +λθQ、（十三）类内紧性或者，我们建议只最小化个别误差。我们将个体误差引入到流行的基于余弦的softmax损失函数中，作为附加角裕度，称为旋转一致裕度（RCM），es·cos（θi，j+θ·m+θ·λθQ）LA=−loges·cos（θi，j+·m+·λθQ）、（11）其中Lcos是指基于余弦的softmax损失函数。采用角边的原因有两个方面。一方面，角边给出了更清晰的几何解释，并与超球面流形的判别直接相关。另一方面，作为角度裕度的优化对大多数中硬样本有更强的监督作用，通过削弱过于简单和硬样本的影响，−对∑ni=1，希腊语（希腊语）��西印度群岛 +scos（）��我是交叉熵损失特征ConvNet��∗=��+ +��−��我6872πLA相对于θQ的梯度为，ΣC21dLAdθQ =λs2μmj=1，j/=iezi，jezi，j+es·cos（θε）·sin（θπ），（14）2j= l，j/=i其中θθ=θ+m+λθQ，C是类数。为整个1(b) L(a) ArcFaceA不对应的类ji=i，θi，j总是保持在附近在训练期间，因此我们假设ezi，j 如[54]中的[55]。2我们绘制dLA = λs2Csin（θ），不同图6：决策边界的比较。(a)：ArcFace的决策边界，对于所有样本都是相同的，并且在训练期间不可变。(b)L A的决策边界。是dθQC−1+es·cos（θ）在训练过程中样本明智和动态变化。图5中的C。在θ=π附近，梯度具有最大值，2mum值通过适当的λ，LA可以具有更强的超在中等硬度的样品上进行目视检查，而不是同等的监督。太简单或太硬的样品。太硬的样本可能是噪声，这在大规模FR训练数据集中很常见，太简单的样本很难进一步优化，而会主导训练并导致劣质模型[24]。决策界限。考虑二进制类sce- nario，建议的损失函数的决策边界定义为，cos（θ1+ m + λθQ）= cos（θ2）。（十五）对于c1，需要θ1<θ2−m−λθQ。在ArcFace中，间隔m对于所有样本都是不变的且相同，并且决策边界在训练期间也保持不变(Fig.（见第6a段）。然而，所提出的方法的旋转一致性裕度是逐样本的，并且在训练期间动态地收缩（图11）。第6b段）。在初始阶段，显著的个体错误产生强监督以有效地重建类内紧性。在训练的后期，旋转一致性裕度变得稳定，优化转向在离散参数空间中学习自定义的模型权重。3×1043dLAdQ 210图5：LA对不同类数C的θQ的梯度.s设置为64，如ArcFace[8]中所示，λ设置为1。清理后的MS1MV1是一个大规模数据集，包括390万张图片，来自87K张人脸。我们广泛评估了我们的方法在几个最广泛使用的基准人脸数据集上的性能，包括MegaFace [21]，Labeled Face in the Wild（LFW）[17]，Youtube Faces（YTF）[51]和IJB-C [28]。训练我们采用广泛使用的CNN架构，ResNet18 [14]和MobileNetV2 [37]。在[8]之后，采用BN-Dropout-FC-BN结构来获得最终的256−D特征。我们使用SGD算法与一个时刻-turn为0.9，设定权重衰减为0.0005。八个GPU使用单个批量64。对于CASIA-WebFace上的训练对于大规模数据集MS1MV1，学习速率在100k、160k迭代时下降，并在180K时终止。量化设置。在本文中，我们采用非对称均匀量化器，这是硬件友好。由于每通道量化方案通常会产生更高的精度，我们采用它的权重。至于激活，使用每层方案，因为每通道将在conv和matmul操作的核心处合并内积计算[20]。除了第一层和最后一层外，所有卷积层和全连接层都被量化.我们采用量化感知训练，并从FP模型中初始化量化权重。5.2. RCM损失选择λ和公式。在基于余弦的softmax中，有三个可能的边距位置，如 ArcFace [8] 中的附加角度边距（即，LA），CosFace [46]中的加性余弦余量和[25]第二十五话我们将另外两个可行公式表示为5. 实验5.1. 实验设置数据集。对于数据集，我们分别采用公开可用的CASIA-WebFace [52]和MS 1 MV 1 [7]清理和es·（cos（θi，j+θ·m）−θ·λθQ）LB=−loges·（cos（θi，j+λ·m）−λ·λθQ）es·cos（（λ·λθQ+1）θi，j+λ·m）LC=−loges·cos（（λ·λθQ+1）θi，j+λ·m）-是的作为训练数据集。CASIA-WebFace数据集包含10，575张人脸身份的0.49 M图像在这一部分中，我们探讨了尺度参数的影响λ和不同公式的性能为此目的，C=101C=102C=103/2+ M +Q（）C=104C=1052 1Q2Q12Q122中12开始1端1C6873ArcFaceArcFace+模拟LA方法LFWYTF我们在CASIA-WebFace上训练FP ResNet 18。然后我们使用三个不同的公式将得到的模型转换为4位，λ从1到7不等。性能在MegaFace上进行了评估，如图所示7a.我们可以看到LA的性能略优于其他两个对于LA，性能在λ = 5处饱和。0，10 1010 10 10因此，我们使用LAof this study研究.717069686766其中λ = 5。0在随后的实验中24222018161412表1：MegaFace数据集上4位ResNet 18的rank-1的识别准确度（%）。“+Mimic” refers toFace+Mimic而不是ArcFace+KD。MegaFace上的性能和由此产生的类错误在Tab中说明图1和图7C。与ArcFace相比，ArcFace+Mimic的分类误差更小，同时性能也有所提高。1 2 3 4 5 6 7（一）500400300200100200040006000800010000迭代（b）第（1）款曼斯。然而，我们的方法比ArcFace+Mimic具有更大的类错误，实现了更高的准确性。这一实验现象支持了我们的假设，即提高量化FR模型的精度并不完全等同于减少所有QE，只有最小化个别误差才能带来更大的改善。5.3.关于LFW和YTF的05 10 15 20类错误（）（c）第（1）款图7：旋转一致性切缘损失的消融研究。（一）MegaFace 上不同公式和不同 λ 的 4 位 ResNet18 的精度（%）。(b)训练过程中不同λ的L A个体误差的变化。（c）由ArcFace、ArcFace+Mimic和LA训练的4位ResNet 18的类错误。误差在角度上。培训期间RCM的变更。在这一部分中，我们将展示训练过程中LA损失的RCMθQ图图7b示出了不同λ设置的θQ我们可以看到随着训练的进行，裕度逐渐减小，并且较大的λ带来较强的监督，这导致较小的θQ。而当λ增大到5时，RCM变得稳定，难以进一步压缩。同时，精度也达到拐点，λ越大，精度越差.由于λ在分类监督和个体误差最小化之间取得了一定的平衡，因此λ的过大不能一致地提高类内紧性，反而削弱了分类监督。类错误的比较。为了研究所产生的类错误，我们分别使用ArcFace，Ar- cFace+Mimic和LA训练4位ResNet18直接监管ArcFace忽略QE并将量化器作为常规运算符。结合模仿或知识蒸馏（KD）不仅根据分类损失对模型进行微调，而且通过FP模型的额外监督将特征拉向原始位置。经验证据[27]表明，模仿特征层为FR带来了比KD更多的改进我们使用Arc。LFW [17]是无约束条件下的标准人脸验证测试数据集，所有图像都是从网站上收集的。它包含来自5，749个身份的13，233张人脸图像一半的匹配是积极的，而另一半是消极的。YTF [51]由来自1，595个不同人的3，425个视频组成。所有视频都是从YouTube上收集的。在本文中，评估结果报告严格遵循标准协议的无限制与标记的外部数据。我们在CASIA-WebFace数据集上训练ResNet 18，并在Tab中报告了由几个可访问的损失函数监督的4位和3位量化模型的性能。2.在LFW和YTF上，所提出的RCM损失在4位时达到98.91%和94.98%，在3位时达到98.73%和94.56%。结果优于所有比较的损失函数。FP98.9394.97SoftMax98.60 98.2694.28 93.49[35]第三十五话98.55 97.8593.51[第46话]98.66 97.8894.36 93.28CosFace+模拟98.76 98.1894.37 93.53ArcFace [8]98.63 98.5593.50ArcFace+模拟98.68 98.4694.76 93.95LA98.91 98.7394.95 94.56表2：LFW和YTF数据集的验证准确度（%）。模型ResNet18在WebFace上训练。LAL BLC==7为645=为23为为1损失MegaFace牵引器准确度（%）Q（Number12345106FP98.1395.7592.1086.9680.7273.35ArcFace97.7394.5290.2884.2976.3767.75+模拟97.9394.8890.6584.7877.3969.04LA97.8595.3291.4686.3379.3771.574位3位4位3位6874模型方法准确度（%）4位3位ResNet18FP[46]第46话：我的世界，我的世界！FPSoftmax[35]第三十五话[第46话]93.7182.4387.0487.7387.3187.7488.5627.2260.4157.6867.8372.8474.3491.31MobileNetV269.21 24.1171.68 47.574.99 57.00SoftMaxL2-SoftMaxArcFaceArcFace+MimicCosFaceCosFace+MimicLACosFace+模拟74.0559.44ArcFace [8]77.7356.79ArcFace+模拟77.9059.59LA80.1262.58表3：MegaFace数据集上rank-1的识别准确度（%）。牵引器的尺寸为1M。1009080706050101102103104105FPR（%）图8：IJB-C基准测试的TPR，FPR在10−1之间变化10- 5。该模型是4位ResNet18，并在MS1MV1上训练。5.4. 关于MegaFaceMegaFace数据集[21]是一个非常具有挑战性的大规模测试基准。它包含来自690K不同个体的1M图像作为图库集，以及来自FaceScrub [32]的530个独特个体的100K照片作为探针集。我们遵循ArcFace的测试协议[8]。所有模型都是在MS1MV1数据集上训练的。表1中总结了1M干扰项的秩1识别精度3.我们的RCM方法在ResNet18和MobileNetV2上都显示出了明显的优势。对于ResNet18，RCM在4位和3位上实现了88.56%和74.34%，并且优于其他损失。MobileNetV 2具有很好的速度-准确性权衡，并且很难消除，并且RCM损失显著提高了准确性。但与FP模型相比仍存在一定差距，有待进一步研究。5.5. 关于IJB CIJB-C数据集[28]包含大约3，500个身份，总共有31，334个静态面部图像和117，542个无约束视频帧。在1：1验证中，总共有19，557个正对和15.6M个负对。我们使用MS1MV1数据集作为训练数据，并在图中报告4位ResNet18的TPR。8.与其他流行的损失函数相比，我们提出的RCM在不同的FPR达到最先进的性能。5.6. 与其他量化基线的兼容性所提出的RCM损失从开集任务的区分本质的角度提高了低比特模型的性能。它可以与以前的方法相结合，以进一步提高其性能。在这里，我们重新实现了最近两种最先进的量化方法Dorefa-Net [55]和DSQ [10]作为量化基线，并将它们与不同的损失函数相结合。我们报告了4位ResNet18在MegaFace上的评估结果。如Tab.所示。4、Dorefa-Net和DSQ都可以改善不同损失函数的基线，并且与RCM相结合可以达到最佳的精度。实验表明，该方法可以兼容不同的量化方法，并能进一步提高量化性能.基本方法准确度（%）公司简介87.11+CosFace+模拟90.59[55]第五十五话+ArcFace88.27+ArcFace+模拟89.63+LA91.55公司简介87.07+CosFace+模拟88.98DSQ [10]+ArcFace87.79+ArcFace+模拟88.42+LA89.46表4：MegaFace数据集上rank-1 4-bit ResNet 18的识别准确度（%）。干扰器的大小为1M，FP模型在MS1MV1上训练。6. 结论在这项工作中，我们研究了量化误差对FR的影响，并提出了有效的低比特FR训练的旋转一致的裕度损失。几个流行的人脸基准上的竞争结果希望我们的实质性探索能对开集情景的量化问题的研究有所启发。谢谢。本工作得到了国家自然科学基金的部分资助。U19B2034和61836014。TPR（%）6875引用[1] Ron Banner，Yury Nahshan，Elad Hoffer，and DanielSoudry.Aciq：神经网络整数量化的分析裁剪。arXiv预印本arXiv：1810.05723，2018。[2] R Banner，Y Nahshan，E Hoffer和D Soudry。卷积网络的后训练 4 位量化，用于快速部署 . CoRR ，abs/1810.05723，1：2，2018。[3] 蔡兆伟，何晓东，孙健，努诺.通过半波高斯量化进行低精度深度学习。在IEEE计算机视觉和模式识别会议论文集，第5918- 5926页[4] Ken Chen ， Yichao Wu ， Haoyu Qin ， Ding Liang ，Xuebo Liu，and Junjie Yan.用于跨模型人脸识别的R3对抗网络。在IEEE计算机视觉和模式识别会议论文集，第9868- 9876页[5] Matthieu Courbariaux ， Yoshua Bengio 和 Jean-PierreDavid。Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。神经信息处理系统的进展，第3123-3131页，2015年[6] Matthieu Courbariaux、Itay Hubara、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二进制神经网络：训练深度神经网络，权重和激活限制为+1或-1。arXiv预印本arXiv：1602.02830，2016。[7] deepglint 。人脸特征测试 / 万亿对。得trillionpairs.deepglint.com/overview 余弦值.[8] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在IEEE计算机视觉和模式识别会议论文集，第4690- 4699页[9] Jiong Gong ， Haihao Shen ， Guoming Zhang ， XiaoliLiu，Shane Li，Ge Jin，Niharika Maheshwari，EvaristFomenko，and Eden Segal.具有智能的卷积神经网络的高效 8 位低精度推理。在 Proceedings of the 1st onReproducible Quality-Efficient Systems Tournament on Co-designing Pareto-efficient Deep Learning 中，第 2 页。ACM，2018。[10] Ruihao Gong ， Xianglong Liu ， Shenghu Jiang ，Tianxiang Li，Peng Hu，Jiazhen Lin，Fengwei Yu，andJunjie Yan.可区分的软量化：桥接全精度和低位神经网络。在IEEE计算机视觉国际会议论文集，第4852-4861页[11] Manuel Gunther，Steve Cruz，Ethan M Rudd和TerranceE Boult。开集人脸识别。在IEEE计算机视觉和模式识别研讨会会议论文集，第71-80页[12] Yandong Guo，Lei Zhang，Yuxiao Hu，Jongdong He，and Jianfeng Gao. Ms-celeb-1m：大规模人脸识别的数据集和基准。欧洲计算机视觉会议，第87-102页。施普林格，2016年。[13] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[15] 何岚清，王中道，李雅丽，王胜金。Softmax夹层：对嵌入式学习的类内和类间目标的理解。arXiv预印本arXiv：1908.01281，2019。[16] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页[17] Gary B Huang，Marwan Mattar，Tamara Berg，and EricLearned-Miller.在野外贴上标签的脸：研究无约束环境中人脸识别的数据库。2008.[18] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二值化神经网络在神经信息处理系统的进展，第4107-4115页[19] Benoit Jacob等人gemmlowp：一个小型的自包含的低精度gemm库。（2017），2017.[20] Benoit Jacob、Skirmantas Kligys、Bo Chen、MenglongZhu、Matthew Tang、Andr

下载后可阅读完整内容，剩余1页未读，立即下载