图像嵌入的紧凑网络及其在图像检索领域的应用

63 浏览量更新于2023-10-17 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1向教师学习：用于图像嵌入的紧凑网络西北工业大学自动化学院，西安2西班牙巴塞罗那自治大学计算机视觉中心3Wide-Eyes Technologies，巴塞罗那，西班牙{luyu，voyazici，xialei，joost}@ cvc.uab.es，chengym@nwpu.edu.cn，aramisa@wide-eyes.it摘要度量学习网络用于计算图像嵌入，广泛应用于图像检索和人脸识别等领域在本文中，我们提出了使用网络蒸馏来有效地计算图像嵌入与小网络。网络学习已经成功地应用于图像分类，但在度量学习方面却鲜有研究。为此，我们提出了两个新的损失函数，用于模拟深度教师网络与小型学生网络的通信。我们在包括CUB-200-2011、Cars-196、Stanford Online Prod-ucts在内的多个数据集上对我们的系统进行了评估，结果表明，使用小型学生网络计算的嵌入性能明显优于使用类似大小的标准网络计算的嵌入。在一个非常紧凑的网络（MobileNet-0.25），它可以在移动设备上使用的结果表明，所提出的方法可以大大提高Recall@1结果从27.5%到44.6%。此外，我们研究了嵌入蒸馏的各个方面，包括提示和注意层，半监督学习和交叉质量蒸馏。11. 介绍深度神经网络在许多计算机视觉应用中获得了令人印象深刻的性能，其中一些随后已成为大众产品。然而，这些技术的适用性往往受到其高计算成本的限制。为了减少网络流量和服务器成本，以及可伸缩性，希望将尽可能多的计算放在应用程序的最终用户端。但这往往是计算能力和电池寿命有限的移动终端，因此无法实时计算大型网络这就产生了对跨-1代码可在https://github.com/yulu0724/EmbeddingDistillation获得。将知识从大型网络传递到较小的网络，但不会显著降低性能。一类重要的深度网络学习特征嵌入。为了成功，特征嵌入必须保持语义相似性，即，用户认为相似的项目必须在嵌入空间中靠近，尽管存在显著的视觉差异，为了弥合语义和视觉域之间的这种差距，相关和不相关项目的配对或三元组被用来教导网络如何组织输出嵌入空间[5，35，12]。嵌入被发现对分布外检测[19]和迁移学习[26]的任务有效。此外，嵌入式网络对于计算机视觉至关重要，正如它们所使用的各种任务所证明的那样，包括基于特征的对象检索[9]，人脸识别[25]，特征匹配[6]，域自适应[27]，弱监督学习[36]，排名[35]或零射击学习[32]。众所周知，大型网络可以提供出色的特征嵌入[23，25]，但如前所述，对于现实生活中的应用来说往往不切实际。为了获得有效的神经网络，研究集中在两个主要的研究方向：网络压缩和网络蒸馏。网络压缩减少了网络中的参数数量[17，10]，而网络蒸馏使用教师-学生设置，其中通常使用大型教师网络来指导小型学生网络[2，11]。这是通过使用损失函数来完成的，该损失函数最小化用于分类的学生和教师网络的输出之间的交叉熵。网络蒸馏的主要思想是教师网络估计的不确定性，例如，关于图像是否包含猫和狗，为学生提供相关信息。网络压缩和知识蒸馏之间有一些区别。首先，网络压缩的基本原理是网络的知识存在于权重中，而知识蒸馏假设网络的知识存在于由特定数据产生的活动中。第二个重要的-29072908不同之处在于，压缩算法通常以与初始大型网络类似的网络架构结束，但是具有较少的参数（即，相同数量的层和层类型）。相比之下，网络蒸馏对学生网络设计没有限制。因此，我们专注于网络蒸馏技术，以有效地计算小网络的特征嵌入。在本文中，我们使用网络蒸馏，以获得有效的网络学习特征嵌入。我们提出了两种不同的方法来教学生度量：一种基于绝对教师，其中学生旨在产生与教师相同的嵌入，另一种基于相对教师，其中教师仅向学生传达数据点对之间的距离。使用CUB-200-2011（鸟类），Cars-196和斯坦福在线产品数据集，我们表明，与直接在数据上训练学生网络相比，我们还发现，相对教师一贯优于绝对教师。我们评估了知识蒸馏的各个方面我们还表明，可以访问高质量图像的教师可以用来改善与学生网络学习的嵌入，可以访问低质量的图像。2. 相关工作有大量关于度量学习的作品，例如调查[16]。在这里，我们专注于使用深度网络的度量最初，深度网络的度量学习基于具有对比损失的Siamese架构[5]。后来提出了三重网络，它允许对嵌入空间进行更多的局部修改，并且不要求同一类的所有观测都收敛到同一点[12，35]。由于对（或三重）采样问题，连体网络和三重网络的进展受到阻碍，该问题例如，在具有N个样本的数据集中，可能对N2个对因此，硬否定挖掘被提出来只关注导致最高损失的对[29]，期望网络能从它们身上学到最多。不幸的是，这在许多情况下导致了严重的过拟合，半硬负挖掘被引入作为解决方案[25]。然而，硬和半硬负挖掘都具有很高的计算成本，这导致一些作者将硬负挖掘过程限制在当前的小批量[18，31，32，36]。Bucila et al.[2]将一个大网络压缩成一个小网络。他们的方法旨在接近-将大型教师网络与单个快速、紧凑的学生网络相结合。Hin-ton等人进一步改进了这一点。[11]通过将教师信号从logits（刚好在softmax之前）移动到概率（在soft-max之后），并引入温度缩放以增加小概率的影响。通过这些改进，他们在MNIST上取得了一些令人惊讶的结果，并且还表明，通过将模型集合的联合知识提取为单个知识，可以显着改进大量使用的商业系统FitNet [24]引入了提示层，在网络的中间层上有额外的损失，以将教师的知识传达给学生。他们表明，这有助于训练深度和细网络，如果没有教师的监督，这些网络无法从头开始训练。此外，这些学生可以在使用更少内存的情况下胜过教师网络。Zhang等人[38]表明，一组学生，没有老师，在老师和学生之间有类似损失的情况下联合训练，可以胜过标准的集成学习。网络蒸馏也可以用于将多个教师压缩到单个学生网络中[8]。大多数关于网络蒸馏的文献都集中在图像分类上，但最近有几项工作研究了将该理论应用于目标检测[3]和行人检测[28]。只有两个工程以前解决了知识蒸馏嵌入。Chen等人[4]将“学习排名”技术引入它被形式化为教师和学生网络之间的秩匹配问题。在计算置换概率时，由于乘积运算，它们的列表式损失很容易溢出PKT [21]适用一种不同的方法，他们将特征空间中数据样本之间的相互作用建模为概率分布。在我们的实验中，我们表明，我们提出的相对老师优于DarkRank和PKT显着。3. 预赛在本文中，我们将网络蒸馏应用于度量学习网络。本节将简要介绍两者。3.1. 度量学习大多数计算机视觉应用中的基本步骤是将图像的初始表示（即，像素）转换成具有更期望特性的另一个。这个过程通常被称为特征提取，并将图像投影到捕获与任务相关的语义特征的高级表示。如何在这种高级表示中组织图像对于许多应用程序的成功至关重要例如，图像检索、k-NN或最近类均值分类器是2909KDτKDτττ=1网络定义为：L KD=H（y真，P S）+λH（PT，PS），（2）τ=1τ τ图1.我们为度量学习提出的两种知识蒸馏损失的图示。Labs旨在最小化学生和教师之间的距离，其中λ用于平衡两个交叉熵损失H的重要性：第一个对应于学生网络的预测和地面真实标签ytrue之间的传统损失，第二个对应于学生和教师网络的退火概率输出之间的这种损失鼓励学生做出与教师网络类似的预测。教师PT的信息可能比学生网络的地面真实值y更有价值，因为它还包含相同的图像。Lrel比较嵌入的距离，哪些类的形成可能会与教师在两个图像之间，具有相同的距离特定图像的真实标签更准确地说，PT两个图像在学生嵌入。它的目的是使两个距离尽可能相似。和PS是：PT= softmax（aT），PS= softmax（aS），（3）τττ τ直接基于这些高级图像表示之间的距离度量学习解决了这个问题，并打算将输入特征表示映射到嵌入空间，其中L2距离与所需的相似性概念相关。在这项工作中，我们将专注于深度或端到端的度量学习，其中整个特征提取网络被联合训练以生成最佳可能的表示。Siamese网络将数据映射到输出空间，其中距离表示图像之间的语义差异[1，5]。Hoffer等人[12]基于Wang等人的工作提出了三重网络。[35 ]第35段。与暹罗网络不同，它们使用由锚（xa）、正实例（xp）和负实例（xn）组成的三元组作为输入。锚和正实例对应于同一类别，而负实例来自不同的类别。目标是保证负实例比正实例离锚点更远（加上裕量m）。三重态损失由下式给出：LT= max（0，d+−d−+m），（1）其中d+和d−分别是锚点与正实例和负三重网络只对输出嵌入施加局部约束，与暹罗网络相比，这可以简化收敛，据报道，暹罗网络更难训练。在实验中，我们将展示使用三重态损失学习的嵌入的网络蒸馏结果3.2. 网络蒸馏网络蒸馏[11，24]旨在将大型教师网络T的知识转移到小型学生网络S. 网络蒸馏分类的目标其中S和T分别是学生和教师网络的（pre-softmax）激活，温度τ是引入的松弛，以软化网络输出产生的信号。结果发现，对于复杂的分类任务，τ=1获得了良好的结果[3]。PS等于没有任何温度缩放的标准学生网络的输出。4. 度量学习的蒸馏已知具有大量参数的宽而深的网络可以获得出色的结果[30]，但是它们非常耗时并且需要内存网络蒸馏被证明是在分类领域处理这个问题的解决方案之一[11]。在本节中，我们将知识蒸馏理论扩展到旨在将图像投影到嵌入空间中的网络此外，我们还将讨论暗示与师生注意转移的结合。4.1. 嵌入式网络传统的网络蒸馏集中在执行分类的网络上，并且使用交叉熵损失进行训练[11，24]。在训练过程中，学生产生的输出类分布被强制接近教师的输出类分布。这被证明比直接在可用数据上训练学生获得更好的结果;这种性能差异的主要原因是教师班级之间的混淆向学生揭示了相关信息，从而提供了比地面真实标签更丰富的训练信号[11]。在这里，我们将知识蒸馏技术扩展到用于将输入数据投影到嵌入式网络中的网络（从现在起称为嵌入式网络）。然后，这些嵌入通常用于执行距离2910KDLrel=dS−dT，（5）不R1R2S2Labs= 4aKDLrel = 0KD一一R1一R2一S1L=4aKDABS′′Lrel为||R 1R 1||+的||R 2R2||KDa r1'一一R2'一图2.绝对教师和相对教师的区别。（左）教师嵌入空间中的四个数据点的示例。我们考虑来自两个类的两个样本（由正方形和星形表示）。（中间和右边）显示了两个学生嵌入S1和S2的绝对和相对损失（点的教师位置以虚线给出）。（右）嵌入是优选的，因为它完全等于老师（除了翻译）。只有相对的老师才欣赏这一点，而绝对的老师则认为两者损失相等。计算例如，提供相似数据的排序列表（根据距离排序）。对于知识蒸馏，重要的是要考虑嵌入网络中包含的知识是什么可以将实际嵌入（意味着嵌入的坐标）视为网络的知识。另一种观点是将基于嵌入网络计算的距离视为实际知识，因为这实际上是嵌入网络的主要目的。我们将考虑这两种观点，并设计两种不同的教师：一个被称为绝对教师的教师向学生教授精确坐标，以及一个被称为相对教师的教师仅向学生教授数据对之间的距离。在第一种方法中，绝对教师，我们直接最小化学生（FS）和教师（FT）嵌入之间的距离。这是通过最小化：一些（低维）空间，其中点之间的相异性等于它们的相异性。图中提供了一个图示，显示了绝对教师和相对教师使用的相关距离。1.一、教师网络在学生网络的训练期间被冻结。绝对教师最小化了每个训练样本的学生和教师嵌入之间的距离。在相对老师的情况下，应该考虑成对的数据点，因为在训练期间，学生网络被优化以获得数据点实例之间的相似距离。正如其他几位作者[11，38]所报道的那样，我们通过同时考虑标准度量学习损失LML（参见等式11，38）来训练学生网络1）和教师施加的损失LT，根据：L=LML+λLT、（7）绝对KD=<$FS（xi）−FT（xi）<$，（4）KD其中。Frobenius norm是指Frobenius norm。作为第二种方法，我们考虑相对的老师，这强制学生网络学习任何嵌入，只要它导致数据点之间的相似距离。这是通过最小化以下损失来实现的：....KD其中dS和dT分别是图像xi和xj的学生嵌入和教师嵌入之间的距离：其中T∈ {abs，rel}和λ是不同损耗之间的权衡参数，其通过交叉验证来学习在图2中，给出了两种不同学生嵌入（由S1和S2表示）的两种蒸馏损失的图示。嵌入S2是优选的，因为除了不影响数据点的排名S1嵌入实际上改变了样本之间的关系，”，并不会获得与教师网络类似的结果dS=<$FS（xi）−FS（xj）<$，但是，如果我们考虑这两个人的绝对损失，¨dT=？FT （xi）−FT¨（xj）<$，（六）我们看到的情况下，它将相等的损失分配给两个嵌入。相对损失确实正确地将较低（零）损失分配给在Eq. 5等于多维标度（MDS）的经典问题中使用的损失[7]。在那里，点之间的差异是已知的，目标是找到点的坐标，S2嵌入通过关注相关参数（即距离），我们期望相关教师能够比学生网络更好地指导学生进行类似的嵌入。L2911转换器conv 2_x（3块）conv 3_x（4块）conv 4_x(23块）conv 5_x（3块）池化提示/ AT丢失S：ResNet-18池化conv 5_x（2块）conv 4_x（2块）conv 3_x（2块）conv 2_x（2块）转换器1总和¨¨A.A.KDKD.hint<$hint i hinti<$提示T：ResNet-101T：嵌入S：嵌入图3.教师-学生提示/注意转移示意图4.2. 从提示和注意中计算AS（x i）从学生激活图F S。在本节中，我们考虑两种技术，注意力损失被定义为：西显示出改进了分类蒸馏的结果-Asum（xi）LAT=− Asum（xi）<$.（十一）网络. 我们考虑的技术是：简介[24]第24话：“你的注意力在哪里？”两¨T总和（十一）2002年S总和（xi）2.5提出了改进学生网络的学习我们很想知道这些技术是否也可以推广到嵌入网络的知识提取。Romero等人[24]建议提高知识发现率，这迫使学生将注意力集中在同一个问题被老师认为重要的地方。基于注意力的度量学习网络的完整目标函数变为：通过在教师学习的中间表征上引入额外的损失（称为提示）来进行诱导。的L=LML +λLT+κLAT 、（十二）包含提示层的损失由下式给出：L=<$FS （x）−FT （x）<$，（8）其中F T ∈Rw×h ×d，其中w，h和d是维数提示层的激活图。在这项工作中[24]，他们首先训练网络直到提示丢失，然后仅基于蒸馏损失训练整个网络相比之下，我们建议同时学习两种损失，就像[3，28]中所做的那样结合绝对或相对教师的知识蒸馏损失，我们将获得最终的目标函数：其中κ定义了注意力损失的相对权重在图3中，我们展示了如何在ResNet-101教师和ResNet- 18学生网络之间整合提示和注意层。提示和注意力损失都应用于多个层2。该方案的结果将在实验部分中给出。5. 实验结果我们展示了几个基准数据集的结果。我们的方法是用PyTorch框架实现的[22]。我们将在接受后发布带有代码的GitHub页面L=LML+λLT+微升提示，（9）5.1. 细粒度数据集的检索其中T∈ {abs，rel}和μ用于平衡提示丢失的相对权重。Zagoruyko和Komodakis [37]通过迫使学生模仿强大的教师网络的中间注意力地图来提高学生网络的性能。注意力图传达了图像中的哪些空间位置被认为与教师网络相关，以便对其进行解释。因此，传达这些信息可以指导学生网络学习手头的任务。他们提出根据以下公式计算基于激活的空间注意力：Ck数据集：我们在三个细粒度数据集上评估图像检索任务的框架：• CUB-200-2011：这个数据集是在[ 34 ]中介绍的。它有200个类，总共有11788个图像• Cars-196：该数据集包含196张图片中的16，185张车，并在[15]中介绍。• 斯坦福在线产品：在[ 32 ]中介绍的这个数据集包含从eBay.com收集的22，634个产品的120，053个图像。T. 2Asum（x i）=. Fkl（xi）.l=1、（10）A.A.2912KL总和CUB-200-2011和Cars-196的示例图像如图所示。五、我们遵循评估协议亲-其中FT（xi）∈Rw×h是指图像i的第k层激活的第l映射.这里Ck表示教师网络的第k层中的特征图我们使用|. | to refer to the pixel-wise absolute value,as a re- sults A T（xi）∈ Rw× h. 一个类似的方程用于在[32]中。通过从嵌入的训练中排除一些类，我们可以在测试时评估2对于学生，我们取每个块的输出，并将其与教师的每个块的倒数第二层进行比较。这些层的维度是相同的。2913表1. CUB-200-2011和Cars-196数据集的检索性能。'ML'：度量学习损失，'hint'：提示损失;'AT'：注意力丧失; KD（abs）：绝对教师损失; KD（rel）：相对教师损失Cub-200-2011汽车-196召回@K124816124816学生（ResNet-18）51.763.774.283.790.946.759.571.682.390.6[21]第二十一话53.164.275.484.691.646.959.972.182.890.8[4]第四季56.267.877.285.091.574.383.690.094.296.9ML+KD（绝对值）54.966.576.585.091.370.680.788.093.296.0ML+KD（相对）58.069.079.487.893.676.685.491.295.097.3ML+KD（绝对值）+提示55.066.576.684.991.171.381.288.192.795.9ML+KD（rel）+提示57.468.879.187.493.176.485.591.395.197.2ML+KD（绝对值）+AT55.066.376.985.391.871.181.388.393.196.0ML+KD（rel）+AT58.169.279.685.391.376.485.791.795.097.2教师（ResNet-101）58.970.480.788.293.574.883.689.993.896.5表2.斯坦福在线产品数据集的比较斯坦福在线产品召回@K1101001000学生（ResNet-18）61.778.690.296.8ML+KD（绝对值）68.082.792.197.4ML+KD（相对）67.783.092.097.2教师（ResNet-101）69.584.493.197.9嵌入推广到不可见的类。因此，前一半课程用于培训，剩下的一半用于测试。例如，在CUB-200-2011数据集上，100个类（5，864张图像）用于训练，其余100个类（5，924张图像）用于测试。我们将训练集分为80%作为训练，20%作为验证。实验细节：在这些实验中，我们使用ResNet-101作为教师网络，使用ResNet-18作为学生网络。（3）第三章。这两个网络的参数数量的比较如表4所示。在平均池化层之后，添加了线性512维嵌入层，并使用三重损失来训练教师和学生网络。Adam [14]优化器的学习率为1e-5，小批量为32张图像。我们对三重态损失应用硬负最小化[29]对于预处理，我们遵循在之前的工作 [20] 中，我们将所有图像调整为256×256，并随机裁剪224×224个补丁水平翻转用于数据扩充。我们对学生和老师使用相同的预处理，从预先训练的ImageNet模型构建网络。在测试期间，我们仅使用224×224像素的中心裁剪来预测用于检索的最终特征表示。最佳参数是根据验证集上的所有性能选择的，实验我们使用整个训练集来重新训练固定数量的epochs的最佳参数。为了进行评估，我们使用Recall@K度量[32]：测试集中的每个图像都使用训练好的网络进行投影，最终分数是在所有测试图像上获得的阳性结果的分数。此外，所有表中报告的结果是三次重复实验的平均值。基线：我们首先考虑表1和表2中学生和教师网络的结果。毫不奇怪，教师网络能够利用额外的能力来学习更好的嵌入。在CUB- 200-2011数据集上，我们获得了教师和学生的R@1这与其他评价的召回水平一致，尽管K越高，差距越小。这种缩小的性能差距在Car-196数据集中表现得很好，教师网络在R@1时提高了28.1%，在R@16时提高了5.9%。在斯坦福在线产品数据集上，教师和学生网络之间的差距为7. 8%。我们还将我们的方法与DarkRank方法[4]和PKT [21]3进行了比较。实验表明，相对教师网络的性能明显优于Dark- Rank和PKT，在CUB- 200-2011上分别提高了1.8%和4.9%，在Cars-196上分别提高了2.3%和29.7%。绝对和相对损失：接下来，我们将广告知识蒸馏损失纳入学生度量学习目标（由ML+KD表示）。表1显示，无论使用的损失如何，每个数据集和召回水平的结果都有所改善。在CUB-200-2011上，绝对教师和相对教师在Recall@1处的绩效提高分别为3.2%和6.3%在Cars-196上，我们看到了类似的行为，相对老师再次超越了绝对老师。与相关老师一起训练的学生有近30.0%的惊人表现增益有趣的是，相对教师甚至比教师高出1.8%，而参数较少。在斯坦福在线产品数据集上，绝对和相对教师都获得了类似的结果，并以6.0%的优势优于学生网络的直接训练总之，所提出的蒸馏方法始终能够提高学生网络的性能，特别是并且如果嵌入空间中的K个如果有相同的标签，则视为阳性结果。3对于这些结果，我们使用了作者提供的代码。2914图4. R@1作为CUB-200-2011数据集上λ表3. CUB-200-2011的半监督结果与相关教师一起培训的人。提示和注意力损失：在这里，我们研究提示[24]和注意[37]层是否有利于嵌入网络的知识蒸馏（另见第4.2节）。我们将它们与我们根据等式提出的绝对和相对损失相结合。9、Eq. 12个。结果总结于表1中。我们发现添加提示层并不稳定。这可能是因为提示层类似于绝对老师，迫使网络学习与老师完全相同的嵌入，因此只有在与绝对老师组合一般来说，添加注意层会提供较小的增益，但增益并不像分类网络报告的那样大[37]。如图4所示，我们在CUB-200-2011的验证集上比较了绝对教师和相对教师的R@1性能作为不同λ值得注意的是，相对老师在较大的权衡参数λ范围内表现稳定，而绝对老师只在很窄的范围内工作。这表明，在实践中，λ参数的选择对相关教师来说并不重要。5.2. 半监督学习网络蒸馏的一个有趣特性是它允许使用未标记的数据。[38]观察到了这一点，我们在这里将这个想法应用于嵌入网络的蒸馏知识蒸馏损失方程。4和5不需要任何标签。了解教师网络对未标记数据的估计可以帮助表4.不同网络的参数比较。网络ResNet-101ResNet-18MobileNet-0.25参数48.1百万约11.3百万约0.3M学生网络，以更好地近似教师网络。此外，在学生网络的半监督学习中，可以避免现有的成对采样问题，因为对于未标记的图像，我们不应用三重丢失，因为它需要标记。在实验中，我们评估了将未标记数据添加到学生网络中以在CUB-200-2011数据集上嵌入学习的好处。我们随机选择每个类别一半的训练图像作为标记数据，其余的作为未标记数据。因此，这里我们有两种师生学习机制，一种用于具有地面实况注释和从教师传输的信息的标记训练集，另一种通过蒸馏损失应用于仅具有来自教师的信息的未标记训练集。该实验的结果见表3。第一行（50%标记）显示了我们仅使用剩余标记数据的方法，其性能与之前的实验相似：相对教师获得的绩效更接近教师网络，优于绝对教师。在第二行中，我们添加剩余的50%未标记数据。这导致在两种损失的情况下改进的Recall@K，但特别是对于相对教师。最后，在第三行中，我们考虑了这样一种情况，即我们可以访问经过训练的教师网络，但根本没有标记数据来训练学生网络。在这里，我们想强调一下相对老师的结果，因为与使用50%标记训练数据训练的学生网络相比，它的性能提高了4.5%。5.3. 非常小的学生网络MobileNets [13]是高效但轻量级的网络，可以轻松匹配移动和嵌入式视觉应用的设计要求。为了展示我们的方法在非常小的网络上的潜力，我们建议使用MobileNet-0.25（0.25是宽度乘数）网络作为我们的学生网络，使用ResNet-101作为教师网络。每个网络的参数数量见表4。我们可以看到，MobileNet-0.25的参数数量比之前的学生网络（ResNet-18）小了近40倍，比教师网络（ResNet-101）小了160倍。表5显示了在CUB- 200-2011上使用MobileNet-0.25作为学生网络的检索性能结果。我们可以观察到，教师网络的K=1，2的Recall@K几乎是学生网络的2倍。应用我们的相关教师后，在Recall@1和Recall@16的性能增益分别为17.1%和 15.5%。召回@K124学生（ResNet-18）51.063.074.050%标记ML+KD（绝对值）51.763.273.9ML+KD（相对）56.066.777.6教师（ResNet-101）58.170.080.150%标记(ML+KD（绝对值）/KD（绝对值）53.965.275.8+50%未标记(ML+KD（rel））/KD（rel）57.268.078.250%未标记仅KD（绝对值）49.860.871.02915CUB-200-2011汽车-196图5.来自我们实验中使用的两个细粒度数据集CUB-200-2011和Cars-196的示例图像。顶行显示高质量图像的示例，底行显示相应的低质量图像的示例。表5.在CUB-200-2011上使用MobileNet-0.25的性能召回@K124816学生（MobileNet-0.25）27.535.846.058.570.6ML+KD（相对）44.656.066.477.386.1教师（ResNet-101）58.970.480.788.293.5表6.CUB-200-2011和Cars-196数据集的交叉质量结果，具有低分辨率和未定位的对象退化。低分辨率未定域的召回@K1 2 41 2 4学生（ResNet-18）44.4 54.7 65.343.6 54.5 66.9Cub-200-2011ML+KD（绝对值）ML+KD（相对）45.7 56.8 68.346.2 57.4 68.643.0 54.5 66.145.9 57.9 69.3教师（ResNet-18）53.7 65.2 74.754.8 67.2 78.7学生（ResNet-18）37.5 50.0 62.654.0 67.3 78.2汽车-196ML+KD（绝对值）ML+KD（相对）58.6 70.7 80.758.9 71.0 81.157.7 70.4 80.661.9 74.4 84.2教师（ResNet-18）71.0 81.2 88.767.8 79.1 87.95.4. 交叉质量蒸馏作为一个额外的实验，我们做了嵌入的蒸馏，以在不同领域之间转移知识这最初是由Su等人在分类设置中提出的。[33]为了提高对低质量数据的识别，他们与受过高质量数据培训的教师一起使用蒸馏。然后，学生用低质量的数据和来自教师的指导进行训练，教师可以访问高质量的数据。在这里，我们将应用交叉质量蒸馏与度量学习的建议损失由于在本实验中，目标不是减少参数的数量，而是弥合领域差距，因此我们为教师和学生使用相同的架构（ResNet-18）。为了训练嵌入，我们使用了三重丢失，和前面的实验一样，我们用两个老师训练学生：相对和绝对。我们考虑在CUB-200-2011和Cars-196上的两个交叉质量蒸馏实验。第一个实验考虑低分辨率和高分辨率图像。为了得到低分辨率的图像，我们将它们下采样到50 x 50，然后再次上采样到224 x 224（见图中的示例（五）。低分辨率高分辨率2916第二个实验考虑非局部信号degra- dation，其中输入图像根据教师的给定边界框进行裁剪结果可见于表6中。可以看出，结合额外的知识蒸馏损失改善了大多数设置的结果，相对教师始终超过绝对教师，如在先前的实验中。蒸馏的改善在Cars-196数据集上更明显，这也在[33]中观察到。由于这是一个更具挑战性的数据集，其中有不同颜色的汽车属于同一类别，因此教师提供的信息变得更加重要。6. 结论我们研究了网络蒸馏，目的是计算高效的图像嵌入网络。我们提出了两个损失，目的是沟通教师网络知识的学生网络。我们在几个数据集上评估了我们的方法，并报告了显著的改进：我们在CUB- 200-2011上获得了6.3%的收益，在Cars-196上获得了29.9%的收益，在斯坦福在线产品上获得了6.3%的收益，当与在没有教师网络的情况下训练的完全相同容量的学生网络相比时。此外，我们将蒸馏损失应用于MobileNet-0.25。使召回率提高了17.1%。我们还验证了为嵌入学习添加未标记数据的好处。此外，我们还证明了在高质量图像上学习的嵌入可以用于改进只能访问低质量图像的学生网络。鸣谢本工作得到了西班牙文化部的TIN 2016 - 79717-R、CERCA项目和加泰罗尼亚自治区经济与知识部的工业博士学位基金2016 DI 039、中国国家自然科学基金61603364的支持。我们还感谢NVIDIA提供的慷慨的GPU支持2917引用[1] J. 布罗姆利岛Guyon，Y. LeCun，E. Sa？ckinge r和R.Shah. 使用“连体”时间延迟神经网络的签名验证。神经信息处理系统进展，第737-744页，1994年3[2] C. Bucilu aˇ，R. Caruana和A. 尼古列斯库-米兹尔模型压缩。在Proceedings of the 12th International Conferenceon Knowledge Discovery and Data Mining ，第 535-541页。ACM，2006年。一、二[3] G. 陈威Choi，X.Yu，T.汉，和M。Chandraker 学习有效的对象检测模型与知识的补充。神经信息处理系统的进展，第742-751页，2017年二三五[4] Y. Chen，N. Wang和Z.张某Darkrank：通过跨样本相似性转移加速深度度量学习。在2018年人工智能会议论文集上。二、六[5] S.乔普拉河Hadsell和Y.乐存。学习相似性度量有区别地，与应用到人脸验证。在IEEE计算机视觉和模式识别会议论文集，第1卷，第539-546页IEEE，2005年。一、二、三[6] C. B. Choy，J. Gwak，S. Savarese和M. Chandraker统一通信网。神经信息处理系统的进展，第2414-2422页，2016年。1[7] T. F. Cox 和 M. A. 考克斯多维缩放。 Chap- man 和Hall/CRC，2000年。4[8] J.高，Z.利河，巴西-地Nevatia等人知识浓度：在单个cnn中学习10万个对象分类器。在arXiv预印本arXiv：1711.07607，2017。2[9] A. Gordo，J. Almaz a'n，J. R ev aud和D. 拉勒斯深度图像检索：学习图像搜索的全局表示。在欧洲计算机视觉会议论文集，第241-257页施普林格，2016年。1[10] S.汉，H. Mao和W. J·达利深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。在2016年国际学习代表会议上。1[11] G. Hinton，O.Vinyals和J.Dean. 在神经网络中提取神经信息处理系统的进展，2014年。一、二、三、四[12] E. Hoffer和N.艾伦使用三重网络的深度度量学习。在基于相似性的模式识别国际研讨会上，第84-92页。施普林格，2015年。一、二、三[13] A. G. Howard ， M.Zhu ， B.Chen ，中国粘蝇D.Kalenichenko，W.小王，T. Weyand，M. Andreetto和H. Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。7[14] D. P.Kingma和L. BA.亚当：随机最优化方法。在2015年国际学习代表会议上。6[15] J. Krause，M. Stark、J.Deng和L.飞飞用于细粒度分类的3D对象表示。在IEEE计算机视觉研讨会国际会议上，第554-561页，2013年。5[16] B. Kulis等人度量学习：一个调查。Foundations andTrend sRinMa c hineLearning g，5（4）：287-364，2013.2[17] Y. LeCun，J.S. Denker和S.A. 索拉最佳脑损伤。神经信息处理系统进展，第598-605页，1990年1[18] X. Liu，J. van de Weijer，and A. D. Bagdanov Rankiqa：从无参考图像质量评估的排名中学习。2017年计算机视觉国际会议论文集2[19] M.马萨纳岛放大图片，J. van de Weijer和A. M.洛佩兹用于新颖性和异常检测的度量学习在英国机器视觉会议论文集，2018年。1[20] M.奥皮茨湾Waltner，H. Possegger和H.比肖夫Bier-鲁棒地提升独立嵌入。 2017 年国际计算机视觉会议（ICCV）。6[21] N. Passalis和A.特法斯通过概率知识转移学习深度表示在欧洲计算机视觉会议（ECCV）的会议中，第268二、六[22] A. Paszke，S.格罗斯，S。钦塔拉湾Chanan、E.杨，Z.De Vito，Z. Lin，L.德迈松湖Antiga和A. Lerer pytorch中的自动微分。2017. 5[23] A. S. Razavian，H.阿兹普尔J. Sullivan和S.卡尔森美国有线电视新闻网功能现成的：一个令人震惊的识别基线在IEEE计算机视觉和模式识别研讨会会议上，第512-519页1[24] A.罗梅罗，北巴拉斯，S。E.卡胡A.查桑角Gatta和Y.本吉奥。Fitnets：薄而深的网的提示。在2015年国际学习表征会议上。二三五七[25] F. Schroff，D. Kalenichenko和J.菲尔宾Facenet：用于人脸识别和聚类的统一嵌入。在IEEE计算机视觉和模式识别会议的Proceedings，第815-823页，2015年。一、二[26] T. Scott，K. Ridgeway和M. C.莫泽自适应深度嵌入：k-shot归纳迁移学习方法的综合在神经信息处理系统的进展，第76-85页，2018年。1[27] O. Sener，H. O. Song，中国黑杨A. Saxena和S. Savarese学习无监督域自适应的可转移表示。神经信息处理系统进展，第2110-2118页，2016年。1[28] J. Shen，N.韦达蓬河谷N. Boddeti和K. M.喜谷我们信任的老师：学习行人检测的压缩模型在arXiv预印本arXiv：1612.00478，2016。二、五[29] E. Simo-Serra ， E. 特鲁尔斯湖费拉斯岛 Kokkinos ， P.Fua，和F.莫雷诺诺格尔深度卷积特征点描述符的判别学习。国际计算机视觉会议集，第118-126页，2015年二、六[30] K. Simonyan和A.齐

下载后可阅读完整内容，剩余1页未读，立即下载