基于知识蒸馏的小型可视化语言模型压缩

129 浏览量更新于2023-10-14 收藏 730KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1428基于知识蒸馏的可视化语言模型压缩ZhiyuanFang，JianfengWang，XiaoweiHu，Lijuan Wang，Yezhou Yang，ZichengLiu亚利桑那州立大学摘要尽管在视觉语言（VL）表示的预训练方面取得了令人兴奋的进展，但很少有人渴望小型VL模型。在本文中，我们研究了知识蒸馏（KD），以有效地压缩基于Transformer的大型VL教师VLM自适应教师VLM微调教师VLM一个小型的VL模型。主要的挑战来自于从教师和学生的不同检测器提取的不一致的区域视觉标记，导致隐藏表征和注意力分布的不对准。为了解决这个问题，我们重新培训和调整教师使用相同的地区的建议，从斯图-当特征来自老师自己的时候，使用dent学生VLM预训练VL蒸馏Finetuning下游VL蒸馏物体探测器通过对齐的网络输入，适应教师能够通过中间表示传递知识。具体而言，我们使用均方误差损失来模仿Transformer块内的注意力分布，并提出了一个令牌式噪声对比损失，通过对比存储在样本队列中的负表示来对齐隐藏状态为此，我们表明，我们提出的蒸馏显着改善的小VL模型的图像captioning和视觉问答任务的性能。其到达一百二十COCO字幕的CIDEr评分为8，改善5。1超过其未蒸馏的对应物;和69的准确度。VQA 2.0上为8，0。8从基线开始。我们广泛的实验和烧蚀证实了VL蒸馏在预训练和微调方面的有效性阶段1. 介绍在视觉语言方面已经有了令人兴奋的进展-tic（VL）预训练以学习全方位表示模型[44，60，9，64，83，42]，这可以使许多人受益下游任务（即，图像字幕、VQA、图像检索等）的执行。成功可以在很大程度上归功于基于自我注意力的Transformer架构，例如BERT [14]，它在从图像-文本中https://asu-active-perception-group.github.io/www.example.com图1：我们提出的VL蒸馏方案的概述。VL模型通常包含区域特征提取模块和多模态Transformer模块。为了具有对齐的输入，我们基于来自学生然后在预训练阶段和微调阶段中进行VL蒸馏按比例配对。到目前为止，大部分工作都集中在大型模型上，这些模型在推理时具有高延迟和大存储器占用空间，这将它们的部署限制在现实世界应用的资源受限边缘设备上。作为压缩大型模型的有效技术之一，知识蒸馏（KD）[25，6]通过将来自强教师模型的知识注入到较小的学生模型中而不损失太多的泛化能力而被提出。通常，通过模仿输出logit [25，57，17]、减少特征图[80，27，78]的发散或学习中间层表示[36，1]等来传递知识。近年来，KD算法在压缩语言模型方面被证明是有效的。例如，Kim等人。 [35]采用KD进行顺序模型压缩。在基于变换器的语言模型中，DistillBERT [57]使用基于Transformer块中的隐藏嵌入的余弦嵌入损失和软目标概率损失将BERT基础模型的大小减小了40%。Tiny-BERT [34]，MobileBERT [63]和MiniLM [72]进一步强调了最小化自我注意力的重要性适应任务负责人传输块...任务负责人传输块...Transformer块...Transformer块...Transformer块...1429分布在教师和学生网络中。特别是，[10]直观地显示BERT中的注意力图捕获了大量的语言知识和句法关系，这些知识和句法关系在提取过程中提供了关键信息[34]。迄今为止，这些进步尚未被延续到VL模型压缩。我们确定了阻碍我们将这些技术直接应用于VL蒸馏的主要挑战：大多数现有的VLP作品[83，42]使用预训练的对象检测器（例如，Faster-RCNN [54]）来提取区域特征作为视觉令牌，然后将它们馈送到多模态Transformer网络中以进行VL预训练。较小的VL模型通常使用轻量级检测器进行更快的推理（例如，在[71]中采用基于EfficientNet [65]的检测器作为视觉特征提取器），其可能与Teacher的检测器不同。来自两个不同检测器的对象提议通常非常不同，并且没有简单的方法来获得两组对象提议之间的语义对应。因此，它无法对齐学生和教师之间的注意力分布或隐藏嵌入。为了解决上述挑战，我们提出了一套策略，使蒸馏VL模型。首先，我们不使用来自两个不同检测器的对象建议，而是使用从Student的轻量级检测器获得的同一组对象建议，这确保了教师和学生的视觉标记之间的语义对应。第二，我们使用一个损失项，让学生在最后一个Transformer层模仿教师的自我注意力分布。第三，我们进一步从Transformer层的输出（即隐藏嵌入）中提取知识。我们发现，简单地从分层教师嵌入学习并不能为蒸馏提供足够的监督。因此，我们使用噪声对比损失来通过将令牌嵌入与样本队列中保存的随机采样的负嵌入进行对比来对齐令牌嵌入图1给出了我们提出的VL蒸馏方案的概述，其中VL蒸馏应用于预训练和微调阶段。为了检查我们的VL蒸馏的有效性，我们选择与 [72 ， 71] 中使用的相同的紧凑型Transformer架构，以及与[71]中相同的轻量级对象检测器，但是利用知识蒸馏技术来促进小VL模型（被称为DistillVL M）的训练。我们表明，我们的DistillVLM实现了与大型VL模型相当的性能，并且明显优于其非蒸馏的对手[71]。总结我们的贡献：• 我们首次提出了VL蒸馏，一种利用知识蒸馏来促进较小VL模型训练的技术。• 与非蒸馏VL模型预训练相比，VL蒸馏为VL任务（如图像字幕和视觉问题回答）提供了显着的性能提升： DistillV L M 在 COCO 字幕 [ 43 ] 上的CIDEr得分为120.8，在VQA [20]任务上的准确度为69.8，分别为5. 1个以上或0的情况。8高于VL训练前基线。• 我们提供了广泛的蒸馏LM的烧蚀，并系统地分析了各种KD策略的效果。这为今后VL模型精馏的研究提供了思路。2. 相关工作视觉语言预训练。在基于转换器的[68]自然语言预训练[14，51，38，5，11，52]取得显著进展之后，视觉语言预训练模型，无论是用于图像+文本[44，64，9，42，26，81，41，18，40，45]还是用于视频+文本[61，40，46，84，39]。这些表示在转移到许多下游V+L任务时取得了巨大的成功，例如，图像/视频字幕[3，79，70，76，26，15]。VQA [21，4，19]，文本接地[56，16，24，82]等。大多数现有的VL模型以两步方式设计：使用预训练的对象检测器将图像编码为区域特征集（作为离线视觉标记），随后使用诸如掩蔽语言建模、图像-文本匹配或掩蔽区域建模损失之类的任务在大规模视觉语言语料库上进行预训练。特别是，Zhang等人。 [81]证明了视觉特征在VL预训练中的重要作用，并从更大的对象检测器中寻找更有效的视觉表示。Li等人 [42]表明，较大的Transformer VL模型可以从较大的VL语料库中学习得更好。然而，边际成本大于边际收益。最近，Wang等人。 [71]提出了一种称为MiniVLM的小型VL模型，该模型使用轻量级视觉特征提取器和较小的Transformer将模型大小减少了73%，并在VL任务中保持良好的准确性。然而，MiniVLM上的预训练成本与次优效率相关：它需要大量的训练数据（14M）来学习良好的表示。因此，值得探索一种更有效的方法来训练小型VL模型。存在VL预训练工作的其他行，其中从卷积层中提取网格特征[29，32[53，50，13]使用卷积神经网络作为图像编码器从头开始学习视觉表示，该图像编码器具有用于大量图像-文本对的VL预训练的Transformer。 VL蒸馏的概念不仅限于两级VL模型，它也可以潜在地有益于其他类型的基于Transformer的VL模型。1430“一条街上有两只狗”强检测器可视化令牌提取对象提议光检测器T文本标记视觉标记VΣ1LLL·教师VLM不V不V学生VLM图2：我们提出的DistillVLM架构的图示。轻量级检测器提取区域特征，并且区域建议被注入到强检测器中，使得区域特征在教师和学生之间对齐教师Transformer网络在蒸馏之前适应新的输入。基于隐藏嵌入匹配和注意力分布对齐来提取学生VLM。知识蒸馏（Knowledge Distillation）已被应用于不同领域的压缩任务建模，其主要目标是将样本（xi，yi）的“知识”f（xi）从强教师网络（T）转移（S）通过最小化它们之间的差异：在最后一个Transformer层上蒸馏，并将前训练的灵活性。[62，8]还在基于Transformer的语言模型压缩中使用了对比蒸馏。[17，62]提出使用样本队列来存储历史嵌入，并表明与更多负样本进行对比有利于知识蒸馏。N=Ni=1.LS（xi，yi）+LKD。FS（xi），fT（xi）ΣΣ，（1）3. 视觉语言知识提炼其中S（）是指Student上的原始监督信号。在实践中，这个术语可能被单独使用LKD代替。取决于所传递的知识的类型，KD可以从软交叉熵、均方误差（MSE）函数或KL散度导出。例如，[25，6]通过模仿跨类输出概率的质量函数，或通过最小化中间特征的分歧[78，36，28，77，73]来转移学习的[67，67，17]提出了视觉表征学习的对比蒸馏。此外，在语言模型压缩的知识蒸馏（即BERT [14]）方面取得了显着进展，这些工作表明，模仿自我注意力的分布和Transformer块的中间表示可以提高下游任务的性能[57，33，63，75]特别地，在基于变换器的语言模型蒸馏中，DistillBERT[57]提出通过模拟教师的TinyBERT [33]和MobileBERT[63]利用分层注意力分布进行MSE函数蒸馏[72]建议与语言模型中的知识提炼相比我们提出了DistillVLM用于视觉语言蒸馏的任务（整体架构如图2所示），以及我们的模型训练的详细策略。3.1. 可视化令牌对齐VL预训练方法，如OSCAR [42]，采用字-标签-图像三元组（w，q，v）格式的图像-文本对作为输入，其中w和q表示检测到的对象标签（在文本中）的caption嵌入和字嵌入的序列为了获得视觉标记v和对象标签，从对象检测器提取一组图像区域向量。在 VisualGenome [37]上预训练的Faster R-CNN [55]检测器用于提取每个区域的视觉特征向量，该向量与其区域位置坐标连接以形成位置敏感区域特征向量。然后将该向量馈送到线性投影中，以确保最终向量V具有与字幕/标签嵌入相同的尺寸。VL预训练可以被看作是在所述VL与所述VL之间的语义对齐过程自我注意的头部��L−1AHATTHIDFC层...HL−1QKVAHL企业简介+ITMVKQLH...Transformer块LTransformer块LTransformer块3Transformer块3Transformer块2Transformer块2Transformer块1Transformer块11431∈√T·Li、jHi、j01KKj=0我我exp（hS·hj/τ）√d·····∈i=1j=1图像区域和文本单元。值得一提的是，要从图像中提取的顶部区域取决于检测器[71]输出的其相关联的置信度分数，这导致一些过采样和噪声视觉令牌。通常，使用置信度分数以降序指定作为Faster-RCNN的替代方案， MiniVLM [71] 使用轻量级检测器（即TEE），其中主干被EfficientNet [65]取代，并添加了BiFPN [66]模块以生成多尺度特征。这些策略明显地加快了推理过程，但也不可避免地导致了教师和学生之间不同的视觉标记Transformer块在VL预训练任务的情况下，Cao et al.[7]表明，预训练VL模型的某些注意力矩阵包含广泛的模态内和跨模态共指关系。这些视觉语言知识是隐式编码的，但显示出非常有前途的潜在VL蒸馏。我们通过最小化教师和学生的最后一层的自注意矩阵之间的散度来公式化注意力分布的蒸馏损失：T H在蒸馏期间使网络凹陷。因此，直接LATT=1ΣΣMSE（AS，AT），（4）将蒸馏损失应用于注意力矩阵或隐藏表示会导致知识的无效转移T·Hi=1j =1i、ji、j边缘因此，我们通过使用由轻量级检测器识别的相同的检测到的边界框集合来提取和对齐教师/学生教师和学生VLM在蒸馏期间使用来自轻量检测器的相同对象标签让教师使用由来自轻量级检测器的建议提取的视觉令牌可能导致小的性能下降。在实践中，我们通过使用新的视觉令牌微调/重新训练教师VLM（教师适应）来解决这个问题3.2. 注意力分配蒸馏其中T、H表示Transformer中的令牌和注意头部的数量。Ai，j是第j个头处的第i我们进一步研究了蒸馏对消融中注意力分布的影响。3.3. 隐藏表示蒸馏类似于以前的作品[33，63]，我们也使用隐藏的表示在蒸馏过程中的教师和学生对齐。特别地，先前的努力将任务表述为最小化每个Transformer块的隐藏嵌入（HRT×d）的散度，其目标如下：Transformer块的一个关键部件是T LLHID-MSE=1ΣΣ MSE（HSW，HT），（5）quence多头注意模块输出一组注意值：Attention （ Q ， K ， V ） =softmax（Q·K）·V，（2）K其中Q、K和V表示在来自第i个Transformer块的隐藏嵌入H1上的三个独立线性变换之后检索的查询、密钥和值，并且dk是作为缩放因子的密钥的维度在softmax归一化之后，key和query之间的点积是attention矩阵：A=softmax（Q·K/dk）。（三）每个Transformer块由一组连续的线性变换组成，其包括一个多头注意模块、两层前馈网络、随后的归一化层以及最后的残余连接。语言模型蒸馏[33，63]中的先前尝试已经证明了转移自我注意矩阵的重要性，其被认为包含潜在的语言信息，例如。、句法和共指关系的输入令牌[10，31]。 [72]这说明，只有在最后L代表Transformer组的数量。 Wh是一个可学习的线性变换，它将Student隐藏嵌入映射到Teacher嵌入的相同维度。然而，这种层对层对准方法存在限制。例如，TinyBERT必须采用均匀函数映射来选择性地选择用于学习的层的子集，并且MobileBERT要求教师和学生具有相同数量的层。由于视觉标记在VL蒸馏期间是有噪声的，这也导致对准的难度增加。Sun等人。 [62]提出了CoDIR，它利用噪声对比估计（NCE）损失的优势，通过将目标实例（h S）与作为负样本的更多随机实例进行对比并与其正样本（h T）h R d T进行对齐，来对齐教师学生在[22，17，62]之后，我们采用预定义的实例队列[hT，hThT]来存储来自教师网络的K个随机NCE的目标是：exp（hShT/τ）LHID=−logΣ，（6）我多头自我注意模块[68]。其使得能够从输入序列捕获上下文化信息1432转⟨·⟩LL∼LLS不其中τ表示温度超参数，是余弦相似度函数有不同的方式为了检索隐藏表示h，例如[62]使用均值池化令牌表示作为逐层概括嵌入。我们发现，将NCE损失应用于令牌式嵌入会导致更好的蒸馏结果，如第4.3节所述。引入线性映射用于相同的维度变换：：RdSRdT（dS，dT表示学生和教师网络的隐藏嵌入维数）。为了更新实例队列，我们将当前批次（hT）的教师导出的表示入队，并在迭代之后将最早存储的样本出队。队列设计的引入实现了批量独立蒸馏，并允许用有限的计算资源与更多对比样品进行比较。在烧蚀实验中，我们讨论了队列长度的增大以及其它蒸馏方法对烧蚀的影响.与[22，62]相反，我们将来自预训练和冻结的教师网络的表示存储在样本队列中，这些表示在训练期间保持不变。这使我们不必像[17]中那样使用动量编码器。3.4. 分级蒸馏上述损失允许在预训练阶段期间进行任务不可知的蒸馏。此外，在微调阶段，我们进行知识蒸馏，有利于某些VL下游任务。具体地，大多数VL下游任务是具有标签的基于分类的任务，例如，图像字幕或VQA任务。在下游继续蒸馏减轻了由不同预训练VL语料库带来的域与[25]一样，我们最小化学生和教师网络的softmax预测，损失由交叉熵来衡量：LCLS=CE（z/τd，z/τd），（7）其中τd是指温度参数，我们简单地将其保持为常数1。zS/zT是来自学生/教师网络的软标签3.5. 培训对于训练，我们保留原始 VL 预训练目标损失（VLP）[44]，其包括：掩蔽语言建模损失（MLM），其中15%的文本主题被掩蔽并且用特殊标记[MASK]替换，并且期望VL模型对这些标记进行分类;图像-文本（对比）匹配（ITM）损失（ITM），其中期望模型预测图像-文本对是否匹配。我们在预训练阶段的蒸馏的最终总损失是上述的组合：L=LVLP+αLATT+βLHID，（8）其中α和β是损失项的权重我们发现LCLS对训练前阶段因此我们简单地将其应用于微调蒸馏阶段，如下所示：L=LCE+LCLS+αLATT+βLHID，（9）其中CE是特定下游任务中的原始分类任务。我们研究了不同的学习损失在我们的消融的影响4. 实验在本节中，我们在预训练和微调阶段对VL蒸馏进行了大量实验。为了评估我们提出的蒸馏方案的有效性，我们提供了图像captioning和VQA任务的结果和消融4.1. 数据集在[42]之后，我们通过组合多个现有的VL数据集来构建VL预训练具体来说，我们使用概念字幕（CC）[59]，SBU字幕[47]，Flicker 30 k [49]，GQA [30]，COCO字幕[43]和VQA-2.0 [20]的训练分割，产生400万个唯一图像和700万个图像-文本对（VL-7 M）。我们的Teacher模型和DistillV L M都在VL-7 M上进行了预训练，然后转移到下游VL任务：im-COCO字幕上的年龄字幕和VQA-2.0上的视觉问题回答。我们遵循Karpathy对于VQA任务，我们在VQA-2.0数据集上进行下游微调和测试，该数据集由83k图像/444k问题用于训练，41k图像/214k问题用于验证。为了与之前的工作进行公平比较，我们通过在线评估服务器2报告测试-标准和测试-开发分割的结果，并使用测试-开发分割比较消融结果。4.2. 实现细节视觉表示。早期的VL预训练（VLP）工作主要使用更快的R-CNN [3，54]甚至高级架构[74，83]进行视觉区域表示提取。为了获得具有更多语义的视觉标记，VLP的对象检测器通常在视觉基因组数据集[37]上进行预训练，该数据集包含1，600个对象和500个属性类别。继 MiniVLM [71] 之后，我们还采用基于EfficientNet [66]的轻量级对象检测器（TEE）进行视觉特征提取。TEE减少了90%的总推理时间，参数减少了91%（86。R101-F为9M vs. 7 .第一次会议。对于TEE为5M）。与MiniVLM相同，我们还在视觉表示提取之前在Object365 [58]和Visual Genome [37]数据集上预训练TEE检测器。我们使用基于R101 [23]的Faster-RCNN和TEE检测的建议用于1https://github.com/karpathy/neuraltalk22https://visualqa.org/challenge.html1433方法#参数# I-T对Feat.P. D.F. D.B@4CocoM字幕CSVQAtest-std test-devUVLP [83]奥斯卡B[42]111. 7M111. 7M3米7MResNeXt101R101-F✗ ✗✗ ✗三十六5三十六528岁4三十3一百一十六9一百二十三721岁223岁1七十7−七十三。473。2MiniVLM [71]三十四5M7MTEE✗ ✗三十四328岁1一百一十六721岁3- -MiniVLM [71]三十四5M14米TEE✗ ✗三十五628岁6119821岁669岁。4691✗ ✗三十四028岁0一百一十五721岁169.068.8蒸馏VLM三十四5M7MTEE✓三十四528岁2117 121岁569岁。269岁。0三十五2✓✗28岁6一百二十121岁969岁。769岁。6✓ ✓三十五628岁7一百二十8二十二岁169岁。869岁。6表1：DistillVLM从更强的VL模型（作为Teacher）中提取，并且在不同的评估指标下在COCO字幕任务上保持高准确率，而不管轻量级视觉特征提取器带来的效果如何（TEE vs. R101-F）。与MiniVLM [71]相比，我们的模型显示出具有竞争力的结果，即使只有一半的图像-文本对（#I-T对）可用于预训练。VL蒸馏策略在预训练阶段（P.D.）和微调级（F.D.）。所有的字幕方法与交叉熵优化。教师区域视觉表征提取。这保证了教师和学生之间的输入令牌的语义对应性像[42]这样的流行VL预训练方法表明，在VL预训练中应用对象标签有助于性能。在蒸馏过程中，我们使用一致的对象标签检测TEE的教师和学生网络。对象标记和视觉标记的长度分别为15和50VL预培训蒸馏。我们使用紧凑的变压器架构的VLP和VL蒸馏。特别地，我们遵循[72，71]并采用具有12个注意头和384个隐藏维度的12对于教师模型，我们使用 Oscarb [42] ，这是一个 12 层的Transformer，具有12个注意力头和768个隐藏大小，在 VL-7 M 语料库上预训练了 1 M 步（ 100 个epochs ），学习率为5e-5，批量大小为768，使用AdamW 优化器。 3 总的来说，我们的紧凑型Transformer使用与MiniVLM [71]相同的架构，它有34个。5M可学习参数，比Oscarb少70%。对于VL蒸馏，我们首先通过使用新的视觉标记重新训练教师VLM来然后，我们保持教师模型冻结，在整个VL蒸馏过程中没有进一步与[83，42]相比，DistillVL M中的权重被随机初始化，而不从BERT [14]继承权重我们采用2e-4的学习率，批量大小为768，用于预训练/蒸馏。我们在表1中报告并比较了VL蒸馏与先前VLP基线的效果。设τ=τd= 1，α= 10，β= 10。当使用不同的值时，观察到类似的结果。我们将队列大小设置为4096，并进一步研究消融中不同超参数的影响转移到下游任务。为了验证我们提出的VL蒸馏方案的有效性，我们将预先训练的模型转移到VL下游任务。图像字幕和VQA任务可以用公式表示为一个典型的3https://github.com/microsoft/Oscar1434L分类任务，这使得能够在下游直接进行特定于任务的蒸馏和比较我们主要研究他们在这项工作中，而VL蒸馏是不是特定的任务，可以扩展到其他VL任务以及。我们使用下游微调Teacher的输出logit作为软标签进行下游蒸馏（任务）。有关下游任务的蒸馏和消融的更多详细信息，请参见附录。图像字幕。我们通过将其转移到图像字幕任务来评估我们的模型。我们通过随机屏蔽掉15%的字幕标记来微调我们的模型，并强加一个分类任务来预测被屏蔽的标记 id使用交叉熵损失。与[14]类似，我们将文本句子修剪并填充到20的长度。在推理时，我们递归地馈送[MASK]令牌，并使用波束搜索大小在1. 字幕模型的性能通过BLEU@4 [48]，METEOR[12]，CIDEr [69]和SPICE [2]指标进行评估。我们在有限的范围内执行参数搜索：学习率{2e−5，5e−6}和历元{20，30，40}。VQA。对于VQA任务，模型必须从给定图像和文本问题的多选项列表中选择正确的答案。我们对VQA-2.0数据集[20]进行了微调，并报告了test-std和test-dev拆分的准确性。在[3]之后，我们将VQA模型训练为3，129路分类任务。我们在有限的范围内对VQA任务进行了轻度组合参数搜索：学习率{1e−5，5e−5}和历元{20，40}。4.3. 结果和分析表1总结了使用Oscarb作为教师模型的DistillVLM的结果。我们在顶部的行中列出了具有更大Transformer架构和更强视觉表示的VLP基线。特别地，在没有VL蒸馏的情况下，DistillVL M达到34。0BLEU@4和115。7CIDEr评分和TEE视觉表现a-1435LLLLVLPL ATTL HIDCOCO字幕B@4 M C SVQAtest-dev✓✗ ✗✓ ✓✓ ✓✓ ✓✓ ✓三十三岁。0273一百一十620块468岁5三十二九点二十七5111.820块668岁9三十四0二十七岁8二十七岁8二十七岁9一百一十四421岁121岁121岁369岁。269岁。2三十三岁。9一百一十四7三十四6一百一十五669岁。4表2：与预训练阶段的VL预训练损失（VLP）相比，基于注意矩阵（ATT）、隐藏隐藏嵌入（HID）的详细蒸馏效果。在7 M图像-文本对上进行20次预训练/蒸馏后报告结果，然后在下游进行微调（仅使用交叉熵优化）。使用VLP [42]（掩蔽语言预测和图像-文本匹配损失）进行分类。这略低于MiniVLM [71]在VL-7 M上预先训练的性能：116。7CIDEr评分vs. 我们的复制品7的表3：使用不同的蒸馏策略，即层到层蒸馏或最后一层蒸馏，使用均方误差距离（MSE）或噪声对比（NCE）损失的DistillVLM的消融。文本提取表示仅将提取应用于文本标记而不使用视觉标记。在VL上训练/蒸馏20个时期后报告字幕结果7M的交叉熵优化。*是使用平均值的结果用于蒸馏的池化令牌嵌入。可能是由次优超参数引起的。较大和较小的VLP模型之间的明显性能差距表明了可视化表示的重要性，因此在小型VL架构上需要VL蒸馏。值得注意的是，当配备下游蒸馏时，它在COCO字幕数据集上表现更好1 .一、CIDEr为4，0。BLEU@4分数上还有5VQA任务的下游蒸馏显示轻微改善：69岁。2对69岁。0的情况。我们推测，这主要是因为对是/否或计数类型问题的分类蒸馏然而，预训练阶段的VL蒸馏在所有指标上一致地提高了DistillV L M在字幕和VQA任务上的性能：∆ = 1。在B@4，4处为2%。CIDER4个，以及0的情况。VQA测试-标准品分离结果高7 与其非-与蒸馏的对应物MiniVLM [71]相比，DistillVL M显示出更好的结果，仅具有VL语料库的一半大小。为此，VL蒸馏在预训练和微调阶段的组合实现了DistillVL M的最佳结果，其显示出与Oscar b：120相当的性能。8对一百二十三7，参数减少70%。为了了解更多关于DistillVL M的信息，我们对不同的设计方案进行了烧蚀，并在第4.3节中检查了不同时期蒸馏的优点和数据使用情况。不同损失下的蒸馏。表2呈现了基于VL预训练的每个蒸馏损失（注意矩阵、隐藏嵌入）的单独贡献。VL预训练/蒸馏的实验使用与之前相同的超参数训练20个时期。从表中，我们观察到以下情况：首先，未经蒸馏的基线单独达到110。6 CIDEr评分为图像字幕和67。2精度开启VQA基准测试（如表2的第一行所示）。通过模仿注意力的分布，进行了微小的改进，即1。CIDEr为2，0。VQA评分分别为4。类似地，当将VLP与隐藏嵌入蒸馏相结合时，我们观察到相同的趋势。与VLP基线相比，隐藏嵌入蒸馏显著提高了所有标准下的性能，证明了对齐模式的有效性。最后，所有损失项的组合给出了最佳性能，证实了我们提出的注意力和隐藏嵌入蒸馏损失是互补的。我们发现，单独使用蒸馏目标也产生了令人满意的性能，表明蒸馏的知识转移在一定程度上相当于VL预训练损失。不同的蒸馏策略。表3示出了使用不同策略的蒸馏结果，即，层对层蒸馏对比。最后一层蒸馏，和MSE损失vs.NCE损失。我们首先通过将注意力分布和隐藏嵌入蒸馏损失仅应用于文本to- ken部分来研究我们提出的视觉标记对齐的效果：例如使用“文本到文本”注意力子矩阵及其对应的文本标记嵌入。表3中的第二行是文本提取的结果，其显示出相对于VLP基线的轻微改善根据之前的语言蒸馏工作[33]，我们还进行了教师和学生之间的层到层注意和隐藏除此之外，层到层方法也可能受到其架构结构的严重限制[72]（例如，不同数量的层和注意力头）。“NCE + Last-layer” rep-resents the results of DistillV方法COCO字幕B@4 M C SVQAtest-dev[42]第四十二话三十三岁。0二十七岁3一百一十620块468岁5文本提取三十四1二十七岁7一百一十四320块969岁。0143689.1.8.69996.293.6110.04.210810.9蒸馏VLM103.6115.11141.111.4108n方法W/O。蒸馏120110100日志（1）日志（5）日志（10）日志（20）日志（50）对数（100）表4：负样本的数量对噪声对比估计损失的影响。较大的队列大小递增地有助于蒸馏性能。当队列大小接近1时，NCE损失大约是MSE损失，其中来自教师的唯一正锚。所有实验在VL-7 M上使用不同大小的样本队列训练20个epoch，然后转移到下游。12011010090历元日志对数（1%）对数（5%）对数（10%）对数（20%）对数（50%）对数（100%）使用的数据百分比日志alignment学习。我们发现，对比学习导致的结果略好于MSE损失。为此，我们研究了使用令牌式嵌入和均值池分层嵌入进行对比学习的差异，并观察到使用令牌式嵌入的学习给出了更好的结果，这是与[62]不同的观察结果。然而，应用具有NCE损失的均值汇集嵌入缓解了该问题，并且给出了与令牌式NCE方法相当的结果（参见表3中的最后两行）。我们在附录中进一步提供了用于下游任务的VL蒸馏的消融。在表4中，我们研究了在NCE损失中使用更多阴性样品的效果。我们观察到，增加样本队列的大小可以稳定地有助于VL模型的性能。特别是当我们只使用一个负样本时，模型达到112。5 CIDEr评分，与MSE结果一致（112.4CIDER评分），见表3。当增加到4096时，模型在所有指标上表现最好。虽然继续使用更多的负样本可能会产生更好的结果，但我们在实验中只是将样本队列的大小设置为4，096。请注意，我们的队列存储来自Teacher VLM的随机样本表示，这些表示在整个蒸馏过程中保持一致这也意味着杠杆老化批内样本进行对比学习的可行性，而队列设计减轻了模型的批量大小要求，并允许使用更多的负样本。数据高效的VL蒸馏。用于现实世界应用的VL蒸馏的一个关键方面是其以有限成本有效地训练较小VL模型的能力，即，具有较小VL语料库（数据稀缺）和较少收敛时期（训练效率）。为了进一步评估VL蒸馏是否可以应对这些挑战，我们在训练前阶段进行VL蒸馏，训练1，5，10，20，50，100个epoch，并将其结果与VLP进行比较。此外，正如[45]所指出的，特定的部分VL数据可能对性能贡献更大，我们建议将其与图3：顶部：说明在预处理中不同时期（1、10、20、50、100）下VL-7 M的培训/蒸馏;底部：使用具有20个时期的预训练/提取的VL-7 M图像-文本对的1%、10%、20%、50%和100%。使用均匀采样的部分数据（VL-7 M的 1%、5%、10%、20%、50%和100%）进行导管VL蒸馏/预训练。这些也有助于验证DistillVLM是否受益于更多的收敛时期和更多的VL数据。从上述结果可以得出几个首先，VL蒸馏，lation带来了一致的CIDEr增益在不同的训练，ING时代。非蒸馏VL预训练方法仅达到99。8CIDEr评分，1个训练时期，而DistillV L M达到103。1（见图3）。值得注意的是，DistillVL M的CIDEr评分随着更多的训练时期而稳定增加当涉及到使用不同百分比的VL数据时，我们也看到了类似的趋势。在最极端的情况下，只有1%的VL-7 M语料库可用，VL预训练产生89。1 CIDEr评分，4。1低于VL蒸馏。有了更多的图像-文本对，VL蒸馏显然会给出更好的结果：8.10%和5. 0%，为100%。这表明，无论可用的数据量如何，VL蒸馏都比正常的预培训策略提供更有效和更有5. 结论我们已经提出了第一个VL蒸馏，杠杆年龄的知识蒸馏技术压缩大型视觉语言模型。我们的实验从几个方面证实了VL蒸馏的有效性：与非蒸馏VL预训练方法相比，VL蒸馏不仅带来了更好的性能，而且数据效率更高。我们广泛的烧蚀也验证了我们的VL蒸馏策略简单而有效。致谢：Z. Fang和Y.Yang等人的研究得到了美国国家科学基金会项目#1750082的部分W/O。蒸馏蒸馏VLM109.599.8.6.81104.5107103.110.71155.211.6.8115112.11208.211方法CIDEr评分CIDEr评分阴性数量B@4COCO字幕M CSVQAtest-dev1三十三岁。3二十七岁6一百一十二520块768岁5128三十三岁。6二十七岁7一百一十二720块968岁91437引用[1] S. Ahn，S.X. Hu，黄毛菊A.Damianou，N.D. Lawrence和Z.戴.知识转移的变分信息蒸馏。在IEEE/CVF计算机视觉和模式识别会议论文集，第9163-9171页[2] P. Anderson ， B. 费尔南多 M. Johnson 和 S. 古尔德。Spice：语义命题图像字幕评价。在欧洲计算机视觉会议上，第382-398页。施普林格，2016年。[3] P. Anderson，X.他，C.Buehler、D.Teney，M.约翰逊先生，S. Gould和L.张某自下而上和自上而下的图像字幕和视觉问答注意。在IEEE计算机视觉和模式识别会议论文集，第6077-6086页[4] S. Antol，A. Agrawal，J. Lu，M.米切尔，D。巴特拉角L. zitnick和D.帕里克Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425-2433页[5] T. B.布朗湾Mann，N. Ryder，M. Subbiah，J. 卡普兰P. Dhariwal ， A.Neelakantan ， P.Shyam ， G.Sastry ，A.Askell等人语言模型是很少机会的学习者。arXiv预印本arXiv：2005.14165，2020。[6] C. Bucilu aˇ，R. Caruana和A. 尼古列斯库-米兹尔模型压缩。在 Proceedings of the 12th ACM SIGKDDinternational conference on Knowledge discovery and datamining，pages 535[7] J. 曹，Z.甘，Y。成湖，澳-地余，Y.-C. Chen和J.刘某在幕后：揭示预先训练的视觉和语言模型的秘密。欧洲计算机视觉会议，第565-580页Springer，2020年。[8] L. Chen，Z.甘氏D.王建，J.刘，R. Henao和L.卡琳瓦瑟斯坦对比表征蒸馏法。 arXiv 预印本 arXiv ：2012.08674，2020。[9] Y.-- C. 陈湖，澳-地利湖，加-地Yu，中国茶条A.ElKholy，F.艾哈迈德Z.甘Y. Cheng和J.刘某Uniter：学习通用的图像-文本表示。2020年欧洲计算机视觉会议。[10] K. 克拉克，美国。汉德尔瓦尔岛Levy和C.D. 曼宁伯特在看什么？对伯特注意力的分析。在2019年ACL研讨会BlackboxNLP：分析和解释NLP的神经网络，2019年。[11] K.克拉克，M.

下载后可阅读完整内容，剩余1页未读，立即下载