Lite-MDETR：一种轻量级多模态检测器

170 浏览量更新于2023-10-25 收藏 13.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

122060Lite-MDETR：一种轻量级多模态检测器0Qian Lou，Yen-Chang Hsu，Burak Uzkent，Ting Hua，Yilin Shen，Hongxia JinSamsung Research America{qian.lou，yenchang.hsu，b.uzkent，ting.hua，yilin.shen，hongxia.jin}@samsung.com0摘要0基于transformer和模态编码器的最新多模态检测器已经成功地在以原始文本查询为条件的端到端视觉目标检测任务上取得了令人印象深刻的结果。然而，为了达到高性能，它们需要大型模型尺寸和大量计算，这使得难以在受硬件资源限制的移动应用上部署。在本文中，我们提出了一种轻量级的调制检测器Lite-MDETR，以便在移动设备上实现高效的端到端多模态理解。关键原理是提出了一种名为字典查找变换（DLT）的方法，用于替换多模态检测器中的线性变换（LT），其中线性变换（LT）中的每个权重都近似分解为较小的字典、索引和系数。这样，具有权重的巨大线性投影被转换为具有字典的高效线性投影，通过索引和系数进行少量查找和缩放。DLT可以应用于任何预训练的多模态检测器，无需从头开始进行昂贵的训练。为了解决DLT训练中由于不可微分索引而带来的挑战，我们将索引和系数转换为稀疏矩阵，在微调阶段对该稀疏矩阵进行训练，并在推理阶段将其恢复为索引和系数。我们在短语定位、指代表达理解和分割以及VQA方面的实验证明，我们的Lite-MDETR在减小模型尺寸的同时实现了与先前多模态检测器相似的准确性，减小了约4.1倍的模型尺寸。01. 引言0最近，在视觉和语言数据上的多模态模型由于采用了transformer和大规模预训练[3, 7, 12, 21,32]而在视觉和语言任务上表现出了增强的性能。这些多模态transformer从大型模型复杂性和计算昂贵的大规模预训练中获益。然而，它们的大型模型复杂性0“穿着红色衬衫，拿着棒球棒的男人”0微型视觉编码器0基于DLT的多模态Transformer0这个男人：1.000基于DLT的文本Transformer0图1.我们的轻量级多模态Lite-MDETR使用提出的DLT层。我们用更高效的DLT层替换文本编码器和多模态transformer中的线性变换层，以减小模型尺寸。0由于资源有限的平台，如移动设备[19,31]，禁止我们在上面部署它们。因此，提高最近多模态模型的效率对于实际应用至关重要。然而，目前不存在一种方法可以在减小模型尺寸的同时利用已经预训练的多模态transformer，因为现有的方法[25, 26,29]需要在大规模数据集上对压缩模型进行预训练。深入研究多模态模型，我们发现单个transformer中的线性transformer层（LT）占据了整体模型尺寸的很大比例。例如，最近发布的最先进的视觉和语言模型MDETR[12]使用基于视觉和语言transformer的检测器以及用于处理文本和图像输入的语言transformer和CNN作为主干。我们发现文本编码器中的LT层（RoBERTa transformer[20]）和MDETR中的视觉和语言transformer占据了模型尺寸的约90%。因此，将传统的LT层替换为更高效的层以减小MDETR模型的尺寸，以实现高准确性并能够在资源有限的实际应用平台上部署是合理的。受到这一发现的启发，我们提出了一种轻量级字典查找变换（DLT）层，可以替换MDETR模型中transformer中昂贵的LT层。我们在图1中展示了我们的DLT层在MDETR中的集成。如图所示，我们在文本中使用DLT层0100200300400500450214110122070“穿着红色衬衫拿着棒球棒的男人”0视觉编码器0文本编码器0多模态Transformer0男人: 1.000MDETR Ours Ours-Q0模型大小（MB）0文本编码器视觉编码器 Transformer02.09 x01.94 x0(a). 基于原始文本查询的先前端到端多模态检测器 (b). 模型大小分解和比较0图2. (a) MDETR中使用的最先进的多模态检测器架构[12]。(b)使用ENB-3作为骨干网络的MDETR的模型大小分解以及我们轻量级架构的效果。Ours-Q表示我们在轻量级架构上进一步使用16位量化技术。0MDETR中的编码器和多模态Transformer。我们的DLT层将LT的表示压缩为字典，通过字典上的稀疏查找进行缩放和求和，以恢复压缩的表示。为了进一步减小模型大小，我们使用PyTorch中已经实现的正交量化方法[14,23]。我们的实验表明，我们使用DLT的Lite-MDETR在短语定位、指代表达理解、分割和视觉问答等多个任务上实现了与使用LT的MDETR相似的准确性。具体而言，仅仅使用DLT可以将MDETR的模型大小减小2.03倍，准确性略有损失，而正交量化进一步将模型大小减小1.94倍，如图2(b)所示。我们要强调的是，我们在没有对Lite-MDETR进行大规模数据集的预训练的情况下取得了这些结果。总之，这些结果增加了在资源有限的平台上应用MDETR的可能性，例如移动设备。02. 背景和动机02.1. 多模态检测器0最近，Transformer已经取代了CNN在图像上的端到端单阶段目标检测[2, 5, 6, 27,34]。DETR[2]是这个方向上的第一项研究，它使用Transformer来预测固定数量的边界框，而不使用任何边界框提议。在这一进展之后，Transformer也被应用于基于语言数据的图像端到端目标检测[7, 12,18]。例如，MDETR[12]使用DETR的Transformer来检测对象，给定CNN和文本编码器的多模态表示，如图2所示。在预训练阶段，它进行端到端训练，以检测图像标题中提到的对象。在微调阶段，MDETR可以针对需要检测的不同视觉和语言任务进行特定调整，即指代表达式或不指代，即VQA。后续研究0研究[7,18]使用与MDETR类似的架构，它们包含图像和文本编码器以及多模态Transformer。02.2. 现有轻量级多模态检测方法的局限性0实现轻量级MDETR的一种直接策略是用紧凑的模块替换MDETR中的大型Transformer块，如TinyBERT[11]、DistilBERT[25]，然后在大语料库上对这个新模型进行预训练。在这里，我们强调，对于一个紧凑的模型在下游任务上表现良好，通用预训练[25, 26,29]在大语料库上是必要的。然而，通用预训练通常需要大量的计算资源，因此可能不是每个人都能负担得起。例如，如果我们用一个紧凑的模型，如TinyBERT[11]，替换MDETR中的文本编码器或多模态Transformer，那么获得预训练的轻量级MDETR[12]可能需要近5376个NVIDIA V100GPU小时。另一种策略是在不使用通用预训练的情况下实现轻量级MDETR，即通过权重分解[9,22]来近似预训练的MDETR参数，以继承大型训练的MDETR模型的知识。然而，简单地使用权重分解往往会导致任务性能的显著下降[22]。在本研究中，与现有工作不同，我们提供了一种轻量级MDETR，它不需要通用预训练就能达到MDETR的准确性。02.3. 动机0在其原始形式中，MDETR模型的模型大小约为450MB，这使得该模型无法部署到资源受限的硬件上。因此，迫切需要设计一个轻量级模型。为了提出一个轻量级模型，我们调查了MDETR中的三个组件：视觉编码器、文本编码器和多模态变换器，如图2（a）所示。视觉编码器采用了一个小型CNN作为骨干，即ENB-3[28]；文本编码器使用了一个大型变换器编码器，例如RoBERTa[20]，它占据了总MDETR模型大小的约83%；多模态变换器是一个隐藏大小为256的变换器。进一步研究文本编码器和多模态变换器，我们发现线性变换（LT）层是主要的存储瓶颈，因为它占据了MDETR模型大小的90%以上。因此，在这项研究中，我们的动机是用更高效的层替换重型LT层，同时保持MDETR的准确性，并从已经预训练的MDETR中受益。122080字典权重0字典0输出�� （��，��）0�� × �� × �� × �� × ��0�� × �� × ��0�� × �� × �� 01.创建压缩字典2.查找、缩放和求和0（a）0��′ = ��（��，��）0（b）.我们0��′′ = ��（��，��，��，��）0图3（a）中的存储瓶颈线性变换层。（b）中的我们的轻量级字典查找变换器层（DLT）。在DLT中，我们将表示压缩为一个字典，然后通过查找、缩放和求和字典来扩展表示。0��（��，�� ） ��（��，�� ） ��（��0��0�� 0��（��，�� ）0��（��，�� ）0��0��0��0��0��（��，�� ）0��0��（��，�� 0��0��0��0��（��，�� ，�� ，�� ）��（��，�� ，�� ，�� ）0��0��（��，�� ，�� ，�� ）0��0��（��，�� ，�� ，�� ）0��（��，�� ，�� ，�� ）0��0��0�� 0（a）.变换器中的线性变换层（LT）（b）.变换器中的我们的字典查找变换层（DLT）0图4（a）中使用的变换器块用于MDETR。（b）中使用的轻量级变换器块用于我们的Lite-MDETR。为了简单起见，我们在（a）和（b）中避免使用残差和归一化操作，因为它们都用于线性变换和我们的字典查找变换层。0编码器采用了一个小型CNN作为骨干，即ENB-3[28]；文本编码器使用了一个大型变换器编码器，例如RoBERTa[20]，它占据了总MDETR模型大小的约83%；多模态变换器是一个隐藏大小为256的变换器。进一步研究文本编码器和多模态变换器，我们发现线性变换（LT）层是主要的存储瓶颈，因为它占据了MDETR模型大小的90%以上。因此，在这项研究中，我们的动机是用更高效的层替换重型LT层，同时保持MDETR的准确性，并从已经预训练的MDETR中受益。03. Lite-MDETR03.1. 定义和概述0对于最先进的多模态MDETR，图4（a）中显示的每个文本编码器块和变换器块都严重依赖于线性变换（LT）层。具体来说，给定每个输入或隐藏状态X，对应的是0ing查询Q，键K和值V由LT（X，W Q），LT（X，WK）和LT（X，WV）生成。方程式1中显示的注意模块将Q、K、V作为输入，并生成由W O投影的输出O，使用LT（O，WO）来组合变换器中的多头信息。投影值F1然后被馈送到前馈网络（FFN）层，如方程式2所示，生成F2和下一个隐藏状态Y。0Attention(Q, K, V) = softmax(QKT0√0dV)，(1)0FFN(F1) = max(0, F1WF1 + bF1)WF2 + bF2. (2)0如图4(b)所示，我们提出的Lite-MDETR用轻量级DLT替换了MDETR中的每个LT。我们提出的DLT不使用LT中的大权重，而是依赖于较小的字典D、索引I和系数C。在训练过程中，索引I和系数C被转换为稀疏矩阵B；在推理和部署过程中，使用B122090以稠密而微小的I和C存储。与以往从头开始创建紧凑架构和使用预训练的知识蒸馏的轻量级transformer方法不同[25,26,29]，我们的新架构DLT可以继承现有预训练MDETR模型的知识。因此，我们不需要在包含>1M图像的图像-文本数据集上预训练Lite-MDETR。这样可以节省大量的计算和GPU时间，因为在8个V100GPU上预训练MDETR需要几周[12]。具体而言，给定预训练的MDETR，我们通过分解LT中对应的权重来初始化DLT中的字典、索引和系数。与低秩分解方法相比，DLT在B的稀疏性上具有优势，即微小的字典权重D、索引I和系数C以及廉价的查找。我们在第3.3节介绍了稀疏B和字典权重D、索引I和系数C之间的切换方法。图3从网络连接的视角比较了LT和DLT。从图中可以看出，LT比DLT有更多的连接。具体而言，给定大小为n×d的输入X和大小为d×dW的权重W，LT几乎有d×dW个连接，其中n是标记数，d是transformer块中的隐藏大小。相反，DLT的连接较少。字典权重D的大小为d×r，系数和索引的大小为t×dW。给定大小为n×d的相同索引，DLT有(d×r+t×dW)个连接。可以动态调整字典大小r和系数大小t来控制性能和模型大小之间的权衡。作为补充，图5从矩阵视角介绍了LT和DLT的差异，并进一步说明DLT比LT更轻量级。我们基于DLT的Lite-MDETR有两种模式：（I）推理模式（II）训练模式。这是因为字典上的查找不可微分，因此索引I和系数C仅在推理模式和实际部署中使用。在训练模式中，不使用索引I和C，而使用具有稀疏约束的可微分B。我们在以下第3.2节和第3.3节中介绍这两种模式。03.2. Lite-MDETR推理0图5(a)和(b)分别显示了MDETR和我们的Lite-MDETR中使用的LT和DLT的计算过程。如图5(a)所示，LT(X,W)是输入X（大小为n×d）与权重W（大小为dW）之间的矩阵乘法，输出为X'（大小为n×dW）。相反，图5(b)表示了DLT(X, D, I,C)的计算过程，它以X为输入，生成X''作为输出。具体而言，DLT(X, D, I, C)有三个步骤：1.使用小的线性投影LT(X,D)生成字典S。使用一个大小为d×r的小字典权重D来压缩输入X0将大小为n×d的字典S的大小更改为n×r，使用S = LT(X,D)。DLT输出X''的每一列i都是字典S的t列的线性组合。这个线性组合是通过查找t×dW的索引矩阵、缩放和求和系数矩阵C来执行的。20查找S'[:][i] = Lookup(S,I[:][i])。索引矩阵I的每一列存储了显示哪些字典列应该被查找以进行后续的缩放和求和的索引。例如，给定t =3，第i列为[3, 6,12]，字典S的第3、6和12列将被提取为S'[:][i]。3个缩放和求和Scale & Sum(S', C[:][i]) =S''[:][i]。在使用I[:][i]进行每次查找后，我们得到t列S'[:][i]。系数矩阵C[:][i]的第i列中的t个系数分别与t列S'[:][i]进行缩放。然后，将缩放后的t列按元素相加，生成DLT的第i列输出X''[:][i]。例如，给定系数矩阵C[:][i]的第i列为[0.2, 0.5,0.3]，DLT将它们与相应的提取列进行缩放，并将缩放后的向量相加，生成X''[:][i]。为了生成所有的X''，需要执行dW次查找、缩放和求和。基于DLT的Lite-MDETR不仅具有更少的参数，而且在实际推理和部署过程中的计算量也比基于LT的MDETR更少。我们在第5节的广泛实验结果表明，Lite-MDETR具有较小的模型大小，但与MDETR具有相似的准确性。从理论上讲，LT需要O(d×dW)个参数和O(n×d×dW)个计算量（乘法和加法）。相反，DLT具有O(d×r+t×dW)个参数和O(n×d×r+t×dW)个计算量以及O(t×dW)个查找。在本文中，我们将r设置在0.2d�0.6d的范围内，t大约为0.2d。字典上的O(t×dW)个查找可以忽略不计，因为查找是小规模的（t很小）且在CPU和GPU上都很廉价（缓存访问操作），这在现有的工作[1, 4]和我们的实验中都有展示。03.3. Lite-MDETR训练0Lite-MDETR的训练面临两个挑战：（I）如何训练具有不可区分索引矩阵I的DLT？直接训练DLT需要同时训练字典权重D、索引矩阵I和系数C。然而，索引矩阵I由非连续的索引值组成，在训练过程中不可微分。（II）给定预训练模型MDETR，如何生成我们的Lite-MDETR而不需要资源限制的重新训练？我们展示了可以通过将预训练模型MDETR的学习知识进行重用来避免从头开始重新训练。我们提出了一个新的Lite-MDETR训练流程，如图6（a）所示，以解决这两个挑战。1.分解预训练权重W。为了避免在大型语料库上进行通用的预训练，Lite-MDETR使字典权重和系数继承预训练权重W的知识，通过使用奇异值分解[9,22]将权重W近似为大小为d×r的U、大小为r×r的Σ和大小为r×dW的VF，从而生成大小为d×r的字典权重D和大小为r×dW的矩阵B'。Lite-MDETR初始化字典权重D = UΣ，并令B' = VTF。0.2+ 0.5+ 0.3 =∗=�[3 6 12][3 6 12]……∗=��0.20.50.33612��W ≈ UΣV TF(3)D, B′ = Factorization(W, r) ≈ UΣ, V TF(4)b =122100� = ��0�� 0��0�� 0��0��0��0��0��0��0�� 0�� 0� ��′: �� = ��(��, ��: ��) � ��′′: �� = ��&��(��, ��[:][��]) � �� = �� , ��0��. ��′′ = �� , ��, ��, ��0��0��0��0��. ��′ = ��(��, ��)0��0��: �� =0[3 6 12] �� 0��′: �� 0��′: ��0��0��0��0��0图5. (a) LT层和我们的(b)DLT推理层的矩阵视图比较。LT是将线性投影W应用于输入X的操作。相反，DLT包括三个步骤，包括使用字典权重D进行较小的投影，使用索引I查找字典S，使用系数C进行缩放和求和。0��0��0��0��0��0��0� �� = �� , ��0��0��0��0��0��0��0��0��0�� … …0� ��′′ = ��(��, ��)0��. �� : �� = �� , ��, ��, �� = ��(�� , ��, ��)0��: [��] ��: [��]0��：[��]0预训练权重分解 ��, �� = ��(��, ��)0生成稀疏矩阵B（剪枝小值）0使用稀疏矩阵B进行微调0将B转换为I和C0(a). Lite-MDETR的训练流程0图6. (a)Lite-MDETR的训练流程。给定每个预训练的MDETR权重W，Lite-MDETR将其分解为两部分：字典权重D和矩阵B'。然后通过移除B'中的小值生成稀疏矩阵B。Lite-MDETR在没有在大型语料库上进行预训练的情况下，支持在下游任务上直接使用B进行微调，如(b)所示。在微调步骤之后，稀疏矩阵B被转换为存储高效的I和C，以实现高效的推理。0通过将权重W分解为字典权重和系数，Lite-MDETR使字典权重和系数继承了预训练权重W的知识，如方程4所示。给定大小为d×dW的预训练权重W，我们使用奇异值分解将权重W近似为大小为d×r的U、大小为r×r的Σ和大小为r×dW的VTF，如方程3所示。Lite-MDETR初始化字典权重D =UΣ，并令B' = VTF。02. 生成稀疏矩阵权重 B 。在对下游任务进行微调之前，Lite-MDETR将通过因式分解 W生成的 B ′ 转换为稀疏矩阵 B 。方程式 5 显示了转换过程，其中 b ′ ， b 是 B ′中的一个条目。0和 B ，分别，而 value ( t ) 是 B ′ 中第 ( t × d W )大的值。如方程式 5 所示，任何大于或等于 value ( t )的 b ′ 值都保留到 B ，否则相应的值 b 为零。0� b ′ ，如果 | b ′ | > = value ( t )。否则为 0 。 (5)03. 使用 B 进行微调。为了解决不可微分的索引矩阵 I的问题，我们在下游任务上对模型进行了 B的微调。这是因为稀疏矩阵 B 可以转换为索引矩阵 I和系数矩阵 C ，并且��0.20.50.3��000.20…0.5…0.3…3612�� : [��]3612�� : [��]�� : [��]��, ��ExistingMulti-ModalModels.OtherthanMDETR [12], we also compare our Lite-MDETR withseveral multi-modal detectors, including VisualBERT [17],UNITER-L [3], VILLA-L [8] and TransVG [7] on referringexpression comprehension (REC), referring expression seg-mentation (RES), and Phrase grounding (PG) tasks whereboth UNITER and VILLA use large model settings. Forthese tasks, MDETR uses ENB3 [28] (MDETR-ENB3) asa backbone whereas for visual question answering (VQA)tasks it adapts ENB5 (MDETR-ENB5) as a backbone toextract visual features. For a fair comparison, we use thesame backbone and training settings with MDETR.Lite-MDETR Architecture and Training. We followthe architecture settings of MDETR other than the replace-ment of the LT layers with DLT layers in Lite-MDETR.For the DLT layers, we study the dictionary size fromr =0.2dWto r =0.6dWin the text encoder and122110图7. I 、 C 和 B 之间的切换操作。在对 B进行微调后，我们将其转换为 I 和 C，以便在推理阶段实现更小的模型尺寸和高效的计算。0反之亦然。具体而言，DLT 的微调有两个步骤：1.使用小型线性投影生成字典 LT ( X, D ) = S。这一步与推理模式的第一步相同。2. 使用大小为 r × dW 的稀疏矩阵 B 将字典 S 与之相乘，使用 X ′′ = LT (S, B ) 。4. 将 B 转换为 I 和 C。在部署和推理阶段，稀疏矩阵 B 的 ( r − t ) × d W个零占用了大量的内存和计算资源。为了解决这个问题，我们将 B 转换为稠密且小型的 I 和 C 。图 7 显示了 B和 I 、 C 之间的切换过程。给定大小为 t × d W 的 I和 C ，可以通过将 I 中的索引对应的值赋给 C，将其他索引不在索引矩阵中的值赋为零，从而轻松生成大小为 r × d W 的 B 。例如，给定索引矩阵 I [:][ i ] 的第i 列为 [3, 6, 12] ，系数矩阵 C [:][ i ] 的第 i 列为 [0.2,0.5, 0.3] ，相应的 B [:][ i ] 的第 3 、 6 和 12个值分别赋为 0.2, 0.5, 0.3，其他值为零。反过来，给定稀疏矩阵 B，也可以轻松提取 I 和 C 。04. 实验方法04.1. 数据集和评估指标0我们在指代表达理解和分割、短语定位以及视觉问答方面进行实验。我们注意到，在所有实验中，我们都使用与MDETR[12]相同的训练/验证/测试集划分和评估指标。指代表达理解。我们在多个指代表达基准数据集上测试Lite-MDETR，包括RefCOCO、RefCOCOg和RefCOCO+ [13,33]。这些数据集中的任务是在图像中检测由语言查询引用的对象。RefCOCO、RefCOCOg和RefCOCO+的表达平均长度分别为3.61、8.43和3.53个词。对于评估指标，我们计算预测边界框与真实边界框之间的Jaccard重叠。如果重叠度大于0.5，则认为预测是正确的。0作为正确。短语定位。此外，我们还在短语定位基准数据集Flickr30K[24]上测试了Lite-MDETR。Flickr30K的任务与指代表达略有不同。在这种情况下，目标是检测在语言查询中提到的图像中的所有对象。我们使用与指代表达理解相同的评估指标进行评估。指代表达分割。指代表达分割任务在指代表达理解任务的基础上进一步对被引用的对象进行分割。对于这个任务，我们使用PhraseCut数据集[30]，该数据集使用了VisualGenome数据集[16]中的图像。评估时，我们使用平均IoU指标。视觉问答。最后，我们使用GQA数据集[10]对Lite-MDETR进行视觉问答任务的测试。评估时，我们使用分类准确率。04.2. 实现细节0默认情况下，我们选择3个�以在准确性和模型大小之间取得良好的平衡。我们在第5.1节中介绍了选择这个字典大小的原因，并进行了不同字典大小的实验。这里，�x�是生成x的上界整数的操作。另一方面，我们将系数矩阵大小t设置为0.2r。最后，我们遵循MDETR中的参数设置，并在4个NVIDIAV100GPU上训练Lite-MDETR。方法学研究。我们还将我们提出的工作与具有较小模型大小的基准结果进行比较，例如将模型深度减半。我们训练了一个额外的基准模型，其中包含5个文本编码器和3个编码器和解码器层的多模态变换器，结果是一个270MB大小的模型。我们在表1中将这个基准模型称为MDETR-ENB3-Half。DLT层可以应用于多模态检测器的不同组件。我们使用Lite-MDETR-T表示该方法。forms a recent visual grounding model, TransVG, that hassimilar architecture to the baseline MDETR by 4 − 13%with > 2× smaller model.Based on Lite-MDETR-T, Lite-MDETR-TT further ap-plies our DLT module on the multi-modal transformer. Un-like the text encoder where we used r = ⌈ dW3 ⌉, the multi-modal transformer is not the bottleneck of model size andwe notice that the multi-modal transformer is more sensi-tive to dictionary ratio than the text encoder [15].As aMDETR-ENB5 [12]490MB62.9562.45Lite-MDETR-T300MB60.260.3Lite-MDETR-TT255MB59.960.1Lite-MDETR-TTQ130MB59.659.7122120表1.在指代表达理解（REC）和分割（RES）以及短语定位（PG）任务上与最先进的多模态模型的比较。我们报告了REC、RES和PG任务的验证准确性、平均IoU和R@1。REC在RefCOCO、RefCOCO+和RefCOCOg数据集上进行测试，而RES和PG在PhraseCut和Flickr30k数据集上进行测试。我们使用-表示不可用的条目。0REC PG RES 模型大小 RefCOCO RefCOCO+ RefCOCOg Flickr-AnyBox Flickr-MergedBoxPhraseCut0VisualBERT [17] 440MB - 72.3 - 71.3 - - UNITER-L [3] 1212MB 81.4 75.9 74.9 - - - VILLA-L [8] 1212MB 82.4 76.276.2 - - - TransVG [7] 430MB 80.3 63.5 66.6 78.4 - -0MDETR-ENB3 [12] 450MB 87.5 81.1 83.4 82.9 82.3 53.7 MDETR-ENB3-Half 270MB 84.0 79.2 80.2 - - -SVD-MDETR-TTQ 404MB 83.8 79.3 79.6 79.8 79.5 49.6 Lite-MDETR-T 261MB 85.4 80.8 81.1 80.2 80.6 50.3Lite-MDETR-TT 215MB 85.1 80.5 80.6 79.7 79.8 49.7 Lite-MDETR-TTQ 110MB 85.1 80.1 79.8 79.3 79.1 49.30该方法仅压缩MDETR中的文本编码器。我们还将Lite-MDETR应用于MDETR的文本编码器和多模态变换器，并将该模型称为Lite-MDETR-TT。此外，我们还展示了我们的Lite-MDETR可以与正交量化方法[14]结合使用，无需任何修改。我们将这种组合称为Lite-MDETR-TTQ。当前量化位宽选择为16位，表明可以使用低精度模型压缩。可以尝试各种量化位数，但超出了本研究的范围。最后，我们设计了一种基准方法，使用SVD矩阵分解[9,22]对MDETR-TTQ进行训练，并将其称为SVD-MDETR-TTQ。为了公平比较，我们将DLT中的字典大小r设为SVD分解的秩。模型大小。在本研究中，我们忽略了模型大小中的词嵌入查找表，因为词嵌入查找表的条目高度依赖于通常具有不同词汇量的下游任务。有关更多详细信息，请参见附录。05. 结果05.1. 指代表达和短语定位0在表1中，我们展示了Lite-MDETR和最先进的多模态变换器在REC、RES和PG任务上的比较。如表中所示，MDETR-ENB3在REC和RES任务上取得了最先进的结果。由于MDETR-ENB3中的文本编码器占据了83%左右的模型大小，仅压缩文本编码器的Lite-MDETR-T仍然可以将MDETR-ENB3的模型大小从450MB减小到261MB，实现了1.72倍的模型大小减小。在RefCOCO、RefCOCOg和RefCOCO+上进行测试时，Lite-MDETR-T的准确性比UNITER-L和VILLA-L高3%至4%，而后者的模型大小是前者的4至5倍。最后，Lite-MDETR-T表现优秀。0为了在总体模型大小和准确性之间取得更好的平衡，多模态变换器需要2个�。通过增加字典大小r，Lite-MDETR-TT将模型大小进一步减小到215MB，与REC任务相比，准确性损失为0.3%至0.5%。如表1所示，正交量化方法[14]可以与我们的Lite-MDETR结合使用，无需任何修改。我们将这种组合称为Lite-MDETR-TTQ。当前量化位宽选择为16位，表明可以使用低精度模型压缩。可以尝试各种量化位数，但超出了本研究的范围。最后，我们设计了一种基准方法，将SVD矩阵分解[9,22]应用于MDETR-TTQ，并将其称为SVD-MDETR-TTQ。为了公平比较，我们将DLT中的字典大小r设为SVD分解的秩。模型大小。在本研究中，我们忽略了模型大小中的词嵌入查找表，因为词嵌入查找表的条目高度依赖于通常具有不同词汇量的下游任务。有关更多详细信息，请参见附录。0表2.与VQA任务上的最先进MDETR[12]的比较。我们的Lite-MDETR在不显著降低准确率的情况下，模型大小大大减小。MDETR采用ENB5作为视觉特征提取的骨干。0VQA模型大小Test-devTest-std0我们的Lite-MDETR-TT结合[14]中的量化方法，可以设计出更轻量级的MDETR。对Lite-MDETR-TT的所有部分，包括视觉编码器，进行16位量化，可以得到一个轻量级的多模态检测器Lite-MDETR-TTQ，模型大小为110MB。Lite-MDETR-TTQ在Re-fCOCO、RefCOCO+和RefCOCOg上分别达到85.1%、80.1%和79.8%的验证准确率，仍然约为Finally, in Table 3 we investigate the Lite-MDETR-TTQarchitecture with various dictionary ratios. Dictionary ratiodefines the ratio of dictionary size to weight size dW . Forthis experiments, we fix the dictionary size in multi-modal122130表3.在REC、PG和RES任务上使用不同字典比例的Lite-MDETR架构的实验。我们将字典比例定义为字典大小与权重大小dW的比例。字典比例决定了我们的Lite-MDETR的架构，并帮助我们控制模型大小和准确率之间的权衡。带有±的条目表示三次运行的平均值。0REC PG RES字典比例模型大小RefCOCO RefCOCO+ RefCOCOg Flickr-AnyBox Flickr-MergedBox PhraseCut020% 80MB 83.2 ± 0.3 78.3 ± 0.2 77.6 ± 0.3 78.1 ± 0.2 75.6 ± 0.2 46.5 ± 0.3 33% 110MB 85.1 ± 0.3 80.1 ± 0.379.8 ± 0.3 79.3 ± 0.2 79.1 ± 0.2 49.3 ± 0.2 45% 137MB 85.3 ± 0.1 80.2 ± 0.2 79.8 ± 0.2 80.1 ± 0.1 80.6 ± 0.250.2 ± 0.3 60% 171MB 85.4 ± 0.3 80.5 ± 0.4 80.2 ± 0.2 80.3 ± 0.2 80.7 ± 0.3 50.3 ± 0.20比VILLA-L的准确率高2.7%至3.9%，比MDETR低3.81%、2.23%和4.15%，而MDETR的模型大小是Lite-MDETR-TT的4.1倍。Lite-MDETR-TT的模型大小为215MB，比MDETR-ENB3-Half高约1.1%的准确率。另一方面，我们的基

下载后可阅读完整内容，剩余1页未读，立即下载