快速收敛的基于查询的目标检测器：AdaMixer

62 浏览量更新于2023-10-25 收藏 14.33MB PDF 举报

快速收敛

图像特征

身份认证购VIP最低享 7 折!

30元优惠券

44.146.747.053640AdaMixer：一种快速收敛的基于查询的目标检测器0高子腾 1 王立民 1 韩兵 2 郭胜 201. 新型软件技术国家重点实验室，南京大学，中国 2. 蚂蚁集团，MYbank，中国0摘要0传统的目标检测器采用在图像中扫描位置和尺度的密集范式。最近的基于查询的目标检测器通过一组可学习的查询解码图像特征来打破这种传统。然而，这种范式仍然存在收敛速度慢、性能有限以及在骨干网络和解码器之间设计复杂的额外网络的问题。在本文中，我们发现解码器对于将查询投射到不同对象上的适应性是解决这些问题的关键。因此，我们通过在两个方面改进基于查询的解码过程的适应性，提出了一种快速收敛的基于查询的检测器，名为AdaMixer。首先，每个查询根据估计的偏移自适应地对空间和尺度进行特征采样，这使得AdaMixer能够高效地关注对象的连贯区域。然后，我们在每个查询的指导下动态解码这些采样特征，使用自适应的MLP-Mixer。由于这两个关键设计，AdaMixer具有架构简单性，无需密集的注意力编码器或显式的金字塔网络。在具有挑战性的MSCOCO基准测试中，使用ResNet-50作为骨干网络的AdaMixer，在12个训练周期内，在验证集上达到45.0AP，并在检测小目标方面达到27.9AP。通过更长的训练方案，使用ResNeXt-101-DCN和Swin-S的AdaMixer分别达到49.5和51.3AP。我们的工作为基于查询的目标检测器提供了一个简单、准确且快速收敛的架构。代码可在https://github.com/MCG-NJU/AdaMixer上获取。01. 引言0目标检测是计算机视觉领域的一个基本任务，旨在在单个图像中定位不同的对象并对其进行分类。长期以来，研究人员一直在图像的网格上使用空间密集先验来覆盖具有巨大变化的潜在对象。0�：通讯作者（lmwang@nju.edu.cn）。0AdaMixer（我们的方法）0DETR Deform.DETR SparseR-CNN01 × 2 × 3 ×0Epoch0COCO验证集AP0图1. 在MS COCOminival数据集上，我们的AdaMixer、DETR、DeformableDETR和Sparse R-CNN在ResNet-50作为骨干网络的收敛曲线。0这种密集的范式可以追溯到滑动窗口方法[11, 36,41]，在锚点或基于点的检测器[15, 23, 26, 32, 34, 38,50]中仍然普遍存在于卷积神经网络时代。尽管密集先验在目标检测中具有卓越的性能以覆盖潜在对象，但它们在各个方面都存在一些缺点，包括锚点设计[33, 42,45]、训练样本选择[13, 14, 48,49]以及对潜在冗余检测的后处理运算符[2,18]。虽然每年都提出了各种解决这些问题的方法，但密集网格状先验的基本检测方案几乎没有改变很长时间。最近，基于查询的目标检测器[4, 37,53]为目标检测带来了一种新的视角，即使用可学习的嵌入，也称为查询，通过使用类似注意力的运算符[40]直接表示潜在对象。另一方面，这种方案要求网络具有强大的表示能力，以将有限的查询投射到能够应对图像中各种对象变化的潜在对象上。然而，当前使用的查询解码器对图像内容的适应性在如何对特征进行空间采样以及如何处理53650例如，DETR-like检测器中基于注意力的解码器[4,53]在选择要采样的特征方面是自适应的，但在如何解码特征方面仍然是静态的，而SparseR-CNN中的动态交互头则相反。当前解码器在适应不同图像方面的能力不足，使其在查询表示能力有限和对象变化巨大之间陷入困境。此外，为了弥补这一点，基于查询的目标检测器通常在骨干网络之后和查询解码器之前引入额外的注意力编码器或显式金字塔结构，以涉及更多的语义或多尺度建模，例如TransformerEncoder[40]，Multi-ScaleDeformableTransformerEncoder[53]和FPN[22]。这些额外的组件导致构建检测流程在设计和计算方面更复杂。此外，由于引入了这些模块，具有这些模块的检测器需要更多的训练时间和丰富的数据增强。0在本文中，我们提出了一种快速收敛且准确的基于查询的目标检测器，名为AdaMixer，以解决上述问题。具体而言，为了有效地使用查询来表示对象，AdaMixer引入了自适应的三维特征采样器和自适应的通道语义和空间结构混合。首先，通过将骨干网的多尺度特征图视为三维特征空间，我们提出的解码器可以灵活地在空间和尺度上对特征进行采样，以根据查询自适应处理对象的位置和尺度变化。然后，自适应混合将动态核应用于采样特征，以在查询的指导下对采样特征进行通道和空间混合。自适应位置采样和整体内容解码显著增强了查询在检测不同对象的不同图像中的适应性。因此，AdaMixer仅由骨干网络和我们提出的解码器组成，无需额外的注意力编码器或显式金字塔网络。0实验结果表明，在标准的12个epoch训练（1×训练方案）中，仅使用随机翻转作为数据增强，我们的AdaMixer使用ResNet-50[17]作为骨干网络，在100、300和500个查询的设置下，在MSCOCO验证集上分别达到42.7、44.1和45.0的AP，小目标检测的AP分别为24.7、27.0和27.9。通过更长的3×训练时间和与其他基于查询的检测器对齐的更强的数据增强，我们的AdaMixer使用ResNet-101、ResNeXt-101-DCN [44,52]和Swin-S[27]在单尺度和单模型测试中分别达到48.0、49.5和51.3的AP，显著优于先前最先进的基于查询的检测器。我们希望AdaMixer作为一个简单设计、快速收敛、相对高效和更准确的目标检测器，能够成为未来基于查询的目标检测研究的强大基准。02. 相关工作0密集目标检测器。目标检测器的密集范式可以追溯到基于滑动窗口的方法[10, 11,41]，这些方法通过对空间和尺度进行详尽的分类来涵盖潜在对象，因为它们假设图像中的潜在对象在空间位置上均匀而密集地出现。这种对自然图像的假设在深度学习时代仍然有效，因为它能够覆盖潜在对象[36]。过去几年中流行的目标检测器，例如一阶段检测器[26, 32, 33, 38, 47,50]，多阶段检测器[3, 5, 16, 30, 34]或基于点的方法[9, 20,50,51]，也根植于这种密集假设，无论是在区域建议网络还是整个目标检测器架构中，它们都应用了密集的先验，例如锚点或锚点，以详尽地查找前景对象或直接对其进行分类。基于查询的目标检测器。最近基于Transformer的检测器DETR[4]将目标检测定义为一种直接的集合预测任务，并取得了令人满意的性能。DETR通过使用Transformer解码器将查询与特征图进行关联来预测一组对象。DETR的原始架构基于Transformer[40]，包含多层注意力编码器和解码器。DETR中的集合预测训练基于预测和地面真实对象之间的二分匹配。虽然DETR优于竞争的FasterR-CNN基线，但它仍然存在空间分辨率有限、小目标检测性能差和训练收敛速度慢的问题。已经有一些工作来解决这些问题。Deformable DETR[53]考虑了自然图像中的平移等价性，并在DETR的编码器和解码器中引入了多尺度可变形注意力算子家族。SMCA[12]、Conditional DETR [29]和Anchor DETR[43]显式地对前景对象的位置注意力进行建模，以加快收敛速度。Efficient DETR[46]将密集先验与DETR中的查询相结合，以提高性能。Sparse R-CNN [37]将DETR的基于查询的范式引入CascadeR-CNN[3]，并引入动态实例交互头和其查询自适应的逐点卷积，以有效地将查询投射到潜在对象上。我们的AdaMixer通常遵循这一使用查询来关注特征进行目标检测的研究路线。然而，我们从一个新的角度改进了基于查询的目标检测范式：解码查询在图像之间的适应性。具体而言，我们关注如何使查询的解码方案在语义和空间方面更适应图像的内容。我们提出了自适应的三维特征采样和自适应的内容解码，以提高其将查询与每个图像相关联的灵活性。这使得AdaMixer成为一种快速收敛的基于查询的目标检测器，无需引入额外的特征编码器或显式的金字塔网络。xB = sbase · x,yB = sbase · y,(1)wB = sbase · 2z−r, hB = sbase · 2z+r,(2)53660适应性解码位置？适应性解码内容？查询解码器之前的额外网络1？0DETR [4] 是的，多头注意力聚合否，线性投影 TransformerEncoder 可变形DETR [53] 是的，多尺度多头自适应采样否，线性投影 2 多尺度DeformTransEncoder稀疏R-CNN [37] 有限制，RoIAlign [16] 部分是的，自适应逐点卷积 FPN AdaMixer（我们的）是的，自适应3D采样是的，自适应通道和空间混合线性投影形成3D特征空间0表1.不同基于查询的对象检测器的解码器适应性比较。1我们在查询解码器之前指定了预训练骨干网络引入的可训练网络。2我们将可变形注意力中的softmax聚合视为解码位置的一步，因为softmax权重归一化为1。03. 方法0在本文中，我们关注基于查询的对象检测器中的查询解码器，因为解码器的设计对于将学习到的查询转换为每个图像中的潜在对象至关重要。我们首先从语义和位置适应性的角度重新审视了流行的基于查询的对象检测器中的解码器，然后详细介绍了我们提出的自适应查询解码器。03.1. 对象查询解码器重新审视0普通注意力解码器。DETR[4]将查询和特征之间的普通多头交叉注意力应用于将对象查询转换为潜在对象。如表1所示，交叉注意力解码器能够自适应地解码采样位置，它利用对象查询和特征之间的关系来聚合特征。然而，在聚合之后的特征的线性变换无法根据查询自适应地解码它们。可变形多尺度注意力解码器。可变形DETR[53]通过引入显式参考点和多尺度特征，改善了普通交叉注意力中解码采样位置的平移等价性和尺度不变性。但是，与DETR一样，对采样特征的内容解码仍然是静态的线性变换。总的来说，DETR和可变形DETR中的解码器在条件查询的聚合特征推理方面存在不足，从而限制了查询对特征的语义适应性。因此，它们都需要额外的注意力编码器堆栈来丰富特征语义。RoIAlign和动态交互头作为解码器。稀疏R-CNN[37]作为基于区域和基于查询的检测器之间的交集，使用RoIAlign操作符和动态交互头作为查询解码器。动态交互头使用逐点卷积，其卷积核根据查询自适应地处理RoI特征。这使得查询能够适应RoI特征，但只是部分地适应，因为自适应逐点卷积无法从这些特征中推断出自适应的空间结构来构建查询。此外，RoIAlign操作符[16]的采样位置限制在由查询和FPN[22]中的特定级别指示的框内，这限制了位置的适应性，并需要显式的金字塔网络进行多尺度建模。0总结。鉴于图像中查询数量有限且潜在对象各不相同，理想的解码器应考虑这些查询与图像内容的语义和位置适应性，即如何自适应地解码采样位置和采样内容。这自然地激发了我们设计AdaMixer的动机。03.2. 我们的对象查询定义0从对象查询定义开始，我们根据我们对解码器的语义和位置观点，将两个向量与查询关联起来：一个是内容向量q，另一个是位置向量（x，y，z，r）。这也与[37，43，53]一致，将查询的位置或表示的边界框与其内容分离开来。内容向量q是Rdq中的向量，dq是通道维度。向量（x，y，z，r）描述了由查询指示的边界框的缩放几何属性，即其中心点的x和y轴坐标以及其尺度和长宽比的对数。x、y、z分量还直接表示查询在3D特征空间中的坐标，下面将介绍。从查询解码边界框。我们可以简单地从位置向量解码边界框。可以解码指示边界框的中心（xB，yB）以及宽度和高度wB和hB：0其中 s base是基本的下采样步幅偏移，我们根据实验中使用的最大特征图的步幅设置 s base = 4 。03.3. 自适应位置采样0如第3.1节所讨论的，解码器应该能够自适应地决定采样哪些特征，即解码器应该在考虑位置向量 (x, y, z, r) 和内容向量 q 的情况下解码采样位置。此外，我们认为解码器不仅在 (x,y)空间上应该是自适应的，而且在潜在对象的尺度上也应该是灵活的。具体而言，我们可以将多尺度特征视为一个3D特征空间，并从中自适应地采样特征。将多尺度特征作为3D特征空间。给定一个特征图，索引为 j ，其下采样步幅为 s feat jqmulti-scale featuresas 3D feature spacexyzinput image4×8×16×32×…CNN/TransformerBackboneAB83icbVDLSsNAFL3xWeur6tLNYBFclUSkuiy4cVnBPqAJZTK9aYdOJnFmIpTQ3DjQhG3/ow7/8Zpm4W2Hhg4nHMv98wJU8G1cd1vZ219Y3Nru7RT3t3bPzisHB23dZIphi2WiER1Q6pRcIktw43AbqQxqHATji+nfmdJ1SaJ/LBTFIMYjqUPOKMGiv5PvFjakZhlD9O+5WqW3PnIKvEK0gVCjT7lS9/kLAsRmYoFr3PDc1QU6V4UzgtOxnGlPKxnSIPUsljVEH+TzlJxbZUCiRNknDZmrvzdyGms9iUM7OUuol72Z+J/Xy0x0E+RcplByRaHokwQk5BZAWTAFTIjJpZQprjNStiIKsqMralsS/CWv7xK2pc1r17z7q+qjXpRwlO4QwuwINraMAdNKEFDFJ4hld4czLnxXl3Phaja06xcwJ/4Hz+APwTkZ8=qContent vectorAn object querySampled featureschannelspointsw/ paramsw/ paramsLN & ReLULN & ReLUResidual additionChannel mixingSpatial mixingchannel kernel paramsspatial kernel paramsAB7XicbVDLSgMxFL3js9ZX1aWbYBFcSJkRUZcFNy4r2Ae0Q8mkaRubSYbkjlCG/oMbF4q49X/c+Tem7Sy09UDgcM695J4TJVJY9P1vb2V1bX1js7BV3N7Z3dsvHRw2rE4N43WmpTatiFouheJ1FCh5KzGcxpHkzWh0O/WbT9xYodUDjhMexnSgRF8wik5q1LqZUJNuqexX/BnIMglyUoYctW7pq9PTLI25Qiapte3ATzDMqEHBJ8UO6nlCWUjOuBtRxWNuQ2z2bUTcuqUHulr45CMlN/b2Q0tnYcR24ypji0i95U/M9rp9i/CV2eJEWu2PyjfioJajKNTnrCcIZy7AhlRrhbCRtSQxm6goquhGAx8jJpXFSCq0pwf1munud1FOAYTuAMAriGKtxBDerA4BGe4RXePO29eO/ex3x0xct3juAPvM8fsSyPJA=PinAB6HicbVBNS8NAEJ3Ur1q/qh69LBbBg5RERD0WevHYgv2ANpTNdtKu3WzC7kYowV/gxYMiXv1J3vw3btsctPXBwO9GWbmBYng2rjut1NYW9/Y3Cpul3Z29/YPyodHbR2nimGLxSJW3YBqFxiy3AjsJsopFEgsBNM6jO/84hK81jem2mCfkRHkoecUWOlZn1QrhVdw6ySrycVCBHY1D+6g9jlkYoDRNU657nJsbPqDKcCXwq9VONCWUTOsKepZJGqP1sfugTObPKkISxsiUNmau/JzIaT2NAtsZUTPWy95M/M/rpSa89TMuk9SgZItFYSqIicnsazLkCpkRU0soU9zeStiYKsqMzaZkQ/CWX14l7cuqd131mleV2kUeRxFO4BTOwYMbqMEdNKAFDBCe4RXenAfnxXl3PhatBSefOY/cD5/AJE/jLc=CChannel mixed featuresSpatial mixed featuresTransposed featuresLinearLinearAdaptive mixingACBXicbVDLSsNAFJ3UV62vqEtdDBbBVUmkqMtCNy6r2Ac0MUymk3bo5MHMjVBCNm78FTcuFHrP7jzb5y0XWjrgQuHc+7l3nv8RHAFlvVtlFZW19Y3ypuVre2d3T1z/6Cj4lRS1qaxiGXPJ4oJHrE2cBCsl0hGQl+wrj9uFn73gUnF4+gOJglzQzKMeMApAS15rETEhj5fnab32dNB3jIFG5WZxCntm1apZU+BlYs9JFc3R8swvZxDTNGQRUEGU6tWAm5GJHAqWF5xUsUSQsdkyPqaRkRvc7PpFzk+1coAB7HUFQGeqr8nMhIqNQl93VncrBa9QvzP6cQXLkZj5IUWERni4JUYIhxEQkecMkoiIkmhEqub8V0RCShoIOr6BDsxZeXSe8Zl/U7Jt6tVGfx1FGR+gEnSEbXaIGukYt1EYUPaJn9IrejCfjxXg3PmatJWM+c4j+wPj8AUG4mQU=RC⇥PoutACBHicbVDLSsNAFJ3UV62vqMtuBovgqiRS1GWhG5dV7APaGCbTSTt08mDmRighCzf+ihsXirj1I9z5N07aLT1wIXDufdy7zleLgCy/o2SmvrG5tb5e3Kzu7e/oF5eNRVUSIp69BIRLvEcUED1kHOAjWjyUjgSdYz5u28n7vgUnFo/AOZjFzAjIOuc8pAS25ZnUYEJh4Xnqb3aetIfCAKdx2Ux5mWvWrLo1B14ldkFqEDbNb+Go4gmAQuBCqLUwLZicFIigVPBsowUSwmdErGbKBpSPQxJ52byPCpVkbYj6SuEPBc/b2RkCpWeDpyfxltdzLxf96gwT8K0cbihNgIV0c8hOBIcJ5InjEJaMgZpoQKrn+FdMJkYSCzq2iQ7CXLa+S7ndvqjbN41as1HEUZVdILOkI0uURNdozbqIoe0TN6RW/Gk/FivBsfi9GSUewcoz8wPn8ATgqYeg=RC⇥PinACBHicbVDLSsNAFJ3UV62vqMtuBovgqiRS1GWhG5dV7APaGCbTSTt08mDmRighCzf+ihsXirj1I9z5N07aLT1wIXDufdy7zleLgCy/o2SmvrG5tb5e3Kzu7e/oF5eNRVUSIp69BIRLvEcUED1kHOAjWjyUjgSdYz5u28n7vgUnFo/AOZjFzAjIOuc8pAS25ZnUYEJh4Xnqb3adtN+VhNgQeMIVbmWvWrLo1B14ldkFqEDbNb+Go4gmAQuBCqLUwLZicFIigVPBsowUSwmdErGbKBpSPQdJ52byPCpVkbYj6SuEPBc/b2RkCpWeDpyfxltdzLxf96gwT8K0cbixNgIV0c8hOBIcJ5InjEJaMgZpoQKrn+FdMJkYSCzq2iQ7CXLa+S7ndvqjbN41as1HEUZVdILOkI0uURNdozbqIoe0TN6RW/Gk/FivBsfi9GSUewcoz8wPn8AUX2Yeg=RPin⇥CACBHicbVDLSsNAFJ3UV62vqMtuBovgqiRS1GWhG5dV7APaGCbTSTt08mDmRighCzf+ihsXirj1I9z5N07aLT1wIXDufdy7zleLgCy/o2SmvrG5tb5e3Kzu7e/oF5eNRVUSIp69BIRLvEcUED1kHOAjWjyUjgSdYz5u28n7vgUnFo/AOZjFzAjIOuc8pAS25ZnUYEJh4Xnqb3adtN+VhNgQeMIVbmWvWrLo1B14ldkFqEDbNb+Go4gmAQuBCqLUwLZicFIigVPBsowUSwmdErGbKBpSPQdJ52byPCpVkbYj6SuEPBc/b2RkCpWeDpyfxltdzLxf96gwT8K0cbixNgIV0c8hOBIcJ5InjEJaMgZpoQKrn+FdMJkYSCzq2iQ7CXLa+S7ndvqjbN41as1HEUZVdILOkI0uURNdozbqIoe0TN6RW/Gk/FivBsfi9GSUewcoz8wPn8AUX2Yeg=RPin⇥CACnicbVC7TsMwFHV4lvIKMLIYKiSmKkEVMFZiYSyIPqQmRI7rtFadh+wbpCrKzMKvsDCAECtfwMbf4LQZoOVIlo7PvVf3nuMngiuwrG9jaXldW29slHd3Nre2TX39jsqTiVlbRqLWPZ8opjgEWsDB8F6iWQk9AXr+uOrot59YFLxOLqDScLckAwjHnBKQEueSEBEa+n93m91nLy3iUO8BDprD+xCnkuWfWrLo1BV4kdklqETLM7+cQUzTkEVABVGqb1sJuBmRwKlgedVJFUsIHZMh62saEb3NzaZWcnyilQEOYqlfBHiq/p7ISKjUJPR1Z3G4mq8V4n+1fgrBpavtJSmwiM4WBanAEOMiFzgklEQE0IlVzfiumISEJBp1fVIdjzlhdJ56xun9ftm0at2SjqKBDdIxOkY0uUBNdoxZqI4oe0TN6RW/Gk/FivBsfs9Ylo5w5QH9gfP4AnWSbcg=RPin⇥PoutAB/3icbVDLSsNAFL2pr1pfUcGNm8EiuCqJFHVZ6MZlFfuAJpbJdNIOnTyYmQglZuGvuHGhiFt/w51/46TNQlsPDBzOuZd75ngxZ1JZ1rdRWldW98ob1a2tnd298z9g46MEkFom0Q8Ej0PS8pZSNuKU57saA48DjtepNm7ncfqJAsCu/UNKZugEch8xnBSksD8gJsBp7Xnqb3adNR7GAStTMBmbVqlkzoGViF6QKBVoD8sZRiQJaKgIx1L2bStWboqFYoTrOIksaYTPCI9jUNsb7jprP8GTrVyhD5kdAvVGim/t5IcSDlNPD0ZJ5WLnq5+J/XT5R/5aYsjBNFQzI/5CcqQjlZaAhE5QoPtUE8F0VkTGWGCidGUVXYK9+OVl0jmv2Rc1+6ZebdSLOspwDCdwBjZcQgOuoQVtIPAIz/AKb8aT8WK8Gx/z0ZJR7BzCHxifPwNvlg0=RC⇥Czfeatj= log2(sfeatj/sbase).(3)(∆xi, ∆yi, ∆zi) Pin = Linear(q).(4)˜xi = x + ∆xi · 2z−r,˜yi = y + ∆yi · 2z+r,˜zi = z + ∆zi,(5)˜wj =exp(−(˜z − zfeatj)2/τz)�j exp(−(˜z − zfeatj)2/τz),(6)53670图2.3D特征采样过程。查询首先在3D特征空间中获得采样点，然后对这些采样点进行3D插值。0线性0T 线性0展平 &0线性0图3.对象查询和采样特征之间的自适应混合过程。对象查询首先生成自适应混合权重，然后将这些权重应用于在通道和空间维度上混合采样特征。请注意，为了清晰起见，我们仅演示了一个采样组的自适应混合。0从主干网络中获得的特征首先通过一个线性层进行变换，变为相同的通道数 d feat ，并计算其z轴坐标：0然后，我们将不同步幅的特征图的高度和宽度虚拟缩放到相同的 H/s base 和 W/s base ，其中 H 和 W是输入图像的高度和宽度，并将它们对齐放置在3D空间的x轴和y轴上，如图2所示。这些特征图是3D特征空间的支撑平面，其插值过程如下所述。自适应3D特征采样过程。查询首先生成 P in 组偏移向量到 P in 点，{ (∆ x i , ∆ y i , ∆ z i) } P in ，其中每个偏移向量由 i索引，并且依赖于其内容向量 q 通过一个线性层：0然后，这些偏移量根据查询的位置向量转换为采样位置，对于每个 i ：0值得注意的是，区域 { ∆ x i , ∆ y i ∈ [ − 0 . 5 , 0 . 5] }描述了从查询中解码出的边界框。我们的偏移量不受此范围的限制，这意味着查询可以采样“盒外”的特征。在获得 {(˜ x i , ˜ y i , ˜ z i ) } P in后，我们的采样器根据这些点在3D空间中采样值。在当前的实现中，3D空间上的插值是以组合方式进行的：首先在 (x,y)空间中通过双线性插值给出点的值，然后通过高斯加权在z轴上进行插值，给定一个采样 ˜ z，其中第j个特征图的权重为：0其中 τ z 是插值z轴上的软化系数，我们在这项工作中保持 τz = 2 。使用通道数 d feat 的特征图，采样特征矩阵 x的形状为 R P in × d feat。自适应3D特征采样过程通过对查询进行明确、自适应和一致的位置和尺度采样特征，简化了解码器的学习过程。组采样。为了尽可能多地采样点，我们引入了组采样机制，类似于注意力操作符中的多个头部 [ 40 ] 或组卷积中的组 [ 44]。组采样首先将3D特征空间的通道数 d feat 分成 g组，每组的通道数为 d feat /g，并为每组单独执行3D采样。通过组采样机制，解码器可以为查询生成 g ∙ P in个偏移向量，以丰富采样点的多样性，并利用这些点的更丰富的空间结构。采样特征矩阵 x 现在的形状为 R g × P in ×( d feat /g )。该分组机制也应用于自适应混合以提高效率，如下所述，我们将组采样和混合统一称为分组机制。03.4.自适应内容解码0在对特征进行采样后，如何自适应地解码它们是我们AdaMixer解码器中的另一个关键设计。为了捕捉x的空间和通道维度之间的相关性，我们提出了一种高效地分别解码每个维度内容的简化和自适应变体的MLP-mixer[39]，称为自适应混合，其动态混合权重类似于卷积中的动态滤波器[19]。如图3所示，该过程顺序包含自适应通道混合和自适应空间混合，以在查询的指导下涉及自适应通道语义和空间结构。自适应通道混合。对于一个查询组中的查询，给定采样特征矩阵x ∈ RPin×C，其中C =dfeat/g，自适应通道混合（ACM）是使用基于q的动态权重来转换通道上的特征x。sampling locationsACF3icbVDLSsNAFJ3UV62vqEs3g0WoICURqS4LblxWsA9oQphMJu3QyYOZiRhD/sKNv+LGhSJudefOGmzqK0XBs7jXu7c48aMCmkYP1plZXVtfaO6Wdva3tnd0/cPeiJKOCZdHLGID1wkCKMh6UoqGRnEnKDAZaTvTq4Lv39PuKBReCfTmNgBGoXUpxhJTl608oalqTMI9lD7tAzWJ0njwqcmrlzqTm6HWjaUwLgOzBHVQVsfRvy0vwklAQokZEmJoGrG0M8QlxYzkNSsRJEZ4gkZkqGCIAiLsbHpXDk+U4kE/4uqFEk7V+YkMBUKkgas6AyTHYtErxP+8YSL9KzujYZxIEuLZIj9hUEawCAl6lBMsWaoAwpyqv0I8RhxhqaIsQjAXT14GvfOm2Wqatxf1dquMowqOwDFoABNcgja4AR3QBRg8gRfwBt61Z+1V+9A+Z60VrZw5BH9K+/oFZGf0w={(˜xi, ˜yi, ˜zi)}kAB83icbVDLSsNAFL3xWeur6tLNYBFclUSkuiy4cVnBPqAJZTK9aYdOJnFmIpTQ3DjQhG3/ow7/8Zpm4W2Hhg4nHMv98wJU8G1cd1vZ219Y3Nru7RT3t3bPzisHB23dZIphi2WiER1Q6pRcIktw43AbqQxqHATji+nfmdJ1SaJ/LBTFIMYjqUPOKMGiv5PvFjakZhlD9O+5WqW3PnIKvEK0gVCjT7lS9/kLAsRmYoFr3PDc1QU6V4UzgtOxnGlPKxnSIPUsljVEH+TzlJxbZUCiRNknDZmrvzdyGms9iUM7OUuol72Z+J/Xy0x0E+RcplByRaHokwQk5BZAWTAFTIjJpZQprjNStiIKsqMralsS/CWv7xK2pc1r17z7q+qjXpRwlO4QwuwINraMAdNKEFDFJ4hld4czLnxXl3Phaja06xcwJ/4Hz+APwTkZ8=AB9HicbVBNS8NAEJ3Ur1q/qh69LBahQimJSPVY8OKxgv2ANpTNdtMu3Wzi7qYQ3+HFw+KePXHePfuGl70NYHA4/3ZpiZ50WcKW3b31ZubX1jcyu/XdjZ3ds/KB4etVQYS0KbJOSh7HhYUc4EbWqmOe1EkuLA47TtjW8yvz2hUrFQ3Oskom6Ah4L5jGBtJLf8WEFJBT1VkDwv9Islu2rPgFaJsyAlWKDRL371BiGJAyo04ViprmNH2k2x1IxwOi30YkUjTMZ4SLuGChxQ5azo6fozCgD5IfSlNBopv6eSHGgVBJ4pjPAeqSWvUz8z+vG2r92UyaiWFNB5ov8mCMdoiwBNGCSEs0TQzCRzNyKyAhLTLTJKQvBWX5lbQuqk6t6txdluq1Rx5OIFTKIMDV1CHW2hAEwg8wDO8wps1sV6sd+tj3pqzFjPH8AfW5w+0zpASAB9HicbVDLSsNAFL2pr1pfVZduBovoqiQi1WXBjcsK9gFNKJPpB06maQzk0IJ+Q43LhRx68e482+ctFlo64GBwzn3cs8cP+ZMadv+tkobm1vbO+Xdyt7+weFR9fiko6JEtomEY9kz8eKciZoWzPNaS+WFIc+p1/cp/73RmVikXiSc9j6oV4JFjACNZG8lzkhliP/SCdZpeDas2u2wugdeIUpAYFWoPqlzuMSBJSoQnHSvUdO9ZeiqVmhNOs4iaKxphM8Ij2DRU4pMpLF6EzdGUIQoiaZ7QaKH+3khxqNQ89M1kHlGtern4n9dPdHDnpUzEiaCLA8FCUc6QnkDaMgkJZrPDcFEMpMVkTGWmGjTU8WU4Kx+eZ10rutOo+483tSajaKOMpzBOVyBA7fQhAdoQRsITOEZXuHNmlkv1rv1sRwtWcXOKfyB9fkDYOuR0A=AB+XicbVDLSgMxFL1TX7W+Rl26CRZpBSkzItVlwY3LCvYB7VAyadqGZjJDkimOQ/EjQtF3Pon7vwb03YW2nrgwOGce8nN8SPOlHacbyu3tr6xuZXfLuzs7u0f2IdHTRXGktAGCXko2z5WlDNBG5pTtuRpDjwOW3549tZ3pQqVgoHnQSUS/AQ8EGjGBtrJ5tlx9LFygxfDKUpfOeXQqzhxoVbiZKEKGes/+6vZDEgdUaMKxUh3XibSXYqkZ4XRa6MaKRpiM8ZB2jBQ4oMpL5dP0Zlx+mgQSkOh0dz9vZHiQKk8M1kgPVILWcz87+sE+vBjZcyEcWaCrJ4aBzpEM0qwH1maRE8QITCQztyIywhITbcoqmBLc5S+viuZlxa1W3PurYq2a1ZGHEziFMrhwDTW4gzo0gMAEnuEV3qzUerHerY/FaM7Kdo7hD6zPH4FNkPM=sampledfeaturesParameters/offsetsgenerationUpdatepositional vector53680FFN0位置感知0MHSA0查询之间的0自适应0混合0多尺度特征0直接来自骨干网络0FFN0解码器0M×0对象查询0内容向量0位置向量0N×0位置变换03D特征采样0查询感知解码0更新0对象查询0N×0内容向量0q00位置向量0(x0, y0, z0, r0)0类别0FFN0边界框0解码0图4.我们的AdaMixer解码器结构。查询上有两个运算流：一个在其内容向量q上（实线水平线），一个在其位置向量(x, y, z,r)上（虚线水平线）。解码器中内容向量上的每个运算后面都跟着一个残差相加和LayerNorm。0维度以自适应地增强通道语义：0Mc = Linear(q) ∈ RC×C (7)0ACM(x) = ReLU(LayerNorm(xMc)), (8)0其中ACM(x) ∈RPin×C是通道混合特征输出，线性层对每个组都是独立的。混合输出

下载后可阅读完整内容，剩余1页未读，立即下载