桥接Transformer：用于视觉和点云3D目标检测的简单有效方法

157 浏览量更新于2023-10-25 收藏 3.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12114用于视觉和点云3D目标检测的桥接Transformer王一凯1叶腾琦2曹乐乐1黄文兵3孙富春1何凤翔4陶大成41北京国家信息科学与技术研究中心，智能技术与系统清华大学计算机科学与技术系2字节跳动有限公司3清华大学AI产业研究院4京东探索学院，JD.com，wangyk17@mails.tsinghua.edu.cn，yetengqi@gmail.com，caolele@gmail.com，hwenbing@126.comfuchuns@tsinghua.edu.cn，fengxiang.f. gmail.com，dacheng. gmail.com摘要三维目标检测是计算机视觉中的一个重要研究课题，在传统的计算机视觉系统中，三维目标检测通常使用三维点云作为输入近来，存在对多个输入数据源进行分类的趋势，诸如用通常具有更丰富的颜色和更少的噪声的2D图像来补充3D点云。然而，由于2D和3D表示的异构几何，它阻止了我们应用现成的神经网络来实现多模态融合。为此，我们提出了桥接转换器（BrT），一个端到端的3D对象检测体系结构。BrT是简单有效的，它学习从点和图像块识别3D和2D对象边界框 BrT的一个关键要素在于利用的对象查询的桥梁3D和2D空间，它统一了不同来源的数据表示在trans-former。我们采用了一种由点到块投影实现的特征聚合形式，进一步加强了图像和点之间此外，BrT无缝地融合点云与多视图图像。我们的实验表明，BrT超越了最先进的方法SUN RGB-D和ScanNetV 2数据集。1. 介绍三维目标检测是对三维场景中的目标进行识别或定位的一种方法，是实现场景理解的一项基础性工作，正受到越来越多的关注。使用点云数据作为输入进行了许多成功的尝试[3，15，21，25这些尝试包括将点转换为常规格式（例如，3D体素网格[32]，多边形网格[11]，多视图[29]），或使用通讯作者：孙富春。3D特定操作符（例如，对称函数[23]，计算[21]）来设计点的分组策略。此外，由于Transformers可以自然地进行置换不变，并且能够捕获大规模数据交互，因此它们最近被应用于3D对象检测并展示了卓越的性能[15，19]。除了处理点云学习任务外，Transformers还可以处理各种2D任务，例如，图像分类[6，14]、对象检测[2，8，39]和语义分割[33，37]。深度多模态学习通过利用多种模态的优势，在各种应用中显示出其优越性[1，31]。尽管Transformers在2D或3D单模态目标检测任务中取得了成功，但将点云和图像的优势相对于3D学习任务，点云提供基本的几何线索，而丰富的彩色图像中的信息可以通过填充缺失的颜色信息和校正噪声错误来补充点云因此，3D对象检测的性能可以通过2D图像的参与而潜在地提高一种直观的方法是从图像中提取三维RGB向量来扩展点特征。基于CNN的3D检测模型imVoteNet [20]指出了通过这种直观方法迁移2D/3D差异然而，同时依赖[20]中的图像投票和点云投票假设可能会累积[15]中提到的固有分组误差为了避免点云的学习过程受到中间层2D/3D特征交互的影响，[20]在第一层上组合多模态特征，这可能会阻止网络充分利用它们的语义交互或迁移多模态差异。在这项工作中，我们提出了桥式Transformer（BrT）12115简单有效的Transformer框架，用于3D对象检测。BrT在Transformer内部桥接图像和点云的学习过程该方法将采样点和图像块作为输入。为了保护每个模态的自学习过程，点令牌和图像补丁令牌之间的注意力被阻止，但通过整个Transformer层的对象查询桥接。为了加强图像和点之间的互动，BrT还从两个角度配备了强大的桥接设计。首先，我们利用条件对象查询的图像和点，知道学习的建议点。这种设计与对齐的位置嵌入一起告诉Transformer，图像和点的对象要求其次，尽管从对象查询的角度来看，我们执行点到补丁的投影，以解释，plplanetary利用这两种方式的空间关系BrT避免了分组错误，因为它具有捕获远程依赖性和全局上下文信息的自然能力，并且不是在[20]中将图像特征提升到开始层的点云，BrT允许在整个网络中完全传播特征交互作为一个额外的优势，BrT可以扩展到将点云与多视图图像相结合。我们在SUN RGB-D和ScanNetV 2数据集上评估了BrT，其中BrT分别比最先进的方法提高了总而言之，我们工作的贡献是：• 我们提出了BrT，一种用于3D对象检测的新框架，它将Transformer内的图像和点云的学习过程连接起来。• 我们提出从条件对象查询和点到面片投影两个角度来加强图像和点• BrT在两个基准测试中达到了最先进的水平，这表明了我们设计的优越性以及在多视图场景中的潜力。2. 相关工作点云三维检测。使用深度神经网络（DNN）处理点云面临着独特的挑战[3，15，19，21，25，36]。关于这一差异的详细讨论见[9]。三维空间目标检测的目标是定位三维包围盒和识别目标类别。Vox-elNet [38]提出将点云划分为等间距的3D体素，然后将每个体素中的点转换为统一的特征表示。VoteNet [21]在深度学习的背景下重新制定了Hough投票，以通过分组为框提案生成更好的点。变压器也被调整为适合处理3D点。3DTR [19]引入了端到端的具有非参数查询和傅立叶位置嵌入的Transformer。Group-Free [15]采用注意机制来学习点特征，潜在地保留了所有点的信息，以避免以前分组策略的错误。体素Transformer [17]有效地捕获体素之间的长程关系使用多模态数据进行3D检测。有一些作品使用深度网络来组合点云和图像。MV3D [4]提出了一种基于刚性假设的来自不同领域的表示的元素级融合，即所有对象都在同一空间平面上，并且可以仅从点云的自上而下视图中进行精确定位PointFusion [34]在两个不同的级别连接点云特征和图像特征以学习它们的相互作用，这不能保证特征的对齐ImVoteNet [20]将精心制作的语义和纹理特征提升到3D种子点进行融合。然而，ImVoteNet仍然受到仅在开始层分组和组合特征的错误的负面影响，导致高度受限的特征交互。与上述方法不同的是，我们的BrT充分利用了图像和点的特征交互作用，并通过额外的桥接过程来加强交互作用。用于2D检测的Transformer。最近，Transformer在计算机视觉任务中实现了最先进的性能[2，6，8，14，18，35，39]。对于基于图像的2D对象检测，DETR [2]使Transformer能够学习对象和全局图像上下文的关系，以直接输出最终的预测集;并且它还消除了对非最大抑制和锚点生成的需要在预训练的帮助下，YOLOS [8]提出了一种纯序列到序列的方法，可以实现目标检测的竞争性能;因此，它还解决了Transformer从图像识别到对象检测的可转移性。可变形DETR [39]是一种高效且快速收敛的模型，其中注意力模块仅关注一小部分标记，而不是整个上下文。条件DETR [18]学习条件空间查询，旨在加速训练过程。3. 方法在本节中，我们提出了桥接Transformer（BrT），用于以视觉和点云作为输入的3D对象检测。我们描述了第二节中的BrT的整体结构。3.1，其次是第3.2节中的积木设计。3.2.我们考虑两个方面来连接视觉和点云的学习过程。3.3和Sec.3.4分别。3.1. 整体架构我们的BrT的整体架构如图所示。1.一、假设我们有N×3个代表三维坐标的点和一个H×W×3的图像。这里，N是数字12116→PNT专利CLS0克朗（1）专利PNTobjobj三维三维二维二维(Cls3D Bbox）（Cls 2D Bbox）×K ×K视图2⋯Pnt-Tok#1⋯Pnt-Tok#n#$tMLP头MLP头⋯帕特-托克#1⋯帕特-托克#n#$t⋯视图3n ×3pl 1PN$⋯pl 1PN$ol 1中文（简体）ol 1p#$pl 1p#$⋯pl 1p#$0视图1pl采样和学习点要素PN$⋯plPN$olPN$Transformer⋯olp#$plp#$⋯plp#$+PEPnt-Tok#1⋯+PEPnt-Tok#n#$t+PE奥比托克#1⋯+PE奥比托克#2K+PE帕特-托克#1⋯+PE帕特-托克#n#$t⋯线性投影采样点线性投影扁平贴片⋯npn$ × 3+）⋯⋯视图3视图2视图1图1.我们的桥接Transformer（BrT）的整体架构，用于基于点云和单视图/多视图图像的3D对象检测对于每个图像视图，我们在点云上注释其相应区域以提高可读性。H和W分别是图像的高度和宽度为了简单起见，我们首先分析每个场景的一个图像，因为它与相机传感器同时捕获（深度）点和RGB的然而，我们的方法可以扩展到处理每个场景的多个图像与不同的意见，在一个人3.5，并通过我们的实验进行了评估。每个3D点可以被投影到相机平面，这建立了3D坐标和2D图像像素之间的关系。我们定义投影算子proj：R3R2，其指示在对应图像上从3D点坐标k=[x，y，z]n到2D像素坐标proj（k）=[u，v]n的投影过程，并且存在在将点云数据馈送到第一个Trans之前，在前一阶段，我们采用的方法处理数据10 014x不y[21]。具体地说，我们首先采样Npnt×（3+F）从总共N 0 × 3个点中0 0 1z1注意，Np nt表示采样点的数量;正整数3和F分别表示3D欧几里德坐标和点特征的维度。对于图像数据的处理，我们借鉴了视觉变形金刚的一些具体地说，每幅图像被均匀地划分成N个小块，然后被多层感知器（MLP）嵌入。与嵌入的图像补丁一起，学习的对象查询被发送到模型，生成用于预测框坐标和类标签的输出嵌入。此外，我们采用了2K个可学习的对象查询，其中K 个查询点和K个图像补丁。总之，我们有一个Npnt+Npat基本的k个ens和2K个对象查询令牌。假设隐藏维度为D，则馈送到第l个（l = 1，. - 是的- 是的、L）Transformer其中K和Rt是内在矩阵和外在矩阵，并且R是透视映射。BrT具有2K个输出，其对应于2K个输入对象查询。MLP应用于前K个输出，用于预测3D框的坐标及其类标签。对于其余的K个输出，我们使用不同的MLP来预测边界框及其相关类的2D坐标。值得一提的是，我们不需要额外的标签用于2D框坐标，因为它们是通过首先将3D框坐标的标签（1），然后取投影形状的轴对齐的2D边界框。BrT的优化涉及最小化包含两个部分的复合损失函数：用于定位边界框的抑制损失和分类损失阶段包含点标记pl∈RNpnt×D，片标记用于预测相关联的盒子的类别那些回归者-pl∈RNpat×D，对象查询点ol∈RK×D，损耗包括两个部分：L3D和L2D用于3D和对象查询补丁或∈RK×D。和2D情况下。同样，对于分类损失，也有3D组件和2D组件当给定摄像机内、外参数时，CLSL2 D。因此，整体损失函数被公式化为：1这里，每个阶段包含多头自注意、MLP和两层归一化。L=Lobj+α1Lcls+α2Lobj+α3Lcls，（2）proj（k）=04012117CLSL联系我们i，ki，kΣ∈PNTpat我专利PNT专利PNT专利PNTobjobj其中，α1、α2和α3是对这些损失之间的相对重要性进行加权的三个参数。在实践中，L3D、L2D或3D还包括两个子项。这些细节将在第二节中提供。4.1.3.2. BrT的Transformer构建块多头注意力（MSA）充当Transformer架构的基本构建块，该架构具有三组输入：查询集、键集和值集。给定一个查询集qi和一个公共元素集pk重点集合和值集合，每个查询元素的MSA的输出特征是通过线性投影加权的值的聚合，公式化为：3.3. 通过条件对象查询3D点云的欧几里德坐标可能与2D图像像素的相机平面坐标显著不同，因为它们属于不同的空间。因此，即使在数值归一化之后，基于transformer的模型也可能难以学习它们的在这一部分中，我们建议利用对象查询来桥接3D和2D空间。具体来说，我们采用条件对象查询，这是知道的3D和2D坐标。对于基于Transformer的对象检测模型，在训练过程中观察到对象查询可能专门针对某些区域和框大小，即使它们是通过随机初始化生成的[2]。受此启发，我们HK假设对象查询的隐藏特征关于点Att. qi，{pk}= Wh. Ah·Vhpk，（3）图像可能会在Trans内部对齐h=1k=1前者因此，与使用随机生成的对象查询，我们采用条件对象查询，以提高其中h索引超过H个注意力头;Wh和Vh是分别用于输出投影和值投影的权重。Ah是计算基于点和图像的对象查询对齐的预测学习过程为了对齐点和图像块的对象查询，我们作为Ah=exp（Qhqi）（Uhpk）、（四）首先用kNN搜索从Npnt个点中采样K个点作为建议i，kKk=1 实验值（Qhqi）pk）这些K点的解作为kPNT∈RK×3和fPNT∈RK×F，其中Qh和Uh指示查询投影权重，并且键投影权重。如图1、在培训期间，BrT Trans-分别然后我们学习提案的3D坐标表示为kp′ntRK×3，通过将kp nt与基于fp nt的额外学习偏差相加。对象查询点前一个模块禁止pl之间的注意和1PNT是以kp′nt为条件的。当然，有L专利.因此，这些令牌只直接关注朝鲜半岛=kpnt +MLP（fPNT ），（7）pl+1p=属性pl，{ol，pl得双曲余切值.}1，1 ′pnt，il+1pat我pnt，i=属性plpnt，jL帕特，jpnt，jL帕特，j（5）opnt=MLP（kpnt）+PE，（8）其中PE∈RK×D是随机初始化的位置其中下标i和j表示令牌索引。给你，卡尔-基于给定的标记计算注意力分数，范围，但留下其他令牌无人看管，可以通过在注意上应用零掩码来实现。嵌入对于图像块o1的对象查询，我们将kp′nt投影到相应的图像上，投影像素的坐标，表示为proj（kp′nt）∈虽然我们阻止了pl之间的注意力plRK×2 其中proj指示到图像在Transformer模块中，我们选择通过采用点到面片投影来再次显式地对它们进行对比，这将在第2节中建立三点四分。而不是允许根据Eq.（一）.图像块的对象查询是有条件地获得的，在Transformer中，我们认为坐标的巨大差异本质上鼓励了一种形式的1专利 =MLP。poj（kp′nt（9）水+PE，明确的3D-2D交互。我们验证了这一假设experimentally在第二节。4.4此外，ol和ol还有额外的功能，其中PE是与等式中相同的位置嵌入。（八）、共享位置嵌入直观地告诉transformer对象查询o1和o1都是对齐的。Op，{oO12118专利PNT专利.=属性pat我{\fn方正黑体简体\fs18\b1\bord1\shad1\3cH2F2F2F}.进一步弥合3D和2D坐标之间的差距这将在第二节中进一步详细说明三点三为此，对象查询ol和ol关注所有标记，到目前为止，我们改进了对象查询的设计，以桥接3D点云和2D图像的表示空间。这种设计由Eq.（6），Eq.（8）、l+1pnt，il+1pat，iLpnt，i=属性olLpnt，jLpnt，jL帕特，jL帕特，jLpnt，jLpnt，jL帕特，jL帕特，j{\fnSimHei\bord1\shad1\pos（200，288）}（六）和等式（9），实际上体现了两个观点：使用共享PE的3D和2D对象查询的关注连接和对准。消融研究见第4.4验证我们提出的两个组件的有效性。OO，{o，{o，o，o得双曲余切值.得双曲余切值.得双曲余切值.得双曲余切值.12119PNT∈∈××≤ ≤ ≤≤····，，.+MLPp专利××−3.4. 通过点到面片投影桥接4. 实验除了桥接点标记pl之外，和补丁令牌我们的实验在具有挑战性的太阳上L专利通过对象查询，我们进一步加强了它们之间的关系，RGB-D [27]和ScanNetV 2 [5]数据集。我们首先详细介绍通过添加固有的点到面片投影。将Npnt个采样点的三维坐标记为npntRNpnt×3，将npnt投影到相应的摄像机平面上，得到Npnt个二维像素坐标，用pr oj（npnt） RNpnt×2表示。其中，pr oj已经在等式中定义。（9），我们可以设un和vn分别为proj（npnt）的第n个元素的x轴值和y轴值，其中n=1，2，，，Npn t. 如果un和vn分别满足约束1u nH和1 v nW，则这样的2D坐标可以驻留在大小为H W3的输入图像中。将un和vn四舍五入到最接近的整数获得指示某些图像像素的有效坐标现在很容易获得相应的图像块索引，pn=v n/S×W/S+ u n/S，（10）其中是舍入算子; pn1，2，. - 是的- 是的，Npat是第n个点对应的补丁索引;S de-注意图像补丁大小。我们的点到补丁投影聚合点和图像补丁的功能，设置数据集和实施在第二节。4.1.然后，我们定量比较我们的BrT与国家的最先进的方法在第二节。4.2;我们提出并讨论了定性的结果，在第二节。四点三。最后，我们进行了分析实验，在SEC。4.4验证BrT中各组分的优势。网络架构和可视化的更多细节在我们的附录中提供。4.1.数据集和实现细节数据集。SUN RGB-D [27]是用于3D场景理解的单视图RGB-D数据集。它由10，335个RGB-D图像组成，这些图像使用37个对象类别的非模态定向3D绑定框进行注释，以及相应的相机姿势。训练和验证分割分别由5，285和5，050帧组成。我们使用提供的相机参数将深度图像转换为点云，并采用标准评估协议来报告10个最常见类别的性能[15，20，21]。ScanNetV2[5]是室内场景的3D重建网格的丰富注释数据集。它包含1，513次扫描，覆盖700多个独特的室内场景，其中1，201次扫描属于训练分割，其余312次扫描属于训练分割。Lpnt，nLpnt，nL帕特，pn（11）扫描包括验证子集。 ScanNetV2包含其中下标n和pn指示标记要素索引超过250万张带有相机姿势的图像，以及它们的对应关系，用三维语义和LPNTpl分别表示18个对象类别的符号。与单视图3.5.扩展到多视图场景直接扩展现有的点云检测方法或点图像检测方法是一个挑战以及多视图图像，这仍然是数据组织的常见现实情况。例如，[20]避免使用包含丰富多视图图像的ScanNetV2数据集，可能是因为难以将点云和每个视图结合起来。幸运的是，我们提出的BrT在将点云与多视图图像相结合方面具有天然的优势，其中点图像交互和多视图图像的交互都可以用于进一步提高性能。如图1.当一个场景的输入图像有不同的视图时，我们沿着宽度侧连接这些图像并获得宽图像。以下过程与单视图条件相同。由于对于多视图图像，每个视图通常包含较少的对象，因此我们期望对象查询的数量K仍然可以处理所有对象。我们目前的设计主要是为了在各个视图和点云之间建立桥梁，但它没有利用显式投影来描述不同视图之间的关系，这是我们未来的工作。SUN RGB-D中的扫描，ScanNetV 2中的场景更加完整，并通过多个视图覆盖更大的区域。在我们的实验中，我们采用来自ScanNetV2的样本数据集，该样本数据集包含25，000帧（扫描网帧25k），这些帧是从整个数据集中采样的100个间隔帧。实作详细数据。遵循[15，21]中的常见实践，我们采用PointNet++ [24]作为点云骨干。主干有四个抽象层，其中输入点云被子采样为2，048、1，024、512和256个点，并增加重采样。分别为0.2、0.4、0.8和1.2。存在两个特征传播层，其相继地将点上采样到512和1,024，即， Np nt= 1024。[21]云：云。采用随机翻转、5mm到5mm之间的随机旋转以及因子为0.9到1.1的随机缩放。我们分别使用20k和50k点作为SUN RGB-D和ScanNetV 2数据集上每个点云的输入。对于ScanNetV2，我们使用深度来过滤掉投影的3D点，这些点应该被遮挡，但由于点云的稀疏性而可见。由于ScanNetV2不提供定向边界框注释，因此我们预测轴对齐的边界框，而无需旋转角度，如[15，21]所示。pp=pp12120×⌊⌋objLCLSLobj× ⌊⌋ ×L方法RGB浴缸床布克舍夫椅子书桌梳妆台夜间标准沙发表厕所mAP@0. 25mAP@0. 5[第21话]✗75.585.631.977.424.827.958.667.451.190.559.1 35.8[25]第二十五话✗79.285.831.975.826.531.361.566.350.489.159.8-HGNet [3]✗78.084.535.775.234.337.661.765.751.691.161.6-H3DNet [36]✗73.885.631.076.729.633.465.566.550.888.260.1 39.0免费团体[15]✗80.087.832.579.432.636.066.770.053.891.163.045.2+3-dim RGB✓77.187.231.276.530.836.266.368.153.090.761.742.0+更快的R-CNN✓78.087.434.377.232.836.567.068.853.291.662.744.2公司简介✓80.687.535.078.532.237.366.769.354.492.163.445.7[第28话]✓44.278.811.961.220.56.415.453.550.378.942.1-2D驱动[12]✓43.564.531.448.327.925.941.950.437.080.445.1-PointFusion [34]✓37.368.637.755.117.223.932.353.831.083.845.4-F-PointNet [22]✓43.381.133.364.224.732.058.161.151.190.954.0-[20]第二十话✓75.987.641.376.728.741.469.970.751.190.563.4-我们的BRT✓82.888.040.579.733.440.667.471.155.793.565.448.1表1. SUN RGB-D验证集上的3D物体检测结果。评估指标包括3D IoU阈值分别为0.25（mAP@0.25）和0.5（mAP@0.5）的平均精度，如[27]所提出的。单类指标采用mAP@0.25进行评价。所有列出的方法都采用几何信息（深度或点云），其中一部分还使用RGB作为输入。对于默认实验，模型参数初始化为ViT-S/16的权重，在ImageNet-1k上进行预训练。然而，用于分类和边界框回归和对象查询的MLP头（8）和Eq。（九）、我们将隐藏大小设置为384，层深度设置为12，补丁大小设置为16，注意力头的数量设置为6。图像大小调整为530 730，Npat=530/16 730/16= 1，485。K=256。对于SUN RGB-D数据集，我们包括一个额外的方向预测分支来预测3D框的方向，该分支还包括一个分类任务和一个偏移回归任务，损失权重分别为0.1和0.04，如下[15]。我们使用 AdamW [16] 优化器（ β1=0.9 ，β2=0.999）训练BrT，具有600个epoch。学习率初始化为0。004，并在第420个历元、第480个历元和第540个历元衰减0.1。我们在等式中设置损失权重（2）α1=0。2，α2=0. 5，α3=0 1 .一、在[15，21]之后，3D由权重为1的中心偏移子损失和大小偏移子损失组成。0和0。分别为1;3D由具有相等权重1的对象分类子损失和尺寸分类子损失组成。0的情况。此外，在[8]之后，2D由权重为1的中心偏移子损失和GIoU子损失组成。0和2。0，分别。4.2. 与最新方法的在本节中，我们将我们的BrT与最先进的方法（包括使用RGB深度，RGB点云或仅使用点云）进行比较，以在SUN RGB-D和ScanNetV 2数据集上进行3D对象检测。太阳RGB-D的结果。在表1中，我们提供了SUNRGB上详细的每类3D对象检测结果D.我们观察到，我们的BrT实现了新的记录，这是显着优于以前的方法在mAP@0。25和mAP@0。五、具体而言， BrT 超过 Group-Free[15] ，这是一种基于Transformer的模型，仅将点云作为输入，超过2。3%（mAP@0. 25）和2. 百分之九（mAP@0. 5）;并超过imVoteNet [20]，这是目前最好的基于CNN的模型，也使用RGB，1。9%（mAP@0.第25段）。请注意，Group-Free在所有Transformer阶段采用多级集成来提高性能，而我们的BrT使用一个输出进行评估。由于Group-Free [15]在仅使用几何信息的方法中实现了最佳性能，因此我们实验了三个额外的Group-Free变体：(1)“+3-dim RGB”直接将三维RGB值附加到点云特征（由PointNet++采样的种子点）;（2）“+FasterR-CNN”采用预训练的Faster R-CNN [ 26 ]（与[ 20 ]中使用的模型相同），基于CNN的2D检测器，以提取区域特征并将它们连接到2D盒体内部的种子点;（3）三点四分。这三种变体（具有RGB）的结果也在表1中提供，其中仅这一结果表明，RGB信息的直观整合此外，简单地将三维RGB附加到点特征上甚至会影响性能，我们推测这是由于2D/3D表示的差异。通过比较，我们的BrT明显优于这三种变体。ScanNetV2上的结果。表2提供了ScanNetv2的性能比较。同样，我们还进行了三个额外的实验，包括我们观察到，这三个实验也未能带来明显的改善。我们分别采用ViT-S/16和ViT-B/16的结构设计，对我们的BrT进行了两种架构的轻架构BrT（ViT-S/16）已经超越了所有比较的方法。BRT（ViT-B/16）进一步获得1.6mAP的额外增益12121我们的BrT的2D检测我们的BrT的3D检测我们的BrT的3D检测 Group-Free Ground truth图2.可视化比较，以显示使用图像信息的优势我们将BrT与采用点云作为输入的Group-Free [15]进行比较第一行：我们的BrT在图像检测的帮助下检测床头柜，即使点非常稀疏。第二行：Group-Free受噪音影响，检测到假阳性椅子，而我们的BrT不受影响。2D物体检测3D物体检测独立变压器我们的桥式Transformer（BrT）表2. ScanNetV2验证集上的3D物体检测结果。所有列出的方法都采用了点云的几何信息。L表示自我/交叉注意层的数量。PointNet++w2×将主干宽度扩展2倍。4.3. 定性结果和讨论图2，我们比较了最先进的方法Group-Free [15]（仅输入点云）与我们的BrT（额外输入图像）。我们观察到，在图像线索的帮助下，我们的BrT识别出部分位于床后面的床头柜，获得很少的点，而Group-Free未能检测到它。此外，在第二种情况下，Group-Free由于点噪声而检测到假阳性椅子，并且由于图像信息，我们的BrT似乎对点噪声具有鲁棒性。我们在我们的附录中提供了ScanNetv2上的多视图图像的更多可视化。为了突出我们在第二节中提出的桥接技术的优势。3.3和Sec. 三点四分。在图3中，我们展示了没有或有3D 2D桥接的可视化比较地面实况图3.使用单独的变换器和我们的BrT的可视化比较。在第一行中，缺少一些不太明显的对象（其中一个被遮挡的2D椅子，以及具有稀疏3D点的桌子/椅子），这些对象用红色圆圈突出显示我们的BrT成功捕获了这些困难的对象。ing.具体来说，在第一行中，我们采用两个独立的Transformer分别学习2D对象和3D对象，其中两个Transformer的学习过程是独立的，没有任何桥接技术。强调方法骨干RGB mAP@0. 25 mAP@0. 5[第21话]PointNet++✗62.939.9[25]第二十五话PointNet++✗64.541.4H3DNet [36]PointNet++✗64.443.4H3DNet [36]HGNet [3]4× PointNet++GU-net✗✗67.261.348.134.4GSDN [10]MinkNet✗62.834.83D-MPA [7]MinkNet✗64.249.2无组[15]（12-L）PointNet++✗67.348.9无组[15]（24 L）PointNet++w2×✗69.152.8+3-dim RGB+更快的R-CNN公司简介PointNet++w2×PointNet++w2×PointNet++w2×✓✓✓67.868.769.251.052.252.6我们的BrT（ViT-S/16）PointNet++✓69.753.0我们的BrT（ViT-B/16）PointNet++w2×✓71.355.212122PNT专利PNT专利PNT专利注意连接。按照第二节的建议。3.2，对于每个层l，我们阻止了点标记PL和图像块令牌P1，但是我们采用全局关注的对象查询OL和OL表3.我们的桥接技术的消融研究，包括使用/不使用条件对象查询、共享PE和第二节中提出的点到补丁投影时的结果3.3和Sec.三点四分。实验在SUN RGB-D上进行。来建立点和图像块之间的关系。为了证明这种设计的优势，在表4中，我们比较了不同类型的连接。我们观察到，使用全局关注的对象查询确实有助于提高性能，我们的默认连接设置（最后一行）实现了最佳性能。pl和pl之间的连接导致性能下降，同时增加计算量。连接。之间olpl北太平洋铁路连接。之间olpl帕特角连接。之间plpl北太平洋铁路mAP@0. 25mAP@0. 5✗✗✗62.244.2✓✗✗64.547.0✗✓✗62.845.0✓✓✓63.946.4✓✓✗65.448.1表4.不同注意力连接的比较（连接）在BrT与我们的默认版本（最后一行）提出的第二节。3.2.实验在SUN RGB-D上进行。预训练模型无预培训ViT-S优洛斯-S地图结果62.8（44.5）65.4（48.1）63.4（45.3）表5. mAP@0的结果。25和mAP@0。5（括号内）当使用不同的预训练策略。实验在SUN RGB-D上进行。对于红色圆圈，2D检测的结果不能识别两个重叠的椅子，而是将它们预测为一个单独的椅子。此外，由于点的稀疏性，其3D检测结果忽略了这是3D对象检测的常见瓶颈，因为点通常是不均匀分布的，从而导致许多稀疏区域。相反，我们在第二行中的BrT在2D检测中成功地此外，在图像的帮助下，BrT还可以在3D检测中捕获所有桌子和椅子，即使在点非常稀疏的区域也是如此4.4. 消融分析在本节中，我们进行了消融研究，以分离BrT中每个重要组件的受益桥接技术。节中3.3和Sec. 3.4中，我们提出使用条件对象查询、对象查询的共享PE和点到补丁投影。我们在表3中提供了详细的比较结果，以验证每个组件的必要性。我们观察到，条件对象查询和共享PE的组合带来了显着的性能提升。此外，点到补丁投影本身进一步提高了性能。这些结果表明，这三个组成部分都是必要的。这就是我们阻止这些连接的原因培训前策略。如第4.1中，我们的BrT使用ImageNet-1k上预训练的ViT-S参数初始化。为了验证使用这种预训练策略的可移植性，在表5中，我们首先将我们的结果与从头开始的训练进行相比之下，使用ViT-S预训练比从头开始训练的mAP@0.25高2.6此外，我们还尝试使用YOLOS的现成参数初始化BrT，首先在ImageNet-1k上进行预训练，然后在COCO数据集上进行微调[13]。然而，当使用COCO微调参数时，我们没有观察到进一步的改进，并且我们推测在COCO上微调的参数可能容易过拟合SUN RGB-D数据集。5. 结论这项工作提出了BrT的三维物体检测，能够有效地利用点云和图像由于2D和3D空间的表示之间存在很大的差异，BrT中的点令牌和图像补丁令牌与全局关注的对象查询桥接，而不是直接连接。此外，我们建议从两个角度来桥接2D和3D学习过程，包括利用条件对象查询和点到补丁投影。我们的BrT超越了SUN RGB-D和ScanNetV 2数据集上的最先进方法，这也证明了BrT在多视图场景中的可扩展性。确认这项工作得到了新一代人工智能重大项目（第100号）的资助2018 AAA 0102900）、中德合作研究项目CrossmodalLearning （国家自然科学基金62061136001/DFG TRR 169）、重大科技创新2030“新一代人工智能 ” 重点项目（编号： 2018 AAA0102900）、中德合作研究项目Crossmodal Learning（国家自然科学基金62061136001/DFG TRR 169）、中德合作研究项目（编号：2018 AAA 0102900）、中德合作研究项目（编号：2018 AAA 0102900）、中德合作研究项目（编号：2018 AAA 0102900）、中德合作研究项目（编号：2018 AA 0102900）、中德合作研究项目（编号：2018 DFG TRR 169）、中德合作研究项目（编号：2018 AA 0102900）、中德合作研究项目（编号2021 ZD 0111700）、国家自然科学基金（No.62006137）。我们感谢MindSpore，CANN和Ascend AIProcessor的支持。条件对象查询共享PE，对象查询点到面片投影mAP@0. 25 mAP@0. 5✗✗✗62.644.3✓✗✗62.944.7✗✓✗62.444.0✓✓✗63.545.3✗✗✓64.246.6✓✓✓65.448.112123引用[1] Tadas Baltrusaitis，Chaitanya Ahuja，and Louis-PhilippeMod.多模态机器学习：一项调查和税收经济学。在IEEE Trans. PAMI，2019. 1[2] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。一、二、四[3] Jintai Chen，Biwen Lei，Qingyu Song，Haochao Ying，Danny Z Chen，and Jian Wu.点云上三维目标检测的层次图网络。在CVPR，2020年。一、二、六、七[4] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在CVPR，2017年。2[5] 戴安琪，天使 X. 放大图片创作者： Thomas A.Funkhouser和Matthias Nießner。Scan-net：室内场景的丰富注释3D重建。在CVPR，2017年。5[6] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。一、二[7] Francis Engelmann ， Martin Bokeloh ， Alireza Fathi ，Bastian Leibe，and Matthias Nießner. 3d-mpa：用于3d语义实例分割的多提议聚集。在CVPR，2020年。7[8] Yuxin Fa

下载后可阅读完整内容，剩余1页未读，立即下载