PlaneTR：基于结构引导的3D平面恢复网络

32 浏览量更新于2023-10-13 收藏 1.14MB PDF 举报

神经网络

位置编码

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4186PlaneTR：用于3D平面恢复的结构引导变换器谭斌 *1薛楠 * 1白松 2吴天福3夏桂松†11武汉大学2字节跳动AI Lab3北卡罗来纳州立大学https://git.io/PlaneTR摘要本文提出了一种神经网络建立在变压器，即PlaneTR，同时检测和重建飞机从一个单一的图像。与以前的方法不同，PlaneTR联合利用了位置编码线段序列LSDCNN平面平面在一个实施例中，可以以序列到序列的方式检测地层和几何结构，以整体地检测一个地层中的平面实例位置编码上下文序列查询实例向前传球具体来说，我们将几何结构表示为线段，并使用三个主要组件进行网络：（i）上下文和线段编码器，（ii）结构引导平面解码器，（iii）逐像素平面嵌入解码器。给定图像及其检测到的线段，PlaneTR通过两个专门设计的编码器生成上下文和线段序列最后，计算逐像素嵌入以将每个像素分配给在嵌入空间中最接近它的一个预测平面实例。综合实验表明，PlaneTR在ScanNet和NYUv2数据集上实现了最先进的性能。1. 介绍从单个RGB图像恢复3D平面结构是3D视觉中的基本问题，并且由于其不适定性质而具有挑战性。该问题的目标是检测平面实例的区域并估计它们的3D平面参数（例如：表面法线和偏移）。作为3D场景的基本表示，重构平面在下游任务中具有广泛的应用，例如增强现实[4]、视觉SLAM [30，44，20]和室内场景理解[31，16]。一些早期的方法[6，2，21，15，25]倾向于利用几何元素，如线段，路口，和面包车。*同等贡献。†通讯作者。图1.申报PlaneTR的图示我们的网络整体上利用上下文特征和线段表示的两个标记化序列来预测一组平面实例的图像。解决这个问题的方法是自下而上的。这些几何元素通常首先被分成不同的组，然后在一系列严格的前提下仔细分析（例如：Manhattan World）和恢复3D平面的规则。虽然这些基于结构的方法在一定程度上取得了成功，但是它们遭受丢失或不正确的几何图元检测、复杂的技术过程以及有限的场景的问题，这些问题影响了它们的性能和应用。最近，卷积神经网络（CNN）解决了这个问题[19，43，18，45，11，24]。一些方法[19，43，18]以自上而下的方式从输入图像直接预测具有对应3D平面参数的平面实例掩码。相比之下，PlaneAE [45]采用自下而上的方式，通过聚类嵌入空间中相似的像素来实现平面实例。这些方法放宽了基于结构的方法中的约束，并且已经实现了有希望的性能。然而，它们主要利用来自CNN的上下文信息，并忽略图像中对3D平面恢复有用的结构线索。在本文中，我们感兴趣的是在基于学习的框架下，利用几何结构的三维平面恢复的问题，在门场景。虽然有各种低级几何图元，但我们发现线段通常用于构建3D平面[16，25]，并且与其他几何图元相比，包含更多的场景整体3D信息。Transformer解码器4187例如特征点、边缘和消失点。此外，受益于线段检测[42，40，41，47]中的最新技术水平，我们可以方便地从图像中获得线段。因此，在本文中，我们使用线段作为平面恢复的几何结构。在一些最近的作品[35，12]中，几何结构已经用于深度和法线估计。在这些方法中，结构被表示为密集图（例如，线段图）以满足CNN的表示。然而，这种密集的结构表示对于网络来说很难利用全局结构线索，这有两个缺点：（i）CNN的有限感受野和（ii）密集图中结构像素的稀疏分布。虽然基于CNN的注意力机制[36，38]可以缓解第一个缺点，但第二个缺点仍然难以很好地解决。因此，本文将回答以下问题：是否有可能全面利用稀疏线段的学习平面恢复？最近，Transformers [32]的序列到序列模型已成功用于视觉任务[3，39]。在这些工作中，输入功能和输出目标表示为视觉令牌，并通过变形金刚的注意力机制，全局相互作用受视觉变换器中的标记化表示的启发，我们通过提出我们的PlaneTR来解决上述问题，PlaneTR是一个Transformer模型，它利用了用于平面恢复的信息上下文特征和有意义的几何结构。对于给定的输入图像及其检测到的线段，我们的PlaneTR编码的线段和上下文特征成两组标记化序列，分别。然后，一组可学习的平面查询被用于通过结构引导的平面解码器与上下文和线段序列整体交互，该解码器输出一组tokenized平面实例。作为最后一步，我们设计了一个简单的实例到像素分割策略，该策略由相关嵌入[22]和PlaneAE [45]激励，通过将每个像素分配到嵌入空间中最近的平面实例来产生逐像素平面分割结果综上所述，本文的主要贡献如下：我们利用线段作为标记序列，而不是密集的地图，以指导学习的3D平面恢复几何结构。我们开发了一种新的Transformer，PlaneTR，同时检测和重建平面结构从一个单一的图像在一个序列到序列的方式。我们的方法在ScanNet [5]和NYUv2 [28]数据集上获得了最先进的性能，验证了我们方法的有效性。2. 相关工作2.1. 单幅图像三维平面恢复诸如线段和消失点的几何结构被广泛用于传统方法[6，2，21，15，25，14，46，9]中，用于从单个图像分段3D平面恢复。这些方法通常倾向于通过分组和优化（或拟合）策略来利用例如，Leeet al. [15]建议通过首先提出多个结构假设，然后找到最适合所收集线段的模型，从单个图像重建平面3D场景。Qian等人[25]设计线段到3D算法，其首先将线段分组为一组最小生成曼哈顿树，然后在曼哈顿约束下将这些树提升到3D。Li等[16]假设场景之前有一个盒子，并建议通过结构引导搜索算法找到图像的最佳为了有效地执行算法，这些方法通常建立在一系列严格的假设和规则之上，这些假设和规则限制了它们的应用和性能。最近的基于学习的方法[43，19，45，18，24]通过直接从单视图图像检测和重建3D平面来PlaneNet [19]从ScanNet数据集[5]生成大型平面深度图数据集，并提出端到端深度神经网络来预测一组平面分割掩模及其对应的3D平面参数。PlaneRecover [43]设计了一个平面结构引起的损失，并直接从RGB-D数据中训练平面重建网络，而PlaneR-CNN [18]通过应用基于检测的框架（例如，Mask R-CNN [10]），并提出了一个分割细化网络和一个扭曲损失来提高性能。与以前的自顶向下方法不同，PlaneAE [45]以自底向上的方式解决了这个问题。它通过首先学习每个像素的嵌入，然后通过有效的均值漂移算法将它们分组到各种平面实例来获得平面分割掩模。尽管这些基于学习的方法取得了很好的效果，但它们只考虑了深度特征中的上下文信息，而忽略了对3D平面恢复很重要的结构线索。相比之下，我们结合了传统方法和基于学习的方法的思想，并提出了一种方法，联合利用上下文信息和几何结构的3D平面恢复。2.2. 结构导向学习结构已经成功地用于一些基于学习的方法[35，12，27，29，26]。Wang等人[35]建议从输入RGB图像及其对应的曼哈顿线图学习曼哈顿标签图以用于正常估计。···4188i=1关于我们∈图2.我们提出的PlaneTR概述它主要由两个分支组成：（i）Transformer分支，其对平面实例和上下文（线段）序列之间的整体关系进行建模;以及（ii）卷积分支，其预测用于平面分割和非平面区域的深度的逐像素嵌入mation Jin等人[12]利用几何结构作为先验和正则化器来促进深度图的学习在他们的方法中，他们首先估计几何结构（例如角点图、边界图和平面图）作为先验，然后从输出深度图估计相同的结构作为正则化器。Song等人[29]提出将学习的边缘特征嵌入到深上下文特征中，以指导图像细节和边界中的差异的估计。这些方法倾向于将结构作为局部指导，并将其表示为像素级密集图，这对于网络来说难以利用全局结构线索。与这些方法不同的是，在本文中，我们采取了一种新的标记化表示的线段引入全局结构线索到一个基于学习的框架工作。2.3. 视觉变形金刚Transformer [32]被提出用于NLP中的序列到序列机器翻译。最近，一些研究人员试图将变形金刚引入视觉任务，例如目标检测[3，48]，图像分割[33，37，17]和图像分类[7]。DETR [3]提出了一种新的简单的对象检测范例，该范例构建在Transformer编码器-解码器架构上，该架构不需要许多手工设计的组件，例如anchor直接从标记化的图像特征提取，这简化了线段检测过程并实现了最先进的性能。一方面，这些工作显示了Transformers在视觉任务中的应用前景。另一方面，这种基于标记化表示的序列到序列架构为我们提供了一种合适的方式来联合利用实例级结构和上下文特征进行平面恢复。因此，在本文中，我们提出了一种新的结构引导网络建立在变压器的3D平面检测和重建，即计划eTR。3. PlaneTR模型如图2所示，所提出的PlaneTR由卷积主干组成，随后是用于平面实例预测的Trans-former分支（第二节）。3.1）和用于逐像素平面嵌入和经由两个解码器的非平面区域深度估计的卷积分支然后将估计的逐像素嵌入用于平面实例分割（Sec. 3.2）。我们使用修改后的HRNet-w32 [34]作为我们的主干，它以图像I RH×W×3作为输入，并输出具有四个尺度的特征图，表示为F=FiRHi×Wi×Ci4（Hi=H/2i，Wi=W/2i）。根据[45]，我们定义3D生成和非最大抑制。 DETR公式平面参数.n=n/d其中n~∈R3是将对象检测问题转化为序列到序列预测问题，并直接从与上下文特征序列交互的学习对象查询Liang等人[17]利用Transformers中的自注意力网络来建模多边形顶点中的内在依赖关系，并学习预测输入顶点的一组偏移量，以将初始多边形变形为对象边界。受DETR的启发，Xuet al. [39]提出一个网络来预测一组线段表面法线，d表示与平面到摄像中心3.1. 用变压器进行平面实例预测上下文编码器。我们首先使用标准Transformer编码器将主干特征映射F4中的上下文特征编码为标记化特征序列，该编码器由DETR [ 3 ]中使用的六个编码器层组成。具体地说，我们输入一个平坦化的特征序列fc∈Rd×（H4W4）平面嵌入解码器深度解码器卷积分支逐像素嵌入。上下文编码器骨干上下文序列平面查询位置编码平面实例线段线段编码器序列结构引导平面解码器Transformer支路FFNCASAFFNCASAFFNSA4189∈×∈∈×⊗∈pi=1pj=1联系我们p我我我 i=1我我∈{E}联系我们从F4生成，然后进行1 1卷积，并将其正弦/余弦位置编码E cRd× （ H4W4）输入编码器。在每个编码器层中，输入特征令牌经由自注意（SA）操作彼此交互，并且然后使用全连接前馈网络（FFN）来获得输出。最后一个编码器层的最终输出上下文序列被定义为ScRd×（H4W4）。这里，在本文中d线段编码器。为了实现标记化的线段序列，我们首先检测n个线段L =n。纸）。在推断阶段，如果预测的平面实例的平面概率大于0.5，则选择预测的平面实例作为输出。3.2. 实例到像素平面分割在从Transformer分支获得平面实例之后，需要获得每个平面的分割掩码。受PlaneAE [45]的启发，我们应用关联嵌入的思想，并通过PlaneAE中使用的平面嵌入解码器计算像素嵌入向量. L =（x1，x2）Σn使用最先进的线段检测算法HAWP [42]及其预训练模型这里，X1和X2是li的两个端点。然后，我们建立的线段序列的基础上的高分辨率的骨干功能F2，以区分相邻的线段。由FrRH2×W2×d表示，在骨干特征图F2的顶部应用11卷积层。在计算Fr的位置编码映射Er之后，我们使用双线性插值在其两个端点处对每个线段l的特征向量和位置编码向量进行采样，分别由（ f1， f2）和（ e1， e2）表示。在下一步骤中，应用MLP层以产生线段1的特征及其对应的位置编码，如下：fl=MLP（flf2），el=（el+e2）/2，（1）其中指示级联操作。最后，所有线段的特征和位置编码平面实例分割掩模通过聚类算法算法的基础上，我们采取了一个简单的实例到像素的方法，通过直接比较像素嵌入和平面实例嵌入之间的距离然后，我们分配一个像素的一个平面实例，这是最近的嵌入空间中，如果他们的距离是低于阈值T，这是设置为1.0在本文中。3.3. 网络训练辅助平面中心预测。我们发现在训练阶段预测辅助平面中心是有益的（我们将在实验烧蚀研究中讨论这一点），每个平面的地面真值平面中心被定义为其对应平面像素的归一化平均图像坐标。在实践中，我们预测平面实例和像素的本案-串接成S1段序列∈Rd×n，El∈Rd×n为直线从外表面预测了平面中心cR2×K结构引导平面解码器的puts后线性层像素级平面中心C ∈RH×W×2结构引导平面解码器。我们的结构引导平面解码器具有两个并行分支，如图2所示。每个分支都建立在一个标准的Transformer解码器上，该解码器由DETR [3]中使用的六个编码器层组成。这两个分支分别以上下文序列和线段序列作为输入，共享相同的可学习平面查询E pRd×K。这里，K是预测平面实例的固定数量（本文中 K = 20 ）。通过与Transformer的交叉注意（CA）操作同时地与上下文和线段序列交互，平面查询能够通过整体地考虑图像中的上下文和结构线索来感知平面实例。我们定义的输出序列的两个分支为Oc和Ol，分别。然后，结构引导平面解码器的最终解码平面实例序列可以被计算为经由具有与平面嵌入解码器相同的架构的卷积解码器来预测二分匹配。在我们的网络中，我们预测固定数量的K个平面实例si=（pi，ni，ci，i）K，它们通常多于地面真实平面实例 sj=（pj，nj，cj）M在图像（KM）。给你，pj0，1（0：非平面，1：平面）。因此，为了有效地训练网络，我们首先用非平面实例将地面实况平面实例填充到数量K。然后，我们通过搜索具有最小化匹配成本的置换来找到预测平面实例与地面实况平面实例之间的二分匹配，如下所示：Sp= Oc +Ol ∈Rd×K。σ=argminD.si，sσ（i）、（二）平面实例预测层。对于Sp中的每个平面实例，我们应用多头线性层来预测一组参数，包括3D平面参数。ppσi=1其中σ（i）指示预测平面tersn∈R3，平面和非平面概率p，以及实例到地面真值平面实例si和D是a平面实例嵌入向量E ∈R∈（∈=8在此测量两个平面之间的匹配成本的函数K在卷积分支中。然而，除了实现4190K（一）.Σ{}iΣ。×Mp EE联系我们C.我{p≡ 1}β2Σn实例. D的公式定义为：.Σ2我 σ（i）LC=L2。C，CΣ，（11）+1ωL。c，cΣ，（3）其中ci和C表示实例方式和pix el方式其中1a是一个指标函数，如果a为真，则取1，如果a为真，则取0否则，请执行以下操作。 ω是平衡成本最后损失是上述损失的总和，定义为：项，并在本文中设置为2。Σ。（一）（一）（一）（i）损失函数。我们的网络通过基于二分匹配结果的损失进行训练，由五个部分组成：L=i=1Lcls+Lparm+Lc +λLemb+LD+LC，（十二）分类损失、平面参数损失、平面中心损失、嵌入损失和逐像素深度损失。分类损失定义为：Lcls=−logp σ（i）（pi）。（4）平面参数损失定义为：其中λ是用于平衡损失项的大小的权重，并且在本文中被设置为5此外，根据DETR [3]，我们还在结构引导平面解码器中从01预测平面实例，并将其用作中间监督。中间监督的权重设置为0.2。（一）parm=1p=1L1 ni，nσ（i）+的1{p≡i=1}β1。1−cos。ni，nσ（i）ΣΣ+4. 实验在本节中，我们在公共ScanNet数据集[5]和NYUv2数据集[28]上进行实验，以评估和1Tiσ（i）q∈ Qiq−1，（5）分析所提出的PlaneTR的性能。4.1. 数据集和指标其中，Qi是从经由地面的地面真值平面实例si的像素扫描网 ScanNet数据集[5]是一个大型室内RGB-真值深度图pβ1=5，β2=2。他们-D视频数据集。为了训练和测试我们的网络，我们使用[19]第十九章：一个女人的秘密根据PlaneAE [ 45 ]定义垫层损失，PlaneAE [45]由两个术语组成，称为拉损和推损。配方如下：nal ScanNet数据集。处理后的数据集包含50，000张训练图像和760张测试图像，图像大小为256 ×192。（一） =L（i）+L（i），（6）NYUv2及其变体。[28 ]第28话是一个哪里EMB拉推室内RGB-D数据集。官方的NYUv2数据集包含795张训练图像和654张测试图像（包含地面实况）（一）拉=1{p{i=1}最大Eg∈Gi（i）-g−δ1，0Σ，（7）深度图图像大小为640四百八十评价平面恢复性能，我们使用 NYUv 2 数据集的变体，即 NYUv 2-Plane，由PlaneAE [45]生成，图像大小为256 ×192。（一）推=1{p{i=1}j=Σ1，j=最大δ2我-Eσ（i） -Eσ（j），0Σ（8）评估指标。根据PlaneNet [19]，我们应用平面和像素召回来评估平面检测性能。平面（像素）召回被定义为每-这里，G i是属于地面真值平面实例Sii的像素的嵌入向量的集合。 σ（i）和σ（j）是预测平面实例的嵌入。 δ1和δ2是拉和推损耗的裕度，在本文中被设置为0.5和1.5。深度损失定义为：LD= L1。d，dΣ，（9）其中d指示来自深度解码器的预测深度图，且d是地面实况深度图。平面实例和像素的平面中心损失可以定义为：L（i）=1{p≡ 1}L2.ci，cσ（i）Σ，（10）LLLLD=−pσ（i）（pi）+1{pi=1}L1ni，nσ（i）地面实况平面中心。4191正确预测的地面实况平面实例（像素）的百分比。如果一个平面的交集大于并集（IOU）大于0.5并且深度（表面法线）误差小于阈值，则该平面被认为是正确预测的平面。此外，为了进一步评估分割性能，我们应用了分割[1，43]中使用的三个流行度量，称为rand指数（RI），信息变化（VI）和分割覆盖（SC）。在NYUv2数据集上，我们还评估了从重建平面推断的深度的准确性。在[8]之后，我们应用这些流行的深度度量：平均绝对相对误差（Rel），平均log10误差（log10），均方根误差（RMSE）和阈值准确度（δ i<1. 25i，i=1，2，3）。4192×××4.2. 实现细节我们的网络使用Pytorch [23]实现，并使用Adam优化器[13]进行训练。我们在ScanNet训练集上训练我们的网络，在3个GPU上总共有60个epoch。初始学习率被设置为110−4，并且在每15个epoch之后降低到一半。每个GPU的批处理大小设置为24，权重衰减设置为1 ×10−5。4.3. ScanNet数据集定性结果。图4示出了我们的方法的平面检测和重建结果。PlaneTR能有效地检测和合理地重建场景中的平面在图5的前4行中，我们可视化了我们的PlaneTR和最先进的基于CNN的方法（包括PlaneNet [19]，PlaneAE[45]和PlaneRCNN [18]）在Scan-Net数据集[5]上的平面分割结果。PlaneNet和PlaneAE通常不正确图3. ScanNet数据集上的平面和像素召回。方法VI↓ScanNetRI↑SC ↑NYUv 2-平面VI↓ RI ↑ SC ↑PlaneNet [19]1.2590.8580.7161.8130.7530.558[18]第十八话1.3370.8450.6901.5960.8390.612PlaneAE [45]1.0250.9070.7911.3930.8870.681我们0.7670.9250.8381.1100.8980.726表1.ScanNet数据集和NYUv 2-Plane数据集上平面实例分割结果的比较合并不同的平面。PlaneRCNN倾向于划分一个大的平面的实例分成几个平面实例，例如图5的第三行中所示的墙和地板。此外，这些方法检测出的平面分割掩模往往是不完整的.与这些方法相比，我们的PlaneTR可以正确地检测具有完整分割掩模的整体平面结构定量结果。然后，我们比较定量我们的方法与 PlaneNet [19] ， PlaneAE [45] 和PlaneRCNN [18]的性能。请注意，PlaneRCNN是在从Scan-Netv 2数据集[5]构建的新基准上训练的，这与其他方法不同。因此，我们在ScanNet数据集上评估时仅将PlaneRCNN作为参考，并主要将我们的Plan-eTR与其余方法进行比较。在表1中，我们示出了平面分割性能的结果。我们的方法明显优于所有其他方法。在图3中，我们示出了各种方法的平面和像素召回，并且深度误差阈值以0.05m的增量从0m变化到0.6m。我们的方法显着优于形式PlaneNet与所有阈值。当与PlaneAE相比时，我们的方法在像素召回方面表现得更好，这得益于我们完整的预测平面分割掩模，如图5所示。对于平面召回，我们的方法执行略低于PlaneAE。这主要是因为我们的方法倾向于检测整体平面结构，这可能导致一些平面的缺失，例如图5的第四行所示的桌子上的白板。4.4. NYUv2数据集为了验证我们的方法的推广，我们首先评估了我们的方法在NYUv 2-Plane数据集上的平面分割性能。在表1中，我们显示了与PlaneNet [19]、PlaneAE [45]和Plan-AE的比较结果。表2.NYUv2数据集上的深度精度比较设置线平面段中心0.10 m处的每平面召回（深度&@0.60 m@5◦@30 ◦平面分割VI↓ RI↑ SC↑✓✓✓✓35.7157.0338.7756.400.8850.9130.80938.0760.3340.8559.810.7780.9230.83338.4458.8241.7258.360.8310.9190.82340.7461.4943.14六十块六毛八0.7670.9250.838表3. ScanNet数据集上申报PlaneTR的消融研究。eRCNN [18].我们的方法优于所有其他方法，在所有指标上都有很大的优势然后，我们进一步评估NYUv2数据集上的逐像素深度精度在该实验中，我们通过首先经由预测的3D平面参数计算平面区域的深度值如表2所示，我们的方法优于 PlaneNet 和 PlaneAE ，而PlaneRCNN 实现了最佳的深度性能。请注意，PlaneRCNN是用640 640的图像大小进行训练和测试的，这比其他方法中使用的图像大小（256 192）要大。如此大的图像尺寸有利于PlaneRCNN在深度性能上的提升。NYUv 2-Plane数据集上定性平面分割结果的比较如图5的最后两行所示。该方法能够检测出场景中完整合理的平面，优于其他方法。方法PlaneNetPlaneAEPlaneRCNN我们Rel↓log10↓RMSE↓0.2360.1240.9130.2050.0970.8200.1830.0760.6190.1950.0950.803δ1↑δ2↑δ3↑53.078.390.461.387.295.871.893.198.363.388.296.14193图4. ScanNet数据集上PlaneTR的3D平面重建结果。(a) 输入（b）线段（c）PlaneNet（d） PlaneRCNN（e） PlaneAE（f）我们的（g）地面实况图5.ScanNet数据集（行：1-4）和NYUv 2-Plane数据集（行：5-6）上平面实例分割结果的比较(a)图像（b）分段结果（c）平面1的注意力（d）平面2的注意力（e）平面3的注意力图6.结构引导平面解码器中的上下文和线段注意力映射输入深度飞机3D模型4194Number每平面召回@0.10 m@0.60 m@5◦@30◦(a)图像（b）w/o线（c）w/线3 + 4 (d)带生产线1 + 2(e)图像（f）无线（g）有线1（h）有线2表4. PlaneTR的平面召回，在ScanNet数据集上进行不同数量的平面查询。正样本和负样本之间的平衡，这可能降低网络性能。图7. PlaneTR中线段引导的平面检测图示4.5. 消融研究在本节中，我们在Scan-Net数据集上进行实验，以验证PlaneTR中的各种组件我们使用平面召回的深度和正常阈值的基础上，分别评估性能。具体地，深度阈值被设置为0.1m和0.6m。正常阈值设置为5kHz和30kHz。此外，我们还使用VI，RI和SC来评估平面分割性能。辅助平面中心预测。我们首先验证辅助平面中心预测，我们用来帮助我们的方法的学习的有效性。如表3所示，在训练期间学习额外的平面中心有利于我们的网络获得更好的结果。一个主要原因是平面中心提供了重要的平面位置信息，这可以帮助平面查询了解平面在图像中的位置。线段。然后，我们进一步验证了我们的结构引导平面解码器中使用的线段的有效性。如表3所示，没有线段的模型仅通过将上下文序列作为输入来训练以预测平面实例。我们可以观察到，通过将线段应用到网络中，在图7中，我们列出了两个示例，以进一步显示输入线段如何引导我们的完整模型中的平面检测这里，设置通过输入相对线段（例如第一示例中的线路1和线路2）进入网络，则可以成功地检测到错过的平面。它表明，我们的结构引导平面解码器已经学会了平面和线段之间的关系。平面查询编号。我们还实验了平面查询数量的影响，结果如表4所示。我们可以观察到，随着平面查询的数量从20增加到40，平面召回已经在一定程度上降级一个合理的解释是ScanNet数据集中每个图像的平面数低于20，大量的平面查询将导致图像的不完整性。注意力可视化。在图6中，我们示出了预测平面实例与结构引导平面解码器中的输入上下文序列（线段序列）之间的注意力映射。如我们所见，对于诸如图6的第二行中的平面1的平面实例，其对上下文序列的关注主要集中在空间上位于平面区域上的那些相比之下，它对输入线段的注意力表现出了更复杂的关系和场景的全局结构信息。5. 结论在本文中，我们提出了一种新的模型的变压器，PlaneTR，同时利用上下文信息和全球结构线索，以恢复3D平面从一个单一的图像与国家的最先进的性能。我们的PlaneTR表示上下文特征和线段与标记化的序列，而不是密集的地图，以解决在序列到序列的方式的平面恢复问题与现有的基于CNN的平面恢复或结构引导学习方法不同，这种线段的标记化表示使我们的网络能够在最终任务中明确地利用整体结构线索。在我们未来的工作中，我们计划研究几何结构在其他几何视觉任务中的应用确认本工作得到国家自然科学基金项目 61922065 、61771350、41820104006和国家博士后创新人才培养计划项目BX20200248的资助。T. Wu得到了NSF IIS-1909644、ARO Grant W 911 NF1810295、NSF CMMI-2024688、NSF IUSE-2013451和DHHS-ACL Grant 90 IFDV 0017 -01的部分支持。00. 本文的数值计算是在武汉大学超级计算中心的超级计算系统上进行的我们衷心感谢匿名评审员和区域主席的建设性意见。本文中提出的观点是作者的观点，不应被解释为代表任何资助机构。2040.7461.4943.1460.683040.5861.0843.3660.354039.2560.1142.5159.414195引用[1] 放大图片作者：Michael Maire，Charless C. Fowlkes和Jitendra Malik 轮廓检测与分层图像分割。 IEEETransactionsonPatternAnalysisandMachineIntelligence，33（5）：898-916，2011. 5[2] Olga Barinova，Vadim Konushin，Anton Yakubenko，KeeChang Lee，Hwasup Lim，and Anton Konushin.城市场景快速单视自动三维重建在European Conference onComputer Vision，ECCV，第5303卷，第100-113页，2008中。一、二[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在European Conference on Computer Vision ， ECCV ，第12346卷，第213-229页，2020中。二三四五[4] 放大图片作者：Denis天啊，安德鲁·卡尔威和沃尔特里奥·W。马约尔-奎瓦斯飞机上的忍者：使用视觉SLAM的用于增强现实的物理平面的自动分布。在IEEE/ACM混合和增强现实国际研讨会，ISMAR，第153-156页，2007中。1[5] 戴安琪，天使 X. 放大图片创作者： Thomas A.Funkhouser和Matthias Nießner。Scan-net：室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议上，第2432-2443页二、五、六[6] Erick Delage，Honglak Lee和Andrew Y. Ng.曼哈顿世界室内场景的自动单图像3d重建。机器人研究：第12届国际研讨会成果，ISRR，第28卷，第305-321页，2005年。一、二[7] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器CoRR，abs/2010.11929，2020。3[8] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签 IEEEInternationalConference on Computer Vision ， ICCV ，第 2650-2658页，2015年。5[9] David Ford Fouhey，Abhinav Gupta，and Martial Hebert.展开一个室内折纸世界。在European Conference onComputer Vision，ECCV，第8694卷，第687-702页，2014中。2[10] Kai m ingHe ， Geo r giaGkioxari ， PiotrDol la'r ，andRossB. 娘娘腔。面罩R-CNN。在IEEE国际计算机视觉会议，ICCV，第2980-2988页，2017年。2[11] Ziyu Jiang ， Buyu Liu ， Samuel Schulter ， ZhangyangWang，and Manmohan Chandraker. Peek-a-boo：使用平面表示的室内场景中的遮挡推理。在IEEE计算机视觉和模式识别会议上，CVPR，第110-118页，2020年。1[12] Lei Jin ， Yanyu Xu ， Jia Zheng ， Junfei Zhang ， RuiTang，Shugong Xu，Jingyi Yu，and Shenghua Gao.根据360度室内图像进行基于几何结构的正则化深度估计。在IEEE计算机视觉和模式识别会议上，CVPR，第886-895页，2020年。二、三4196[13] 迪德里克山口金玛和吉米·巴。 Adam：随机最佳化的方法。国际学习表征会议，ICLR，2015年。6[14] Pierre-Alain Langlois，Alexandre Boulch，and RenaudMar- let.由三维线段重建曲面。在3D视觉国际会议上，3DV，第553-563页，2019年。2[15] David C.李、马夏尔·赫伯特和金田武夫单幅图像结构恢复的几何推理。在 IEEE Conference on ComputerVision and Pattern Recognition，CVPR，第2136-2143页，2009中。一、二[16] Yikai Li ， Jiayuan Mao ， Xiuming Zhang ， BillFreeman，Josh Tenenbaum，Noah Snavely，and JiajunWu.具有3d盒先验的多平面在神经信息处理系统，NeurIPS，2020。一、二[17] Justin Liang ，Namdar Homayounfar，Wei-Chiu Ma，Yuwen Xiong ， Rui Hu ， and Raquel Urtasun. 多重变换：深度多边形Transformer，用于实例分割。在IEEE计算机视觉和模式识别会议上，CVPR，第9128-9137页。IEEE，2020年。3[18] Chen Liu ， Kihwan Kim ， Jinwei Gu ， YasutakaFurukawa，and Jan Kautz.Planercnn：从单个图像进行3d平面检测和重建。在IEEE计算机视觉和模式识别会议上，CVPR，第4450-4459页，2019年。一、二、六[19] 刘晨，杨集美，杜伊古·锡兰，埃尔辛·尤默，古川雅秀.Planenet：从单个RGB图像进行逐段平面重建。在IEEE计算机视觉和模式识别会议，第2579- 2588页一、二、五、六[20] LingniMa，ChristianKerl，Jo¨rgStu¨ ckler，andDanielCre-mers.CPA-SLAM：用于直接RGB-D SLAM的一致平面模型对准在IEEE机器人与自动化国际会议，ICRA，第1285-1291页，2016年。1[21] Branislav Micus 'ık ， Horst Wildenauer ， and MarkusVincze.室内环境的单目图像中的正交平面的检测在IEEE机器人与自动化国际会议，ICRA，第999-1004页，2008中。一、二[22] Alejandro Newell，Zhiao Huang，and Jia Deng.关联嵌入：用于联合检测和分组的端到端学习。在神经信息处理系统中，NeurIPS，第2277-2287页，2017年。2[23] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zeming Lin 、 Natalia Gimelshein 、 LucaAntiga 、 AlbanDesmaison 、 AndreasK¨pf 、 EdwarYang 、 ZacharyDeVito 、 MartinRai-son 、 AlykhanTejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chintala。Pytorch：命令式的高性能深度学习库。在神经信息处理系统进展32：神经信息处理系统年度会议2019，NeurIPS 2019，2019年12月8日至14日，温哥华，BC，加拿大，第8024-8035页，2019年。6[24] 钱一鸣和古川康孝。学习用于分段平面

下载后可阅读完整内容，剩余1页未读，立即下载