没有合适的资源?快使用搜索试试~ 我知道了~
3866室外建筑改造热输入图像输出平面图室内平面重建热输入图像输出平面图HEAT:用于结构化重建的整体边缘注意力Transformer陈嘉诚1钱一鸣2 古川泰11西蒙弗雷泽大学2曼尼托巴大学图1.HEAT以2D光栅图像作为输入,并通过基于端到端Transformer的神经架构重建平面图,例如,从卫星图像到室外建筑结构,或从点密度图像到室内平面图。摘要本文提出了一种新的基于注意力的结构化重建神经网络,它以二维光栅图像作为输入,并重建一个平面图描绘一个潜在的几何结构。该方法以端到端的方式检测角点并对角点之间的边缘候选进行我们的贡献是一个整体的边缘分类架构,该架构1)通过其端点的三角位置编码来描述边缘候选的特征;2)通过可变形注意力将图像特征融合到每个边缘候选;3)采用两个权重共享的Trans- former解码器来学习图边缘候选的整体结构模式;以及4)使用掩码学习策略进行训练。角点检测器是边缘分类架构的变体,适于对作为角点候选的像素进行操作我们在两个结构化重建任务上进行了实验广泛的定性和定量评估证明了我们的方法优于最先 进 的 方 法 。 代 码 和 预 训 练 模 型 可 在 https :structured-reconstruction.github.io/上获得1. 介绍人类视觉在整体结构推理方面具有显著的能力。看看图1中的建筑,我们可以毫不费力地识别出结构基元(例如,构建角和边)以及它们的关系。计算机视觉研究的一个基本挑战是获得这种人类水平的感知能力,并最终从图像中重建整体几何结构,这将对更广泛的领域产生巨大影响,如视觉效果,建筑,制造和机器人。自从深度神经网络(DNN)出现以来,几何重建在低级原始检测任务(例如,角落和边缘)通过在大型注释数据集上训练DNN [24,25,29,31]。然而,整体结构推理(例如,从角候选的图推断)对于端到端神经体系结构仍然是一个挑战。性能远低于人类视觉[26],并且劣于经典优化或搜索方法[4,17,22]。本文旨在推动结构化重建的端到端神经架构的前沿,特别是,我们专注于从光栅传感器数据推断室外建筑结构或室内平面图作为2D平面图我们的方法类似于最先进的基于Transformer的用于对象/边缘检测的架构DETR/LETR [3,24]。它们通过ConvNet提取图像信息,并通过交叉注意传递到Transformer解码器中的我们的实验表明,它们不能有效地学习目标对象/边缘的结构规律。我们的想法是类似的和简单的,但产生更强大的整体结构推理。对于边缘检测,不是创建3867其端点的编码[23]; 2)通过自适应的可变形注意力机制[32]将来自ConvNet主干的多尺度图像特征融合到每个边缘候选者,并过滤出边缘候选者; 3)通过两个权重共享的Transformer解码器学习边缘的结构模式,其中一个解码器仅看到位置编码(w/o图像特征)以增强几何学习;以及4)采用掩码学习策略[6]进行端到端训练和迭代推理。边缘分类架构的简单适应是我们的角点检测器,它进一步提高了性能。我们已经评估了所提出的方法上的两个结构重建基准:室外建筑重建从卫星图像和室内平面图重建从点云密度图像。定性和定量的评价表明,我们的方法优于所有的竞争方法的户外重建任务。对于室内重建任务,我们的方法优于所有全神经方法,并且与特定领域的解决方案[4,22]相当,后者在使用优化和搜索的情况下慢了1000多倍。2. 相关工作我们将结构化重建算法分为三组:经典技术、支持深度学习的混合方法和端到端神经系统。2.1. 经典技术结构化几何重建一直是计算机视觉研究的一个活跃领域,将光栅传感器数据转换为矢量化几何,包括线框、平面[8,21]、房间布局[5,12]、平面图[2]和多边形回路[9]。传统方法依赖于低级图像处理技术,例如霍夫变换[1,16]或超像素分割[19]。还提出了更复杂的求解器,例如,基于用于平面重建的图切割的图形模型推理[8,21],用于平面图恢复的动态编程[2]和用于房间布局估计的贝叶斯网络[5]。这些方法涉及大量的启发式方法或手动调整的参数。2.2. 混合方法随着神经网络的发展,深度学习已经成为矢量几何重构的事实上的机器。许多现有技术的系统采用两级流水线,其中神经网络首先检测低级原语(例如,角、边、区域段),然后优化技术将它们组装成最终模型[15,18,33]。 Nauata等人[17]和FloorSP [4]依赖于在MaskR-CNN [10]上进行基元检测并应用优化技术(例如,整数规划)分别将室外建筑和室内平面图重构为平面图。MonteFloor [22]采用类似的检测框架,同时采用Monte Carlo树搜索用于重建图形结构。尽管有效,优化/搜索需要手工设计特定于域的算法,并且在测试时慢几个数量级Zhang等人最近的方法。迭代探索和分类步骤以搜索更好的解决方案[27],而我们的方法更快,性能更好。2.3. 端到端神经系统端到端神经架构需要较少的手工工程,并实现快速推理。对于线框解析任务[13],L-CNN [30]采用似然预测卷积网络(ConvNet)进行连接点检测,然后使用边缘验证网络对每条候选线进行分类。PPGNet [28]和HAWP [25]也使用两阶段框架作为L-CNN,同时提出更高级的模型设计。Zhou等[31]通过估计深度和消失点以及几何图元将线框任务扩展到3D。这些技术独立处理ConvMPN是一种特殊的图神经网络,设计用于平面图重建[26],而我们基于注意力的架构产生了更好的结果。最近基于transformer的对象检测器DETR [3]的成功也被LETR [24]扩展到线框解析。DETR/LETR利用“虚拟节点”作为用于存储检测答案的占位符,并且避免基于启发式的步骤,如非最大抑制。我们的方法在所有边缘候选者而不是虚拟节点上设计解码器和训练策略,并展示了更有效的整体结构推理。3. 预赛本文借用文献中的两个结构化架构重构任务来演示我们的方法,它们是推断平面图(即,角和边),其描绘给定2D光栅图像的建筑结构室外建筑重建借鉴了Nauata等人的作品。[17 ]第10段。裁剪的卫星图像是输入,包含巴黎、拉斯维加斯或亚特兰大的一座建筑物输出平面图描绘了屋顶结构,其中每个平屋顶组件由边缘限定(参见图1)。这些图像来自SpaceNet Challenge [7],并在CC BY-SA 4.0许可证下分发。该数据集包含1601,50和350个样本,分别用于训练,验证和测试角落/边缘/区域基元的精确度/召回率/F-1分数是他们工作中的度量[17]。这个任务比下面的平面布置任务更具挑战性,因为卫星图像遭受透视失真,并且曼哈顿假设不成立。此外,屋顶组件不能可靠地提取的实例分割技术。在地板上-3868×××××1 1 22×边坐标特征边缘图像特征边缘融合特征位置编码Transformer模块可选模块加权和图2.(一). HEAT的总体结构包括三个步骤:1)边缘节点初始化; 2)边缘图像特征融合和边缘滤波; 3)采用两个权值共享的Transformer解码器进行整体结构推理(b). 图像边缘节点特征融合模块。(c)。边缘Transformer解码器。对于仅几何(geom-only)解码器,f被fcoord代替,并且图像特征融合模块(灰度部分)被丢弃。为了简单起见,省略了(b)和(c)中的加法范数层。计划任务,房间可以很容易地被检测到,这是利用最先进的平面图重建技术[4,22]。输入图像裁剪的分辨率为256 256或512 512。图中角和边的平均/最大数量分别为12.6/93和14.2/101。平面图重建将室内场景的平面图从顶视图中的点云密度图像恢复为平面图[4,22]。特别是,我们采用Structured3D数据集[29],将每个场景的注册多视图RGBD全景图像转换为点云,将3D点投影到XY图像平面,并生成256 256密度图像,其中每个像素是归一化后投影点的数量(见图1)。该基准测试包含总共3500个场景(3000/250/250用于训练/验证/测试),具有涵盖曼哈顿和非曼哈顿布局的各种房屋跨所有布图规划图 的 角 和 边 的 平 均 / 最 大 数 量 根 据 最 近 的 工 作MonteFloor [22],我们使用相同的热的适应。输入图像是256 256或512 512,其中我们解释了在前一种情况下的架构参数。在后一种情况下,ConvNet功能的空间分辨率只是变成了两倍,而架构的其余部分保持不变。我们将完整的网络规范参考补充说明。4.1. 边缘节点初始化我们首先通过角点检测器从输入图像中检测一组候选角点(见4.5节)。每对角点都是边缘候选,并成为一个trans-former节点,其特征fcoord由256维三角位置编码初始化[23]:f坐标=Mcoord[γ(ex),γ(ey),γ(ex),γ(ey)],γ(t) 为 [sin(w0t),cos(w0t),···sin(w31t),cos(w31t)],wi=(1/10000)2i/32(i=0,1,···31)。e1和e2是两个角。ex(resp. ey)表示x 1 1以房间/角落/角度的查准率/查全率作为评价指标。注意,度量需要一组闭合多边形用于评估。因此,不是闭合多边形的一部分的边在计算度量之前被丢弃。4. 整体边缘注意力Transformer整体边缘关注Transformer (HEAT)包括三个步骤:1)边缘节点初始化; 2)图像特征融合和边缘滤波;以及3)用于结构推理的整体边缘自关注(参见图2)。本节解释了这三个步骤,然后描述了4)训练/推理方案,以及5)角点检测器,(分别y)e1的坐标。Mcoord是一个256 256可学习的线性映射矩阵。函数γ编码包括坐标之间的相对距离的有序先验。4.2. 图像特征融合与边缘滤波我们通过适应变形注意力技术将图像特征注入每个边缘节点,该技术最初是为变形DETR中的对象检测而开发的[32]。该技术能够自适应地关注图像特征,而现有的边缘特征初始化技术沿着边缘均匀地采样像素[25,30]。我们使用ResNet [11]主干和从deformable-DETR [32]借来的Transformer编码器来构建一个3-(一). HEAT整体架构图像编码器2B图像感知 解 码器✕✓(b). 边缘图像特征融合△✓免费WiFi吉吉(b)第(1)款✓(c)。边缘解码器3(b)第(1)款角点检测(b)第(1)款✓✕✓免费WiFi✕✓✓1免费WiFi仅限Geom的解码✕✓✕(b)第(1)FFNFFNFFN自助FFN骨干⋯⋯⋯3869···=Maggagg4imgΣΣB水平图像特征金字塔,其形状分别为64x64x256、32x32x256和16x16x256。对于特征金字塔的每个级别l(=1,3),我们使用fcoord来生成边缘周围的采样位置,以及它们用于聚合的注意力权重:L llocfcoord,(1)wl=softmax. Mlf坐标(二)勒洛克Ml是特征级别L的可学习权重。对于特征级别l,softmax包含相对于边缘中心的四个2D采样偏移,并且wl是在所有级别上的softmax之后的对应注意力权重,并且样品图像特征fimg 在每个边缘处,由下式给出:fimg=0 wl(i)Llimge1+ e22l+2 + (i)2升+1图3. (Top)Masked Edge学习策略(底部)第一次迭代时的迭代边缘推断。l=1i=1fimg是256维向量。ML(三)是一个可以学习的重量图像特征融合模块(图2c中灰色部分)。解码器被迫仅用几何信息来解决任务,增强整体几何推理和L级矩阵。B1表示其特征映射的级别l处的特征映射。特征金字塔请注意,我们还采用了8路多头注意力策略。最后,我们通过标准的加法范数层和前馈网络(FFN)获得融合特征f,如原始Transformer[23]中所述:f= FFN(Add& Norm(fimg,fcoord))。( 4)我们在图2b中说明了图像特征融合模块。过滤边缘候选:Transformer是内存密集型的,我们通过将f传递给2层MLP,然后是S形函数并计算置信度得分来过滤掉不好的候选我们保留前K个候选人,其中K是角落候选人数量的三倍这种过滤通常需要几千个候选人,然后减少到几百个。该模块使用具有二进制交叉熵(BCE)损失的网络的其余部分进行训练我们总共有四个BCE损失,并参考第。五是平衡重。4.3. 整体边缘解码器HEAT采用两个权重共享的Transformer [23]解码器来对每个边缘候选进行正确或错误的分类。图像感知解码器:第一解码器将每个边缘候选的融合特征f作为节点。 该网络包含六层(自关注、边缘图像特征融合模块和前馈网络),具有8路多头关注(见图)。2c)。BCE是损失函数。仅几何解码器:第二个解码器具有完全相同的架构,并共享权重,而我们禁用图像信息的使用首先,我们传递坐标特征fcoord作为初始化,它没有图像信息。其次,这个解码器没有通过权重共享提高图像感知解码器的性能。该解码器使用BCE损失进行训练,而只有图像感知解码器用于测试时间结果。4.4. 掩蔽训练和迭代推理虽然所提出的架构与香草监督学习配合良好,但受BERT [6]中的掩蔽语言建模启发的掩蔽学习策略可以进一步鼓励结构模式的学习并提高性能。这个想法是随机地为一些边缘候选者提供地面实况(GT)标签,并且只要求推断缺失的标签(参见图3)。每个边缘候选者具有三种状态之一:(T)GT标签被给定为真;(F)GT标签被给定为假;或(U)GT标签是未知的,网络需要推断。我们稍微修改架构以注入状态信息。具体来说,我们将状态表示为一个独热编码向量,通过线性层转换为256维,与fcoord连接,并通过另一个线性层缩小到256维。在训练过程中,我们从[0,0.5]中统一选取一个比率,并根据该比率为随机采样的边缘候选者提供GT标签在测试时,我们使用图像感知解码器执行迭代标签推断。在第一次迭代时,状态掩码包含所有U标签(图3)。对于第二次迭代,置信度预测小于0.01的边缘(分别为大于0.9)将具有F(相应地,T)标签,而其余的将具有U标签。在最后一次迭代中,阈值0.5用于产生最终预测。我们将所有实验的迭代次数设置为3。4.5. 角点检测器HEAT适用于任何角落探测器。我们发现,不蒙面训练∅∅边缘解码器0.6推理(第一次迭代)0.950.42不 G.T. 真FF G.T. 假UU未知U不UU掩模U边缘解码器一代0.01F⋯⋯⋯⋯⋯⋯⋯M3M.3870×······××HEAT架构的适配实现了优越的角点检测性能,并进一步改进了边缘分类。具体来说,我们采用HEAT架构直到边缘过滤模块作为角点检测器,因为我们发现自注意并没有改善角点检测。每个像素都是角候选,因此成为Transformer节点。通过像素坐标的位置编码来初始化节点特征,像素坐标是边缘特征的尺寸的一半 因此,我们将Mcoord修改为128 256矩阵,以便架构的其余部分保持不变。应用非最大抑制,并且我们使用0.01来选择角候选,使得重要角不太可能被错过。角点模型也用BCE损失进行训练。详情请参阅补充资料5. 实验我们在Python3.7和Py- torch1.5.1中实现了我们的方法,并使用了一个具有3.4GHz Xeon和双NVIDIA RTX2080 GPU的 工作 站我 们的 图像 编码 器只 包含 一 个Transformer 层 , 而 边 缘 解 码 器 有 六 个 。 我 们 使 用ResNet-50作为主干,以与基于transformer的竞争方法LETR保持一致[24]。三个边缘BCE损失的损失平衡权重都是1.0,而角预测BCE的权重是0.05,0.1分别用于室外和室内任务。我们使用Adam优化器[14]训练我们的模型,初始学习率为2 e-4,权重衰减因子为1 e-5。学习率在最后25%的时期内衰减10倍。参考LETR,我们的训练计划有800个时期,室外重建和基于训练图像的数量请注意,这两个数据集都很小,所以我们设置了一个大的epoch数,而没有超参数搜索,并且相同的设置用于运行竞争方法。HEAT不应用任何后处理来生成最终的平面图。5.1. 竞争方法我们在两个任务上评估所提出的方法(即,室外建筑和室内平面图重建)。对于室外任务,我们比较了五种方法:ConvMPN [26],IP [17],Exp-cls [27],HAWP [25]和LETR [24].前三种方法被证明为相同的户外任务,而后两种方法的线框解析。ConvMPN是一种改进的用于边缘分类的图神经网络,需要预先训练的角点检测器。IP和Exp-cls依赖于大量的优化或搜索过程,以根据神经网络检测到的几何图元重建平面图HAWP[25]是一种最先进的线框解析方法,它是对LCNN [30]的改进,并执行独立的边缘分类。LETR是一个基于transformer的线检测框架,改编自对象检测框架DETR [3]。对于室内任务,我们比较了四种方法:HAWP,LETR,Floor-SP [4]和MonteFloor [22]。HAWP和LETR具有灵活的设计,对于户外任务具有良好的性能,因此再次被选择。Floor-SP是一种具有特定领域系统设计的最先进的布图规划该方法首先使用Mask-RCNN [10]来获得房间分割,并进行复杂的优化过程。MonteFloor是对Floor-SP的改进,其具有专门为平面布置图重建设计的类似算法,其中采用Monte Carlo树搜索算法对于室外和室内任务,我们借用文献中的标准指标进行评估(见第二节)。(3)第三章。我们使用原始论 文 中 报 告 的 数 字 作 为 特 定 领 域 的 基 线 ( 即 ,ConvMPN、IP、Exp-cls、Floor-SP和MonteFloor)。HAWP和LETR使用公开的官方实现。5.2. 定量评价室外建筑改造:表1给出了主要的定量评价。HEAT在所有F-1分数上都优于所有竞争方法,包括IP和Exp-Cls,它们采用昂贵的优化/搜索方法,并且比我们的方法慢几个数量级注意,室外重建任务[17]使用256 256图像,而HAWP和LETR在其原始论文中在更大的图像上进行了演示。因此,我们也在512 512分辨率下进行实验,在那里我们用相同的数据分割调整训练/测试图像的大小。在较高的分辨率,LETR表现出更高的区域度量,但边缘精度差HAWP相比我们的假设是,LETR主要依赖于图像特征,并且不学习“虚拟查询节点”上的整体几何推理热火仍然是一个明显的赢家。平面重建:表2给出了主要的定量评价。HEAT的整体性能超过HAWP、LETR和Floor-SP,与Mon- teFloor不相 上 下 令 人 惊 讶 的 是 , 我 们 的 HEAT 甚 至 可 以 与MonteFloor相媲美MonteFloor的平均推理时间超过一分钟,而我们的方法运行在十几毫秒。5.3. 定性评价室外建筑重建:图4提供了定性比较。HEAT的重建质量明显优于竞争方法,即使在大型复杂的架构上也接近地面实况3871××表1. 户外建筑改造的定量评价。大小:输入图像的大小。全神经:不使用手工优化或搜索技术。联合:边缘预测与角点检测进行端到端青色和橙色标记了具有不同图像大小的前两个结果。评估类型→角边区域方法大小全神经元联合Prec召回F-1Prec召回F-1Prec召回F-1IP [17]256----74.5- -53.1--55.7[27]第二十七话 256--92.275.983.275.460.467.174.954.763.5ConvMPN [26]256✓-78.079.778.857.059.758.152.456.5 54.4[25]第二十五话 256✓✓90.981.285.776.668.172.174.155.463.4LETR [24]256✓✓87.874.880.859.758.659.168.348.7 56.8热(我们的)256✓✓91.783.087.180.672.376.276.465.6 70.6[25]第二十五话 512✓✓90.683.787.078.872.075.277.557.8 66.2LETR [24]512✓✓90.379.784.764.071.667.677.162.6 69.1热(我们的)512✓✓90.786.788.782.277.479.779.669.0 73.9表2. 布图重建的定量评估。MonteFloor和Floor-SP的结果是从Monte-Floor论文中借来的。青色和橙色标记了前两个结果。评估类型→房间转角方法t(s) Prec 召回Prec 召回 Prec召回HAWP [25] 0.02 0.78 0.88 0.66 0.77 0.60 0.70LETR [24] 0.04 0.90 0.800.780.72 0.71热(我们的)0.11 0.97 零点九四0.820.830.78 0.79表3. 不同角/边预测方法的消融研究,用室外重建的角/边/区域F-1评分进行评估图像大小为256 256。联合:角点和边缘预测模型是端到端训练的FRCNN:由ConvMPN提供的预训练Faster-RCNN。HG:HAWP使用的沙漏网络。角模型边缘模型联合角边缘区域FRCNN ConvMPN [26]-78. 8 58. 1 54. 4FRCNN HEAT(Ours)-78.8 68.2 62.5地板-SP [4] 785 0.89 0.88 0.81 0.730.800.72蒙特佛罗里达州[22日]710.960.940.890.770.860.75仔细观察结构,HEAT特别擅长捕捉细节,并保持整体预测的一致性和几何有效性(例如,较少的悬挂边缘,不受背景建筑物的干扰)。平面图重建:图5显示了定性比较。仅对预测平面图的有效多边形着色。与HAWP相比,LETR和HEAT在恢复完整的房间结构方面更好,因为使用Transformer可以实现更好的结构化推理。HEAT在产生精确角度方面仍然优于LETR,这与表2中的数字一致。5.4. 消融研究我们对户外重建任务进行了广泛的消融研究。分离角点和边缘模块:大多数方法是角点检测和边缘选择模块的组合。表3评估了个人捐款。特别是,我们比较了三个角点模型:1)ConvMPN使用和提供的预训练Faster- RCNN[20](FRCNN)2)在LCNN和HAWP中使用的端到端训练的HourGlass(HG)网络;以及3)HEAT(我们的)。第二、第四和第五行共享相同的HEAT边缘模型表4.针对HEAT边缘预测技术组件的消融研究,使用室外重建的边缘/区域F-1评分进行评价。图像大小为256 256。来自ConvMPN的预训练FRCNN用作角点模型。Coord D-attn Decimg 掩模 德琴 边缘区域-✓✓✓✓✓✓-✓✓✓✓---✓✓✓----✓✓-59.2 21.0-62.8 43.5-67.3 48.6-67.3 60.2-68.5 60.7✓68.2 62.5并证明了HEAT角模型在所有F1分数上都有接下来,我们比较三种边缘选择模型:1)ConvMPN; 2)HAWP;3 )HEAT ( 我们 的) 。前 两 行比 较了ConvMPN 和HEAT,两者都使用FRCNN作为角落模型。类似地,接下来的两行比较HAWP和HEAT,同时使用HG作为HAWP使用的角模型该表再次表明,HEAT对所有竞争方法都有明显的Hg[25]第二十五话✓85.7 72.163.4Hg热(我们的)✓85.9 74.369.3热(我们热(我们✓87.1 76.270.63872×·····图4. 室外建筑重建的定性评价与图像大小256 256.选择大型和复杂的样本来展示任务的挑战。补充材料中提供了更多分辨率更高的结果。HEAT系统组件:表4评估了边选择模块中的五个HEAT系统组件。ConvMPN的预训练FRCNN模型用于简单的角点检测。这五列表示:[Coord]具有或不具有边缘坐标信息的节点初始化(即,零向量);[D-attn]用于图像特征提取的边缘变形注意力或来自LCNN的LoI池化[30];[Decimg]图像感知解码器或没有它(即,使用来自边缘滤波的置信度分数进行预测);[掩码]掩码学习和迭代推理或单次训练和推理;以及[Dec仅权重共享几何解码器或单独的图像感知解码器。第一行显示了边缘可变形注意力不能3873图5. 平面图重建的定性评价。在预测的平面图中的闭合多边形被着色,而破碎的多边形不被着色。表5. 使用仅几何解码器的边缘预测,具有不同类型的角。“边缘滤波器”意味着在边缘滤波之后所有剩余的边缘候选。“HEAT(geom)”表示使用仅几何解码器进行推理。“GT”uses ground-truth information to select corner pairs as theanswers, representing the performance upper-bound given the评估类型→边缘区域角点方法PrecRecall F-1 Prec Recall F-1边缘过滤器25.868.5 37.5 3.422.4五点九FRCNNHEAT(geom)63.3 56.5 59.7四十九点七44.346.8热77.560.9 68.2七十四点七53.8六十二点五GT83.666.874.2 80.463.470.9边缘滤波器38.599.955.65.835.910.0GTHEAT(geom)91.6 92.6 91.9七十一点九76.274.0热96.693.8 95.2九十一点八84.588.0GT 100100100 100100 100在没有适当的坐标特征的情况下工作良好表中的其他行验证组件的贡献,这些组件始终改进度量。仅几何解码器:表5示出了仅进行几何推理而没有任何图像信息的仅几何解码器具体来说,我们比较了四种边缘选择结果的性能:边缘滤波、仅几何解码器、图像感知解码器(全HEAT)和地面实况(GT),同时使用FRCNN或GT角点进行角点检测。图6.两个重建任务的典型故障模式仅几何解码器相对于作为解码器的输入的边缘滤波做出显著最引人注目的结果是,具有GT角的仅几何解码器比具有FRCNN角的HEAT全系统好得多。结果表明,HEAT学习进行强大的整体几何推理。局限性图6显示了HEAT的失效模式该模型仍然错过了重要的角落,即使有一个小的阈值,导致进一步的错误,在边缘预测。稀有结构(例如,左下角的L形建筑物)也是挑战。我们不接触三维结构化重建(例如,3D线框解析任务[31])与热,这可能是一个潜在的未来的工作。更多定性可视化和定量消融研究请参见补充资料(例如,迭代推断的细节、位置编码的选择等)。6. 结论本文介绍了一种新的注意力神经网络,它采用二维光栅图像,并重建一个平面图描绘底层的几何结构。HEAT检测角点,并学习利用图像信息和边缘候选人之间的几何图案,在重建平面图。该方法的技术核心是两个权值共享的Transformer译码器。整个系统使用屏蔽学习策略进行端到端训练,并在测试时执行迭代推理定性和定量评估表明,我们的方法推动了端到端神经架构的结构化重建的前沿。广泛的消融研究进一步证明了设计选择的合理性。我们将分享我们的代码和模型。潜在的负面社会影响:户外重建可能有助于军事任务的卫星成像室内平面图估计可能会在未经用户许可的情况下引发对房屋扫描的隐私问题鸣谢:该研究由NSERC发现补助金,NSERC发现补助金加速器补充和DND/NSERC发现补助金支持。3874引用[1] 安东尼奥·阿丹和丹尼尔·胡贝尔。遮挡和杂乱情况下内墙表面的三维重建2011年国际3D成像、建模、处理、可视化和传输会议,第275IEEE,2011年。2[2] Ricardo Cabral和Yasutaka Furukawa从图像的分段平面和紧凑布局重建。在2014年IEEE计算机视觉和模式识别会议(CVPR)中,第628-635页。IEEE,2014。2[3] Nicolas Carion 、 Francisco Massa 、 Gabriel Synnaeve 、Nico-lasUsunier 、 AlexanderKirillov 和 SergeyZagoruyko。使用变压器进行端到端对象检测。ArXiv,abs/2005.12872,2020。一、二、五[4] Jiacheng Chen , Chen Liu , Jiaye Wu , and YasutakaFurukawa.Floor-sp:通过顺序房间最短路径进行平面布置图的逆向cad。2019 IEEE/CVF计算机视觉国际会议(ICCV),第2661-2670页一二三五六[5] Erick Delage,Honglak Lee和Andrew Y Ng。室内单幅图像自主三维重建的动态贝叶斯网络模型。在2006年IEEE计算机学会计算机视觉和模式识别会议(CVPR),第2卷,第2418-2428页。IEEE,2006年。2[6] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:用于语言理解的深度双向变换器的预训练。 在NAACL,2019年。 二、四[7] Adam Van Etten,David Lindenbaum和Todd M.Bacastow.Spacenet:遥感数据集和挑战系列。ArXiv,abs/1807.01232,2018。2[8] Yasutaka Furukawa,Brian Curless,Steven M Seitz,andRichard Szeliski.曼哈顿世界立体声。2009年IEEE计算机视觉和模式识别会议(CVPR),第1422-1429页IEEE,2009年。2[9] Lucile Gimenez 、 Jean-Laurent Hippolyte 、 SylvainRobert、Frédéric Suard和Khaldoun Zreik。从2D扫描平面图重建3D建筑物信息模型建筑工程杂志,2:24-35,2015。2[10] Kaiming He,Georgia Gkioxari,Piotr Dollár,and RossB.娘娘腔。面具R-CNN。IEEE Transactions on PatternAnalysis and Machine Intelligence,42:386-397,2020。二、五[11] 何开明、X. Zhang,Shaoqing Ren,and Jian Sun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议(CVPR),第770-778页,2016年。3[12] Varsha Hedau,Derek Hoiem,and David Forsyth.恢复杂乱房间的空间布局。2009年IEEE第12届国际计算机视觉会议(ICCV),第1849-1856页。IEEE,2009年。2[13] 黄昆、王亦凡、周梓涵、丁天娇、高生华和易马。学习解析人造环境图像中的线框。2018年IEEE/CVF计算机视觉和模式识别会议,第626-635页,2018年。2[14] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。CoRR,abs/1412.6980,2015。5[15] 刘晨,吴嘉俊,Pushmeet Kohli,和Yasutaka Fu-rukawa.栅格到矢量:重新审视平面布置图转换。在IEEE计算机视觉国际会议(ICCV)的会议记录中,第2195-2203页2[16] Josep Lladós,Jaime López-Krahe,和Enric Martí。利用子图同构与霍夫变换来理解手绘平面图的系统机器视觉与应用,10(3):150-158,1997年。2[17] Nelson Nauata和Yasutaka Furukawa。矢量化世界建筑物:通过图元检测和关系推理重建平面图形在ECCV,2020年。一、二、五、六[18] 钱一鸣和古川康孝。学习用于分段平面重建的成对平面间关系。欧洲计算机视觉会议(ECCV),第330-345页。Springer,2020年。2[19] Qin Qin , Shida He , Xiucheng Yang , MasoodDehghan,Qiming Qin,and Jagersand Martin.从高分辨率光 学 图 像 中 精 确 提 取 单 个 建 筑 物 的 轮 廓 。 IEEEGeoscience and Remote Sensing Letters , 15 ( 11 ) :1775-1779,2018。2[20] 任少卿、何开明、罗斯·格尔希克、孙健。Faster r-cnn:Towards real-time object detection with region proposalnetworks. 神经信息处理系统进展(NeurIPS),28:91-99,2015。6[21] Nathan Silberman、Derek Hoiem、Pushmeet Kohli和RobFergus。室内分割和支持从rgbd图像推断欧洲计算机视觉会议(ECCV),第746-760页Springer,2012. 2[22] Sinisa Stekovic,Mahdi Rad,Friedrich Fraundorfer,andVin- cent Lepetit.Montefloor:用于重建精确的大比例平面图的扩展模块。2021年IEEE/CVF国际计算机视觉会议(ICCV),2021年。一二三五六[23] Ashish Vaswani , Noam Shazeer , Niki Parmar , JakobUszkoreit,Llion Jones,Aidan N.戈麦斯,卢卡斯凯泽,伊利亚·波罗苏欣。注意力是你所需要的。NeurIPS,2017。二、三、四[24] Yifan Xu,Weijian Xu,David Cheung,and Zhuowen Tu.使用没有边缘的变压器的线段检测在CVPR,2021年。一、二、五、六[25] Nan Xue , Tianfu Wu , Song Bai , Fudong Wang ,Guisong Xia,Liangpei Zhang,and Philip H.S.乇整体吸引线框解析。2020 IEEE/CVF计算机视觉和模式识别会议,第2785-2794页,2020年。一二三五六[26] Fuyang Zhang,Nelson Nauata,and Yasutaka Furukawa.Conv-mpn:用于结构化户外建筑重建的卷积消息传递神经网络。2020 IEEE/CVF计算机视觉和模式识别会议(CVPR),第2795-2804页,2020年。一、二、五、六[27] 张富阳,徐翔,纳尔逊Nauata,和Yasutaka Fu- rukawa.通过探索和分类进行结构化户外建筑改造。IEEE/CVF计算机视觉国际会议(ICCV),2021年。二、五、六[28] 张子恒、李正新、毕宁、郑佳、王金磊Ppgnet:学习点对图进行线段检测。3875在IEEE/CVF计算机视觉和模式识别会议(CVPR)的会议记录中,第7105-7114页,2019年。2[29] 郑佳,张俊飞,J.Li,Rui Tang,Shenghua Gao,andZihan Zhou.Structured3d:用于结构化3D建模的大型照片级真实感数据集在ECCV,2020年。第1、3条[30] Yichao Zhou,Haozhi Qi,and Yi Ma.端到端线框解析。2019 IEEE/CVF计算机视觉国际会议(ICCV),第962-971页,2019年。二三五七[31] Yichao Zhou,Haozhi Qi,Yuexiang Zhai,Qi Sun,ZhiliChen,Li yi Wei,and Yi Ma.学习从单个图像重建3dmanhat-tan线框。2019 IEEE/CVF国际计算机视觉会议(ICCV),第7697-7706
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功