GAT-CADNet：用于CAD绘图中全景符号识别的图形注意力网络

4 浏览量更新于2023-10-25 收藏 15.98MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Spotting graphical symbols from the computer-aided de-sign (CAD) drawings is essential to many industrial appli-cations. Different from raster images, CAD drawings arevector graphics consisting of geometric primitives such assegments, arcs, and circles. By treating each CAD draw-ing as a graph, we propose a novel graph attention net-work GAT-CADNet to solve the panoptic symbol spottingproblem: vertex features derived from the GAT branch aremapped to semantic labels, while their attention scores arecascaded and mapped to instance prediction. Our key con-tributions are three-fold: 1) the instance symbol spottingtask is formulated as a subgraph detection problem andsolved by predicting the adjacency matrix; 2) a relativespatial encoding (RSE) module explicitly encodes the rel-ative positional and geometric relation among vertices toenhance the vertex attention; 3) a cascaded edge encod-ing (CEE) module extracts vertex attentions from multiplestages of GAT and treats them as edge encoding to predictthe adjacency matrix. The proposed GAT-CADNet is intu-itive yet effective and manages to solve the panoptic sym-bol spotting problem in one consolidated network. Exten-sive experiments and ablation studies on the public bench-mark show that our graph-based approach surpasses exist-ing state-of-the-art methods by a large margin.117470GAT-CADNet：用于CAD绘图中全景符号识别的图形注意力网络0郑兆华1,2*，李建方2*，朱凌杰2，李红华2，Frank Petzold1，谭平2,3†01 德国慕尼黑工业大学，2 阿里巴巴集团，3 西蒙菲莎大学0{zhaohua.zheng,petzold}@tum.de，{wuhui.ljf}@alibaba-inc.com0{lingjie.zhu.me, howard.hhli}@gmail.com, {pingtan}@sfu.ca0摘要01. 引言0计算机辅助设计（CAD）是使用计算机生成产品的数字2D或3D图示，帮助设计和制造过程中的创建、修改、分析或优化。这项技术已广泛应用于现代建筑、工程和建筑（AEC）行业。CAD绘图通常以矢量图形的形式呈现，由线段、弧线和圆等几何基元组成。我们将每个CAD绘图视为一个图形，提出了一种新颖的图形注意力网络GAT-CADNet来解决全景符号识别问题：从GAT分支派生的顶点特征映射到语义标签，而它们的注意力分数被级联并映射到实例预测。我们的主要贡献有三个方面：1）将实例符号识别任务定义为子图检测问题，并通过预测邻接矩阵来解决；2）相对空间编码（RSE）模块明确编码顶点之间的相对位置和几何关系，以增强顶点注意力；3）级联边编码（CEE）模块从多个GAT阶段提取顶点注意力，并将其作为边编码来预测邻接矩阵。所提出的GAT-CADNet直观而有效，能够在一个统一的网络中解决全景符号识别问题。对公共基准测试的大量实验和消融研究表明，我们基于图形的方法在很大程度上超过了现有的最先进方法。0* 相等贡献。†通讯作者。0（a）CAD绘图（b）全景符号识别0（c）重建的BIM模型0图1.平面图的一小块区域（a）及其全景符号识别结果（b），其中线条语义以颜色编码，实例以半透明矩形呈现。可以从这样的标注平面图中重建具有完整语义和准确几何的BIM模型（c）。为了清晰起见，我们只显示了墙壁、窗户和门的3D模型。0通常通过基本几何原语（例如线段、弧线、圆和椭圆）来传达产品设计的准确几何、丰富语义和领域特定知识，如图1a和1b所示。从CAD绘图中识别和识别符号是理解其内容的第一步，对于许多实际工业应用至关重要。例如，建筑信息建模（BIM）在各种建筑工程领域需求不断增长，如管道布置、施工检查和设备维护。平面图通常包含一个楼层的完整细节，以正交的自上而下的视图呈现。因此，可以从一组具有准确语义和实例注释的2D平面图精确重建BIM模型，如图1c所示。传统的符号识别通常处理表示可计数物品的实例符号[32]，如桌子、沙发和床。根据[23]的思路，Fan等人[15]扩展了定义，识别不可计数的物品的语义，并将其命名为全景符号识别，如图2所示。因此，CAD绘图中的所有组件都在一个任务中一起处理。例如，由一组平行线表示的墙壁被[15]正确处理，但被[27,28,33,35]视为背景。高质量注释的大规模数据集是监督方法在深度学习中取得最新进展的基本要素，例如ImageNet用于图像分类，COCO用于图像检测，ShapeNet用于3D形状分析。用于平面图符号识别的现有数据集，即SESYD和FPLAN-POLY，要么是合成的，要么是不准确的，两者都只有几百个样本。Fan等人[15]构建了第一个大规模真实世界的FloorPlanCAD数据集，包含超过10,000个矢量图形形式的平面图，并提供了线条级别的全景注释。CAD绘图由领域特定项组成，通常由抽象符号表示。人类对CAD绘图的感知通常是一个多模态的跨上下文参考过程，需要强大的领域相关知识。与此同时，符号的大类内变异和小类间差异使计算机面临更具挑战性的任务，如图3所示。将CAD绘图表示为基元图是保留矢量图形属性的直观方法，在[15]中已被证明对于语义符号识别任务是有效的。在这项工作中，我们提出了一种新颖的图形注意力网络GAT-CADNet来解决全景符号识别问题。该网络在公开基准测试中取得了最先进的成果。117480单门厕所0浴缸0窗户0墙壁0单门厕所0浴缸0窗户墙壁0图2.浴室中全景符号识别的示意图。可计数物品的符号（a），不可计数的物品，例如墙壁（b）。[15]提出的全景符号识别方法考虑了统一的符号类型（c）。0如管道布置、施工检查和设备维护等领域，CAD绘图通常以基本几何原语（如线段、弧线、圆和椭圆）表示领域特定项。人类对CAD绘图的感知通常是一个跨上下文的多模态参考过程，需要强大的领域相关知识。与此同时，符号的大类内变异和小类间差异使计算机面临更具挑战性的任务，如图3所示。将CAD绘图表示为基元图是保留矢量图形属性的直观方法，在[15]中已被证明对于语义符号识别任务是有效的。在这项工作中，我们提出了一种新颖的图形注意力网络GAT-CADNet来解决全景符号识别问题。该网络在公开基准测试中取得了最先进的成果。0（a）桌子。0（b）墙壁、窗户、飘窗和幕墙以红色高亮显示。0图3.公共FloorPlanCAD数据集中的类间差异（a）和类内相似性（b）。0性能和我们的主要贡献是：0•我们将实例符号识别任务形式化为子图检测问题，并通过预测邻接矩阵来解决它。0•我们明确编码了顶点之间的相对关系，使用相对空间编码（RSE）模块增强了顶点注意力。0•我们将顶点注意力视为预测邻接矩阵的边编码，并设计了级联边编码（CEE）模块来聚合多个GAT阶段的顶点注意力。02. 相关工作0在本节中，我们简要总结了相关领域的方法，包括符号识别、全景分割、图神经网络和注意力。0符号识别。它是从图像或文档中找到目标符号的过程[35,37]。光学字符识别（OCR）可以看作是符号来自标准字符集的特殊情况。传统的非数据驱动方法通常设计手工制作的描述符[27, 28,35]，然后通过滑动窗口或图匹配方法[12-14]将查询符号与文档匹配。随着深度学习的发展，数据驱动的方法[15,33]在各种数据集上取得了更好的结果[9, 34]。0全景分割。在计算机视觉领域，目标检测通常指的是从图像中识别出可数的物体，如猫、狗和汽车[17, 24,25]。另一方面，语义分割是将图像分割成多个区域，而不区分具有相同语义的实例[5,40]。然而，有一些不可数的物品只有语义而没有实例，比如天空、道路和人行道[4, 5,36]。全景分割首次由Kirillov等人[23]引入，将117490图4. 图形基元（弧线、圆和椭圆）的段近似显示为虚线。0可数的实例物体和不可数的物品作为一个视觉识别任务[22,23,44]。Chen等人[6]通过语义分割分支和实例分割分支之间的双向路径提高了全景分割的质量。Wu等人[43]构建了模块化的图结构来推理它们之间的关系。受到[23]的启发，Fan等人[15]将传统的符号识别问题进行了泛化，并将可数的物体和不可数的物品符号视为一个识别任务。他们还提供了一个合理的评估指标和一个良好注释的公共数据集。0图神经网络。由Thomas等人[20]提出的图卷积网络（GCNs）通过局部一阶近似谱图卷积直接在图上操作。为了使传统神经网络能够在图上进行训练，Zhang等人[47]对图顶点进行了一致的排序。Ying等人[46]引入了一种可微分的图池化模块，可以生成图的分层表示。一些工作[15, 16,41]尝试融合图像特征以增强GCNs。Thomas等人[21]提出了图自编码器（GAE）和变分图自编码器（VGAE），其中顶点特征用于恢复邻接矩阵。0注意。Transformer已经将机器翻译和自然语言处理提升到了一个更高的水平[8, 19, 42,45]。这一成功激发了自注意力网络在各种图像感知任务中的发展[11, 18, 29,48]。Bello等人[1]通过相对自注意力增强了CNN，将全局信息整合到网络中。Dosovitskiy等人[11]将图像切割成网格块，并在序列上应用注意力。Vaswani等人[39]提出了对于序列数据具有置换不变性的自注意力。在同一篇论文中，他们还为网络添加了位置嵌入。在长序列的情况下，Dai等人[8]发现注意力矩阵通常是稀疏且局部聚焦的。因此，他们提出了一种编码相对位置而不是绝对位置的方法。03. 方法论0我们的GAT架构以矢量图形的CAD绘图作为输入，并预测其中每个几何基元的语义和实例属性。0v 70v 00v 1 v 2 v 50v 3 v 40v 60图5. 图构建：蓝色点表示顶点v i，红色箭头是从v 0开始的边缘。请注意，由于它们的接近性（橙色区域是v 0的ϵ包络），v 1、v 2和v 3与v 0 相连，而v 6与v 0相连是因为它们的共线性。03.1. 图构建0为一个输入CAD绘图构建一个图G = (V, E)，其中顶点v i ∈V是几何基元的线段近似。弧的线段近似是连接其起始点和终点的线段，而水平直径或长轴是圆和椭圆的近似，如图4所示。这样的简化是可以接受的，因为线段在CAD绘图中占据了大多数。如果两个顶点v i和v j之间的距离dij低于某个阈值ϵ，则添加连接它们的边缘，其中：0d ij = min p ∈ v i, q ∈ v j ∥ p - q ∥. (1)0由于CAD绘图通常由专业人员绘制，以描绘具有强烈规律性的人造物体，因此我们为共线的基元添加了额外的边缘。为了保持图的复杂性较低，每个顶点最多允许K条边缘，通过随机删除。图5展示了围绕门符号进行的图构建，只显示了从v 0 开始的边缘。在后续的实验中，我们设置ϵ = 300mm和K = 30。0实例和子图。可计数的事物（例如桌子或门）的实例符号通常由一组局部连接的基元组成。自然地，一个实例对应于一个连接的子图G k �G。因此，我们将实例符号定位任务形式化为一个子图检测问题，可以通过预测邻接矩阵来解决。0顶点特征。我们将顶点特征定义为v i ∈ R 7，如下所示：0v i = [cos(2α i), sin(2α i), l i, t i], (2)0其中α i ∈ [0, π)是从x正轴到v i 的顺时针角度，l i 表示v i的长度。注意，当α在0和π之间跳跃时，我们的方向特征是连续的。我们将基本类型（线段、弧、圆或椭圆）编码为一个独热向量t i ∈ R 4，以弥补线段近似的缺失信息。.........gij = [∥ij, ⊥ij, ¬ij] ,(5)eij = δij, ∡ij, rij, gij .(6)v0i = Concat(ˆvi, MaxPooling({ˆeij})).(7)R = MLP(E),(8)Ash = QhKTh ,(9)As = Concat(As1, . . . , AsH).(10)117500CAD绘图全景预测0图构建0一个MLP0顶点特征0RSE模块0CEE模块0边缘特征MLP0MLP0后处理0C0GAT阶段语义头实例头连接 C 添加 A 聚合 A0S0I0图6. 提出的GAT-CADNet的架构。中间分支包括由灰色块组成的主要GAT阶段，后面是语义和实例符号识别头。上面的蓝色分支是RSE模块，下面的橙色分支是CEE模块。0边缘特征。除了顶点特征外，我们还明确编码了两个顶点之间的关系作为边缘特征。从v i到v j的位置偏移δ ij定义为：0δ ij = m j - m i, (3)0其中m i是v i的中点。方向偏移� ij定义为v i和vj之间的锐角。v i和v j之间的长度比率计算如下：0r ij = l i0l i + l j. (4)0如图1所示，并在[15]中报道，两条线段之间的平行性和正交性在CAD绘图中是常见的，并且起着至关重要的作用。我们添加了三个二进制指示器来强调这种规律性:0其中 ∥ ij 和 ⊥ ij 表示 v i 是否平行或正交于 v j ，¬ ij用于指示 v i 和 v j是否共享相同的端点。将上述术语放在一起，我们得到边特征 e ij ∈ R 7 如下：0在我们的实验中，g ij 中使用的角度和距离阈值分别设置为5° 和 100 mm。03.2. 网络架构0基于第3.1节中从CAD图纸构建的图，我们提出了一种新颖的GAT-CADNet来解决全景符号识别问题，如图6所示。该网络1）将实例符号识别任务形式化为邻接矩阵预测问题，2）通过边特征编码增强顶点注意力，3）聚合多个GAT阶段的顶点注意力以预测稀疏邻接矩阵。0初始顶点特征 v i 和边特征 e ij 被嵌入到 ˆ v i 和 ˆ e ij中，分别使用两个独立的多层感知机（MLP）块。对于每个顶点 v i ，我们通过其连接的边增强其特征：0将顶点特征堆叠到 V 0 ∈ R N × 128 ，其中 N = |V|，作为后续GAT阶段的输入。0相对空间编码（RSE）。在处理点云[49]或自然语言[39]时，研究人员经常使用相对位置编码使网络对平移具有不变性并且能够感知距离。类似地，我们将初始边特征通过另一个MLP块传递以编码顶点之间的相对空间关系：0其中 E ∈ R N × N × 7 是通过将 |E| 条边扩展到 N × N而得到的边特征。然后将 RSE编码 R ∈ R N × N × H输入到主GAT分支的每个阶段中，其中 H是GAT阶段中的头数。0图注意力阶段。我们的网络的主干是GAT分支的 S个阶段，如图7所示。第 s个阶段接收来自前一个阶段的顶点特征 V s − 1并输出相同维度的顶点特征 V s 。在GAT块的第 h个头中，我们将 V s 投影到查询矩阵 Q h ∈ R N × d，键矩阵 K h ∈ R N × d 和值矩阵 V h ∈ R N × d。然后，多头注意力分数 A s ∈ R N × N × H可以表示为：QKVMLPA............s-1sVVV ′h = Softmax(As + R)Vh,(11)Y = Softmax(MLP(V S)),(12)̸=117510多头注意力添加 A 聚合0注意力分数0图7.图6中的GAT阶段，灰色区域包含多头注意力[39]。顶点注意力分数作为边编码（橙色箭头）输入到CEE模块中，然后与RSE模块的边编码一起增强（蓝色箭头）。0注意，A s 表示嵌入空间中顶点之间的关系。类似于[39,49]中的相对位置编码，我们将相对空间编码 R 添加到 A s中以显式增强它们的注意力。因此，聚合值矩阵 V ′ h ∈ RN × d 通过以下方式获得：0通过MLP块传递，并添加到 V s − 1，产生当前阶段的输出顶点特征 V s。语义符号识别头将顶点特征从最终阶段映射到分类预测：0使用语义损失：0损失 sem = CrossEntropy ( Y, Y gt ) . (13)0级联边编码（CEE）。回想一下，顶点注意力 A s可以被视为顶点之间的关系强度，这是预测邻接矩阵的好选择。因此，我们将来自所有GAT阶段的注意力分数 { A s }作为隐式边编码级联，以捕捉局部和全局顶点连接性：0C =0s =1 A s . (14)0然后，将每个有效的边编码cij在最后一个GAT阶段的两个端点的顶点特征上进行连接，形成最终的边特征：0˜eij = Concat(cij, vSi, vSj). (15)0最后，实例符号检测头部给出了邻接矩阵预测Z∈RN×N：0Z = Sigmod(MLP(˜E)), (16)0其中˜E∈RN×N×(H+256)表示堆叠的最终边缘特征{˜eij}。实例符号检测的损失定义为：0loss ins = BinaryCrossEntropy(Z, Zgt, w), (17)0其中惩罚错误预测的权重w定义为：0w Zgtij = 0 Zgtij = 10Y gt i = Y gt j 20 2 Y gt i ≠ Y gt j1 0 .0注意，连接具有相同语义标签（Ygti =Ygtj）但属于不同实例（Zgtij =0）的两个顶点的边具有最大权重20。0全景损失。我们网络的全景符号检测损失是语义损失项和实例损失项的线性组合：0loss pan = loss sem + λloss ins. (18)0在我们的实现中，注意力在一环邻居内进行，并且我们的N×N矩阵是稀疏的。04. 实验0我们对公共CAD绘图数据集进行了我们的GAT-CADNet的定位式全景符号检测任务的定性和定量评估。我们还将我们的方法与典型的基于图像的实例检测[30, 31,38]和语义分割方法[5,40]进行了比较。我们进行了广泛的消融研究来验证我们网络设计的选择。0数据集和全景度量。尽管存在几个传统符号检测的小型矢量图形数据集[9,34]，但我们在实验中使用了最新的大规模FloorPlanCAD[15]数据集，该数据集包含各种楼层平面图的11,602个CAD绘图，并具有分段粒度的全景注释。该数据集由覆盖30个物体和5个物质类别的10m×10m平方块组成。与[23]类似，它还提供了在矢量图形上定义的全景度量：0PQ = R0� (sp, sg) ∈ TP IoU(sp,0| TP | + 102 | FP | + 102 | FN | , (19)0其中RQ是衡量识别质量的F1得分，SQ是通过平均匹配符号的IoU计算得到的分割质量。有关预测符号sp和地面真值符号sg在基本级别上的详细IoU评估，请参考[15]。4.1. Quantitative Evaluation(a) GTsink | 1.00gas_stove | 1.00single_door | 0.99stairs | 0.75(c) Ourspares the results of popular segmentation methods [4, 40]with different configurations.Qualitative comparion areshown in Fig. 8 where DeepLabv3 [5] and HRNetV2 [40]are with the W48 and R01 configuration in Tab. 1 respec-tively. While our GAT-CADNet is built on the graph en-tirely and requires geometric features only, it manages tooutperform other image-based methods.117520A0B0(a) 输入CAD绘图 (b) GT0(c) DeepLabv3 [5]0(d) HRNetV2 [40] (e) PanCADNet [15] (f) 我们的方法0图8. FloorPlanCAD [15]数据集上语义符号检测结果的定性比较。从左到右依次列出了区域A（上排）和B（下排）的两个局部放大图。0方法 F1 加权长度F10HRNetsV2 W18 [40] 0.656 0.6830HRNetsV2 W48 [40] 0.666 0.6930DeepLabv3+R50 [4] 0.680 0.7050DeepLabv3+R101 [4] 0.688 0.7140PanCADNet [15] 0.806 0.7980我们的方法 0.850 0.8230表1. 不同图像语义分割模型和我们的GAT-CADNet的统计结果。0在以下实验中，我们的GAT-CADNet配置为8个GAT阶段，如果没有特别指定，H=8，λ=2。我们使用Adam优化器，β1=0.9，β2=0.99，lr=0.001，并将衰减率设置为0.7，每20个epoch进行一次衰减。我们训练我们的GAT-CADNet进行100个epoch，并在验证集上选择最佳模型。为了适应显卡内存，每个CAD绘图的图形顶点数和它们的邻居分别限制为4096和30。所有其他基于图像的网络都是使用OpenMMLab的最新版本进行训练的[3,7]。在推理过程中，我们通过阈值0.7修剪得到的邻接矩阵，生成一个有向图。首先将相同语义的顶点分组，然后在每个组内搜索连接的组件来找到实例。请参考补充材料获取更多结果，并随意放大，因为它们是矢量图形。0(a) GT0(c) Ours0我们的平均精度（AP）在增加IoU阈值时并没有显著下降，并且具有更高的mAP得分。由于CNN依赖于局部纹理进行识别，并且可能忽略边界处的特征，因此由于CAD图纸中纹理较低，它们的边界框预测不太准确并不令人意外。这种现象可以在图9和图10中观察到，我们的基元级别预测具有更清晰的边界框。0实例符号识别。根据[15,33]的报告，传统的符号识别算法[27, 28,35]具有较低的泛化能力，因此在比较中被省略。通过将CAD图纸渲染为图像，我们的GAT-CADNet与各种图像检测方法进行了比较，包括两阶段的Faster-RCNN[31]，一阶段的YOLOv3 [30]和较新的FCOS[38]。请注意，PanCADNet[15]中的实例头来自Faster-RCNN，这里没有列出。基于图像的检测方法[30, 31,38]直接预测边界框，而我们为每个几何基元预测实例标签。为了公平比较，我们计算每个实例符号的边界框，并使用其平均连接强度作为置信度分数。定量比较结果列在表2中，我们的GAT-CADNet在各项指标上都超过了其他方法。A(a) Input CAD drawing(b) GT(d) YOLOv3 [30]0.98 0.98 elevator | 0.95window | 0.75window | 0.92sink | 0.98single_door | 1.00(f) OursMethodsAP50AP75mAPYOLOv3 [30]0.6560.4310.395Ours0.7350.6800.690One thing noteworthy is that our average precision (AP)does not drop dramatically when increasing the IoU thresh-old and has a much higher mAP score. Since CNNs rely onlocal patch texture for recognition and may ignore featuresat border, it is not a surprise that their box predictions areless accurate due to the low texture in CAD drawings. Suchphenomenon can be observed in Figs. 9 and 10 where ourprimitive-level prediction has clearer bounding boxes.117530B0(c) FRCNN [31]0(e) FCOS [38]0图10. 使用图像检测方法进行实例符号识别的比较。(a)输入的CAD图纸，其中蓝色矩形框表示区域的放大图。从(c)到(f)列出了区域A（上排）和B（下排）的两个放大图。错误的预测用虚线的红色矩形框标记。Faster R-CNN [31]和YOLOv3 [30]错误地在区域A中识别出了两个滑动门。YOLOv3 [30]和FCOS[38]都未能识别出区域B左下方的一些窗户。与基于图像的方法相比，我们的GAT-CADNet对于真实边界框更接近。0Faster R-CNN [31] 0.693 0.631 0.5680FCOS [38] 0.648 0.572 0.5250表2. 使用典型图像检测方法进行实例符号识别的比较。0全景符号识别。将CAD图纸转换为图像，并在其上应用全景分割算法是一种直接的方法。然而，正如前面的比较部分所示，基于图像的方法在识别几何基元级别的抽象符号方面能力较弱。PanCADNet[15]为全景符号识别提供了一种CNN-GCN架构。它首先在CAD图纸上构建图形，然后为每个顶点获取CNN多层特征，并使用简单的GCN结构进行识别。由于PanCADNet[15]采用Faster-RCNN作为其骨干网络和检测头，所以它的识别质量比我们的模型要低得多，表3中的第二行和最后一行。此外，它没有明确编码顶点之间的关系，甚至比我们的基线模型的识别和分割还要低，表3中的第三行。0模型 RSE CEE RQ SQ PQ0PanCADNet [15] - - 0.660 0.838 0.5530基线 0.687 0.875 0.602 b. + RSE � 0.734 0.891 0.654 b. +CEE � 0.749 0.896 0.6710� 第2个 0.761 0.903 0.6870� 第4个 0.768 0.903 0.6940� 第6个 0.768 0.904 0.6950� 第8个 0.786 0.908 0.714 我们的 � � 0.807 0.914 0.7370表3.不同网络配置的消融研究。CEE列中的数字表示第n个GAT阶段。04.2.消融研究0我们对GAT-CADNet架构中的特定设计决策进行了各种受控实验验证。还包括关于初始几何特征选择和GAT阶段数量的讨论。0RSE模块。我们模型的基线架构是图6中的多阶段GAT分支。根据图6中的黑色箭头，它接收初始顶点和边缘特征，并映射到语义和实例头部。图6中的蓝色分支是RSE模块，它将相对空间关系附加到每个GAT阶段的顶点注意力上。将RSE模块添加到基线模型中，在识别和分割质量上都明显改善了4个和5个百分点，如表3中的第三行所示。显然，明确编码的基本空间关系，如平行和正交性，增强了顶点注意力，从而在全景识别中产生更好的性能。0.991.00 single_door | 1.00single_door | 1.00single_door | 1.00sliding_door | 1.00washing_machine | 0.84gas_stove | 1.00sink | 1.00gas_stove | 1.00single_door | 0.55single_door | 0.98single_door | 0.99stairs | 0.75double_door | 0.33double_door | 0.84double_door | 0.97washing_machine | 0.80sink | 0.95escalator | 0.82double_door | 0.90window | 0.98window | 0.89single_door | 1.00double_door | 1.00elevator | 1.00elevator | 1.00elevator | 1.00elevator | 1.00elevator | 1.00elevator | 1.00elevator | 1.00sliding_door | 1.00sliding_door | 1.00sliding_door | 1.00sliding_door | 1.00elevator | 1.00sliding_door | 1.00117540(a) GT0(b) 全景预测。0图11.我们的网络在各种场景中的视觉结果。缺失的符号用红色虚线矩形突出显示。更多结果请参见补充材料。0图12.在不同的GAT阶段数量上的评估。0CEE模块。我们的CEE模块是图6中的橙色分支，它将顶点之间的注意力视为特征空间中的相似性，并将它们级联起来预测实例邻接矩阵。将CEE模块添加到基线模型中，将RQ指标提升了6个百分点，如表3中的第五行所示。这证明CEE模块能够有效地收集顶点之间的连接，并且能够-0在基线模型中添加RSE和CEE模块，我们的方法在RQ、SQ和PQ指标上的性能超过了PanCADNet[15]，分别提高了14.7、7.6和18.4个百分点。为了进一步验证CEE中的级联结构，我们仅使用一个GAT阶段的注意力分数进行测试。具体来说，将第2、4、6和8个GAT阶段的注意力分别输入到实例头部。表3中列出的统计数据（第六到第八行）显示了RQ指标的稳定提升，表明更高层次的信息从更深的GAT阶段中收集到。我们的级联结构能够将多阶段的局部和全局特征融合起来，用于实例符号定位。0边缘规则特征。从理论上讲，如果我们有两个顶点之间的角度，那么方程（6）中的平行和正交指标是多余的。然而，如果我们在初始边缘特征中去掉规则性项，RQ、SQ和PQ指标分别降至0.58、0.85和0.49。这表明CAD图纸中的规则性对于识别符号是必不可少的，而我们额外的几何规则属性有助于网络找到更好的解决方案。0GAT阶段数量。我们还测试了不同GAT阶段数量的影响。GAT阶段的数量从2到16进行配置，并将结果绘制在图12中。随着阶段数量的增加，性能变得更好。然而，如果阶段数量达到16，我们的网络不会从中受益。05. 结论0在这项工作中，我们提出了一种直观而有效的架构，名为GAT-CADNet，用于CAD绘图上的全景符号定位。它将实例符号定位任务形式化为邻接矩阵预测问题。相对空间编码模块明确地对顶点之间的相对关系进行编码，以增强它们的注意力。级联边编码模块从多个GAT阶段提取顶点注意力，捕捉局部和全局连接信息。在RSE和CEE模块的帮助下，我们的GAT-CADNet在很大程度上超过了其他方法。0限制和未来工作。不可否认，我们的方法仍然远离完美，全景符号定位仍然是一个未解决的问题。我们网络的一个缺点是它只能处理具有有限原语数量的绘图，否则会出现GPU内存不足的问题。一个可能的解决方案是将绘图切分成较小的块并融合结果。我们将继续探索更高效的网络以缓解这个问题。117550参考文献0[1] Irwan Bello, Barret Zoph, Ashish Vaswani, JonathonShlens和Quoc VLe。注意力增强的卷积网络。在2019年的IEEE/CVF国际计算机视觉会议上，第3286-3295页。30[2] Angel X. Chang, Thomas Funkhouser, Leonidas Guibas, PatHanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Manolis Savva,Shuran Song, Hao Su, Jianxiong Xiao, Li Yi和FisherYu。ShapeNet：一个信息丰富的3D模型存储库。技术报告arXiv:1512.03012[cs.GR]，斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所，2015年。20[3] Kai Chen, Jiaqi Wang, Jiangmiao Pang, Yuhang Cao, YuXiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu,Jiarui Xu等人。Mmdetection：Openmmlab检测工具箱和基准。arXiv预印本arXiv:1906.07155，2019年。60[4] Liang-Chieh Chen, George Papandreou, FlorianSchroff和HartwigAdam。重新思考用于语义图像分割的空洞卷积。arXiv预印本arXiv:1706.05587，2017年。2, 60[5] Liang-Chieh Chen, Yukun Zhu, George Papandreou,Florian Schroff和HartwigAdam。具有空洞可分离卷积的编码器-解码器用于语义图像分割。在欧洲计算机视觉会议（ECCV）论文集中，第801-818页，2018年。2, 5, 60[6] Yifeng Chen, Guangchen Lin, Songyuan Li, OmarBourahla, Yiming Wu, Fangfang Wang, Junyi Feng,Mingliang Xu和XiLi。Banet：具有遮挡处理的双向聚合网络用于全景分割。在2020年的IEEE/CVF计算机视觉与模式识别会议上，第3793-3802页。30[7]MMSegmentation贡献者。MMSegmentation：Openmmlab语义分割工具箱和基准。https://github.com/open-mmlab/mmsegmentation，2020年。60[8] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime G Carbonell,Quoc Le和RuslanSalakhutdinov。Transformer-xl：超越固定长度上下文的注意力语言模型。在第57届计算语言学协会年会上，第2978-2988页，2019年。30[9] Mathieu Delalandre, Ernest Valveny, Ton

下载后可阅读完整内容，剩余1页未读，立即下载