建筑物的3D标记数据集及其图形神经网络

53 浏览量更新于2023-10-13 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10397BuildingNet：学习标记3D建筑物Pratheba Selvaraju1Mohamed Nabail1Marios Loizou2Maria Maslioukova2Melinos Averkiou2Andreas Andreou2Siddhartha Chaudhuri3Evangelos Kalogerakis11UMass Amherst2 University of Cyprus / CYENS CoE Cyprus3 Adobe Research / IIT Bombay图1：我们介绍了一个带有注释外部的3D建筑网格数据集（顶部）。我们还提出了一个图形神经网络，它处理构建网格并通过编码网格组件之间的结构和空间关系来标记它们我们的数据集还包括一个点云轨迹（蓝色框）。错误网络输出的示例以红色文本显示。摘要我们介绍BuildingNet：（a）其外部被一致地标记的3D建筑模型的大规模数据集，以及（b）通过分析其几何图元的空间和结构关系来标记建筑网格的图形神经网络。为了创建我们的数据集，我们使用了与专家指导相结合的众包，从而产生了513K注释的网格图元，这些图元被分组为2K建筑模型中的292K该数据集涵盖了几个建筑类别，如房屋，教堂，摩天大楼，市政厅，图书馆和城堡。我们包括一个基准评估网格和点云标签。与现有基准中的对象相比，建筑物具有更具挑战性的结构复杂性（例如， ShapeNet ，PartNet），因此，我们希望我们的数据集能够促进算法的开发，这些算法能够处理用于视觉和图形任务的此类大规模几何数据，例如，3D语义分割、基于部件的生成模型、对应关系、纹理以及从真实建筑物获取的点云数据的分析。最后，我们表明，我们的网格为基础的图形神经网络显着提高性能超过几个基线标记三维网格。我们的项目页面www.buildingnet.org包含我们的数据集和代码。1. 介绍建筑是三维视觉的重要应用领域。关于建筑物的自主感知有大量的研究，其中很大一部分是由数字地图开发人员领导的，他们寻求建筑物外部的丰富注释和3D查看功能[14]，以及设计机器人在建筑物内部操作的机器人专家（例如，[45]）。AR/VR的最新进展也依赖于计算机辅助建筑分析[6]。建筑设计数字技术的早期工作，包括自由形式的设计探索以及成熟的建筑[15]，导致了建筑工作室中计算设计工具的普遍存在此外，计算机还可以自动处理建筑数据，如照片、卫星图像和建筑平面图，用于存档和分析目的（例如：[62、32]）。因此，将现代数据驱动的几何处理应用于建筑物的分析具有重大的激励作用然而，虽然建筑物是真正的几何对象，具有完善的设计原则和清晰的本体，但它们的结构和风格复杂性通常大于或至少明显不同于常见3D数据集中的形状，如ShapeNet [5]和S-屋烟囱车库壁灯圆顶塔未标记柱天花路窗花/树地围栏门楼梯人工注释预测10398canNet [10].这使得它们对于标准形状分析流水线具有挑战性，无论是对于诸如分类、分割和点对应的判别性任务，还是对于诸如合成和样式转换的生成性任务此外，数据驱动的方法需要数据，并且据我们所知，不存在3D建筑模型的大规模、在本文中，我们提出了BuildingNet，第一个公开可用的大规模数据集的注释三维建筑模型，其外部和周围环境的一致的标签。该数据集提供513K注释的网格prim-n。在2000个建筑物模型中进行迭代。我们有一个长凳-标记网格和点云标记，并评估服务器所有网格和点云标记网络。这些方法主要是针对较小的单个对象或内部场景开发的，并且在建筑数据上不太成功。此外，我们还介绍了一个图形神经网络（GNN），通过分析其几何图元的空间和结构关系来我们的GNN将每个子组视为一个节点，并利用节点对之间的关系，如邻接和包含在图中传递的神经消息产生最终的网格标记。我们的实验表明，这种方法产生的3D建筑数据比以前的方法显着更好的结果。概括起来，我们的贡献是：第一个大规模的、公开可用的3D建筑数据集，除了基准测试之外，还包含涵盖几个常见类别的注释部分图神经网络利用网格文件中预先存在的噪声子组来实现标记构建网格的最新结果。用于收集3D网格的标记部分的注释接口和众包管道，其还可以扩展到其他类别的3D数据。2. 相关工作3D形状语义分割数据集。用于3D形状语义分割的现有数据集和基准仅限于具有相对简单结构和少量部件的对象[7，21，18，58，36，61]。最早的这样的基准[7，21]有380个对象，每个形状有几最近，Uy et al.[52]发布了一个具有15K扫描对象的基准测试，但专注于对象分类，仅为椅子提供部分级别的分割。PartNet [61]的最新和最大的语义形状分割基准包含24个类别的27K然而，即使使用PartNet的细粒度分段，其类别平均仍有几十个标记的部分。我们的论文介绍了一个数据集的部分标注的三维建筑物，推动语义分割到更大规模的对象，更具有挑战性的结构和几十到几百个部分，每个形状。3D室内场景数据集。另一个相关的工作线已经引入了在真实世界或合成3D室内环境中具有对象级注释的数据集[19，1，39，10]。46、4、10、28、63、13]。相比之下，我们的数据集专注于建筑外部，这是一个相当缺乏研究的领域，有自己的挑战。虽然室内场景由物体组成，这些物体通常被很好地分离或彼此几乎没有接触（不包括地板/墙壁），但建筑物外部更像是部件（窗户、门、屋顶）的连贯组装，即，具有多个连接部分的单个大形状景观）。建筑物外部共享单一形状分割的挑战沿着接触区域分割具有干净边界的部分）以及场景分割（即，处理3D数据的大规模性质）。建筑物也有各种尺寸，部分几何形状和风格[31]，使该领域对形状分析和合成都具有挑战性。3D城市数据集。随着自动驾驶应用的爆炸式增长，捕获城市环境的大规模3D点云数据集已经出现[38，16，43，2，48]。这些数据集包括道路、车辆和人行道等标签。建筑物被标记为单个整体对象。我们的数据集包含建筑部件的注释，如上所述，它有自己的Rue-Monge 14数据集包含从巴黎街道捕获的3D建筑物正面，具有与建筑物相关的8个标签[42]。相反，我们的建筑是完整的3D模型，在几何形状、风格、功能方面具有更大的挑战性，并且具有更细粒度的部件标签。用于3D网格理解的深度网络。几个最近-已经提出了用于处理网格的测试神经体系结构。一些网络直接对网格几何或拓扑特征进行操作[33，17，26，44]，光谱域[3，37，60，41]，而其他的则传递由其他网络操作学习的表示，例如，在网格视图或体素上[20，55，25]。我们的方法是对这些方法的补充。它专门设计用于处理具有网格组件（三角形组）形式的预先存在结构的网格，这在3D建筑模型中特别常见。CRF和具有启发式标准的各种分组策略已被提出来将这些组件聚合成标记的部分[55]。相反，我们的方法使用GNN通过以端到端的方式编码它们之间的空间和结构关系来标记组件。从这个方面来看，我们的方法还涉及使用GNN在具有简单空间关系的边界框对象表示上操作的将对象放置在室内场景中的方法[64，53]，以及基于在点簇上定义的图的用于室内场景解析的GNN方法[27]。相反，我们的GNN旨在标记由丰富的几何特征表示的网格组件，并捕获特定于建筑物外部的空间和结构关系。···10399阳台天花板烟囱柱门天窗地板车库地面/草护栏植物/树路屋顶墙窗图2：我们用于标记3D建筑模型的界面带注释的组件的颜色遵循中间的图例（我们在这里显示了标签的子集-UI在更扩展的布局中包含16个标签到目前为止尚未标记的任何组件以浅黄色/绿色阴影示出（例如，阳台组件）。UI在顶部显示指令，并提供便于标记的功能，例如自动检测重复的组件（“查找相似”）、组件的自动分组/取消分组（“扩展”/“收缩”）以及自动聚焦于未标记的组件（“查找未标记的三维建筑物网格分割和标记。这方面的工作相对较少。早期的建筑物语义分割方法依赖于具有手工设计的点描述符和规则的浅管道[49，50]。在[11]中提出了一种组合算法，该算法将面分组为跨越具有高重复性的网格的非标记组件。在[12]中提出了一种用户辅助分割算法。对称性被认为是对建筑构件进行分组的有用线索[24，35]。相反，我们的方法的目的是标记3D建筑网格与基于学习的方法的基础上，现代深骨干提取点描述符。它还将重复作为一致标记的线索，以及其他几个几何和结构线索。3. 建筑数据注释我们首先讨论的过程中，我们遵循注释3D建筑模型。与现有3D形状分割基准（如ShapeNet [58，59]和PartNet [36]）中遇到的小型和中型对象（如工具，家具和车辆）的3D模型相比，建筑物往往包含更丰富的结构，如其网格元数据所示。例如，一种常见类型的元数据是多边形面的分组，通常称为网格子组[36]，其对应于建模者在设计形状时使用的几何图元和建模操作这些子组通常对应于语义部分的“片段”，窗户由代表单独的水平和垂直框架件或玻璃部件的子组制成。在最大形状分割基准（PartNet [ 36 ]）中，组层次结构最后一级的每个对象的网格子组的平均数量为24。4、我--迪安十一岁。在我们的数据集中，每个建筑物的网格子组的平均数量是25。5 x更大（623. 6个亚组），而中位数为44倍（497。5个亚组）。我们注意到，这些数字仅包括建筑物外部，即，而不考虑建筑物内部（例如室内家具）。Part- Net依赖于网格子组以实现更快的注释，即，注释者手动点击并将它们分组到部件中。在我们的情况下，选择每个单独的网格子组在大规模3D建筑数据集的情况下太费力了。为此，我们开发了一个用户界面（UI），遵循PartNet特别是，我们的用户界面提供的标签传播到类似的子组的几何和网格元数据的基础上，使更快的标签，ING的选项。另一个重点是在几个受过训练的群众工作者之间达成共识，并行注释为此，我们采用了多数表决程序。我们专注于在建筑物中遇到的公共部分标签的众包注释在本节的其余部分中，我们将描述用于3D建筑物交互式标记的用户界面（UI）（第3.1节）和数据集收集过程（第3.2节）。3.1. 标签接口我们的界面如图2所示。在左侧窗口中，我们显示建筑物，每个网格子组都分配了不同的颜色。当子组被注释时，它会根据其标签将颜色从默认调色板（浅绿色和黄色阴影）更改为预定的不同颜色在右边，我们展示了建筑物的纹理版本，这样众包工作者也可以访问有用的颜色线索10400用于标记。工作人员可以对视点进行完全的3D控制（平移、缩放、旋转）。视点上的更改将反映在两个窗口中。在界面的顶部，我们为每个标签提供了来自真实世界建筑物的零件示例的说明和链接要求工作人员通过一系列问题标记网格子组，例如，“标记所有墙”，然后“标记所有窗口”，依此类推。可替代地，他们可以跳过问题，并且直接从出现在UI中间的列表中选择期望的部件标签。要将当前选定的标签分配给网格子组，工作人员只需右键单击它并按Enter。或者，他们可以选择多个子组并一起注释它们。具有相同标签的所有相邻子组将自动合并到单个带标签的组件中，以减少手动合并的工作量。我们注意到，我们考虑了合并网格切割工具的可能性，将大型子组拆分为较小的子组，以分配不同的标签，如PartNet [36]中所做的那样。然而，这些工具需要重新构建到水密网格中，这对于大多数建筑子组来说是无法实现的，因为它们的非流形几何、断开或重叠面以及开放的网格边界。对于我们数据集中的大多数建筑物，我们观察到每个子组都可以分配一个单独的部分标签，而无需进一步拆分。还指示注释者不要标记任何（罕见）亚组，这些亚组包含具有不同标签的部件。单击作为签名零件标签的单个网格子组仍然很麻烦，因为建筑物有数百或数千个网格子组。我们的UI利用了建筑物通常具有重复网格子组的事实，例如，同一个窗口网格在立面表1：按建筑物类别划分的统计数字。从左到右：建筑物类别、模型总数、每个模型的网格子组的平均数/中位数/最小数/最大数、唯一子组的平均数。类别编号模型平均编号亚群药物编号亚群最小编号亚群最大编号亚群平均数亚群住宅1,424678.7547831989167.1商业153723.4606901981159.8宗教540487.0348931981139.9公民67628.84801181822144.4城堡85609.84851251786193.0整套2,000623.6497.5831989160.5在网格组层次结构中向上移动一级，并找到与最初选择的子组共享同一父组的所有子组，如图3（底部）所示。我们建议读者参考我们的补充视频，该视频展示了UI操作的详细教程。3.2. 数据集和基准为了创建我们的数据集，我们从3D Warehouse存储库中挖掘建筑模型[51]。采矿由各种质量检查驱动，例如，不包括低多边形、不完整、无纹理的网格，以及没有子组或子组太少的网格。我们还根据Wikipedia的文章“建筑类型列表”将它们分类为基本类。s由于我们的目标是收集建筑物外部的注释，因此在预处理步骤中，我们从每个建筑物中删除了内部结构。这是通过执行源自每个子组的网格面的穷举光线投射并检查光线是否被阻挡来完成的。我们还使用光线投射来定向面，使其法线指向外部[47]。在我们的补充中给出了关于3D模型的挖掘、分类和预处理的细节。零件标签。为了确定我们的用户界面中所需的一组通用标签来注释建筑物外观，我们启动了一项初步的用户研究，涉及所有班级的100座建筑物的一个小子集和10名具有领域专业知识的参与者（土木工程和建筑学的研究生在3D建模期间。因此，在预处理步骤中，我们通过检查它们是否具有图3：标签传播到重复的子组（顶部）或其父组（底部）。最初选择的子组为白色。在这项研究中，我们创建了一个UI的变体，为网格子组显式键入标记。我们选择了一个包含31个经常输入的标签的列表来定义我们的标签集（有关详细信息，请参见我们的补充材料的表2注释程序。一种注释构建的可能性-相同的网格连通性（网格图）和顶点位置在分解出刚性变换之后匹配。关于重复检测的详细信息见补充材料。然后，工作线程可以选择所有子组副本，并将相同的标签传播给所有子组副本如图3（顶部）所示。另一个UI功能是允许用户通过利用任何分层分组元数据来“扩展”网格子组选择。通过迭代地购买零件将是雇用“专业人员”（例如，建筑师- s）。要找到数十名或数百名这样的专业人员将是一项极具挑战性的工作，而且在时间和资源方面都很昂贵。在早期的尝试中，我们发现，如果没有额外的验证步骤和多数表决，一致性仍然很难实现。另一方面，雇用非熟练、未经培训的众包工作者将具有收集错误注释的缺点。我们采用了更有选择性的方法，我们确定-相似性传播层次传播10401在验证了他们根据我们提供的教程和说明可靠地执行注释任务的能力后，我们将向经过认证的众包工作者提供支持。在我们的工人资格阶段，我们在MTurk上发布了我们的UI，任何有兴趣执行任务的工人都可以访问。在视频教程（包括呈现每个标签的部件的真实世界示例的网页）之后，工作人员被要求标记从具有不同结构和部件标签的预定建筑物池中随机选择然后我们检查了他们的标签，并对那些标签与我们的指示一致的工人进行了资格认证。我们手动验证了他们注释的质量。在2520名参与者中，342名工人合格。在这个阶段之后，我们只向合格的MTurker发布我们的数据集。我们要求他们标记尽可能多的部分，他们可以与分层补偿，以鼓励更多的标记面积（范围从0美元。5用于标记最低 70%的建筑面积为 1 美元。 0表示标记>90%）。在342名合格的MTurkers中，有168名接受了这个阶段的任务。每个合格的MTurker标注60建筑物和每个注释花费19。平均5分钟表2：我们的数据集中每个部件标签的标记组件数量，以及它们在训练分割、保持验证和测试分割中的数量和频率。数据集。我们收集了2000栋建筑的符号。每个建筑物由5个不同的、合格的M-Turker注释（总共10如果5个MTurker中至少有3个大多数同意，则我们接受每个亚组的标签。的800700600500400300200100050-60% 60-70% 70-80% 80-90% 90-100%%多数标记面积入口图显示了显示分布的直方图建筑物（垂直轴）的百分比的表面积的不同箱标记与实现的多数（水平轴）。我们数据集中的所有建筑物的标记面积都超过50%，大多数建筑物的标记面积都超过80%。在注释器一致性方面，即，由合格MTurker选择的子组标签与大多数一致的次数的百分比，我们发现它是92。0%，表明工人高度一致。我们得到的2K数据集有513，087个带注释的网格子组和291，998个带注释的组件（合并具有相同标签的相邻子组唯一注释的子组和组件的数量分别为111，832和86，492表1列出了每个基本建筑类别的分组统计数据。表2显示了每个部件标签的标记组件统计数据。我们在附录中提供了更多的统计数据。分裂。我们将数据集分为1600个建筑物用于训练，200个用于验证，200个用于测试（80/10/10%）。数据集没有重复的建筑物。我们创建了分割，使得（a）建筑类别和部分的分布在分割中是相似的（表2和补充），并且（b）测试建筑具有高多数标记面积（>85%），即，更完整的标签进行评估。跟踪 . 我们在基准中提供了两条轨道。在称为“BuildingNet-Mesh”的第一轨道中，算法可以访问网格数据，包括子组。在这方面，它们可以利用3D建筑模型中常见的任何预先存在的网格结构。在两种情况下评估算法：当RGB纹理可用时，以及当它不可用时。在第二种情况下，算法必须仅使用几何信息来标记建筑物。第二个轨道，称为为此，对于每个网格，我们使用泊松圆盘采样对100K个点进行采样，以实现与PartNet [36]类似的近似均匀采样。点法线源自三角形。还有两个评估条件：点的RGB颜色。4. GNN大楼我们现在描述一种用于通过利用子组形式的预先存在的网格结构来标记3D网格的图神经网络网络的主要思想是713450413273151#建筑物标签标记数量comp.#培训分裂（%）验证中的数量分裂（%）测试中的数量分裂（%）窗口 140,972109，218（47.8%）15 740人（55.1%）16 014人（46.0%）植物26,73520 974人（9.2%）1 870人（6.5%）3 891人（11.2%）壁22,81418 468人（8.1%）2 270人（7.9%）2 076人（6.0%）屋顶12,88110 342人（4.5%）1 396人（4.9%）1 143人（3.3%）栏杆 13,9549 678人（4.2%）1 467人（5.1%）2 809人（8.1%）车辆8,4917 421人（3.2%）716人（2.5%）354（1.0%）门9,4177 363人（3.2%）785人（2.7%）1 269人（3.6%）围栏5,9325 637人（2.5%）88人（0.3%）207人（0.6%）家具 6,2825，000人（2.2%）575人（2.0%）707人（2.0%）柱6,3944 870人（2.1%）623人（2.2%）901人（2.6%）束6,3914 814人（2.1%）437人（1.5%）1 140人（3.3%）塔4,4783 873人（1.7%）286人（1.0%）319人（0.9%）楼梯4,1932 960人（1.3%）472人（1.7%）761人（2.2%）百叶窗2,2751 908人（0.8%）77人（0.3%）290人（0.8%）地面2,0571 572人（0.7%）229人（0.8%）256人（0.7%）车库1,9841 552人（0.7%）182人（0.6%）250人（0.7%）护墙1,9861 457人（0.6%）153人（0.5%）376人（1.1%）阳台1,8471 442人（0.6%）199人（0.7%）206人（0.6%）10402i、ji、jj，ii、ji、j我i=1−i，j i，j i，j i，ji考虑子组之间的空间和结构关系，以促进更一致的网格标记。我们网络的输入是一个包含子组的C={c}N，其中N是子组的数量，并且输出是每个子组的标签。在下一节中，我们将描述如何创建表示建筑物的图，然后讨论在此图上运行的GNN架构。图形节点。对于每个3D建筑模型，我们为每个网格子组创建一个节点。节点携带子组的初始原始表示。具体来说，我们首先用 100 K 个点（与 “BuildingNet-Points”轨迹中使用的点集相同）对网格进行采样我们还尝试了PointNet++ [40]。我们从这些网络的最后一层提取每点特征，然后对源自子组的面的点执行平均池化以提取初始节点表示。我们把这个连接起来图4：消息传递层的架构。门表示（蓝色节点）将从支撑边（黄色边）更新为屋顶构件（红色节点），从邻近边（橙色边）更新为窗（紫色节点）。对于不同的距离，计算c1的底部OBB面位于c1的顶部OBB面上方的面积百分比1%，2. 两个OBB高度平均值的5%，5%，10%我们也来-将对应于以下的4D边缘原始表示e（下面）表示与子组的3D重心位置、其网格表面积和操作点的坐标相关联。将其定向边界框（OBB）的角对齐，以便C1的底部OBB面下方的表面积百分比j，icj我们明确地捕捉它的空间维度。在我们的实验中，在所得的41D节点表示ni中接近边缘。由附近的子组倾向于具有相同标签（例如，相邻的玻璃片或框架被标记为窗口通常与墙相邻），我们为子组对创建为了避免创建一个过于密集的图，这将造成过多的内存开销的GNN，我们创建了边缘的子群对的距离是高达10%的平均值的OBB对角线。放松这个界限并不能改善结果。避免硬性依赖相似边。放置在对称布置下的子组通常共享相同的标签（例如，沿着立面重复窗口我们为每对子组创建一条边来捕捉重复。对于每一对子组，我们计算刚性对齐后它们的样本点之间的双向倒角距离。为了提高对任何微小未对准或子组之间的小几何差异的鲁棒性，如果Cham- fer距离di，j小于其OB-B对角线的平均值的10%，则创建相似性边缘。增加该界限并没有改善结果。我们在[0，1]内将其归一化，其中1。0对应于在上界之上，并且使用e（symm）=1d i，j作为原始相似性边缘表示。我们也使用相同的表达式-相反方向的声音：e（symm）= e（symm）。在一个单一的阈值，并捕捉程度的小组密封边缘。j，ii、j在多个尺度上的接近度，我们计算了每个子组的点样本的百分比，其到另一个子组的距离小于1%，2。它们的OBB对角线的平均值的5%、5%和10%。Gi为一对子群（Ci，Ci），这导致4D边缘原始表示e（prox），其中每个条目近似于在不同尺度下接近cj的c1的表面积百分比。类似地，我们计算a用于相反边缘方向的4D表示e（prox）支持边缘。通常期望标签的某些布置沿着建筑物的竖直轴线，的屋顶在墙的顶部我们创造一个对于被发现支持另一个子组的每个子组，以及对于被发现由另一个子组支持的每个子组，具有相反方向的“被”边。通过检查OBB空间关系来创建边缘。具体地，如在邻近边缘的情况下，我们计算多尺度4D边缘原始表示e（上）测量。由于观察到部件（如门或窗）被其他较大的部件（如墙）包围或包含在其中，我们为子组对创建边，以捕获其包含程度。对于每一对子群，我们测量包含在cj的OBB中的cj的网络架构。该网络在神经消息传递的启发下更新每一层的节点和边缘表示[23]。图4示出了一个这样的消息传递层。下面我们将在测试时解释我们的架构初始化。在一对子群C1和C2中，我们首先跨所有类型连接它们的边表示：ei，j={e（prox），e（ontop），e（below），e（contain），e（sim）}我们注意到，基于我们的图构造，一些边缘类型可能不存在的hi（h（t）MLPh（t+1）i、i、h（t+1）我HJ（+h（t）MLPh（t+1）i，i，HK（10403ΣIoU（l）=a·（[y==l]∨[y（==l]）∈·Σ∈LL--i、j∼−我Ji、j|Ls|l∈Lt∈Tsat·（[yt==l]∨[y{t==l]）我们的边表示的条目指示了邻近度、支持度、包含度或相似度，并且根据定义在[0，1]之间被归一化。特定类型的边表示的零值指示该类型不存在。每个原始边缘表示ei，j最初由MLP处理以输出学习的表示我们的数据集的类不平衡。对于点云轨迹（“BuildingNet-Points”）中的评估我们还报告了每个点的分类精度。对于网格轨迹（然而，由于三角形的面积可能不同，（0）i、j=MLP。ei，j;w（0）Σ，其中w（0）是学习的MLP我我们提出以下IoU变体，其中对照-参数初始节点表示是h（0）=ni。节点和边更新。以下各层分别通过MLP和平均聚合处理前一层的节点和边表示：h（1+ 1）= MLP。h（l），h（l），h（l）;w（l）Σ每个三角形的面积由其面面积加权。给定测试的所有建筑物上的所有带注释的三角形在数据集T_D中，标签l的部分IoU被测量为：t∈TDat·（[yt==l]∧[yt==l]）t∈TD t t t其中y是多数注释（地面实况）标签h（l+ l）= lΣh（l+1）t|N(i)| j∈N（i）i、j一个三角形t Td，yt是它的预测标签，并且[]e-计算上述二进制表达式的值。的形状IoU具有一组注释三角形Ts的形状s被测量为：其中w（l）是学习的MLP参数。我们使用3层的节点/边缘更新。最后，最后一个GNN层过程--es第三层的节点表示，并使用MLP和softmax将它们解码为每个标签的概率IoU（s）=1ΣΣt∈Tsat·（[yt==l]∧[yt==l]）S有关架构的详细信息请参阅补充资料。训练损失。由于某些部分比其他部分更罕见，如表2所示，我们使用加权softmax损失来训练我们的网络，其中对于更罕见的部分，权重更高。为它们指定正确的标记（即，更高的平均部分IoU ）。对于每个建筑物，损失为 L=Ciwlqilogqi，其中是建筑物中所有带注释的子组的集合，是子组ci的基础事实独热标签向量，是其预测的标签概率，并且是经验地设置为逆标签频率的对数的标签的权重（即，类似于[34]的逆频率权重的平滑版本）。我们使用相同的损失来训练节点表示中使用的MinkowskiNet：损失仅应用于点而不是子组。我们对其他损失进行了实验，例如焦点损失[29]和类平衡损失[9]，但我们没有发现我们的数据集有显著改善（见补充材料）。实作详细数据。BuildingGNN的训练是通过Adam优化器[22]完成的，学习率为0。0001，β系数为（0. 九比零。999）和重量衰减设置为10- 5。我们选择最好的模型和超参数基于保持验证分割中的性能。5. 结果我们现在讨论我们的评估协议，然后展示我们的基准跟踪的定性和定量结果。评估方案。由于大多数部件类别通常在不同的建筑类别中遇到（例如，墙、门、窗），所有评估的方法都是在所有五个建筑类别（即，没有特定类别的培训）。方法还必须处理部件其中，L1是该形状的注释或预测我们还报告了按面部面积加权的每个三角形分类准确度[21]。“BuildingNet-Points”轨道。的初始种子在这条赛道的排行榜上，我们评估了三个能够处理我们的100K点集的流行网络：PointNet++ [40]，MID- FC[54]和MinkowskiUNet 34 [8]。我们还尝试了其他基于点的网络，例如，[56]但他不能。处理由于过多内存需求而导致的大点云所有网络都在相同的增强方案下训练（每个建筑物12次全局旋转和小随机平移）。对于所有网络，我们使用SGD，Adam[22]进行了实验，有和没有热重启[30]，并根据验证分割为每个网络选择了最佳调度程序和超参数。我们没有使用任何形式的预先训练。表3报告了结果。我们观察到MinkowskiNet提供了最好的性能。我们还观察到包括颜色倾向于改善性能，我们观察到MinkowskiNet的部分IoU增加了3%另一个观察结果是，与PartNet类相比，PartNet类中的Part IoU介于30对于PointNet++为70%，我们数据集中的性能要低得多：PointNet++有14个。1%部分IoU。即使对于性能最好的方法（MinkowskiNet），部分IoU仍然相对较低（29。9%），这表明我们的建筑数据集更具挑战性。“BuildingNet-Mesh”赛道。对于我们的网格跟踪，我们首先包括一些基线，这些基线依赖于在点云跟踪上训练的网络，然后将其结果传输到网格。这种转移的一种策略是建立网格面和最近点之间的H我10404Σ||∈不MinkNet-GCMinkNet 2Sub PointNet++2Sub BuildingGNN-PointNet++ BuildingGNN-MinkNet人类注释图5：与其他方法的比较尽管有一些错误（红色文本），BuildingGNN更接近人类注释。表3：“BuildingNet-Point”跟踪结果。“n”列表示网络是否使用点法线，列表示是否使用RGB颜色作为输入。方法n？c？部分IoU形状IoU类acc.PointNet++MID-FC（nopre）MinkNetCCC×××百分之八点八百分之二十点九百分之二十六点九12.2%百分之十九点零22.2%百分之五十二点七59.4%百分之六十二点二PointNet++MID-FC（nopre）MinkNetCCCCCC百分之十四点一25.0%百分之二十九点九百分之十六点七22.3%百分之二十四点三百分之五十九点五百分之六十三点二百分之六十五点五具体来说，对于每个点，我们找到其最近的三角形。由于一些三角形可能不与任何点相关联，我们还构建了反向映射：对于每个三角形，我们找到它的最近点。以这种方式，每个三角形t具有利用上述双向映射分配给它的一组点Pt。然后我们对每个三角形的点概率进行平均池化：其中qp和qt分别是点概率和三角概率。我们在表4中报告了这些基线的结果。我们注意到，我们尝试了最大池，但平均池有更好的性能（见补充）。另一种策略是基于网格子组而不是三角形来聚集预测，即，属于每个子组的点的平均概率。该策略充分利用了网格结构的优点，提高了计算结果。另一个基线是网格上的Graph Cuts（GC），它已用于网格分割[21]（参见GC能量补充）。最后，我们使用Point-Net++或MinkowskiNet节点功能报告来自我们的GNN（“BuildingGNN”）的结果。BuildingGN-N显著改善了相应的基线，例如，使用颜色作为输入，BuildingGNN with PointNet++功能将部分IoU改进了15。比最好的PointNet++高出4%ant，而BuildingGNN with MinkowskiNet的特点是通过5证明部分IoU。比最好的MinkowskiNet变种高出6%。具有MinkowskiNet功能的BuildingGNN在有或没有颜色的情况下表现最好。我们的补充包括消融研究，表明BuildingGNN中的每个边缘类型都比单独使用节点特征提高了性能，而最佳模型是具有所有边缘的模型。定性结果。图5显示了BuildingGNN与其他方法的比较。我们看到，它的前屋窗口壁地板烟囱路门百叶窗车库路车库路柱植物/树地面车辆栅围栏未标记多莫10405表4：PointNet++2Triangle表示使用PointNet++进行三角形池化（其他情况也类似）。PointNet2Sub表示子组池。MinkNet-GC表示使用MinkowskiUNet 34一元项的图切割。方法n？c？部分IoU形状IoU 类acc.PointNet++2三角形MidFC2TriangleMinkNet2TrianglePointNet++2SubMidFC2SubMinkNet2SubMinkNet-GCBuilding GNN-PointNet++Building GNN-MinkNetCCCCCC×××××××××百分之八点八百分之二十三点一百分之二十八点八九点五厘百分之二十六点四33.1%百分之二十九点九29.0%40.0%13.1%22.1%百分之二十六点七16.0%百分之二十八点四36.0%百分之二十八点三33.5%44.0%百分之五十四点七百分之四十二点九百分之六十四点八百分之五十七点九百分之四十六点二百分之六十九点九66.0%67.9%百分之七十四点五PointNet2TriangleMidFC2TriangleMinkNet2TrianglePointNet2SubMidFC2SubMinkNet2SubMinkNet-GCBuilding GNN-PointNet++Building GNN-MinkNetCCCCCCCCCCCC14.0%百分之二十七点三百分之三十二点八16.1%30.3%37.0%百分之三十三点八百分之三十一点五百分之四十二点六18.0%百分之二十六点二百分之二十九点二23.5%33.1%百分之三十九点一31.1%35.9%百分之四十六点八百分之六十点七45.6%68.1%百分之六十四点八48.6%百分之七十三点二68.9%73.9%77.8%与其它相比，词典更接近人类注释。图1显示了BuildingGNN的更多结果。6. 讨论我们提出了用于标记3D建筑物的第一个大规模数据集未来的研究方向是自动发现点云中的片段，并将它们嵌入到像我们这样的GNN中。目前，边缘提取启发式。以端到端的方式学习边缘和特征可以改善结果。最后，网格切割和层次标记可以导致更丰富的未来数据集版本。鸣谢。我们感谢 RajendraAdiga ， GeorgeArtopoulos，Anastasia Mattheou，Demetris Nicolaou的帮助。我们的工作由 Adobe ， NSF （ CHS-1617333），ERDF和塞浦路斯共和国通过RIF（项目EXCELLENCE/1216/0352），以及欧盟H2020研究和创新计划和塞浦路斯共和国通过研究，创新和数字政策副部（赠款协议739578）资助。10406引用[1] I.阿尔梅尼岛Sener，A. R. Zamir，H.江岛，澳-地布里拉基斯湾Fischer和S.Savarese 大型文本的三维语义解析缩放室内空间。在Proc. CVPR，2016中。2[2] J. Behley，M. Garbade，A. Milioto，J. Quenzel，S.本克C. Stachniss和J.胆语义：一种用于LiDAR序列语义场景理解的数据集。在procICCV，2019。2[3] Da videBoscaini ， JonathanMasci ， EmanueleRodola` ，andMichael Bronstein.用各向异性卷积神经网络学习形状对应关系。在Proc. NIPS，2016中。2[4] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3D：从RGB学习室内环境中的三维数据。InProc. 3DV，2017. 2[5] 天使XChang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimo Li ， SilvioSavarese ， Mano-lis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao，Li Yi，and Fisher Yu.ShapeNet：一个信息丰富的 3D 模型库。技术报告 arXiv ： 1512.03012[cs.GR]，斯

下载后可阅读完整内容，剩余1页未读，立即下载