PolyMapper:高空图像拓扑地图的自动提取方法

135 浏览量更新于2023-10-12 收藏 2.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1715从高空图像中提取拓扑图Zuo yue Li1，Jan DirkWe gner2，Aure' lienLucchi1 ETH Zürich，Switzerland1{li.zuoyue，aurelien.lucchi}@ inf.ethz.ch，1geod.baug.ethz.ch2日wegner@www.example.com摘要我们提出了一种新的方法，命名为PolyMapper，绕过传统的逐像素分割（航空）图像和预测对象的矢量表示，直接。PolyMapper直接从高空图像中提取城市的拓扑地图，作为建筑物足迹和道路网络的集合。为了统一不同类型对象的形状表示，我们还提出了一种新的序列化方法，将图结构重新表示为闭合多边形。在已有的和自行收集的几个城市的大规模数据集上进行了实验我们的实证结果表明，我们的端到端可学习模型能够以完全自动化的方式绘制非常接近现有在线地图服务结构的建筑物足迹和道路网络的定量和定性比较的国家的最先进的也表明，我们的方法实现了良好的性能水平。据我们所知，大规模拓扑地图的自动提取是遥感界的一个新贡献，我们相信这将有助于开发具有更明智的几何约束的模型。1. 介绍计算机视觉中的一项基本研究任务是像素精确的图像分割，其中稳定的进展已经通过基准挑战来衡量，例如[27，12，11]。该领域的经典方法包括为每个图像像素分配一个标签，描述它属于什么类别，从而产生一个标记的图像作为输出。然而，对于许多应用程序来说，从用户的角度来看，这并不是最终想要的输出在本文中，我们将重点关注需要图形或多边形表示作为输出的应用程序我们的兴趣将是开发一种方法，从输入图像，直接产生一个多边形表示，描述几何对象使用矢量数据结构。受到最近作品[10，8，5，1]的成功的启发，我们避免了显式的逐像素标记，而是直接以端到端的可学习方法从图像中预测多边形。图1：PolyMapper在原始航空影像上叠加的波士顿结果。建筑物和道路直接预测为多边形。更多结果见Fig.10个。我们的研究受到以下见解的启发：对于许多应用程序，图像分割只是更全面的工作流程的中间步骤，该工作流程旨在实现图像内容的更高级别，抽象，矢量化表示。一个很好的例子是从航空图像自动生成地图，现有的研究主要集中在航空图像分割，如[9，48，50，30，20，51，31]。我们将此应用程序作为我们的核心场景，因为我们可以访问 OpenStreetMap（ OSM ） [17 ， 16 ， 14] 的几乎无限的数据和GoogleMaps的高分辨率RGB正射影像。通常，完整的映射管道包括将正射影像转换为语义上有意义的栅格地图（即，语义分割），随后是进一步的处理，例如对象形状细化、矢量化和地图概括技术。在这里，我们将这个多步骤的工作流程转变为一个端到端的可学习的深度学习架构PolyMapper，它可以直接输出建筑物和道路的拓扑图，并将航拍图像作为输入。我们的方法在一个统一的方法中执行对象检测，实例分割和向量化，该方法依赖于现代CNN架构和具有卷积长短期记忆（ConvLSTM）的RNN[45]模块。如示于图5、CNN将城市瓦片作为输入，并提取建筑物足迹和道路网络的关键点和边缘证据，然后将其依次馈送到多层ConvLSTM模块。后者为给定图块中的每个对象生成矢量表示在1716在道路的情况下，我们还提出了一种方法，该方法通过遵循迷宫求解算法将道路的拓扑（通常是无向图）重新表示为多边形，该算法保证不同对象的形状一致性（序列）3.3）。最后，将不同瓦片上的道路连接起来，并与建筑物组合在一起，形成一个完整的城市地图。波士顿市的PolyMapper结果如图所示。1，而芝加哥和桑尼维尔的结果在图中示出。10个。我们验证了我们的方法的道路网络和建筑物的足迹现有的公开可用的数据集和新收集的PolyMapper数据集的自动映射。实验结果（参见第4)优于或等同于最先进的每像素实例分割方法[18，28]，以及最近的研究，该研究提出了仅用于其中一项任务的定制方法，道路网络预测[32，4]或建筑物足迹提取[38]。我们的方法具有显着的优势，它概括为两个，建筑物和道路划定，并可能扩展到其他对象。2. 相关工作几十年来，从开销数据中构建分段一直是核心研究兴趣，讨论所有工作超出了本文的范围[19，34，20]。在深度学习回归之前，建筑物的足迹是用多步骤、自下而上的方法以及多光谱头顶成像和机载激光雷达的组合来描绘的，例如，[46，2]。一种现代方法是[6]应用完全卷积神经网络来结合来自光学架空图像和数字表面模型的证据，以共同推理建筑物的足迹。今天，大多数建筑物足迹描绘从一个单一的图像往往是通过语义分割，作为一个更广泛的多类任务的一部分，存在许多作品，例如，[40，24，30，51，20，31]。微软最近从航空图像中展示了美国所有建筑物的足迹，首先，使用CNN进行语义分割，其次，使用启发式搜索方法1优化足迹。当前旨在提取建筑足迹的基准挑战是[38]，我们使用它来评估我们方法的性能。另一个包括建筑物足迹和道路网络的大型数据集是SpaceNet [49]。所有的处理都发生在亚马逊云上，卫星图像的分辨率低于本文中的图像中的道路网络提取可以追溯到（至少）[3]，其中道路像素是使用几个在局部尺度上的图像处理操作。不久之后，《沃德》[13]可能是第一部明确提到的作品。1我们不知道这项工作的任何科学出版物，因此请读者参考描述工作流程和共享数据的相应GitHub存储库。porate拓扑，通过搜索长的一维结构。在[47，23]中引入了前深度学习时代最复杂的方法之一，他们将他们的方法集中在标记点过程（MPP）上，这使得他们能够在道路的连通性和交叉几何形状上据我们所知，第一个（非卷积）深度学习道路网络提取方法是由[35，36]提出的作者训练深度信念网络来检测包含道路的图像块，第二个网络在大规模上修复小的网络间隙[53]建议使用高阶CRF对道路网络的寿命和连通性进行建模，其在[52]中扩展到通过最短路径集合对更灵活的、类似道路的高阶集团进行采样，并且还在[39]中对具有高阶集团的建筑物进行[33]结合OSM和航空影像，使用MRF公式增加地图的最近的两项工作将深度学习应用于航空图像中的道路中心线提取。DeepRoadMapper [32]引入了一种分层处理流水线，该流水线首先用CNN分割道路，将街道段的端点编码为与边缘连接的图中的顶点，将输出段细化为道路中心线，并用增强的道路图修复间隙Road- Tracer [4]使用由基于CNN的决策函数引导的迭代搜索过程来直接从CNN的输出导出道路网络图据我们所知，[4]是唯一的工作，然而，完全消除了中间，明确的像素图像标记步骤，并像我们的方法一样直接输出道路中心线。图像中的多边形预测具有悠久的历史，例如水平集[44]或活动轮廓模型。els [21].虽然这些方法遵循迭代能量最小化方案，并且通常是多步骤、自下而上的工作流程（例如，[7，15]对于道路网细化），直接从图像预测多边形是一个相对较新的研究方向。我们知道只有六个作品远离像素标记并直接预测2D多边形[10，8，4，5，1，29]。有趣的是，[10，5]在不使用深度学习的情况下应用无监督策略，并且对于超像素多边形[10]和多边形对象分割[5]取得了良好的结果[8]设计了一种半自动方法，其中人类注释者首先提供围绕感兴趣对象的边界框。由RNN与CNN耦合组成的深度学习方法，然后生成一个勾勒目标对象的这项工作的最近扩展[1]通过添加图形神经网络（GNN）[43，25]来提高输出分辨率。这种方法，以及[8]的原始工作，仍然依赖于用户输入，以提供围绕感兴趣对象的初始边界框，或校正多边形的预测顶点（如果需要的话）。[29]提取物1717多边形多边形图2：我们的方法用于建筑物足迹和道路网络提取的工作流程。道路和建筑物处理之间的唯一区别是，我们通过RoIAlign对建筑物使用相应的局部跳过特征（由FPN提供的边界框），但对道路使用整个特征图。通过将活动轮廓制定为深度学习任务来构建足迹，其中结构化损失施加了改进初始提取结果的学习总之，上面提到的现有技术要么关注像素级输出，要么只能处理单一类型的对象。因此，在遥感领域中缺乏直接的拓扑地图提取，这促使我们开发一种全自动的、端到端的可学习方法来检测给定头顶图像中的建筑物和道路的几何形状。3. 方法我们介绍了一种新的，通用的方法提取拓扑地图的航空图像使用多边形。我们首先讨论使用多边形表示来描述图像中的对象。3.1. 多边形表示我们将物体表示为多边形。与[8，1]一样，我们依靠CNN来找到基于图像证据的关键点，然后通过RNN顺序连接PolyMapper的一个根本区别是它完全自动运行，无需任何人为干预，与[8，1]相反，它最初是为了加速手动对象表示法而设计的[8，1]中讨论的所有模型（包括其“预测模式”）都需要用户首先绘制包含目标对象的边界框，并可能提供额外的手动干预（例如，拖动/添加/删除一些关键点）。我们完全避免任何手动干预，并提出了一个完全自动化的工作流程。然而，这是困难的，主要有两个原因：（1）多个感兴趣的对象可以出现在给定的图像块中，以及（2）不同目标对象的形状可以显著变化。例如，建筑物是图像中有限范围的封闭形状，而道路网络跨越整个场景，并且最好用一般图形拓扑来描述因此，我们提出了两个增强来解决这些问题然后介绍了通用流水线，如图1所示。2用于生成对象多边形。3.2. 多个目标先前的工作，如[8，1]，仅适用于为每个感兴趣的对象提供边界框时。因此，这些方法不能检测给定图像中的诸如多个建筑物的对象我们首先通过添加边界框检测步骤来解决建筑物的情况，为此，我们将特征金字塔网络（FPN）[26]集成到我们的工作流程中，并使其成为端到端模型。FPN通过利用CNN的多尺度金字塔层次结构并产生一组所谓的特征金字塔，进一步增强了 Faster R-CNN [42] 使用的区域建议网络（RPN）的性能。一旦生成了具有单个建筑物的图像三点四分。3.3. 从图到多面体道路或河流等对象的固有拓扑结构是一个通用图而不是多边形，并且该图的顶点不一定以顺序方式连接。为了将这些对象的拓扑结构重新表示为多边形，我们遵循迷宫求解算法的原理，即墙跟随器，也称为左/右手规则（见图11）。3）：如果迷宫是简单连接的，那么通过保持一只手与迷宫的一个壁接触，算法保证到达出口。我们应用这一原则来提取道路序列。如图3、道路网可视为一个双向图。每个路段具有两个方向相反我们假设对于给定的一对假设我们站在一个任意的边缘，我们按照下面的方式运动边界遮罩顶点遮罩第一个顶点FPNBBoxesRoIAlign图像RNNCNN骨干跳过功能ConcatenateRNNConcatenateConvConvConvConv选择选择171888543217689行走规则：（1）始终面向边缘方向行走;(2)遇到十字路口右转;（3）遇到死胡同时掉头。按照这套规则，我们在完成一个完整的循环后回到起点（见图1）。第3b段）。最后，我们连接所有的关键点（即，交叉点和死胡同）的顺序，以获得一个“多边形”（见图。第3c段）。以这种方式，在道路图中最初不连续的顶点变得有序。如果斑块面积较大或道路网络较密集，则可能存在多个多边形，如图所示。4.然而，我们只能得到一个单一的多边形，通过以下的规则描述上述。为了得到图中的所有多边形，我们需要遍历所有路段两次（向前和向后）。实际上，序列生成过程如下：我们首先遍历任意多边形中的所有边，并且对于未被访问的有向边，我们随机选择一条边并按照规则集遍历它，直到图中的所有边都被访问。出口入口3421F得到。我们将卷积层应用于特征，以生成描绘感兴趣对象的建筑物边界B的热图掩模这之后是附加的卷积层，输出由V表示的候选关键点的掩码。B和V的大小都等于输入图像的大小的1在所有候选人关键点，我们选择那些在V中得分最高的w点作为起点y0（与y-1相同，见图2）。（五）。如示于图2、路网的主要程序-工作提取与建筑物的情况相同。我们只适应ROI定义和顶点选择的道路情况。当在图像块内对建筑物RoI进行采样时，道路RoI对应于整个图像块。自然地，所生成的热图B指的是道路通过选择图像边缘处的起点候选项并选择具有最高得分作为起始点y0（与y-1相同）来预测唯一的外部多边形。请注意，外部多边形的每一段应传递两次，除非线段与内部多边形共享因此，在预测了外部多边形之后，我们选择只经过一次的线段的两个顶点作为y-1和y 0（反向），以进一步预测潜在的内部多边形。RNN部分如图所示。5时，RNN输出y t 的潜在位置P （y t+1|y t，y t-1，y0）。我们（一）（b）第（1）款（c）第（1）款输入yt和yt−1来计算条件概率，图3：道路拓扑序列化的迷宫墙跟随器方法。(a)T形接头的示例鸟瞰图(b)（c）序列顺序为1→2→3→2→4→2→1的“多边形”。图4：道路多边形提取一个较大的补丁导致一个外部anticipant多边形（橙色）和两个内部顺时针多边形（蓝色和绿色）。3.4. 管道CNN部分对于输入图像，我们首先使用没有尾层的VGG-16作为CNN主干来提取跳过特征[41]，其中1是输入图像的大小（见图10）。2）的情况。同时，FPN还从骨干网的不同层提取特征，构建特征金字塔，并预测包含建筑物的多个包围盒对于单个建筑物，使用跳过特征图及其边界框，然后是RoIAlign [18]，yt+1的分布，因为它允许定义一个唯一的方向如果给定多边形中两个相邻顶点的顺序，则该多边形中的下一个顶点是唯一确定的。注意，该分布还涉及结束信号（序列结束），其指示多边形达到闭合形状并且预测过程应该结束。因此，多边形中的最后一个结束顶点对应于第一个开始顶点y0，因此必须在每个步骤中包括该顶点。在实践中，我们最终连接F，B，V，y0（在道路的情况下，对于多边形预测也是y−1），并将所得张量馈送到具有ConvLSTM [45]单元的多层RNN，以便顺序预测将描绘感兴趣对象的顶点，直到它预测符号。对于建筑物，我们简单地按顺序预测顶点以获得最终建筑物多边形。在道路的情况下，预测的多边形本身不是直接需要的，而是用作顶点之间的一组边。因此，我们使用构成多边形的所有这些单独的线段进行进一步处理。具体地，每个预测段e与R1其中得分se计算为se=0B（e（u））du∈[0，1]，其中e（u）=ue1+（1−u）e2，B是中心线的热图，e1和e2是e的两个端点。我们删除具有低分数的段，并连接剩余的段以形成整个图。1719基于ConvLSTM单元的多层RNNy0（y-1）RNN输入：按顺序连接顶点最终输出yt-1yt-2y0图像特征图5：RNN为建筑物和道路生成的关键点序列预测。在每个时间步长t，RNN将当前顶点yt和先前顶点yt-1以及第一顶点y0作为输入，并输出条件概率分布P（yt +1 y t，y t − 1，y 0）。|当多边形到达其起始关键点并成为闭合形状时，结束信号被提升。请注意，RNN也采用CNN生成的特征（见图1）。2）作为每个时间步的输入3.5. 实现细节对于F，我们使用大小为28×28设置模型参数，B、V和yt，并将RNN的层数设置为3（建筑物）和4（道路）。在两种情况下，训练时序列的最大长度都设置为30建筑案例的总损失是FPN、CNN和RNN部分的组合损失。FPN损失包括用于锚分类的交叉熵损失和用于锚回归的平滑L1损失。CNN损失是指边界和顶点掩码的对数损失，RNN损失是多类分类在每个时间步的交叉熵损失。在道路情况下，FPN损失被排除在外。对于训练，我们使用Adam [22]优化器，批量大小为4，初始学习率为0.0001，以及default β1和β2。我们在4个GPU上训练了我们的模型，一天用于建筑物，12小时用于道路。在训练过程中，我们强制访问建筑物多边形的边缘的顺序是反序的，而对于道路多边形，我们遵循第2节中描述的规则集。三点三在推理阶段，我们使用宽度为w（在我们的实验中为5）的波束搜索。对于构建，我们选择V中具有最高概率的顶部w个顶点作为起始顶点，然后进行一般波束搜索过程。在w个多边形候选中，我们选择概率最高的一个作为输出。类似地，对于道路，我们选择图像边缘的顶点，然后选择具有最高得分的顶部w作为起点，并遵循一般的波束搜索算法。在预测外部多边形之后，我们可以进一步预测潜在的内部多边形。对于一幅较大比例尺的城市鸟瞰图，首先将整幅图像分成若干个覆盖率为50%的小块。在建筑物足迹的训练阶段，仍然使用图像边缘处的不完整足迹，但是，它们被排除在推理方案之外。对于道路，为了得到一个完整的城市道路网络，进行一些后处理，如拼接道路网络在相邻的补丁，消除小回路的图和重复的顶点和边。在单GPU上，对于每个图像块（300×300像素），建筑物和道路的平均推理时间分别为0.38s和0.29s4. 实验我们不知道任何公开可用的数据集2，其中包含标记的建筑物足迹和道路网络，以与大规模的航空图像结合在一起，从而创建我们自己的数据集（参见第二节）。4.3）。为了将我们的结果与最先进的技术进行比较，我们分别在流行的特定任务数据集crowdAI [37]和Road- Tracer [4]上评估建筑物足迹提取和道路网络划定4.2）。4.1. 评估措施对于建筑物提取，我们报告了标准MS COCO测量，包括平均精度（AP ，在IoU阈值上平均），AP50，AP75和APS，APM，APL（不同尺度的AP）。为了测量我们的方法检测到的建筑物相对于地面真实的比例，如SEC所述。3.4.最后，我们使用0.7（发现其产生良好的结果）以排除不匹配的边缘。此外，对于从2请注意，唯一包含建筑物足迹和道路中心线的数据集是SpaceNet[49]，它在亚马逊云上运行，使用的图像分辨率比我们的低。此外，我们不知道有任何科学出版物使用它的最先进的方法。建筑路y1RNNy0y-1y0y2RNNy1y0y0y3RNN年2年1年0y4RNN年3年2年0y5RNN年4年3年0y6RNNy5y4y0t=1t=2t=3t=4t=5t=61720DJIP表1：crowdAI数据集上的建筑物提取结果[37]方法APAP50AP75APSAPMAPLARAR50AR75ARSARMARLMask R-CNN[18，38]41.967.548.812.458.151.947.670.855.518.165.263.3PANet[28]50.773.962.619.868.565.854.474.565.221.873.575.0PolyMapper55.786.065.130.768.558.462.188.671.439.475.675.4(a) 掩码R-CNN [18，37]（b）PANet [28]（c）PolyMapper图6：使用（a）Mask R-CNN [18，37]，（b）PANet [28]和（c）PolyMapper实现的crowdAI数据集[37]的2个示例补丁上的建筑足迹提取结果。请注意，（a）和（b）中的结果是按像素标记的图像，而PolyMapper显示多边形以及与线段连接的顶点。用一种有意义的方式绘制道路图。与[32]中的定义类似，我们将地面实况和预测道路图中两条最短路径d和d的长度的相似性得分定义为最小值和最大值的比率，维生素B1（d）IoU（d，d）= IoU（d，d）=max（d，d）∈ [0，1].（一）然后，在给定IoU阈值t的情况下，我们可以如下定义加权精确率和召回率，（a）Mask R-CNN（b）PANet（c）PolyMapperPd[IoU（d，d）≥t]图7：Mask R-CNN和PANet的像素级语义分割结果与我们的直接多边形APIoU=t=iiPiJIidi、（二）预测PolyMapper的示例建筑。Pd*[IoU（d），d）≥t]我们还评估了平均召回率（AR），这不是ARIoU=t=jj jij∗J J、（3）在以前的作品中经常使用，如[18，28]。两其中[·]是指示函数，di和d参阅使用掩码IoU评估AP和AR但我们我想强调的是，与通过用于构建脚的普通方法产生的像素方式的输出掩模第i条最短路径及其对应的在地面真值图中搜索具有索引ji的类似于di和di。注意，最短路径计算-JJ打印提取，我们的输出是多边形表示的建筑脚印根据道路网络的拓扑结构评价道路网络的质量是一个重要的问题。[53]提出了一种连通性测度SP，其核心是评价道路图中随机选取的点对之间的最短SP生成大量的顶点对，计算地面实况和预测地图中的每两个顶点之间的最短路径，并输出预测长度等于（高达10%的缓冲区）地面实况、更短（错误的捷径）或更长（未检测到的道路段）的对的分数。除了SP，我们提出了一个新的拓扑评价措施，比较最短路径通过图[53]使用基于平均精确度（AP）和平均召回率（AR）的测量。这允许类似于建筑物足迹的评估，并比较地面实况和预测1721计算是昂贵的，并且不可能计算所有可能的路径详尽。因此，我们随机抽样100个起始顶点，并为每个顶点抽样1,000个结束顶点，总共产生100,000条最短路径。4.2. 与最新技术水平的我们使用crowdAI数据集[37]来验证建筑物足迹提取结果，并与最先进的技术进行比较。这个大规模的数据集分为以下几部分。训练集由280，000张图像组成，2，400，000个带注释的建筑足迹。测试集包括-包含60，000张图像和515，000个建筑物。每个单独的建筑物都以多边形格式注释为一个单独的建筑物，根据MS COCO [27]标准的顶点序列。我们将我们的模型在crowdAI数据集[37]上的性能与最先进的方法Mask R-CNN [18，38]和PANet [28]进行了比较。选项卡中的结果1示出1722表2：RoadTracer数据集上的道路网络提取结果[4]方法SP±5%SP±10%AP85AP90AP95AR85AR90AR95[32]第三十二话11.915.635.928.419.158.245.727.8RoadTracer [4]47.261.864.956.642.485.376.556.8PolyMapper45.761.165.557.240.784.274.853.7(a) DeepRoadMapper[32]（b）RoadTracer[4]（c）PolyMapper图8：RoadTracer数据集的阿姆斯特丹（上），洛杉矶（中）和匹兹堡（下）子场景的预测道路网络（橙色）与地面实况（蓝色）的比较[4]。一种方法推广到新场景。我们将我们的方法的结果与最先进的方法DeepRoadMapper [32]和RoadTracer [4]进行比较。我们直接将两个模型的预测图从[4]（重新实施的人[32]）并计算评估措施SP，AP和AR，如表1所示。二、视觉（a）Ground Truth （b）RoadTracer [4]（c）PolyMapper图9：图形结构的视觉比较。顶点为蓝色，边为橙色。PolyMapper在所有AP和AR指标中优于Mask R-CNN和PANet，除了APL，AP L指的是大型建筑物。我们假设大型建筑物的性能较差是由于它们的大特征图，这导致更不准确的位置信息，因为当重新调整到固定大小时，顶点位置可能会模糊。图6和图7提供了一个定性比较的预测国家的最先进的方法和PolyMapper，多边形似乎是一个更紧凑的表示建筑物。我们还看到PolyMapper可以自己学习生成直角。作为未来的工作，我们想探讨是否施加更多的几何约束可以进一步改善结果。为了评估道路网络提取，我们使用为RoadTracer方法定制的[4]的数据集。我们使用他们的代码下载整个数据集，并使用相同的训练和测试分割来训练我们的模型。请注意，我们分别对来自25个和15个城市的图像进行了训练和测试。因此，我们的研究结果在一定程度上表明，在原始图像上叠加的结果的比较如图所示。图8示出了图结构的比较。9. PolyMapper在所有测量方面都优于DeepRoadMapper[32]，并与RoadTracer [4]表现相当。我们将 PolyMapper 图结构与图中的地面实况和RoadTracer [4]进行了直观比较。9. PolyMapper的道路图表示接近地面实况，而RoadTracer预测更多的顶点。我们比较了整体图的复杂性方面的顶点和边的总数在标签。RoadTracer测试集的15个城市中有3个。PolyMapper的图形复杂度比Road- Tracer [4]减少了87%的顶点和边，比DeepRoadMapper[32]减少了70%。表3：图复杂度方法顶点数边数[32]第三十二话126,029118,978RoadTracer [4]271,244281,518PolyMapper31,74935,9984.3. PolyMapper数据集的比较我们不知道任何公开可用的数据集由包含这两个注释的最先进的方法1723表4：PolyMapper数据集的评估：建筑物方法APAP50AP75APSAPMAPLARAR50AR75ARSARMARLMask R-CNN[18，38]42.070.546.724.355.549.946.671.753.627.661.160.4PANet[28]42.171.746.325.554.547.947.072.554.129.160.457.0PolyMapper44.780.546.331.554.040.552.884.658.039.662.760.3表5：PolyMapper数据集的评估：道路方法SP±5%SP±10%AP85AP90AP95AR85AR90AR95[32]第三十二话48.661.674.361.847.875.963.949.4RoadTracer [4]65.777.782.875.460.285.578.666.2PolyMapper72.885.392.486.573.792.486.372.6(a) 芝加哥(b) Sunnyvale图10：（a）芝加哥和（b）Sun-nyvale的PolyMapper结果波士顿的结果如图所示。1.一、建筑物的足迹和道路网络的航拍图像。因此，我们按照用于获得crowdAI [37]和RoadTracer [4]数据集的相同过程创建了自己的数据集这个新的数据集包含来自OSM [17，16，14]的建筑足迹和道路网络以及来自Google Maps的航拍图像。我们收集了美国三个城市的数据集波士顿，芝加哥和桑尼维尔。在这项工作中，我们没有选择欧洲城市，因为许多建筑通常共享相同的屋顶，因此多边形实例分割是不明确的（即，航拍图像中的单个建筑物通常被分成多个实例注释）。至于亚洲城市，它们通常在OSM中有很多缺失的我们新的PolyMapper数据集包含400，000张图像，每个补丁的大小为300×300像素，显示缩放级别19（比例尺为每像素22.57米）在谷歌地图上，覆盖466.587平方公里，建筑物标注和道路标注8905.3公里。与RoadTracer [4]在25个城市上训练其模型并在15个不同城市上进行测试不同，我们在新PolyMapper数据集的每个城市上分别训练我们的方法和基线。模型的测试是在城市的不同区域进行的（与[32]相同的策略），并在城市之间计算加权平均值定量结果见表1。4和5.我们还可视化了图中一些测试区域的最终地图提取结果。1、10a和10b。有关新数据集和实验的统计数据的更多详细信息，请参阅补充材料。对于道路（见表5），PolyMapper在所有测量中始终优于DeepRoadMapper [32]和RoadTracer [4]（波士顿，芝加哥和森尼维尔的平均值）。至于多边形建筑物覆盖区提取（请参见表1）。4），PolyMapper的性能与像素级实例分割方法Mask R-CNN [18]和PANet[28]相当，但对于平均精度和召回率，PolyMapper仍然优于它们。5. 结论提出了一种新的方法，能够直接提取拓扑地图从城市上空影像与CNN-RNN架构。我们还提出了一种新的重构方法，可以将图结构序列化为闭合多边形，以统一不同类型对象的形状。我们在各种数据集上的实证结果表明，使用原始航空图像作为输入，对建筑物足迹和道路网络进行分层具有高水平的性能。总的来说，PolyMapper执行更好，或与国家的最先进的方法相比，是定制的，无论是建筑物或道路网络提取像素级。PolyMapper的一个优点是它产生拓扑结构而不是传统的每像素掩模，这更接近真实的在线地图服务，更自然，冗余更少。我们将我们的框架视为一个新的研究方向的起点，该方向通过深度神经网络从原始输入数据中直接学习高级几何形状先验，以预测矢量化对象表示。1724引用[1] David Acuna，Huan Ling，Amlan Kar，and Sanja Fidler.使用polygon-rnn++对分割数据集进行有效的交互式注释。在IEEE计算机视觉和模式识别会议论文集，第859-868页，2018年。[2] Mohammad Awrangjeb、Mehdi Ravanbakhsh和Clive S.弗雷泽使用激光雷达数据和多光谱图像自动检测住宅建筑。 ISPRS Journal of Photogrammetry and RemoteSensing，65（5）：457[3] Ruzena Bajcsy和Mohamad Tavakoli。计算机从卫星图片中识别道路。IEEE T. Systems，Man，and Cybernetics，6（9）：623 - 637，1976.[4] Favyen Bastani ， Songtao He ， Mohammad Alizadeh ，Hari Balakrishnan ， Samuel Madden ，Sanjay Chawla ，Sofiane Ab-bar，and David DeWitt.Roadtracer：从航空图像中自动提取道路网络。在计算机视觉和模式识别（CVPR），盐湖城，UT，2018年6月[5] Jean-Philippe Bauchet和Florent Lafarge。Kippi：图像的动态多边形分割。在IEEE计算机视觉和模式识别会议（CVPR），2018。[6] Ksenia Bittner ， Fathalrahman Adam ， Shiyong Cui ，Marco K？rne r，andPeterReinartz. 融合全卷积网络结合归一化 dsms 从vhr遥感图像中提取建筑物足迹 IEEEJournal of Selected Topics in Applied Earth Observationsand Remote Sensing，11（8）：2615[7] Matthias Butenuth和Christian Heipke。网络蛇：基于图形的对象描绘与活动轮廓模型。Machine Vision andApplications，23（1）：91[8] Lluis Castrejon，Kaustav Kundu，Raquel Urtasun，andSanja Fidler.使用多边形rnn注释对象实例。在CVPR，第1卷，第2页，2017年。[9] MauroDallaMura，JonAtliBenediktsson，B joürnWaske，and Lorenzo Bruzzone.用于极高分辨率图像分析的形态属性剖面。 IEEE Trans-actions on Geoscience andRemote Sensing，48（10）：3747[10] Liuyun Duan和Florent Lafarge。图像分割成凸多边形。在IEEE计算机视觉和模式识别会议论文集，第3119-3127页[11] Mark Everingham，S.M. 放大图片作者：Ali Eslami，Luc Van Gool ， Christo- pher K.I. Williams ， JohnWinn ， and Andrew Zisserman.PASCAL Visual ObjectClasses Challenge：A Retrospective.International Journalof Computer Vision，111（1）：98-136，2015.[12] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams ， John Winn ， and Andrew Zisserman.PascalVisual Object Classes （ VOC ）挑战。 InternationalJournal of Computer Vision，88（2）：303[13] Martin A. Fischler，Jay Martin Tenenbaum，and H. C. 狼利用多光谱知识集成技术检测低分辨率航空图像中的道路和线性结构。计算机图形和图像处理，15：201[14] Jean-FrancoisGirres 和 GuillaumeTouya 。法国OpenStreetMap数据集的质量评估Transactions in GIS，14（4）：435[15] Jens C Goepfert ， Franz Rottensteiner ， and ChristianHeipke.网络蛇适应GIS道路高度数据的不同数据源-性能分析使用ALS数据和立体图像。见ISPRS Annals ofPhotogramme-try ， RemoteSensingandSpatialInformation Sciences，vol-201 -3，pages 209[16] 莫迪凯·哈克雷地理信息的质量有多好OpenStreetMap和Orlando Survey数据集的比较研究。环境与规划B：Urban Analytics and City Science，37（4）：682 -703，2010.[17] 莫迪凯·哈克雷和帕特里克·韦伯OpenStreetMap：用户生成的街道地图。IEEE Pervasive Computing，7（4）：12[18] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面罩 R-CNN 。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980IEEE，2017年。[19] 克里斯提安·海普·凯，赫勒·埃纳·梅耶，克里斯蒂安·威德曼，奥利弗·贾梅特。道路自动提取的评价。地形物体的3D重建和建模，1997年。[20] 还有 Kaiser ， JanDirkWegner ， Aure'lienLucchi ，MartinJaggi，Thomas Hofmann，and Konrad Schindler.从在线地图学习航空图像分割。IEEE Trans-actions onGeoscience and Remote Sensing，55（11）：6054[21] 迈克尔·卡斯安德鲁·维特金和德米特里·特佐普洛斯。Snakes ：活动轮廓模型。 International Journal ofComputer Vision，1（4）：321[22] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。[23] Caroline Lacoste ， Xavier Descombes ， and JosianeZerubia.遥感中无监督线状网络提取的点过程。PAMI，27（10）：1568[24] 阿德里安·拉格朗日，伯特兰·勒索

下载后可阅读完整内容，剩余1页未读，立即下载