PPGNet:学习点对图用于线段检测

59 浏览量更新于2023-10-18 收藏 15.08MB PDF 举报

图像处理

泛化能力

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

The recent success of deep learning has shown the de-sirable capability of image understanding, such as imageclassiﬁcation [19,23,47,48], object detection [13,14,17,40],and semantic segmentation [26,41]. On the other hand, deeparchitectures are also effective in low-level tasks, such ascontour detection [45] and super-resolution [9]. [21] is apioneer work of extracting wireframe in man-made sceneswith a deep architecture, for human-level perception of scenegeometry. Their proposed network outputs pixel-wise junc-tion conﬁdence and directions together with a line heatmap,followed by a post-processing algorithm merging them togenerate a parameterized presentation of line segments. Asintroduced in the literature, the conception of the wireframeis a small subset of common line segments and junctions,which is practically deﬁned by their dataset annotation. Con-sidering that line segments outside the wireframe subset alsocontain strong geometrical information, and line segmentdetection itself is still a challenging problem in computer71050PPGNet: 学习点对图用于线段检测0Ziheng Zhang � Zhengxin Li � Ning Bi Jia Zheng Jinlei Wang Kun Huang Weixin Luo Yanyu Xu Shenghua Gao †0上海科技大学0{ zhangzh, lizhx, bining, zhengjia, wangjinlei, huangkun, luowx, xuyy2, gaoshh } @shanghaitech.edu.cn0摘要0本文提出了一种在人造环境中检测线段的新框架。具体而言，我们建议使用简单的图形来描述交叉点、线段及其之间的关系，这比现有线段检测方法中使用的端点表示更结构化和信息丰富。为了从图像中提取线段图，我们进一步引入了PPGNet，这是一个卷积神经网络，可以直接从图像中推断出一个图。我们在包括约克城市和线框数据集在内的公开基准上评估了我们的方法。结果表明，我们的方法在所有基准上都达到了令人满意的性能，并且具有良好的泛化能力。我们的工作源代码可在https://github.com/svip-lab/PPGNet上获得。01. 引言0从2D图像中提取3D信息长期以来一直是计算机视觉中的一个基本问题。基于局部特征检测、匹配和跟踪（例如角点、边缘、SIFT特征和补丁）的传统方法的可行性已经得到证明。然而，现代应用程序涉及自主代理和人造物理环境之间的交互，提出了更复杂的挑战。一方面，人造环境通常包含丰富的均匀表面和高度重复的模式，这给特征匹配和跟踪带来了困难。另一方面，对于一些应用（例如视觉里程计），其性能高度依赖于不同视图中呈现的几何基元的选择，这些基元（例如点、线段或其他结构）的选择变得至关重要：不同的基元提供不同的几何信息集。对于类似于曼哈顿世界[7,11,38]或房间拓扑[24,57,60]的空间结构的先验假设可以显著改善3D重建，但它们在真实的人造环境中经常被违反。相反，常见的交叉点和线段能够在不依赖于任何先验假设的情况下提供重要的几何信息。对于与3D视觉相关的广泛任务，例如相机标定[10,43,56]、跨视图匹配[44]和3D重建[20,37,56]，边缘显示出比点更强的光照变化鲁棒性和保留更多信息。最近的几项工作[22,55,60]表明，线段可以在室内场景的3D建模中大大提高效果。0� 相等贡献 † 通讯作者0深度学习的最近成功展示了图像理解的理想能力，例如图像分类[19,23,47,48]、目标检测[13,14,17,40]和语义分割[26,41]。另一方面，深度架构在轮廓检测[45]和超分辨率[9]等低级任务中也很有效。[21]是在人造场景中用深度架构提取线框的先驱工作，用于对场景几何的人类级感知。他们提出的网络输出像素级的交叉点置信度和方向，以及线段热图，然后通过后处理算法将它们合并以生成线段的参数化表示。正如文献中介绍的，线框的概念是常见线段和交叉点的一个小子集，其实际上是由数据集注释定义的。考虑到线框子集之外的线段也包含强的几何信息，并且线段检测本身仍然是一0传统的线段检测算法[1,2,27,49]通常从边缘检测开始，然后进行合并过程，可选地使用一些细化技术。然而，这些方法通常对尺度和光照的变化敏感，因为它们仅依赖于局部特征。此外，一些几何信息丰富的线段，例如两个同色墙壁之间的交叉点，通常具有较低的局部边缘响应，因此往往被这些方法忽略。相比之下，人类可以通过全局语义推理轻松识别这种视觉上模糊的交叉点。71060在计算机视觉中，我们专注于鲁棒的普通线段检测。在本文中，我们提出使用简单的图形描述交叉点、线段以及它们之间的关系。在我们的图形表示中，节点代表顶点，边代表连接交叉点对（即线段）。该图形完全能够描述交叉点之间的任何复杂连接。在此基础上，我们引入了PPGNet，一种基于卷积神经网络的新型架构，可以直接从给定的图像中推断出点对图。具体而言，我们首先使用骨干网络进行特征提取，用于检测交叉点。然后，我们为每个交叉点对构建线段候选，并重复使用提取的特征来推断线段候选的连接性。因此，所有交叉点及其连接性形成了一个图形，描述了输入图像中的所有线段。值得注意的是，我们提出的网络可以直接从给定的 RGB图像中预测出一个图形。为了训练我们提出的PPGNet，我们需要一个带有注释的交叉点数据集，以及每个可能的交叉点对之间的连接性。然而，现有数据集中的注释通常忽略了一些重叠的线段，因此不能直接用于训练我们的网络。为了解决这个问题，我们为现有数据集生成了更具信息量的基于图形的注释。此外，我们还引入了一个新的大规模线段数据集，其中包含完全注释的室内和室外样本，填补了当前数据集在训练深度架构方面规模较小或缺乏室内/室外样本的空白。本文的贡献可以总结如下：首先，我们引入了基于图形的线段表示，与常用的端点表示相比，能够以更结构化和信息丰富的方式描述所有可能的线段；其次，我们设计了一种新颖的深度架构，可以直接从输入图像中推断出线段图；第三，我们构建了一个新的数据集，涵盖了室内和室外场景，并对线段进行了完全注释；第四，实验结果表明，我们的方法在多个数据集上取得了令人满意的性能，并具有良好的泛化能力。02. 相关工作02.1. 线段检测0手工设计的线段检测器的主要流程通常包括局部特征提取、像素分组和可选的细化。这些方法通常从检测具有高局部梯度和/或边缘响应的像素开始，然后通过迭代生长[35]、共线聚类 [27]、Hough 域累积 [12,30,54]或马尔可夫链 [2]等方法将它们分组成线段。线段可以通过基于 Helmholtz原理的误检控制进行可选的细化 [1,49]。0以及片段合并和端点重定位 [4]。0手工设计的线段检测器高度依赖于精心设计的参数。即使其中一些是无参数的，结果仍然对阈值的选择非常敏感。在最近的一项研究中[21]，提出了一种包括两个分支的卷积神经网络，用于从图像中解析出一个交叉点图和一个线段热图，然后将它们合并成一组线段。这种基于学习的方法在性能上大大优于手工设计的方法。然而，到目前为止还没有一个直接输出参数化线段表示的框架。02.2. 交叉点检测0尽管交叉点检测已经研究了很长时间[15,42]，但仍然是一个具有挑战性的问题。一个典型的方法是基于所谓的 Harris 矩阵计算局部角点[16]，然而这种方法对尺度和定位非常敏感。一些方法专注于轮廓曲率或延续性来检测交叉点[3,5,32]。其他方法利用纹理与基于梯度 [6,46] 或基于模式[36,51] 的模板之间的一致性作为有效的交叉点检测线索。0根据心理物理分析，即使对于人类来说，没有足够大的区域的上下文信息，识别连接点也是困难的[31]。在这个方向上，[28]通过将局部线索（如亮度、颜色和梯度）与从人工注释数据中学习到的全局边界概率（gPb）检测器相结合，实现了稳健的边缘和连接点检测。受益于深度神经网络的大感受野，[21]在连接点检测上取得了最先进的性能。02.3. 基于CNN的图形推断0卷积神经网络能够从图像中推断出图形。在[34]中，通过将每个人视为一个图形并使用关联嵌入将身体关节分组，解决了多人姿势估计问题。作为更一般的工作，通过关联嵌入[33]，训练了一个CNN来检测图像中的所有对象和它们之间的关系。场景图中的对象和关系可以通过门控循环单元（GRU）[53]进一步细化。然而，他们的网络只输出节点和边，以及将边关联到节点的嵌入，因此需要额外的步骤来构建最终的图形。此外，他们的框架无法处理任意重叠的边。相比之下，我们的网络可以直接从输入中推断出由节点和邻接矩阵参数化的任意简单图形。710703. 用于线段检测的PPGNet03.1. 连接点-线段图表示法0在这里，我们考虑直接从RGB图像中检测线段的问题。我们提出使用一个简单的图Gn = {Vn,En}来表示给定图像Xn（数据集中的一个索引为n的样本）中的所有线段，其中Vn表示连接点的集合，En表示任意连接点对之间的连接关系的集合。我们现在将原始的线段检测问题转化为图形推断问题。在我们的实现中，Vn和En使用连接点的有序列表Jn和邻接矩阵An进行参数化。因此，Jn中的每个元素都是连接点的坐标，矩阵An的第i行第j列的条目Anij只有在连接点对Jni和Jnj形成一条线段时才等于1。与端点表示法相比，图形表示法更加结构化。共享相同端点的线段只会在邻接矩阵中添加更多的1，而不会引入额外的项。此外，图形表示法也更加丰富。连接点之间的连接关系以组合方式完全描述（图1），并且图形中描绘了更长的线段和任何内部较短的线段，这有助于根据特定应用程序从图形中选择合适的线段。0图1.连接点密集连接的一些情况。如红色虚线所示，图形表示法可以更完整地识别连接点之间的连接关系，而不是端点表示法。绿色线段是没有内部连接点的简单线段。0在这项工作中，我们使用深度神经网络学习从RGB图像X到图形G的映射。由于G完全描述了X中的所有线段，并且可以通过轻微的努力转换为端点表示，因此我们的方法是一个统一的解决方案，尽管包含多个阶段，来解决线段检测问题。03.2. PPGNet0受Faster R-CNN[40]的启发，我们提出了一个两阶段的框架，第一阶段检测连接点0在第一阶段检测连接点，然后在第二阶段识别所有点对之间的连接关系。所提出的PPGNet如图2所示，包括四个部分：（i）用于从整个输入图像中提取特征的卷积骨干架构，（ii）连接点检测模块（JDM），（iii）线段对齐模块（LSAM），它提取由一对检测到的连接点定义的线段候选的特征张量，以及（iv）邻接矩阵推断模块（AMIM），它检测每对连接点之间的连接关系。给定一张图像，我们的网络预测连接点的位置和由邻接矩阵表示的它们之间的连接关系。03.2.1 主干网络0我们使用由CSAIL实现的语义分割网络作为我们的主干网络，它由一个带有金字塔池化的扩张ResNet-50编码器和解码器组成，除了最后一个卷积层外，输出通道数C由1更改为256。对于大小为H×W的输入图像，主干网络提取大小为H/4×W/4的256通道特征图。03.2.2 连接点检测模块0Junction DetectionModule通过坐标提取输入图像上的连接点。与常用的基于锚点的检测方法（如R-CNN [40]、YOLO [39]或SSD[25]）不同，Junction DetectionModule首先回归连接点热图，然后应用局部最大值滤波器（LMF）获取连接点响应高于其八个邻居的坐标。非最大值抑制（NMS）也用于避免对同一连接点的多次检测。与检测方法中的NMS不同，JDM使用层次聚类和单链接算法实现NMS，其中聚类由不一致性方法形成，具有截断阈值（在我们的所有实验中为3个像素）。具体而言，JDM通过卷积结构从主干网络提取特征，首先回归连接点热图，该卷积结构由两个conv3x3-bn-relu块和一个具有sigmoid激活的conv1x1层组成。然后，它确定热图中连接点响应高于阈值τ且高于8个邻居的所有点。之后，检测到的点被聚类成组，其中任意两个点之间的距离不大于�，并且其组中具有最高连接点响应的所有点被预测为连接点。在我们的所有实验中，我们使用�= 3个像素。01关于主干网络的详细信息可以在Github页面https://github.com/CSAILVision/semantic-segmentation-pytorch找到71080Junction Detection Module用于检测和邻接矩阵推断的连接点。其次，Junction DetectionModule输出一个N个连接点的列表。然后，每个连接点对形成两个不同方向的线段候选，将特征均匀采样到两个大小为C×L的特征矩阵中。然后，我们对每个特征矩阵应用1D卷积，输出大小为C的特征向量。最后，每个特征向量由Adjacency Matrix InferenceModule用于推断相应连接点对的连接性。03.2.3 线段对齐模块0给定两个连接点和一个特征图，LSAM沿着连接点对定义的线段候选对特征图进行采样，并从特征图中提取固定长度的特征向量。LSAM的工作方式类似于ROIAlign模块[17]，不同之处在于LSAM对齐特征向量而不是补丁。对于每个连接点对和图像的特征图，LSAM生成一个大小为C×L的特征张量，其中C是特征图的通道数，L是线段特征的空间长度。具体而言，LSAM首先从连接点的起点到终点生成L个等距采样点，然后使用双线性插值在特征图上对每个点进行像素值采样。在我们的主模型中，L被设置为64，因此每个连接点对产生一个大小为C×64的特征张量用于连接性推断。03.2.4 邻接矩阵推断模块0AMIM预测图像中每对连接点的连接性。它使用LSAM提供的所有线段候选特征，并使用卷积结构预测每个候选的连接概率。给定JDM预测的K个连接点，AMIM通过线段检测问题转化为两个连接点是否连接的二元分类问题，生成一个K×K的邻接矩阵A。对于每对可能的连接点，LSAM提取与不同连接顺序对应的线段的两个特征向量。0然后将其输入到三个级联的conv2d-gn-relu块中，其中gn表示Group Normalization Layer[50]。三个卷积层的核大小、步长和填充大小分别为8、4、2。然后，使用一个单独的conv2d-sigmoid块来获取不同顺序的接点对的连接置信度，其中最低的置信度成为接点对的最终置信度。直观地说，这个处理作为一个“与”逻辑来确保无论特征连接的顺序如何，接点对都是连接的。0在实践中，由于JDM可以检测任意数量的接点，AMIM每次预测一个固定大小的矩阵A的块，然后多次运行以获得整个邻接矩阵。此外，由于AMIM在检查所有接点对之间的所有可能连接性时具有O(n^2)的复杂度，因此在AMIM中处理过多的接点是不切实际的。由于观察到JDM倾向于为与更多线段相关联的接点分配更高的分数，当JDM输出超过512个接点时，我们只选择热图上响应最高的前512个接点。在我们的实验中，使用Tesla P40GPU处理包含512个接点的图像大约需要0.9秒。03.2.5 损失函数0接点热图和邻接矩阵都使用二进制交叉熵损失进行监督，最终损失是两者的加权和。71090# 图像分辨率 # 平均接点数 # 平均线段数场景 \ 线段类型0Wireframe 5462 480 * 405(平均) 150 75 室内 \ 线框线段 York Urban 102 640 * 480 209119 室内和室外 \ 曼哈顿 Ours-indoor 1378 900 * 1200 67 41 室内 \ 一般 Ours-outdoor2534 2048 * 1080 537 311 室外 \ 一般0两个损失的加权和，即0L = λ_junc L_junc + λ_adj L_adj0L_junc = -∑0i ˜H_i log H_i + (1 - ˜H_i) log (1 - H_i)0L_adj = -∑0i ˜A_i log A_i + (1 - ˜A_i) log (1 - A_i)0其中˜H_i和H_i分别是预测接点和接点的真实值的元素，˜A_i和A_i分别是预测邻接矩阵和邻接矩阵的真实值的元素。BCE代表交叉熵。我们在所有实验中将λ_junc = λ_adj = 1。03.3. 训练和评估细节0所有模块都使用随机梯度下降（SGD）进行联合优化，其中学习率（lr）= 0.2，权重衰减（weight decay）= 5 ×10^-4，动量（momentum）=0.9，除了所有归一化层，其中权重衰减设置为零。骨干网络使用在MITADE20K数据集上进行分割任务预训练的参数进行初始化，其他模块使用kaiming初始化[18]进行初始化，这是常见的做法。在训练阶段，AMIM推断出与JDM预测的接点相对应的接点的邻接矩阵，因为我们没有相应的接点邻接矩阵用于监督。在评估阶段，接点和邻接矩阵由我们的PPGNet联合估计。04. 实验和结果0我们进行了实验证明了我们提出的方法的性能，并将其与几种SOTA方法进行了比较。我们的模型使用Pytorch框架实现，使用四个Tesla M40 GPU进行训练。04.1. 数据集和评估指标0迄今为止，据我们所知，存在两个线段数据集，即Wireframe [21]和York Urban[8]。然而，前者只有大多数室内场景中的线框线段进行了注释，而后者虽然包含室内和室外场景，但规模较小（102个样本），并且只有曼哈顿线标记。为了验证我们的框架在新的室内和室外场景中检测一般线段的能力，0我们构建了一个新的线段数据集，包括1,378张室内图像和2,534张室外图像，并进行了精心标注的线段。对于室内部分，我们使用由七个GoPro相机组成的相机阵列拍摄分辨率为900×1200的图像。对于室外部分，我们使用装备在DJI无人机上的4K相机拍摄我们校园的航拍视频，并以至少两秒的间隔提取高质量的帧。由于原始视频的分辨率对于标注和训练神经网络来说太大，我们进一步将每个帧裁剪成四个2048*1080的图像。室内和室外部分的所有线段都按照以下协议进行注释：任何可见的线段，其长度超过图像对角线的10%，且被遮挡的长度不超过其长度的10%。每个样本由一名志愿者注释，然后由另一名志愿者进行二次检查。与线框图[21]或曼哈顿线的概念不同，我们数据集中标注的线段只需要可见且具有几何信息。表1总结了现有数据集和我们的数据集的统计信息。0数据预处理为了学习从图像到线段图的映射，需要完整描述所有交叉点之间的连接性。然而，所有现有的数据集都使用端点来表示线段，在某些情况下可能缺少交叉点和连接性。因此，我们引入数据准备方案，将原始数据集中的每个注释转换为其图形表示版本，具体步骤如下。01. 删除与没有线段相关联的孤立交叉点。2.通过搜索每个线段的最远端点交叉点，找到最长的线段，然后将最长线段中的所有交叉点标记为连接的。请注意，由于可能存在注释错误，搜索不是沿着线段进行的，而是在线段周围的一个带状区域内进行的。3.如果一个线段的所有内部交叉点是另一个线段的子集，则删除该线段。线段的内部交叉点由它们与线段的距离确定。71100图3.我们线段检测方法的定性评估。第一行：地面真实值（线框图）；第二行：预测值（线框图）；第三行：地面真实值（约克城市数据集）；第四行：预测值（约克城市数据集）；第五行：地面真实值（我们的数据集）；第六行：预测值（我们的数据集）。04. 通过重新拟合将每个线段细化到其内部交叉点。5.通过求解相应线段施加的线性方程组来细化两个或多个线段的交叉点。6.通过找到所有线段对的交点来检索可能缺失的交叉点。7.构建最终的线段图，其由有序的交叉点列表和邻接矩阵参数化。0通常，数据准备方案试图纠正一些错误的注释，并补充可能缺失的交叉点和连接性。有关方案的详细信息，请参阅我们发布的代码。0评估指标我们使用召回率和精确度来定量评估方法，如[21,28,29,51]所述。召回率是检测到的真实线段像素与真实线段像素总数的比例，而精确度是检测到的真实线段像素与预测线段像素总数的比例。0确实是真正的正样本的线段像素。具体计算如下：0召回率 ˙= | G ∩ Q | / | G | ，精确度 ˙= | G ∩ Q | / | Q | ，0其中G表示地面真实值，Q表示预测值。请注意，根据之前的研究[28,29,51]的协议，召回率和精确度的特定测量允许对线段像素的定位有一定的容忍度。我们实验中的容忍度设置为图像对角线的0.01，与[21]相同。04.2. 性能评估0为了评估我们框架的性能，我们将我们的方法与现有技术（LSD[49]，MCMLSD[2]和Huang等人的线框解析器[21]）在三个实验设置下进行了比较：（a）在Wireframe数据集上进行训练和测试，使用标准划分；（b）在Wireframe数据集上进行训练，在York-Urban数据集上进行测试；（c）在Wireframe数据集上进行训练并在我们的数据集上进行测试。由于Wireframe和YorkUrban数据集是公开的基准，我们在设置（a）和（b）下进行定量比较。在第三个设置下进行定性评估，以观察不同数据分布之间的泛化能力。71110在我们的框架中，AMIM预测了JDM检测到的交叉点的连接性，其中阈值τ对性能有根本影响。我们全面比较了不同τ值的性能。如图7所示，τ∈[0.2，0.3]导致更好的精确度-召回率曲线。根据AUC的定量评估，τ=0.25略优于τ=0.2和τ=0.3。0定量比较对于我们的PPGNet，我们在设置（a）和（b）下进行了两个实验，其中（i）AMIM使用JDM预测的交叉点（标记为PPGNet），（ii）AMIM使用地面真实交叉点预测线段（标记为PPGNet*）。我们包括第二个实验的原因是这两个基准只有一部分线段被注释，即线框和曼哈顿线，但我们的框架是用于一般线段检测的。只有通过地面真实交叉点，我们的框架才能理解应该考虑哪种类型的交叉点。0（b）图4.PPGNet和现有方法在（a）Wireframe数据集和（b）York-Urban数据集上评估的精确度-召回率曲线。对于PPGNet和PPGNet*，我们将JDM的阈值设置为0.25，并在[0.05，0.1，0.15，0.2，0.25，0.3，0.4，0.5，0.6，0.7]范围内变化AMIM的阈值。0如图所示，尽管我们的PPGNet在实验（i）中与[21]相比表现较差，但在实验（ii）中表现出更好的性能。综合来看，我们的方法达到了令人满意的性能。0定性分析图3展示了我们方法在几个（随机）样本上线段检测的可视化结果。可以看到我们的方法能够在复杂环境中鲁棒地检测到线段，并且在没有训练的数据集上具有良好的泛化能力。为了定性比较我们的方法与线框解析器[21]在一般线段上的性能，我们通过在Wireframe数据集的测试集中添加缺失的一般线段（除了线框）来改进注释。图5展示了PPGNet和[21]方法在一些随机选择的样本上的可视化结果。可以观察到我们的方法能够检索到比[21]更丰富的线段信息。我们还注意到我们的模型在某些情况下失败，如图6所示。有两种典型情况：（1）对于小的0在图像中，我们的模型倾向于将对角交叉点预测为连接的盒子，并且对于接近共线线段，我们的模型倾向于忽略间隙并将所有交叉点预测为连接的。这些情况可能是由于AMIM中的采样过程引起的。对于情况（1），双线性采样可能会引入采样位置周围的附近特征。因此，附近的交叉点可能会干扰当前交叉点的连接性预测。另一方面，情况（2）可能发生在很少或没有采样点落在这些共线线段之间的间隙中，这会阻止AMIM识别不连续性。04.3. JDM的交叉点阈值0在我们的框架中，AMIM预测了JDM检测到的交叉点的连接性，其中阈值τ对性能有根本影响。我们全面比较了不同τ值的性能。如图7所示，τ∈[0.2，0.3]导致更好的精确度-召回率曲线。根据AUC的定量评估，τ=0.25略优于τ=0.2和τ=0.3。04.4. LSAM的采样率0LSAM从两个连接点之间的空间采样特征中预测连接性。因此，LSAM的采样率对我们模型的性能有根本影响。为了分析采样率对性能的影响，我们进行了实验，其中在LSAM中使用了不同的采样率。结果如图8.(a)所示，我们可以看到LSAM受益于更高的采样率。然而，更高的采样率也会引入额外的内存使用和计算成本。因此，在选择采样率时，应该同时考虑性能和效率要求。作为一个极端情况，采样率等于2意味着只对连接点位置的特征进行采样。在这种情况下，LSAM缺乏足够的信息来确定连接点的连接性。图8.(a)显示了仅采样两个点时的典型结果。正如可以看到的那样，LSAM无法识别两个共线线段之间的间隙以及从相同连接点开始的线段的方向。05.结论和讨论0在本文中，我们提出使用图形来表示给定图像中的所有线段，并引入PPGNet，一种直接从图像中推断图形的多阶段深度架构。我们的方法在多个公共基准测试中实现了令人满意的性能，并显示出了显著的泛化能力。我们的框架仍有改进的空间。例如，目前LSAM预测了所有可能的线段的连接性，这导致了时间复杂度为0.00.10.20.30.40.50.60.70.80.91.0recall0.00.10.20.30.40.50.60.70.80.91.0precisionτ=0.05τ=0.1τ=0.15τ=0.2τ=0.25τ=0.3τ=0.35τ=0.39τ=0.44τ=0.49τ=0.54τ=0.6τ=0.65τ=0.70.00.10.20.30.40.50.60.70.80.91.0recall0.00.10.20.30.40.50.60.70.80.91.0precisionS32S8S271120图5.在改进的Wireframe数据集上的定性结果。第一行：真实值；第二行：[21]中提出的方法的结果；第三行：PPGNet的结果。0（b）图6.失败案例：（a）包含小矩形的图像样本；（b）包含非常接近的共线线段的图像样本。0精确度/召回曲线0图7.不同JDM阈值τ的精确度-召回曲线。0可能的线段，这导致了时间复杂度为0（b）图8.（a）不同LSAM采样率的精确度-召回曲线的说明；（b）仅汇集连接点特征时的示例预测。0O（n2）。也许可以根据特定的应用程序过滤一些线段候选者，但可能存在进一步减少计算成本的更好方法。另一方面，PPGNet本身是一种从图像中推断图形的通用框架。原则上，PPGNet也可以用于解决需要检测视觉部分及其空间连接的其他问题。人体姿势估计是这类问题的一个典型例子，我们有兴趣在未来的工作中利用PPGNet的可能应用。0参考文献0[1] Cuneyt Akinlar和CihanTopal。Edlines：具有误检测控制的实时线段检测器。PatternRecognition Letters，32（13）：1633-1642，2011年。[2]Emilio J Almazan，Ron Tal，Yiming Qian和James H El-der。Mcmlsd：一种线段检测的动态规划方法。在计算机视觉和模式识别（CVPR），2017IEEE会议上，页码5854-5862。IEEE，2017年。71130[3] Mohammad Awrangjeb和GuojunLu。改进的曲率尺度空间角点检测器和用于变换图像识别的鲁棒角点匹配方法。IEEE图像处理交易，17（12）：2425，2008年。[4]Mark Brown，David Windridge和Jean-YvesGuillemaut。基于显著性的线段检测的通用框架。PatternRecognition，48（12）：3993-4011，2015年。[5] FrédéricCao。数字图像水平线的良好延续性。在ICCV，卷1，页码440-448，2003年。[6] Miguel A Cazorla和FranciscoEscolano。两种贝叶斯方法用于连接分类。IEEE图像处理交易，12（3）：317-327，2003年。[7] Erick Delage，HonglakLee和Andrew Y.Ng。室内曼哈顿世界场景的自动单幅图像3D重建。Isrr，28：305-321，2007年。[8] Patrick Denis，James H Elder和Francisco JEstrada。在城市图像中估计曼哈顿框架的高效基于边缘的方法。在欧洲计算机视觉会议上，页码197-210。Springer，2008年。[9]Chao Dong，Chen Change Loy，Kaiming He和XiaoouTang。学习用于图像超分辨率的深度卷积网络。在欧洲计算机视觉会议上，页码184-199。Springer，2014年。[10] AliElqursh和Ahmed Elgammal。基于线的相对姿态估计。在CVPR2011上，页码3049-3056。IEEE，2011年。[11] AlexFlint，David Murray和IanReid。使用单目，立体和3D特征的曼哈顿场景理解。在IEEE国际计算机视觉会议上，页码2228-2235，2011年。[12] YasutakaFurukawa和YoshihisaShinagawa。通过分析霍夫空间中峰值周围的分布来提取准确和鲁棒的线段。计算机视觉和图像理解，92（1）：1-25，2003年。[13] RossGirshick。快速R-CNN。在IEEE国际计算机视觉会议上的论文集，页码1440-1448，2015年。[14] Ross Girshick，JeffDonahue，Trevor Darrell和JitendraMalik。用于准确的目标检测和语义分割的丰富特征层次结构。在计算机视觉和模式识别中，2014年。[15] Marsha JHannah。计算机匹配立体图像中的区域。技术报告，斯坦福大学计算机科学系，1974年。[16] Chris Harris和MikeStephens。组合角和边缘检测器。在Alvey视觉会议上，卷15，页码10-5244。Citeseer，1988年。[17] Kaiming He，GeorgiaGkioxari，Piotr Dollar和Ross Gir-shick。掩膜R-CNN。在IEEE国际计算机视觉会议（ICCV）上，2017年10月。[18] Kaiming He，Xiangyu Zhang，ShaoqingRen和JianSun。深入研究整流器：在图像分类中超越人类水平的性能。在计算机视觉（ICCV）上，2015IEEE国际会议，页码1026-1034。IEEE，2015年。[19] KaimingHe，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差学习用于图像识别。在IEEE计算机视觉和模式识别会议上的论文集，页码770-778，2016年。0[20] Manuel Hofer, Michael Maurer, and Horst Bischof.使用线段进行高效的3D场景抽象。《计算机视觉与图像理解》,157:167–178, 2017. [21] Kun Huang, Yifan Wang, Zihan Zhou,Tianjiao Ding, Shenghua Gao, and Yi Ma.学习解析人造环境图像中的线框。在《计算机视觉和模式识别的IEEE会议论文集》, pages 626–635, 2018. [22] Pyojin Kim, BrianColtin, and H Jin Kim.从单条线和平面中室内RGB-D指南针。在《计算机视觉和模式识别的IEEE会议论文集》, pages 4673–4680, 2018. [23] AlexKrizhevsky, Ilya Sutskever, and Geoffrey E Hinton.使用深度卷积神经网络进行ImageNet分类。在《神经信息处理系统的进展》, pages 1097–1105, 2012. [24] Chen-Yu Lee, VijayBadrinarayanan, Tomasz Malisiewicz, and Andrew Rabinovich.Roomnet: 端到端的房间布局估计。在《计算机视觉国际会议》,pages 4875–4884. IEEE, 2017. [25] Wei Liu, DragomirAnguelov, Dumitru Erhan, Christian Szegedy, Scott Reed,Cheng-Yang Fu, and Alexander C Berg. SSD:单次多框检测器。在《欧洲计算机视觉会议》, pages 21–37.Springer, 2016. [26] Jonathan Long, Evan Shelhamer, andTrevor Darrell.用于语义分割的全卷积网络。在《计算机视觉和模式识别的IEEE会议论文集》, pages 3431–3440, 2015. [27] Xiaohu Lu, Jian Yao,Kai Li, and Li Li. Cannylines:一种无参数的线段检测器。在《图像处理的IEEE国际会议》, pages507– 511. IEEE, 2015. [28] Michael Maire, Pablo Arbelaez,Charless Fowlkes, and Jiten- dra Malik.使用轮廓在自然图像中检测和定位交叉点。在《计算机视觉和模式识别的IEEE会议论文集》, pages 1–8. IEEE, 2008. [29] David RMartin, Charless C Fowlkes, and Jitendra Malik.使用局部亮度、颜色和纹理线索学习检测自然图像边界。《模式分析与机器智能的IEEE交易》, 26(5):530–549, 2004. [30] Jiri Matas,Charles Galambos, and Josef Kittler.使用渐进概率Hough变换鲁棒地检测线段。《计算机视觉与图像理解》, 78(1):119– 137, 2000. [31] Josh McDermott.在真实图像中使用交叉点进行心理物理学研究。《感知》,33(9):1101–1127, 2004. [32] Farzin Mokhtarian and RikuSuomela.通过曲率尺度空间进行鲁棒的图像角点检测。《模式分析与机器智能的IEEE交易

下载后可阅读完整内容，剩余1页未读，立即下载