基于区域划分的线段地图吸引场双重表示方法

8 浏览量更新于2023-10-20 收藏 12.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{xuenan, fudong-wang, guisong.xia, zlp62}@whu.edu.cn,Line SegmentsRegion-Partition MapAttraction Field Map ConvNet(b) Our approach for line segment detectionline segment maps provide compact structural informationthat facilitate many up-level vision tasks such as 3D recon-struction [6, 8], image partition [7], stereo matching [32],scene parsing [34, 33], camera pose estimation [27], andimage stitching [25].LSD usually consists of two steps: line heat map gen-eration and line segment model ﬁtting.The former canbe computed either simply by the gradient magnitude map(mainly used before the recent resurgence of deep learning)[23, 31, 5], or by a learned convolutional neural network(ConvNet) [26, 18] in state-of-the-art methods [12]. Thelatter needs to address the challenging issue of handling un-known multi-scale discretization nuisance factors (e.g., theclassic zig-zag artifacts of line segments in digital images)when aligning pixels or linelets to form line segments inthe line heat map. Different schema have been proposed,e.g., the ǫ-meaningful alignment method proposed in [23]and the junction [24] guided alignment method proposed15950学习吸引场表示以实现鲁棒的线段检测0Nan Xue 1, 2, Song Bai 3, Fudong Wang 1, Gui-Song Xia 1�, Tianfu Wu 2, Liangpei Zhang 101 中国武汉大学 2 美国北卡罗来纳州立大学 3 英国牛津大学0songbai.site@gmail.com，tianfu wu@ncsu.edu0摘要0本文提出了一种基于区域划分的线段地图吸引场双重表示方法，从而将线段检测 (LSD)问题作为区域着色问题。然后，通过学习深度卷积神经网络(ConvNets)来解决后者，以提高准确性、鲁棒性和效率。对于一个二维线段地图，我们的双重表示包括三个组成部分：(i)区域划分地图，其中每个像素只分配给一个线段；(ii)吸引场地图，其中每个分区区域中的像素通过其相对于相关线段的二维投影向量进行编码；(iii)挤压模块，将吸引场压缩为几乎完美恢复输入线段地图的线段地图。通过利用这种双重性，我们学习ConvNets来计算原始输入图像的吸引场地图，然后通过挤压模块进行LSD，以实现端到端的处理。我们的方法严格解决了LSD中的一些挑战，如局部模糊和类别不平衡。我们的方法还利用了基于ConvNets的语义分割方法中开发的最佳实践，如编码器-解码器架构和a-trous卷积。在实验中，我们的方法在WireFrame数据集[12]和YorkUrban数据集[6]上进行了测试，并获得了最先进的性能。特别是，在WireFrame数据集上的性能提高了4.5个百分点。我们的方法也非常快速，每秒处理6.6到10.4帧，优于大多数现有的线段检测器。本文的源代码可在https://github.com/cherubicXN/afm_cvpr2019上找到。01. 引言01.1. 动机和目标0� 通讯作者0(a) 线段的吸引场地图表示0AFM预测检测到的线段0图1. 所提出方法的示意图。 (a)线段地图的吸引场双重表示。通过使用简单的挤压算法，可以从吸引场地图 (AFM) 中几乎完美地恢复线段地图。 (b)将LSD问题作为区域着色问题的提出形式。后者通过学习ConvNets来解决。The proposed method can also be viewed as an intuitiveexpansion-and-contraction operation between 1D line seg-ments and 2D regions in a simple projection vector ﬁeld:The region-partition map generation jointly expands all linesegments into partition regions, and the squeeze module de-generates regions into line segments.With the duality between a line segment map and the cor-responding region-partition based attraction ﬁeld map, weﬁrst convert all line segment maps in the training dataset totheir attraction ﬁeld maps. Then, we learn ConvNets to pre-dict the attraction ﬁeld maps from raw input images in anend-to-end way. We utilize U-Net [22] and a modiﬁed net-work based on DeepLab V3+ [11] in our experiments. Af-ter the attraction ﬁeld map is computed, we use the squeezemodule to compute its line segment map.In experiments, the proposed method is tested on theWireFrame dataset [12] and the YorkUrban dataset [6]with state-of-the-art performance obtained comparing with[12, 5, 1, 23]. In particular, we improve the performanceby 4.5% on the WireFrame dataset. Our method is also fastwith 6.6 ∼ 10.4 FPS, outperforming most of line segmentdetectors.15960在[12]中。现有两阶段方法的主要缺点有两个方面：缺乏解决线热图生成中的局部模糊和/或类别不平衡的优雅解决方案，并且需要额外精心设计的启发式方法或经过监督学习的上下文信息来推断线热图中的线段。在本文中，我们专注于基于学习的LSD框架，并提出了一种单阶段方法，严格解决了现有LSD方法的缺点。我们的方法基于两个观察结果。0•区域表示和对象或表面的边界轮廓表示之间的二元性，在计算机视觉中是一个众所周知的事实。0•基于深度ConvNet的图像语义分割的最新进展，如U-Net[22]和DeepLab V3+ [11]。0因此，本文的直观思想是，如果我们可以将线段图和它们的对偶区域表示连接起来，我们将把LSD问题作为区域着色问题来提出，从而打开利用最先进的基于深度ConvNet的图像语义分割方法来改进LSD性能的大门。通过对偶区域表示，它意味着它们能够通过简单的算法以几乎完美的方式恢复输入的线段图。我们提出了一种高效且直接的方法来计算对偶区域表示。通过将LSD重新定义为等效的区域着色问题，我们以原则性的方式解决了处理局部模糊和类别不平衡的挑战。01.2. 方法概述0图1说明了所提出的方法。给定一个二维线段图，我们使用两个端点的几何模型来表示每个线段1。在计算对偶区域表示时，有三个组成部分（详见第3节）。0•区域分区图。它通过根据提出的点到线段分割距离函数，将每个像素分配给一个且仅一个线段来计算。与一个线段相关联的像素形成一个区域。所有区域表示图像格点的一个分区（即互斥且并集占据整个图像格点）。0•吸引力场图。分区区域中的每个像素都有一个且仅有一个对应的几何线段上的投影点（但反过来通常是一对多的映射）。在吸引力场图中，分区区域中的每个像素都由其与几何线段上的投影点之间的吸引力/投影向量表示2。01当线段不严格水平或垂直时，线段的中间点的注释像素位置和几何位置之间会有差异。0•一个轻量级的挤压模块。它遵循吸引力场，将吸引力场图中的分区区域压缩成几乎完美恢复输入的线段，从而弥合了基于区域分区的吸引力场图和线段图之间的二元性。02. 相关工作和我们的贡献0自1980年代以来，线段检测的研究历史非常悠久[2]。早期的先驱们尝试基于边缘图估计来检测线段。然后，提出了基于格式塔理论的感知分组方法。这些方法都集中在手工制作的低层特征上进行检测，这已经成为了一个限制。最近，线段检测及其相关问题边缘检测已经从深度学习的角度进行了研究，这极大地提高了检测性能，并对实际应用具有重要意义。02.1. 基于手工特征的检测02当像素位于几何线段上时，它们是相同的点，因此我们将得到一个零向量。我们观察到，在我们的实验中，这些点的总数是可以忽略不计的。line segment detection. These approaches can be dividedinto edge map based approaches [9, 14, 28, 29, 30, 1] andperception grouping approaches [3, 23, 5]. The edge mapbased approaches treat the visual features as a discriminatedfeature for edge map estimation and subsequently applyingthe Hough transform [2] to globally search line conﬁgura-tions and then cutting them by using thresholds. In contrastto the edge map based approaches, the grouping methodsdirectly use the image gradients as local geometry cues togroup pixels into line segment candidates and ﬁlter out thefalse positives [23, 5].Actually, the features used for line segment detection canonly characterize the local response from the image appear-ance. For the edge detection, only local response withoutglobal context cannot avoid false detection. On the otherhand, both the magnitude and orientation of image gradi-ents are easily affected by the external imaging condition(e.g. noise and illumination). Therefore, the local natureof these features limits us to extract line segments from im-ages robustly. In this paper, we break the limitation of lo-cally estimated features and turn to learn the deep featuresthat hierarchically represent the information of images fromlow-level cues to high-level semantics.159702.2. 深度边缘和线段检测0最近，HED[26]通过使用ConvNets从图像中感知边缘开启了一个新时代。学习到的多尺度和多层次特征极大地解决了边缘纹理区域的误检问题，并在BSDS500数据集上接近人类水平的性能。在这一突破之后，提出了大量基于深度学习的边缘检测方法[18, 15, 17, 16, 19,11]。从二分类的角度来看，边缘检测在一定程度上已经得到解决。将传统的基于边缘图的线段检测升级为交替使用由ConvNets估计的边缘图是很自然的选择。然而，由ConvNets估计的边缘图通常过度平滑，这会导致准确定位的局部模糊。此外，边缘图对于检测来说并不包含足够的几何信息。根据深度学习的发展，提出一个端到端的线段检测器而不仅仅应用深度边缘检测的进展更加合理。最近，黄等人通过提出一个具有高质量线段注释的大规模数据集，并将线段检测问题作为两个并行任务，即边缘图检测和交点检测，迈出了实现这一目标的重要一步。作为检测的最后一步，得到的边缘图和交点被融合以生成线段。据我们所知，这是第一次尝试开发一个深度学习的线段检测器。0基于边缘图和交点之间复杂的关系，现有的基于学习的线段检测器仍然存在问题。受益于我们提出的公式，我们可以直接从线段注释中获取吸引力场图中的线段，而无需交点线索。0我们的贡献提出的方法对鲁棒线段检测做出了以下主要贡献。0•通过将线段图和基于区域划分的吸引力场图进行双重表示，提出了一种新颖的方法。据我们所知，这是第一个在LSD中利用这种简单而有效的表示方法的工作。0•借助提出的双重表示，将LSD问题重新定义为区域着色问题，从而为利用最先进的语义分割方法解决现有LSD方法中的局部模糊和类别不平衡挑战打开了大门。0•提出的方法在两个广泛使用的LSD基准数据集上取得了最先进的性能，即WireFrame数据集（改进了4.5%）和YorkUrban数据集。03. 吸引力场表示0在本节中，我们详细介绍了LSD的提出的区域划分表示的细节。03.1. 区域划分映射0设 Λ 是一个图像格点（例如，800 × 600）。线段用 l i = (x s i , x e i ) 表示，其中两个端点分别是 x s i 和 x ei（由于使用亚像素精度注释线段，因此是非负实值位置）。2D线段图中的线段集合用 L = { l 1 , ∙ ∙ ∙ , l n }表示。为简单起见，我们也用 L表示线段图。图2展示了一个10 ×10图像格点中包含3个线段的线段图。0(a) 支持区域 (b) 吸引力向量 (c) 挤压模块0图2.一个玩具例子，展示了一个包含3个线段的线段图，它的双重区域划分映射，吸引力场图的选定向量以及通过吸引力场图获取线段的挤压模块。详见正文。̸15980计算线段图 L 的区域划分映射是将格点中的每个像素分配给n个线段中的一个且仅一个。为此，我们利用点到线段的距离函数。考虑一个像素 p ∈ Λ 和一个线段 l i = ( x s i , x e i )∈ L，我们首先将像素 p 投影到通过 l i的直线上，如果投影点不在线段上，则使用线段的最近端点作为投影点。然后，我们计算像素与投影点之间的欧氏距离。形式上，我们通过以下方式定义 p 与 l i 之间的距离0d ( p, l i ) = min t ∈ [0, 1] || x s i + t ∙ ( x e i − x s i) − p 0t � p = arg min t d ( p, l i )，(1)0如果 t � p ∈ (0,1)，则投影点是原始点到直线的投影点；如果 t � p = 0 或1，则投影点是最近的端点。因此，图像格点中线段 l i的区域定义为0R i = { p | p ∈ Λ; d ( p, l i ) < d ( p, l j )，� j ≠ i, l j ∈ L }，(2)0很容易看出 R i ∩ R j = � 并且 ∪ n i =1 R i = Λ ，即所有的R i组成了图像格点的一个划分。图2(a)展示了玩具例子中线段的划分区域生成。用 R = { R 1 , ∙ ∙ ∙ , R n } 表示线段图 L的区域划分映射。03.2. 计算吸引力场图0考虑与线段li相关联的分区区域Ri，对于每个像素p∈Ri，其在li上的投影点p′定义为0p′=xsi+t�p∙(xei−xsi)，(3)0我们将像素p的2D吸引力或投影向量定义为a(p)=p′−p，(4)0如果t�p∈(0,1)，则吸引力向量垂直于线段（参见图2(b)）。图1显示了吸引力场图（AFM）的x分量和y分量的示例。用A={a(p)|p∈Λ}表示线段图L的吸引力场图。03.3. 挤压模块0给定一个吸引力场图A，我们首先通过计算每个格点p的实值投影点来反转它，v(p)=p+a(p)，(5)0及其在图像格点上的对应离散化点，0vΛ(p)=�v(p)+0.5�。(6)0其中�∙�表示向下取整操作，vΛ(p)∈Λ。然后，我们计算一条线段提议图，其中每个像素q∈Λ收集其离散化投影点为q的吸引力场向量。像素q收集的候选吸引力场向量集由以下定义：0C(q)={a(p)|p∈Λ,vΛ(p)=q}，(7)0其中C(q)通常对应于稀疏像素集q，这些像素集对应于线段上的点。图2(c)显示了线段提议图的示例，它将线段的支持区域的像素投影到线段附近的像素上。借助线段提议图，我们的挤压模块利用迭代和贪婪的分组算法来拟合线段，类似于[23]中使用的区域生长算法。0•给定当前一组活动像素，每个像素都有一个非空的候选吸引力场向量集，我们随机选择一个像素q及其吸引力场向量a(p)∈C(q)。所选吸引力场向量a(p)的切线方向用作通过像素q的线段的初始方向。0•然后，我们搜索以q为中心的局部观察窗口（例如，本文中使用的是3×3窗口），以找到与a(p)的角度距离小于阈值τ（例如，本文中使用的是τ=10°）对齐的吸引力场向量。0-如果搜索失败，我们从C(q)中丢弃a(p)，如果C(q)变为空，则进一步丢弃像素q。0-否则，我们将q扩展为一个集合，并通过平均对齐的吸引力向量来更新其方向。对齐的吸引力向量将被标记为已使用（因此在下一轮搜索中处于非活动状态）。对于集合的两个端点，我们递归地应用贪婪搜索算法来扩展线段。0•一旦终止，我们获得一个候选线段lq=(xsq,xeq)，其支持集合为实值投影点。我们使用支持集合来拟合最小外接矩形。我们通过检查近似矩形的宽度和长度之间的纵横比是否超过预定义的阈值来验证候选线段，以确保近似矩形足够“瘦”。如果检查失败，我们将像素q标记为非活动状态，并释放支持集合以再次活动。0.990.9940.9970.90.971159900.5 1 1.5 2 尺度0精确度00.5 1 1.5 2 尺度0召回率0图3. 验证线段图与吸引力场图之间的对偶性及其尺度不变性。03.4. 验证对偶性及其尺度不变性0我们在WireFrame数据集[12]上测试了所提出的吸引力场表示。我们首先为每个注释的线段图计算吸引力场图，然后使用挤压模块计算估计的线段图。我们在多个尺度上运行测试，尺度范围从0.5到2.0，步长为0.1。我们按照数据集提供的协议，通过测量精确度和召回率来评估估计的线段图。图3显示了精确度-召回率曲线。平均精确度和召回率分别为0.99和0.93，从而验证了线段图与相应的基于区域划分的吸引力场图之间的对偶性，以及对偶性的尺度不变性。因此，LSD问题几乎可以被看作是区域着色问题，几乎不会影响性能。在区域着色公式中，我们的目标是学习ConvNets来推断输入图像的吸引力场图。吸引力场表示消除了传统梯度幅度基线热图中的局部模糊性，并且学习中的预测吸引力场消除了线与非线分类中的不平衡问题。04.稳健线段检测器0在本节中，我们介绍了用于稳健LSD的ConvNets的学习细节。ConvNets用于在图像到图像转换框架下从原始输入图像中预测AFMs，因此我们采用编码器-解码器网络架构。04.1.数据处理0记D = { ( I i , L i ); i = 1 , ∙ ∙ ∙ , N}为提供的训练数据集，包含N对原始图像和标注线段地图。我们首先计算每个训练图像的AFMs。然后，令D = { ( I i ,a i ); i = 1 , ∙ ∙ ∙ , N}为双重训练数据集。为了使AFMs对原始图像的尺寸不敏感，我们采用了一种简单的归一化方案。对于具有空间维度为W×H的AFM a，尺寸归一化通过以下方式完成：0a x := a x /W, a y := a y /H, (8)0其中a x和ay分别是a沿x轴和y轴的分量。然而，尺寸归一化会使得a中的值变得很小，从而在训练中不稳定。我们采用一种简单的归一化方案使得AFMs对原始图像的尺寸不敏感。对于具有空间维度为W×H的AFM a，尺寸归一化通过以下方式完成：0a的尺寸归一化会使得a中的值变得很小，从而在训练中不稳定。我们对尺寸归一化后的AFM应用逐点可逆的值拉伸变换：0z ′ := S ( z ) = − sign( z ) ∙ log( | z | + ε ) , (9)0其中ε = 1e − 6，以避免log(0)。逆函数S − 1(∙)定义为：0z := S − 1 ( z ′ ) = sign( z ′ ) e ( −| z ′ | ) . (10)0为了简化表示，记复合逆函数为R(∙)，我们仍然记D = { ( I i , a i ); i = 1 , ∙ ∙ ∙ , N }为最终的训练数据集。04.2. 推断0记fΘ(∙)为具有参数Θ的ConvNet。如图1(b)所示，对于输入图像I Λ，我们的稳健LSD定义为：0ˆ a = f Θ ( I Λ ) (11) ˆ L = Squeeze (R (ˆ a )) (12)0其中ˆa是输入图像（经过尺寸归一化和值拉伸处理后）的预测AFM，Squeeze(∙)是挤压模块，ˆ L是推断得到的线段地图。04.3. 网络架构0我们利用两种网络架构实现fΘ()：一种是U-Net[22]，另一种是修改版的U-Net，称为a-trous Residual U-Net，它使用DeepLabv3+中提出的ASSP模块和ResNet中的跳跃连接。表1显示了这两种架构的配置。网络由5个编码器和4个解码器阶段组成，分别索引为c1，...，c5和d1，...，d4。0•对于U-Net，应用包含两个卷积层的双卷积操作符，并表示为{∙}。d i阶段的{∙}�操作符将其最后一个阶段的输出特征图上采样，然后与c i阶段的特征图连接在一起，再应用双卷积操作符。0• 对于a-trous ResidualU-Net，我们将双卷积操作符替换为残差块，表示为[∙]。与ResNet不同，我们使用具有3×3卷积核大小和步长1的普通卷积层。与{∙}�类似，操作符[∙]�也从两个源获取输入，并对第一个输入源的特征进行上采样。[∙]�的第一层包含两个并行卷积操作符，用于减少特征图的深度，然后将它们连接在一起进行后续计算。在d4阶段，我们应用了4个ASPP操作符。16000表1.我们研究的吸引力场学习的网络架构。{}和[]分别表示U-Net中的双卷积和残差块。括号内是卷积核的形状。后缀*表示缩放因子为2的双线性上采样操作符。括号外的数字是每个阶段堆叠的块数。0阶段U-Net aal U-Net0c10� 3×3, 643×3, 640�03×3, 64，步长10c202×2最大池化，步长2 3×3最大池化，步长20� 3×3, 1283×3, 1280� �0�1×1, 64 3×3,64 1×1, 2560�0� × 30c302×0� × 4 � 3×3, 2 3×3, 2560�0c402×0� × 6 � 3×3, 5 3×3, 5120�0c502×0� × 3 � 3×3, 5 3×3, 5120�0d40� 3×3, 2563×3, 2560� *0ASPP �0�1×1, 256; 1×1, 256 3×3,512 1×1, 5120�0� *0d30� 3×3, 1283×3, 1280� *0�1×1, 128; 1×1, 128 3×3,256 1×1, 2560�0� *0d20� 3×3, 643×3, 640� *0�1×1, 64; 1×1, 64 3×3,128 1×1, 1280�0� *0d10� 3×3, 643×3, 640� *0�1×1, 32; 1×1, 32 3×3,64 1×1, 640�0� *0输出1×1，步长1，无BN和ReLU0输出阶段使用卷积算子，输出通道大小为256，扩张率为1、6、12、18，然后连接它们的输出。对于吸引力场图的预测，输出阶段使用卷积算子，核大小为1×1，步长为1，不使用批量归一化[13]和ReLU[21]。04.4. 训练0我们遵循标准的深度学习协议来估计参数Θ。损失函数。我们在训练中采用l1损失函数。0ℓ(ˆa, a) = 0(x,y) ∈ Λ ∥ a(x, y) - ˆa(x, y) ∥1. (13)0实现细节。我们从头开始训练Wireframe数据集[12]的两个网络（U-Net和a-trous ResidualU-Net）。与[12]类似，我们采用标准的数据增强策略，通过镜像和上下翻转等图像域操作来丰富训练样本。网络优化采用随机梯度下降（SGD）优化器，动量为0.9，初始学习率为0.01。我们0使用200个epoch训练这些网络，学习率在每50个epoch后以0.1的因子衰减。在训练阶段，我们将图像调整为320×320大小，然后从调整后的线段注释生成偏移图以形成小批量。如第3节所讨论的，合理因子的缩放步骤不会影响结果。由于GPU内存限制，两个网络的小批量大小分别为16和4。在测试中，测试图像也被调整为320×320大小作为网络的输入。然后，我们使用挤压模块将吸引力场图转换为线段。由于线段对尺度不敏感，我们可以直接将其调整为原始图像大小而不会丢失准确性。挤压模块在CPU上用C++实现。05. 实验0在本节中，我们评估了提出的线段检测器，并与现有的最先进线段检测器[12, 5, 1,23]进行了比较。如下所示，我们提出的线段检测器在WireFrame数据集[12]和YorkUrban数据集[6]上优于这些现有方法。05.1. 数据集和评估指标0我们遵循深度线框解析器[12]的评估协议进行比较。由于我们在Wreframe数据集[12]上进行训练，因此有必要在其测试数据集上评估我们提出的方法，该数据集包括462张用于人造环境（尤其是室内场景）的图像。为了验证泛化能力，我们还在YorkUrban线段数据集[6]上评估了我们提出的方法。所有方法都按照[12,20]中描述的精确度和召回率进行定量评估。精确度表示所有检测到的线段中的正检测比例，而召回率反映了场景中所有检测到的线段的比例。检测到的线段和真实线段被数字化到图像域中，我们将“正检测”像素定义为像素与图像对角线的0.01之内。在获得精确度（P）和召回率（R）之后，我们使用F-measure F = 2∙P∙R来比较算法的性能。0P + R.05.2. 线段检测比较0我们将我们提出的方法与Deep Wireframe Parser 3[12]，Linelet 4 [5]，Markov Chain Marginal Line SegmentDetector 5 (MCMLSD) [1]和Line Segment进行比较03 https://github.com/huangkuns/wireframe 4https://github.com/NamgyuCho/Linelet-code-and-YorkUrban-LineSegment-DB05 http://www.elderlab.yorku.ca/resources/00.20.40.60.81[F=.773] Ours (a-trous)[F=.752] Ours (U-Net)[F=.728] Wireframe[F=.647] LSD[F=.644] Linelet[F=.566] MCMLSD00.20.40.60.81[F=.646] Ours (a-trous)[F=.639] Ours (U-Net)[F=.627] Wireframe[F=.591] LSD[F=.585] Linelet[F=.564] MCMLSD160100 0.2 0.4 0.6 0.8 1 召回率0精确度00 0.2 0.4 0.6 0.8 1 召回率0精确度0图4. 不同线段检测方法在WireFrame [12]和YorkUrban[6]数据集上的PR曲线。0表2. 在WireFrame数据集和YorkUrban数据集上与最先进方法的F-measure评估。最后一列报告了WireFrame数据集上不同方法的平均速度，以每秒帧数（FPS）计算。0方法 Wireframe 数据集0York Urban数据集FPS0LSD [23] 0.647 0.591 19.6 MCMLSD [1] 0.566 0.564 0.2Linelet [5] 0.644 0.585 0.14 Wireframe parser [12]0.728 0.627 2.240我们的（U-Net）0.752 0.639 10.3我们的（a-trous）0.773 0.646 6.60检测器（LSD）6[23]。比较方法的源代码是从作者提供的链接中获得的。值得注意的是，Deep WireframeParser的作者没有提供线段检测的预训练模型，我们自己复现了他们的结果。0阈值配置在我们提出的方法中，我们最终使用纵横比来过滤掉错误检测。在这里，我们将纵横比的阈值在（0，1]范围内以步长∆τ =0.1进行变化。为了比较，LSD使用0.01×{1.750,...,1.7519}的−log（NFA）实现，其中NFA是误报数。此外，Linelet[5]使用与LSD相同的阈值来过滤掉错误检测。对于MCMLSD [1]，我们使用前K个检测到的线段进行比较。由于DeepWireframe Parser[12]的架构，连接点定位置信度和连接点分支的方向置信度的阈值都固定为0.5。然后，我们使用作者推荐的阈值数组[2, 6, 10, 20, 30, 50, 80, 100, 150, 200, 250,255]对线段热图进行二值化和线段检测。0精确度和召回率为了将我们的方法与现有技术[12, 5, 1,23]进行比较，我们在Wireframe数据集[12]和YorkUrban数据集[6]上评估了所提出的方法。精确度-召回率曲线和F-measure见图4和表2。在没有花哨的情况下，我们提出的方法在Wireframe和YorkUrban数据集上以显著的优势超过了所有这些方法，即使只使用18层网络。具有ASPP的更深层网络架构06 http://www.ipol.im/pub/art/2012/gjmr-lsd/0模块进一步提高了F-measure的性能。由于YorkUrban数据集旨在进行曼哈顿框架估计，图像中的一些线段未标记，这导致所有方法在该数据集上的F-measure性能下降。0速度我们在Wireframe数据集上评估了上述方法的计算时间消耗。我们运行了462帧图像，并计算了平均时间消耗，因为测试图像的大小不相等。如表2所示，我们的方法可以快速检测线段（在除LSD外的所有方法中表现最佳）。所有实验都在配备Intel Xeon E5-2620 2.10 GHzCPU和4个NVIDIA Titan XGPU设备的PC工作站上进行。只使用一个GPU，CPU程序在单个线程中执行。由于原始U-Net的简单性，我们的方法可以快速检测线段。深度线框解析器[12]在连接点和线映射融合方面花费了很多时间。另一方面，由于我们的新颖公式，我们可以将输入图像调整为320×320，然后将输出线段转换为原始比例，从而进一步降低计算成本。0可视化进一步，我们在Wireframe和YorkUrban数据集上使用不同的方法可视化检测到的线段（见图5）。可视化的阈值配置如下：01. LSD和Linelet的a-contrario验证设置为−log� =0.01∙1.758;02. MCMLSD检测到的前90个线段进行可视化；03. 深度线框解析器的线热图阈值为10;04. 我们的结果的纵横比的上限设置为0.2。0通过观察这些图表，很容易发现Deep Wireframe Parser[12]相比之前的方法可以检测到更完整的线段，然而，从完整性的角度来看，我们提出的方法可以获得更好的结果。另一方面，这种基于连接点的方法确实会引起一些检测的不确定性。由连接分支估计的线段方向不准确，这会影响线段的方向。同时，一些连接点被错误连接以获得虚假检测。相比之下，我们提出的方法摆脱了连接点检测，直接从图像中检测线段。与其他方法[23, 1,5]相比，基于深度学习的方法（包括我们的方法）可以利用16020GT 图5. 使用不同方法（LSD [23]，MCMLSD [1]，Linelet [5]，Deep Wireframe Parser [12]和我们的基于a-trous ResidualU-Net的方法）在Wireframe [12]和YorkUrban [6]数据集上检测到的线段的一些结果，从左到右显示。参考的地面真值列在最后一列。0在低对比度区域获取完整结果的全局信息，同时抑制边缘纹理区域的虚假检测。由于局部特征的限制，方法[23, 1,5]无法处理具有全局信息的结果，即使使用强大的验证方法仍然会得到一些虚假检测。尽管LSD的整体F-measure略优于Linelet，但Linelet的可视化结果更干净。06. 结论0在本文中，我们提出了一种建立基于区域划分的吸引力场表示和线段表示之间的对偶性的方法。然后，我们将线段检测（LSD）问题作为区域着色问题来提出，该问题通过学习卷积来解决。0神经网络。所提出的吸引力场表示方法严格解决了LSD中的一些挑战，如局部模糊和类别不平衡。LSD的区域着色公式利用了基于ConvNets的语义分割方法中开发的最佳实践，如编码器-解码器架构和a-trous卷积。在实验中，我们的方法在两个广泛使用的LSD基准测试中进行了测试，即WireFrame数据集[12]和YorkUrban数据集[6]，并获得了最先进的性能和6.6�10.4 FPS速度。0致谢：本工作得到NSFC项目的支持，合

下载后可阅读完整内容，剩余1页未读，立即下载