基于Transformer的图像上下文线段分类器及其在消失点检测中的应用

81 浏览量更新于2023-10-25 收藏 1.62MB PDF 举报

消失点检测

泛化性能

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6093基于Transformer的图像上下文线段分类器在Manhattan World童欣，应向华*，施永杰，王瑞斌，杨金发机器感知重点实验室（MoE）北京大学人工智能学院{童欣，xhying，shiyongjie，robin wang，jinfayang}@ pku.edu.cn摘要以往的消失点检测工作通常使用几何先验进行线段聚类。我们发现，图像上下文也可以有助于准确的线分类。基于这一观察，我们建议分类线段分为三组根据三个未知的，但寻求消失点与曼哈顿世界假设，在这项工作中使用的几何信息和图像上下文。为了实现这一目标，我们提出了一种新的基于Transformer的线段分类器（TLC），它可以对图像中的线段进行分组并估计相应的消失点。在薄层色谱中，我们设计了一个线段描述器来表示线段，使用它们的位置，方向和局部图像上下文。基于Transformer的特征融合模块用于从所有线段中提取全局特征，实验证明该方法显著提高了该方法通过对线段进行网络评分，对分类后的线段进行奇异值分解（SVD）得到消失点。所提出的方法在一个NVIDIA 2080Ti卡上以25 fps的速度运行，用于消失点检测。在合成数据集和真实数据集上的实验结果表明，该方法在准确性和效率的平衡上优于其他现有方法，同时在不同数据集上训练和评估时保持了更强的泛化1. 介绍在针孔摄像机模型下，3D中的平行世界线被投影到2D图像线上，这些图像线会聚在一个图像点上，该图像点被称为消失点（VP）。消失点检测是计算机视觉中一个快速和准确的消失点检测算法使和增强应用程序*通讯作者(a)（b）第（1）款图1. (a)经典的消失点检测方法通常依赖于线段聚类的几何先验。然而，仅基于几何先验并不容易确定线段（紫色）应该属于哪个组，因为线段接近两个候选水平消失点。(b)相反，当给定图像上下文时，可以容易地对线段进行分类。这是一个例子[12]。结合图像上下文，将线段聚类到某个组可能变得更容易和更快受此启发，我们在这项工作中使用图像上下文和几何信息的学习为基础的线段聚类消失点检测。例如摄像机校准、3D重建、对象检测、线框解析和自动驾驶。经典的消失点检测方法通常分为直线检测、直线聚类和消失点回归三个步骤。在曼哈顿世界算法中，线段根据三个正交消失点被分成三组。以往的方法往往考虑几何先验，在同一组中的线段应相交于同一点（消失点）。因此，在提取线之后，图像常常不再被使用。然而，如图1，仅基于几何先验不容易确定线段应属于哪一组，因为线段靠近两个候选水平消失点。当给定图像上下文时，消除了这种模糊性受此观察的启发，我们使用图像？6094基于学习的线段聚类的几何特征上下文消失点检测。目前基于学习的方法通常直接从图像上下文中估计消失点、地平线或分数候选消失点在这项工作中，我们使用网络对线段进行分组，并删除离群值进行消失点检测，这在我们的实验中被证明不太可能在特定数据集上过拟合。我们目前在给定的图像中检测到的每一个线段作为一个一维特征向量。为了准确地分类线段，重要的是传播和收集来自所有线段的全局信息。受Transformer在许多计算机视觉任务中的良好性能的启发，我们使用Transformer编码器架构来有效地捕获所有线段上的非局部相关性。通过将线段的特征向量看作一个符号序列，基于Transformer的特征融合模块可以方便地应用于该算法中。本文提出了一种新的基于变换器的直线段分类器（TLC）方法，用于曼哈顿世界中消失点的实时检测。该方法由线段描述和特征融合两个模块组成。给定图像和其中的线段，TLC首先将每个线段表示为由局部图像上下文和几何特征组成的具有线段描述符的1D特征向量。从卷积神经网络（CNN）模型中提取局部图像上下文，然后进行新的线池操作。几何特征由从线段均匀采样的点的方向和位置的独热编码表示。然后分别用聚类网络和评分网络对特征向量进行处理。这些网络是基于Transformer编码器架构设计的，以实现有效的特征融合。对于每个线段，聚类分支预测其可能属于的每个组的概率，并且评分分支预测表示其在检测对应消失点中的置信度的分数最后，消失点的位置可以使用奇异值分解（SVD）基于聚类的线段和预测分数来所提出的薄层色谱可以分类线段消失点检测在一个非迭代的方式，是端到端的训练。因此，所提出的方法的推理速度非常快，进一步的后处理可以很容易地应用于聚类线段。我们工作的贡献可以概括为：（1）首次提出了一种结合图像上下文和几何信息的基于学习的直线段分类方法。(2)为此，我们提出了一种新的基于Transformer一维特征向量，并使用基于Transformer的模块融合不同线段的特征。我们的方法可以根据消失点对线段进行分组，并以非迭代的方式预测其置信度得分为内点(3)所提出的方法运行在一个NVIDIA 2080Ti卡上的25FPS的消失点检测。在合成数据集和真实数据集上的实验结果表明，该方法在准确性和效率的平衡上优于其他现有方法，同时在不同数据集上训练和评估时保持了更强的泛化能力我们还构建了一个真实世界的街景消失点（SVVP）数据集1，以进一步评估所提出的方法。2. 相关作品消失点检测。自从[2]中介绍的开创性工作以来，已经设计了各种方法用于消失点检测。以前的工作通过使用高斯球[10，26，32]，曼哈顿世界假设[3，24，27]，Hough变换[1]，分支定界[3，14，22]等来解决问题。基于线的方法是最广泛使用的方法。他们通常从线路检测开始[5，36]。然后通常将图像放在一边，并使用Hough 变换[25]，RANSAC [4 ， 38]，J-Linkage[33]，EM算法[12]，对偶空间[20]对参数线进行聚类。在这项工作中，我们在直线聚类过程中引入图像上下文，并使用基于学习的方法对对应于同一消失点的线段进行分组。近年来，由于神经网络具有很强的特征提取能力，基于学习的消失点检测在[7，30，42]中，基于CNN的方法用于直接对消失点进行分类或回归在[41]中，全局图像上下文被用来指导地平线候选的生成。Kluger等人。 [17]使用CNN从逆日晷图像中找到消失点。文[21]中采用Bingham混合模型估计消失点。在[18]中，神经网络用于更新线性聚类的条件采样概率。Zhou等人。 [43]提出了用于消失点检测的圆锥卷积，可以沿着结构线强制进行特征提取和聚合。在这项工作中，我们应用基于Transformer的模块，以非迭代的方式对线段进行分类和评分，用于消失点检测。线表示。线已被广泛用于各种计算机视觉任务的基于学习的方法中，这些任务以不同的方式表示。Li等人 [23]提出了一种线路建议单元（LPU）来生成候选交通线路。线池层在[19]中提出，它对每个采样位置进行双线性插值，线段分类器（TLC）。在TLC中，我们呈现一部小说线段描述符，用于表示具有1https://github.com/tongxin94/svvp/6095线段描述符特征融合模块消失点检测线池化0.650.67⋮CNN语义语境C90°一个炎热编码SVD180°0°方向特征带分数的划线C0.050.910.04点坐标2001年，2001年级联c连接位置特征0.150.040.81⋮线段聚类⋮线段检测0.900.860.730.92×0.830.010.160.020.940.040.110.040.850.680.270.05图2.拟定TLC概述。在给定一幅具有曼哈顿世界假设的图像和图像中的线段的情况下，TLC首先将每个线段表示为由图像局部上下文和几何信息组成的一维特征向量。基于Transformer的特征融合模块用于获取所有线段的非局部相关性。该模块预测每个组的概率和估计消失点的置信度分数。消失点可以使用具有每组线段和相应分数的SVD来获得。特征图。给定图像行，[34]提出了一个行描述符，它对视觉SLAM中行上采样点的特征向量进行平均。端点、质心和方向用于表示CONSAC [18]中的线段。对于消失点检测，我们提出了一种新的线段描述符，同时考虑从CNN提取的局部图像上下文和几何特征，包括位置和方向。目视Transformer。Transformer起源于神经语言处理（NLP）[35]，由于其强大的表示能力而广泛应用于计算机视觉任务。 Chen 等人。 [8] 训练一个序列Transformer来自回归预测像素，这些像素可以在基于CNN的方法的图像分类中获得可比的性能Dosovitskiy等人 [13]在分类中使用Transformer（ViT），方法是将图像划分为小块，并在Transformer中添加额外的可学习分类标记以进行图像分类。 Carion 等人 [6] 将Transformer（DETR）应用于端到端对象检测。Huang等人。 [16]使用基于变换器的网络从点云估计3D手部姿势。Transformer还用于图像超分辨率[39]，图像生成[29]，视频修复[40]，跟踪[9，37]，并具有应用于更多应用的潜力。在我们的方法中，我们将Transformer编码器架构应用于线段聚类和评分以检测消失点。3. 算法3.1. 概述我们的算法的概述如图所示二、给定一个曼哈顿世界假设的图像，该算法可以根据三个消失点将线段聚类为三组，并预测每个消失点的位置。提出的方法称为基于Transformer的线段分类器（TLC），它是一个由线段描述子和特征融合模块组成的神经网络模型，下面将详细介绍这两个模块。3.2. 线段描述符线段描述符将线段表示为预定义大小的1D向量，其中局部图像上下文和几何特征组合在一起。对于几何特征，使用图像中的位置和方向信息，其分别表示为fpos和fdir我们在线段上均匀地采样一些点。点的坐标可以用来描述线段的位置。为了描述方向，我们将0°到180°均匀地划分成若干间隔，并且根据方向位于哪个间隔来使用独热编码对方向进行编码。我们提出了一个线池化模块，用于从图像中捕获线段的局部图像上下文，如图所示。3.第三章。在该模块中，我们考虑使用线段周围的语义特征来描述线段。我们首先使用CNN模型从图像中提取特征图。对于每一条线段，我们沿着它均匀地采样N个点，得到N个总大小为N C的特征向量。由于采样点可能不位于特征图上的网格点上，因此使用双线性插值来从附近的网格点计算每个采样点的由于我们希望获得每个线段fcon的1D固定大小表示，因此我们最终应用加权Softmax前馈注意力前馈注意力Sigmoid前馈注意力前馈注意力6096×∈×∈T不不F·M在3我估计消失点，其表示为我gclogpc，（6）K·HW图3.显示的线路合并模块的图示。给定从CNN模型和线段提取的特征图双线性插值用于从特征图上的相邻网格点计算每个采样点的特征向量采样点处的所有我们最终得到了每个线段的1D固定大小的特征向量对特征向量求和，以将它们压缩到1C的大小。类似的架构也用于[34]。用于线路匹配。它们对特征向量进行平均以获得最终的表示，而我们使用加权求和以获得更强的表示能力。线段f线R1×C的最终表示是上述三个特征的串联，可以描述为fline=[fcon，fpos，fdir].（一）在实践中，ResNet18被用作语义特征提取器，随后是11卷积层，以将特征映射的通道减少到32。我们分别使用来自16个均匀采样点的32个坐标来表示位置和大小为36的one-hot向量来表示方向。3.3. 特征融合模块我们的特征融合模块被用来预测每个组的概率和置信度分数从线段的特征向量该模块由聚类和评分两个独立的网络分支组成。从M个线段的特征向量出发f线RM×C，聚类用于预测线段对应于未知但被寻找的消失点的概率p，其被表示为p= softmax（T簇（f线））。（2）类似地，T得分用于预测置信度得分s，图4.我们构建的SVVP数据集的可视化示例。对应于不同消失点的线段分别为蓝色、红色和绿色。特征融合模块中的网络是基于Transformer编码器架构设计的，由注意层和前馈网络（FFN）组成。注意力层可以从不同的线段捕获非局部映射，表示为Q（f）K（f）TAtt（f）=softmax（d）·V（f），（4）其中，Q、K、V是分别用于从线段的特征向量f中提取查询向量、键向量和值向量的线性层。dk是K（f）的归一化维数。FFN（）由全连接层和剩余连接组成。我们不使用位置嵌入作为经典的Transformer，因为最终的聚类结果应该是无关的输入线段的顺序。因此，我们在特征融合模块中使用的网络架构表示为T（f）= F（Att（f）+f）。（五）3.4. 损失和消失点估计我们使用交叉熵损失根据曼哈顿世界中的三个未知但寻找的消失首先向上，然后是水平的左和右。线段分类损失可以帮助我们的方法快速且鲁棒地收敛，可以写为1ΣΣ米我我s= sigmoid（T评分（f线））。（三）其中Min是内围线段的数量，因为我们具有高置信度分数的线段被认为具有更大的通过消失点（或更接近消失点）的概率。不要考虑这种损失中的异常值。Pc是属于组c的第i个线段的预测概率。gc是对应的地面实况标签。CC双线性插值N加权总和1×CL类= −i=1c =16097◦×不∈(a)（b）（c）图5.我们的方法在（a）SU3 [44]，（b）ScanNet [11]和（c）我们自己构建的SVVP数据集上的线段聚类和消失点检测结果的可视化示例线段聚类结果直接来自网络输出，无需后处理。线段和消失点的不同簇分别用红色、绿色和蓝色着色。地面实况消失点的位置用"“标记，并且预测消失点用”“标记。我们的方法可以在真实世界和各种场景的合成图像中产生准确的预测。我们使用BCE损失来监督去除离群值的分数，其可以表示为M移动分数小于0的线段。5、由于异常值可能严重影响结果这样，利用分数s∈RM×1，可以得到消失点的矢量L=−1<$（ylogs+（1−y）log（1−s）），（7）从s vd（1s>0. 5（s）L）。评分Mi i i ii i=1消失点是独立计算的。对于未校准的图像，预定义的近似焦距其中M是内点和离群点的数量。si表示第i个线段的预测分数，yi是相应的地面实况。总损失可以定义为上述损失项的总和，可以写为Ltotal=Lclass + Lscore。（八）我们使用奇异值分解（SVD）计算消失点的聚类线段和它们的置信度的基础上。消失点可以表示为归一化的线方向向量，这也称为高斯球表示。在齐次坐标中，线段LRM×3可以由它们与相机中心形成的平面的法线定义[41]。由svd（L）可以得到消失点的矢量。此外，具有高分数的线段被认为在计算中贡献更多。在推理阶段，我们使用硬选择直接重新（例如，图像的宽度）可以用于估计每组中的线的交叉。对于经校准的图像，估计的消失点被假定为与其它消失点正交（例如，直到公差γ）。否则，可以选择最佳正交对，并通过叉积计算第三消失4. 实验结果4.1. 实验装置我们在三个公开的数据集上进行了实验，包括SU3数据集[44]，ScanNet数据集[11]和York Urban Dataset（YUD）[12]。所有数据集都遵循曼哈顿世界假设，其中每个图像中应该有三个正交消失点。SU3数据集是一个照片级真实感数据集，包含23000张合成户外图6098像。消失点直接6099×方法AA@3℃SU3 [44]AA@5℃AA@10℃[第11话]AA@3℃AA@5℃AA@10℃AA@3℃SVVPAA@5℃AA@10℃FPSJ-linkage [33]69.277.084.427.841.757.732.845.760.21.2Simon等人 [三十一]70.277.985.125.739.956.645.459.673.20.6Wu等人 [38个]74.879.583.922.936.854.039.152.467.923Lu等人 [24日]81.487.893.035.653.271.648.564.880.025Li等人 [22日]59.166.974.635.050.266.939.353.066.825CONSAC [18]77.985.291.031.146.162.443.856.569.42NeurVPS-SU3 [43]94.496.598.217.426.841.027.140.455.30.5[43]第四十三话57.272.685.536.154.374.935.553.773.50.5Ours-SU391.394.697.136.053.471.651.667.782.625Ours-ScanNet88.992.895.836.253.972.649.265.080.225表1. SU3 [44]、ScanNet [11]和SVVP数据集的比较结果。我们将我们的方法与J-连接[33]，Simon等人 [31]，CONSAC [18]，NeurVPS [43]，Wu等人 [38]，Lu等人 [24]和Li等人 [22]进行比较。Method-dataset表示在数据集上训练的基于学习的方法。我们的方法在准确性和效率之间的平衡上获得了更好的性能，同时在不同的数据集上进行训练和评估时，与其他基于学习的方法相比，我们的方法具有更强的泛化能力图6.SU3 [44]，ScanNet [11]和我们自己构建的SVVP数据集上不同方法的角度精度曲线从建筑物的CAD模型计算。ScanNet数据集是一个真实世界的数据集，捕获室内场景。它提供了189916个训练图像和53193个验证图像。我们遵循[43]以获得地面真理消失点。YUD包括102个室外和室内场景的图像及其地面真实VP三元组。为了进一步评估我们的方法，我们还构建了一个真实世界的街景数据集消失点检测，称为SVVP。我们从谷歌街景中获取500张图片，并手动标记出消失点图中示出了一些示例4.第一章对于SU3和ScanNet数据集，我们使用500张图像进行评估[43]，其他图像（在训练集中）用于训练。为了训练我们的模型，我们使用提供的地面真实消失点生成线段的地面真实类线段的地面真值类是根据最接近的消失点来分配的。当一条线段接近多个消失点时，我们手动标记该线段。我们使用两个阈值δin和δout来区分内点和外点。它们被设置为1μ m，SU3数据集为10 μ m，1. 根据经验，ScanNet数据集为5μ m，15μm 我们在ScanNet数据集，真实消失点的内点在某些图像中可能为了保持训练图像具有足够的内点，我们在训练阶段去除内点数量小于30的图像。在YUD和SVVP的评估中，我们使用使用SU3或ScanNet数据集训练的模型，因为在YUD和SVVP中没有足够的图像用于训练。我们使用LSD [36]作为所提出方法的线段检测器。我们的培训和评估在PyTorch中实现。对于训练，我们使用SGD优化器。学习率设置为0.005，而动量和权重衰减分别设置为0.9和0.0001。由于GPU内存的限制，我们使用的批大小为16，输入图像的大小设置为512512。在训练中，我们在每张图像中随机选择100条线段。为了获得更准确的结果，我们还在使用SVD之前对每个消失点运行基于RANSAC我们通过测量预测消失点与高斯球上的地面真实值之间的角度差异来评估所有方法[43]。百分比6100方法AA@3℃YUD [12]AA@5℃AA@10℃J-linkage [33]40.250.564.1Simon等人 [三十一]40.158.277.5Wu等人 [38个]44.361.477.4Li等人 [22日]51.166.180.5Lu等人 [24日]58.073.286.2CONSAC [18]62.173.784.1NeurVPS-SU3 [43]39.950.365.0[43]第四十三话30.350.471.0Ours-SU365.577.187.4Ours-ScanNet63.176.187.3表2.不同方法在YUD上的比较结果[12]。(a) w/o图像上下文（b）与图像上下文图8.通过我们的方法，来自SU3 [44]（上）和ScanNet [11（a）不使用图像上下文和（b）使用图像上下文。图像上下文能够提高线段的聚类性能，特别是当几何先验难以分类时。由青色边界框包围的线段表示代表性的错误聚类内点。图7.在YUD的所有图像上的线聚类的精确度和召回率方面的定量比较[12]。可以对角度差小于某个阈值的预测进行计数。通过绘制不同阈值的角度精度（AA）曲线，AA@θ定义为[0，θ]之间的曲线下面积除以θ。我们还测量了我们的方法的线段的聚类精度，这是我们的方法正确聚类的线段与总线段的比率。4.2. 与SOTA的我们对四个基准进行了比较，包括SU3数据集[44]，ScanNet数据集[11]，York Urban数据集（YUD）[12]和我们自己构建的SVVP数据集。我们在图中展示了我们的方法在这些数据集上的线段聚类和消失点检测结果五、请注意，图像中线段的聚类结果直接来自网络输出，无需后处理。我们的方法可以在各种场景的真实世界和合成图像中产生准确的预测。我们将我们的方法与一些最先进的方法进行比较，包括J-Linkage [33]，Simon等人 [31]，Li等人 [22]，Wu等人 [38]，Lu等人 [24]，CONSAC [18]和NeurVPS[43]。J-Linkage，Simon等人，Wu et al. Lu等人和Li等人是基于优化的方法。其他的是基于学习的方法。比较结果列于表1和表2中。我们还在图中显示了角度精度曲线，以便进行详细比较。六、实验结果表明，该方法在基准测试中取得了与以往SOTA方法相当或更好的性能，并保持了25 FPS的推理速度。此外，当在不同的数据集上训练和评估时，我们的方法具有更强的泛化能力。我们还报告了在图中的YUD图像上进行线段聚类的精确度和召回率。7.第一次会议。我们使用手动提取的线及其由YUD提供的地面真实消失点关联，类似于[22]。在比较中，我们的方法优于其他基于线的方法。4.3. 消融研究为了验证每个模块的有效性，并进一步比较每个模块与它的变体在我们提出的方法，我们进行了消融研究我们的网络体系结构。消融研究在SU3数据集上进行，6101位置方向上下文提取器线路合并分类网络分类访问16分16分36个间隔36个间隔----基于MLP的Transformer百分之八十二点一98.2%16分---基于Transformer百分之九十五点四16分18个间隔--基于Transformer百分之九十七点八-36个间隔--基于Transformer百分之八十四点九3分36个间隔--基于Transformer百分之九十八32分36个间隔--基于Transformer98.2%16分36个间隔ResNet18平均池化基于Transformer百分之九十八点七16分36个间隔ResNet18加权和基于Transformer98.9%16分36个间隔RefineNet平均池化基于Transformer百分之九十八点六16分36个间隔RefineNet加权和基于Transformer百分之九十九表3.我们的方法在SU3数据集上的消融研究[44]。我们在每条线段上采样不同数量的点，并将角度空间划分为不同数量的区间。线段的分类精度作为度量进行比较。'-'表示不使用相应的功能。实验结果表明，几何特征和图像上下文是重要的聚类线段。使用基于Transformer的体系结构从所有线段中捕获全局信息可以显着改善线分类结果，并且在线分类中使用图像上下文可以进一步提高性能。其在表3中呈现。我们直接从网络输出中报告线段分类精度的结果。作为一种基于基线学习的线段分类器，我们利用线段的位置和方向信息组成线段的特征向量，并使用基于MLP的网络进行分类。通过应用第3.3节中描述的特征融合模块，我们发现分类性能可以显著提高。然后，我们改变采样点的数量和角度间隔，以获得我们的描述符中的最佳超参数。此外，我们测试了两个线池模块，包括平均池和加权和。还测试了两个有效的上下文提取主干，包括ResNet18 [15]和RefineNet [28]实验结果证明了TLC架构的有效性。我们显示了我们的方法的改进，采用图像上下文在组成的线段的特征向量与图中的视觉比较。8.图像上下文能够提高线段的聚类性能，特别是当几何先验难以分类时。TLC中的评分网络可以通过减少迭代次数来提高后处理的效率。我们还测试了评分网络的不同架构。我们发现基于Transformer的模块可以达到94%的精度SU3数据集上的离群值检测召回率为81%，基于MLP的方法产生近似随机的结果。4.4. 讨论与直接使用地面真值消失点作为监控信号的算法相比，该方法的一个优点是可以更容易地应用RANSAC、EM等后处理来进一步提高性能。另一个潜在的优势是，我们的方法是对标记错误不太敏感，因为标记消失点时的小偏差可能不会改变地面实况线分类标记。我们还讨论了我们的方法的局限性。首先，我们的方法是一种基于线的方法，当图像中没有检测到线时，这种方法无法工作。第二，我们的方法可以直接预测最多三个消失点。利用新的聚类损失可以预测更多的消失点，我们未来的工作将集中在这个问题上。5. 结论本文提出了一种基于变换器的直线段分类器（TLC）的消失点实时检测方法。我们的方法利用图像的上下文准确分组的线段。我们将线分类问题建模为序列预测问题。每个线段被表示为一个一维特征向量和Transformer为基础的架构是用来交换信息，更新的线段的功能。对于一幅具有曼哈顿世界投影的图像，TLC可以根据消失点将图像中的线段分为三类，并以非迭代的方式对异常点进行预测。消失点可以使用具有每组线段的SVD该方法在合成数据集和真实数据集上均达到了与其他最先进的消失点检测方法相当或更好的性能，并获得了25 FPS的推断速度。致谢这项工作得到了国家重点发展计划的部分支持。2020YFB1708002 ，国家自然科学基金批准号：61971008。6102引用[1] 还有阿尔曼萨，艾格尼丝·德索纽，塞巴斯蒂安·瓦梅奇。没有任何先验信息的消失点检测。 IEEETransactionsonPatternAnalysisandMachineIntelligence，25（4）：502-507，2003. 2[2] 斯蒂芬·T·巴纳德解释透视图像。Artificial intelligence，21（4）：435-462，1983. 2[3] Jean-CharlesBazin、YongduekSeo、Ce´dricDemonceaux、Pascal Vasseur、Katsushi Ikeuchi、Inso Kweon和Marc Pollefeys。曼哈顿世界中的全局最优直线聚类与消失点估计。见CVPR，第638- 645页。IEEE，2012。2[4] 作者声明： Robert C Bolles ， Martin A Fischler. 基于ransac的模型拟合方法及其在靶场数据中求圆柱体的应用。在IJCAI，1981卷，第637Citeseer，1981年。2[5] 约翰·坎尼。边缘检测的计算方法。IEEE Transactionson Pattern Analysis and Machine Intelligence，（6）：679-698，1986. 2[6] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。参见ECCV，第213-229页。Springer，2020年。3[7] Chin-Kai Chang ， Jiaping Zhao ， and Laurent Itti.Deepvp：深度学习在100万张街景图像上进行消失点检测。见ICRA，第4496IEEE，2018年。2[8] 陈马克、亚历克·雷德福、雷旺·蔡尔德、吴杰弗瑞、全熙宇、栾大卫和伊利亚·苏茨科沃。从像素生成预训练。在ICML，第1691-1703页中。PMLR，2020年。3[9] 辛辰、宾燕、朱佳文、董王、杨晓云Transformer跟踪。在CVPR中，第8126-8135页，2021年。3[10] 作者声明：Robert T Collins，Richard S Weiss.单位球面上作为统计推断的消失点计算ICCV，第90卷，第400-403页，1990年2[11] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在CVPR中，第5828-5839页，2017年。五、六、七[12] Patrick Denis，James H Elder，and Francisco J Estrada.有效的基于边缘的城市图像曼哈顿帧估计方法见《欧洲法院判例汇编》，第197Springer，2008.一、二、五、七[13] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。3[14] 葛无为，宋宇，张百超，董泽华。通过划分旋转搜索空间实现全局最优高效的曼哈顿帧估计。在ICCV中，第15213- 15221页，2021年。2[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。8[16] 林煌、谭建超、季柳、袁俊松。手动- Transformer：非自回归结构化建模于三维手部位姿估计。在ECCV中，第17-33页。Springer，2020年。3[17] Florian Kluger ， Hanno Ackermann ， Michael YingYang，and Bodo Rosenhahn.使用逆日晷投影进行消失点检测的深度学习。载于《全球政策审查报告》，第17-28页。Springer，2017. 2[18] Florian Kluger，Eric Brachmann，Hanno Ackermann，Carsten Rother ， Michael Ying Yang ， and BodoRosenhahn. Consac：通过条件样本一致性进行稳健的多模型拟合。在CVPR中，第4634-4643页，2020年。二三六七[19] Jun-Tae Lee ， Han-Ul Kim ， Chul Lee ， and Chang-SuKim.语义线检测及其应用。在ICCV，第3229-3237页，2017年。2[20] 何塞·莱扎马、拉斐尔·格罗彭·冯·吉欧、格雷戈里·兰德尔和让·米歇尔·莫雷尔。通过图像原始域和对偶域中的点对齐来寻找消失点。在CVPR，第509-515页，2014年。2[21] Haoang Li，Kai Chen，Pyojin Kim，Kuk-Jin Yoon，ZheLiu，Kyungdon Joo，and Yun-Hui Liu.基于宾汉混合模型的二十面体球概率图消失点估计。在ICCV中，第5661-5670页，2021年。2[22] Haoang Li，Ji Zhao，Jean-Charles Bazin，Wen Chen，Zhe Liu，and Yun-Hui Liu.曼哈顿世界中的拟全局最优有效消失点估计。在ICCV，第1646-1654页，2019年。二六七[23] 李翔，李军，胡小林，杨健。Line-cnn：使用线路建议单元进行端到端交通线路检测。IEEE Transactions onIntelligent Transportation Systems，21（1）：248-258，2019。2[24] Xiaohu Lu ， Jian Yaoy ， Haoang Li ， Yahui Liu ， andXiaofeng Zhang.2-曼哈顿世界中用于实时消失点估计的线穷举搜索。在WACV，第345- 353页。IEEE，2017年。二六七[25] Evelyne Lutton，Henri Maitre和Jaime Lopez-Krahe。对利用霍夫变换确定消失点的贡献。IEEE模式分析与机器智能学报，16（4）：430-438，1994。2[26] Michael J Magee和Jake K Aggarwal。从透视图像确定消失点计算机视觉，Graphics，and Image Processing，26（2）：256-267，1984. 2[27] Faraz M Mirzaei和Stergios I Roumeliotis。曼哈顿世界中消失点的最优估计。见ICCV，第2454-2461页。IEEE，2011年。2[28] Vladimir Nekrasov 、 Thanuja Dharmasiri 、 AndrewSpek、Tom Drummond、Chunhua Shen和Ian Reid。使用非对称注释的实时联合语义分割和深度估计见ICRA，第7101-7107页。IEEE，2019。8[29] Niki Parmar，Ashish Vaswani，Jakob Uszkoreit，Lukasz6103Kaiser，Noam Shazeer，Alexander Ku，and Dustin Tran.图像 Transformer 。在 ICML ，第 4055-4064 页中。PMLR，2018。36104[30] Yongjie Shi，Danfeng Zhang，Jingsi Wen，Xin Tong，He Zhao，Xianghua Ying，and Hongbin Zha.基于卷积神经网络的结构化场景三正交消失点估计在ICIP中，第3537-3541页。IEEE，2019。2[31] Gilles Simon，Antoine Fond和Marie-Odile Berger。使用二阶分组法则的反地平线优先消失点检测。在ECCV，第318-333页，2018年。六、七[32] Marco Straforini，C Coelho，and Marco Campani.从室内外场景图像中提取消失点。 Image and VisionComputing，11（2）：91-99，1993. 2[33] 让-菲利普·塔迪夫快速准确检测消失点的非迭代方法见ICCV，第1250IEEE，2009年。二六七[34] 亚历山大·瓦希托夫和维克多·伦皮茨基可学习的线段描述符视觉猛击。 IEEE Access ， 7 ： 39923- 39934 ，2019。三、四[35] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， LukaszKaiser，and Illia Polosukhin.注意力是你所需要的。在NIPS，2017年。3[36] 拉斐尔·格隆彭·冯·焦伊，杰瑞米·雅库博维奇，让-米歇尔·莫雷尔，格雷戈里·兰德尔。Lsd：一个快速线段检测器，带有错误检测控制。 IEEE Transactions onPattern Analysis and Machine Intelligence，32（4 ）：722-732，2008. 二、六[37] 宁王、周文刚、王

下载后可阅读完整内容，剩余1页未读，立即下载