没有合适的资源?快使用搜索试试~ 我知道了~
6103深度消失点检测:几何先验使数据集变化消失放大图片作者:林彦聪,王伟.Pintea,Klaus Hildebrandt,Elmar Jumeemann,and Jan C.荷兰代尔夫特理工大学摘要深度学习改进了图像中的消失点检测。然而,深度网络需要在昂贵的硬件上训练的昂贵的注释数据集,并且不能推广到甚至稍微不同的领域和小问题变量。在这里,我们通过注入具有先验知识的深度消失点检测网络来解决这些问题。这种先验知识不再需要从数据中学习,节省了宝贵的注释工作和计算,解锁现实的少样本场景,并减少了领域更改的影响。此外,先验知识的可解释性允许深度网络适应较小的问题变化,例如在曼哈顿和非曼哈顿世界之间切换。我们无缝结合了两个几何先验:(i)Hough变换-将图像像素映射到直线,以及(ii)高斯球-将线映射到其交点表示消失点的大圆。实验上,我们消融了我们的选择,并在大数据环境中显示出与现有模型相当的准确性。我们验证了我们的模型1. 介绍图像中的消失点检测具有非消失的真实世界返回:摄像机校准[1,9,21],场景理解[18],视觉SLAM [13,33],甚至自动驾驶[28]。深度学习是消失点检测的一种很好的方法[7,8,67,69],其中所有几何知识都是从大型注释数据集中学习的。然而,在现实世界中,有几个因素使深度学习解决方案复杂化:(1)手动注释大型训练集是昂贵的,并且容易出错;(2)在大型数据集上训练模型需要昂贵的计算资源;(3)数据收集的实际变化导致域转移,阻碍了深度网络泛化;(4)问题设置的轻微变化需要深度网络架构的完全改变因此,需要使深度学习对数据的依赖更少,并且其架构对相同问题的变体更加稳健。在本文中,我们添加几何先验深度消失图1.我们增加了两个几何先验:(i)Hough变换和(ii)高斯球映射,用于消失点检测。我们将学习到的图像特征转换到Hough域,其中线条被映射到各个bin。我们进一步将霍夫箱投影到高斯球上,在高斯球上,直线变成了大圆,消失点位于大圆的交点处每种颜色代表一组与消失点相关的图像线添加几何先验知识使我们的模型数据高效,较少依赖于特定领域,并且易于适应问题的变化,例如检测可变数量的消失点。点检测使用几何先验是数据高效的,因为这些知识不再需要从数据中学习。因此,需要更少的注释和计算资源此外,通过依赖先验,该模型对训练数据中的特定特性不太敏感,并更好地推广到数据分布略有不同的领域。基于知识的方法的另一个优点是它是可解释的,因此架构很容易适应稍微不同的问题制定。我们添加了两个几何先验,见图1:(i)Hough变换和(ii)高斯球映射。我们的可训练霍夫变换模块将每条线表示为线极坐标中的(偏移,角度)对,允许我们识别霍夫空间中的各条线[15]。我们将这些直线从Hough空间映射到高斯球,在高斯球中直线变成大圆,消失点位于大圆的交点[4]。使用大圆的好处是,线从无界图像平面映射到有界单位球,便于图像视图外的消失点检测。霍夫变换和高斯球映射都是端到端可训练的,利用了学习的表示,同时添加了知识先验。6104本文做出了以下贡献:(1)我们通过将CNN特征映射到Hough变换,并将Hough bin映射到高斯球,为消失点检测添加了两个几何先验;(2)我们验证了我们的选择,并在大型ScanNet [12]和SceneCity Urban 3D[70]上(3)我们表明,添加先验知识可以提高数据效率,提高较小数据集的准确性;(4)我们证明了我们解决不同问题的能力:在NYU Depth [45]数据集上检测不同数量的消失点,其中消失点的数量从1到8变化很大;(5)我们表明,添加先验知识可以降低域偏移敏感性,我们通过跨数据集测试进行了验证。2. 相关工作基于几何的消失点检测。消失点出现在直线的交点处。 可以通过轮廓检测[71]或双点到线映射[30]找到线。然而,常见的方法是使用Hough变换中的显式直线参数化[40,47,51]。我们利用这种直线参数化作为霍夫变换模块中的先验知识。通过测量一组线通过同一点的概率[57]、投票方案[19,64]或通过计算内点线(如J-Linkage)的数量进行假设检验,可以将线组合到消失点[59][59][59][59其他方法通过应用线聚类[3,43,53],期望最大化[1,14,27,54]或分支定界[5,6,23]将消失点检测视为分组问题。虽然这些方法工作得很好,但它们没有利用3D世界的先验知识。消失点的强几何先验由高斯球[4,10]建模。图像中的一条线表示高斯球上的一个大圆,球上大圆的交点表示消失点,检测为局部最大值[4,51]。将线映射到高斯球将问题从无界图像平面转移到由高斯球定义的约束参数空间[10,41,56]。约束搜索空间是正则化的一种形式,特别有利于有限数据的深度学习。我们利用这一先验知识,将高斯球映射。基于学习的消失点检测。 消失点检测可以从大型注释数据集中学习[7,8,66,67]。它是有效的分裂问题在不同的阶段:线检测,逆日晷投影,网络训练和后处理,在Kluger等人。[25 ]第20段。半球点上的圆锥卷积,提供了进一步的改进,在Zhou等人。[69]。相反,我们考虑的不是精确的大规模深度模型,而是具有挑战性的现实场景,例如:有限的训练样本、跨数据集域切换和非曼哈顿世界。对域偏移的鲁棒性。消失点检测的经典解决方案[17,35,55]完全建立在先验知识上。这样的方法是无数据的,因此被设计为在任何域上工作。然而,他们不能利用表达性深度特征学习进行消失点检测[38,69]。另一方面,深度模型对训练和测试之间的分布变化非常敏感[29,39]。对此的积极研究包括:域自适应[50,61,65],域泛化[68],多域学习[36,52]等。这些解决方案需要对深度网络模型进行重大更改,增加了实际现实世界应用的复杂性。因此,我们专注于一个单一的方法,不需要大的模型变化的鲁棒性,以轻微的域的变化。 我们的目标是将基于知识的方法的鲁棒性与深度表示学习的强大功能相结合。曼哈顿对非曼哈顿世界。曼哈顿世界假设正好有三个消失点。该方法已被证明可用于正交消失点检测[2,5,44,63]。然而,Manhattan假设在几个真实世界场景中不成立,例如人造结构中的非正交墙和线框。非曼哈顿世界中的消失点检测是通过鲁棒多模型拟合[26],地平线检测[66],具有新的地雷和刺策略的分支定界[32],宾厄姆混合模型拟合[31]或高斯球上的非最大值抑制[38]来完成的。 在我们的工作中,我们避免添加明确的正交性约束,这使得我们的方法适用于非曼哈顿的情况下。我们依靠霍夫变换和高斯球来将像素级表示映射到整个半球。并利用聚类算法同时检测多个消失点。3. 用于VP检测的我们方法的概要 图2描述了我们模型的整体结构。 我们建立在两个几何先验之上:(i)Hough变换,和(ii)高斯球映射。CNN学习图像特征,然后通过霍夫变换将其映射到线参数化我们将参数化直线的特征投影到高斯球上,在高斯球上,球面卷积精确地定位消失点。(i) Hough变换与[69]类似,我们使用单栈沙漏网络[46]来提取图像特征,F被映射到Hough空间[37],HT。HT空间使用一组离散偏移ρ和离散角度θ来参数化极坐标中的图像线,从而定义2D离散直方图。在实践中,沿着由i索引的线的一组像素(x(i),y(i))投票支持线参数化以6105Σ×××n−¨¨[184x180]x128[184x180]x128[32768]x64[32768]x64[128x128]x128[512x512]x3[32768]x1图2. 概述:该模型从输入图像开始,并依靠两个几何先验来预测高斯半球上的消失点:(i)Hough变换和(ii)高斯球映射。我们使用卷积网络来学习特征,然后将其映射到Hough空间,其中每个bin都是一条线。我们过滤霍夫空间和项目霍夫箱高斯半球和应用球面卷积找到消失点。我们指出上面学习的特征的大小,其中最后一个维度是通道的数量。我们使用斐波那契点阵对半球上的32,768个点进行采样[20],得到大小为32,768的特征图。我们的模型学习将球形点分类为消失点或不使用二进制交叉熵损失。没有中间监督。他们都属于:HT(ρ,θ)=F(ρ cos θ − i sin θ,ρ sin θ + icos θ)(1)我霍夫变换模块从[Hff]特征图F开始,并输出[Nρ Nθ]霍夫直方图HT,其中Nρ和Nθ是霍夫变换中的采样偏移和角 度 的 数 量 。 我 们 设 H=128 , W=128 , Nρ=184 ,Nθ=180。 这导致[Nρ Nθ]个可能的线参数化。我们通过在偏移上执行1D卷积来找到Hough域中的局部最大值。这消除了霍夫空间中的噪声响应,如图2所示。我们建议读者参考[37]以了解详细信息。(ii.1)高斯球映射。高斯球是以相机原点O为中心的单位球。球体上的消失点被表示为归一化的3D线方向δ。从霍夫域(ρAB,θAB)中的仓开始,对应于图像平面-A-→B中的线方向,我们想把它映射到高斯球上。两个图像从由HT仓(ρAB,θAB)表示的线采样的点A和B与摄像机中心O一起形成如图3(a)所示的平面θ。平面的法线向量描述为:−O→A×−O−→B表示从xz平面朝向y轴测量的角度,如图3(a)所示。平面ψ和高斯球的交点是一个大圆。这个大圆表示图像线方向的投影-A-→B在高斯球上。多重交叉点大圆是潜在的消失点,见图3(b)。我们计算图像线方向−A−→B,通过估计作为az函数的标高βimuthα和法向量→−n[51]:β(α,→−n)=tan−1−nxsinα−nzcosα,(3)y其中,我们在范围[π/2,π)内均匀采样α。因为高斯球是对称的,我们只需要半球我们使用斐波那契晶格[20]对高斯半球上的N个点进行采样,然后将对应于霍夫空间中的仓的线投影到这N个采样的球面点。对于Hough中的每条线参数化空间(ρ,θ),我们首先计算它的法向量→−n。We然后,使用等式(1)估计其对应的(α,β)球坐标。(三)、随后,我们将每个(α,β)对分配给来自Fibonacci格,通过计算它们的余弦距离。为了使这个过程并行化,我们预先计算所有Hough线参数化到采样球位置上的投影 该映射存储在[Nρ×Nθ×M]张量中,→−n=(nx,ny,nz)=<$− →−→ <$。(二)其中,[Nρ×Nθ]是OA×OB这个法向量→−n是我们将图像线方向−A−→B映射到高斯球所需的唯一信息球坐标(α,β)描述了高斯球,其中α是方位角,定义为在xz平面中与z轴成角度,β为高程Hough空间,M是采样方位角的数量,角α我们设N=32,768,M= 1024。(ii.2)半球上的球面卷积我们采用球面卷积来预测消失点。我们将半球上采样的点视为点云,并使用EdgeConv [62]在半球上进行卷积。EdgeConv对图上的k-最近邻图进行操作6106--联系我们y一UBzOVX(a) 高斯球(b)高斯球上的消失点图3. 消失点的高斯球表示[4,51]:(a)高斯球是位于相机中心O的单位球。球面上的点由两个角度编码:(α,β)分别是方位角和仰角。 图像平面中的线段AB与相机中心0-起形成平面ψ,以蓝色突出显示定义从图像到球面,我们只需要知道平面φ的法线−→n。(b)图像线被投影为球体上的大圆。路口在球面上的多个大圆的交点表示消失点。图4. 半球上的球形回旋。我们使用EdgeConv [62]在高斯球上进行精确的消失点定位。先前特征图的串联被馈送到最后一层以产生预测。点它通过将非线性函数应用于邻居的特征来学习表示局部邻居,然后用对称算子聚合这些特征。通过减去质心的特征来定位邻居像[62]一样,我们在邻居上取每个特征的最大值来聚合边缘特征。如图4所示,我们模型的球形部分包含5个EdgeConv模 块 [62] 。 每 个 EdgeConv 模 块 都 使 用 全 连 接 层 、BatchNorm层[22]和LeakyReLU激活来转换相邻特征。我们在半球上使用N= 32,768个节点,并计算每个节点的16个最近邻居我们将先前层的特征图连接起来,并将它们馈送到最后一个EdgeConv层以产生最终预测。模型训练和推理。我们使用二进制交叉熵损失来训练模型。对于每个带注释的消失点,我们将其在采样点中的最近邻标记为+1,其他标记为0。由于正样本的数量远低于负样本,我们计算正样本和负样本的两个单独的平均损失,然后将其相加。没有中间监督或指导。在推理过程中,我们使用DBSCAN [16,49]根据余弦距离对高斯球上的所有点进行图5. 半球上的多尺度采样。我们在三个尺度上对点进行采样,以检测曼哈顿世界中的消失点,如[69]所示。蓝色表示在第一个尺度下采样,而绿色表示在以下尺度下的细粒度采样红色的叉是每个尺度下的预测值。DBSCAN [49]的eps参数设置为0.005。在每个聚类中具有最高置信度的点是预测。我们根据信心对所有预测进行排名。基于曼哈顿假设的多尺度抽样。对于曼哈顿世界,我们事先知道只有3个正交消失点,因此在这种情况下,我们可以使用多尺度采样策略来减少计算,如[69]所示。 在这里,我们采样点和ap-3个尺度的层球面卷积:δ90μ m、13μm、4μ m和N=512、128、128,其中δ控制采样半径,N表示重新采样的采样点的数量分别为。图5显示了多尺度采样。球面卷积网络共享相同的架构,但处理不同数量的样本。我们在补充材料中提供了详细信息。4. 实验数据集。 我们在遵循曼哈顿世界假设的三个数据集上进行评估:SU3(SceneCity Urban 3D)[70],ScanNet[12],YUD [14]以及不遵循曼哈顿世界假设的NYUDepth [45]数据集。SU3数据集包含23K合成图像,6107××××消融研究:ScanNet0.90.80.7HT(角度数)球面(点数)90 180 8K16K32KAA@3美元77.1 79.3 73.3 77.4 79.30.60.50.40.30.20.10.0电话:+86-0512 - 8888888传真:+86-0512 - 8888888角度差图6. Exp 1:模型选择。我们定量地显示了两个几何先验对ScanNet-1%子集的影响。添加HT层和球面卷积的性能优于基线,从而证明了几何先验的有效性。其中80%、10%和10%分别用于培训、验证和测试ScanNet拥有超过20万张真实世界的图像,其中189,916个示例用于训练。“地面实况”VP是根据表面法线估计的,在NYU Depth数据集中,消失点的数量在图像中从1到8不等,这使得它更具挑战性。纽约大学深度数据集有1,449个图像,分别比扫描网络数据集和SU3数据集小大约200个和20个我们还证明了几何先验对只有102张图像的小规模YUD数据集的影响。详细比较见补充材料。除非另有说明,否则我们使用SU3,ScanNet和YUD上的地面实况焦距作为曼哈顿假设。评价 在SU3,ScanNet和YUD数据集(曼哈顿假设)上,我们评估了相机空间中预测和地面实况消失点之间的角度差,如[26,38,69]所示。然后,我们估计具有小于给定阈值的角度差的预测的百分比,并比较不同阈值下的角度准确度(AA),如[38,69]所示。我们使用地面实况焦距来利用正交约束。在NYU深度数据集上,我们遵循[26]并首先通过置信度对检测到的消失点进行排名,然后使用二分匹配[11]来计算前k个预测的角度误差。匹配后,我们生成召回曲线并测量曲线下面积(AUC)达到阈值,例如,10◦.基线。我们将我们的模型与SU 3,ScanNet和YUD上的J-Linkage [17],Quasi-VP [55],Quasi-VP [34,35],NeurVPS [69]和CONSAC [26]进行比较。在非曼哈顿纽约大学深度数据集上,我们只与J-表1. SU 3 - 10%子集的量化分析。更密集的采样提高了性能。在实践中,对于HT,我们从[0,π)均匀采样180个角度,并且在球体上采样32个K链接,T-链接[42],CONSAC和VaPid [38],因为其他模型依赖于曼哈顿假设。J/T- Linkage、Quasi-VP和Quasi-VP是非学习方法,采用线段检测[60]。NeurVPS和我们的模型是端到端可训练的,而CONSAC需要线段作为输入。我们遵循官方的实现,并使用默认的超参数来重现所有结果。我们不考虑基线[31,38,64],因为某些数据集缺乏代码/结果。实作详细数据。我们在Py-torch [48]中实现了我们的模型 , 并 在 线 提 供 了 代 码 1. 我 们 的 模 型 在 NvidiaRTX2080Ti GPU上从头开始训练,亚当优化器[24].学习率和权重衰减分别设置为4 10−4和1 10−5。 为了最大限度地利用GPU,我们在使用多尺度采样时将批大小设置为4和16。在SU3和NYU Depth数据集上,我们训练模型最多36epoch , 在 24 个 训 练 epoch 之 后 , 学 习 率 降 低 10 在ScanNet数据集上,我们训练了10个epoch,并在4个epoch后将学习率衰减10。在YUD数据集上,我们使用SU3上的预训练模型。4.1. 实验1:评估模型选择我们对包含1%数据的ScanNet子集进行评估,并在图6中提供结果。 模型(1)是 使用经典线段检测器(LSD)[60]和球体上的非最大抑制(NMS)的非学习基线。模型(2)用球面卷积代替NMS,但由于LSD无法检测到可靠的线段,因此仍然显示出较差的结果。模型(3)结合了Canny边缘检测器、Hough变换和球面卷积。比较(3-5)表明从图像中学习语义的附加值,而不是使用经典的边缘检测器。比较(4-5)示出了通过霍夫变换反向传播的有效性。比较(5-8)可以证明球面卷积的附加值我们的方法将经典和深度学习方法结合到端到端的可训练模型中。我们还评估量化的影响,数字合成SU 3 -10%的子集,其中包含精确的VP注释,从而使量化的一个至关重要的因素。如Tab.所示1、细粒度采样对于获得更好的结果至关重要1https://github.com/yanconglin/VanishingPoint_HoughTransform_GaussianSphere1. LSD + Sphere-NMS2. LSD +球形转换3. Canny-edge + HT-Conv + Sphere-Convx44. Conv + HT+NMS + Sphere-Convx45. Conv + HT-Conv + Sphere-Convx 4(我们的)6. Conv + HT-Conv + Sphere-Convx27. Conv + HT-Conv + Sphere-Convx18. Conv + HT-Conv + Convx1百分比6108×≥≥数据集苏3 [70][第12话]YUD [14]度量ParamsFPSAA@3○AA@5○AA@3○AA@5○AA@10○AA@3○AA@5○AA@10○[17]第十七话-1.082.087.215.727.343.060.871.881.5[55]第五十五话-0.664.872.212.021.435.358.670.781.8准VP [34]-29.075.980.714.725.339.458.661.074.0[26]第二十六话0.2 M3.086.390.315.824.636.061.773.684.4NeurVPS [69]22米0.593.996.324.041.864.452.464.077.8我们7 M5.584.090.224.842.163.760.774.386.3我们的5 M23.084.890.722.939.862.459.572.685.4我们的†7 M5.581.788.722.238.859.959.172.684.6表2. 实验二:曼哈顿世界。SU3、ScanNet和YUD数据集上的角度精度。我们在YUD数据集上取得了最好的结果,并且在更大的ScanNet和SU3数据集上具有竞争力。我们的算法采用了多尺度采样策略,因此速度明显加快。假设焦距未知,因此曼哈顿假设不再适用。我们的†显示在数据集上比我们的不断减少,表明正交约束的有用性补充材料提供了定性可视化我们的结论是,在大规模的设置,增加先验并不会降低精度Ours-7 MQuasi-VP J-LinkageCONSAC神经元-VP NeurVPS-22 M1.0SU3数据集上的AA曲线1.0ScanNet数据集上的AA曲线1.0YUD数据集0.80.80.80.60.60.60.40.40.40.20.20.20.0电话:+86-0512 - 88888888传真:+86-0512-88888888角度差0.00.02.55.07.510.012.515.017.520.0角度差0.00 2 4 6 810角度差图7. 实验二:曼哈顿世界。ScanNet、SU3和YUD数据集上的AA曲线包含3个正交消失点。基于学习的方法优于单纯依赖线段和分组的方法,验证了表示学习的强大功能。我们的模型显示了与ScanNet上性能最好的NeurVPS相当的结果,同时使用了少3个参数。在较小的YUD数据集上,我们的模型略高于最先进的模型。一般来说,在数据充足的情况下,我们的方法与其他方法相当4.2. 实验2:大型数据集我们验证了,增加先验知识并不降低精度时,有大量的数据。我们比较了ScanNet,SU3和YUD数据集上的五个最先进的基线[17,26,34,55,69]在ScanNet和SU3数据集上在YUD数据集上,我们使用SU3上的预 训 练 模 型 , 而 不 进 行 微 调 。 对 于 CONSAC 和 J-Linkage,我们选择前3个预测。我们还测量了在单个RTX2080 GPU上的推理速度多-规模采样我们的相机达到23 FPS,一个很大的加速比香草设计,因为我们利用正交性的有效,古代抽样选项卡. 图2显示了ScanNet、SU3和YUD数据集上的AA分数,而图7描绘了不同角度差异的AA曲线。SU 3数据集更容易,因为大多数图像包含强烈的几何线索(例如锐边和轮廓); ScanNet数据集中不再是这种情况。对于所有方法,更现实的ScanNet数据集上的预测误差都要大在ScanNet数据集上,NeurVPS和我们的模型明显优于依赖于预定义线段作为输入的方法NeurVPS和我们的模型的主要优势是它们能够直接从图像中学习有用的特征表示。上在SU3数据集上,NeurVPS在低误差区域(从0○到1○)超过了其他方法。J-Linkage、Quasi-VP和CONSAC也有类似的结果,并且都稳定在1○。在SU 3上,我们的模型在0○-1○的精度较低,但它在1○时可以补偿。我们在0○-1○范围内的性能较差的原因是Hough变换的量化误差高斯球映射。在小规模的YUD数据集[14]上,我们的模型在没有微调的情况下达到了相当的精度,并且在2○区域超过了其他方法,这表明我们的模型在小数据区域的泛化能力。我们得出结论,我们的模型使用先验知识与现有的解决方案类似。百分比百分比百分比6109±±×----ScanNet子集6010095SU 3子集50403020百分百百分之十5% 2.5% 1%9085807570100% 50% 25% 10%2.5% 1%(200K)(20K)(10K)(5K)(2K)(20K)(10K)(5K)(2K)(1K)(0.5K)(0.2K)训练样本比例训练样本(a) ScanNet上的数据效率(b)SU3图8. 实验3. (a)减少数据。我们在ScanNet和SU 3数据集的各个子集上报告AA@10kHz,并在图例中指示参数的数量。 在ScanNet数据集上,我们在10%,5%和2. 5%的子集。 我们的模型退化了当在SU3子集上将训练样本从20K减少到1K时,NeurVPS的准确性会大幅下降由于预提取的线段,CONSAC在SU3上获得了最佳结果,但由于线检测不准确,在ScanNet上失败了依赖于线段检测的基线也有类似的 我们的模型预测是稳定的,具有小方差(0。50和 0的情况。43的分别为ScanNet和SU 3的1%子集)。该实验验证了我们的模型的数据效率4.3. 实验3:模拟场景4.3.1实验3. (a):减少数据我们通过将训练样本的数量减少到10%,5%,2。ScanNet数据集上的5%,1%,产生大约20K,10K,5K和2K训练图像。同样,我们也将SU3数据集抽样为50%,25%,10%,5%,2。5%,1%的子集。我们使用每个子集上的默认超参数从头开始训练所有学习模型在图8中,我们比较了100时的AA评分与最先进的方法。我们使用我们的香草设计,没有多尺度采样加速。首先要注意的是非学习方法对数据简化是鲁棒然而,非学习方法不能考虑任何训练数据,因此当有更多数据可用时,它们的表现就不那么好了,正如我们在前面的实验中所验证的那样在ScanNet数据集上,我们的模型在10%,5%和2%上明显超过其他方法。5%的子集。相比之下,NeurVPS在小的训练数据子集上遭受大的准确性下降。当样本数量减少到2K(1%子集)时,与非学习方法 相 比 , 我 们 仍 然 达 到 了 竞 争 性 的 准 确 性 , 而NeurVPS由于缺乏数据而无法做出合理的预测。这表明我们的模型能够从有限的数据中学习,这要归功于增加的几何先验。NeurVPS模型比我们的模型多了3个参数,因为它的全连接层有16M个参数。 为了公平起见,我们也考虑减少的全连接层,具有类似数量的[45]第四十五话top-k=#gt top-k=#predAUC@5○@10○@5○@10○J-Linkage [17]49.3061.2854.4868.34[42]第四十二话43.3858.0547.4864.59CONSAC [26]49.4665.0054.3769.89CONSAC [26][第37话]46.7861.0649.9465.96[38]第三十八话-69.10--我们55.9269.5757.1971.62表3. 实验3(b):非曼哈顿情景。我们在NYU Depth数据集上报告AUC分数。这里我们的模型在检测不同数量的消失点时超过了最先进的水平。我们的模型参数。两种NeurVPS变体在各种子集上表现相似。在SU3数据集上,当减少训练数据集大小时,NeurVPS的准确性显着降低,尽管它在大型训练子集上具有优势。相比之下,当训练数据从20K减少到1K时,我们的模型会优雅地降级。值得注意的是,在1%的子集上,只有200张图像用于训练,我们仍然能够实现与非学习方法相当的性能。我们的-7 MNeurVPS-7MNeurVPS-准VPJ-连杆CONSACPunjario-VP百分比百分比6110纽约大学深度数据集合成-真实世界数据(副总裁人数:1-8人)0.90.80.70.60.50.40.30.20.10.00 2 4 6 810角度差@10○33.630.383.2 82.7 71.475.0图9. 实验3. (b):非曼哈顿情景。我们在非曼哈顿纽约大学数据集上绘制了重新调用曲线。我们的方法执行国家的最先进的,说明该模型的能力,以检测不同数量的消失点。见补充材料的定性可视化。4.3.2实验3. (b):非曼哈顿情景我们比较国家的最先进的方法在一个更现实的非曼哈顿的情况下,有限的注释数据。CON-SAC [26]使用[60]中的线段检测。我们还考虑了CONSAC的一个变体,其中使用了[37]中的最新线段检测器。图9和Tab. 3分别显示了NYU Depth数据集上的召回率曲线和AUC值。我们的模型始终优于最先进的基线,并且对于更大的角度差异,这种改善更为明显。虽然取得了第二好的成绩,VaPiD[38]假设实例数量恒定,并且需要非最大抑制,这通常会导致过度预测和预测不足。我们的模型优于现有的方法,利用几何先验,而不限制消失点检测的数量。4.4. 实验3. (c):跨数据集域切换我们对多个数据集进行跨数据集测试,如Tab所4.第一章我们与NeurVPS和CON-SAC进行了比较当从合成数据集推广到现实世界时(例如,从SU3到YUD),我们的模型显示了与CONSAC的比较结果,CONSAC依赖于先前的线段检测,使其对域偏移具有鲁棒性。我们在真实世界的数据集上观察到类似的趋势(例如 , 从 NYU 到 YUD ) 。 然 而 , 在 具 有 挑 战 性 的ScanNet数据集上,Ours超过了CONSAC,这表明学习语义比使用预提取的线条更有优势。相比之下,NeurVPS不能很好地转移到另一个数据集。这验证了两个先验在处理域转移中的鲁棒性。表4. 实验3. (c)跨数据集域切换。“训练”和“测试”指定训练和测试数据集。CONSAC使用预提取的线,因此在YUD/YUD+上是准确的。然而,由于缺乏可靠的线路,它在ScanNet上的准确性较低。相比之下,我们在ScanNet和YUD上都更准确,无需调整。我们的几何先验提高了模型在数据集之间的可转移性。5. 结论和局限性本文重点研究了基于有理几何先验的消失点检测方法。我们在深度神经网络中添加了两个几何先验作为消失点检测的构建块:霍夫变换和高斯球映射。我们通过实验验证了我们的几何先验的附加值相比,国家的最先进的曼哈顿方法,并显示其实用性的现实/具有挑战性的情况下:减少样本,在非曼哈顿的世界,其中的挑战是预测不同数量的消失点没有正交性的假设,和跨数据集。局限性。尽管有这些改进,我们的模型也有一些局限性。我们通过固定霍夫直方图的大小以及斐波那契采样来离线预先计算从图像到霍夫箱和高斯球的映射。然而,这些采样引入了量化误差,其设置了准确度的上限。这是SU3数据集在低误差区域中精度有限的主要原因。未来的研究途径是探索从图像像素到高斯球的解析映射。此外,我们的模型仍然依赖于数百个完全标记的样本进行训练。可以考虑在无监督或弱监督设置中测试添加的几何先验CONSAC+LSDCONSAC+深度LSDJ-连杆T-Linkage我们的火车SU3 [70][14]第十二届全国政协委员模型我们NeurVPSCONSAC我们NeurVPSCONSACAA@3○15.211.110.160.753.861.7AA@5○AA@10○25.939.520.335.5房17.327.2-Worldda74.386.3ta65.6 73.679.7 84.4火车[45]第四十五话测试[12]第十二话美国(AA)YUD+ [14](AUC)模型我们的我们的我们的召回6111引用[1] Matthew E Antone和Seth Teller。自动恢复城市场景的相对摄像机旋转。IEEE计算机视觉与模式识别会议论文集。CVPR 2000(目录号:号PR 00662),第2卷,第282- 289页。IEEE,2000年。一、二[2] Michel Antunes和Joao P Barreto。一种检测消失点和相互正交消失方向的全局方法。在IEEE计算机视觉和模式识别会议论文集,第1336- 1343页2[3] 奥尔加·巴里诺娃,维克多·兰皮斯基,埃琳娜·特雷蒂亚克,还有"推见面",科利.人造环境中的几何图像解析欧洲计算机视觉会议,第57-70页。施普林格,2010年。2[4] 斯蒂芬·T·巴纳德解释透视图像。Artificial intelligence,21(4):435-462,1983. 一、二、四[5] Jean-Charl esBazin,YongduekSeo,Ce'dricDemonceaux,Pascal Vasseur,Katsushi Ikeuchi,Inso Kweon 和MarcPollefeys。曼哈顿世界中的全局最优直线聚类与消失点估计。在2012年IEEE计算机视觉和模式识别会议上,第638-645页IEEE,2012。2[6] Jean-Charles Bazin,Yongduek Seo,and Marc Pollefeys.通过旋转搜索实现全局最优共识集最大化。在亚洲计算机视觉会议上,第539-551页Springer,2012. 2[7] 阿里·博尔吉用卷积神经网络进行消失点检测CVPR场景理解研讨会,2016年。一、二[8] Chin-Kai Chang , Jiaping Zhao , and Laurent Itti.Deepvp:深度学习在100万张街景图像上进行消失点检测。在2018年IEEE机器人与自动化国际会议(ICRA)上,第1-8页,2018年。一、二[9] Roberto Cipolla , Tom Drummond , and Duncan PRobertson.基于建筑场景图像灭点的摄像机标定。在BMVC,第99卷,第3821[10] 作者声明:Robert T Collins,Richard S Weiss.单位球面上作为统计推断的消失点计算ICCV,第90卷,第400-403页,1990年2[11] 大 卫 ·F· 克 劳 斯 二 维 矩 形 分 配 算 法 的 实 现 。 IEEETransactions on Aerospace and Electronic Systems , 52(4):1679-1696,2016。5[12] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet:室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集,第5828-5839页,2017年。二四六八[13] Andrew J Davison,Ian D Reid,Nicholas D Molton,andOlivier Stasse. Monoslam:实时单摄像机猛击。IEEE模式分析与机器智能学报,29(6):1052-1067,2007年。1[14] Patrick Denis,James H Elder,and Francisco J Estrada.有效的基于边缘的曼哈顿帧估计方法in urban城市imagery意象.在欧洲计算机视觉会议上,第197-210页。Springer,2008. 二四六八[15] Richard O Duda和Peter E Hart利用霍夫变换检测图象中的直线和曲线。ACM通信,15(1):11-15,1972年。1[16] Mart inEster , Hans-PeterKrie gel , Jo¨rgSander , XiaoweiXu , et al. A density-based algorithm for discoveringclusters in large spatial databases with noise.在Kdd,第96卷,第226-231页4[17] 陈锋,邓飞,维尼特·R·卡马特。基于单幅图像的分段平 面 建 筑 物 模 型 半 自 动 三 维 重 建 。 CONVR(Sendai:),2010. 二五六七[18] 亚历克斯·弗林特大卫·默里和伊恩·里德使用单眼、立体和3d特征的曼哈顿场景理解。2011年国际计算机视觉会议,第2228-2235页。IEEE,2011年。1[19] 保罗·甘巴,亚历山德罗·梅科奇,还有萨尔瓦多.通过投票 方 案 的 消 失 点 检 测 。 在 Proceedings of 3rd IEEEInternational Conference on Image Processing,第2卷,第301-304页,1996中。2[20] A'l v aroGonz a' lez. 测量球体上的面积斐波那契和Mathematical Geo- sciences,42(1):49,2010. 3[21] Lazaros Grammatikopoulos , George Karras , and ElliPetsa.一种基于消隐点的摄像机自动
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功