基于Bingham混合模型的二十面体球消失点估计

163 浏览量更新于2023-10-13 收藏 2.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5661基于Bingham混合模型的二十面体球概率图学习消失点估计Haoang Li1，* Kai Chen1，* Pyojin Kim2 Kuk-Jin Yoon3 Zhe Liu4 Kyungdon Joo5，† Yun-Hui Liu1，†1香港中文大学，中国香港2淑明女子3韩国KAIST 4英国剑桥大学5韩国UNIST摘要现有的消失点（VP）估计方法依赖于预提取的图像线和/或VP数量的先验知识。然而，在实践中，这一信息可能不足或无法获得。为了解决这个问题，我们提出了一个网络，将透视图像作为输入，并预测VP的球形概率图。基于该图，我们可以检测所有的VP。我们的方法是可靠的，这要归功于四项技术创新。首先，我们利用二十面体球面表示来表达我们的概率图。该表示提供均匀的像素分布，并且因此便于估计VP的任意其次，我们设计了一个损失函数，该损失函数强制我们的球形概率图的对映对称性和稀疏性，以防止过度拟合。第三，我们生成的地面实况概率图，合理地表达的位置和不确定性的VP。该图不必要地在有噪声的注释VP处达到峰值，并且还表现出各种各向异性色散。第四，给定预测概率图，我们通过拟合Bingham混合模型来检测VP该策略可以鲁棒地处理接近VP，并提供对实际应用有用的VP的置信水平实验表明，我们的方法实现了最好的折衷之间的承诺的一般性，准确性和效率，与国家的最先进的方法相比。1. 介绍消失点（VP）是其对应的3D线平行的两个图像线的交点。VP具有各种应用，诸如场景理解[12]、相机取向估计[14]和3D重建[13]。虽然VP估计已经被广泛研究，但是现有的方法具有两个主要限制。首先，许多方法[25，24，22，33，1，18]依赖于预提取的图像线，但它们对线的数量和质量敏感例如，给定少量的行，方法可以是*Haoang Li和Kai Chen对这项工作做出了同样的贡献。†Kyungdon Joo和Yun-Hui Liu为通讯作者。错过异常值错过(a)（b）[22]的结果（c）[33]的结果（d）[25]一个像素概率输入图像GroundTruthVP网络地面实况摄像机DD中心预测地图检测到DD(e)我们的输入图像（f）我们的输出映射和DD图1。（a）四个地面实况VP分别与红色、绿色、蓝色和黄色线集群相关联（我们已经过滤掉短线）。（b）[22]忽略与点青色相关联的VP由于线路不足。(c)[33]错误地检测与纯青色离群值相关（d）[25]由于假设三个正交VP而忽略与青色虚线相关联的VP（e，f）我们将VP估计重新表示为DD计算。给定一个透视图像，我们的网络预测DD的球形概率图。基于该图，我们可以检测所有的DD。忽略一些VP（参见图1（a）和1（b））。此外，给定被异常值破坏的几条线，例如，阴影边界时，方法可能错误地检测VP（参见图1A和1B）。1（a）和1（c））。其次，许多方法[4，39，25，24，41]依赖于VP数量的先验知识。它们通常假设曼哈顿世界[9]中的三个正交VP，并且因此忽略部分VP或导致非曼哈顿场景中的冗余检测[30，38]（参见图3A和3B）。1（a）和1（d））。虽然最近的方法[15，22，23，18]可以自动确定VP的数量，但它们依赖于图像线。为了克服上述限制，我们提出了第一个VP估计方法，是独立的图像线，也可以自动确定的VP的数量。具体地说，如图在图1（e）中，VP与相机中心之间的连接对准到主导方向（DD）。与VP相比可能相差甚远5662从摄像机中心开始的图像中心单元DD被单位球面包围。因此，我们遵循[41，22]将VP估计重新公式化为DD计算，即，我们的目标是确定球体上的哪些位置对应于DD。为了实现这一目标，我们提出了一个网络，将透视图像作为输入，并预测DD的球形基于该图，我们可以检测所有的DD，而不管DD的数量。我们的方法是可靠的，这要归功于四项技术创新。首先，如图所示。1（f），我们利用二十面体球面表示[2]来表达我们的概率图。1这种表示提供了一个更均匀的像素分布比广泛使用的等角离散上的球（见图1）。第2（a）段）。因此，它有助于估计DD的任意取向。其次，我们设计了一个损失函数，不仅是有效的拟合数据，但也加强了对映对称性和稀疏性，我们的球形概率图的正则化。第三，我们生成的地面实况地图，合理地表达的位置和不确定性的DD。该图不必要地在有噪声的注释DD处达到峰值，并且还表现出各种各向异性分散（参见图1）。6（d））。我们通过最小化预测概率图和真实概率图之间的差异来训练我们的网络。第四，给定预测的概率图，我们通过拟合宾汉姆混合模型[6]来检测DD（参见图1（f））。这种策略没有阈值，因此可以比非最大抑制更鲁棒地处理接近DD[27]。此外，它可以提供的置信水平的DD有用的实际应用。我们的主要贡献是：• 我们的方法是独立的图像线，也可以自动确定的DDs的数量。• 我们利用二十面体球面表示来表达我们的概率图。该表示便于估计DD的任意取向。• 我们设计了一个损失函数，该损失函数强制执行我们的球形概率图的对映对称性和稀疏性，以防止过度拟合。• 我们引入了一种策略来生成地面实况概率图，该地图合理地表达了DD的位置和不确定性。• 我们检测DDs通过拟合宾汉混合模型的预测地图。该策略不受阈值限制，能够提供DD的置信度。2. 相关工作我们将现有的VP估计方法分为两类，即，传统的和基于深度学习的。1据我们所知，我们首先将二十面体球面表示引入VP估计问题。我们的工作可能会启发社区将此表示应用于其他几何问题，例如，摄像机姿态估计传统方法。大多数传统方法依赖于预先提取的图像线，即，他们通过未知但被寻找的VP来聚类这些线。代表性方法[28，3，39，33，4，5，25，24]假设曼哈顿世界中的三个正交VP。其中，基于采样的方法[3，39]假设几个候选VP三元组，并选择最大化内点线数量的最佳VP三元组。它们导致不令人满意的精度，因为一些采样线可能会受到噪声的影响基于搜索的方法[4，5]在与旋转相关的参数空间中搜索，并找到使内围线的数量最大化的最佳参数。它们是准确的，但由于大量轮的空间细分和耗时的边界计算，效率低下。混合采样和搜索的方法[25]实现了准确性和效率之间的平衡。由于三个VP的假设，上述方法容易忽略部分VP或导致在非曼哈顿场景中的冗余检测。相比之下，最近的方法[15，22，23]可以自动确定VP的数量然而，它们导致不令人满意的效率，因为它们的参数空间是高维的，并且它们的成本函数是高度非线性的。基于深度学习的方法。较早的方法[38]需要预提取的图像线。它首先使用一个网络来预测几个候选视野，然后找到最佳的VP，最大限度地提高了内点线的数量最近，提出了一些不依赖于图像线的方法[8，41]。它们直接将图像视为输入。例如，Chang et al.[8]将VP估计公式化为分类问题。然而，该方法只能检测图像内的VP。Zhou等人。[41]采用由粗到细的策略对球体上的点进行采样。对于每个采样点，他们使用网络来预测VP的概率然后，他们选择具有前K个概率的点（K是VP的数量）。虽然该方法可以处理图像外部的VP，但它对采样分辨率敏感，并且还需要VP数量的先验知识。此外，多模型拟合的方法[18]可以自动确定VP的数量。然而，它需要图像线作为输入。3. 预测球形概率图给定透视图像，我们的网络预测DD的球形概率图。在第3.1节中，我们介绍了二十面体球面表示，使我们的网络可靠地处理任意方向的DD。在第3.2节中，我们将介绍我们的网络架构。在第3.3节中，我们设计了一个新的损失函数，利用球面映射的特性进行正则化。3.1. 二十面体球面表示如图2（a），广泛使用的球面上的等角离散[15，22]导致非均匀5663S:20灤 43, C:64S:20灤 44, C:16S:20灤 44, C:32S:20灤 45, C:1S:20灤 45, C:4S:20灤 45, C:8×−××卷积上采样编码器(a)(b)（c）第（1）款图2. (a)等角离散化（在图像域中）2- 第二分科3- rd分区4- 第十分科5- 第十分科有不同的面积。(b)红色三角形是二十面体的一个基本面。通过第一轮和第二轮细分获得的子面分别以绿色和蓝色示出。(c)二十面体球形表示的子面由挤出顶点定义（例如，蓝绿色的）并且具有类似的区域。像素分布因此，我们的实验表明，使用这种表示的基线方法不能处理DD的任意取向，特别是靠近两极的DD（见图1B）。8（a））。为了解决这个问题，我们建议使用一种新的二十面体球面表示[2]。如图如图2（b）所示，二十面体由20个面积相同的基本面组成我们将每个面细分为4个子面。经过N轮细分，得到20个4N个子面。我们凭经验将N设置为5，这导致我们的实验中可靠的DD估计。如图2（c），我们将二十面体子面的所有顶点挤压到单位球面，获得二十面体球面表示。我们使用这种表示来表达我们的球形概率图。具体地，该表示的子面定义球面图的像素。我们将每个像素与DD通过该像素的概率相关联（参见图1B）。1（f））。此外，如图1（f），DD d达到符号，即，d和d在DD估计中是等价的[32]。相应地，我们的球面映射的对映像素应该与相同的DD概率尽管有这种不对称性，我们不使用半球来表示概率图。其原因是球体的分界线，即，一个大圆圈（见图）。图9（a））可以分裂地图上的概率分布，并进一步影响网络训练，如将在实验中示出的。3.2. 网络架构如图3（a），我们的网络是基于编码器-解码器架构。我们的编码器工作在图像域上.给定透视图像，我们遵循公知的DCGAN [29]的编码器以获得长度为20 42的1024通道1D码。我们选择DCGAN（而不是其他网络）的原因是DCGAN在实践中提供了更高的可靠性。详细情况见补充材料。我们的代码的长度等于基于两轮细分的二十面体球形表示的分辨率。我们的解码器工作在球域，并把我们的代码作为输入球面映射。基于球面卷积和上采样[20]，我们交替地提取特征（通过卷积和上采样）。解码器（球域）(a) 我们的网络架构PP'00 0(b) 卷积（c）上采样图3. (a)我们的网络是基于编码器-解码器架构。“S”和“C”分别表示图像大小和通道数。(b)一个像素和它的九个灰度邻居定义卷积核的形状。(c)对于上采样，我们将较低分辨率图中的像素p转移到较高分辨率图中的像素p’，然后用0填充p’（通过上采样）并增加地图分辨率我们将在下一段介绍这些操作。此外，每个球面卷积之后是偏置添加，批量归一化和泄漏ReLU函数。对于分辨率为20 4 5的单通道输出，我们将其归一化为概率图（见图1）。1（f））通过Sigmoid函数。我们考虑二十面体球面映射的像素来说明球面卷积和上采样。如图如图3（b）所示，除了核的形状之外，球面卷积类似于图像卷积。通过将步长设置为1，卷积不会改变sphere的分辨率。如图如图3（c）所示，除了较高分辨率图中的邻居的数量之外，球面上采样类似于图像上采样。3.3. 损失函数我们的损失函数是三个子损失的组合。首先，我们遵循[37]使用像素均方误差（MSE）损失。这种损失对预测概率图和地面实况概率图之间我们将在第4节中介绍如何生成地面实况图。MSE损失在拟合训练数据中是有效的。为了防止过拟合，我们利用概率图的特性进行正则化。具体地说，如3.1节所介绍的，我们的球面概率图应该呈现对映对称。为了加强这一约束，我们提出了一个对映对称（AS）损失。我们通过预测地图上所有对映像素之间的平方差此外，如图 1（f），我们的概率图的许多像素应该与概率0相关联。为了强制执行该约束，我们利用L0损失[7]来减少非零像素的数量。基于上述分项损失，我们将总损失定义为S:20灤 43, C:128S:20灤 43, C:256S:20灤 44, C:64S:20灤 45, C:16S:Height灤 Width,C:3S:20灤 42, C:1024S:20灤 42, C:512S:20灤 42, C:2565664×非零像素带注释的DD（噪声）(a)（b）第（1）款图4.用于生成地面实况图的基线。(a)Binary地图(b)未精制和精制的地图均遵循Watson混合模型[36]，其组分表现出各向同性分散。未细化的分量在有噪声的注释DD处达到峰值，而细化的分量在细化的DD处达到峰值。L= λMSE·LMSE+ λAS·LAS+ λ1·L0。（一）我们根据经验将系数λMSE、λAS和λ1设置为2，0.5和0.1。我们的实验证明三个子损失的有效性。4. 生成地面实况概率图给定几个带注释的DD2，我们的目标是生成第3.2节中使用的地面真值概率图。在VP估计领域中，不存在用于球面地面实况图生成我们首先设计了各种基线，然后提出了一种可靠的方法.4.1. 基线及其局限性二进制映射（由二进制表示）。我们通过与[40]类比来设计此基线。给定几个注释的DD，我们生成球形二进制地面实况图。如图在图4（a）中，我们将1分配给由注释DD传递的像素，并且将0分配给其他像素。然而，如将在实验中示出的，由于该映射的太高的稀疏性，训练的网络是不准确的。未细化的基于Watson混合模型的映射（由未细化表示）。我们通过与[37]类比来设计此基线。如图在图4（b）中，我们将具有相同各向同性分散的Watson分布[ 36 ] 应用于由注释的DD 通过的像素。我们选择Watson分布，因为它的对映对称性适合于表示DD（见第3.1节）。如将在实验中示出的，该基线通过降低稀疏度来提高上述基线的然而，它确实考虑了注释的DD的噪声，这影响了准确性。具体而言，在许多VP数据集[42，22，18]上，通过计算具有相同（手动获得）标签的少量图像线的交点来注释VP。众所周知，这种VP可能是不可靠的[33，39]，特别是当相交的线几乎平行时。2带注释的VP和DD可以相互转换（见图2）。第1段（e）分段）。图5.具有相同标记的所有图像线对的交叉点构成呈现各向异性色散的簇。此外，团簇的色散也是不同的.由绿线生成的簇远离图像中心并且未呈现。Refined Watson Mixture Model Based Map （用Refined表示）。我们首先按照[33]交替地细化注释的DD并更新图像行的聚类标签然后，我们将Watson分布应用于由细化DD传递的像素上（参见图1）。第四条（b）款）。虽然该基线可靠地表达了DD的位置，但它未能适当地表达DD的不确定性。具体而言，[19]通过计算具有相同标签的所有图像线对的交叉点来研究图像中VP的不确定性。如图5、VP的不确定度应用各向异性色散的分布来表示。类似地，如下一节所示，DD的不确定性应表示为具有各种各向异性色散的分布。然而，该基线使用的Watson分布表现出相同的各向同性分散。4.2. 基于各种各向异性色散的映射为了克服上述基线的局限性，我们提出了一个地面实况概率图，适当地表达了DDs的位置和不确定性首先，我们按照[33]交替地细化注释的DD并更新图像行的聚类标签。如图所示。在图6（a）中，我们将图像线映射成球体上的大圆。如图图6（b）中，我们将大圆与图像线的最新聚类标签相关联。如图6（c），我们计算具有相同标签的所有大圆对的交点。这些交叉点构成了一个apodally对称的集群上的球体。对于所有的集群，它们的密度峰值和各种各向异性色散编码的位置和不确定性的DD，分别。直观地，具有高水平各向异性色散的簇对应于远离图像中心的VP。基于上面计算的交集，我们生成了我们的地面真实概率图。我们首先定义了一个二十面体球体2045子面（见3.1节）。然后我们计算一个频率直方图的交叉点在二十面体球体的子面上。具体地，如果交叉点位于子面内，则将与该子面相关联的频率增加1。最后，我们将频率归一化为[0，1]。如图在图6（d）中，我们将具有归一化频率的球形直方图视为我们的地面真实概率图。我们的地图有效地表达了交叉口的分布模式。精制DD带注释的DD（噪基线“未细化 ” 的离散度概率交叉点簇（散点）5665.Σ. ΣΣm=1n=1m=1Y.Σ∈.Σ−Σ投影平面摄像机中心Bingham混合模型的边缘对于球面上的点g，宾汉分布的概率密度函数由下式给出：大圆1B（g|V，k）= f（k）exp2i=1基岛 gTviΣ2Σ、（二）(a)（b）第（1）款一个反足对称星团其中v1和v2是基向量，V=[v1，v2]; k1和k2是浓度参数，k =[k1，k2]T。ki的大幅度表示等式（2）高峰(c)（d）其他事项图6. （a）图像线和相机中心限定投影平面。这个平面与球体相交，形成一个大圆。（b）我们通过图1中的图像线生成四组大圆五、（c）具有相同标记的所有圆对的交叉点此外，四个集群的分散性是不同的。(d) 我们通过交叉点生成地面实况图沿v岛为了表示MBingham分布（M表示在我们的上下文中发送未知但寻求的DD数量），我们使用Bingham混合模型，即，MMg =c m·B（g|Vm，km），（3）m=1其中c m表示第m个组分的混合系数，并且满足c m>0和Mc m= 1。在下文中，我们介绍模型拟合。我们首先遵循[38]，基于预测的概率图对球体上的散射进行采样。直观地，对于与大概率相关联的像素，我们对大量的scat进行采样。在这个像素中给定N个采样散射{gn}N，5. 基于预测图给定3.2节中我们的网络预测的概率图，我们的目标是检测DD。一个直接的方法是我们的目标是通过方程中未知但寻求的宾汉姆混合模型对它们进行聚类。（三）、为了实现该目标，我们最大化对数似然D，即，N使用非最大抑制[27]。简言之，我们首先选择具有高概率的像素每一选择的像素MaxM，{Vm，km，cm}MlogM gn.（四）n=1对应于候选DD。基于一个-在两个DD之间的角度，我们顺序地选择不同的DDv模型P{a，参数.{\fn黑体\fs22\bord1\shad0\3aHBE\4aH00\fscx67\fscy66\2cHFFFFFF\3cH808080}候选人以贪婪的方式。然而，该策略对上述阈值相对敏感，并且因此可能导致检测不足或检测过度（参见图1A和1B）。12（d、e））。此外，直接选择不同的DD而不考虑其邻居可能由于噪声的影响而导致不令人满意的准确度。为了解决这些问题，我们提出通过拟合Bingham混合模型来检测DD [6]。算法概述。如图1（f），在我们预测的地图上，有几个对映对称的非零像素簇。这些簇表现出各种各向异性分散体。宾汉混合模型适合于表达这种模式。因此，我们将我们的预测图视为Bingham混合模型的离散概率密度函数，并使用它来内插/拟合模型（细节将在下一段中介绍）。在给定拟合模型的情况下，将组分的峰作为检测到的DDs，将组分的浓度作为DDs的置信水平。这些置信水平对于实际应用是有用的，例如，视觉SLAM [16]（参见补充材料）。我们的方法可以自动确定的DD的数量，也鲁棒地处理关闭DD，如将在实验中所示。模型拟合的详细信息。我们先介绍一下基本知识--我们求解Eq。（4）基于自适应期望最大化算法[11]。它能自动确定DDsM的个数。具体地，我们在DD的数量的合理范围内搜索M，例如，[1，6]。给定暂定值为[1，6]的M，我们交替更新散射点的聚类标记和模型参数。然后我们将估计的参数回代到Eq.（4）求出对数似然Di。此外，我们通过复杂度函数F（i）[11]来评估具有i个分量的模型的复杂度较小的F（i）值对应于较低的模型复杂度。通过考虑对数似然 Di和函数F（i），我们基于最小消息长度标准[35]找到最佳值i，即，minDi+ F（i）。（五）我该标准控制拟合质量和模型复杂性之间的权衡。对于算法的初始化，我们用相同的聚类标签对相邻的散射点进行标记。实验表明，该算法具有鲁棒收敛性。6. 实验数据集。我们的实验在真实世界[10，22，18，31]和合成[41]数据集上进行：归一化频率5666图7.通用性（↑− ↓↓ ↑ ↑ − ↑ ↓ ↓ − − − − − ↑ −↑∼TR-L-3[25]TR-L-auto[22]DL-nL-3[41]DL-L-auto[18]DL-nL-auto（our）82线5名副总裁82.61%，1.034像素。98.11%，0.846像素。79.10%，1.588像素。85.92%，2.083像素。96.15%，1.376像素。(VSD[22]）（4个水平VP）0.268秒2.861秒0.372秒0.479秒0.271秒57线4名副总裁92.45%，0.780像素。92.45%，0.604像素。91.43%，0.908像素。96.36%，0.935像素。97.30%，0.922像素。（NYU-VP[31]）（1个倾斜VP）0.131秒2.578秒0.349秒0.357秒0.276秒G：、A：、E：G：、A：、E：G：，A：，E：G：，A：，E：G：，A：，E：”) and efficiency (““”、“”、“”分别代表高、中、低。我们使用图像线来计算F1得分和一致性误差，无论一种方法是否需要图像线VP估计。在第3至第7列中，图像中的虚线表示聚类图像线的中点与估计的VP之间的连接。图像下面的三个数字代表F1分数、一致性误差和运行时间. 补充材料中提供了更多的比较。表1.不同数据集的通用性和准确性比较数据集[25]第二十五话TR-L-自动[22]DL-nL-3[41]DL-L-自动[18]DL-nL-auto（我们的）F1评分弊误差F1评分弊误差F1评分弊误差F1评分弊误差F1评分弊误差YUD+[10]79.55%0.795像素。84.18%0.682像素78.03%1.832像素87.34%1.757像素89.43%1.589像素室间隔缺损[22]75.36%0.873像素91.02%0.769像素70.47%2.008像素88.34%1.802像素90.76%1.660像素[31]第三十一话80.20%0.951像素。85.73%0.782像素76.34%2.078像素86.59%1.914像素87.88%1.851像素SU3 [41]94.88%0.782像素96.26%0.598像素94.37%1.662像素百分之九十三点八九1.429像素94.93%1.478像素• YUD+[10，18]由102个室外和室内图像组成，具有3 6个垂直、水平和/或倾斜VP。• VSD [22]由97个室外图像组成，具有4 6个垂直和水平VP。• NYU-VP [31，18]由1449个室内图像组成，其中16个垂直，水平和/或倾斜VP。• SU 3数据集[41]由23，000个户外图像组成，其中有3 × 4个垂直，水平和/或倾斜的VP。我们通过LSD [34]提取图像线以估计VP和/或评估准确性。对于基于深度学习的方法，我们将每个数据集的80%和20%的图像分别作为训练图像和测试图像。我们遵循[26]将所有训练图像组合起来训练单个网络。然后，我们在测试每个数据集的图像上独立地测试该网络对于传统方法，我们使用每个数据集的上述测试图像独立地对其进行测试。补充材料中提供了更多信息。110条线路4名副总裁92.68%，0.469像素。93.72%，0.336像素。90.55%，0.641像素。96.23%，0.544pix.98.62%，0.530像素。(YUD+[10]）（1个倾斜VP）0.237秒3.549秒0.363秒0.406秒0.288秒5667评价标准。在我们的上下文中，高通用性表示方法可以检测各种VP，例如，非正交水平VP和倾斜VP（见图12）。（七）.我们遵循[22，21]通过F1得分来评估通用性，该得分考虑了图像线聚类的精确度和召回率。此外，对于准确性评估，我们选择了广泛使用的一致性误差[33，39，25，22]。图像中的一致性误差比3D [41]中的角度评估更合理，因为不确定性源于图像[39]。具体地，估计的VP和与该VP相关联的图像线l的中点定义虚拟线v。一致性误差表示从线l的端点到虚拟线v的距离。补充材料中有更多的说明。在数据集的多个图像上，我们报告每个度量的平均值。实施详情。我们用亚当[17]来减少我们的损失。我们的学习率是10−4，批量大小是16，epoch的数量是30。我们用TensorFlow实现了我们的方法，并在配备有5668××表2.不同数据集的效率比较YUD+[10]室间隔缺损[22][31]第三十一话SU3 [41][25]第二十五话0.202秒0.235秒0.216秒0.143秒TR-L-自动[22]2.547秒3.106秒2.985秒2.367秒DL-nL-3[41]0.359秒0.371秒0.364秒0.343秒DL-L-自动[18]0.383秒0.477秒0.401秒0.268秒DL-nL-auto（我们的）0.268秒0.279秒0.284秒0.271秒TITAN Xp GPU和Xeon E5-2680 v4 CPU。6.1. 与最先进方法的我们提出了一种基于深度学习的方法，该方法不依赖于图像线，并且可以自动确定表3.所有数据集上二十面体球面表示和等角离散化之间的比较。F1-分数缺点等角误差79.41% 2.984 pix.二十面百分之九十点七五1.644像素表4.所有数据集上半球和球体之间的比较。F1-分数缺点误差半球88.04% 1.813 pix.球体百分之九十点七五1.644像素DL-nL-auto的DD数量。我们将其与第2节中介绍的最先进方法进行比较：• 传统方法[25]依赖于图像线，并且还假设3个相互正交的VP。我们将其表示为TR-L-3。• 透射法[22]依赖于图像线，也可以自动确定DD的数量。我们用TR-L-Auto表示。• 基于深度学习的方法[41]不依赖于图像线，并且还需要VP数量的先验知识。当先验知识不可用时，假设3个VP。我们将其表示为DL-nL-3。• 基于深度学习的方法[18]依赖于图像线，并且还可以自动确定DD的数量。我们将其表示为DL-L-auto。一般性和准确性。如图7和表1中，TR-L-3仅在曼哈顿世界中工作良好。在具有非正交和倾斜VP的图像上，它导致不令人满意的召回率，从而影响F1分数。TR-L-auto无法处理倾斜的VP，并且还容易忽略与少量图像线相关联的一些VP。DL-nL-3可以找到三个非正交VP，因此比TR-L-3更通用。然而，由于假设三个VP，它仍然无法避免VP的检测不足或过度检测。由于有效采样的高难度，DL-L-auto几乎不能检测与少量图像行相关联的VP。相比之下，我们的DL-nL-auto可以预测可靠的球形概率图，并基于该图检测所有DD。此外，由于几何约束，传统方法比基于深度学习的方法导致更小的一致性误差。我们的DL-nL-auto是最准确的基于深度学习的方法。效率如图如图7和表2所示，TR-L-3在非曼哈顿世界中不是非常有效。它将与非正交VP相关联的图像线视为异常值，从而导致多次迭代。TR-L-auto由于高维参数空间和高度非线性成本函数而DL-nL-3的效率是适度的，由于其由粗到细推理的简化（a）72.55%，4.361像素。(b)91.03%，1.573像素。3个DD图8.（a）等角离散和（b）代表性图像上的二十面体球面表示球体下方的一对数字表示F1分数和一致性误差.二十面体球面表示比等角离散更精确，特别是在两极附近。半球分界线球体(a)88.49%，1.928像素。(b)92.56%，1.360像素。3个DD图9.代表性图像上的（a）半球和（b）球体之间的比较。球下的一对数字表示F1得分和一致性误差. 球体比半球更精确，尤其是在分界线周围。战略DL-L-auto为相对大量的VP提供不令人满意的效率。其时间开销主要是由抽样权值的顺序计算我们的DL-nL-auto由于简洁的网络和适度的地图分辨率而相对高效此外，与基于图像线的方法相比，基于深度学习的方法导致更小的运行时间变化。6.2. 消融研究球形表达式。我们基于二十面体球面表示来表示概率图（见3.1节）。我们比较我们的网络基于此表示，与基线的等角离散的基础上，灰。我们在补充资料中介绍了基线的体系结构。为了公平比较，我们将等角离散化的分辨率设置为200 100=20，000像素（回想二十面体球面表示由2045 =20，480像素组成）。如表3和图8所示，二十面体球面表示比等角离散化更准确。原因是这种表示提供了均匀的像素分布，并且北极北极经度赤道预测概率预测概率56698 1006 904 802 700YUD+VSD纽约大学副校长SU360YUD+VSD纽约大学副校长SU3（a）（b）4个DD（c）4= 100%，4=100%图10.各种基线之间的比较以及我们在所有数据集上生成地面实况地图的方法。表5.在所有数据集上比较MSE、AS和L0黄土的各种组合。一致性误差F1-评分MSE 1.828像素 88.64%假阳性DD假阴性DD阈值太大（12Ω）抑制4+04+0区域（d）3= 75.00%，34= 57.14%，4=100%MSE AS 1.698像素百分之九十点零二3+13+1=75.00%（e）4+34+0MSE&L01.782 pix. 89.37%图11.预测地图图12.非最大抑制与MSE ASL01.644 pix.仅通过MSE损失获得90.75%。从而便于估计DD的任意取向。此外，我们在球面上而不是半球上表示概率图（见3.1节）。我们分别使用球体和半球表示的地面真值映射来训练我们的表4和图9显示，球面导致更高的精度。这是因为球面可以保持概率分布的完整性。相反，当生成半球时，球体的分割线可以分割概率分布。因此，半球导致分界线周围的概率预测不可靠。地面真实概率图。我们设计了二进制基线、未细化基线和细化基线以及我们的方法（见第4节）。我们使用这些方法生成的不同的地面实况图来训练我们的网络。如图10，二元导致低精度，因为地面实况图的太高稀疏性Unrefined的精度不令人满意，因为它忽略了注释DD的噪声。Refined在一定程度上提高了准确性。然而，由于不适当的表达的不确定性的DD，它很难处理远离图像中心的VP我们的方法提供了最高的准确性，因为它合理地表达了位置和不确定性的DD。损失函数。我们的损失函数是MSE、AS和L0子损失的组合（见3.3节）。我们测试我们的网络训练的各种组合的子损失。有关系数变化的其他测试可在补充材料中找到。如表5和图11所示，MSE损失在拟合概率图中是有效的，但精度受到轻微不对称性和分布的太宽分散的限制。AS和L0损失都提高了精度。其原因是它们可以对齐分布的峰值并分别压缩小的非零概率，从而有效地防止过拟合。DD检测。我们通过拟合宾汉混合物来检测DD-我们的模型适合DD检测。（a）156幅近距离DD图像的结果，其角度小于30度。（b）具有两个接近DD的代表性图像。(c)通过我们的模型拟合检测到的DD。（d，e）通过非最大抑制检测到的DD。球体下面的一对数字表示DD检测（除了该图之外，其他图和表中的精确度、召回率和F1分数是关于图像线聚类的）。真实模型，而不是非最大抑制（见第5节）。给定相同的预测概率图，我们比较这些策略。如图在图12中，非最大抑制倾向于导致欠检测或过检测，特别是当两个DD相对接近时。相比之下，我们的方法是强大的，因为它是免费的阈值。7. 结论该方法不依赖于图像行，并且能够自动确定VP的个数，具有很强的通用性。此外，它实现了令人满意的准确性和高效率，由于新的球形表示，损失函数，地面真值图生成，和DD检测。因此，它比不能同时保证通用性、准确性和效率的现有方法更实用。致谢。刘云辉获香港物流机器人中心、研资局拨款14207320、香港中文大学创业发展基金及深圳市政府支持深港合作区项目。Kyungdon Joo获得&&了韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）的资助（编号：2020-0- 01336，人工智能研究生院计划（UNIST））和韩国国家研究基金会（NRF）资助的韩国政府（MSIT）（第NRF-2021R1C1C1005723）。Pyojin Kim获得了韩国国家研究基金会（NRF）的资助，该基金由韩国政府（MSIT）资助（编号：2013）。2021R1F1A1061397）。Kuk-JinYoon由韩国政府（MSIT）资助的信息和通信技术规划评估研究所&（IITP）资助（编号：2020-0-00440，随着现实世界中情况的变化而不断改进自身的人工智能技术的发展）。非零像素未对齐分布峰关闭DD真阳性DD预测概率假阳性DD阈值太小（8）预测概率5670引用[1] 米歇尔·安图内斯和若昂·巴雷托。一种检测消失点和相互正交消失方向的全局方法。CVPR，2013。1[2] 约翰·鲍姆加德纳和保罗·弗雷德里克森双球面的二十面体离散化。SIAM Journal on Numerical Analysis，1985。二、三[3] Jean-Charles Bazin和Marc Pollefeys。用于正交消失点检测的3线RANSACInIROS，2012. 2[4] Jean-CharlesBazin、YongduekSeo、CedricDemonceaux 、 Pascal Vasseur 、 Katsushi Ikeuchi 、 InsoKweon和Marc Pollefeys。曼哈顿世界中的全局最优线聚类和消失点估计。 CVPR，2012。 1、 2[5] Jean-Charles Bazin，Yongduek Seo，and Marc Pollefeys.通过旋转搜索实现全局最优共识集最大化。InACCV，2012. 2[6] 克里斯托弗·宾汉姆。球面上的对跖对称分布。统计年鉴，1974年。二、五[7] 克里斯托弗·毕夏普。模式识别与机器学习。Springer，2006年。3[8] Chin-Kai Chang ， Jiaping Zhao ， and Laurent Itti.DeepVP：深度学习在100万张街景图像上进行消失点检测在ICRA，2018年。2[9] James Coughlan和Alan Yuille曼哈顿世界：通过贝叶斯推理从单幅图像中获得导航方向. 载于ICCV，1999年。1[10] 帕特里克·丹尼斯詹姆斯·埃尔德和弗朗西斯科·埃斯特拉达基于边缘的城市图像曼哈顿帧估计方法。ECCV，2008年。五、六、七[11] Mario Figueiredo和Anil Jain。有限混合模型的无监督学习。TPAMI，2002年。5[12] 亚历克斯·弗林特大卫·默里和伊恩·里德使用单目、立体和3D特征的曼哈顿场景理解。见ICCV，2011年。1[13] Yuan Gao和Alan Yuille。利用对称性和/或曼哈顿特性从单个和多个图像进行3D对象结构估计在CVPR，2017年。1[14] 李正均和尹国珍摄像机方向和消失点的实时联合估计。CVPR，2015。1[15] Kyungdon Joo 、 Tae-Hyun Oh 、 In So Kweon 和 Jean-Charles Bazin。亚特兰大世界理解的全局最优内点集最大化。TPAMI，2019。一、二[16] Pyojin Kim，Brian Coltin，and H Jin Kim.通过解耦旋转和平移运动实现结构化环境中的低漂移视觉里程计。在ICRA，2018年。5[17] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。2015年，国际会议。6[18] Florian Kluger，Eric Brachmann，Hanno Ackermann，Carsten Rother ， Michael Ying Yang ， and BodoRosenhahn. CONSAC：通过条件样本一致性实现的鲁棒多模型拟合在CVPR，2020年。一、二、四、五、六、七[19] JanaKo sˇ eck a ´andWeiZhang.视频指南针。InAndersHeyden ， Gunnar Sparr ， Mads Nielsen ， andPeter Johansen，editors，ECCV，

下载后可阅读完整内容，剩余1页未读，立即下载