没有合适的资源?快使用搜索试试~ 我知道了~
1球体的排列基于全局最优球面混合配准的摄像机位姿估计Dylan Campbell1,Lars Petersson1,2,Laurent Kneip3,Hongdong Li1和Stephen Gould11澳大利亚国立大学firstname. anu.edu.au2Data61/CSIROlars. data61.csiro.au3上海科技lkneip@shanghaitech.edu.cn摘要从单个图像确定校准相机相对于3D模型的位置和方向当可以可靠地获得2D-3D对应时然而,在没有姿态的情况下,找到2D图像和3D模型之间的跨模态对应是不平凡的,因此,问题变成联合估计姿态和对应关系的问题。由于离群值和局部最优值是如此普遍,鲁棒的目标函数和全局搜索策略是可取的。因此,我们投的问题作为一个2D-我们推导出这个目标函数的新的界限,并采用分支定界搜索相机姿态的6D空间,保证了全局最优性,而不需要姿态估计。为了加速收敛,我们集成了局部优化,实现了GPU边界计算,并提供了一种直观的方式来合并边信息,如语义标签。该算法具有挑战性的合成和真实的数据集,超越现有的方法,可靠地收敛到全局最优。1. 介绍在给定单个图像和3D模型的情况下,估计校准相机的姿态对于许多应用都是有用的,包括定位和跟踪[20,33]、增强现实[41]、运动分割[44]和对象识别[3]。该问题可以转化为图像平面或单位球面上的2D-3D对准问题。任务是使用点[16,12],线[7],轮廓[14]或混合模型[4]找到将3D模型的投影与2D图像数据对齐的旋转和平移这在图1中针对单位球上的混合模型进行了图1.球面混合对准用于从单个图像I相对于3D模型(例如,点集P),没有2D-3D对应。我们的算法通过从数据中生成混合分布来恢复变换-经由方位向量集F从图像生成von- 和应用分支定界与严格的新的界限,以找到最佳排列这些球形混合物。当2D-然而,2D和3D模型之间的对应即使当模型包含视觉信息时,例如SIFT特征[40],重复元素,遮挡以及由于照明和天气引起的外观变化也会使对应问题变得重要。解决姿态和对应关系的方法共同避免了这些问题。它们包括局部优化方法[16,43],只有在提供良好的姿势先验时才能产生正确的结果,以及随机全局搜索[20],随着问题大小的增加,它在计算上变得难以处理。相比之下,全局最优方法[7,12]不需要姿势先验并保证最优性。11796I−→FP→−GMMqPNMMOR,t不vMFMM11797这项工作是第一个提出一个全局最优的解决方案,以2D该算法优化了鲁棒的L2密度距离,并使用分支定界框架来保证全局最优性,解决了离群点和非凸性的双重挑战。它提供了一个几何解决方案,而不假设对应,姿势先验,或训练数据是可用的。主要贡献是(i)一种新的封闭形式的球上混合分布,即准投影正态混合分布,它近似于三维高斯混合分布的投影;(ii)一个新的鲁棒目标函数:von Mises-Fisher分布与拟投影正态混合分布之间的L2距离;(iii)扩展目标函数,以利用来自深度网络的信息来加速收敛;(iv)利用目标函数和封闭形式梯度的快速局部优化算法;(v)目标函数的新界;以及(vi)用于相机姿态估计的全局最优算法,其中在GPU上实现边界计算。这种方法的一个优点是,与对齐离散点样本相比,对齐密度更接近对齐物理和成像表面的基本2D另一个优点是它利用了混合模型聚类算法的自适应压缩特性,从而能够处理大型噪声点集。此外,连续的目标函数允许使用基于局部梯度的优化,这大大加快了收敛。该算法也可以应用于广泛的三维数据,包括网格和体积表示以及点集。最后,该方法通过在优化期间(可选地)使用语义信息来解决在2D和3D中提取几何上有意义的元素的这个简单但有效的扩展减少了运行时间和退化姿态的敏感性,只使用容易获得的信息。2. 相关工作当2D-3D对应关系已知时然而,异常值几乎总是存在于对应集中。在这种情况下,可以使用RANSAC [20]或鲁棒全局优化[19,2,18,55]检索内点集。这些方法中的一些[20,19]可以在对应关系不可用时通过提供对应关系集的所有可能排列来应用。然而,这个困难的组合问题很快变得不可行。匹配和过滤技术也被开发用于大规模定位问题,以减少初始集中离群值的数量[49,39,61,18,55,50]。这些方法仅在2D可以找到,因此主要用于运动恢复结构(SfM)点集。这些数据集中的每个3D点都位于视觉上独特的位置,并使用图像特征进行增强,从而简化了对应问题。这不是标准点集的情况,它只包含几何信息。如果一开始就没有对应关系,问题就会更加复杂局部优化方法包括SoftPOSIT [16]和2D/3D GMM配准[4],SoftPOSIT[ 16 ]在求解对应性和求解姿态之间迭代该公式将靠近相机的点等同于远距离点,因此忽略了3D比例信息并创建了假最优值。此外,这些方法仅在所提供的姿态先验的收敛盆地内找到局部最优解。为了缓解这一点,已经提出了全局优化方法,包括随机开始局部搜索[16]和BlindPestra [43],其使用卡尔曼滤波来搜索概率姿态先验。RANSAC和变体[23]不需要姿态先验,但仅适用于少量点和离群值。其他方法使用回归森林或卷积神经网络从数据中学习2D这些方法需要大量的姿势标记图像的训练集,不相对于显式3D模型定位相机,并且不能保证最优性。全局最优方法可以提供这种保证,而不需要姿态估计。他们证明,计算的相机姿势是一个全局优化的目标函数。分支定界(BB)算法[35]已被广泛用于此目的,易处理性继续成为一个重大障碍。例如,BB已用于2D-对于2D[7]提出了一种使用具有几何误差的BB的全局最优方法。使用修剪使目标函数对离群值具有鲁棒性。然而,这需要提前知道真实的离群值分数;如果不正确地指定,则在正确的姿势处可能不会出现最佳。Campbell等[11,12]提出了一种全局最优的内点集基数最大化解决方案。虽然鲁棒,但该目标函数是离散的并且具有优化挑战性,并且在采样点而不是底层表面上操作。我们的工作是第一个全局最优的L2密度距离最小化解决方案的相机姿态估计问题。它消除了对应关系,训练数据或姿势先验可用的假设,并保证找到鲁棒目标函数的最佳值。11798Nǁ ǁ...表1. R3和S2中的概率分布。分布符号 参数歧管高斯Nµ,σ2R3投影正态PNµ,σ2R3准投影正态 qPNµ,σ2S2(a)κ= 1(b)κ= 10(c)κ→∞vonμπ ι,κS2图2. 3D von Mises-Fisher分布的2D可视化随着浓度参数κ的增加。当κ→ ∞时,分布趋于球面上的δ函数。3. 球面上的概率分布2D方向数据(诸如方位向量)可以表示为单位2球上的点。这些可以被视为来自S2中的潜在概率分布的样本。对于图像,此分布对可见曲面在球体上的投影进行建模。在本节中,我们将概述这项工作中使用的概率分布,0的情况。40的情况。30的情况。20的情况。10qPNPN0 90180(f,µ)0的情况。040的情况。030的情况。020的情况。0100 1 2 3 45ρ求出最后一个的封闭近似值。分布-(a) 相对似然(ρ= 1)(b) 平均绝对误差本文中所提到的情况汇总在表1中。图2中可视化的von问题是3D中vMF分布的能力密度函数为exp(κµf)图3.qPN和PN分布的比较(a)qPN和PN概率密度函数是相对于角度θ(f,μ)绘制的,其中ρ=θμ θ/σ=1。即使ρ值很小,分布也非常相似。(二)绝对平均数整个角度范围内的误差(MAE)相对于ρ绘制,并且小于0。01对于所有ρ>1。封闭形式分布,准投影正态分布(qPN)v MF(f|µm,κ)=(一)2πZ(κ)分布,其近似具有vMF分布的PN,对于随机单位方位矢量f,平均方向μπι,以及第其概率密度函数由下式给出:浓度κ>0,其中−1.2Σ..Σ2Σµǁµǁ.Z( κ)=(exp( κ)−exp(− κ)) κ.(二)qPN F| µ,σ=vMFF.、. ǁ µ ǁσ+1个.(四)投影正态(PN)分布[42,59,58]是高斯分布在球体上的投影。也就是说,如果随机变量p遵循高斯分布,则方位向量f=p/p/p/p遵循PN这是通过使vMF和PN密度函数在f=μm=μ/μ m处 相等 而 得 出 的 ,因为y在平均向量方向上应等于相同的值。这给分布 对于模拟分布的高斯混合,−ρ2Σ Σκ e2ρ22场景中3D表面的分布,相关的PN混合将场景建模为2D传感器所观察到的场景,尽管-2π(1−e−2κ)=2π+ Φ(ρ)e22π1+ρ(五)出可见性约束。3D [46]中各向同性PN分布的概率密度函数为:简化为κ→ ∞和ρ= εμπ/σ→ ∞,−ρ2Σ2e2αΣα2。2Σ.Σ2κ=µ+1。(可能性Mae√Σρ11799Nǁ ǁ ǁ ǁ·∈六)PN(f| µ,σ)=2π+Φ(α)e22π1+α(3)σ对于方位矢量f,平均位置µ R 3和方差σ2,其中ρ=µ/σ,α=ρµf/µ,Φ()是的累积分布函数。虽然PN是真实分布,但它没有封闭形式。此外,PN分布之间的相似性度量,例如L2距离,不容易计算,因为当在球体上积分时,它们不简化为封闭形式,因此需要耗时的数值积分。因此,它是不实际的对齐问题。相反,我们提出了一个新的虽然这个推导只证明了平均向量方向上的极限相等,但图3中的经验结果表明,即使ρ值很低,整个角度范围内的分布也非常相似。4. 球形混合排列估计相对传感器姿态的混合分布的对准是在R2、R3[15,57,27,10]和球体S2[54]中充分研究的问题。对于2D-3D√11800¨¨1我1我1我i=1j=1Σ∝ǁ ǁ,σ2,n1i=1¨22|方向混合分布来模拟输入数据。我们对集合中的3D点p∈R3的分布进行哪里¨ ¨N1?µ1i−tµ1j−t<$P={.pi}i=1作为高斯混合模型(GMM)。让θ1=µ1我1我是n1的参数集-K1i 1j(t)=?k1i(t)ǁµ+κ1j(t)— tǁǁµ¨— 塔霍河(十一)分量GMM,均值为μ1i∈R3,方差为σ2,¨¨混合权重φ1i>0,其中Σn11iφ1i= 1,密度.Σ¨K1i 2j(R,t)=κ1i(t)R.µ1i−tǁµ1i−tǁΣ2¨+κ2jµ 2j?(十二)p(p|θ1)=i=1φ1iN p|µ1 i,σ2.(七)κ1i(t)=ǁµ1i−tǁσ1i+1(13)我们还需要将这个分布投影到球面上。为此,我们使用与该GMM相关联的qPN混合模型(qPNMM),其中密度而Z(·)如(2)中给出的定义。证据给 定 输 入 的qPNMM和vMFMM模型.数据和刚性变换函数T(θ1,R,t)=1.ΣR(µ1i−t),σ2,φ1in1i=1,den-之间的L2p(f|θ1)=i=1φ1iqPNF|µ1 i,σ2.(八)对于旋转R和平移t,由下式给出∫最后,我们对方位矢量f∈S2的分布进行了dL2=2[p(f |T(θ1,R,t))− p(f |θ2)]df(14)在集合F={fi}N2中作为vMF混合模型(vMFMM)[22、53]。设θ2={μπ 2j,κ2j,φ2j}n2成为参数集=[p(f)T(θ1,R,t))]S2+ [p(f|θ2)]n个2-分量vMFMM的平均方向为μ m 2j∈-2名p(f |T(θ,R,t))p(f |θ)df.(十五)S2,浓度κ2j>0,混合物重量φ2j>0,12哪里φ2j= 1,密度2.Σ函数(10)是通过去除常数和和因子,将(8)、(9)、(4)和(1)代入(15)而获得的,p(f|θ2)=φ2jvMFf|μ2j,κ2j.(九)并替换形式为S2exp(xf)df,j=1方位矢量f对应于由校准的相机成像的2D点。 即f其中K是摄像机内部参数的矩阵,x是同素矩阵。具有κ=x的vMF密度的归一化常数,µ=x/κ;详见附录。然后,目标是找到一个旋转和平移,使密度之间的L2新像点 这些混合分布允许任意性∗噪声表面密度的非常准确的估计[17],并且可以从数据[9,34,53]中有效地计算。概率密度之间的L2距离是一个稳健的目标函数,可用于测量两组传感器数据的对齐,给定特定的变换[27,54]。与Kullback-Leibler发散不同密度对场景的底层表面进行建模,这是有益的,因为基本的2D(R,t)= arg minf(R,t).(十六)R, t此外,如果语义类标签可用,例如使用2D图像[ 47,13,48 ]和3D点集[ 36,26,56 ]的基于CNN的语义分割,则优化问题可以用公式表示为语义类上的联合L2距离最小化,提供语义感知对齐和加速收敛。也就是说,给定类别标签集Λ,可以为每个类别构造单独的混合分布并求解Σ对准问题。引理1.(L2目标函数)L2距离(R*,t*)= arg minR, t1我1J¨S211801l∈Λφ l f l(R,t).(十七)旋转R∈SO(3)的qPNMM和vMFMM模型和平移t∈R3可以使用函数最小化其中φl>0是类权重,fl是每个类根据(10)计算的函数值。f(R,t)=2017年1月1日i=1j =1φ1iφ1jZ(K1i 1j(t))Z(κ1i(t))Z(κ1j(t))5. 分支定界为了解决高度非凸的L2距离问题2016年1月22日2i=1j =1φ1iφ2jZ(K1i 2j(R,t))(10)Z(κ1i(t))Z(κ2j)(16) ,可以应用分支定界(BB)算法[35]。它需要一种有效的方法来分支函数域并为每个分支确定最优函数−11802×C ×C∈不{∈|−i=1j =1t∈CtZ( κ1i(t)) Z( κ1j(t))1i2j上界可以通过在分支中的任何变换处对函数求值来找到。 可以使用Campbell等人的引理3和引理5中推导出的旋转和平移不确定角的界限θr和θt 来找到下限。[12],在这里复制为引理2和3。(a) 旋转域缓存(b) 翻译域转换引理2.(旋转不确定角界)给定一个3D点p和一个以r 0为中心的旋转立方体Cr,曲面Sr,则Rr∈Cr,图4. SE的参数化和分支(3)。(a)在一个实心的半径为π的球中,转动由角轴3向量参数化(b)平移由3-向量参数化,(Rrp,Rr0p)≤min.Σmax(Rrp,Rr0p),πr∈Sr长方体,半宽[τx,τy,τz]。 关节域分支成6D长方体使用自适应八叉树状分支策略。使得当分支大小趋向于零时边界收敛。算法的效率取决于边界的计算复杂度和它们的紧密,α r(p,Cr).(十八)引理3.(平移不确定角界)给定一个三维点p和一个以 t0为中心且顶点为Vt的平移长方体Ct,则Ct∈Ct,.max(p-t,p-t0)如果p∈/C是,因为更紧的边界减少搜索空间更快,n(p−t,p−t0)≤t∈Vt允许修剪次优分支。5.1. 参数化和分支域为了找到全局最优解,必须在3D运动域上优化L2距离,即,组SE(3)=SO(3) R 3. 对于BB,域必须是有界的,所以我们限制的空间的平移到集的,假设相机是一个有限的距离,从3D模型。结构域如图4所示。我们极小参变量旋转空间SO(3)π else,t(p,Ct).(十九)定理1.(目标函数界)对于以(r0,t0)为中心的变换域rt,目标函数(10)的最小值具有上界d , f(Rr0,t0)(20)和下界其中角轴3矢量r具有旋转角θ rθ和旋转轴θr=r/θrθ。 因此,所有人的空间2017年1月1日d,φ1iφ1j最小Z(K1i 1j(t))3D旋转可以表示为半径为n.Σπ在R3中。为了便于操作,我们使用3D立方体Σ1Σ2Z K1i 2j(t)外接π球作为旋转域[38]第30段。2i=1j =1φ1iφ2jmaxt∈CtZ(κ1i(t))Z(κ2j)(二十一)符号RrSO(3)用于表示旋转使用Rodrigues旋转公式从r获得的矩阵我们用3-向量参数化平移空间R3,哪里.有界域选择为包含22不模型的边界框。为了避免非物理的情况K1i 1j(t)=κ1i(t)+κ1j(t)+2κ1i(t)κ1j(t)cosA(22)其中照相机位于α的小值λ内。3D表面,平移域受到限制,使得t= Fi-最后,我们将结构域分支为6维长方体(6-正交位)K1i 2j(t)=κ2(t)+κ2+ 2κ1i(t)κ2jcosB(23).Σπτzτy τx不−11803r10的.i2jCr× Ct使用自适应分支策略,A= min{π,μ1i−t0,μ1j−t0根据哪一个具有更大的角度不确定性来细分旋转或平移维度,从而减少冗余分支。5.2. 限制分支分支定界算法的成功取决于其边界的质量。对于L2距离极小化,我们要求变换域Cr×Ct内目标函数(10)的最小值有界.+t(μ1i,Ct)+t(μ1j,Ct)}(24)−1B=max{0,Rµ1−t0,R µn-t(µ1i,Ct)−r(µ 2j,Cr)}。(二十五)证据上界的有效性如下:f(Rr0,t0)> min f(Rr,t).(二十六)r∈Crt∈CtΣ11804‚×ׂCC1我2J也就是说,在域内的特定点处的函数值大于或等于域内的最小值。对于下界,观察到,..2κ1i(t)κ1j(t)cos(µ1i−t,µ1j−t)算法1GOSMA:一种用于摄像机姿态估计的全局最优球面混合对准算法输出:最佳函数值d,摄像机姿态(r,t)1:d←∞K1i 1j(t)=,2 2(二十七)+κ1i(t)+κ1j(t).>κ2(t)+κ2 (t)+2κ1 i(t)κ1 j(t)cosA(28)第二章: 将域优先级 添加到优先级队列Q3:循环4:从Q更新最低下界d1我=K1i 1j1J(29)5:从Q中移除超立方体集合{Ci}6:如果d−d≤,则终止其中(28)由球面几何中的三角不等式和引理3得出,因为(a,b)≤≤(c,d)+t(µ1i,Ct)+t(µ1j,Ct)(31)其中a=µ1i−t,b=µ1j−t,c=µ1i−t0,d=µ1j−t0。还观察到<$(r,t)∈(Cr×Ct),7:针对{Ci}的子立方体并行地评估dijdij&8:f或所有子立方体Cij∈{Ci}do9:如果dij d,则(d,r,t)←SMA(r0ij,t0ij)10:如果dijd ij,则将Cij添加到队列Q收敛,因为提前减小d允许剔除更大的分支(第10行),大大减小了搜索空间。.−1K.2κ1i(t)κ2jcos(µ1i−t,Rrµ 2j)1i2j(Rr,t)=,22(三十二)7. 结果+κ1i(t)+κ2j.≤κ2(t)+κ2 +2κ1 i(t)κ2 jcos B(33)=K1i 2j(t)(34)其中(33)由球面几何中的倒三角不等式和引理3和引理2得出。对于K1i 1j和K1i 2j,可以通过观察Z(x)(2)是单调递增函数来构造(10对于x> 0的k i和k i对t的依赖性可以分别进行优化。完整的证明见附录6. GOSMA算法全局最优球形混合对齐(GOSMA)算法在算法1中概述。它采用深度优先搜索策略,使用优先级队列(第5行),其中优先级与下限相反。该算法以最优性终止,由此最佳函数值d与全局下界d之间的差小于d(第6行)。分支和边界在GPU上执行(第7行),每个线程计算单个分支的边界。我们还开发了一种局部优化算法,称为球形混合对齐(SMA),它被集成到GOSMA中(第9行)。我们使用拟牛顿L-BFGS算法[8]来最小化(10),并在附录中导出梯度。当BB算法找到一个上界小于最佳函数值dj(第9行)的子立方体ij时,SMA就被运行,该函数值被ij的中心变换初始化。通过这种方式,BB和SMA合作,SMA快速收敛到最佳局部最小值,BB引导搜索到更好的局部最小值的收敛盆地SMA加速11805| |GOSMA 算 法 ( 表 示 为 GS ) 相 对 于 基 线 算 法SoftPOSIT [16]、BlindPatient [43]、RANSAC [20]和GOPAC [12]进行了评价,de-分别用合成数据和实际数据记录了SP、BP、RS和GP。RANSAC方法使用OpenGV框架[31]和具有随机采样对应的P3P算法[32]。为了生成GMF和vMF,我们使用DP均值[34]对点集进行聚类,使用DP-vMF均值[53]对方位向量集进行聚类,并将最大似然混合模型拟合到聚类。这些方法自动选择一个适应场景几何复杂性的简约我们报告了中值平移误差(以米为单位)、旋转误差(度)和运行时间(秒),包括即时混合生成。我们还报告了成功率,这是一个总结统计数据,定义为找到正确姿势的实验比例:角度误差小于0.1 弧度,相对平移误差小于5%。除另有规定外,标准化L2距离阈值设定为0。1时,将点到摄像机的限制设置为0。5、混合模型生成的尺度参数λ p和λ f均设为0。25m和2μ m,语义信息仅用于真实数据实验,类权重φl= Λ-1,类数的倒数所有实验都在3.4GHz CPU和两个GeForce GTX 1080Ti GPU上运行,C++代码可以在第一作者的网站上找到7.1. 合成数据实验为 了 评 估 一 系 列 扰 动 下 的 GOSMA , 使 用BlindPestra框架[43],按照参数设置11806-×10的情况。5(a) 3D结果(b)2D结果(c)Bound Evolution图5.随机点数据的二维和三维结果示例(a)3D点、真实和GOSMA估计的相机支点(完全重叠)和环形姿态先验。(b)使用GOSMA估计的相机姿态(圆圈)投影的2D点(点)和3D点,其中2D和3D异常值以红色示出(c)上限(红色)和下限(品红色)、剩余未探索的体积(蓝色)和队列大小(绿色)随时间的演变作为其最大值的分数0906030020 60 1000 0.510 0.510 0.5 1随机3D点内点和ω3DNI离群值一般-NIω3Dω2Dω3D=ω2D将内点投影到焦距为800的640 480虚拟图像上,在二维点上加入σ = 2像素的正态噪声;并将ω2DN 1随机离群点添加到图像中。数据和比对结果的示例如图5所示。图5(c)显示了全局上界和下界的时间演变。该图揭示了局部和全局优化策略如何协作以降低上界,BB引导搜索进入更好的收敛盆地,SMA跳到最近的局部最小值(阶梯模式)。它还表明,大部分运行时间都花在增加下限上,这表明GOSMA在提前终止时通常会找到全局最优值,尽管没有最优性保证。为了便于与局部方法Soft-POSIT和BlindPennsylvania进行公平比较,这些实验使用了环面姿态先验。它将相机中心约束到围绕3D点集的圆环,光轴指向模型[43] 。 环 面 先 验 表 示 为 50 个 分 量 的 GMM( BlindPatient ) 和 50 个 初 始 姿 势 ( SoftPOSIT ) 。GOSMA和GOPAC给出了一组近似环面的平移立方体,并且没有给出任何旋转先验。RANSAC设置为探索对应空间长达120 s。结果如图6所示。将最大值限制为120 s的上限,以便可解释刻度GOSMA和GOPAC优于其他方法,可靠地找到正确的姿势,同时仍然相对有效。虽然GOSMA在前两个实验中具有更长的运行时间,但当存在2D离群值时,它具有比其他方法更好的行为。例如,当ω2D= 1时,GOPAC的中值运行时间(167 s)比GOSMA(5 s)高30倍以上,而两者总是找到正确的姿态,中值角度误差低于1μ m,相对平移误差低于2%。事实上,这种随机点设置明显有利于基于点的方法,如GOPAC,而牺牲了我们的方法。对于真实的表面,GOSMA能够杠杆-RS BP SP图6.具有环面先验的随机点数据集的结果成功率和中值运行时间相对于内围点的数量(NI)、额外的3D离群值的分数(ω3D)、2D离群值(ω2D)以及两者来绘制,其中默认参数NI=30个内围点并且ω3D=ω2D=0,对于每个参数值进行25次蒙特卡罗模拟。老化其自适应压缩数据的能力,使其能够快速处理大量的点。7.2. 真实数据实验Stanford 2D-3D-Semantics(2D-3D-S)[1]数据集包含两种模态的全景图像、点集和语义注释。这是一个大型室内数据集,每个房间大约有100万个点,每张照片有800万个像素,使用结构光RGBD相机收集。我们在数据集的区域3上评估了我们的算法,该区域包含休息室,办公室和会议室。测试数据有33张全景图像,这些图像是从不同的相机姿态拍摄的每个房间都是一个单独的点集,该点集对可见性约束进行建模,但假设相机使用这些信息,我们将转换域设置为房间大小。在这些测试中,所有方法都使用语义信息:GOPAC和RANSAC使用Campbell等人的预处理策略。[12],仅从家具类中选择点和像素,而GOSMA在优化期间使用类标签(17),从而更有效地利用信息。我们还随机地将点集和图像降采样到100k点和像素,以减少混合 生成时间。自动 选择混合尺度参 数λp和λf[34,53],每个语义类产生大约10个成分,总共60-100个成分。对于GOPAC,内点阈值θ设置为运行时间成功率11807年q1表2.针对Stanford 2D-3D-S全景图像数据集的区域3的GOSMA(GS)、在优化期间没有类别标签的GOSMA(GS-A)、GOPAC(GP)和RANSAC(RS)平移误差、旋转误差和运行时四分位数(Q2Q3)和成功率。方法GSGS-ΛGPRS平移误差(m)0.080.150.140.230.150.27 0.562.060.050.090.100.39旋转误差(mm)1.132.18 2.384.61 3.785.100.911.252.478.94电话:+86-510 - 8888888传真:+86-510 - 88888881.412.8448120成功率1.000.85 0.82 0.09二、5μ m,角度公差η设定为0。25o.定性和定量结果见图7和表2。请注意,GOPAC和RANSAC分别在900 s和120 s终止。GOSMA大大优于其他方法,在所有情况下都能以较小的中值运行时间找到正确的姿势。我们还在优化期间测试了没有语义标签的GOSMA,仅在预处理(GS-Λ)期间测试,与GOPAC和RANSAC相同。虽然这比GOPAC更准确、更快我们想强调一下这个问题的难度:A1-M被给予图像、点集和语义类标签,并且被要求估计相机姿态。与合成数据实验相比,点和像素的绝对数量,其中许多是离群值,排除了传统方法的使用。8.讨论和结论在本文中,我们提出了一种新的混合对齐公式的摄像机姿态估计问题,使用鲁棒的L2密度距离的球。此外,我们已经开发了一种新的算法,以尽量减少这个距离,使用分支定界,保证最优性,无论初始化。为了加速收敛,开发并集成了局部优化算法,实现了GPU边界计算,并设计了一种原则性的方法来合并边信息,如语义标签。该算法在具有挑战性的合成和真实数据集上优于其他局部和全局方法,可靠地找到全局最优解。然而,这种方法有几个局限性。首先,它与混合组分的数量成二次比例,混合组分的数量与表面复杂度成比例。其次,它无法解决某些退化姿势,例如当墙填充相机的视场时。在这种情况下,许多相机姿态满足2D信息。第三,它没有使用几何目标函数,这降低了它的可解释性。优选图像空间中的鲁棒目标函数,例如交集大于并集(a) 3D点集和地面实况(灰色)、GOSMA(黑色)、GOPAC(红色)和RANSAC(蓝色)相机姿势。对象点以绿色亮显(b) 使用GOSMA(顶部)、GOPAC(中间)和RANSAC(底部)相机姿势投影到图像上的3D点。为清楚起见,仅绘制对象点。图7. Stan- ford 2D-3D-S数据集的office 3的定性相机姿态结果,显示了捕获图像时相机的姿态以及3D对象点在其上的投影。只有GOSMA找到了本节中定义的正确姿势。最好用彩色观看。尽管它对于球体上的混合物是不容易处理的。最终,其姿态估计的质量取决于混合物在真实场景和图像中表示物理和投影表面的程度。虽然它们可以任意精确地表示这些表面,但组件的数量受到实际考虑的限制。出于这个原因,各向异性因此,有必要进一步研究对齐表示,模型表面的参数较少,如线框或网格。11808引用[1] I. Armeni,A. Sax,A. R. Zamir和S. Savarese用于室内场景理解的联合2D-3D语义数据。ArXiv电子打印,2017年2月。7[2] E.问吧奥Enqvist和F.卡尔截断L2范数下的最优几何拟合。2013年计算机视觉和模式识别会议论文集,第1722-1729页。IEEE,2013年6月。2[3] M. Aubry,D.Maturana,A.A. 埃夫罗斯湾C. 罗素和西维克3D椅子:使用大型CAD模型数据集进行基于示例部件的2D-3D对齐。2014年计算机视觉和模式识别会议论文集,第3762-3769页。IEEE,2014年6月。1[4] N. 巴 卡角 梅斯 角 J. Schultz , R.- J. van Geuns, W. J.Niessen和T.范·瓦尔苏姆。 用于非刚性2D/3D冠状动脉配准 的定 向高斯 混合 模型 IEEE医学 成像 学报 ,33(5):1023-1034,2014。一、二[5] E. Brachmann,A. Krull,S. Nowozin,J. Shotton,F. 米歇尔S. Gumhold和C.罗瑟DSAC -用于相机定位的可区分RANSAC。在2017年计算机视觉和模式识别会议论文集,第2492-2500页,2017年7月。2[6] T. M.布鲁尔几何分支定界匹配方法的实现技术。Computer Vision and Image Understanding,90(3):258-294,June 2003. 2[7] M. Brown、D.Windridge和JY. 吉列莫从点或线进行全局在2015年计算机视觉国际会议的会议记录中,第2111-2119页,2015年12月。2015. 一、二[8] R. H. 伯德山口Lu,J.Nocedal和C.竹有界约束优化的有限内存算法SIAM Journal on Scientific Computing,16(5):1190-1208,1995. 6[9] D. Campbell和L.彼得森一种用于鲁棒点集配准和合并的自适应数据表示。在2015年计算机视觉式上,第4292-4300页。IEEE,Dec. 2015. 4[10] D. Campbell和L.彼得森GOGMA:全局最优高斯混合对齐。2016年计算机视觉和模式识别会议论文集,第5685-5694页。IEEE,2016年6月。二、三[11] D.坎贝尔湖彼得森湖Kneip和H.李全局最优的内点集最大化同时相机姿势和功能对应。在2017年计算机视觉国际会议论文集,第1IEEE,Oct. 2017. 2[12] D.坎贝尔湖彼得森湖Kneip和H.李摄像机姿态和对应性估计的全局最优内点集最大化。IEEE Transactions onPattern Analysis and Machine Intelligence , 预 印 本 ,2018年6月。一、二、五、六、七[13] L- C. Chen,Y.Zhu,G.帕潘德里欧F.Schroff和H.Adam.一种用于序列图像分割的带可分离卷积的编码器-解码器。在2018年欧洲计算机视觉会议的会议记录中,9月。2018. 4[14] G. K. Cheung,S. Baker和T.卡纳德随时间变化的可视外壳对齐和细化:提出了一种结合轮廓恢复和立体视觉的三维重建算法。在2003年计算机视觉和模式识别会议的预备会议上,第2卷,第II-375页。IEEE,2003年6月。1[15] H. Chui和A.兰加拉詹一种基于混合模型的特征配准框架. 2000年生物医学图像分析数学方法研讨会论文集,第190-197页。IEEE,2000年6月。3[16] P. David,D.德门通河Duraiswami和H.沙美SoftPOSIT:同 步 姿 态 和 对 应 关 系 确 定 . International Journal ofComputer Vision,59(3):259-284,2004。一、二、六[17] L. 德夫罗耶密度估计课程。 概率与统计学进展. 波士顿公司,一九八七年二、四[18] O. Enqvist,E. 问吧F Kahl和K. A˚st rom¨ m. 抗差模型估计的实用算法。International Journal of Computer Vision,112(1):115-129,2015. 2[19] O. Enqvist和F.卡尔鲁棒最优姿态估计。2008年欧洲计算机视觉会议论文集,第141-153页。Springer,Oct.2008. 2[20] M. A. Fischler和R. C.波尔斯随机样本同意:一个范例模型 拟 合 与 应 用 程 序 的 图 像 分 析 和 自 动 制 图 。Communications of the ACM,24(6):381-395,1981.一、二、六[21] R.费雪。球面上的色散。伦敦皇家学会会刊A:数学、物理和工程科学,第217卷,第295-305页。皇家社会,1953年5月. 3[22] S. Gopal和Y.杨Von Mises-Fisher聚类模型于T. Jebara和E.P. Xing,编辑,第31届机器学习国际会议论文集,机器学习研究论文集第32卷,第154- 159162. PMLR,2014年6月。4[23] W. E. L.格里姆森计算机识别物体:几何约束的作用。麻省理工学院出版社,马萨诸塞州剑桥USA,1990. 2[24] R. I. Hartley和F.卡尔通过旋转空间搜索进行全局优化。国际计算机视觉杂志,82(1):64-79,4月。2009. 2[25] J. A. Hesch和S. I.鲁梅利奥蒂斯直接最小二乘(DLS)法求解PSNR。2011年国际计算机视觉会议论文集,第383IEEE,Nov. 2011. 一、二[26] Q.黄,W. Wang和U.诺伊曼递归切片网络用于点云的三维分割。在2018年IEEE计算机视觉和模式识别会议论文集,第2626-2635页,2018年。4[27] B. Jian和B. C.维穆里鲁棒点集配准使用高斯混合模型。IEEE Transactions on Pattern Analysis and MachineIntelligence,33(8):1633三、四[28] A. Kendall和R.西波拉深度学习的相机姿态回归的几何损失函数在2017年计算机视觉和模式识别会议论文集,第6555-6564页211809[29] A. Kendall,M.Grimes和R.西波拉PoseNet:用于实时6-DOF相机重新定位的卷积网络在2015年计算机视觉国际会议的会议记录中,第2938-2946页,2015年12月。2015. 2[30] J. T.肯特球面上的Fisher-Bingham分布皇家统计学会杂志。Series B(Method-ological),pages 71-80,1982. 3[31] L. Kneip和P.弗盖尔OpenGV:一个统一的和通用的方法来实时校准几何视觉。在2014年机器人与自动化国际会议的开幕式上,第1-8页。IEEE,2014年6月。6[32] L. Kneip,D. Scaramuzza和R.西格沃特直接计算摄像机绝对位置和方向的透视三点问题的新参数化2011年计算机视觉和模式识别会议论文集,第2969IEEE,2011年6月。6[33] L. Kneip,Z. Yi和H.李SDICP:基于迭代最近点的半密集跟踪。In M. W. J.Xianghua Xie和G. K. L. Tam,编辑,2015年英国机器视觉会议论文集,第100.1-100.12页。BMVA Press,Sept. 2015. 1[34] B. Kulis和M. I.约旦.重新访问k-means:基于贝叶斯非参数的新算法。第29届国际机器学习会议论文集,第1131-1138页。Omnipress,2012年。四、六、七[35] A. H
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功