低秩区域似然图的自监督检测网络

106 浏览量更新于2023-10-25 收藏 2.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1估计低秩区域似然图Gabriela Csurka1，Zoltan Kato2，3，Andor Juhasz2，MartinHumenberger11 NAVER LABS欧洲，法国2匈牙利塞格德大学信息学研究所3个j Selye大学，科马尔诺，斯洛伐克{kato，jandor}@ inf.u-szeged.hu{gabriela.csurka，martin.humenberger}@ naverlabs.com摘要低秩区域捕获图像中的几何上有意义的结构，其包含典型的局部特征，诸如边缘、角和各种规则的、对称的、通常重复的图案，这些通常在人造环境中发现虽然这样的图案正在挑战当前最先进的特征对应方法，但是低秩纹理的恢复的单应性清楚地提供了关于3D平面的3D结构，而无需该平面上的视觉信息的任何先验知识然而，自动和有效地检测广泛的低秩区域是未解决的。在本文中，我们提出了一种新的自监督低秩区域检测深度网络，其从图像预测低秩似然图。我们的方法在真实世界数据集上的评估表明，它不仅与我们的基线方法类似地可靠地预测图像中的低秩区域，而且由于在训练阶段使用的数据增强，它可以很好地推广到困难的情况（例如，日/夜照明、低对比度、曝光不足），其中基线预测失败。1. 介绍许多应用，如视觉定位[20，18，17]或运动恢复结构（SFM）[23，10]，依赖于分析多个图像或图像与3D点云（地图）之间的对应关系就可持续森林管理而言，这项工作通过K120366项目得到了NKFI-6基金的部分支持;“培训计算机科学领域新一代科学家的综合计划”，EFOP-3.6.3-VEKOP-16-2017-0002;研究与发展业务计划的项目“改进和提高技术基础设施的研究与发展J&。Selye大学在纳米技术和智能空间领域”，ITMS26210120042，由欧洲区域发展基金共同资助;项目研究创新运行方案&：“支持J.数字斯洛伐克和创意产业领域的塞尔维亚大学”，ITMS代码：NFP313010T504，由欧洲区域发展基金共同资助。图像需要在当前重建中被配准以改进或扩展3D点云，在视觉定位的情况下，查询图像用于估计相机在给定环境（地图）中的位置所有方法的共同点是，对于精确的相机姿态估计（两个相机之间的相对或相机与3D地图之间的绝对），准确的像素对应是至关重要的。为了获得这些对应关系，需要尽可能唯一地描述查询图像中的相关像素（关键点）和参考地图中的3D点然后，这些所谓的关键点描述符或局部特征被用于比较像素或3D点，并且具有最低描述符距离的对被保留用于进一步处理。所有功能类型都面临类似的挑战：无纹理区域、透视失真、遮挡、强照明变化和重复图案。在过去的20年里，为了克服这些挑战，在局部特征和特征匹配方面进行了大量的工作（[6，24，3]中的调查），并取得了很好的结果。然而，由于外观（相同颜色或图案）的固有不确定性，不可能在无纹理区域或重复图案内的像素之间建立可靠的局部此外，只有当两幅图像实际上显示相同的风景时，特征匹配才能起作用。如果参考图像和查询图像采集之间的环境发生变化，即使是最好的描述符也无法找到有效的对应关系。最近的工作[26，29，12]表明，有可能纠正所谓的低秩区域，并使用它们来估计相对于平面的相机姿态。此外，知道相机网络中的相机对之间的这种平面诱导单应性允许我们估计完整相机网络与3D平面的相对姿态，如[16，7，14]所示更准确地说，如果可以恢复低秩矩阵和稀疏误差矩阵，则图像中的平面区域是低秩的，其中第一个矩阵是经由纠正单应性获得的区域的规范视图。虽然这样的单应性的估计将需要类中的至少4个点对应1377613777cal的方法，我们的方法的独特之处在于，我们可以恢复这样的单应性，而不显式的点匹配，利用这种低秩纹理的内在结构。在城市环境中，这种低等级纹理通常被发现，例如。平面建筑物立面（砖、装饰品、窗户等）。低秩区域的一些示例如图1所示。虽然经典的特征提取和匹配方法受到此类模式的挑战因此，这些区域的自动提取是计算相机参数或部分3D结构的关键，不仅完全不需要局部特征，而且还可以利用迄今为止已经避免的区域：重复纹理。这在城市等人造环境中非常有用，原因有二：（i）人造环境包含许多低等级的、规则的、经常重复的区域，（ii）这些区域的外观经常变化（例如，昼夜、店面装饰、季节），这使得很难在参考地图中保持它们最新。重要的是，由于使用低秩区域不依赖于像素对应，因此不需要存储视觉信息（图像或描述符）。这显著地减少了实际的努力，例如，大规模摄像机定位，否则将需要存储数十相反，地图可以是基于平面的环境表示，例如数字高程地图[1，4]。本文的动机是这样一个事实，据我们所知，有没有可用的方法，实际上检测图像中的低秩区域。因此，本文的贡献总结如下：• 我们提出了一种方法，它计算一个低秩相似映射的整个图像的低秩decomposition的图像块提取在多个尺度（第3节）。• 我们提出了一个自我监督的像素概率估计网络，它直接从图像中估计这个可能性图，而无需解决大量的优化问题（第4节）。2. 相关工作本文的大部分相关工作涵盖了重复结构的检测，因为它们是低秩纹理的特殊情况，以及低秩区域本身的检测。重复结构。几篇论文解决了检测重复模式的问题，这些重复模式通常基于2D上重复的单个模式的假设。（变形）晶格。Hays等人[8]提出使用高阶特征匹配算法来发现真实图像中的近规则纹理的网格，其中Park等人。[11]使用Mean-Shift信念传播。更流行的方法是基于仿射不变局部特征的分组[22，15]。Torii等人[27]还考虑局部特征分组，但不是在图像级别分组，而是考虑整个数据集并学习调整软分配的视觉词袋模型中的视觉词权重。然后，他们使用修改后的表示，以更好地检测这些所谓的爬行动物，即。局部不变特征的重复模式。可以使用所检测和校正的重复图案，例如，对于单视图立面校正[5] ，假设给定建筑物立面的数据库[22]，或假设水平重复或对称的单视图3D重建[28低级建筑。 Peng等 [12]提出了一种鲁棒的图像对齐优化框架，称为RASL（用于线性相关图像的稀疏和低秩分解的鲁棒对齐RASL试图找到一个最佳的图像域变换的方式，由变换后的图像组成的矩阵可以分解成一个稀疏的误差矩阵和一个低秩矩阵描述恢复对齐图像的总和。计算低秩矩阵的另一种方法是由Zhang等人提出的TILT（trans-form Invariant Low-rank Texture）算法。[29]第10段。它在给定的图像区域上使用迭代凸优化。TILT可以被认为是RASL的一个RASL使用多个图像和多个转换（每个图像一个）。TILT和RASL提供了可靠的数学优化框架来估计给定区域的低秩矩阵，但这些方法实际上都没有检测到低秩区域。检测的简单解决方案是在所有可能的图像块上计算TILT（因为它是更简单的方法）（参见图3中的示例）。然而，这在实践中是不可行和不可能的，因为过程密集型优化框架。因此，如何检测这些低秩区域的问题仍然存在。在本文中，我们介绍了两种方法，提供了一个解决方案。3. 基于TILT的低秩似然映射低秩区域捕获图像中的几何上有意义的结构，其包含典型的局部特征，诸如边缘和角以及在人造环境中常见的各种规则的、对称的通常重复的如果这些低秩纹理在平面区域上，则可以恢复内在视图I0，称为变换不变低秩纹理。137780图1.来自亚琛昼夜数据集的低秩模式示例[19，21]。ture（TILT）[29]及其相应的纠正射影变换H（在3.1节中描述）。低秩区域的检测不同于经典的检测问题，因为它不能被认为是一个二元决策问题。例如，由窗户组成的建筑物立面（诸如图2中的两个示例）是低等级的，但是从立面区域裁剪的单个窗户不那么低等级（诸如左上图像中的单个窗户）或者甚至根本不是低等级的（诸如右上图像中的单个严格地说，低秩的程度取决于区域的固有秩比包含纹理的校正区域的维度低多少[29]。因此，我们提出了一种为给定图像生成低秩似然图的方法，而不是将其作为检测该图中的高值意味着我们可以将最小尺寸的窗口居中在该位置，使得对应的图像区域表示变换后的低秩纹理。为了获得这样的地图，我们估计了一个图2.来自亚琛昼夜数据集的图像[19，21]（顶部），其中图像基于主立面的区域（底部）进行了TILT校正。dim（span{R0（x，y0）|y02R}）k，对于某个与区域大小相比较小的正整数k。给定一个低秩纹理，显然它的秩在函数的任何缩放下都是不变的，以及在x和y坐标中的缩放或平移。因此，两个低秩纹理是等价的，如果它们是彼此的缩放和平移版本，即。R0（x，y）<$cR0（ax + t1，by + t2）.在实践中，我们从来没有给出作为R中的连续函数的2D纹理，而是将其离散化为由R0表示的矩阵。此外，给定一个图像，我们只有R0的一个变换形式，记为R.形式上，有一个h，使得h（R）<$R0，或者在离散的情况下，我们有HR<$R0，其中H2R3×3是单应性。在实际应用中，R0模式是未知的，并且由于遮挡和其他噪声，其图像是模式的不完美变换版本。这种类型的误差可以用稀疏矩阵S来建模。为了确定平面单应性H，Zhanget al. [29]建议将其作为鲁棒秩最小化问题使用TILT [29]在多尺度滑动窗口上进行评分。然后，我们使用加权核密度估计minR0，S，Hrank（R0）+λkSk1（一）（wKDE）来构建可能性图。3.1. 变换不变低秩纹理（TILT）TILT算法使用凸优化技术，该技术能够鲁棒地恢复高维低秩矩阵，尽管存在总稀疏误差，并且对于平面区域，校正单应性。让我们假设，我们的相机看到一个3D平面π与低秩纹理（见图1中的一些例子），世界坐标系是附加到这个平面（是- ingZ=0平面）。考虑一个2D纹理作为一个功能R0。根据 [29]，R0是一个低秩纹理，如果一维函数族{R0（x，y0）|y02R}是一个有限低维线性子空间，即S.T.HR=R0+S，其中R是观察到的低秩纹理区域，R 0是近似低秩纹理的固有视图R 0的低秩矩阵，S是对R 0和HR之间的差进行编码的稀疏误差矩阵，以及k。k1是L1范数。为了解决这个问题，[29]提出使用迭代增广拉格朗日乘子（ALM）方法，如算法1所述。它包含两个交错的迭代优化过程，这使得它相当昂贵。TILT的输出是校正低秩纹理R（也称为规范视图）、误差矩阵S和校正单应性H的估计。在图2中，我们显示了从人工选择的平面低秩区域获得的H∞校正图像的13779不0n我KKK不不 HKnii我我我算法1TILT算法[29]。输入：由矩阵R表示的区域R，并且λ>0。初始化：h0，标识为（H0=I），t= 0。而不收敛步骤1：归一化HtR，使得kHtRkF= 1步骤2：计算R的雅可比矩阵。的变换参数。算法2 ALM求解器[29]。输入：当前变换区域ht（R）由下式表示：Rt=HtR。输入：雅可比矩阵Jt=rhR及其由Jt表示的Moore-Penrose伪逆矩阵;输入：权值λ> 0和逐元素收缩运算符：σ（A，μ）（i，j）=sign（A（i，j））（|A（i，j）|-µ）。初始化：k= 0，ρ>1µ0>0，Y0=S0= S0=0。rhR→∂0分0h（R）kh0（R）。..h0=htH而不收敛（U，D，V）= SVD（R+Jk+μYk-Sk）;Rk+1=Ukσ（Dk，µk）V>;步骤3：使用A1 -0k中描述的ALM解决问题⑴租m2得到Rt，St和Rt。Sk+1=σ（Rt+Jtk+μkY-Rk，λμk）;0hh0t+1t tk+1=J<$（-Rt+Rk+1+Sk+1-µkYk）;步骤4：更新H=H+H。ht0Yk+1end while输出：最优解R、S和H。k+1=Yk+（Rt-Rµ k +1 = µ k/ρ。end whileJth-S）/µk;输出：最优解R、S和S。0h时在我们的例子中是采样窗口的集合如果{x1，x2，. -是的- 是的，xn}表示从某些概率分布q中抽取的随机样本，我们可以通过使用核密度估计来近似q的形状图3.通过（6）使用在每个像素上具有滑动窗口的TILT获得的低等级评分图，窗口大小为50、100和150像素（根据窗口大小和图像内容，生成这些图的CPU时间在5到12天之间3.2. 建立低秩似然图让我们假设，在理想情况下，我们可以得到一个似然-胡德为每个窗口反映的概率，包含- ING一个低秩纹理。即使在这种情况下，为了获得完整图像的似然图，也意味着我们在每个像素位置处对所有可能的窗口进行采样（参见图3中针对一些测试图像使用不同窗口大小获得的示例由于已经在单个窗口上计算这样的分数是昂贵的（由于在TILT 中使用的两层迭代优化），因此直接计算该图几乎是不可能的（使用由[29]的作者提供的Matlab实现1获得图3相反，我们通过考虑重叠幻灯片来估计它-Q（x|P）=1XpG（w，σ），（2）i=1其中，在我们的情况下，内核是以采样窗口Wi为中心的零均值双变量高斯，其中方差σ取决于窗口大小。Pi是如下所述获得的给定被视为矩阵的任何图像窗口，在（1）中描述的优化问题可以通过ALM有效地解决，产生三元组（R0，S，H）。的情况下准平面低秩织构，R0是内禀低秩织构结构，S是稀疏矩阵，H−1是整流变换。在非低秩区域的情况下，该算法将强制找到具有最低秩的R0，代价是增加的误差使得S不那么稀疏。为了构建似然图，我们首先在一组不同大小的滑动窗口上运行TILT1，其中l2 {50，100，150}，并且相邻窗口之间的步长为l/2该算法为每个窗口wl提供了以下量：（1）Al-低秩矩阵，（2）Sl-稀疏矩阵我我我在多个尺度和预定义的步骤中设置窗口在矩阵，（3）Hl我我每个这样的位置，我们拟合一个局部高斯与“等级在（1）中的分解的残差。使用这些量，我们可以表征窗口wl的窗口大小待定这可以被看作是一个加权的目标概率密度函数的核密度估计（wKDE）核密度估计是一个基本的数据平滑问题，通过严格非负误差（或能量）el=rl+sl+fl，（3）其中rl是Al除以l的秩，sl是L1人口是基于有限的数据样本，这是iii1我们使用的MATLAB代码可以在https：//people上找到。eecs.berkeley.edu///www.example.com/matrix-rank/tilt.html。⇣013780稀疏矩阵Si的范数。能量定义在（3）[2]我们考虑了固定窗口大小的图像，这些图像的大小调整为800×1200或1200×800。13781我0我我我我我我我我我i、j我P我L我我我我我我我X我我我10.90.80.70.60.50.40.30.20.1000.511.522.53第3.5 节×10 610.90.80.70.60.50.40.30.20.10012345678×10510.90.80.70.60.50.40.30.20.1000.511.522.53第3.5节×10 5算法3TILT似然图生成。输入：图像I和窗口大小集合l2{50，100，150}。预处理：将图像转换为灰度并调整大小以获得min（width，height）= 800。预处理：使用Canny边缘检测器构建边缘图E初始化：具有零的似然映射P和Pl对于以步长L/ 2采样的所有滑动窗口Wl。运行算法1，得到R、S和H。图4.上图：窗口大小为50、100和150时el（3）的直方图。底部：使用（5）为层50、100和150构造的概率值。使用（4）计算窗口的均匀性hl用（6）计算pl如（7）中所述，将plG（wl，σl）加到Pl端定义了一个标准的指数分布Pl=exp（-el）。注意，均匀区域是低-对每个l2{50，100，150}归一化Pl。用（8）计算P输出：针对I获得的似然图P。我我等级（提供低的el值），但由于缺乏强度模式，它们对于估计良好定义的校正单应性是无用的因此，我们希望对均匀区域施加Pl= 0为了检测窗口是否对应于同性恋-我们考虑的二进制边缘图E1的均匀区域，其中，Nl表示图像中在级别l处的窗口的数量，wl是滑动窗口，并且σl是窗口大小l的函数。为了确保从所有图像上的概率分布中获取pl的值，窗口WL，我们检查是否hl=1kElkil2i，j1我（四）水平l，我们将Pl除以其最大值，然后将其乘以在整个数据集中获得的最大Pl最后，在不同水平l2 {50，100，150}处获得的概率图被平均为大于均匀性阈值τ（设置为0.04）。1X1l考虑到从所有win获得的所有el在我们的数据集中，使用TILT处理并且没有被拒绝P=1LlP.（八）LL通过均匀性约束，我们建立了直方图corr。响应于各种窗口大小。在这些直方图上，如图4（顶部）所示，我们可以识别两种模式：具有较小el值（对应于低秩区域候选）的一种窄模式和具有较大值的宽得多的模式。由于我们想要拉伸第一模式以便构建适合于推断低秩区域的良好校准的PI，因此我们将（3）中的低秩分数修改为el=max（0，α（rl+sl+fl-1）），（5）这里我们把α设为0.75。那么，与同态约束相结合的pl变为pl=exp（-el）δ（hl> τ），（6）其中δ（）是Kronecker delta。图4（底部）显示了在所有窗口上获得的排序概率值。为了定义整个图像上的概率图，我们使用具有高斯内核的wKDE来传播这些值，Pl =1plG（wl，σl），（7）Nil=Nl上述步骤总结在算法3中。注意，出于两个原因，我们使用了用较小窗口尺寸获得的Pl一方面，我们有更多的滑动窗口，有助于产生P50比P100或P150。另一方面，由于我们的σ的选择取决于窗口大小，对应于窗口大小50的高斯比对应于更大窗口的高斯更局部化，从而产生更平滑的PI图。4. 深度低秩区域检测网络如第3.2节所述获得概率图是极其昂贵的，因为我们必须在TILT中和在ALM算法内针对每个滑动窗口和在几个尺度上运行两个合并的迭代优化。因此，我们建议训练一个深度神经网络，该网络学习从给定图像直接预测此类映射，并使用第3.2节中的方法生成的一组似然映射进行训练。虽然这些地图只是近似的概率分布，因此不能被认为是完美的基础3运行MATLAB版本的TILT为所有滑动窗口与步骤1/2和3尺度约25分钟的图像。我13782BBb图5.修改Segnet [2]。事实上，我们希望，如果有足够的训练样本显示给网络，它不仅能够学习再现用TILT估计的映射，而且还能够在训练样本之间进行概括，并学习识别隐含的低秩非齐次结构。为了得到像素级的输出，我们将用于图像分割的模型视为网络架构，其中包括缩小和放大以获得与输入图像相同分辨率的输出特征图。我们尝试了两种不同的架构：Seg- net [2]（见图5）和全分辨率残差网络（FRRN）[13]（见图6）。在这两种情况下，我们对网络进行了如下修改：由于颜色与检测低秩区域无关，我们首先将输入图像转换为单通道灰度。类似地，由于我们只考虑单个特征映射输出，因此我们使用平均池化层对映射进行平滑，最后将映射中的值归一化为0和1之间。然后，我们使用基于Kullback-Leibler（KL）散度的损失，而不是使用交叉熵损失作为训练网络的目标函数。实际上，我们通过第3.2节中概述的方法将P构建为图像平面上定义的低秩区域的概率分布的wKDE估计，即。它表示每个像素（i，j）的似然性P（i，j），该似然性P（i，j）表征该像素是低等级区域的一部分的概率我们的目标是获得的输出特征图F网络在概率接近意义上与P相似。因此，作为损失，我们使用从输出特征图F到输入相似性图P的Kullback-Leibler（KL）散度，其测量目标概率分布F与参考概率分布P之间的差异，如下所示：图6.修改的全分辨率残差网络（FRRN）[13]。然而，它具有重要的性质，使得它适合于测量概率分布之间的差异它总是非负的：D（P||F）≥0，仅当P<$F时为0。5. 实验结果训练为了训练我们的模型，我们使用了[19，21]中提供的亚琛昼夜数据集。最初提出用于视觉定位，该数据集由训练集（具有地面实况相机姿势）和测试集（没有地面实况相机姿势）组成。我们将Aachen训练集随机分为三组图像：500人用于验证，500人用于测试，3328人用于培训。除了上面分割的测试图像外，我们还使用了官方亚琛测试集的Day（里程碑）和Night（nexus5x）图像进行测试。为了使网络的内存消耗和训练时间保持即使这种策略已经在训练集中引入了可变性，我们还应用了各种数据增强方法，如翻转、旋转、伽马、亮度、对比度和饱和度变化。我们构建了我们的模型，修改了[25]提供的PyTorch实现。我们使用SGD优化器，学习率在1.0e-7和1.0e-12之间，权重衰减等于0.0005，动量为0.99。我们使用小批量2或4，并考虑在验证集上每500次迭代评估模型200000次我们只保留了在验证集上表现最好的模型，验证集通常是在大约150000次迭代之后获得的（如果模型收敛的话）。中所示的结果论文是用批量训练的模型获得的D（P||F）=X（i，j）∈IP（i，j）l〇 gPb（i，j），（9）Fb（i，j）4，学习率等于1.0e-9。低秩区域检测。按照标准流程-其中P和F是归一化的似然图，使得所有值的和为1，从而使得图等价于以给定图像为条件的概率分布。注意，KL散度不是度量，因为它是反对称的并且不服从三角不等式。怎么-在此过程中，我们使用我们的训练集的3328张图像来训练模型，我们使用验证集来选择参数，最后我们使用我们的测试集（包括官方的亚琛昼夜测试图像）来评估模型。请注意，在我们所有的实验中，我们认为获得13783图7.用于检验的预测低秩似然图示例使用第3.2节中描述的TILT+wKDE（第二列），基于SegNet的深度网络（第三列）和基于FRNN的深度网络（第四列）获得的图像用TILT+wKDE作为地面实况，并将用网络获得的地图与使用KL发散度的这些地图进行比较。我们在表1中显示了验证和测试集的平均KL分歧，在表2中显示了白天（里程碑）和夜晚（nexus5x）集的平均KL分歧。表1. Aachen Day-Night数据集的train，val和test拆分的平均KL散度值。模型火车Val测试SegNet0.03210.03640.0337FRNN0.02800.03150.0312表2.当天（里程碑）的平均KL发散值，以及Night（nexus5x）来自官方的亚琛昼夜数据集。模型日（里程碑）夜间（nexus5x）SegNet0.092760.0617FRNN0.077520.0415此外，在图7和图8中，我们显示了使用第3.2节中描述的基于TILT+ wKDE的似然图生成获得的低秩似然图，以及由Segnet和基于FRNN的深度网络预测的从表1和2以及图7和8中可以看出，基于FRNN的体系结构提供了更平滑的输出图，此外，当将它们与利用FRNN获得的似然图进行TILT+wKDE地图生成。图8.预测的低秩似然图的示例白天（里程碑）和夜晚（ nexus5x ）的图像，使用TILT+wKDE（第二列），基于Segnet（第三列）和基于FRNN（第四列）的深度网络获得。表3.来自CambridgeLandmarks数据集的序列的平均KL发散值。模型GreatCourt（seq2）旧医院（seq1）SegNet1.38460.8868FRNN1.09100.8240图9.来自亚琛的示例图像对，其中相同的场景在白天（底部）和夜晚（顶部）以及它们的TILT+wKDE，SegNet和FRRN可能性图都可见。推广到其他数据集。为了测试模型如何推广到其他数据集，我们考虑CambridgeLandmarks 数据集的序列[9] 。我们在表 3 中显示了 GreatCourt （ seq2 ）和OldHospital（seq1）的结果。将这些数字与表2中的数字进行比较，我们在表3中看到了更大的KL散度值。然而，在查看图10中的一些代表性结果时，Segnet和FRRN 都提供了相关的，一致的，并且比参考（TILT+wKDE）更好的地图为了理解这一点，让我们仔细看看什么是前-13784我我图10.来自GreatCourt（seq2）（顶部两行）和OldHospital（seq1）（底部两行）的图像的预测低秩似然图的示例，以及使用TILT+wKDE（第二列），基于Segnet（第三列）和基于FRNN（第四列）的深度网络获得的图像我们在第4节中概述的可能性图捕捉到了这一点。首先，用于TILT的图像没有进行曝光或对比度增强的预处理。因此，当图像太暗和/或模糊时，边缘检测器仅提供在（6）中产生低h1的几个边缘，并且考虑到这种情况，窗口是均匀的（即， pl= 0），这防止它们对所构造的似然图作出贡献。相反，由于我们的数据增强改变了gamma，亮度和对比度，深度模型受此影响较小，并且产生了比TILT+wKDE更好的似然图（见图10）。结果，尽管有极端的光变化，但在显著不同的照明条件下的相同结构（参见图9的白天/夜晚示例）被正确地检测为其次，基于对不同窗口大小和分辨率的实验分析，我们只考虑了三种尺度下的固定大小滑动窗口，这些滑动窗口捕获了大部分低秩特性，同时将计算成本保持在合理的尺度上。因此，TILT+wKDE的输出取决于所考虑的尺度。我们的深度模型对此不太敏感，这要归功于我们在数据增强中加入了几何变换，包括尺度变化（参见图10中的底部两行）。这两个观察结果都清楚地表明了学习估计的强度超过了手工制作的计算。潜在的应用。通过引入一种新的似然图的估计方法，解决了低秩区域检测这一尚未解决的当这样的区域被正确检测时，可以容易且有效地得到校正单应性。图11示出了在我们的FRRN图的局部最大值处提取的低秩区域的示例以及使用TILT的校正。正如我们所看到的，虽然TILT无法检测低秩重，原始图像检测到BB纠正BB图11.在我们预测的FRRN图的局部最大值处提取的低秩区域以及使用TILT（运行时：0.8145s在Matlab中）。根据3D中的单应性生成具有低秩BB图12.紫色：用于相对姿态估计的检测到的边界框。低秩区域的3D平面。绿色：GT相机。蓝色：从纠正单应性因式分解的相机。旋转误差：2.4 ○、翻译错误：1.5 ○（相对于的GT翻译，因为翻译的绝对长度不能是从单应性获得）。因此，它可以有效地估计我们预测的似然图的局部最大值周围的边界框的校正单应性。这种单应性有重要的应用，例如。摄像机姿态估计、匹配和3D重建[7，14，16，30]。摄像机姿态估计w.r.t.图12中示出了3D平面。6. 结论我们已经证明，可以使用估计概率分布的深度神经网络来鲁棒地检测低秩区域可以使用在多个尺度下在图像网格上用TILT计算的似然图以自监督方式训练网络。这在实践中明显更快且更容易使用，因为低秩区域直接从图像估计而无需解决复杂的优化问题。此外，对两个真实世界数据集的评估表明，我们可以实现与我们的基线方法（TILT+wKDE）非常相似的结果。更重要的是，结果表明，学习的估计甚至可以处理手工计算失败的更具挑战性的情况。我们坚信，这种方法将使低秩区域的使用在许多应用中，因为迄今为止的全部潜力，例如。不依赖于逐像素对应的相机姿态估计此外，我们提出的检测网络可以进一步扩展到直接返回纠正单应性。13785引用[1] 克莱门斯·阿尔斯、克里斯蒂安·皮尔希海姆、乔纳森·文图拉、迪特·施马尔斯蒂格和文森特·莱佩蒂特。即时户外定位和满贯初始化从2.5维地图。可视化和计算机图形学（TVCG），21（11）：1309-1318，2015年。2[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。 Transactions on Pattern Analysis and MachineIntelligence（PAMI），39（12）：24816[3] Vassileios Balntas， Karel Lenc ， Andrea Vedaldi ， andKrys- tian Mikolajczyk.Hpatches：手工制作和学习的本地描述符的基准和评估在IEEE计算机视觉和模式识别会议（CVPR），2017年。1[4] Mayank Bansal和Kostas Daniillem。城市地理定位。在IEEE计算机视觉和模式识别会议（CVPR），第3978-3985页，2014年。2[5] D a vidM. 作者：Chen，Geo r gesBaatz，KevinK o¨ se r，SamS.Tsai，RamakrishnaVedantham，TimoPylvaünaüinen ， KimmoRoimela ， Xin Chen ， Jeff Bach ，Marc Pollefeys，Bernd Girod，and Radek Grzeszczuk.移动设备上的城市规模地标识别在IEEE计算机视觉和模式识别会议，2011年。2[6] 作者：Christopher R.丹斯，还有马丁·胡门伯格。从手工制作到深厚的地方特色。 arXiv 预印本 arXiv ：1807.10254，2018。1[7] 罗伯特·弗罗利希和佐尔坦·加藤。从平面区域同时进行多视图相对姿态估计和3D重建。在Gustavo Mesquiro和Shaodi You编辑的ACCV Workshop on Advanced MachineVisionforReal-lifeandIndustriallyRelevantApplications ，第 11367 卷， Lecture Notes in ComputerScience，第4672018年12月。斯普林格。一、二、八[8] James Hays，Marius Leordeanu，Alexei A Efros，andYanxi Liu.发现纹理规则性是一个高阶对应问题。欧洲计算机视觉会议（ECCV），2006年。2[9] AlexKendallMatthewGrimes 和 RobertoCipollaPosenet：用于实时6-dof相机重新定位的卷积网络。2015年，国际计算机视觉会议7[10] 皮埃尔·穆伦，帕斯卡·莫纳斯，和雷诺·马莱。相对运动的全局融合，用于从运动中获得鲁棒、准确和可扩展的结构。在2013年的国际计算机视觉会议（ICCV）上1[11] 放大图片作者：Robert T. Collins和Yanxi Liu。使用均值漂移置信传播的真实世界图像中的变形格点检测。Transactions on Pattern Analysis and Machine Intelligence（PAMI），31（10）：8042[12] Yigang Peng ， Arvind Ganesh ， John Wright ， WenliXu，and Yi Ma. RASL：通过稀疏和低秩分解线性相关图像的鲁棒对齐. Transactions on Pattern Analysis andMachine Intelligence （ PAMI ）， 34 （ 11 ）： 2233-2246，2012. 一、二[13] Tobias Pohlen，Alexander Hermans，Markus Mathias，and Bastian Leibe.用于街道场景语义分割的全分辨率残差网络。在 IEEE 计算机视觉和模式识别会议（CVPR），2017。6[14] James Pritts ， Zuzana Kukelova ， Victor Larsson ， andOnd Zurrej Chum.从径向扭曲的尺度校正。2018年亚洲计算机视觉会议（ACCV）。一、二、八[15] 詹姆斯·普里茨、吉·马塔斯和翁德·雷杰·查姆。共面重复模式的检测、在IEEE计算机视觉和模式识别会议中，2014年。2[16] 圣诞老人佐尔坦·加藤自组织移动摄像机网络的位姿估计。在数字图像计算国际会议上：技术和应用（DICTA），第1-8页，霍巴特，塔斯马尼亚，澳大利亚，11月。2013.美国电气与电子工程师协会。一、二、八[17] Paul-Edouard Sarlin，Cesar Cadena，Roland Siegwart，and Marcin Dymczyk.从粗到细：大规模的鲁棒分层定位。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月1[18] Torsten Sattler，Bastian Leibe，and Leif Kobbelt. 大规模图像定位的高效优先匹配 Transactions on PatternAnalysis and Machine Intelligence（PAMI），39（9）：1744-1756，2016. 1[19] 托尔斯滕·萨特勒、威尔·马登、卡尔·托夫特、鸟井昭彦、拉尔斯·哈马斯特兰、埃里克·斯滕堡、丹尼尔·萨法里、奥富正俊、马克·波莱费斯、约瑟夫·西维奇、弗雷德里克·卡尔和托姆·马的《阿伊德拉》。变化条件下的6dof户外视觉定位在IEEE计算机视觉和模式识别会议（CVPR），2018年。三、六[20] Torsten Sattler 、 Akihiko Torii 、 Josef Sivic 、 MarcPollefeys 、 Hajime Taira 、 Masatoshi Okutomi 和 TomasPajdla。大规模3D模型对于精确的视觉定位真的是必要的吗？在IEEE计算机视觉和模式识别会议（CVPR），2017。1[21] Torsten Sattler ， Tobias Weyand ， Bastian Leibe ， andLeif Kobbelt.图像检索的图像为基础的定位重温。2012年BMVA英国机器视觉会议（BMVC）。三、六[22] Grant Schindler，Panchapagesan Krishnamurthy，RobertoLublinerman，Yanxi Liu，and Frank Dellaert.城市环境中自动地理标记的重复模式检测和匹配。IEEE计算机视觉与模式识别会议（CVPR），2008年。2[23] 约翰内斯湖 Schoünbe r ger和Jan-MichaelFrahm. 结构-从运动重新审视。在IEEE计算机视觉和模式识别会议（CVPR），2016年。1[24] 约翰湖Scho？nber ger，HansHardmeier，TorstenSattler，and Marc Pollefeys.手工制作和学习的地方特色的比较评价在IEEE计算机视觉和模式识别会议上，2017年7月。1[25] 这是 P· 沙阿在 PyTorch 中实现的语义分割架构。https://github.com/meetshah1995/pytorch-semseg，2017. 6[26] 放大图片作者：Alex M.布朗斯坦和吉列尔莫·萨皮罗。学习有效的稀疏和低秩模型。Transactions on Pattern13786Analysis and Machine Intelligence （ PAMI ）， 37（9）：1821-1833，2015. 113787[27] 鸟井明彦、约瑟夫·西维克、奥富正俊和托马斯·帕德拉。具有重复结构的视觉位置识别。Transactions onPattern Analysis and Machine Intelligence（PAMI），37（11）：2346-2359，2015. 2[28] Changchang Wu ， Jan-Michael Frahm ， and MarcPollefeys.基于重复的稠密单视图重建。在IEEE计算机视觉和模式识别会议（CVPR），2011年。2[29] Zhengdong Zh

下载后可阅读完整内容，剩余1页未读，立即下载