球面表示：解决全向图像失真问题的深度学习框架

199 浏览量更新于2023-10-13 收藏 1.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

SphereNet：学习球面表示用于全向图像Benjamin Coors1，3，Alexandru Paul Condurache2，3，and AndreasGeiger11自治视觉组，智能系统MPI和图宾根统一2吕贝克大学信号处理研究所3Robert Bosch GmbH抽象。全向摄像机比传统摄像机具有更大的优势，适用于需要宽视场的领域，例如虚拟现实应用或自主机器人。不幸的是，标准的卷积神经网络并不适合这种情况，因为自然投影表面是一个球体，在不引入显著失真的情况下，它不能被展开到一个平面上在这项工作中，我们提出了SphereNet，这是一种新型的深度学习框架，它将针对这种扭曲的不变性明确编码到卷积神经网络中。为了实现这一目标，SphereNet调整了卷积滤波器的采样位置，有效地逆转了失真，并将滤波器包裹在球体周围。通过建立在常规卷积的基础上，SphereNet能够将现有的透视卷积神经网络模型转移到全向情况下。我们证明了我们的方法在图像分类和对象检测任务上的有效性，利用两个新创建的半合成和真实世界的全向数据集。1介绍在过去的几年中，全向成像设备由于其宽的视场和其从虚拟现实到机器人的广泛应用而变得流行[10，16，21，27，28]。如今，全向运动相机以实惠的价格提供，360°查看器已集成到社交媒体平台中。鉴于球形图像的数量不断增加，人们对针对此类数据进行优化的计算机视觉模型越来越感兴趣360°图像的最流行的表示1+2为例。然而，等距矩形图像表示遭受严重的失真，在极地地区，这意味着一个对象将出现不同的取决于其纬度位置。这对现代计算机视觉算法提出了挑战，例如卷积神经网络（CNN），其是许多计算机视觉任务的最先进的解决方案。虽然CNN能够学习对常见对象变换和类内变化的不变性，但它们需要更多的参数、训练样本和训练时间来学习对数据中这些失真的不变性这是不可取的，因为数据注释是耗时的并且是注释的全向数据集2Benjamin Coors，Alexandru Paul Condurache，AndreasGeiger(a) 360◦相机（b）360◦图像（c）常规内核（d）SphereNet内核图1：概述。（a+b）使用鱼眼或360°运动相机捕获图像，会产生在球体上表现最佳的图像。（c）使用规则卷积（例如，与3×3过滤器内核）的整流等距矩形表示（见图。图2b）遭受靠近极点的采样位置（红色）的失真。（d）相反，我们的SphereNet内核利用采样模式在切平面（蓝色）上的投影（红色），产生对纬度旋转不变的滤波器输出。是稀缺的，并且尺寸小于为透视情况收集的那些。因此，一种有吸引力的替代方案是将几何变换的不变性直接编码到CNN中，这已被证明在减少模型参数的数量以及所需的训练样本数量方面非常有效[4，29]。在这项工作中，我们提出了SphereNet，这是一种通过将失真不变性编码到CNN架构中来使用卷积神经网络处理全向图像SphereNet基于球形图像表示的几何形状来调整卷积滤波器的采样网格位置，从而避免如图1和2所示的一加二。SphereNet框架适用于大量投影模型，包括透视、广角、鱼眼和全向投影。由于SphereNet建立在常规卷积滤波器的基础上，因此它可以通过调整卷积核的采样位置来自然地实现我们证明了这一点，通过训练透视图像上的对象检测器，并将它们转移到全方位的输入。我们提供了广泛的实验，半合成以及真实世界的数据集，证明了所提出的方法用于图像分类和对象检测的有效性综上所述，本文做出了以下贡献：• 我们介绍了SphereNet，这是一个通过将失真不变性编码到卷积滤波器中来学习球形图像表示的框架SphereNet保留了原始球形图像连接，并且通过建立在规则卷积上，使得能够将透视CNN模型转移到全向输入。• 我们使用近似均匀的球体采样来提高SphereNet的计算效率，从而避免了极区的过采样。• 我们创建了两个新的半合成和真实世界的数据集，用于全向图像中的对象检测。• 我们在图像分类和对象检测任务上展示了改进的性能以及SphereNetSphereNet：在全向图像32相关工作很少有深度神经网络架构专门设计用于对全向输入进行操作。在本节中，我们将回顾最相关的方法。Khasanova等人[14]提出了一种基于图的全向图像分类方法。它们使用加权图来表示等距矩形图像，其中每个图像像素是顶点，并且权重被设计为使不同图像位置处的滤波器响应之间的差异最小化。这个图结构由图卷积网络处理，它对旋转和平移是不变的[15]。虽然图表示解决了等距矩形图像的边界处的不连续性问题，但图卷积网络限于小图，图像分辨率（[15]中的50×50像素），并且尚未在更具挑战性的数据集上表现出与常规CNN相当的与此相反，我们的方法建立在规则卷积的基础上，它为许多计算机视觉任务提供了最先进的性能，同时还保留了球形图像的连通性。在并行工作中，Cohen et al.[3]建议使用球形CNN进行分类，并将旋转等方差编码到网络中。然而，通常不期望完全旋转不变：类似于常规图像，360°图像主要在一个主导方向（即，摄像机很少上下翻转在这种情况下，结合完整的旋转不变性降低了判别力，我们的实验证明。此外，与我们建立在常规卷积基础上并与现代CNN架构兼容的工作不同，将图形或球形卷积集成到网络架构中对于更复杂的计算机视觉任务（如对象检测）来说并非易事。事实上，在文献中没有提供超出图像分类的结果相比之下，我们的框架很容易允许将现有的CNN架构用于对象检测或其他更高级别的视觉任务，以适应全方位的情况。虽然目前只有很少的大型全向数据集存在，但有许多经过训练的透视CNN模型可用，我们的方法可以将其转移到任何全向视觉任务中。Su等人。[30]提出通过向极区增加核大小来处理具有规则卷积的然而，卷积滤波器的这种适应是等距矩形表示中的失真的简单近似，并且意味着权重只能沿着每行共享，从而导致模型参数的显著增加因此，该模型很难从头开始训练，并且需要针对已训练的透视模型进行内核预训练相比之下与此同时，我们的方法更好地近似在equirectangular图像的失真，并允许透视到全向表示转移。缓解学习球形表示的问题的一种方式是立方体映射投影，如[19，22]中所考虑的。在这里，图像被映射到立方体的六个面，这些面被认为是六个虚拟透视相机的图像平面，并且用常规CNN进行处理。然而，这种方法并不能消除失真，而只是将其影响最小化。此外，在面片边界处引入了额外的不连续性，并且可能需要后处理来组合各个输出4Benjamin Coors，Alexandru Paul Condurache，AndreasGeiger每个补丁。我们通过为可以直接端到端训练的球形信号提供合适的表示来避免这些问题除了失真不变性的作品，几个作品集中在不变性的几何变换，如旋转或翻转。Jaderberg等人[11]，介绍了一种分离的网络，该网络学习预测输入特征图的空间变换的参数。散射卷积网络[1，25]使用预定义的小波滤波器将稳定的几何不变量编码到网络中，而其他最近的作品将方差编码到学习的卷积滤波器中[4，9，29，31]。这些工作与所提出的框架正交，并且可以有利地组合。最近的几项工作也考虑动态[5]或静态[12，18]调整卷积网络的采样位置与我们的工作不同，这些方法需要在训练过程中学习采样位置，这需要额外的模型参数和训练步骤。相比之下，我们利用相机的几何特性，将这些知识明确地注入到网络架构中。3方法本节将介绍建议的SphereNet框架。首先，我们描述了采样模式的自适应，以实现球面上的失真不变性（第3.1节）。其次，我们提出了一个近似，均匀采样的球体，以提高我们的方法的计算效率（第3.2节）。最后，我们将详细介绍如何将SphereNet纳入分类模型（第3.3节）以及如何对球形输入执行对象检测（第3.4节）。3.1核抽样模式SphereNet的中心思想是提升本地CNN操作（例如卷积、池化）从常规图像域到球面，其中鱼眼或全向图像可以在没有失真的情况下表示。这是通过将内核表示为与球体相切的小补丁来实现的，如图1B所示1d. 我们的模型专注于失真不变性而不是旋转不变性，因为在实践中，360◦图像大多数是在一个主导方向上捕获的。因此，我们考虑与球体的大圆对齐的直立斑块。更正式地说，设S是单位球面，其曲面为S2每个点s=（φ，θ）∈S2由纬度φ∈[−π，π]和经度θ∈[−π，π]唯一定义。让2 2另外Π表示位于sΠ=（ΦΠ，θΠ）处的切平面。我们用Π上的一点的坐标x ∈R2来表示它。Π的局部坐标系由此以s为中心并且竖直定向。令Π0表示位于s=（0，0）处的切平面。球面上的点s通过球心投影与其切平面坐标x相关[20]。虽然所提出的方法与所有大小的卷积兼容，但在下面我们考虑3×3内核，这在最先进的架构中最常见[8，26]。我们假设输入图像以等矩形格式其是所有形状因子（例如，反射折射的、折射的或多折射的）。在第3.2节中，我们考虑了一种更有效的表示，它提高了我们方法的计算效率SphereNet：在全向图像51 .一、570的情况。00-1。57-3。142- 157100001.5713. 142经度θ(a) 球体（b）等矩形图2：φ = 0（蓝色）和φ = 1时的核采样模式。2（红色）在球形（a）和等距矩形（b）表示。注意在φ = 1处的核的失真。2（b）。核形状被定义为使得其采样位置s（j，k）（对于3×3核，j，k∈ {−1，0，1}）与赤道处的等矩形图像的步长Δθ和Δφ对齐这确保了图像可以在没有插值的情况下以Π0采样s（0，0）=（0，0）（1）s（±1，0）=（±∆φ，0）（2）s（0，±1）=（0，±∆θ）（3）s（±1，±1）=（±∆φ，±∆θ）（4）这些滤波器位置在切平面Π0上的位置可以通过心轴投影[20]计算：cosφsin（θ−θΠ0）x（φ，θ）=sinφΠ0 sinφ+ cosφΠ0 cosφ cos（θ−θΠ0）y（φ，θ）=cosφΠ0sinφ−sinφΠ0cosφcos（θ−θΠ0）sinφΠ0 sinφ+ cosφΠ0 cosφcos（θ−θΠ0）（五）（六）对于采样模式s（j，k），这产生Π0上的以下核模式x（j，k）：x（0，0）=（0，0）（7）x（±1，0）=（±tan∆θ，0）（8）x（0，±1）=（0，±tan∆φ）（9）x（±1，±1）=（±tan∆θ，±sec∆θtan∆φ）（10）我们保持切线上的核形状固定。当在球体的不同位置sΠ=（φΠ，θΠ）处应用滤波器时，应用φ（x，y）=sin−1.cosν sinφ.Σ+ysinνcosφΠρΣ（十一）θ（x，y）=θΠ+tan−1xsinνρcosφcosν−ysinφsinν其中ρ=√x2+y2且ν=tan−1ρ。纬度φ6Benjamin Coors，Alexandru Paul Condurache，AndreasGeigerSphereNetCNN纬度φ1 .一、571. 570的情况。000. 00-1。57-3。142- 157100001.5713.142经度θ-1。57-3。142- 157100001.5713. 142经度θ(a) 左侧边界（b）顶部边界图3：采样位置。该图将SphereNet的采样位置（红色）与等角度图像边界处的常规CNN（蓝色）的采样位置进行了请注意，SphereNet内核如何在左图像边界（a）处自动包裹，同时正确表示极点（b）处的不连续性和失真因此，SphereNet保留了原始的球形图像连接性，该连接性在常规卷积神经网络中被丢弃，该卷积神经网络利用沿图像边界的零填充。卷积核的采样网格位置因此以与球体的切平面上的对象在从不同高度投影到等矩形图像表示时失真相同的方式图图2通过在两个不同海拔φ处可视化采样模式来演示这一概念。除了将失真不变性编码到卷积神经网络的滤波器中，SphereNet还使网络能够将其采样位置包裹在球体周围。由于SphereNet使用自定义采样位置对输入或中间特征图进行采样，因此允许过滤器跨图像边界对数据进行采样是直接的。这消除了当用常规卷积神经网络处理全向图像时存在的任何不连续性，并且改进了在等距矩形图像表示的侧面处分裂或定位成非常靠近极点的对象的3 .第三章。通过改变卷积核的采样位置，同时保持其大小不变，我们的模型还可以在不同的图像表示之间传输CNN模型。在我们的实验评估中，我们演示了如何在透视图像上训练的对象检测器可以成功地应用于全向的情况下。请注意，我们的方法可以用于将几乎任何现有的深度学习架构从透视图像调整到全向设置。一般来说，只要图像可以映射到单位球体，就可以应用我们的SphereNet框架这对于许多成像模型是真实的，范围从鱼眼4上的透视到全向模型。因此，SphereNet可以被视为常规CNN的泛化，它将摄像机几何结构编码到网络架构中。实施情况：由于采样位置根据以下几何形状固定：对于球面图像表示，它们可以在[4]虽然在某些情况下违反了单视点假设，但实际上偏差通常很小，并且在较大距离处可以忽略不计。SphereNetCNN纬度φSphereNet：在全向图像7网络的每一层。此外，它们的相对定位在每个图像行中是恒定的。因此，每行计算和存储一次采样位置并且然后转换它们就足够了。我们将采样位置存储在查找表中。这些查找表用于基于高度优化的通用矩阵乘法（GEMM）函数的定制卷积运算[13]。由于采样位置是实值的，因此需要对输入特征图进行插值。在我们的实验中，我们比较最近邻插值双线性插值。对于特征图f中的任意采样位置（px，py），插值被定义为：ΣHf（px，py）=nΣWf（m，n）g（px，m）g（py，n）（12）M使用双线性插值核：g（a，b）= max（0，1 - 1）|a − b|）（13）或最近邻核：g（a，b）= δ（a +0.其中δ（·）是Kroneck er delta函数。3.2均匀球面采样为了提高我们的方法的计算效率，我们调查了一个更有效的采样的球形图像。等矩形表示法对极区的球形图像进行了重复采样（见图1）。4a），这导致在该区域中的几乎重复的图像处理操作我们可以避免不必要的计算，在极区应用我们的方法表示数据存储均匀的球体上，在对比考虑的像素的等距矩形图像。为了从球体上均匀地采样点，我们利用Saff和Kuijlaars的方法[24] 因为其计算速度快且可与任意数量的采样点一起工作 N，包括大的N值。更具体地说，我们获得沿螺旋线的点，该螺旋线以这样的方式环绕球体，即沿螺旋线的相邻点之间的距离近似等于螺旋线的连续线圈之间的距离可视化的图 4对于具有Ne= 20 × 10 = 200个采样点的等矩形图像，这导致具有与赤道处的等矩形表示类似的采样密度的N = 127个点的采样网格，同时显著减少了采样网格的数量。在极点的采样点。为了尽量减少信息的损失时，采样的等距矩形图像，我们使用双线性插值。然后，图像由N×c矩阵表示，其中c是图像通道的数量。与等矩形格式不同，这种表示不再对每个数据点的空间位置进行因此，我们保存这个信息在一个单独的矩阵。该位置矩阵用于计算内核采样位置的查找表，如第3.1节所述。通过重新计算采样点的缩减集合来实现图像的下采样为了应用内核和下采样，使用图像最近邻插值。8Benjamin Coors，Alexandru Paul Condurache，AndreasGeiger1 .一、570的情况。00-1。57-3。142- 157100001.5713. 142经度θ(a) 等矩形球采样(b) 均匀球面采样.(c) 图像平面图4：均匀球体采样。球面上N=200个点的等矩形采样网格（a）与Saff和Kuijlaars [24]（b，c）方法在球面上均匀分布N=127个采样点的近似值的注意，与在这些区域中对图像进行过采样的等矩形表示（a）相比，在均匀球体采样（b）3.3球面图像分类SphereNet可以集成到卷积神经网络中，通过调整卷积和池化内核的采样位置进行图像分类，如第3.1节所述。此外，它是直接的，以额外利用一个统一的球体采样（见第3.2节），我们将比较最近的邻居和双线性插值的等距矩形表示在实验中。将SphereNet集成到图像分类网络中不会引入新的模型参数，并且不需要对网络的训练进行任何更改。3.4球形目标检测为了在球体上执行对象检测，我们提出了球形单镜头多盒检测器（Sphere-SSD），它将流行的单镜头多盒检测器（SSD）[17]适用于位于球体切平面上的对象。SSD利用完全卷积架构，预测不同尺度和纵横比的一组默认锚框的我们建议读者参考[17]以了解详细信息。与常规SSD中一样，Sphere-SSD使用定位损失与置信度损失之间的加权和然而，与原始SSD相比，锚框现在被放置在球体的切平面上，并且根据它们各自的切平面的球面坐标、切平面上的框的宽度/高度以及平面内旋转来定义在不同的比例和纵横比的锚箱的说明提供在图。五、为了将锚框与地面实况检测匹配，我们选择最接近每个地面实况框的锚在推理过程中，我们执行非最大值抑制。为了进行评估，我们使用Jaccard指数计算的两个多边形区域的重叠，这是从等距点沿矩形边界框的切面上的日心球投影构造。纬度φSphereNet：在全向图像91 .一、570的情况。00-1。57-3。142- 157100001.5713. 142经度θ(a) 球体（b）等矩形图5：球形锚框是各种尺度、纵横比和取向的2D边界框在球体的切平面上上图在球体（a）和等矩形网格（b）上的16 ×8特征图上以不同比例和纵横比可视化了相同方向的锚点4实验评价虽然本文的主要重点是在检测任务，我们首先验证我们的模型相对于几个现有的国家的最先进的方法，使用一个简单的全向MNIST分类任务。4.1分类：Omni-MNIST对于分类任务，我们创建了一个全向MNIST数据集（Omni-MNIST），其中MNIST数字被放置在图像球体的切平面上，并且以60 ×60像素的分辨率渲染场景的等角图像。我们比较我们的方法的性能，几个基线。首先，我们训练了一个在等距矩形图像上操作的常规卷积网络（EquirectCNN）以及在输入的立方体映射表示上操作的常规卷积网络（CubeMapCNN）。我们进一步改进了EquirectCNN模型，将其与球形变换器网络（SphereTN）相结合，该网络通过执行球体的全局旋转来学习图像的部分失真补充中提供了球形变压器网络的更深入描述。最后，我们还训练了Khasanova等人的图卷积网络。[14]和Cohen等人的球形卷积模型。[3]的文件。对于[3]，我们使用作者5发布的代码。由于[14]没有提供代码，我们基于Defferrard等人的代码重新实现了他们的模型[6]6.所有模型的网络架构都由卷积和最大池化两个模块组成，然后是一个全连接层。我们在第一层中使用32个过滤器，在第二层中使用64个过滤器，每一层后面都有一个ReLU激活。完全连接层具有10个输出神经元并且使用softmax激活函数。在CNN和SphereNet模型中，卷积滤波器内核的大小为5×5，并且以步长1应用。使用大小为3×3的内核和步长为2执行最大池化。球形Transformer网络使用相同的网络架构，但是用输出卷积层的卷积层替换全连接输出层。5https://github.com/jonas-koehler/s2cnn6https://github.com/mdeff/cnn图表纬度φ10Benjamin Coors，Alexandru Paul Condurache，AndreasGeiger表1：Omni-MNIST上的分类结果。全方向MNIST数据集上的性能比较。方法检测误差（%）参数数量GCNN [14]17.21282K个S2CNN [3]11.86十四万九千CubeMapCNN10.03十六万七千EquirectCNN9.61196K型EquirectCNN+SphereTN8.22291KSphereNet（统一）7.16144K个SphereNet（NN）7.03196K型SphereNet（BI）5.59196K型旋转的参数在应用Spherical Transformer的预测变换之后，变换后的输出然后被用作EquirectCNN模型的输入。类似地，图卷积基线（GCNN）使用各自具有多项式阶数25的32和64个滤波器的图卷积层，而球形CNN基线（S2 CNN）使用具有32个滤波器的S2-卷积层和具有64个滤波器的SO（3）如[3]中所建议的，S2CNN模型中的下采样以30、10、6的带宽实现。因此，所有模型都具有相当数量的可训练模型参数（参见表1）。此外，所有模型都使用Adam使用相同的训练参数进行训练，基本学习率为0。0001和大小为100的批次，用于100个时期。Omni-MNIST 上的结果：表 1 比较了 SphereNet 的性能，包括均匀球体采样（Uniform）、等距矩形图像中的最近邻插值（NN）和等距矩形图像中的双线性插值（BI）与基线方法。我们的研究结果表明，SphereNet的所有三个变体都优于所有基线。尽管有大量的模型参数，但图卷积（GCNN）模型很难解决Omni-MNIST分类任务。球面卷积（S2CNN）模型表现更好，但优于所有基于CNN的模型。对于基于CNN的模型，CubeMapCNN具有比EquirectCNN更高的测试误差当与球形Transformer网络（EquirectCNN+SpheretN）结合时，EquirectCNN的性能得到了提高，证明SpheretN能够支持分类任务。然而，它没有达到SphereNet的性能，因此证实了将失真不变性编码到网络架构本身中的有效性，而不是从数据中学习它对于SphereNet，均匀球体采样（Uniform）变体的性能与最近邻（NN）变体相似，这表明均匀采样球体的信息损失可以忽略不计。具有双线性插值（BI）的SphereNet总体表现最好，在所有基线上都有显著的改进。请参考补充资料，以进一步分析不同对象比例、对象高程和插值选择对每个模型性能的影响SphereNet：在全向图像11图6：FlyingCars数据集上的检测结果。地面实况显示为绿色，我们的SphereNet（NN）结果显示为红色。表2：FlyingCars数据集上的检测结果。所有模型都在FlyingCars数据集上进行了训练和测试。方法测试mAP（%）训练速度推断速度EquirectCNN+SphereTN38.913.0秒/步0.232秒/步EquirectCNN41.571.7秒/步0.091秒/步EquirectCNN++45.653.1秒/步0.175秒/步CubeMapCNN48.421.8秒/步0.095秒/步SphereNet（NN）50.182.1秒/步0.101秒/步4.2目标检测：FlyingCars我们现在考虑对象检测任务。由于缺乏合适的现有全向图像基准，我们创建了新的FlyingCars数据集。FlyingCars将全方位360°动作相机的真实背景图像与渲染的3D汽车模型相结合。对于3D汽车模型，我们从流行的ShapeNet数据集[2]中选择了50个汽车模型的子集，这些汽车模型以不同的海拔、距离和方向渲染到背景图像上。场景使用等矩形投影渲染到尺寸为512×256的图像，覆盖相机周围的完整360◦每个渲染的场景包含一到三辆汽车，这些汽车可能被部分遮挡。对象边界框被自动提取并由对象的切平面的纬度/经度坐标（φi，θi）所有地面实况坐标都归一化为[-1]的范围。0，1。0]。总的来说，数据集包括1000个测试和5000个训练每个图像具有多个对象，其中1，000个图像的子集被用作验证集对于这项任务，我们将SphereNet的最近邻变体（NN）集成到Sphere-SSD框架中（见第3.4节），因为它在计算之间取得了平衡。12Benjamin Coors，Alexandru Paul Condurache，AndreasGeiger效率和易于集成到对象检测模型中。由于图形和球形卷积基线不适用于对象检测任务，因此我们将SphereNet的性能与在立方体映射（Cube- MapCNN）和等矩形表示（ EquirectCNN ）上操作的 CNN 进行了比较。后者再次与球形Transformer网络（EquirectCNN+SphereTN）组合进行测试。在[30]之后，我们评估了一个版本的EquirectCNN，其中卷积核的大小朝着极点扩大，以近似等矩形图像中的对象失真（EquirectCNN++）。像[30]一样，我们将最大核维数限制为7×7。然而，与[30]不同的是，我们对具有相同维度过滤器的图像行保持权重绑定，从而减少了模型参数的数量特斯因此，我们能够定期训练网络，而无需像[30]中那样进行内核知识此外，当内核尺寸与预训练的网络架构中的内核匹配时，我们利用预训练的权重，因此并非所有模型参数都需要从头开始训练。作为特征提取器，所有模型都使用VGG-16网络[26]，该网络使用在ILSVRC-2012-CLS数据集[23]上预先训练的权重进行初始化。我们将最大池化内核的大小改为3×3，并使用ReLU激活，带权重的L24e-5和网络所有层的批量归一化附加卷积盒深度256、128、128、128的预测层被附加到层Conv 5 - 3。0级锚点。2比0。针对层conv4_3、conv5_3和框预测层生成95所有锚箱的纵横比固定为渲染的汽车（2：1）。完整的网络在Sphere-SSD框架中进行端到端训练，使用RMSProp优化器，批量大小为5，学习率为0。004.关于FlyingCars：表2呈现了在上的对象检测任务的结果。FlyingCars数据集经过50，000步的训练。按照通常的做法，我们使用的交集-并集（IoU）阈值为0。五是评价。同样，我们的结果表明，SphereNet优于基线方法。SphereNet模型的定性结果如图所示。六、与分类实验相比，球形Transformer网络（SphereTN）表现出较低的竞争性能，因为没有变换能够同时解释图像中的所有对象的不失真因此，它的表现优于EquirectCNN。当内核大小朝向极点扩大时，EquirectCNN模型的性能得到改善（EquirectCNN++），但所有EquirectCNN模型的性能都比在立方体映射表示上操作的CNN（Cube-MapCNN）差。与分类任务相比，CubeMapCNN性能提高的原因很可能是由于对象的相对大小较小，FlyingCars数据集中不太经常出现补丁边界处的除了准确性之外，对象检测器的另一个重要属性是其训练和推理速度。因此，表2另外列出了NVIDIA Tesla K20上的每个批次的训练时间这些数字显示了EquirectCNN和CubeMapCNN的相似运行时间。SphereNet的运行时开销很小，为1倍。一赔一2，而EquirectCNN++和EquirectCNN+SphereTN模型具有因子1的较大运行时开销。8、培训1。九比二五是推理。SphereNet：在全向图像13图 7 ： OmPaCa数据集上的检测结果。地面实况显示为绿色，我们的SphereNet（NN）结果显示为红色。表3：OmPaCa数据集上的迁移学习结果。我们将在KITTI数据集[7]的透视图像上训练的检测模型转移到全向表示，并在OmPaCa数据集上微调模型。方法检测mAP（%）CubeMapCNN 34.19EquirectCNN 43.43SphereNet（NN）49.734.3迁移学习：OmPaCa最后，我们考虑迁移学习任务，其中在透视数据集上训练的模型被转移到处理全向图像。对于这项任务，我们记录了一个新的现实世界的数据集的全向图像的真正的汽车与手持行动相机时代。在不同的高度和方向记录图像全向停放的汽车（OmPaCa）数据集由1，200张大小为512×256的标记图像组成，总共有50多种不同的汽车模型。数据集被分成200个测试实例和1000个训练实例，其中200个的子集用于验证。我们使用与第4.2节相同的检测架构和训练参数，但现在从KITTI数据集[7]上训练的SSD模型开始，将其转换为我们的Sphere-SSD框架，并在OmPaCa数据集上进行20 ， 000 次迭代微调在这个实验中，我们只比较了 EquirectCNN 和CubeMapCNN基线。EquirectCNN+SpheretN和EquirectCNN++都不是由于引入了新的模型参数，因此非常适合于迁移学习任务，所述新的模型参数不存在于透视检测模型中，因此需要从头开始训练。OmPaCa结果：我们在OmPaCa数据集上的迁移学习任务的结果如表3所示，表明SphereNet 优于两个基线。与 FlyingCars 数据集上的对象检测实验不同，CubeMapCNN14Benjamin Coors，Alexandru Paul Condurache，AndreasGeiger表现比EquirectCNN差近10%的大幅度，表明立方体图表示不太适合于将透视模型转移到全向图像。另一方面，SphereNet的性能比EquirectCNN好5%以上，这证实了SphereNet方法更适合将透视模型转移到全向情况。SphereNet模型的定性结果的选择在图中可视化7 .第一次会议。正如我们的实验所证明的那样，SphereNet模型能够检测球体上不同高度的汽车，包括由于输入图像中存在严重失真而导致常规卷积对象检测器失败的极地区域补充材料中提供了SphereNet和EquirectCNN模型之间针对位于极地区域的对象的几个5结论和未来工作我们介绍了SphereNet ，这是一个使用360英寸摄像头进行深度学习的框架SphereNet将2D卷积神经网络提升到单位球体的表面通过直接在球体表面上应用将卷积滤波器包裹在球体周围进一步避免了等距矩形投影的边界或极点处的不连续性。通过更新卷积滤波器的采样位置，我们可以轻松地转移透视CNN模型来处理全向输入。我们的实验表明，所提出的方法改进，证明了各种强基线在全向图像分类和目标检测。我们预计，随着全向传感器在消费者市场（例如，运动摄像机）以及在工业中（例如，自动驾驶汽车、虚拟现实），在不久的将来，对用于全向图像的专用模型（例如SphereNet）的需求将增加。因此，我们计划利用我们的框架的灵活性，将其应用到其他相关的计算机视觉任务，包括语义（实例）分割，光流和场景流估计，单图像深度预测和多视图三维重建在未来。引用1. Bruna，J.，Mallat，S.：不变散射卷积网络。IEEE Trans.on Pattern Analysis andMachine Intelligence（PAMI）35（8），18722. Chang，A.X.，Funkhouser，T.A.，Guibas，L.J.，Hanrahan，P.黄，Q，Li，Z.，Savarese，S.，Savva，M.，Song，S.，Su，H.，肖，J.，Yi，L.，Yu，F.：Shapenet：一个信息丰富的3D模型存储库。arXiv.org1512.03012（2015）113. Cohen，T. S.，Geiger，M.，Kohler，J.，Welling，M.：球形CNN。在：国际会议-关于学习表征的研究（2018）3，9，104. Cohen，T.S.，Welling，M.：分组等变卷积网络。在：Proc.的国际会议。关于机器学习（ICML）（2016）2，45. Dai，J.，Qi，H.，Xiong，Y.，李，Y.，张，G.，Hu，H.，魏云：可变形卷积网络。IEEE International Conf.计算机视觉（ICCV）1703.06211（2017）4SphereNet：在全向图像156. Defferrard，M.，Bresson，X.，Vandergheynst，P.：具有快速局部谱滤波的图上卷积神经网络。在：神经信息处理系统（NIPS）的进展（2016）97. Geiger，A.，Lenz，P.乌尔塔松河：我们准备好自动驾驶了吗？KITTI视觉基准测试套件。In：Proc.IEEE会议计算机视觉和模式识别（CVPR）（2012）8. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：Proc. IEEEConf.计算机视觉和模式识别（CVPR）（2016）49. Henriques，J.F.，Vedaldi，A.：Warped convolutions：空间变换的有效不变性。在：国际会议的程序。关于机器学习（ICML）（2017）410. Hu，H.N.，Lin，Y.C.，Liu，M.Y.程H. TChang，Y.J.，孙，M.：Deep 360 pilot：学习深度代理，用于通过360◦体育视频进行试点。In：Proc. IEEE Conf.计算机视觉和模式识别（CVPR）（2017）111. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，Kavukcuoglu，K.：空间Transformer网络。神经信息处理系统进展（NIPS）（2015）12. Jeon，Y.，Kim，J.：活动卷积：学习卷积的形状用于图像分类。In：Proc. IEEEConf.计算机视觉与模式识别（CVPR）（2017）13. 贾 Y ：大规模学习语义图像表示博士 thesis ， EECS Department ， University ofCalifornia，Berkeley（May2014），http://www2.eecs.berkeley.edu/Pubs/TechRpts/2014/EECS-2014-93.html714. Khasanova河Frossard，P.：全方位图像的基于图的分类IEEE International Conf.关于计算机视觉（ICCV）研讨会（2017）3，9，1015. Khasanova河Frossard，P.：基于图的等距不变表示学习。在：国际会议的程序。关于机器学习（ICML）（2017）316. Lai，W.，黄，Y.，Joshi，N.，比勒角杨，M.，Kang，S.B.：从360度视频语义驱动生成hyperlapse（2017）117. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.E.，Fu，C.，Berg，A.C.：SSD：单次触发多盒探测器。In：Proc.欧洲会议。关于计算机视觉（ECCV）（2016）818. 妈，杰，王伟，Wang，L.：不规则卷积神经网络（2017）419. 蒙罗伊河Lutz，S.，Chalasani，T.，Smolic，A.：Salnet360：使用cnn的全方位图像的显着性图。在：ICME（2017）320. Pearson，F.：地图投影：理论与应用。02 TheDog（1990）21. 兰湖张玉，张，Q，Yang，T.：基于卷积神经网络的机器人导航使用未校准的球面图像。传感器17（6）（2017）122. Ruder，M.，Dosovitskiy，A.，Brox，T.：视频和球形图像的艺术风格转移arXiv.orgabs/1708.04538（2017）323. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A. Bernstein，M. Berg，A.C.，李菲菲：图像网大规模视觉识别挑战。International Journal of Computer Vision（IJCV）（2015）1224. Saff，E.B.，Kuijlaars，A.B.J.：在一个球面上分布许多点。The Mathematical Intel-lige

下载后可阅读完整内容，剩余1页未读，立即下载