全方位球面多面体CNN表示方法

184 浏览量更新于2023-10-18 收藏 13.86MB PDF 举报

卷积神经网络

图像处理技术

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

91810SpherePHD：在360°球面多面体表示上应用CNN0图像0Yeonkun Lee �，Jaeseok Jeong �，Jongseob Yun �，Wonjune Cho �，Kuk-Jin Yoon韩国KAIST大学机械工程系视觉智能实验室0{dldusrjs，jason.jeong，jseob，wonjune，kjyoon}@kaist.ac.kr0摘要0与传统相机相比，全方位摄像机具有许多优势，因为它们具有更宽的视场。因此，最近提出了几种方法将卷积神经网络（CNN）应用于全方位图像以解决各种视觉任务。然而，它们大多数在将全方位视图转换为欧几里得空间中的图像表示之后使用。这种转换会导致形状失真，由于非均匀的空间分辨能力和连续性的丧失。这些效应使得现有的卷积核在提取有意义的信息时遇到困难。本文提出了一种解决将CNN应用于全方位图像的问题的新方法。所提出的方法利用球面多面体来表示全方位视图。该方法最小化了球面表面上空间分辨能力的方差，并包括了适用于所提出的表示的新的卷积和池化方法。所提出的方法也可以被任何现有的基于CNN的方法采用。通过使用合成和真实数据集进行分类、检测和语义分割任务，证明了所提出方法的可行性。01. 引言0360°相机与传统相机相比具有许多优势，因为它们提供了一个全方位的场景视图，而不是一个狭窄的视场。这种360°相机的全方位视图1允许我们一次从场景中提取更多的信息。因此，360°相机在需要丰富环境信息的系统中起着重要作用，例如先进的驾驶员辅助系统（ADAS）和自主机器人技术。与此同时，卷积神经网络（CNN）已经0� 这些作者对本文的贡献相同。1本文中的“360°”和“全方位”是可以互换使用的。0图1.ERP图像中由于非均匀空间分辨能力引起的空间失真。两侧的黄色方块表示球面上相同的表面积。0广泛应用于许多视觉任务以保留局部信息。它们在分类、检测和语义分割问题上表现出色，如[9] [12] [13] [15][16]所示。沿着这一趋势，最近提出了几种方法将CNN应用于全方位图像以解决分类、检测和语义分割问题。由于神经网络的输入数据通常在欧几里得空间中表示，因此它们需要将全方位图像表示为欧几里得空间中的图像，即使全方位图像最初是用非欧几里得极坐标表示的。尽管全方位图像存在于非欧几里得空间中，但等距矩形投影（ERP）通常用于在规则网格中表示全方位图像。然而，ERP图像中存在空间失真，这是由于变换的非线性引起的非均匀空间分辨能力造成的，如图1所示。这种效应在极点附近更为严重。此外，当全方位图像由倾斜的360°相机拍摄时，观察到一种不同类型的失真。在这种情况下，如果不对相机的倾斜角进行补偿，ERP会引入地平线的正弦波波动，如图2所示。这也会使图像失真，使视觉感知任务变得更加困难。在传统的2D图像中，沿着垂直和水平方向的规则网格使卷积域保持均匀；均匀的域使得卷积核具有相同的形状91820图2.使用ERP图像的问题。（左）当倾斜相机拍摄全方位图像时，ERP图像中的地平线会出现正弦波状的波动。黄色虚线表示波动的地平线[2]。（右）当汽车被分割时，汽车被检测为具有两个不同ID的汽车。这张图片来自SUN360数据集[23]，展示了边缘不连续性的影响。0卷积核可以应用于整个图像。然而，在ERP图像中，空间分辨能力不均匀，如图1和图2（左）所示，导致卷积域在ERP图像上变化，使得相同形状的卷积核不适用于ERP图像卷积。此外，在从非欧几里得空间到欧几里得空间的转换过程中，可能会丢失一些重要的属性。例如，形成全方位图像的非欧几里得空间具有循环性质：沿着球面表面的单向平移（即在全方位图像中）始终是连续的，并最终返回到起始点。然而，在通过ERP从非欧几里得空间到欧几里得空间的转换过程中，连续性和循环性质被丢失。这导致了ERP图像边界处的不连续性。当对象被边界分割时，不连续性可能会导致检测问题中的单个对象被错误地解释为两个不同的对象，如图2（右）所示。最近，有人尝试通过将图像投影到立方体贴图上来保持全方位图像的连续性[14]。将全方位图像投影到立方体贴图上的好处是，与ERP图像相比，图像的空间分辨能力变化较小。此外，立方体贴图表示受旋转的影响较小。然而，即使立方体贴图表示减少了空间分辨能力的方差，仍然存在从立方体面的中心到其边缘的方差。此外，当将立方体贴图表示应用于CNN时，卷积核方向的歧义性存在。因为立方体贴图的顶部和底部面与其他面正交，所以在提取顶部和底部面上的均匀局部性信息时，卷积核方向的定义是模糊的。这些缺陷的影响在第4节中展示。在本文中，我们提出了一种新的360°图像表示方法，该方法首先将图像转换为球面多面体投影，然后使用新的卷积和池化方法将CNN应用于360°图像。为了减少360°图像表示中空间分辨能力的方差，我们提出了0图像，然后提出了一种新的卷积和池化方法，将CNN应用于基于所提出表示的360°图像。为了减少360°图像表示中空间分辨能力的方差，我们提出了0使用基于球面多面体的图像表示（SpherePHD）。利用由二十面体正二十面体构成的SpherePHD的特性，我们提出了一种几何形状，可以在其上投影360°图像。所提出的投影结果比其他方法具有更小的空间分辨能力和畸变方差。此外，球面几何的旋转对称性使得图像处理算法具有旋转不变性。最后，球面多面体提供了连续性属性；图像不会出现不连续的边界。这种特殊的表示旨在解决使用ERP和立方体映射表示时遇到的问题。本文的贡献还包括设计卷积核并使用特定的方法将卷积和池化核应用于所提出的球面多面体图像表示的CNN中。为了证明所提出的方法优于ERP和立方体映射表示，我们比较了不同表示的分类、检测和语义分割准确性。为了进行比较实验，我们还通过对原始数据集进行球面多面体投影，创建了球形MNIST数据集[7]、球形SYNTHIA数据集[17]和球形Stanford2D3D数据集[1]。我们的方法的源代码可在https://github.com/KAIST-vilab/SpherPHD_public上获得。02. 相关工作0在本节中，我们讨论了关于全向图像上CNN的相关研究。02.1. 基于ERP的方法0如前所述，ERP图像有一些缺陷：非均匀的空间分辨能力会带来失真效果、旋转约束和边界处的不连续性。Yang等人[22]比较了将ERP图像直接作为输入的不同检测算法的结果，结果显示不解决失真问题仍然会产生相关的准确性。其他论文提出了纠正基于ERP的方法的缺陷的方法。为了解决非均匀分辨能力的问题，Coors等人[6]提出了从ERP图像中采样像素的方法，采样率取决于纬度，以保持均匀的空间分辨能力并在每个核中保持卷积域的一致性。Hu等人[8]和Su和Grauman[19]将全向图像分割成子图像并生成正常视野（NFoV）图像；在分割阶段，他们还减少了ERP图像中的失真效果。Lai等人[10]和Su等人[20]从全向图像中生成显著性图，并从高显著性区域提取特定的NFoV图像。使用NFoV图像采样通过解决失真问题提高了准确性，但从全向图像中提取NFoV图像是一种方法。Amean =N��N�i=1(Ai)(1)di = log(�� 1NN�i=1d2i .(3)91830图3.立方体填充[4]。立方体填充允许每个面的感受野延伸到相邻的面。0利用全向图像的整个全向视图进行视觉处理并不能像利用全向图像的整个全向视图那样有益。为了利用全向图像的整个全向视图并解决畸变问题，Su和Grauman[18]以及Tateno等人[21]在全向图像的每个纬度上使用畸变感知核来考虑分辨能力变化。为了解决由于相机倾斜而引起的畸变问题，Bourke[2]提出了一种后处理ERP图像的方法，但这需要相机方向的知识。我们的方法替代了基于ERP的表示方法，以解决由ERP图像引起的畸变问题。02.2. 360°图像的其他表示方法0作为表示球面几何的一种方法，已经提出了几种方法将全向图像投影到一个立方体上生成立方体贴图。[14]中的方法利用立方体贴图生成全向图像的显著性图。作为[14]的扩展，程等人[4]提出了在每个面上填充来自切线面的像素的方法，以考虑来自所有切线面的信息并在边缘上进行卷积。图3显示了这种立方体填充方法的示例。利用全向图像的立方体贴图投影解决了基于ERP的方法面临的许多问题。然而，在立方体贴图表示中，立方体面的中心和边缘之间仍然存在明显的空间分辨能力差异。为了解决这种空间分辨能力差异，Brown[3]提出了等角立方体（EAC）投影，改变了全向视图被采样到立方体上的方法。Cohen等人[5]建议将域空间从欧几里得S2空间转换为SO（3）三维旋转群，以减少ERP表示的负面影响。与前述方法相比，我们的方法进一步减小了空间分辨能力的差异，同时无需转换为非空间域。02.3. 地理学中的表示方法0在地理地图投影中，全向图像的投影也是一个众所周知的问题。在历史上，已经提出了无数的地图投影方法。0上述提到的一些表示方法是不同地图投影方法的示例：Yang等人[22]的工作类似于墨卡托方法，Coors等人[6]的工作类似于Hammer方法。我们在本文中提出的方法类似于Dymaxion地图投影方法。03. 提出的方法0为了获得全方位图像的新表示，我们将全方位图像投影到一个二十面体球面多面体上。投影后，我们将变换后的图像应用于CNN结构。与使用ERP或其他表示相比，使用我们的表示的优势在于输入图像的不规则性要小得多。03.1. 不规则性的定义0为了讨论全方位图像表示的不规则性，我们需要定义一个定量的不规则性度量。为此，我们首先将给定表示（即ERP、立方体映射）中像素的有效面积定义为像素投影到单位球面时的相应面积。然后，可以通过像素的有效面积的变化来衡量全方位图像表示的不规则性。为了比较不同表示的不规则性，我们将给定表示中所有像素的平均有效面积定义为它们的几何平均值，如公式（1）所示，其中N是像素的总数，Ai是第i个像素的有效面积。0像素。0然后，我们将第i个像素的不规则性di定义为其个体像素面积与平均面积的对数比例，如公式（2）所示。0平均值 ) (2)0通过将平均面积定义为几何平均值，不规则性的对数比例总和始终为零（� N i =1 d i =0）。这是不规则性值的期望行为，因为它衡量了每个个体像素的有效面积与像素的平均有效面积之间的偏差程度。然后，我们将每个表示的整体不规则性得分定义为不规则性值的均方根，如下所示：0不规则性得分 =divisions of triangles will be referred to as the nth sub-division where n refers to the number of times the trian-gles have been subdivided. After creating the subdividedicosahedron, we extrude the newly created vertices from thesubdivision onto a sphere, creating a geodesic icosahedron(Note that the original vertices of the icosahedron alreadylie on a sphere). We can then create a spherical polyhe-dron through tessellation of this geodesic icosahedron ontoa sphere. A spherical polyhedron3 constructed from a regu-lar convex icosahedron has a smaller irregularity score thanthe cubical spherical polyhedron2.Ultimately, we use this SpherePHD to represent omni-directional images. To do so, we take an omni-directionalimage and project it onto the SpherePHD representation. Inthis projection, the omni-directional images are representedby the individual triangles tessellated on the SpherePHD.Our SpherePHD representation results in much less vari-ance of effective pixel areas compared with the cube maprepresentation. The minimal variance of effective pixel ar-eas would mean that our representation has less variance inresolving power than the cube representation, which has alower irregularity score.Because the SpherePHD is made from a rotationallysymmetric icosahedron, the resulting SpherePHD also hasrotationally symmetric properties. In addition, as the pro-jection is a linear transformation, our method does not haveany sinusoidal ﬂuctuation effects like those seen in the ERPrepresentation, making our representation more robust torotation.91840图4.第三次细分规则凸多面体上的像素面积：四面体、立方体、八面体和二十面体。像素面积的方差随着更均等的面区域而减小。03.2. 球面多面体0球面多面体是通过弧线将球体划分为有界区域的一种方式，有许多不同的方法可以构造这样的球面多面体。前面提到的立方体映射表示可以看作是将全方位图像投影到球面多面体上的一个例子。立方体映射表示将球体分割成6个等面区域，创建一个立方体球面多面体；这6个区域中的每一个代表一个立方体的面。类似地，我们可以将这种表示应用于其他规则多面体，以创建一个被分割成更多等面区域的球面多面体。在立方体映射表示中，立方体的正方形被细分为更小的正方形，以表示立方体映射中的像素。立方体映射表示的不规则性发生在我们从立方体创建立方体球面多面体时：立方体映射中的像素在立方体球面多面体上对应于不同的区域，具体取决于像素在立方体映射中的位置。在这里，立方体球面多面体的不规则性得分在细分2的早期阶段收敛，当立方体上的正方形进一步细分为更小的正方形时。这意味着球面多面体的不规则性得分更大程度上取决于用于构造球面多面体的固有几何形状，而不是规则凸多面体面细分的数量。这表明，具有更多面的规则凸多面体在细分和转化为球面多面体时的不规则性要低得多：因此我们使用具有最多面的规则多面体，即二十面体。我们可以在图4中直观地比较方差。03.3.SpherePHD：二十面体球面多面体表示02不规则性表格包含在补充材料中03.4.SpherePHD卷积和池化0传统的CNN通过在图像上应用卷积核心，在每个层上计算特征图。为了将CNN应用于SpherePHD，需要设计满足以下特定条件的特殊卷积和池化核心：1.卷积核心应适用于SpherePHD中表示的所有像素。02.卷积核心应将感兴趣的像素放在中心。卷积的输出应保持每个像素及其邻居的局部信息，不带有偏差。03.卷积核心应考虑到相邻的三角形处于不同的方向。04.池化核心应将图像从SpherePHD的高细分降采样到低细分。0为了满足第一个条件，我们的核心需要是三角形的集合，因为我们的SpherePHD具有三角形像素。03本文中提到的球面多面体将特指通过一个球形正二十面体构造的二十面体球面多面体（SpherePHD），除非另有说明。91850图5.从左到右：提议的池化核心形状，应用于相邻三角形的相同池化核心，提议的卷积核心形状，应用于相邻三角形的相同卷积核心，以及正二十面体的12个原始顶点上的卷积核心（为了更好地理解，请参见图6中的黄色核心）。0我们的核心也必须适用于与5个三角形相连的12个顶点，同时仍然适用于与6个三角形相连的所有其他顶点。因此，核心的顶点不应连接到超过5个三角形；如果顶点连接到超过5个三角形，这些顶点将无法与连接到原始二十面体顶点的12个三角形进行卷积。为了满足第二个条件，正在进行卷积的三角形像素应位于核心的中心。如果不是这样，对于感兴趣的像素的卷积输出将被分配给其相邻的像素，导致给定像素的移位。在球面上，当发生这种分配时，所有卷积输出的移位方向都会发生变化，导致卷积输出混乱。关于第三个条件，由于我们的SpherePHD中相邻的三角形像素方向不同，我们必须设计一个可以应用于各自方向的每个三角形的核心。对于最后一个条件，池化核心可以被设计成使第n个细分多面体可以被降采样为第(n-1)个细分多面体。为了设计这样的池化核心，我们反转了细分形成的方法。在池化阶段，池化核心取决于三角形在构建过程中的细分方式。例如，如果我们将一个三角形细分为n^2个较小的三角形，我们可以使用一个池化核心，将这n^2个较小的三角形合并为一个较大的三角形。然而，为了简单起见，我们将一个三角形细分为4个(2^2)个较小的三角形。我们的卷积核心和池化核心满足上述条件，如图5所示。这些核心以相同的方式应用于SpherePHD表示的每个像素。图6显示了如何将所提出的核心应用于SpherePHD表示。03.5. 内核权重分配0与矩形图像不同，全方位图像没有明确的参考方向，因此内核的方向变得模糊不清。为了解决这个模糊性，我们将SpherePHD的12个顶点中的2个设置为北极和南极，并使用这些极点来定义像素的方向为向上或向下。0图6.内核应用于SpherePHD表示的可视化。黄色内核表示内核位于二十面体的顶点处的情况。紫色内核表示内核位于极点处的情况。0南极，并使用极点来定义所有像素的方向为向上或向下。我们使用两种共享相同权重的内核形状来表示向上和向下的像素。此外，内核权重的顺序被配置为两个内核彼此的180°旋转。预期所提出的内核可以学习到180°0具有旋转不变性的特性，使得内核对旋转环境更加稳健。我们在第4.1节中展示了我们的内核设计的可行性，与其他非旋转内核分配方法相比较我们的内核权重分配的性能。03.6. CNN实现0利用我们在第3.3节中介绍的SpherePHD表示0根据第3.4节中的SpherePHD表示和我们的卷积核，我们提出了一种用于全方位图像的CNN。我们使用已经存在于开源深度学习库中的传统CNN实现来实现我们的方法。由于SpherePHD表示和我们的卷积核，卷积层在不填充的情况下保持图像尺寸不变。此外，池化层的细分比上一层少一个。换句话说，第n个细分的SpherePHD在经过池化层后变成第(n-1)个细分的SpherePHD。根据所需输出的维度，我们可以调整细分的数量。卷积层：为了使用传统的2维卷积方法在SpherePHD中实现卷积层，我们首先生成表示每个细分像素位置的位置索引。使用给定细分的索引，我们将SpherePHD图像表示为2维张量（与传统图像的3维张量相反）。然后，我们在另一个维度中堆叠n个相邻像素的索引，并将相应的像素值映射到堆叠的索引中（有关我们的堆叠方法的详细信息，请参考MATLAB中的“im2col”函数）。这样可以得到3维张量，其中一个维度填充了图像的n个相邻像素值。通过这种表示，我们可以使用大小为1×n的传统2维卷积核进行卷积。这实际上模拟了在球面上使用大小为n的卷积核进行卷积。卷积的输出是2维张量的91860图7. 我们提出的卷积和池化方法的张量实现。0具有与之前相同细分的SpherePHD图像。池化层的实现与卷积层非常相似，我们使用相同的方法堆叠相邻像素。对于第n个细分的图像，我们获取池化后的值在结果中的位置的像素索引，该结果是第(n-1)个0细分图像。然后，我们堆叠相邻像素的索引，并将相应的像素值映射到这些索引上。之后，对堆叠的值应用所需的池化操作（例如最大值、最小值、平均值）。池化的输出是第(n-1)个0SpherePHD图像的细分。图7显示了卷积（上）和池化（下）的图形表示。04. 实验0我们在三个任务上测试了我们的方法的可行性：分类、目标检测和语义分割。我们将分类性能与MNIST[7]图像进行了比较，这些图像被投影到具有随机位置和随机方向的SpherePHD、立方体贴图和ERP表示上。我们还评估了在SYNTHIA序列数据集[17]上进行的目标检测和语义分割性能，该数据集被转换为具有随机倾斜的上述表示。此外，我们还评估了在Stanford2D3D数据集上的语义分割性能，以检查在真实数据上的可行性。04.1. MNIST分类0数据集我们通过将70k原始MNIST图像投影到SpherePHD、立方体映射和ERP表示上，并随机选择位置和随机方向，制作了三种类型的球形MNIST数据集，如图8所示。0图8.从左到右：ERP、立方体映射、SpherePHD表示的MNIST图像。这些是三种不同类型的输入图像。所有图像都代表MNIST数字5。0通过随机改变投影的位置和方向，将训练和测试图像的数量从60k和10k增加到1200k和700k。我们确定SpherPHD的图像大小为3倍的细分大小，即1×1280（=20×43），以保持与28×28原始MNIST图像相似的分辨率。为了保持所有数据集的分辨率一致，根据SpherPHD图像赤道上的像素数量调整了立方体映射和ERP表示的大小。通过将立方体映射图像的大小配置为6×20×20像素和ERP图像的大小配置为40×80像素，所有数据集赤道上的像素数量变得相等。实现细节我们为所有三个数据集设计了一个单一的全卷积结构的神经网络。换句话说，我们使用相同的结构，但根据输入表示的类型改变了卷积和池化方法。为了比较具有相同结构和相同参数规模的网络的性能，我们使用全局平均池化层代替全连接层进行分类任务，受NiN[11]的启发。由于完全卷积网络结构，网络的参数规模仅取决于内核大小，而与输入图像大小无关。我们还通过在我们的方法上使用10×1内核（如图5所示），而在其他方法上使用3×3内核，将内核大小之间的差异最小化。实验中使用的网络有两对卷积和最大池化层，后面是一对卷积和全局平均池化层。结果为了了解我们在每个图像表示上定义的不规则性的影响，我们根据MNIST数字在纬度和经度上的位置测量了表示的性能，如图9所示。在纬度方向的结果中，我们可以看到我们的方法给出了相对均匀的准确性，尽管在-90°和90°附近的准确性略有下降。这个结果与SpherPHD的不规则性变化相对较小的变化一致，如图10所示。立方体映射和ERP表示的结果也遵循不规则性的变化。不规则性变化较大的区域（例如边缘和顶点）与准确性下降的区域相匹配。在经度方向的结果中，我们也可以看到相同的趋势，但ERP表示的结果显示了额外的准确性下降，原因是SpherePHD616,920700,00088.13ERP528,577700,00075.5191870图9.700k个测试图像的MNIST分类准确率沿纬度和经度。沿纬度和经度的样本数量遵循均匀分布。这些结果与沿纬度和经度的不规则性值的分布高度相关，如图10所示。0图10.在球面表面上定义的不规则性值的分布。红色十字标记表示球面表面上的点（纬度，经度）=（0,0）。每个表示的颜色表示不规则性的相对尺度。0表1. 三种方法的MNIST分类结果0正确预测测试集大小准确率（%）0立方体填充 521,937 700,000 74.560图11. 使用不同核函数的MNIST分类结果0图像边界的不连续性。表1显示了所有表示的整体平均准确率。此外，图11显示了我们的核权重分配与其他非旋转核分配的性能比较，表明了我们在第3.5节中描述的核设计的有效性。04.2. SYNTHIA车辆检测0数据集SYNTHIA是一个虚拟道路驾驶图像数据集[17]。每个序列包括驾驶车辆的前、右、左和后方NFoV图像，以及每个场景中每个对象的地面真值标签。由于四个方向的相机中心在给定时刻是相同的，我们可以为场景创建一个360°图像。我们将场景投影到SpherePHD、立方体映射和ERP表示中。我们进行了两个不同的实验。0检测任务的两个版本。一个是无旋转版本，其中SYNTHIA图像在没有旋转的情况下投影。另一个是旋转版本，通过将图像旋转360°创建。0SYNTHIA图像以随机方向进行旋转。实现细节我们使用SpherePHD、立方体映射和ERP表示进行车辆检测测试。为了公平比较表示的检测准确率，我们使用了相似的CNN架构，具有相同的参数规模（基于YOLO架构[15]），具有相同数量的层。为了检测360°图像中各种方向的对象，我们使用了边界圆而不是边界框。结果如表2所示，当360°图像（18k训练和4.5k测试）没有倾斜时，车辆主要位于赤道附近，ERP表示的准确性高于我们的表示。原因是在这种情况下，赤道附近目标对象的形状畸变可以忽略不计。然而，当360°图像（180k训练和45k测试）倾斜时，SpherePHD的效果更好，而ERP表示的性能严重下降。即使数据增强通常会提高网络的性能，ERP表示的检测准确率却相反下降。此外，立方体映射表示的检测准确率低于我们的表示，因为立方体映射在立方体映射的顶部和底部面上具有核方向的不连续性。图12显示了一些检测结果。04.3. 语义分割0数据集我们使用了Stanford2D3D真实室内场景数据集[1]，以及SYNTHIA驾驶序列数据集[17]。SYNTHIA和Stanford2D3D数据集分别具有16和39个语义标签类别，并转换为SpherePHD、立方体映射和ERP表示。如第4.2节所述，我们还通过随机倾斜相机来增加数据集的大小。实现细节我们为两个数据集设计了一个基于CNN的自编码器结构的神经网络。我们保持了所有360°图像表示的参数规模一致。在许多种unpooling方法中，我们选择了解码器的最大unpooling方法。SpherePHD的最大unpooling层利用了我们的池化层中使用的索引，以获得更高的细分SpherePHD。结果语义分割使用的评估指标是类别准确率的平均值和整体像素准确率。我们评估了这两个指标，因为整体像素准确率不一定反映出只有少数像素的类别的准确性；当像墙和地板这样占据大部分像素的类别具有较高的准确性时，整体准确性可能会有所偏差。因此，我们还评估了类别准确率的平均值。表3显示了量化结果。91880图12.SYNTHIA数据集的车辆检测结果。从上到下分别是SpherePHD、立方体映射和ERP表示的结果。红色圆圈是预测的边界圆，蓝色圆圈是真实的边界圆。这些图像是旋转增强集中的测试样本。0表2. 三种不同图像表示的检测平均精度（AP）（%）0SpherePHD ERP 立方体映射0SYNTHIA 43.00 56.04 30.130SYNTHIA（旋转增强）64.52 39.87 26.030语义分割实验。对于这两个数据集，我们的SpherPHD方法优于其他方法。尽管由于Stanford2D3D数据集中类别数量更多和真实世界数据中的噪声，Stanford2D3D数据集的准确性远远低于SYNTHIA数据集的准确性，但我们的方法仍然保持着比其他方法更高的准确性，并且差距很大。图13显示了不同表示方法的语义分割结果。05. 结论0尽管360°图像具有许多优势，但由于以下原因，CNN尚未成功应用于360°图像：0图13.Stanford2D3D数据集的语义分割结果。从上到下：SpherePHD、立方体映射和ERP表示的结果。从左到右：输入图像、网络输出和真实值。0表3.三种不同图像表示的类别准确率和整体像素准确率的平均值（%）0SpherePHD ERP 立方体映射0每类整体每类整体每类整体0SYNTHIA 70.08 97.20 62.69 95.07 36.07 66.040Stanford2D3D（真实数据集）26.40 51.40 17.97 35.02 17.42 32.380由于非均匀分辨率和不同表示方法图像边界的不连续性，会导致形状失真。为了解决这些问题，我们提出了一种新的360°图像表示方法，SpherePHD。所提出的表示方法基于一个二十面体导出的球形多面体，比ERP和立方体映射表示方法具有更少的不规则性。我们还提出了自己的卷积和池化方法，以在SpherePHD表示上应用CNN，并提供了这些实现的详细信息，这使得可以将SpherePHD表示应用于现有的基于CNN的网络。最后，我们通过使用MNIST、SYNTHIA和Stanford2D3D数据集进行分类、检测和语义分割任务来证明了所提出方法的可行性。0致谢0这项工作得到了三星电子的三星研究资助中心项目编号SRFC-TC1603-05和韩国政府（MSIT）资助的韩国国家研究基金会（NRF）的资助（NRF-2018R1A2B3008640）。91890参考文献0[1] I. Armeni, A. Sax, A. R. Zamir, and S. Savarese.室内场景理解的联合2D-3D-语义数据. ArXiv电子打印,2017年2月. 2, 70[2] P. Bourke. 将等距投影图像转换为另一个等距投影图像.http://paulbourke. net/miscellaneous/sphere2sphere/, 2017.2, 30[3] C. Brown. 在VR视频中将像素置于前台. https://blog.google/products/google-ar-vr/bringing-pixels-front-and-center-vr-video/, 2017. 30[4] H.-T. Cheng, C.-H. Chao, J.-D. Dong, H.-K. Wen, T.-L. Liu,and M. Sun.用于360°视频中弱监督显著性预测的立方体填充方法.在计算机视觉与模式识别（CVPR）IEEE会议上, 2018年6月. 30[5] T. S. Cohen, M. Geiger, J. K¨ohler, and M. Welling.球面CNN. 在arXiv预印本arXiv:1801.10130, 2018. 30[6] B. Coors, A. Paul Condurache, and A. Geiger. SphereNet:学习用于检测和分类的球面表示.在欧洲计算机视觉会议（ECCV）上, 2018年9月. 2, 30[7] L. Deng.用于机器学习研究的手写数字图像MNIST数据库[最佳网络资源].IEEE信号处理杂志, 29(6):141–142, 2012. 2, 60[8] H.-N. Hu，Y.-C. Lin，M.-Y. Liu，H.-T. Cheng，Y.-J.Chang和M. Sun. Deep 360pilot：学习通过360度体育视频驾驶的深度代理。在CVPR会议上，第1396-1405页，2017年。20[9] A. Krizhevsky，I. Sutskever和G. E. Hinton.使用深度卷积神经网络的Imagenet分类。在F. Pereira，C. J. C.Burges，L. Bottou和K. Q.Weinberger（编辑）的《神经信息处理系统进展》第25卷，第1097-1105页。Curran Associates，Inc.，2012年。10[10] W.-S. Lai，Y. Huang，N. Joshi，C. Buehler，M.-H.Yang和S. B. Kang.从360度视频中基于语义的超时速生成。IEEE可视化和计算机图形学交易，24（9）：2610-2621，2018年。20[11] M. Lin，Q. Chen和S. Yan.网络中的网络。arXiv预印本arXiv:1312.4400，2013年。60[12] J. Long，E. Shelhamer和T. Darrell.全卷积网络用于语义分割。CoRR，abs/1411.4038，2014年。10[13] D. Maturana和S. Scherer.Voxnet：用于实时物体识别的3D卷积神经网络。在2015年IEEE/RSJ国际智能机器人和系统会议上，第922-928页，9月。10[14] R. Monroy，S. Lutz，T. Chalasani和A. Smolic.Salnet360：用于全方位图像的CNN显著性图。信号处理：图像通信，2018年。2，30[15] J. Redmon，S. Divvala，R. Girshick和A. Farhadi.你只需要看一次：统一的实时目标检测。在2016年IEEE计算机视觉和模式识别会议（CVPR）上，6月。1，70[16] S. Ren，K. He，R. B. Girshick和J. Sun. FasterR-CNN：基于区域建议网络的实时目标检测。CoRR，abs/1506.01497，2015年。10[17] G. Ros，L. Sellart，J. Materzynska，D. Vazquez和A. M.Lopez.Synthia数据集：用于城市场景语义分割的大型合成图像集合。在2016年IEEE计算机视觉和模式识别会议（CVPR）上，6月。2，6，70[18] Y.-C. Su和K. Grauman.学习用于从360度图像中提取快速特征的球面卷积。在神经信息处理系统进展中，第529-539页，2017年。30[19] Y.-C. Su和K. Grauman.使2D中的360视频可观看：学习无需点击观看的摄影技术。arXiv预印本，2017年。20[20] Y.-C. Su，D. Jayaraman和K. Grauman.Pano2vid：用于观看360度视频的自动电影摄影。在亚洲计算机视觉会议上，第154-171页。Springer，2016年。20[21] K. Tateno, N. Navab, and F. Tombari.用于全景图像密集预测的失真感知卷积滤波器。在2018年欧洲计算机视觉会议（ECCV）上，9月，2018年。30[22] Y. Wenyan，Q. Yanlin，C. Francesco，F. Lixin和K. Joni-Kristian.等距圆柱投影中的目标检测。arXiv预印本arXiv:1805.08009，2018年。2，30[23] J. Xiao, K. A. Ehinger, A. Oliva, and A. Torralba.使用全景场景表示识别场景视角。在2012年IEEE计算机视觉和模式识别会议上，第2695-2702页，2012年。2

下载后可阅读完整内容，剩余1页未读，立即下载