球面语义分割的二十面体网格CNN

185 浏览量更新于2023-10-13 收藏 2.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3533基于二十面体球面的张超1Stephan Liwicki1 William Smith2 Roberto Cipolla1，31 ToshibaResearch Europe Limited，剑桥，英国2英国约克大学3英国剑桥大学摘要我们解决了全方位图像的语义分割问题，以充分利用对自动驾驶系统等应用的周围场景的整体理解。对于球形域，最近有几种方法采用二十面体网格，但系统通常是旋转不变的或需要大量的存储器和参数，因此只能在非常低的分辨率下执行。在我们的工作中，我们提出了一个方位感知的CNN框架工作的二十面体网格。我们的表示允许快速网络操作，因为我们的设计简化为经典CNN的标准网络操作，但考虑到球体上的特征的北对齐内核卷积我们实现了我们的代表性和demonstrate其内存效率高达8级分辨率网格（相当于640×1024等矩形图像）。最后，由于我们的内核是在球体的切线上操作的，所以stan-在透视数据上预训练的标准特征权重可以直接传递，而仅需要很小的权重细化。在我们的评估中，我们的方向感知CNN是最近2D 3DS数据集和我们的Omni-SYNTHIA版本SYNTHIA的最新技术水平。另外呈现旋转不变分类和分割任务以与现有技术进行比较。1. 介绍我们解决的问题，球面语义分割全向图像。准确的语义分割是有用的许多应用，包括场景理解，机器人和医学图像处理。它也是自动驾驶技术的关键组成部分深度卷积神经网络（CNN）已经在广泛的高级任务上提升了性能，包括图像分类，对象检测和语义分割。特别是，大多数关于CNN用于语义的研究平等贡献：{chao.zhang，stephan.liwicki}@ crl.toshiba.co.uk梁板书架天花板椅形杂波柱门地板沙发桌壁窗口未知图1.给定球面输入，我们将其转换为展开的二十面体网格。然后，在北对齐的情况下应用hénical滤波器，因为我们有效地插值顶点。我们的方法适用于大多数经典的CNN架构，例如。U-Net [22]. 由于我们使用球形数据，因此最终的分割结果提供了环境的整体标记。到目前为止，TIC分割[18，22，30，4]集中在透视图像上。在我们的工作中，我们专注于全向图像，因为这些数据提供了对周围场景的整体理解，具有较大的视野。完整的感受野对于自动驾驶系统尤其重要此外，全向捕获设备最近的流行以及具有全向信号的数据集的数量的增加使得全向处理与现代技术非常相关。虽然球面输入可以表示为直接应用标准CNN的平面等距矩形图像，但由于纬度相关的失真和边界，这种选择是较差的。在[25]中，一个透视网络被提炼为处理等距矩形输入。主要的缺点是，重量共享只启用在codes上.因此，该模型需要更多的参数比每-3534看一个SphereNet [9]将等矩形输入投影到经纬度网格上。通过在切平面上采样，恒定网格核然而，对于密集预测任务，实现池化和上采样并不简单。在3D形状分析中，应用CNN的挑战之一是如何在非欧几里德表面上定义自然卷积算子。一些工作[3，20，2]集中在流形或图的网络。与一般的3D形状不同，全向图像可以在存在北极和南极的情况下定向。因此，缺乏表面或图形上的平移不变性可以克服与方位感知表示。最近，一些作品提出使用二十面体网格作为底层球形数据表示。基础二十面体是最正的多面体，由12个顶点和20个面组成。它还提供了一种通过细分提高分辨率的简单方法。在[14]中，UGSCNN被提出使用由可学习参数加权的微分算子的线性组合由于运算符是预先计算的，因此每个内核的参数数量减少到4个正如我们在实验中所观察到的，这种方法的主要问题是，如果为了更好的输入/输出质量而提高分辨率，则需要大量的卷积类似于我们使用二十面体的方法，[7]提出了一种规范等变CNN。这里，滤波器权重跨多个方向共享。虽然旋转协方差和不变性在3D形状分类和气候模式预测等应用中是必不可少的，但对于我们在这里考虑的语义分割来说，这可能是不期望的。相反，我们认为，连接到车辆或无人机的相机的方向信息是一个重要的线索，应该加以利用。因此，我们提出并研究了一种新的框架，将CNN应用于全向输入，目标语义分割。我们利用这两个优势，二十面体表示的效率和方向信息，以提高准确性的方向意识的任务（图。①的人。我们的假设是，将所有可学习的过滤器对齐到北极对于全向语义分割至关重要我们还认为，高分辨率网格（即。8级二十面体网格）用于详细分割。由于内存限制，CNN操作需要有效地实现，以达到如此高的分辨率。在我们的工作中，我们首先将球形数据映射到二十面体网格，我们沿着赤道展开，类似于立方体映射[19，5]和[17，7]。在二十面体中，顶点最多有6个邻居。因此，我们建议使用一个六边形过滤器，适用于每个顶点在对展开的网格进行简单操作后，标准的平面CNN操作计算我们的六边形卷积、池化和上采样层。最后我们需要强调的是，由于我们的滤波器类似于应用于球体切线的标准3×3内核，因此可以从预训练的角度CNN进行权重转移为了验证我们的方法，我们使用全向2D 3DS数据集[1]，并额外准备我们的Omni-SYNTHIA数据集，该数据集由SYNTHIA数据产生[23]。定性和定量结果表明，我们的方法优于以前的国家的最先进的方法在这两种情况下。球形MNIST分类[6]和气候模式分割的性能[21] 与文献中的方法进行了比较。总的来说，我们的贡献是：1. 我们提出并实现了一个用于球形数据的基于二十面体的CNN框架2. 我们介绍了快速插值的方向感知过滤器卷积的领域。3. 我们提出了通过经典CNN学习的内核的权重转移，应用于透视数据。4. 我们评估我们的方法对非方位感知和方位感知，公开可用的数据集。2. 相关工作等矩形图像上的CNN虽然经典CNN不是为全向数据设计的，但如果数据转换为等矩形形式，它们从球面坐标到等矩形图像的转换是一个线性的一对一映射，但球面输入严重失真，特别是在极区。另一个人工制品是北极和南极被拉伸成线。Lai等人[15]将该方法应用于将全景视频转换为正常视角的应用中。沿着这条线的另一种方法是将球形数据投影到凸多边形的多个面上，例如立方体。在[19]中，全向图像被映射到立方体的6个面，然后用普通CNN进行训练。然而，扭曲仍然存在，面与面之间的不连续性必须小心处理.为了将卷积从平面图像推广到球面信号，最自然的想法是用球面的旋转来代替平面的移位。Co- hen等。[6]提出了一个在SO（3）群中不变的球形CNNEsteves等[11]使用球谐基可以得到类似的结果。Zhou等[31]建议扩展正常的CNN，通过包括额外的方向通道来提取旋转相关特征。一些作品[10，13]考虑调整卷积核的采样位置。Dai等人[10]建议学习可变形卷积，其通过学习的3535偏移量在[13]中引入了主动卷积单元，通过使用位置参数为传统卷积提供更多自由度。这些方法需要额外的模型参数和训练步骤来学习采样位置。在我们的工作中，我们调整内核的形状，以适应二十面体几何。与变形方法不同，我们的采样位置可以预先计算和重用，而无需训练。CNN与网格内核另一行的工作旨在适应规则的网格内核工作在全向图像。Su和Grauman [25]建议通过根据仰角调整权重来将等矩形图像处理为透视图像。权重共享仅沿箭头启用。为了降低计算成本和精度下降，核Transformer网络，[26]应用于将卷积核从透视图像转移到等矩形输入。Coors等人[9]介绍SphereNet，以最大限度地减少引入的失真(a)输入球面（b）二十面体（c）展开表示(d)球面数据图2.球形输入数据（a）由基于二十面体的测地线网格（b）表示类似于立方体[19，5]，我们展开网格（c）并将其5个分量与标准图像网格（d）对齐，以有效计算卷积，池化和上采样。通过在等距矩形图像上应用网格核在这里，根据球体上的位置，使用固定形状的核在切平面上采样将内核包裹在球体周围可避免切割和不连续。具有重新参数化核的CNN为了CNN的效率，提出了几种使用参数化卷积核的工作。博斯卡尼等人[2]引入方向各向异性扩散核估计稠密形状对应。Cohen和Welling [8]采用滤波器的线性组合来实现等变卷积滤波器。在[28]中，开发了使用滤波器组线性组合的3D可操纵CNN。最近，Jianget al.[14]利用参数化微分算子作为非结构化网格数据的球面卷积。这里，卷积运算是四个具有可学习权重的微分算子的线性组合。然而，这些方法仅限于所选择的内核类型，并且不是最大限度地灵活。二十面体上的CNN与我们在离散表示中的方法相关，一些作品利用二十面体进行球形图像表示。二十面体是球面上面数最多的正凸多面体，是球面上最均匀、最精确的离散化。一个球形网格可以通过逐步细分，viding每个面成四个相等的三角形和重新投影每个节点到单位长度。Lee等[16]是最早建议在全向图像上使用CNN的二十面体之一。这里，卷积滤波器是根据三角形面定义的。在[14]中，提出了UGSCNN来有效地训练卷积网络，其中球面数据映射到二十面体网格。Liu等[17]使用基于二十面体的球面网格作为球面图像的离散表示，用于3D形状分析的各向异性CNN。Cohen等人[7]采用二十面体网格来表示规范等效CNN。通过在多个方向上强制滤波器权重共享来确保等方差3. 建议的球形表示我们通过二十面体网格上的顶点来表示球形输入（图1）。2）的情况。映射是基于顶点通过插值从等矩形输入获得输入颜色。类似于立方体映射[19，5]，二十面体将球体简化为一组平面区域。虽然立方体表示只有6个平面区域的球体，但二十面体表示是具有最多规则面的凸测地线网格。总的来说，我们的网格在最低分辨率下由20个面和12个顶点组成，fr=20<$4r面，nr=2+10<$4r顶点.注意，分辨率的增加是通过将r=0处的三角形面细分为4r个相等的规则三角形部分来实现的。在下文中，我们在§3.1中提出了一种高效的方向感知卷积实现，并在§3.2中提出了我们的下采样和上采样技术。最后，在§3.3中讨论了标准透视CNN的训练核的权重转移。3.1. 方向感知卷积如果摄像头连接到车辆上，则天空、建筑物、人行道或道路等对象因此，我们相信一个方向感知系统是有益的，而具有任意旋转的任务可能会受益于旋转不变性[6] 或在旋转过滤器之间共享权重[29，7]。3536我我n6JN16|v×a|φ+φ.Jj=16我第五节骰子相反，我们把这个街区向北对齐，使用基于弧的权重的插值{θi}6如下所示Σ6wj（θvni+（1−θ）vnij j=1）JJj=2jj−1+w1（θ1vni+（1−θ1）vni）+w7vi. （一）我我1 6(a) 卷积(b) 上采样由于六边形邻域近似对称，图3.使用我们的六边形滤波器（a）和上采样（b）进行卷积，在填充度量，我们进一步简化（1）通过引入统一的权αi，使得{αi<$θi}6成立。因此我们写球体组件与相邻球体零件的特征。池化是用标准的2x2内核，步幅为2来计算的。Σ6αij=1Jwjvi+w7viJj=16φiφi+φiΣ+（1−αi）j=2wvij−1 +w1vni+w7vi。（二）ψiφi+φi因此，北向对准滤波器可以通过2个标准卷积来实现，然后基于顶点的插值α i来加权(a) 北向(b) 插值滤波器圆弧插值αi基于朝向第一和第六相邻点图4.给定邻域的基于弧的插值，北对齐（a），我们的卷积是用2个加权滤波器计算的所有顶点的权重都是预先计算的。（即 vni vni 分别）和南北轴。特别是首先，我们找到南北轴的投影平面a=0 1 0T朝向向量v，作为具有非-我通过填充的有效卷积我们首先定义马尔尼 =vi×a。由于球面近似于-我北极和南极作为任何两个顶点，具有最大值，由向量vi−vni和vi−vni的平面配对，我们1 6二十面体网格上的最小距离。与[17，7]相似，然后，通过非线性变换将网格转换为平面表示只需要这些向量与平面由ni给定，找到插值αi=φi，我我沿着赤道折叠它（图）。2）的情况。最后，我们把TT曲面分为五个组件，并将顶点与. （vi− vni）（I − nini）（vi−vni）通过一个简单的仿射变换规则的图像网格i= arccos。1 .一、.1 .. .T.. （vi−vni）。. （I−nini）（vi−vni）.请注意，顶点的邻域为5或61 1T T点因此，我们在工作中采用六边形滤波器，在-（vi−vni）（I−nini）（vi−vni）而不是常规的3×3内核。让我们忽略顶点φi=arccos。六、.. .不6 . .（三）.. （vi− vni）。. （I − nini）（vi−vni）.在极点（例如，通过辍学的推理），和AD-通过简单的重复，对于具有5个邻居的所有顶点，仅将邻居基数变为6现在，我们的二十面体的平面表示将六边形滤波器的卷积简化为具有掩码内核的标准2D卷积3 .第三章。在其自然实现中，我们的滤波器与二十面体网格对齐。因此，滤波器方向是不一致的，因为靠近北极和南极的表面是缝合的。我们通过插值垂直对齐滤波器来减少这种失真的影响（图1）。4）.权值{wj}为7的naéve卷积在ver-66 63.2. 合并和上采样通过池化的下采样和双线性上采样是CNN的重要构建块，并且经常用于语义分割的编码器-解码器框架（例如，[22]）。池化的目的是对特征的邻域进行求和，以引入对图像平移和遗漏的鲁棒性。通常在标准图像中考虑非常小且不重叠的2×2像素邻域，以平衡细节，冗余在解码器中使用双线性上采样以将子采样的特征图增加到更大的分辨率。我们注意到，在我们的二十面体网格中，每一项决议增加4倍（不包括：texvi及其邻居{vni}j=1，计算为Σj=1wjvni+w7vi，其中nj保持-ing pole）。因此，在从分辨率向下采样从r到r-1，我们总结了在r处的4个邻域西东西vn我φ vn我1I 6ψ ivi∗∗Jw2 w1w3 W7 w6w4 w5w3 w2w4 W7 w1w5 w635371 23w1=p2w2=sinπp1+p4+（1−sinπ）p2+p53 2 3 2w3=sinπp4+p7+（1−sinπ）p5+p83 2 3 2w4=p8w5=sinπp6+p9+（1−sinπ）p5+p83 2 32表1.非旋转（N）和旋转（R）的球形MNISTw6=sinπp3+p6+（1−sinπ）p2+p53 2w7=p532训练和测试数据。定向感知HexRUNet-C是compet-只有当训练和测试数据匹配时才是有效的（即，N/N和R/R）。图5.在透视数据上训练的传统3×3内核的权重可以通过简单的插值转移到我们的模型中，因为我们的过滤器在球体的切平面上操作在r-1处有1个顶点。一个自然的选择是{vi，vni，vni，vni}，用于在两个分辨率中表示的顶点v i。因此，我们在每个二十面体部分上应用一个简单的标准2×2步幅池，其中内核为2×2类似地，双线性上采样或转置卷积，解决方案是通过填充左边和顶部的二十面体部分，然后在高度和宽度上以2的因子进行上采样来应用的（图1）。（3）第三章。由于填充，这会导致每个尺寸的1像素边界，我们只需删除这些边界即可提供预期的上采样结果。最后，我们强调，像金字塔池[？]可以通过组合我们的池化和上采样技术来计算3.3. 透视网络的权值传递与SphereNet [9]类似，我们的网络在球体上每个顶点的局部切平面上应用定向过滤器。因此，在我们的设置中，预先训练的透视网络权重的转移由于我们应用具有7个权重的六边形滤波器，因此我们插值从标准的3×3内核如图所示五、具体来说，我们将六边形的南北方向与第二方向对齐-分别是标准卷积核的第二和第八权重。双线性插值为我们的滤波器提供剩余值转移后，权重细化是必要的，但可以在更小的数据集上计算（如[9]中所做的），或减少学习迭代。或者，但留给未来的工作，应该可以直接在透视数据集上学习六边形滤波器权重[27，12]。4. 评价本文的主要研究内容是全方位语义分割。模拟城市场景和真实的室内环境进行评估。为了完整性，我们还包括我们的模型与以前的国家相比，第4.1节中的球形MNIST分类和第4.2节中的气候模式预测任务的艺术方法。在§4.3和§4.4中，对全向语义分割任务进行了详细说明。进行了总结和分析。表2.气候模式分割结果。我们包括平均类精度和平均平均精度（mAP）。(The背景类表示为BG。）4.1. 球形MNIST我们遵循[6]准备球形MNIST数据集，因为我们准备了非旋转训练和测试（N/N），非旋转训练与旋转测试（N/R）以及旋转训练和测试（R/R）任务。非旋转和旋转版本都是使用UGSCNN提供的公共源代码生成的[14]。1训练集和测试集分别包含60，000和10，000个数字。该实验的输入信号在 4 级网格上（即，r=4）。在我们的实验中使用了[14]的剩余U-Net架构，包括适应分类任务的我们称这个网络为如表1所示，我们的方法在N/N方面优于以前的方法，准确率达到99.45%。在R/R中，我们的方法比竞争对手Spherical CNN和UGSCNN表现更好。Gauge Net受益于不同方向的过滤器之间的权重共享，并在所有方法中实现了此任务的最佳精度。与[14]类似，我们的方法通过设计是方向感知的，因此不是旋转不变的。因此，在N/R设置中，预计不会很好地推广到随机旋转的测试数据，而Spheri- cal CNN在这种情况下表现最好。4.2. 气候模式分割我们进一步评估我们的方法上的任务，mart-mate模式分割。该任务首先由Mudigonda等人提出。[21]，目标是预测极端天气事件，即。热带气旋（TC）和大气河流（AT），来自模拟的全球气候数据。训练集由43，916个模式组成，6，274个样本用于验证。验证集的评价结果见表2和图6。这里我们使用与UGSCNN相同的残差U-Net架构[14]。1https://github.com/maxjiang93/ugscnn方法N/N N/R[6]第96话.94.95.净流量[7] 99.43 69.9999.31UGSCNN [14] 99.23 35.60 94.92HexRUNet-C 99.4529.84 97.05p1 p2 p3p4 p5 p6p7 p8 p9w2 w1w3 W7 w6w4 w5方法BGTCAR是说地图标准网[7]97.497.997.80.759UGSCNN[14]97.94.93.94.7-HexRUNet-895.7195.5795.1995.490.518HexRUNet-3297.3196.3197.4597.020.5553538方法Miou束板书柜天花板椅子杂波柱门地板沙发表壁窗口UNet35.98.527.230.778.635.328.84.933.889.18.238.558.823.9计量网39.4–––––––––––––UGSCNN38.38.732.733.482.242.025.610.141.687.07.641.761.723.5HexRUNet43.310.939.737.284.850.529.211.545.392.919.149.163.829.4表3.2D3DS数据集上的平均交集（IoU）比较每个类的IoU在可用时显示方法MACC束板书柜天花板椅子杂波柱门地板沙发表壁窗口UNet50.817.840.459.191.850.946.08.744.094.826.268.677.234.8计量网55.9–––––––––––––UGSCNN54.719.648.649.693.663.843.128.063.296.421.070.074.639.0HexRUNet58.623.256.562.194.666.741.518.364.596.241.179.777.241.1表4.2D3DS数据集的平均分类准确度（mAcc）比较如果可用，则显示每类精度TCARBG图6. HexRUNet-32对匹配模式的语义分割结果（右）与地面实况（左）的比较。我们包括使用不同数量的参数的两个变体：HexRUNet-8和HexRUNet-32分别使用8和32作为第一卷积层的输出通道如图所示，两个版本在平均准确度方面都优于UGSCNN。HexRUNet-32具有32个特征，然而，我们的方法在平均精度（mAP）方面与GaugeNet不匹配。我们将此归因于这样一个事实，即在这些气候数据中没有直接的方向信息可供利用。相比之下，Gauge Net显示了其跨方向权重共享的优势4.3. 斯坦福大学2D3DS对于我们的第一个全向语义分割实验，我们在2D3DS数据集[1]上评估了我们的方法，该数据集由1413个等矩形RGB-D图像组成。groundtruth将每个像素归为13个类中的一个。在[14]之后，我们将深度数据转换为米单位，并将其剪切到0到4米之间。RGB数据被转换为在[0，1]的范围内255.最后，将所有数据减去平均值，并将标准偏差归一化。预处理后的信号在5级网格（r=5）上采样，使用双线性插值用于图像和最近邻用于标签。类加权交叉熵损失用于平衡类示例。使用我们提出的网络运营商，我们采用[14]的剩余U-Net架构，我们称之为HexRUNet（参见Sup. Mat.以取得详细数据）。我们评估我们的方法后，3倍分裂，并显示定性和定量的结果在图。7和表3和表4。我们的方法优于方向感知的UGSCNN [14]，旋转等变规范网[7]和U-Net基础。梁板书柜天花板椅子杂物柱门地板沙发桌子墙窗未知图7. 2D3DS数据集上的定性分割结果。行[22]上的等距矩形图像，已子采样到马赫水平-5网格分辨率。至于每类评估，我们的方法在大多数类中实现了最佳性能。这表明语义分割确实受益于具有比[14]更多表达过滤器的定向感知网络4.4. Omni SYNTHIA为了进一步验证我们的全方位语义分割方法，我们从SYNTHIA数据集的子集创建了全方位版本[23]。SYN-THIA数据集由从虚拟城市渲染的多视点照片级真实感帧组成，并带有13个类的像素级语义注释。我们建议读者参考[23]以了解详细信息。我们选择“夏天”这个所有五个地方的序列（2×纽约样，2×高速公路和1×欧洲样）来创建我们自己的全向数据集。我们将数据集分为1818 im的训练集，GTUGSCNNRGB3539方法Miou建筑车骑车人围栏标记Misc行人极路人行道签署天空植被UNet38.880.859.40.00.354.312.14.816.474.358.20.290.449.6UGSCNN36.963.333.30.00.173.71.22.310.079.969.31.089.156.3HexUNet-T36.771.953.10.01.169.04.90.411.172.252.90.092.348.4HexUNet-nI42.477.164.80.02.474.310.42.023.684.768.61.093.148.7HexUNet43.681.066.90.02.971.013.75.630.483.167.01.593.350.2表5. Omni-SYNTHIA数据集上r= 6方法MACC建筑车骑车人围栏标记Misc行人极路人行道签署天空植被UNet45.191.963.60.04.557.117.95.019.788.873.90.294.869.3UGSCNN50.793.281.40.05.383.233.72.514.990.882.71.396.174.0HexUNet-T44.880.060.90.01.674.726.90.413.080.075.20.096.273.4HexUNet-nI50.683.969.60.02.582.939.12.030.791.883.61.194.876.5HexUNet52.288.772.70.03.385.936.66.242.589.683.71.695.671.6表6. Omni-SYNTHIA数据集上r= 6年龄（来自纽约和高速公路序列），并使用451张欧洲样序列的图像进行验证。在我们的实验中只使用RGB通道二十面体网格使用RGB数据的插值和标签的最近再次，我们报告mIoU和mAcc。在这里，我们使用标准的U-Net架构[22]来促进在我们的一个实验中从U-Net角度进行权重转移。我们称之为对于消融研究，我们还评估了我们的方法，没有第3.1节中描述的北对齐，表示为与最先进技术的比较我们使用在网格级别6（r = 6）采样的数据将我们的方法与UGSCNN [ 14 ]进行比较。我们还包括使用原始透视图像的平面 U-Net[22]，这些图像已经过子采样以匹配二十面体分辨率（参见Sup. Mat. 以取得详细数据）。表5和表6分别报告了mIoU和mAcc，而图5和图6分别报告了mIoU和mAcc。8显示了定性结果。 HexUNet的表现优于以前的最先进水平，在大多数课程中都有显著的优势。在小物体上的性能，例如。“pedestrian” and“sign”, 我们将此归因于一个不平衡的数据集。注意，这里没有使用类加权交叉熵损失最后我们强调，HexUNet的性能略好于HexUNet-nI，从而验证了方向感知过滤器在语义分割中的重要性。在不同分辨率下的评估大多数以前的方法将其网格分辨率限制为r=5级，仅由2，562个顶点组成，以表示全向输入。相比之下，需要等级r=8的二十面体网格来匹配640×1024图像的像素数655，362-655，360。因为我们相信高分辨率-输入/输出对语义段是有益的任务中，我们在不同的分辨率（r={6，7，8}）下评估我们的方法，如表7所示。我们的方法在r=7时达到最佳性能，而r=7和r=8时执行建筑汽车自行车栅栏杂项行人杆路标天空植被无效图8. Omni-SYNTHIA数据集上的分割结果。方法RMiou= 6MACCRMiou= 7MACCRMiou= 8MACCUNetUGSCNN38.836.945.150.744.637.652.648.943.8–52.4–HexUNet-T36.744.838.047.245.352.8HexUNet-nI42.450.645.153.445.453.2HexUNet43.652.248.357.147.155.1表7.在Omni-SYNTHIA上以不同分辨率进行评价。（[14]的当前实现无法在r= 8时拟合分辨率数据。注意，较低分辨率下的地面实况是二次采样的，因此不同分辨率的评估仅具有指示性。相似由于我们使用仅由4个编码器（和解码器）层组成的标准U-Net结构，因此在r=8时减少了对上下文的感知。这一点在图中右下角的结果中得到了进一步的9、汽车的轮子在哪里人行道标线HexUNetUGSCNNGTRGB3540无效建筑车骑车人围栏标记Misc行人极路人行道签署天空植被图9.Omni-SYNTHIA数据集上不同分辨率下语义分割结果的展开可视化被误认为是路标分辨率r=6和r=7能够充分标记这一点。最后，网络推理时间如表8所示。r=6r=7r=8UGSCNN [14]HexUNet458s63s2755s65s–79sUNet34s36s40s表8.在配备11 Gb内存的Nvidia 1080Ti GPU上，每次验证的平均评估时间（451张图像）。平面UNet在同等分辨率的正面，背面和侧面图像（即。1804. 第 1804章也被发现了HexUNet和UNet在Tensorflow中实现，而[14]的PyTorch实现用于比较。透视权值传递的评价如§3.3所示，我们的方法利用了一个方向感知的六边形卷积核，它允许直接从透视网络从U-Net角度使用学习的过滤器（3×3内核）进行初始化，我们仅执行10个epoch的权重细化（与其他高达500个epoch相比），并将结果报告为表5、6和7。所提出的滤波器传递获得了有竞争力的结果，特别是在分辨率水平r=8时。5. 结论我们介绍了一种新的方法来执行CNN操作的球形图像，表示在一个二十面体网格。我们的方法利用方向信息，因为我们引入了一个有效的插值内核卷积，基于北对齐。所提出的框架易于实现，并且对于等级r=8的输入网格（相当于一个640×1024等矩形图像）。在我们的评估中，2D 3DS数据[1]和我们的Omni-SYNTHIA版本的SYN-THIA [23]，我们的方法成为全向语义分割任务的新技术状态此外，在我们的工作中说明了从预训练的标准视角CNN的权重转移。所提出的方法的一个限制是对于小对象（例如，“pedestrian”未来的工作将结合更好的架构，如[30，24]，以改进小对象的分割。最后，我们计划利用我们的框架进一步的方向感知学习任务，如本地化和映射。R=8r=7R=6GTRGB3541引用[1] Iro Armeni ， Sasha Sax ， Amir R Zamir ， and SilvioSavarese.用于室内场景理解的联合2d-3d语义数据。arXiv预印本arXiv：1702.01105，2017。[2] Da videBoscaini ， JonathanMasci ， EmanueleRodola` ，andMichael Bronstein.用各向异性卷积神经网络学习形状对应关系。在NIPS[3] Michael M Bronstein，Joan Bruna，Yann LeCun，ArthurSzlam，and Pierre Vandergheynst.几何深度学习：超越欧几里得数据。IEEE Signal Processing Magazine，34（4）：18[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE传输模式分析马赫内特尔，40（4）：834[5] H.- T. 郑角，澳-地H. Chao，J. -D. 董，H-K. Wen和T.-L.刘某立方体填充用于360度全景视频中的弱监督显著性在CVPR[6] 塔科湾 Cohen ， MarioGeiger ， JonasK ？hler ，andMaxWelling.球形CNN。在ICLR[7] 塔可S Cohen，Maurice Weiler，Berkay Kicanaoglu，andMax Welling.规范等变卷积网络和二十面体CNN。arXiv预印本arXiv：1902.04615，2019。[8] 塔可S科恩和马克斯·威林。可控CNN。arXiv预印本arXiv：1612.08498，2016.[9] Benjamin Coors ， Alexandru Paul Condurache ， andAndreas Geiger. SphereNet：学习球面表示，用于全向图像的检测和分类。在ECCV[10] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在ICCV[11] Carlos Esteves 、 Christine Allen-Blanchette 、 AmeeshMaka- dia和Kostas Daniilidis。用球面cnn学习so（3）等变在ECCV[12] Hoogeboom ， Jorn WT Peters ， Taco S Cohen 和 MaxWelling。六角锥体arXiv预印本arXiv：1803.02108，2018。[13] 全允浩和金俊模。活动卷积：学习卷积的形状用于图像分类。在CVPR[14] Chiyu Max Jiang，Jingwei Huang，Karthik Kashinath，Prab- hat，Philip Marcus，and Matthias Nießner.非结构化网格上的球形CNN。在ICLR[15] 赖伟胜，黄宇佳，尼尔乔希作者：ChristopherBuehler，Ming-Hsuan Yang，Sing Bing Kang.从360度视频语义驱动的hyperlapse生成。IEEE Trans. Visualizationand Computer Graphics，24（9）：2610[16] Yeon Kun Lee ，Jaeseok Jeong， Jong Seob Yun ，ChoWon June，and Kuk-Jin Yoon. Spherephd：将cnn应用于360度图像的球形多面体表示。arXiv预印本arXiv：1811.08196，2018。[17] Min Liu ，Fupin Yao ，Chiho Choi，Sinha Ayan ，andKarthik Ramani.使用alt-az各向异性2球卷积深度学习3d形状。在ICLR[18] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在CVPR[19] Rafael Monroy ， Sebastian Lutz ， Tejo Chalasani ， andAljosa Smolic. Salnet360：使用cnn的全方位图像的显着性图。信号处理：图像通信，2018年。[20] Federico Monti ， Davide Boscaini ， Jonathan Masci ，Emanuele Rodola ， Jan Svoboda ， and Michael MBronstein.使用混合模型cnns对图和流形进行几何深度学习。在CVPR[21] Mayur Mudigonda ， Sookyung Kim ， Ankur Mahesh ，Samira Kahou ， Karthik Kashinath ， Dean Williams ，Rumen Michal- ski，Travis OBrien，and Mr Prabhat.使用神经网络分割和跟踪极端气候事件。在 2017 年与NIPS'17一起举办的物理科学深度学习研讨会上[22] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络在MICCAI[23] German Ros，Laura Sellart，Joanna Materzynska，DavidVazquez，and Antonio M Lopez.Synthia数据集：用于城市场景语义分割的大量合成图像。在CVPR[24] Mark Sandler 、 Andrew Howard 、 Menglong Zhu 、Andrey Zh- moginov和Liang-Chieh Chen。Mobilenetv2：反演残差和线性瓶颈。在CVPR[25] Yu-Chuan Su和Kristen Grauman。学习球面卷积快速功能从360图像。在NIPS[26] Yu-Chuan Su和Kristen Grauman。核Transformer网络用于紧凑的球形卷积。arXiv预印本arXiv：1812.03115，2018。[27] 孙准，梅特·奥扎伊，冈谷隆之。图像分类卷积神经网络的核函数设计。在ECCV[28] Maurice Weiler，Mario Geiger，Max Welling，WouterBoomsma，and Taco Cohen. 3D可操纵cnn：学习体数据中的旋转等变特征。在NIPS[29] 丹尼尔·沃拉尔和加布里埃尔·布罗斯托。Cubenet：等同于3D旋转和平移。arXiv预印本arXiv：1804.04458，2018。[30] Hengshuang Zhao ， Jianping Shi ， Xiaojuan Qi ，Xiaogang Wang，and Jiaya Jia.金字塔场景解析网络。在IEEE计算机视觉和

下载后可阅读完整内容，剩余1页未读，立即下载