基于自蒸馏的室内360°语义分割方法

142 浏览量更新于2023-10-16 收藏 15.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

45010基于自蒸馏的室内360°语义分割的互补双向特征压缩0郑子硕 1 , 2 , 林春雨 1 , 2 * , 聂朗 1 , 2 , 廖康 1 , 2 , 沈志杰 1 , 2 , 赵尧 1 , 201 北京交通大学信息科学研究所，中国北京 2 北京高级信息科学与网络技术重点实验室，中国北京0{ zszheng, cylin, nielang, kang liao, zhjshen, yzhao } @bjtu.edu.cn0摘要0360°图像上的语义分割是场景理解的重要组成部分，因为它提供了丰富的周围信息。最近，基于水平表示的方法在投影方法之上表现出色，因为通过在垂直方向上压缩球面数据可以有效地消除畸变。然而，这些方法忽略了畸变分布先验，并且受限于不平衡的感受野，例如，垂直方向上的感受野足够而水平方向上的感受野不足。不同的是，以另一个方向压缩的垂直表示可以提供隐含的畸变先验并扩大水平感受野。在本文中，我们将这两种不同的表示结合起来，从互补的角度提出了一种新颖的360°语义分割解决方案。我们的网络由三个模块组成：特征提取模块、双向压缩模块和集成解码模块。首先，我们从全景图像中提取多尺度特征。然后，设计了一个双向压缩模块，将特征压缩成两种互补的低维表示，提供内容感知和畸变先验。此外，为了促进双向特征的融合，我们在集成解码模块中设计了一种独特的自蒸馏策略，以增强不同特征之间的交互并进一步提高性能。实验结果表明，我们的方法在定量评估上优于现有解决方案，同时在视觉外观上显示出最佳性能。01. 引言0由全景相机捕获的全景图像可以提供宽广的视场（FoV），在许多关键的场景感知任务中更加实用[9]、[24]、[30]、[40]。作为计算机视觉中的一个基本主题，语义分割0*通讯作者0图1.所提出的360°语义分割方法的动机：（a）每个通道中的水平表示具有相同的畸变幅度，而垂直表示可以感知畸变分布。（b）水平表示受到局部感受野的限制。0全景分割旨在为图像中的每个像素分配一个类别标签，对于姿态估计[26]、自动驾驶车辆[31]、增强现实[2]等各种应用至关重要。直接将常规视场（FoV）语义分割方法[16]、[22]、[23]、[44]应用于360°图像并不令人满意，因为全景图像（通常由等距圆柱投影—ERP生成）存在显著的畸变和全景图像与常规视场图像之间的视场不匹配。为了克服上述限制，一些研究人员提出采用不同的投影格式（例如，立方体映射和二十面体群）[11]、[41]或球面卷积[8]、[12]、[17]来减小全景畸变的负面影响。然而，这些方法要么牺牲准确性，要么牺牲效率，无法感知精确的全景结构。最近，受到重力对齐全景图几何特性的启发，一些基于水平表示的方法[27]、[33]被提出来解决上述问题。它们将ERP图像沿垂直方向压缩为1D向量，使其更加注重内容，如图1a（顶部）所示。这种方式可以被视为将球面数据向赤道方向收缩的过程。因此，表示中的每个元素都具有相同的畸变幅度，并消除了负面影响。45020由于固定的压缩方向，现有方法可以有效地处理全景畸变。然而，由于缺乏水平方向上的感受野，它在水平方向上的感受能力有限（图1b）。此外，如果在解码阶段没有额外的指导，将导致全景分割结果中缺乏畸变分布信息，从而导致性能不佳。受到水平特征的启发，我们观察到在水平或垂直方向上压缩球面数据会产生不同的数据表示。本质上，沿水平方向提取垂直特征是将全景图像压缩到某个子午线上。考虑到同一纬度的数据具有相同的畸变幅度，这种操作会聚集属于相同幅度的数据。尽管这种表示可能会模糊图像内容，但它使特征畸变更加突出，可以提供隐含的畸变分布先验。与致力于消除畸变影响的现有方法相比，我们引入了隐含的畸变信息来指导全景分割。此外，垂直表示还增强了水平方向上的感受能力。在本文中，我们提出了一个新颖的360°语义分割神经网络，包括三个部分：特征提取模块、双向压缩模块和集成解码模块。具体而言，我们首先从ERP图像中提取多尺度特征。然后，我们的双向压缩模块将特征编码为两个互补的1D扁平序列。为了实现这一点，我们设计了一个Mix-MLP层，在压缩维度之前产生有用的表示。随后，我们提出了金字塔池化压缩（PPC）层，通过聚合具有不同感受野的不同子区域来感知畸变和内容信息。在集成解码过程中，我们采用A-Conv[27]来拉伸维度并重建两个不同的2D特征。最后，不同的特征被融合以预测分割结果。然而，考虑到两种表示之间的差异，特征域严重分歧，使它们难以和谐地集成。在这里，我们通过设计一种独特的自我蒸馏策略[43]来解决这个问题。具体而言，我们将自我蒸馏分为三个并行部分：水平驱动分支（HDB）、垂直驱动分支（VDB）和集成分支（EB），其中EB是两种表示的融合结果。HDB和VDB被视为学生模型，而EB是教师模型。融合部分的知识将与独立部分共享。最后，学生模型中返回的特征将反馈给教师模型，从而增强不同特征之间的交互，并进一步提高性能。通过丰富的实验证明了所提出的0解决方案在全景语义分割方面明显优于最先进的算法，并在定量评估上取得了很大的改进。此外，消融研究还揭示了我们的双向表示和特殊设计的自我蒸馏的有效性。总之，我们的主要贡献如下：0•为了扩大有限的水平感受野并提供隐含的畸变先验，我们从互补的角度结合水平和垂直表示，建立了一种新颖的360°语义分割网络。0•为了促进双向表示的融合，我们设计了一种独特的自我蒸馏策略，增强不同特征之间的交互，并进一步提高性能。0•实验证明我们的方法在所有指标上明显优于当前最先进的方法。02. 相关工作02.1. 全景图像的语义分割0早期的方法[4]，[36]是基于合成全景数据集或手动标记的样本。受到风格转移[46]和数据蒸馏[28]的启发，杨等人提出了一个框架[37]，[38]，[39]，通过将ERP分成多个受限视场（FoV）部分进行预测，以重用在透视图像上训练的模型。尽管非常准确，但他们的策略依赖于具有相似类别和场景的标记透视图像数据集。最近的研究在真实世界的数据集上找到了解决方案。Tateno等人[34]提出了球面卷积滤波器，使网络能够意识到ERP的失真。与直接在ERP上操作的解决方案相比，[41]将球面信号投影到细分的二十面体网格中，以减轻失真并提高预测准确性。Eder等人[11]引入了切线图像，一种将图像渲染到与细分的二十面体相切的窄视场图像上的新型表示。孙等人[33]使用压缩方法对潜在特征进行编码，并使用离散余弦变换（DCT）完成整体场景建模。最近，受到自注意机制的驱动，许多基于Transformer的方法[6]，[35]，[45]出现了，因为它们具有聚合长程依赖关系的强大能力。张等人[29]和沈等人[42]使用可变形组件消除图像失真，并实现了最先进的性能。02.2. 水平表示0与大多数现有方法使用纯2D特征进行预测不同，利用1D水平表示进行预测可以使网络学习到底层的几何相关知识。45030图2. 所提出网络的架构。该网络包括特征提取模块Me，双向压缩模块Mc和集成解码模块Md。0表示可以使网络学习到底层的几何相关知识。苏等人[32]利用标准卷积的不同核大小来克服失真。特别地，权重只能沿水平方向共享。在水平维度包含丰富的上下文信息的假设下，杨等人[39]提出了一种水平驱动的注意力方法来捕捉360°图像中的全范围先验。孙等人[33]使用1D水平表示来设计HorizonNet，用于估计房间布局的任务。这一趋势促使了各种关于场景理解的工作。例如，Pintore等人[27]提出了SliceNet，并采用长短期记忆（LSTM）来建模360°深度估计的长程依赖关系。然而，这些方法没有考虑到纬度失真特性和水平透视能力，从而导致了准确性的降低。我们的解决方案通过同时集成水平和垂直表示来解决这个问题，我们认为这是消除失真影响和保留细节的最佳方式。此外，添加额外的张量不会大大增加模型复杂性和计算成本，因为我们的复杂度仍然是O（N）。02.3. 知识蒸馏0知识蒸馏[15]是最流行的压缩方法之一。它受到了从教师到学生的知识传递的启发。在数据增强[3]、对抗攻击[25]和模型迁移[13]等其他领域中，它已经显示出了优越性。然而，构建教师模型需要大量的工作和实验，我们将花费大量的数据集和长时间的训练来完善学生模型。为了克服传统蒸馏的困境，张等人[43]提出了一种名为自蒸馏的新型训练技术，即学生和教师模型来自同一网络。因此，为了促进双向表示的融合，我们重新设计了这种技术以适应我们的框架。0工作。具体而言，我们将两个1D表示视为学生，将它们的融合结果视为教师，并引入三个损失函数进行优化。经过精心设计的自蒸馏可以增强不同特征之间的交互，并进一步提高性能。03. 方法0在本节中，我们描述了用于360°语义分割的提出方法的详细信息。首先展示了我们框架的概述。然后，讨论了双向压缩模块，该模块沿水平和垂直方向减小特征图的维度。最后，为了促进双向表示的融合并缩小特征域差距，我们设计了一种特殊的自蒸馏策略，以适应集成解码模块中的网络结构。03.1. 网络概述0该框架如图2所示。在我们的特征提取模块 M e 中，尺寸为H × W的ERP格式360°图像将被传入一个深度卷积神经网络，如ResNet[14]，以逐渐降低全景分辨率并生成原始图像分辨率的{1/4，1/8，1/16，1/32}的分层特征图。然后，我们采用特征金字塔网络[19]形成多尺度特征，表示为{F h i × w i i} i =1 ,2 , 3 ,4。在下一步中，这些特征图被并行地输入到双向压缩模块M c中，该模块包含一个轻量级的Mix-MLP层以产生有用的表示和一个PPC层以在水平和垂直方向上压缩维度。特别地，我们对不同的特征图使用不同的池化操作来聚合局部和全局的上下文信息。我们在第3.2节详细介绍了该模块。然后，我们将多层级的1D张量在一个序列中进行连接，得到两个表示：Seqh和Seqv。在解码阶段，使用集成解码模块 M d来重构2D密集特征图，详细介绍见第3.3节。最后，将融合的特征输入到分割头部以预测最终的分割结果。此外，对于大多数填充操作，我们在特征图的左右边界使用循环填充。To obtain the bi-directional spherical representations ina more effective and efficient way, we introduce a bi-directional compression module. This module compressesfeatures into two complementary low-dimensional repre-sentations which provide content perception and distortionperception separately.To squeeze the height (h) and width (w), the most straight-forward operation is to conduct two Conv2D layers with thekernel sizes of h × 1 and 1 × w. However, although the re-ceptive field of ResNet is already enough for the works thatutilize the 2D feature, it is shown that it is still small for ourmethod that only uses the 1D representations.Having observed that the global average pooling is ahelpful method as the global contextual prior [21], we de-sign an efficient compression method to overcome the aboveproblems. Moreover, it is more reasonable to introduce amore powerful representation using sub-regions with dif-ferent sizes instead of the same size [44]. Hence, our PPClayer fuses feature under several different pyramid scales,Fig.3 gives an example.Note that the number of pyra-mid levels and size of each level can be modified manu-ally. They are related to the size of the feature maps thatare fed into the pooling layer. Therefore, combined withour hierarchical structure, the number of pyramid levels de-creases with the increase of the network stage. Concretely,given the feature maps {F hi×wii}i=1,2,3,4, the pooling sizeishijwi i=1,2,3,4;j=0,...,4i for horizontal features, and45040图3. 金字塔池化压缩（PPC）的示意图。给定高度为 h 1 的特征图F 1，为了生成水平表示，我们首先使用全局平均池化（GAP）来收集不同子区域的表示，然后应用一个Conv2D层将高度压缩到1，接着进行串联和卷积操作形成最终的1D表示，该表示携带了局部和全局的上下文信息。需要注意的是，子区域的大小只在垂直方向上有所变化。0为了以更有效和高效的方式获得双向球面表示，我们引入了一个双向压缩模块。该模块将特征压缩为两个互补的低维表示，分别提供内容感知和失真感知。03.2. 双向压缩模块03.2.1 混合多层感知机（Mix-MLP）层。0考虑到ERP的独特结构，我们认为位置信息对于我们的360°语义分割是必要的。然而，由于训练和测试期间需要保持一致的分辨率要求，位置编码[10]存在着不灵活的扩展问题。为了使我们的网络具备无尺寸限制的位置编码能力，我们设计了一个轻量级的Mix-MLP层。受到[7]、[35]的启发，我们将一个3×3的卷积与零填充和两个MLP混合成一个统一的框架，以引入隐含的位置信息。可以表示为：0F out = 线性函数 ( δ ( 双向压缩 ( 线性函数 ( F in )))) + F in (1)0其中Fin是来自骨干网络的特征图，δ是激活函数，我们在实验中使用GELU。线性函数中的通道数是输入的四倍。我们使用深度可分离卷积（DWC）来提高效率和减少参数数量。因此，具有位置信息的骨干提取特征对于双向特征压缩是有用的。03.2.2金字塔池化压缩。02j}i=1,2,3,4;j=0,...,5-i分别表示垂直特征。此外，由于不同阶段的特征图大小不同，需要添加额外的上采样层（参见图2）来对齐它们。例如，我们只对沿水平方向的特征图进行上采样以对齐水平特征。通过压缩不同方向的特征，我们的模型可以隐式地感知全景图像中的内容信息和失真分布。03.3.集成解码模块0为了从1D表示中产生像素级预测，Sun等人利用插值操作和逆离散余弦变换（IDCT），导致模型的可学习性降低。与直接改变大小的策略不同，我们使用nA-Conv层[27]，每个层包括一个上采样层、一个Conv2D层、一个BN层和一个PReLU，逐步拉伸维度。注意，我们将PReLU替换为ReLU用于我们的分割模态，最终分辨率为H4×W04.通过这种方式，我们可以获得两个不同的重建张量，分别表示为Dh和Dv。03.3.1自我蒸馏。0尽管我们可以直接集成这些特征以捕捉水平和垂直方向上的互补语义信息，但是方向主导的特征仍然被低效利用。这是因为双向特征代表不同的全景特征，明显的=N1(5)45050图4.我们的自我蒸馏策略的示意图。在网络的训练过程中，我们主要根据它们的来源将自我蒸馏结构分为三个部分。De是Dh、Dv和F1的总和。在测试阶段，这些仅在训练过程中引入的矩形框中的结构将被移除。0特征域差异将阻碍融合过程。此外，如果我们直接融合它们，解码器将承担巨大负担（负责融合和最终分类），使性能不令人满意。为了促进不同特征的融合，我们没有设计一个可以显著增加模型大小的更复杂的融合网络。相反，我们在解码阶段设计了一种独特的自我蒸馏策略，以缩小不同特征之间的域差异。如图4所示，我们的自我蒸馏结构可以分为三个部分：HDB，VDB和EB。EB包括HDB，VDB和骨干特征Fh1×w11。在训练过程中，HDB和VDB被视为学生模型，而EB是教师模型。学生可以从教师那里学到有益的知识，教师可以从学生那里获得良好的反馈。通过这种方式，学生和教师都可以互相受益。我们将几个卷积层（瓶颈）和一个SegHead作为分割部分，并且学生和教师共享相同的网络结构。瓶颈包含三个卷积层，核大小分别为1×1、3×3和1×1。SegHead包括两个上采样层以达到原始分辨率，并且两个Conv2D层用于预测H×W×Ncls分辨率的分割掩码，其中Ncls是类别数。由于页面限制，我们在补充材料中展示了一个完整的示例。在预测360°图像的分割图之后，采用分割标签来监督HDB和VDB是直接的，这可以产生更好的Dh和Dv。然而，如果我们只使用这种监督，知识将不会在学生和教师之间互动。为此，我们引入了两个额外的监督（来自中间特征和教师模型的最终softmax输出）来鼓励学生模型从教师模型中学习。简而言之，我们在自我蒸馏策略中使用交叉熵损失、KL散度损失和L2损失作为优化函数。03.4. 目标函数0我们的目标函数包括三种损失作为优化预测的目标函数。0交叉熵损失。第一个监督是交叉熵损失。几乎所有用于此任务的CNN都利用交叉熵损失。它是使用训练样本的真实标签（GT）和softmax层的预测计算的。我们不仅将其部署到教师分支，还将其部署到两个学生分支。通过交叉熵损失，训练集中隐藏的知识直接从GT引入到所有分支中。可以写成：0L ce = �- g log( p i ) � (2)0其中g，pi分别表示来自softmax层输出的GT和预测值；i∈{1，...，N}，其中N表示训练期间SegHeads的数量，在我们的实验中N =3（参见Fig4）。此外，我们使用类别加权[41]来平衡不同的类别。0KL散度损失。第二个监督是KL散度损失。我们使用KL散度来衡量两个分布之间的差异。它可以通过计算学生和教师之间的softmax输出来获得。在教师的指导下，学生的SegHeads的分布可以逼近教师的分布，这表明了蒸馏的监督。可以通过以下方式获得：0L kl = � p N log( p N0p i ) � (3)0L2损失。最后一个监督是L2损失，通过减小学生分支和教师分支之间的特征图之间的距离来工作。通过这种方式，特征图中的知识被蒸馏到学生的瓶颈层中。0L l2 = ∥ f i - f N ∥ 2 2 (4)0请注意，教师模型的最后两个损失为零，这意味着教师模型中的监督仅来自GT。最重要的是，在没有蒸馏的情况下，我们将其称为基本损失Lb。对于学生，我们收集所有监督以获得自我蒸馏损失Ls。同时，为了使融合过程更加互动，我们采用三个超参数来平衡它们。0L total = L b + L s，0i = N L ce+0i = 1（α * L ce + β * L kl + γ * Ll2）。450604. 实验0我们通过在真实世界数据集上进行全面的实验来评估我们模型的有效性。在以下各小节中，我们首先介绍数据集和实现细节，然后报告与最先进方法相比的定量和定性结果。最后，我们对提出的组件进行一系列消融实验。04.1. 数据集0我们在Stanford2D-3D-S数据集[1]上评估我们的方法，该数据集包含13个类别的1413个真实世界全景RGB-D图像。该数据集包含六个大规模室内区域，并提供以ERP格式的语义标签作为注释。此外，全景图像的分辨率为2048 ×4096，并且顶部和底部包含黑色空白区域。按照之前的工作，我们报告了3折交叉验证分割的平均定量结果。04.2. 实现细节0我们在三个分辨率上进行实验：64 × 128、256 × 512和1024 × 2048。我们使用Adam[18]优化器在GTX 3090GPU上训练我们的学习模型，批量大小分别设置为16、8和2。对于低分辨率（前两个）输入，我们使用残差UNet风格的架构作为骨干网络[8]，[17]，[41]，并将专用内核替换为平面内核。对于高分辨率（最后一个）输入，我们采用在COCO[20]上预训练的ResNet-101作为骨干网络[11]，[33]，以捕捉更大的感受野。受[5]，[16]的启发，我们采用多项式学习率策略，其中基础学习率乘以(1-iter)。0max iter ) power with power = 0 . 9 . 学习率设置为 1× 10^(-3)，max iter = 300 用于低分辨率，学习率设置为1 × 10^(-4)，max iter = 60用于高分辨率。为了防止过拟合，我们采用了随机裁剪输入图像的策略，并用黑色掩膜填充该区域，其中孔的大小从集合 {20×40，80×160，320×640}中选择。在我们的损失函数中，我们设置 α = 0.7，β =0.3，γ = 0.003。04.3. 结果与分析04.3.1 与最先进方法的比较0在本小节中，我们在360°语义分割上与最先进的方法进行了定量和定性评估，可以获得相同数据集上的数值结果或分割图。此外，我们分析了模型复杂性，以证明我们的方法在模型复杂性和性能之间取得了更好的效率平衡。0表1.在Stanford2D3D数据集上的定量评估。注意，结果是在3个fold上平均的。关于不同高分辨率的原因，请参考第4.3节。0H×W 输入方法发表年份 mIoU ↑ mAcc ↑0低分辨率输入064×1280RGB-D Gauge Net [8] ICML'19 39.4 55.9 RGB-DUGSCNN [17] ICLR'19 38.3 54.7 RGB-D HexRUNet[41] ICCV'19 43.3 58.6 RGB-D SWSCNN [12]NeruIPS'20 43.4 58.7 RGB-D TangentImg [11]CVPR'20 37.5 50.2 RGB-D HoHoNet [33] CVPR'2140.8 52.1 RGB-D 我们的方法 - 47.2 61.20256×5120RGB-D TangentImg [11] CVPR'20 41.8 54.9 RGB-DHoHoNet [33] CVPR'21 43.3 53.9 RGB-D PanoFormer[29] ECCV'22 48.9 64.5 RGB-D 我们的方法 - 53.8 66.50高分辨率输入512×1024 RGB Trans4PASS [42] CVPR'22 52.1 -1024×2048 RGB HoHoNet [33] CVPR'21 52.0 65.0 2048×4096 RGBTangentImg [11] CVPR'20 45.6 65.2 512×1024 RGB 我们的方法 -52.2 65.6 1024×2048 RGB 我们的方法 - 52.4 65.902048×4096 RGB-D TangentImg [11] CVPR'20 51.9 69.1 1024×2048RGB-D HoHoNet [33] CVPR'21 56.3 68.9 1024×2048 RGB-D我们的方法 - 57.1 69.90定量评估：表1显示了在不同输入分辨率上与当前最先进方法的定量比较结果。很明显，我们的方法在所有指标上都显著优于其他方法。从这些最低分辨率的评估中，我们可以得出以下结论：（i）与直接从球面学习失真感知表示的球面CNN方法[8]，[12]，[17]相比，我们的方法避免了在平面和球面之间进行复杂的卷积设计，显示出更有前景和灵活性。（ii）与将360°图像投影到二十面体格式的容忍失真方法[11]，[41]相比，我们的方法只需要ERP作为输入，省略了转换过程。例如，我们的方法在mIoU上比装备了特殊非矩形核的HexRUNet[41]有显著的改进，mIoU提高了约9%，mAcc提高了约4%。（iii）由于引入了垂直表示，在学习阶段提供了失真分布的指导并在水平方向上扩大了感受野，我们的方法在最低分辨率上的mIoU和mAcc都比仅使用水平表示的[33]提高了17%。为了进一步证明我们方法的普适性，我们在其他分辨率上进行了实验。可以观察到，我们的网络在256×512分辨率上取得了令人满意的结果，与基于CNN的方法相比，mIoU至少提高了24%，mAcc提高了23%。此外，我们在mIoU上取得了10%的改进。�40.6352.65��42.7655.00��43.3555.84��44.7157.0345070图5. 64×128（左）和256×512（右）分辨率上分割结果的定性评估。黑色矩形用于突出显示差异。0表2. 参数数量、FLOPs和每秒帧数（FPS）。0方法 FLOPs(G) FPS 参数(M)0HoHoNet [33] 2.15 49 12.75我们的方法 2.71 37 21.840与最近基于Transformer的方法相比，我们的方法在mIoU上提高了2%，在mAcc上提高了3%，这些方法擅长聚合长程信息。不幸的是，由于我们设备的限制，我们无法像[11]那样在更高的分辨率（2048×4096）上训练我们的网络。与[33]和[42]类似，我们只能在较低的1024×2048和512×1024分辨率上使用ResNet-101作为骨干网络进行训练，同时使用较小的批量大小和通道维度。从经验上讲，这些设置可能会降低我们的性能，但我们仍然在表中报告了SOTA。最后，我们还认为随着分辨率的增加，性能的提升减少，因为我们将图像压缩为1D，使其难以恢复2D信息。但与这些方法相比，我们的架构更简单、更高效，无需嵌入或投影过程。0定性评估：图5显示了在Stanford2D3DS数据集上与[33]进行比较的定性结果。从图中可以看出，我们的方法在所有室内场景上表现良好，而水平表示方法在具有扭曲或复杂上下文信息的区域尤其在分割结果方面表现较差。由于两种表示之间的互补关系，我们的方法具有更大的感受野和足够的形变信息。例如，沿水平方向具有强分布而沿垂直方向较弱的类别（见图5（左）前两行）在HoHoNet中表现较差。因为这些像素在每列中占比很小，在压缩高度维度时将被省略并且难以恢复。相比之下，我们的垂直表示在另一个维度上感知到了这种分布0表3.我们的360°语义分割方法的关键组件消融研究。实验分辨率：64×128。0H V M P mIoU mAcc0并将其补充到解码模块中。总体而言，我们的方法从局部细节（感受野）到全局分布（形变形状）实现了更好的性能，这得益于设计的模块。更多的定性结果包含在补充材料中。0模型复杂性分析：我们进一步在一个GTX 2080TiGPU上与[33]进行了三个指标的比较，以评估模型的复杂性和效率。如表2所示，我们的方法提供了可接受的更高计算复杂性，但实现了更好的性能。04.3.2消融研究0为验证我们方法中不同组件的有效性，我们进行了消融研究，如表3和表4所示。请注意，所有实验结果都是在最低分辨率输入上评估的。0双向表示的有效性：我们去除了自我蒸馏来探索结合两种表示（水平（H），垂直（V））的有效性。具体而言，我们在没有其他关键方案（Mix-MLP（M），PPC（P））的情况下实现了我们的模型，并提供了配备不同表示的变体的定量结果。从表3（前三行）可以看出，联合表示的性能优于仅有的VDBHDBEBVDBHDBEBmIoU mAcc mIoU mAcc mIoU mAcc mIoU mAcc mIoU mAcc mIoU mAcc138.68 50.16 44.91 56.11 47.08 58.0545.12 57.29 49.34 61.06 50.48 61.93233.48 48.72 36.19 51.68 38.23 52.3737.22 53.90 40.41 57.00 40.87 57.83341.19 53.71 46.59 59.39 48.82 60.6846.30 61.12 49.20 63.57 50.35 63.8445080图6.我们的360°语义分割方法的视觉消融比较。（a）全景图像。（b）真值。（c）VDB无自我蒸馏。（d）VDB自我蒸馏。（e）HDB无自我蒸馏。（f）HDB自我蒸馏。（g）EB无自我蒸馏。（h）EB自我蒸馏。0表4. 使用自我蒸馏策略的消融研究。分辨率：64 × 128。0折叠0无自我蒸馏有自我蒸馏0使用单向表示，这表明我们的网络从两个互补的角度获取信息以提高准确性。此外，我们可以观察到 H 的性能优于V，这证明了垂直表示包含隐式畸变先验并模糊了内容。0M c中组件的有效性：随后，我们逐步添加被移除的组件以展示不同的分割性能。请注意，我们使用Conv2D层来压缩而不使用 M。从表3（最后三行）可以看出，mIoU从42.76提高到44.71，增长了4.6％，mAcc从55.00提升到57.03，增长了3.7％。还可以发现，我们的网络利用从 M中获得的有用位置信息实现了令人满意的结果。对于压缩策略，P提供了大的感受野和充足的上下文信息，使我们的模型进一步改进，并在mIoU上超过了单个Conv2D层3.1％，在mAcc上超过了2.1％。最后，完成的框架取得了最佳结果，证明了我们提出的组件的有效性。0自我蒸馏的有效性：由于不同的表示之间存在严重的特征域差距，很难和谐地整合它们。因此，自我蒸馏在我们的方法中起到了促进双向表示融合的作用。此外，与其他知识蒸馏方法不同，我们没有进行预训练。0大型教师模型，我们通过将网络直接分为学生模型（VDB和HDB）和教师模型（EB）来利用自我蒸馏。为了验证这种策略的效果，我们尝试移除学生模型的所有监督，这意味着来自教师和数据集的知识被阻碍。定量结果如表4所示，我们报告了三个折叠的详细语义分割结果。从表4可以得出结论，通过自我蒸馏，所有分支都获得了显著的改进，这表明精心设计的训练技术可以促进双向表示的交互并显著提高分割性能。我们还在图6中呈现了定性比较结果。05. 结论0在本文中，我们提出了一种新颖的全景语义分割网络，从互补的角度结合了水平和垂直表示，能够扩展有限的水平感受野并提供隐式畸变先验。为了整合互补的双向表示，我们设计了一种独特的自我蒸馏策略，以增强不同表示之间的交互并使预测的分割图更准确。由于所提出的互补表示的好处，我们的方法在真实世界的数据集上明显优于现有的解决方案。致谢：本工作得到了中国国家自然科学基金（编号62172032，62120106009）的支持。45090参考文献0[1] Iro Armeni, Sasha Sax, Amir R Zamir, and Silvio Savarese.室内场景理解的联合2D-3D-语义数据.arXiv预印本arXiv:1702.01105, 2017.0[2] Ronald T Azuma. 增强现实综述. Presence: teleoperators &virtual environments, 6(4):355–385, 1997.0[3] Hessam Bagherinezhad, Maxwell Horton, MohammadRastegari, and Ali Farhadi. 标签精炼:通过标签进展改进ImageNet分类. arXiv预印本arXiv:1805.02641,2018.0[4] Ignas Budvytis，Marvin Teichmann，TomasVojir和RobertoCipolla。通过全局唯一实例坐标回归进行大规模联合语义重定位和场景理解。arXiv预印本arXiv:1909.10239，2019年。0[5] Liang-Chieh Chen，George Papandreou，IasonasKokkinos，Kevin Murphy和Alan LYuille。Deeplab：使用深度卷积网络，空洞卷积和全连接CRF的语义图像分割。IEEE模式分析与机器智能交易，40(4)：834-848，2017年。0[6] Bowen Cheng，Alex Schwing和AlexanderKirillov。像素级分类对于语义分割并不是唯一需要的。神经信息处理系统的进展，34：17864-17875，2021年。0[7] Xiangxiang Chu，Zhi Tian，Bo Zhang，XinlongWang，Xiaolin Wei，Huaxia Xia和ChunhuaShen。视觉变换器的条件位置编码。arXiv预印本arXiv:2102.10882，2021年。0[8] Taco Cohen，Maurice Weiler，Berkay Kicanaoglu和MaxWelling。标准等变卷积网络和二十面体CNN。在国际机器学习会议上，页码为1321-1330。PMLR，2019年。0[9] Greire Payen de La Garanderie，Amir AtapourAbarghouei和Toby PBreckon。消除盲点：将3D目标检测和单目深度估计适应于360度全景图像。在欧洲计算机视觉会议(ECCV)论文集中，页码为789-807，2018年。0[10] Alexey Dosovitskiy，Lucas Beyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner，Mostafa Dehghani，Matthias Minderer，GeorgHeigold，SylvainGelly等。一张图像值得16x16个单词：用于图像识别的变换器。arXiv预印本arXiv:2010.11929，2020年。0[11] Marc Eder，Mykhailo Shvets，John Lim和Jan-MichaelFrahm。切线图像用于减轻球面畸变。在IEEE/CVF计算机视觉和模式识别会议论文集中，页码为12426-12434，2020年。0[12] Carlos Esteves，Ameesh Makadia和KostasDaniilidis。自旋加权球形CNN。神经信息处理系统的进展，33：8614-8625，2020年。0[13] Saurabh Gupta，Judy Hoffman和JitendraMalik。用于监督转移的交叉模态蒸馏。在计算机视觉和模式识别的IEEE会议论文集中，页码为2827-2836，2016年。0[14] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。用于图像识别的深度残差学习。在计算机视觉和模式识别的IEEE会议论文集中，页码为770-778，2016年。0[15] Geoffrey Hinton，Oriol Vinyals，JeffDean等。提取神经网络中的知识。arXiv预印本arXiv:1503.02531，2015年。0[16] Zilong Huang，Xinggang Wang，Lichao Huang，ChangHuang，Yunchao Wei和W

下载后可阅读完整内容，剩余1页未读，立即下载