全景图像的畸变感知Transformer

150 浏览量更新于2023-10-25 收藏 28.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

169170弯曲现实：适应全景语义分割的畸变感知Transformer0Jiaming Zhang 1 Kailun Yang 1 * Chaoxiang Ma 2 Simon Reiß 1, 3 Kunyu Peng 1 Rainer Stiefelhagen 101 CV:HCI实验室，卡尔斯鲁厄理工学院 2 字节跳动公司 3 卡尔蔡司股份公司0摘要0全景图像以其360°方向视图包含了周围空间的详尽信息，为场景理解提供了丰富的基础。为了以稳健的全景分割模型展现这种潜力，大量昂贵的像素级注释对于成功至关重要。这样的注释是可用的，但主要适用于狭角针孔相机图像，这些图像作为现成的资源对于训练全景模型来说是次优的。360°全景图像中的失真和不同的图像特征分布阻碍了从注释丰富的针孔领域进行转移，因此性能受到了很大的影响。为了解决这种领域差异并将针孔和360°全景视觉的语义注释结合起来，我们提出了学习物体变形和全景图像失真的可变形补丁嵌入（DPE）和可变形MLP（DMLP）组件，它们融入到我们的全景语义分割的Transformer模型（Trans4PASS）中。最后，我们通过生成多尺度原型特征并在我们的无监督域自适应的Mutual PrototypicalAdaptation（MPA）中对它们进行对齐，将针孔和全景特征嵌入中的共享语义联系起来。在室内Stanford2D3D数据集上，我们的Trans4PASS与MPA保持了与完全监督的最新技术相当的性能，减少了对超过1400个标记全景图像的需求。在室外DensePASS数据集上，我们将最新技术的mIoU提高了14.39%，将新的标准提高到了56.38%。101. 引言0全景360°相机在自动驾驶车辆的全方位感知[13,75]和为增强和虚拟现实带来沉浸式观看体验等领域受到越来越多的关注0*通讯作者（电子邮件：kailun.yang@kit.edu）。代码将在https://github.com/jamycheung/Trans4PASS上公开。0(c) 原始PE0(a) 针孔图像 (b) 全景图像0(d) 可变形PE0图1：（a）狭角针孔图像和（b）360°全景图像的语义分割。与（c）标准的补丁嵌入相比，我们的（d）可变形补丁嵌入在考虑失真的情况下对360°图像进行分割，例如人行道。0显示[69,71]。与使用针孔相机捕获的图像相反，全景图像提供全方位的感知，有利于检测道路场景对象和室内场景元素[13,20]。特别是在全景图像上进行密集的语义分割，有助于对周围环境进行高级整体像素级理解[45, 73]。0全景语义分割通常在使用等距投影转换的2D全景图上进行[58,75]，这伴随着图像失真和物体变形（见图1）。此外，在360°图像领域，标记数据稀缺，这要求模型训练必须在语义匹配的狭视场针孔数据集上进行。这两种情况导致全景分割的性能明显下降，与针孔对应物相比[72]，因此必须得到适当的解决。考虑到全景图像的复杂性，提出了卷积变体[10,55,59]和注意力增强模型[75]来减轻图像失真并扩大卷积神经网络（CNNs）的感受野。然而，它们在处理从针孔到全景数据的严重变形方面仍然是次优的，并且无法在超宽的360°图像中建立远程上下文依赖关系，这对于准确的语义分割至关重要[17, 94]。169180鉴于这些挑战，我们提出了一种用于全景语义分割的Transformer架构（Trans4PASS），并通过两个新颖的设计选择克服了图像失真和物体变形的问题：我们的可变形补丁嵌入（DPE）位于早期图像序列化和中间特征解释阶段，使模型能够学习特征全景图像失真并保留语义。其次，在特征解析阶段使用可变形MLP（DMLP）模块，我们将学习到的空间偏移与补丁混合，以增强全局上下文建模。考虑到标签丰富的针孔域和标签稀缺的全景域之间的挑战性不匹配，我们还可以通过无监督域自适应（UDA）来解决，将带标签的2D针孔图像视为源域，360°全景图像视为目标域。根据之前的工作[45, 75]，我们将这种情况称为P IN 2PAN。从这个学习问题的角度来看，这对于规避昂贵的全景图像注释过程并满足训练鲁棒分割Transformer所需的大规模注释数据[94]是至关重要的。与常见的对抗学习[44]和伪标签自学习[97]方法不同，我们提出了互补原型适应（MPA），它为针孔和全景多尺度特征嵌入生成互补原型，提取两个域的原型知识，这对于域分离蒸馏[84]是有利的。此外，我们展示了MPA如何以联合方式使用伪标签，并在特征空间中提供互补的对齐激励。为了验证我们的解决方案在各种场景中的泛化能力，我们在室内和室外全景数据集（即Stanford2D3D [1]和DensePASS[45]基准）上评估了Trans4PASS。在DensePASS上，它的mIoU结果超过了之前最好的结果[88]超过10.0%。我们的解决方案在Stanford2D3D上取得了无监督方法中的最佳性能，甚至比许多竞争的有监督方法排名更高。总之，我们提供了以下贡献：0(1)我们在全景语义分割的失真感知Transformer（Trans4PASS）中考虑了全景失真，使用可变形补丁嵌入和可变形MLP0(2) 我们提出了互补原型适应（Mutual PrototypicalAdaptation），通过在特征空间和输出空间中结合伪标签，将双域原型知识融入模型中，提高性能。0(3) 我们从P IN 2PAN转移模型的框架在两个竞争基准测试中取得了出色的结果：在Stanford2D3D上，我们避免使用1400个昂贵的全景标签，同时实现了可比较的结果；在DensePASS上，我们将mIoU的最先进性能提升了14.39%。02. 相关工作0语义和全景分割。自从FCN[43]提出了端到端的全密集语义分割以来，密集语义分割取得了长足的进展。后续的工作在FCN的基础上进行了改进，通过扩大感受野[23, 93]和改进上下文先验[29,80]来提高性能。受非局部块[66]的驱动，自注意力[63]被整合到FCN中，学习长距离依赖关系[17,26]。目前，一些基于Transformer骨干的架构[15,61]出现了。然后，图像感知从序列到序列学习的角度来看，出现了密集预测Transformer [42,82]和语义分割Transformer [57,94]。最近，类似MLP的架构[36, 39,60]交替进行空间和通道混合，引起了对识别任务的兴趣。大多数方法都是为狭视场图像设计的，并且在360°领域中往往会出现较大的准确性下降。在这项工作中，我们解决了全景分割问题，提出了一种新颖的Transformer架构，该架构在设计中已经考虑了广泛的视场，并通过基于MLP的混合处理全景特定的语义分布。通过捕捉广阔的视场场景，全景图像可以作为更全面的场景理解的起点。室外全景分割工作依赖于鱼眼相机[14, 54, 77, 79]或全景图像[27, 47, 70,74]进行无缝的360°解析。另一方面，室内方法专注于减轻失真的表示[28, 33, 55]或多任务方案[40, 58,85]。大多数这些工作都假设在目标全景域中有标记图像可用。我们取消了对标记目标数据的要求，并规避了在复杂的现实环境中确定像素级语义的昂贵注释过程。因此，与以前的工作不同，我们通过无监督迁移学习的视角来看待问题，并引入了针孔到全景（P IN 2PAN）自适应方法，以从丰富且易于获取的针孔数据集中获益。在实验中，我们的全景分割Transformer架构适用于室内和室外场景。无监督域自适应。域自适应已经得到了深入研究，以提高模型对未知域的泛化能力，有两种主要的范式，一种是基于自训练的方法[8, 21,92]，另一种是基于对抗学习的方法[2, 22,62]。自训练方法通常通过逐步改进来创建伪标签进行适应[37]，而对抗解决方案利用GANs[18]的思想进行图像转换[22, 35]，或者在布局匹配[25,34]和特征一致性[44,45]中强制对齐。进一步的自适应方法考虑不确定性减少[56,95]，模型集成[4, 76]，类别级对齐[41,46]，或对抗熵最小化[49,64]。与我们的工作相关的是，PIT[19]通过视场适应解决了相机差异问题，而2x upDPEDPEDPEDPEDMLPMLP2x up2x up2x upMLPDMLPMLPDMLPMLPDMLP4x up8x upconvconvconvconv2x up4x up8x upMLPMLPMLPMLPCDPESpherical topological images captured by 360◦ cam-eras occupy a polar coordinate system with θ∈[0, 2π) andϕ∈[0, π]. To represent it in 2D space, the spherical data isusually converted into a panoramic format in euclidean-likespace through the equirectangular projection. This processleads to severe shape distortions in the projected panoramicimage, as seen in Fig. 1. Therefore, a common PE modulewith fixed sampling positions does not respect these shapedistortions of objects and the overall scene. Inspired bydeformable convolution [12] and overlapping PE [68], wepropose Deformable Patch Embeddings (DPE) and employthem on the input to the encoder and the decoder, split-ting panoramic images and features. Given an input im-age or feature map f∈RH×W ×Cin, a standard PE mod-ule [15, 68] splits it into a flattened 2D patch sequence169190(a) 带有类似FPN解码器的Transformer (b) 带有vanilla-MLP的Transformer (c) 带有DPE和DMLP的Trans4PASS0图2：分割Transformer的比较。Transformer (a) 借用了CNN对应模型中的类似FPN解码器[94]，或者 (b)采用了vanilla-MLP解码器[68]进行特征融合，但缺乏补丁混合。 (c) Trans4PASS集成了可变形补丁嵌入（DPE）和可变形MLP（DMLP）模块，具备处理畸变（参见扭曲地形）和混合补丁的能力。0P2PDA [45]首次通过学习注意力对应关系来解决 P IN 2PAN的转换问题。除了畸变自适应的架构设计之外，我们从特征原型自适应的角度重新审视了 P IN 2P AN分割问题，通过类别原型来提取全景知识。与使用源域和目标域的个别原型的方法[84，91]不同，我们提出了互相原型自适应，共同利用源域和目标域的特征嵌入来提升超出视野范围的转换。03. 方法0在这里，我们提出了全景语义分割框架。在第3.1节中，我们介绍了用于捕捉畸变感知特征和长程依赖性的Trans4PASS架构，详细描述了可变形补丁嵌入和可变形MLP模块。在第3.2节和第3.3节中。最后，我们在第3.4节中概述了使用互相原型特征的域自适应方法。03.1. Trans4PASS 架构0为了研究全景语义分割中的Transformer模型，我们创建了两个版本的Trans4PASS模型（T：Tiny和S：Small）。我们都使用四个阶段构建，对于小型模型，每个阶段包含 2层，对于小型版本，阶段有 3、4、6 和 3层。如图2所示，金字塔阶段受到最近Transformer的启发[65，68]，它们在更深的层次上减小特征尺度。给定一个输入图像，尺寸为 H × W × 3，Trans4PASS使用补丁嵌入（PE）模块[68]将图像分割成补丁。为了处理全景图像中的严重畸变，我们提出了一种特殊的可变形补丁嵌入（DPE）模块，并将其应用于编码器和解码器（图2c）。在编码器中，第 l 阶段的每个特征图 f l ∈{ f 1 , f 2 , f 3, f 4 } 都通过第 l 步长 ∈{ 4 , 8 , 16 , 32 }进行下采样。通道维度 C l ∈{ 64 , 128 , 320 , 512 }逐渐增加。与图2中的类似FPN的解码器[94]和基于vanilla-MLP的解码器[68]不同，我们提出了可变形MLP（DMLP）解码器结构，它通过DPE混合提取的特征补丁。给定提取的特征0从编码器中获取多个尺度的特征层次结构后，四个可变形解码器层将特征层次结构处理成一致的形状 H04 × C emb ，其中我们设置结果嵌入通道数 C emb=128。随后的线性层将 128通道的输出转换为相应任务的语义类别数。03.2. 可变形补丁嵌入0s 2 是补丁的数量，s是每个补丁的宽度和高度。这个序列中的每个元素都通过线性投影层传递，将其转换为 Cout 维度的嵌入。考虑一个表示大小为 s × s 的矩形的单个补丁 z，其中有 s 2个位置。我们可以定义相对于补丁中的位置 ( i, j ) | i, j ∈ [1 , s ] 的位置偏移量 ∆ ( i,j ) ∈N 2。在标准的 PE 中，这些偏移量是固定的，并且位于 ∆ ( i,j ) ∈ [ �− s02 � ] 2 . 以一个 3 × 3 的补丁为例，相对于中心的偏移量 ∆ ( i,j ) 会位于 [ − 1 , 1] × [ − 1, 1]范围内。由于我们想要处理全景图像，这些图像会从等距投影中继承畸变，我们可以直接在 PE中解决这种降级问题。为此，在我们的可变形补丁嵌入（DPE）中，我们使模型能够学习一个数据相关的偏移量 ∆ DP E ∈ N H × W × 2。0可以更好地处理物体之间的空间连接，如扭曲补丁中所示。DPE是可学习的和预先投影的。, g(f)(i,j)), Hr ), g(f)(i,j)), Wr )ˆz(k,c) =(3)169200基于原始输入 f 计算相对偏移量字典。偏移量 ∆ DP E ( i,j )的计算如等式（1）所示。0∆ DP E ( i,j ) = min(max( − H0，（1）0其中 g ( ∙ )是偏移预测函数，我们通过可变形卷积操作[12]来实现。超参数 r 对偏移进行约束，在我们的实验中设置为 4。学习到的偏移使得DPE具有自适应性，并且能够感知扭曲。在之前的工作中，DPT[7]在后期阶段应用非重叠的PE和基于锚点的偏移，PS-ViT[83]使用渐进采样模块与之前的迭代耦合，DeformableDETR[96]利用可变形注意力增强特征图。与这些之前的工作不同，我们提出的DPE是为像素密集的预测任务设计的，可以灵活地替换原始PE，而无需耦合之前的迭代。直观地说，使用DPE提供的模型可以从针孔图像中获益，并通过学习来适应全景图像中的扭曲。03.3. 可变形MLP0除了编码器的具体设计外，具有自适应特征解析能力的解码器对于分割变换器[68，89]至关重要。如图2a所示，一些变换器[94]从CNN对应物[38]中借用了类似FPN的解码器，其感受野仅限于最后阶段的特征分辨率[65]。SegFormer[68]借鉴了基于多层感知器（MLP）模型[60]的思想，并集成了一个普通的MLP来组合特征（图2b），但没有考虑成像数据中的扭曲。接下来，我们提出了一种将Transformers中的自注意力与360°图像的变形特性关联起来的机制。将这两者联系起来，可以从长程依赖中获益，用于密集场景解析，并在处理全景场景时保持这种改进。为了在可管理的计算复杂性下实现这种扭曲感知属性，我们提出了可变形MLP（DMLP）模块。在解码器的每个阶段中，DMLP在通道维度上混合补丁，但具有特别大的感受野，这改善了前述DPE提供的特征的解释。图3显示了基于MLP的建模的差异：普通的MLP（见图3a）执行传统的线性投影，不学习任何空间上下文；CycleMLP（见图3b）通过手工制作的固定偏移量在混合补丁及其通道之间具有有限的空间感受野；在图3c中，提出的DMLP以更广范围和自适应的方式生成了学习到的空间偏移（顶部）。给定输入特征图 f ∈ R H × W × C in，空间偏移 ∆ DMLP ( i,j,c )按照等式（1）逐通道预测，并且0投影0展平0（a）MLP（b）CycleMLP（c）DMLP0图3：MLP块的比较。DMLP的空间偏移是从输入特征图中自适应学习的。0然后将其展平为 ∆ DMLP ( k,c ) ，其中 k ∈ HW 且 c ∈ C in，用于混合展平的补丁特征 z ∈ R HW × C in ，如下所示：0HW0c =1 w T ( k,c ) ∙ z ( k + ∆ DMLP (k,c ) ,c ) ，（2）0在全连接（FC）层中，w ∈ R C in × C out是权重矩阵。如图2c所示，解码器的结构与MLP-Mixer块[60]类似，由DPE、DMLP和MLP模块组成。保留残差连接。形式上，四阶段的解码器表示为：0ˆ z l = DPE(C_l, C_emb)(z_l), � l ∈{1, 2, 3, 4} ˆ z l =DMLP(C_emb, C_emb)(ˆ z l) + ˆ z l, � l ˆ z l = MLP(C_emb,C_emb)(ˆ z l) + ˆ z l, � l ˆ z l = Up(H/4, W/4)(ˆ z l), � l0p = LN(C_emb, C_K)0l =1 ˆ zl),0其中Up(∙)和LN(∙)分别表示上采样和层归一化操作，p是K类的预测。03.4. 互补原型自适应0由于全景图像中缺乏大规模的训练数据，我们从语义原型的角度研究了从针孔到全景的域自适应问题。我们提出了互补原型自适应（MPA）方法，通过原型来提取知识，这些原型是通过源域的真实标签和目标域的伪标签培养出来的。伪标签依赖于针孔和全景图像中的少数共同属性，例如前视角的场景分布。虽然相关的PCS方法进行了域内和域间实例原型学习，但我们的互补原型是从源特征嵌入f_s和目标特征嵌入f_t中学习得到的，并投影到一个共享的潜在空间中，并存储在一个动态的存储器中，如图4所示。与PCS的主要区别在于：（1）互补原型是通过连接来自两个域的嵌入来构建的；（2）我们的方法利用了使用不同输入尺度的多尺度金字塔特征来计算嵌入，从而得到更强大的原型。LsSEG = −ys(i,j,k)log(ps(i,j,k)),(4)LtSSL = −ˆyt(i,j,k)log(pt(i,j,k)),(5)update169210给定带有注释图像的源（针孔）数据集D_s = {(x_s, y_s) |x_s ∈ R H × W × 3, y_s ∈{0, 1} H × W ×K}和没有注释的目标（全景）数据集D_t = {(x_t) | x_t ∈ RH × W ×3}，域自适应的目标是从源域学习语义并将其转移到具有K个共享类别的目标域。网络在D_s上基于分割损失进行训练：0H,W,K ∙0其中p_s(i,j,k)表示在源域上预测像素x_s(i,j)为第k类的概率。为了将源预训练模型推广到目标数据，一种典型的自监督学习（SSL）方案根据目标域中像素x_t(i,j)的伪标签ˆy_t(i,j,k)优化模型：0H,W,K ∙0其中伪标签由模型预测中最可能的类别给出：ˆy_t(i,j,k) =1_k = arg max p_t(i,j,:).然而，使用硬伪标签进行训练会使模型对自身预测中的错误变得敏感和脆弱，并且对性能只有有限的积极影响。因此，我们提倡在特征空间中基于原型的对齐，这带来了两个好处：（1）通过在特征空间中使用伪标签而不是直接作为目标，它使硬伪标签变得柔和；（2）它在特征空间中执行语义相似性的互补对齐。具体而言，给定一个包含所有n_s个源特征图和n_t个目标特征图的集合F = {f_s1, ..., f_sn_s} ∪{f_t1, ...,f_tn_t}，其中特征图f是由四阶段多尺度特征f_l融合而成的。每个特征图要么与其相应的源地面真实标签关联，要么与目标伪标签关联。为了计算具有原型P_k的互补原型存储器M= {P_1, ...,P_K}，我们取F中所有共享类别k的特征向量（像素嵌入）的均值。我们通过计算整个数据集上的类别均值嵌入来初始化M，并且在训练过程中，我们通过在线更新原型P_k来更新M，其中P_t+1_k ← mP_t-1_k + (1-m)P_t_k，其中m =0.999是动量参数，P_t_k是当前小批量中共享类别k的嵌入的均值像素嵌入。该过程的概述显示在图4中。互补原型自适应损失受知识蒸馏损失的启发，该损失使特征嵌入f与原型特征图ˆf对齐，ˆf是通过将原型P_k按像素级类别分布堆叠而成的。得到的目标ˆf与f具有相同的形状。为简洁起见，只展示了源域。0针孔图像0全景图像0Trans4PASS0相互0原型记忆0图4：相互原型适应的示意图。0在公式（6）中，与目标域相似。0Ls MPA =0− (1 − λ) CE(ys, ϕ(fs)), (6)0其中KL(∙)、CE(∙)和ϕ(∙)分别是Kullback-Leibler散度、交叉熵和Softmax函数。在我们的实验中，温度T和超参数λ分别为20和0.9。最终损失与权重α=0.001相结合，如下所示：0L = Ls SEG + Lt SSL + α (Ls MPA + Lt MPA).(7) 4. 实验04.1. 数据集和设置0室内针孔图像数据集。Stanford2D3D [ 1]（简称SPin）有70,496个针孔图像。该数据集是在室内区域收集的，并用13个类别进行了注释。结果是在3个官方折叠上平均得出的，除非另有说明。室内全景图像数据集。Stanford2D3D [ 1]（简称SPan）有1,413个全景图像。这些图像与其针孔图像数据集具有相同的13个类别的注释。室外针孔图像数据集。Cityscapes [ 11]（简称CS）数据集包括2,979个训练图像和500个验证图像。图像用19个类别进行了注释。室外全景图像数据集。从世界各地的城市收集的DensePASS [ 45]（简称DP）用于转移优化，有2,000个图像，并有100个带标签的测试图像，这些图像与Cityscapes具有相同的19个类别的注释。实现设置。我们使用4个1080TiGPU训练Trans4PASS模型，初始学习率为5e-5，采用多项式策略，幂为0.9，共进行200个epochs。优化器采用AdamW [ 31]，epsilon为1e-8，权重衰减为1e-4，每个GPU上的批量大小为4。图像增强包括随机调整大小（比例为0.5-2.0），随机水平翻转和随机裁剪为512×512。对于室外数据集，分辨率为1080×1080，批量大小为1。当从P IN 2PAN调整模型时，室内针孔和全景图像的分辨率为1080×1080和1024×512用于训练，而室外图像设置为1024×512和2048×400。室内和室外验证图像的尺寸SwiftNet [48]ResNet-1875.425.7-49.7Fast-SCNN [51]Fast-SCNN69.124.6-44.5ERFNet [52]ERFNet72.116.7-55.4FANet [24]ResNet-3471.326.9-44.4PSPNet [93]ResNet-5078.629.5-49.1OCRNet [81]HRNetV2p-W1878.630.8-47.8DeepLabV3+ [3]ResNet-10180.932.5-48.4DANet [17]ResNet-10180.428.5-51.9DNL [78]ResNet-10180.432.1-48.3Semantic-FPN [32]ResNet-10175.828.8-47.0ResNeSt [87]ResNeSt-10179.628.8-50.8OCRNet [81]HRNetV2p-W4880.732.8-47.9SETR-Naive [94]Transformer-L77.936.1-41.8SETR-MLA [94]Transformer-L77.235.6-41.6SETR-PUP [94]Transformer-L79.335.7-43.6SegFormer-B1 [68]SegFormer-B178.538.5-40.0SegFormer-B2 [68]SegFormer-B281.042.4-38.6Trans4PASS-TTrans4PASS-T79.141.5-37.6Trans4PASS-STrans4PASS-S81.144.8-36.3Fast-SCNN [51]Fast-SCNN41.7126.86-14.85SwiftNet [48]ResNet-1842.2834.95-7.87DANet [17]ResNet-5043.3337.76-5.57DANet [17]ResNet-10140.0931.81-8.28Trans4Trans-T [89]PVT-T41.2824.45-16.83Trans4Trans-S [89]PVT-S44.4723.11-21.361MMSegmentation: https://github.com/open-mmlab/mmsegmentation.169220网络骨干 CS DP mIoU差距0Table 1.CNN和基于transformer的模型在Cityscapes（CS）@1024×512到DensePASS（DP）的性能差距。0网络骨干 SPin SPan mIoU差距0Trans4PASS-T Trans4PASS-T 49.05 46.08 -2.970Trans4PASS-S Trans4PASS-S 50.20 48.34 -1.860表2.从Stanford2D3D-Pinhole（SPin）到Stanford2D3D-Panoramic（SPan）数据集的性能差距（fold-1）。0两个数据集分别为2048×1024和2048×400。适应模型在一个GPU上进行了10000次迭代的训练。04.2. P IN 2P AN间隙0室外场景中的领域差距。为了量化室外场景中的P IN 2PAN领域差距，我们评估了在Cityscapes上训练的15个现成的分割模型。表1总结了在Cityscapes和DensePASS验证集上的测试结果。虽然之前的transformer [68,94]将基于CNN的对应物的mIoU差距从约50%减小到约40%，但P IN 2PAN差距仍然很大。所提出的Trans4PASS架构在针孔图像分割上具有很高的性能，并且在全景分割方面也优于其他方法，mIoU为44.8%，而无需任何适应策略。这表明，与CNN的高层次学习的上下文相比，变形感知特征和远程线索在Transformer的低层次和高层次中都得到了保留，对于广角全景分割非常重要。室内场景中的领域差距。表2显示了室内场景中的P IN 2PAN领域差距。由于Stanford2D3D的针孔图像和全景图像是在相同的0网络编码器解码器 GFLOPs #P CS DP0（1）比较PE和MLP：0Trans4PASS MiT-B1 * DMLP 13.11 13.10 69.48 36.50 Trans4PASSMiT-B1 † CycleMLP [5] 9.83 13.60 73.49 40.16 Trans4PASS MiT-B1 †ASMLP [36] 13.40 14.19 73.65 42.050Trans4PASS MiT-B1 † DMLP 12.02 13.93 72.49 45.89（+9.39）0（2）比较编码器和解码器：0PVT [65] PVT-T FPN 11.17 12.76 71.46 31.20 PVT [65] PVT-T Vanilla MLP14.56 12.84 70.60 32.85 PVT [65] PVT-T DMLP 13.11 13.10 71.7535.18（+3.98）0Trans4PASS PVT-T † DMLP 13.18 13.10 69.62 36.50（+5.30）0SegFormer [68]MiT-B1 Vanilla MLP 13.27 13.66 74.93 39.02 SegFormer[68]MiT-B1 FPN 9.88 13.58 73.96 41.14 SegFormer [68]MiT-B1 DMLP 11.8213.92 73.10 45.14（+6.12）0Trans4PASS MiT-B1 † DMLP 12.02 13.93 72.49 45.89（+6.87）0表3. Trans4PASS结构分析。*和†分别表示DPT[7]和我们的DPE。“#P”代表百万参数数目。模型在Cityscapes（CS）@512×512上训练，在DensePASS（DP）@2048×400上测试。0设置中，P IN 2PAN差距相对较小。尽管如此，在其他基于CNN和transformer的方法中，小型的Trans4PASS版本在针孔和全景图像分割中分别达到了50.20%和48.34%的mIoU，性能下降最小。04.3. Trans4PASS结构分析0DPE的效果。我们将DPE与DPT[7]中的DePatch进行比较。虽然DPT中的面向对象的偏移和尺度使得补丁围绕对象移动，但我们的DPE可以灵活地分割图像补丁，并且与对象提议解耦。如表3的第一组结果所示，与DPT相比，我们基于DPE的Trans4PASS在Cityscapes和DensePASS上分别增加了+3.01%和+9.39%的mIoU。0DMLP的效果。为了消除Trans4PASS解码器中嵌入的不同MLP模块的影响，我们用CycleMLP [5]和ASMLP[36]模块替换了DMLP。DMLP比ASMLP更轻，GFLOPs、参数更少，并且与CycleMLP中的固定偏移相比，它更具适应性。表3的第一组结果显示，DMLP在mIoU上的表现优于这两个模块，提高了3%到5%。0编码器和解码器的效果。使用相同的编码器作为PVT，基于DMLP的解码器相比FPN和MLP的解码器提高了+3.98%的性能，如表3的第二组结果所示。当我们的DPE应用于PVT编码器的早期阶段时，可以进一步提高+5.30%的性能。在使用SegFormer编码器的实验中，也可以看到类似的改进结果（+6.12%和+6.87%）。总的来说，这些结果表明DPE和DMLP可以集成到不同的骨干网络中，显著提高全景场景分割的变形适应性。mIoUUSSS (IDD) [30]26.9868.855.4167.3915.1021.79 13.180.127.7370.278.8485.5322.051.7158.6916.4112.010.0023.5813.90USSS (Mapillary) [30]30.8771.01 31.8576.79 12.1323.6111.933.2310.1573.11 31.2489.5916.053.8665.2724.4618.720.009.0814.48Seamless (Mapillary) [50]34.1459.26 24.4877.35 12.8230.9112.6315.89 17.7375.6133.3087.3019.694.5963.9425.8157.160.0011.5919.04SwiftNet (Cityscapes) [48]25.6750.73 32.7670.24 12.6324.0218.797.184.0164.93 23.7084.2914.910.9743.468.920.044.4512.778.77SwiftNet (Merge3) [90]32.0468.31 38.5981.48 15.6523.9120.745.950.0070.64 25.0990.9332.660.0066.9142.305.970.076.8512.66FANetP2PDA35.67DANetP2PDA41.99Trans4PASS-TP2PDA51.05Trans4PASS-SP2PDA52.91DANet-40.28DANetP2PDA42.26PVT-Tiny-24.45PVT-TinyP2PDA39.66PVT-Small-23.11PVT-SmallP2PDA43.10Trans4PASS-T-46.08Trans4PASS-TMPA47.48Trans4PASS-S-48.34Trans4PASS-SMPA52.1545°90°135°180°225°270°315°1020304050600°45°90°135°180°225°270°315°20406080road45°90°135°180°225°270°315°1020304050600°45°90°135°180°225°270°315°102030405060terrain45°90°135°180°225°270°315°102030405060700°45°90°135°180°225°270°315°1020304050607080truck45°90°135°180°225°270°315°204060800°45°90°135°180°225°270°315°102030405060bicycleIoU(%) beforeIoU(%) aftermentation. Apart from benefiting the stuff classes (road,sidewalk, and terrain), MPA improves the segmentationof object classes, such as person and truck.Due to thepanorama boundary at 180◦, IoUs of motorcycle and bicycleare impacted, still consistent and large accuracy boosts withMPA in all directions for different classes are observed.Comparison with outdoor state-of-the-art methods. InTable 4a, we compare our solution with recent panoramicsegmentation [72, 75] and domain adaptation [44, 67, 84,169230方法0道路0人行道0建筑物0墙0栅栏0杆0红绿灯0交通标志0植被0地形0人0卡车0火车0摩托车0自行车0ERFNet [ 52 ] 16.65 63.59 18.22 47.01 9.45 12.79 17.00 8.12 6.41 34.24 10.15 18.43 4.96 2.31 46.03 3.19 0.59 0.00 8.30 5.55 PASS (ERFNet) [ 72 ] 23.66 67.84 28.75 59.69 19.96 29.418.26 4.5

下载后可阅读完整内容，剩余1页未读，立即下载