没有合适的资源?快使用搜索试试~ 我知道了~
4013Trans4Map他中心语义学2413Trans4Map:用视觉变换器重新审视从自我中心图像到Allocentric语义的整体鸟瞰陈昌,张家明*,杨凯伦,彭坤宇,赖纳·施蒂费尔茨简历:卡尔斯鲁厄理工摘要人类具有与生俱来的感知周围事物的能力,能够从自我中心的感知中提取空间表征,并通过空间转换和记忆更新形成非自我中心的语义地图。然而,赋予移动代理这样的空间感知能力仍然是一个挑战,这是由于两个困难:(1)以前的卷积模型受到局部感受场的限制,因此难以在观察期间捕获整体的长距离依赖性;(2)成功所需的过多的计算预算经常导致映射流水线分成多个阶段,导致整个映射过程效率低下。为了解决这些问题,我们提出了一个端到端的单阶段基于transformer的映射框架,称为Trans4Map。我们的自我中心到他中心的映射过程包括三个步骤:(1)高效的Transformer从一批自我中心图像中提取上下文特征;(2)提出的双向他中心记忆(BAM)模块将自我中心特征投射到他中心记忆中;(3)映射解码器解析累积的存储器并预测自顶向下的语义分割映射。相比之下,Trans4Map实现了最先进的结果,减少了67。2%的 参 数 , 但 获 得 了 +3 。 25% 的 mIoU 和 +4 。 在Matterport3D数据集上进行了09%的11. 介绍整体场景理解在室内和室外应用中都具有至关重要的作用,例如,自动驾驶[30,42,43,45],室内探索和导航[17,22,28,31],以及室内和室外映射[5,6,11]。这些任务对于具有卓越空间感知能力的人来说是普通的,因为他们可以从自我中心的视角不断地提取信息,并通过记忆和空间转换构建*通讯:jiaming. kit.edu1代码:https://github.com/jamycheung/Trans4Map。图1:自我中心到他中心的语义映射。给定沿着轨迹(红色虚线)观察到的长度为N的前视图图像序列,Trans4Map执行在线提取项目段管道,产生鸟瞰图中的非中心语义图然而,语义映射仍然是人工智能移动代理的困难,特别是当探索一个陌生的环境。在这项工作中,我们专注于基于图像的语义映射任务,通过预测allo-中心的语义分割从自我中心的图像。如图所示的例子 1,给定场景中的轨迹,其由一批第一视角RGB图像和对应的已知相机姿态组成,移动代理执行三个步骤:(1)提取丰富紧凑的上下文特征;(2)将在线中间非中心记忆中的自我中心特征投射和更新为复杂空间的空间语义表征;(3)通过解码器解析并预测最终的顶视图语义映射。基于图像的自我中心到非自我中心映射管道更符合人类直觉,并且能够以有效的方式执行映射,避免了对耗时的重建阶段的需要[13]。在图2中,基于图像的语义映射方法被分成四个流水线。项目然后分段管道(图2a)将N个高分辨率观测投影到鸟瞰图(BEV)中,由于缺乏精细的视觉信息,这阻碍了小目标分割。先分段后项目的管道(图2b)在很大程度上取决于前视图分割性能,并且可能将错误从一个阶段转移到另一个阶段。离线项目-41自我中心意象23N4014存储(TB)(a) 两阶段:项目→细分(b) 两阶段:细分→项目mIoU(%)(c) 两阶段:离线项目(d) 一阶段:在线项目二阶段一期图2:语义映射管道。两级管线(a)、(b)、(c)与投影位置不同,即,早期、晚期和中期离线投影。单级流水线(d)避免了2. 5TB的存储,并具有更高的mIoU。然后分段管道(图2c)需要大规模的本地存储来保存由第一阶段的预训练编码器给出的特征图。它还需要巨大的GPU内存来重新加载第二阶段训练的离线功能与上面的两阶段管道不同,我们提出的在线项目然后分段管道(图1)。2d)执行在线隐式投影并实现端到端和资源友好的BEV语义映射。单级管道是至关重要的,因为它适合资源有限的平台,机器人此外,它有助于移动代理快速构建地图,熟悉未知空间。然而,一个轻量级的,但有效的骨干,需要很少的资源是决定性的因素,以实现可靠的一阶段语义映射。视觉转换器架构[40]能够捕获长距离上下文依赖关系,形成非本地表示。这种机制自然适合语义映射任务,因为映射过程需要对场景的整体理解。这一假设使我们重新审视自顶向下的语义映射与Transformer为基础的模型,并提出了一个新的端到端的一阶段的Trans4Map框架。它提供了两个主要好处:(1)长距离特征建模能力有利于在自我中心的观察过程中获得更全面的空间表示;(2)高效且轻量的模型结构使得能够实现单级端到端映射流水线。此外,不同于以往的方法[3]使用单个GRU单元来重新加载离线特征 , 我 们 提 出 了 一 种 新 的 双 向 Allocentric Memory(BAM)来组合来自两个方向的特征,这可以避免被遮挡的对象被归类为其他类别,例如,椅子在桌子下面。此外,我们的BAM隐式地执行有效的在线投影,作为实现一级映射管道的另一个关键点第2d段)。为了在端到端的单阶段Trans4Map框架中取得成功,我们研究了大量的高级深度架构[24,25,41,47]。根据我们的实验40383634320 20 40 60 80 100参数(M)图3:基于CNN和基于Transformer的主干使用不同数量的 参 数 ( M ) 评 估 的 语 义 映 射 得 分 ( mIoU ) 。Trans4Map模型使用更少的参数获得更好的结果。在图3中,我们发现简单地应用基于变压器的主干并不能保证改进。由于提出的框架和BAM模块,我们的Trans4Map模型具有更少的参数,但实现了令人惊讶的语义映射分数。B2版本减少了67。2%的参数相比,SMNet [3] , 并 设 置 了 一 个 新 的 最 先 进 的 一个>40%mIoU的Matterport3D [4]数据集。总而言之,我们提出以下贡献:• 重新考虑在一个阶段的管道中自顶向下的语义映射任务,以适应资源受限的平台。• 提出了一个端到端的映射(Trans4Map)框架的Transformer执行自我中心到allocentric语义映射,产生一个整体的密集的室内探索的理解。• 提出了一种新的双向非自我中心记忆(BAM),它通过整合两个方向的在线记忆,将自我中心特征累积并投射到非自我中心的空间张量上。• 我们的框架在Matterport3D数据集和P2P数据集上的表现优于最先进的对手,同时使用更轻量级的模型。项目段分部项目.........本地存储...本地存储2.5(100.0%)两级一级项目段在线项目段............本地存储Trans4Map-B2Trans4Map-B3 Trans4Map-B4ConvNeXt-TSwin-SConvNeXt-SSMNetFAN-STrans4Map-B1Swin-TFAN-TmIoU(%)4015自我中心意象Transformer特征......在线投影自我中心深度双向分配中心存储器(BAM)前向后向他中心语义学...融合解码器图4:端到端Trans4Map框架的概述。存在用于从RGB图像提取自我中心特征的基于变换器的编码器、用于经由已知深度和姿态信息将所提取的特征序列投影和累积到非中心特征图的双向非中心存储器(BAM)、以及用于解析累积的特征并预测非中心语义的基于CNN的解码器。2. 相关工作语义映射。最近,围绕语义映射出现了许多方法。语义SLAM管道[13,32]将图像转发到分割网络中,然后将预测的标签投影到俯视图上。这些努力遵循先分段后项目的管道,这对深度信息尤其严格,即:RGB图像中每个像素的全局坐标。不幸的是,轻微的错误可能导致投影偏移,以及模型训练的拟合不足。投影然后分割流水线[36]在投影阶段丢失了大量的视觉信息,这阻碍了小对象分割。相比之下,SMNet [3]执行离线投影然后分段流水线,它在两个阶段分别训练编码器和解码器,并且没有优化从第一视图输入到顶视图语义的整个训练过程。Lu等人。 [26]提出了一种端到端网络,利用变分编码器-解码器网络[19]对驾驶场景的前视图信息进行编码,然后将其解码为2D自顶向下视图。Pan等人。 [29]用视图解析网络(VPN)表示了一个跨视图网络-一个跨不同视图解析语义的MLP。这两种方法预测一个本地语义自上而下的地图与一个端到端的网络从自我中心的观察。这些方法不编码深度信息,因此语义图上的对象不反映其几何结构。此外,有许多鸟瞰外地BEVFormer [20]聚合来自环绕视角相机的时空线索,而ViT-BEVSeg [9]使用空间Transformer解码器来生成语义占用网格图。与这些工作不同,我们重新审视了包括基于CNN或Transformer的各种骨干,并提出了基于transformer的端到端框架,其充当用于整体室内场景理解的单阶段BEV语义映射器。此外,还成功地获得了生成的语义图中物体的对齐和几何结构空间记忆。从以自我为中心的观察增量地生成俯视图需要动态地更新以非自我为中心的存储器,即,随着时间的推移聚集信息,例如移动代理在室内场景中移动 。 用 于 此 任 务 的 Visual SLAM 管 道 [1 , 27 ,38MapNet [14]开发了RNN来更新内存,并通过密集匹配注册新的观察结果。 Tung等人 [39]提出了几何感知递归神经网络(GRNN)来分割3D中的对象。这项工作是非常内存的要求,由于高维的功能。与我们的方法最接近的工作是SMNet [3],它使用GRU来更新预测的ten- sor。与以前的工作不同,我们提出了一个双向的allo-中心的记忆,可以更好地积累信息随着时间的推 移 和 分 割 被 遮 挡 的 对 象 。 这 一 关 键 设 计 允 许Trans4Map执行隐式在线投影,启用一级映射管道,并在大规模室内场景中设置新的最先进技术。4016转换块× ××--R1R2R3R4R1R1481632--× ××3. 方法在本节中,我们将重新审视使用视觉转换器的非中心语义映射任务,并介绍我们提出的端到端一阶段框架,该框架可以从自我中心的观察中生成非中心语义映射。3.1. Trans4Map:框架概述如图4、我们的端到端Trans4Map框架包括三个步骤:(1)输入的N个重心图像被馈送到基于变压器的主干中,注意障碍注意障碍注意障碍注意障碍MLPRGBRGB深度MLPConv块Conv块Conv块Conv块RGB(in秒3.2),提取上下文特征和长距离依赖;(2)双向Allocentric存储器(BAM)模块(在第二节中)。3.3)通过基于深度的变换索引投影所提取的特征;(3)轻量级的基于CNN的解码器解析投影特征并预测非中心语义。一级流水线。一个高效的一级语义映射管道是快速构造映射的关键,也是在资源有限的平台上部署移动代理所需要的。之前的SMNet [3]使用基于CNN的两分支主干从RGBD图像中提取特征。由于大量的双分支主干,数据管道分为多个阶段:使用冻结编码器提取RGBD特征图;本地存储所述特征图;重新加载来微调解码器不像这样一个多阶段的数据流,我们的框架显示在图。4以单阶段端到端方式运行,受益于三种设计:(1)采用基于变换器的主干来捕获整体特征和长距离依赖性,而不是采用窄感受野的基于CNN的主干;(2)采用单分支结构提取RGB特征,使得整个模型比双分支结构更轻量;(3)建立了一个从自我中心图像到非自我中心语义的在线训练管道,避免了耗时的两阶段过程和特征图存储。遵循一阶段流水线,我们的框架可以实现卓越的allocentric语义映射,同时保持效率。3.2. Transformer主干为了充分研究所提出的Trans4Map框架,我们探索了不同的模型架构和学习模态的allocentric语义映射任务,如图所示。五、该架构由四个阶段构成,每个阶段包括一系列卷积块(见图1)。5c)或自我注意块(见图。(见第5a段)。与卷积架构不同,基于变换的架构能够捕获非局部特征,这要归功于自注意操作[40]。考虑到跨模态互补特征对于预测语义是信息性的[15,16,23],我们利用RGB深度输入和多模态架构(见图11)。5b)通过使用有效的自注意力块来重新形成(a)Transformer(b)Multimodal Transformer(c)CNN图5:语义映射架构。为了简洁起见,我们描述了单模态过程的操作,而双模态过程在每个阶段都涉及附加融合,其中融合块获得提取的上下文特征和几何特征,然后以相同的尺寸对每个像素进行融合.给定一批大小为N H W3的RGB图像,分割后的图像块通过四级变换器块,以获得下采样率为1,1,1,1和增加通道C1,C2,C3,C4的分层特征表示。然后,多尺度特征由MLP层连接,然后是具有64个通道的卷积层。因此,层次特征被融合成大小为N H W的自我中心特征六十四 为了研究不同的语义映射架构,本文采用{1,1,1,1}下采样率提取多尺度特征,{64,128,320,512}通道。为了比较基于CNN和基于transformer的模型,选择SMNet中使用的RedNet主干[16]和ConvNeXt主干来形成基于CNN的映射模型,而基于transformer的模型包括FAN [47],Swin [24]和SegFormer [41]主干。基于我们的实验,我们采用SegFormer [41]作为我们的视觉编码器的默认骨干,因为其简单而轻量级的设计可以生成从高分辨率精细特征到低分辨率粗糙特征的特征。更多的消融研究和讨论在第二节展开。4.43.3. 双向分配中心存储器在通过上述Transformer主干获得自我中心特征之后,需要投射索引来将代表性的上下文特征投射到一个以他为中心的在Habitat模拟器[35]中,我们可以直接获得移动代理的状态,然后使用相对方向和位置计算相机姿态为了执行在线投影,我们需要导出自我中心图像中每个像素的3D位置MLP注意障碍保险丝注意障碍注意障碍保险丝注意障碍注意障碍保险丝注意障碍注意障碍保险丝注意障碍4017|×i、ji、ji、j如在Eq.(1)和方程(二)、X轴yC=K−1uvdu,vi(一)XY=R−1yZWZ-t(2)CK在方程式中(1)是摄像机内参数矩阵,[R→−t]在等式中。(2)是旋转矩阵和变换矩阵,矩阵,分别。首先,在Eq。(1)、使用针孔照相机模型和每个像素的深度du,v,图像坐标系中的像素坐标(u,v)在Eq。(2)中,使用旋转矩阵和平移矩阵将每个点的表示为(x,y,z)的相机坐标转换为表示为(X,Y,Z)的非中心记忆图中的每个像素代表Matterport3D数据集场景中的一个2cm2cm单元[4],因此投影指数(i,j)m可以通过将每个点的世界坐标X和Z除以分辨率来最后,我们使用计算出的投影指数将N批次大小的自我中心特征投影到分配中心的记忆图上为了增强远程内容依赖性并完全聚集传入的信息,我们提出了双向Allocentric存储器(BAM),其中我们通过双向GRU(Bi-GRU)传输投影特征,其用于更新和累积来自两个方向的传入观测。具体来说,BAM增加了一个反向GRU单元,执行功能解析和累积。如图在图6中,上GRU单元在从Mt−1到M t特征的正向方向上处理非同心记忆张量,并且下GRU单元从Mt到Mt−1特征的反向方向。 一个简单而有效的卷积层应用于融合两个投影allocentric内存功能。更新的空间记忆张量的计算公式为:Mt=GRU(Ft,Mt−1);(3)图6:双向Allocentric内存(BAM)。被错误分类利用BAM,Trans4Map可以产生一个更有意义的非中心表示,它结合了双向投影特征。4. 实验4.1. 数据集Matterport3D。Matterport3D数据集[4]包含90个建筑规模环境的照片级真实感扫描。它提供RGBD图像和3D注释,具有40个类别,这对于场景理解任务至关重要我们遵循与SMNet [ 3 ]相同的数据集分割,由61个训练场景,7个验证场景和17个测试场景组成,主要关注12个对象类别:椅子,桌子,靠垫,橱柜,架子,水槽,梳妆台,植物,床,沙发,柜台,壁炉。其他稀有对象和地板曲面被遮罩为空类。给定一个轨迹,我们通过栖息地模拟器在每个独特的场景中采样50组N个连续的航点[35]。将N个连续的RGBD图像序列作为一批转发到模型中作为输入。器手机监听器该数据集[37]包含18种高度照片逼真的室内环境。它提供密集网格,高分辨率RGBD图像以及88个类别的大量实例注释 我们遵循与Matterport3D数据集相同的设置,即,聚焦i、ji、ji、j12个物体类别。我们使用在Matterport3D数据集上训练的权重在训练器上测试我们的模型,Mt−1=GRU(Ft−1,Mt);(4)所以这18个场景包括在测试分割中。i、ji、ji、j4.2. 实现细节T=Conv(Mt,Mt−1).(五)执行在线项目段范例,我们ti,j和Mt-1是当前时间步长空间存储器以端到端的方式训练模型。 用于消融和前一时间步长空间存储器。 的融合的空间记忆张量T对于最终语义自顶向下映射预测的解码步骤是可访问的由于双向解析过程,BAM能够并行地在两个方向上累积每个时间步长的观测值,因此,它可以更好地避免遮挡对象研究中,我们重新审视基于transformer的映射和投资-我们的模型中有几个视觉编码器在ImageNet [33]和ADE20K [46]上进行了预训练,BAM模块和解码器是随 机 初 始 化 的 。 我 们 使 用 AdamW 优 化 器 [18] 在Matterport3D数据集上使用四个1080Ti GPU训练我们的模型 学习htht-1张量tRt1-zt~ht不σσtanh张量t-1htrt-1ht-1张量t-11-zt-1~ht-1σσtanh融合不张量tMz4018†表1:Matterport3D数据集上的Allocentric语义映射结果。模型†是我们的实现。方法访问mRecall mPrecision mIoU mBF隔离区GT→项目89.4973.7374.5859.73 54.05两阶段项目→分段。两阶段分段→项目两阶段语义SLAM83.1888.0685.1727.3240.5337.5135.3058.9251.5419.9632.7628.1117.3333.2131.05两级SMNet88.1447.4958.2736.77 37.02两级SMNet †89.1446.3456.9836.16 35.95一级Trans4Map89.0254.5056.2040.02 41.11表2:在P2P数据集上的Allocentric语义映射结果。模型是我们的实现。请注意,最后两行是在部分可用的数据集上评估的[37],而其他行的所有数据都是[3]。方法访问mRecall mPrecision mIoU mBF隔离区GT→项目96.8383.8494.0579.76 86.89两阶段分段→项目两阶段语义SLAM88.6188.3048.1145.8065.2062.4140.7737.9945.8646.71两级SMNet89.2653.3764.8143.12 45.18两级SMNet †87.6958.8834.8527.68 42.67一级Trans4Map86.1965.2734.9129.15 48.66表3:两阶段和一阶段语义映射管道之间的训练资源的比较。度量包括本地存储(TB)、一个时期训练时间(h:小时)、一个时期数据加载时间(h:小时)、RAM需求(GB)、#Param(M)和mIoU(%)。方法存储(TB)列(h)负载(h)RAM(GB)#参数(M)mIoU(%)两级一级2.506.000.332.000.012561883.927.536.7740.88变化-100%-94.5%-99.5%-93.0%-67.2%+11.2%表4:不同主干的比较,包括Matterport3D上的参数数量和性能。除了两阶段的SMNet,所有方法都使用一阶段的Trans4Map框架,以消除骨干。方法主干#参数(M)mIoU(%)SMNet RedNet [3] 83.9 36.77[25]第25话:我的世界[25]第25话:我的世界FAN FAN-T [47] 09.8 31.07FAN FAN-S [47] 31.3 34.62[24]第24话:我的世界[24]第24话[41]第一届中国国际航空航天博览会[41]第一届中国国际医疗器械博览会[41]中国(上海)国际医疗器械博览会[41]中国(上海)国际贸易促进委员会速率初始化为6e-5,然后由Lamb- daLR调度。我们使用交叉熵作为损失函数。训练100个epoch将花费大约30个小时。 与[3]类似,评估指标包括逐像素准确度( Acc ) 、 像 素 召 回 率 ( mRecall ) 和 精 确 度(mPrecision)分数、交并(mIoU)分数和边界F1(mBF 1)分数[7]。4.3. Allocentric语义映射结果如表1和表2所示,在Matterport3D和P2P数据集上进行了一组结果。实验评估图中讨论的四个管道。2,即,两阶段的项目-然后细分,细分-然后项目,离线项目,以及我们的一阶段在线Trans 4 Map。Matterport3D。Matterport3D的结果见表1。按照分段-项目范式,使用标签数据得到的结果是上限性能。如表1所示,分段项目基线比项目分段基线表现得好得多,因为在将自我中心图像转换为自上而下视图的过程中会丢失部分信息。[13]中的语义SLAM也使用分段投影方法,但比基于图像的分段投影基线实现更差的性能SMNet [3]遵循离线项目段范例,并添加了空间内存更新模块.在这里,我们在相同的条件下使用发布的代码重现实验,并获得mIoU得分为36的结果。16%,mBF 1值为35。百分之九十五Com-与SMNet相比,我们的Trans4Map模型在mIoU(40.02%)和mBF 1(41. 11%)的Matterport3D数据集上,这证明了我们提出的allocentric映射框架的有效性器手机监听器关于β的结果在表2中。所有模型都在Matterport3D数据集上进行训练,并在Matterport3D数据集上进行测试。请注意,目前部分可用的轨迹和标签的数据集,因此,测试结果的约束数据的数据集。尽管如此,在相同的条件下,相同的标签数据,我们的Trans4Map优于基线SMNet 1。47%的mlou和5。99%的mBF 1改善。结果表明,我们的Trans4Map框架在不同的数据集上实现了一致的改进。4.4. 消融研究一级管道分析为了分析不同语义映射管道的效率,我们在表3中展示了两阶段[3]和一阶段管道的训练过程。两阶段方法离线保存中间特征图,并重新加载它们以进行第二阶段微调。与两阶段方法相比,我们执行在线映射的一阶段方法不需要额外的本地存储(0TB对2 TB)。5TB)。谢谢对于我们高效的基于transformer的模型,一级流水线实现了更快的训练(0.33 h vs.6 h)和负载(0. 01小时与 2 h)过程比两阶段过程更好。毛皮-401923145823→→表5:Trans4Map中BAM的消融研究。方法基于Mit-B4和四个采样点。方法mIoU表6:模型复杂性、数据源、轨迹中的采样点和数据模态的分析方法预训练#点模态mIoUGRU(SMNet [3])36.771GRU + Conv 37.862GRU +2 GRU细胞37.673BiGRU+串联36.734[21]第21话我的世界5[21]第21话我的世界6BiGRU + 2个GRU细胞+Conv融合40.007BiGRU + Conv Fusion(我们的BAM)40.44SMNet [3] SUN-RGBD 201B2 ImageNet 42B2 SUN-RGBD 43B2 ADE20K 44B2 ADE20K 45B2 ADE20K 206B3 ADE20K 47B3 ADE20K 208B4 ADE20K 49B4 ADE20K 20RGBD 36.77RGB 37.86RGBD 40.27RGBD 40.15RGB 37.71RGB 40.02RGB 38.78RGB 39.98RGB 40.44RGB40.88因此,我们的RAM要求(18 GB与256 GB)和#Param(27. 5M对83。9M)要低得多,这对于资源有限的移动平台至关重要。令人惊讶的是,一级管道超过两级管道,具有+4。11%的mIoU收益。在节省资源的同时有足够的改进,证明了我们提出的一阶段语义映射管道的有效性。分析编码器。在一级流水线的基础上,分析了使用基于CNN和基于Transformer的骨干提取特征的效果。表4显示了两阶段SMNet与其他方法之间的比较,这些方法都基于一阶段Trans4Map框架。使用基于CNN的主干的基线SMNet具有最多的参数,但实现了只有36。77%在mlou。我们发现,简单地应用先进的基于CNN的骨干(ConvNeXt [25])或基于transformer的骨干(FAN [47]和Swin [24])不会导致足够的改进。 当他们的背-bones的重量要轻得多,它们的性能甚至比SMNet还差一点。相比之下,我们的配备MiT-B2骨干的Trans 4Map [41]减少了67。与SMNet相比,为83. 9米到27米5M,但性能在mIoU(+3. 25%)。MiT-B3和MiT-B4的主链具有47. 4M和64。1 M参数带来类似的mIoU增益(+3。21%+4。11%)作为MiT-B2的骨干,因为更大的Transformer模型通常需要更多的训练数据来获得所需的提升。我们提出的Trans4Map的结果证实,基于transformer的模型适合语义映射任务,可以保持所需的性能与准确性和效率的良好权衡分析BAM。除了编码器,我们进一步分析了我们的BAM模块的不同结构。如表5所示,比较SMNet和12中的基线GRU,简单地堆叠更多的GRU单元或卷积层并不能提高模型性能。我们提出的卷积融合优于级联融合,产生+2。77%的收益(3 7)和+2。66%(4.5)。方法(5)是在Bi-GRU模块之后遵循用于令牌信息混合的高级gMLP块[21],并且产生40 的mIoU。百分之十五述的方法(6)配备两个GRU单元获得40. 00%在MIOU。我们的BAM(7)应用BiGRU和卷积层来处理空间张量,并以40实现最佳性能。44%在mlou。消融研究表明,我们的BAM是至关重要的语义映射。预培训来源分析。此外,我们消融了三种不同的预训练源。比较和在表6中,由于ADE 20 K权重在RGB和深度分支之间共享,而SUN-RGBD权重是分开的,因此,与ADE 20 K数据集相比,Trans 4 Map模型从SUN-RGBD数据集中获益更多。在和 4之间,在ImageNet和ADE 20K上预训练的两个Trans4Map模型具有可比的结果。它表明,我们的单模态Trans4Map在不同的预训练设置中是稳定和健壮的。取样点分析。采样点的数量是获得密集观测值的关键因素。理论上,随着输入图像序列的增加,所得到的地图将越丰富。在表6中,将采样点的数量从4增加到20,具有MiT-B2的Trans 4 Map受益于密集观测,并获得+2的增益。31%在mlou。与9相比,Trans 4 Map与MiT-B4实现了一致的改善。分析数据模式。为了消除数据模态的影响,RGB和RGBD输入使用单模态和双模态的Trans4Map进行比较。 与RGBD 基线 SMNet和表 6 相比 ,我 们的 双模Trans4Map具有3。5%mIoU增益,而两者都在SUN-RGBD 上 训 练 当 使 用 4 个 采 样 点 时 , 双 模 态 的Trans4Map比单模态的表现更好,如和4中所比较的。它表明了我们的双模式Trans4Map在收获跨流互补特征以提高性能方面的有效性。分析模型的复杂性。为了检验效率和性能之间的权衡,我们通过使用三种不同的主干来分析模型的复杂性,MiT- B2,-B3和-B4。他们有各自的27。5M,47。4M和64。1M参数,但所有这些都比83. 9米,如表所示4.第一章Com-4020虚空搁置梳妆台床垫壁炉沙发表椅子内阁植物计数器水槽(a)SMNet(b)Trans4Map(c)地面实况图7:Allocentric语义映射可视化。Matterport3D测试集中有两个室内场景。从左到右是SMNet的预测结果,我们的Trans4Map的结果和地面实况。放大以获得更好的视图。虚空搁置梳妆台床垫壁炉沙发表椅子内阁植物计数器水槽鸟瞰图(a) SMNet(b) Trans4Map(c) 地面实况图8:挑战性案例的可视化。放大以获得更好的视图。由于基于4个采样点可以获得更多的训练数据,因此通过对三个主干(4 6 8)进行配对,较大的模型具有更好的结果在20个采样点(5 - 7 - 9)的情况下,三个模型实现了竞争力的结果相比,基线模型。这个实验证明了我们的Trans4Map框架的有效性,实现了基于不同大小的主干的一致改进。4.5. 定性分析语义地图可视化。我们将Matterport3D数据集测试集的语义映射结果可视化,如图所示。7.第一次会议。由于提取的非局部特征和长距离依赖关系,Trans4Map具有 更 好 的 分 割 结 果 。 在 图 的 第 一 个 场 景 。 7 、Trans4Map在床层分割方面更好。此外,Trans4Map能够成功地对火灾地点进行分类,而基线模型失败并将其预测为橱柜。在第二个场景中,Fig.7、Trans4Map准确地提供了语义映射,例如橱柜和椅子类别,而SMNet将它们错误地分类为桌子。此外,SMNet产生不完整的椅子分割结果。案例分析。大规模室内场景的语义映射仍然是一个具有挑战性的任务。图8表明,这两个模型在如此大规模的场景中都难以进行语义 SMNet很难分离-如图所示,将四把椅子完全分开。第8(a)段。Trans4Map表现稍好,但仍有很大的改进空间。下半部分的所有六个汇都没有正确预测。其原因是该场景的深度信息不太可靠,而整个场景在非中心地图上覆盖约2500平方米。一种潜在的解决方案是获得更多的观测值以减轻由噪声深度测量引起的误差。5. 结论在本文中,我们提出了一个端到端的Transformer为基础的框架,称为Trans4Map,以重新访问的自我中心 到 allocentric 映 射 从 正 视 图 鸟 瞰 图 语 义 。 基 于transformer 驱 动 的 主 干 和 双 向 Allocentric Memory(BAM)更新器,Tran4Map在Matterport3D和MapInfo数据集上设置了最新的技术水平,同时使用更轻量级的架构,与以前的工作相比具有更少的参数。未来,我们将进一步探索领域自适应方法,将在合成数据集上训练的映射模型转移到真实世界场景中。基于所构建的语义地图,后续的室内导航、路径规划等任务也将是有趣的研究方向。4021引用[1] 放大图片作者:RichardElvira,JuanJ. 上帝啊,罗德,何塞。M. Montiel和JuanD. 塔尔多。ORB-SLAM 3:一个精确的开源库,用于视觉,T-RO,2021年。3[2] Yigit Baran Can,Alexander Liniger,Danda Pani Paudel和Luc Van Gool。结构化鸟瞰交通场景从车载图像理解。在CVPR,2021年。3[3] Vincent Cartillier、Zhile Ren、Neha Jain、Stefan Lee、Irfan Essa和Dhruv Batra。语义地图网:从自我中心的观点建立异中心的语义地图和表示。在AAAI,2021年。二三四五六七[4] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3D:从RGB学习室内环境中的三维数据。在3DV,2017年。二、五[5] Devendra Singh Chaplot , Dhiraj Gandhi , SaurabhGupta,Abhinav Gupta,and Ruslan Salakhutdinov.使用主动神经SLAM学习探索。在ICLR,2020年。1[6] 陈浩,胡伟建,杨凯伦,白建,王凯威.具有闭环和全局优化的全景环形SLAM。AO,2021年。1[7] Gabriela Csurka , Diane Larlus , Florent Perronnin 和France Meylan。什么是一个很好的评价措施,语义分割?. InBMVC,2013. 6[8] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词:用于大规模图像识别的变压器ICLR,2021年。3[9] Pramit Dutta,Ganesh Sistu,Senthil Yogamani,EdgarGal va'n和JohnMcDonald。VIT-BEVS例如:用于单目鸟瞰图分割的分层在IJCNN,2022年。3[10] Isht Dwivedi , Srikanth Malla , Yi-Ting Chen , andBehzad Dariush.使用提升的2D SEMANIC特征的鸟瞰图分割。在BMVC,2021年。3[11] Georgios Georgakis,Bernadette Bucher,Karl Schmeck-peper,Siddharth Singh,and Kostas Daniilles.学习映射主动语义目标导航。在ICLR,2022年。1[12] Nikhil Gosala和Abhinav Valada。使用单眼正视图图像的鸟瞰RA-L,2022年。3[13] Margarita Grinvald,Fadri Furrer,Tonci Novkovic,JenJen Chung , Cesar Cadena , Roland Siegwart 和 JuanNieto。体实例感知语义映射和3D对象发现。RA-L,2019年。一、三、六[14] J oaoF. 恩里克斯和安德里亚·韦达尔迪。MapNet:一个用于地图环境的异中心空间存储器在CVPR,2018年。3[15] Xinxin Hu , Kailun Yang , Lei Fei , and KaiweiWang.ACNet:基于注意力的网络,利用RGBD语义分割的互补特征。在ICIP,2019年。4[16] Jindong Jiang , Lunan Zheng , Fei Luo , and ZhijunZhang. RedNet:室内RGB残差编码器-解码器网络-4022d语义分割。arXiv预印本arXiv:1806.01054,2018。4[17] 卡 皮 尔 湾 放 大 图 片 作 者 : Joseph L. Moore , CraigKnuth,and Katie M.波佩克使用预测占用地图的高速机器人导航。在ICRA,2021年。1[18] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议。5[19] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。见ICLR,2014年。3[20] 李志奇,王文海,李宏扬,谢恩泽,司马崇浩,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功