没有合适的资源?快使用搜索试试~ 我知道了~
17000弱但有深度监督的遮挡原因参数化道路布局刘步宇1庄冰冰1曼莫汉·钱德拉克1, 21NEC美国实验室2加州大学圣地亚哥分校摘要我们提出了一个端到端的网络,需要一个单一的角度RGB图像的一个复杂的道路场景作为输入,在透视空间以及一个参数鸟瞰图(BEV)空间中产生遮挡的布局与需要密集监督的先前作品(如透视图中的语义标签)相比,我们的方法只需要对参数属性进行人工注释,这些参数属性更便宜,更容易获得。为了解决这一具有挑战性的任务,我们的设计是由模块,结合归纳偏见,学习闭塞推理,几何变换和语义抽象,其中每个模块可以通过适当的转换,ING参数注释进行监督我们展示了我们的设计选择和建议的深度监督如何帮助实现有意义的表示和准确的预测。我们在两个公共数据集KITTI和NuScenes上验证了我们的方法,以实现最先进的结果,同时减少人为监督。1. 介绍从图像中理解道路布局对于自动驾驶或路径规划等现实应用至关重要[5,8,13,31],其中,除了通常的透视空间输出外,几何和语义的俯视图表示一直很受欢迎。非参数表示(如像素级语义[31])通常需要在顶视图中进行劳动密集型和潜在模糊的监督,例如,在处理遮挡区域时。另一方面,顶视图布局的参数化表示由于其可解释性而被期望,这对于下游应用中的更高级别的推理和决策是有益的。给定传感器输入,诸如支路的存在或车道的数量的参数属性可以由人类容易地注释,并且比像素级语义注释需要更少的努力然而,除了参数化注释1之外,1参数和属性级别的注释在我们的论文中可以互换使用图1.我们提出了一个端到端的模型,输入透视图和输出参数化布局在顶视图。与实验方法相比,我们的方法在训练过程中只需要参数化的布局此外,它在透视图和俯视图中生成基于遮挡的像素级语义(参见被汽车遮挡的区域的预测语义)。鸟瞰从俯视图来看,先前估计参数BEV布局的工作还需要透视图像中的像素级超视[23,46]或仅处理非常简单的道路布局[35]。本文试图获得参数的BEV地图以及像素级语义的透视图和顶视图,但只使用便宜的参数监督属性。虽然仅仅依靠廉价的监督无疑是一个值得追求的目标,但去除密集的视角监督会使问题变得更加困难。这是重要的,因为在稀疏参数监督和密集像素级语义监督之间存在很大的差距。为了弥合这一差距,必须推理底层几何结构,将参数化监督映射到顶视图,并获得正确的语义,即使在遮挡区域。我们通过两个关键的见解来应对这一挑战首先,我们引入两个中间步骤,而不是直接从RGB图像空间回归参数化BEV布局,-17001mantics(TS)模块-第二,为了获得对PS/TS的监督,简单的渲染器可以在几何变换的帮助下,在BEV和透视视图两者中将参数注释转换为基于遮挡的每像素语义注释这允许对中间模块进行有意义的深度监督[18,19],弱但深度监督的PS和TS模块通过对网络应该执行的推理类型引入归纳偏差,从而共同导致准确的参数化BEV布局,从而促进复杂的任务,如遮挡推理,几何变换和语义抽象,这些任务对应于参数监督。上述见解使我们的方法简单而高效,甚至优于以前的方法,依赖于透视视图密集监督语义分割。我们通过 KITTI [9] 和 NuScenes [28] 数 据 集 上 最 先 进 的(SOTA)准确度来验证我们的选择实现47. 3%和13。0%F1评分。在广泛的消融实验中,我们建立了由PS和TS模块引入的感应偏差的值,以及通过转换的参数注释进行的深度监督。总而言之,我们的主要贡献是:• 复杂场景中基于遮挡的透视和俯视参数化布局的• 中间模块设计,包括归纳偏见,学习闭塞推理,几何transformation和语义抽象。• 仅在俯视图中使用廉价的参数注释进行深度监督,而不需要在透视图或俯视图中进行额外的昂贵的每像素标记• 公开数据集上的最新成果。2. 相关工作室外场景的三维场景理解是一项重要而又具有挑战性的任务。机器人导航[13]、自动驾驶[8,17]、增强现实[1]或房地产[24,39]等应用总是需要对给定场景进行全面理解。道路场景理解户外场景的场景理解是非常具有挑战性的,主要是由于缺乏强先验。为此,已经提出了非参数方法[12,40,41],其中分层表示[4,48]用于推理遮挡区域中的几何形状和语义透视图中其他典型的非参数表示是联合像素级语义和深度[21],像素级语义和几何标签[11]。相比之下,参数化方法提供了全面的理解,例如道路场景属性[8,35]和基于图形的表示[17]。也许[23,46]是能够处理复杂道路布局的最新作品,例如多车道和不同类型的交叉口。我们的工作遵循这些方法中提出的参数表示不像[23,46]要求额外的信息,例如模型[15]预先训练特定于每个像素的语义,深度和3D对象[9],以将语义映射到顶视图作为预处理,我们的模型是端到端可训练的,直接将RGB作为输入。更重要的是,我们通过引入有意义的中间模块(PS和TS)来利用深度监督[18,19这也有利于改善最终的参数化布局预测。虽然目前专注于单个图像,但我们的模型可以通过引入时空图形模型[22,46],LSTM [6,38]或FTM [42,49,50]轻松扩展到顶视图中的场景理解顶视图表示[25,27,29,37]在需要遮挡关系时可能更有益两个对象在俯视图中不能占据相同的位置,而在透视图中它们可能潜在地彼此遮挡。这种直觉在3D对象定位文献[44]中被广泛利用,其中在透视图中的深度估计和2D检测的帮助下实现相机到顶视图投影尽管[32]提出了一种端到端的可训练模型,该模型显式地利用透视到顶视图投影来执行3D定位任务,但由于缺乏显式的深度感知重投影,该方法的性能与[44至于一般场景理解,在[34,36]中采取了初始步骤然而,由于缺乏基础事实,在[34]中没有进行定量评估最近的工作[30,31]扩展[32]并从单个单目图像或多个图像流预测顶视图语义图在[2]中引入了用于道路布局估计的图形样参数表示以及用于道路参与者的定向边界框。然而,这样的表示错过了重要的语义,如人行横道,人行道和车道方向。它还需要高清地图、GPS和人工注释来训练这样的模型。与非参数方法[26,29-所有这些有意义的表示都是在没有每像素人类注释的情况下获得的,而是依赖于廉价的参数注释。17002◦i=1∈∈∈D{}图2. 我们提出的框架概述:以单个RGB作为输入,我们的模型预测(1)透视图中的遮挡推理语义,(2)顶视图中的幻觉语义和(3)顶视图中的参数化布局预测,在顶视图中只有属性级别的注释。这是通过多个中间模块和深度监督训练来实现的。3. 我们的框架我们的模型由三个模块组成。(1)透视语义(PS)模块输入RGB图像,并在透视视图(OSP)中输出基于遮挡的像素级语义(2)顶视语义(TS)模块将OSP投影到顶视中,并学习幻觉 或者在视图外以及噪声区域上的完整像素级顶视图语义,我们将其称为顶视图中的幻觉语义(HST)。(3)俯视图参数预测(TPP)模块采用HST并预测俯视图中的道路布局相关属性图2给出了所提出的方法的概述网络体系结构从[33,43,46]中借用,并在第2节中描述4、补充。在本节中,我们将重点描述我们的主要贡献,这些贡献允许通过廉价的参数级人工注释有效地利用弱监督我们在第二节中详细介绍了每个模块。3.1、训练过程和第3.2节中的中间像素级语义标注3.2.3.1. 完整模型考虑一个数据集 =I,ΘN其中IRH×W×3是RGB透视图像,并且Θ表示从人类注释获得的对应场景属性。我们进一步为每个样本自动生成xp,x,其中xpRH×W×(C+1)表示透视图中的语义分割图,xRh×w×(C+1)表示俯视图语义。C=4表示布局类别的数量(我们建议读者参阅Sec。3.2有关数据生成过程的更多详细信息。我们的完整模型定义为:Θ=ffull(I)=(ftppftsfps)(I),(1)其中定义了一个函数组合。fps,fts和ftpp对应于我们的三个模块PS、TS和TPP。透视语义模块PS模块预测透视视图(OSP)中的每像素遮挡推理语义。与传统的语义分割模型(例如,[3,43])仅在可见像素上预测语义,我们的模块专注于预测可见和遮挡布局类(见图3(d))。这种遮挡推理也在图中展示3(b)和(c)。如图所示,我们的目标是预测顶视图中的道路语义,尽管它们在透视图中被遮挡,例如被汽车或建筑物遮挡。与传统的语义分割问题相比,我们在数据和模型训练方面更具挑战性。对于数据而言,遮挡区域的语义基础事实可能是模糊的,因此在像素级精确注释是困难和耗时的例如,仅对KITTI图像上的可见区域进行注释需要20多分钟,而相比之下,BEV中的参数注释对图像大约需要20秒[45]。我们建议读者参阅Sec。4和补充注释细节。对于模型训练,PS模块预测不可见/遮挡区域中的语义,这再次需要处理模糊性。例如,被前景实例(例如建筑物)遮挡的区域可以是另一建筑物或道路。这就要求模块学习用上下文线索来预测语义,而不是完全依赖于本地可见信息。形式上,给定图像I,PS模块输出xp编码每个像素属于特定类别的概率x p=f ps(I).(二)我们的第二个模块,即顶视图语义模块,将OSP作为输入,17003图3.我们在(a)中覆盖PS模块的输出和输入。PS模块的输入(左)和目标输出(右)示例见(b)和(c)。PS模块旨在预测可见和遮挡的背景类别。(d)从左到右演示了输入图像,可见区域的语义和我们的目标输出我们用红色突出显示被遮挡的区域。学习将透视图中的语义显式投影给定摄像机固有特性,如果深度估计可用,则可以通过深度网络进行然而,标准的单图像深度网络(例如[7,10,21])通常不会推理被遮挡区域的深度,这对于我们的遮挡感知投影来说是绝对必要的。此外,对于远距离区域,分辨率较低,并且因此可能导致顶视图中的最后,由于有限的视野,靠近区域的顶视图语义相反,我们提出了通过初始几何变换ftranss和学习的幻觉模块fhalln的两步投影:x= f ts(x p)=(f halln f transs)(xp).(三)转换模块。考虑到这些问题,我们首先利用道路几乎形成平面的先验知识,这有助于在不需要深度估计的情况下进行初始投影我们假设已知的摄像机内函数和外函数w.r.t.地平面;这是一个温和的假设,因为它们可以通过提前校准[14]获得。因此,众所周知,可以将透视图中的每个像素反向投影到BEV视图,反之亦然[14]。幻觉模块在将OSP映射到顶视图的变换模块之后,超幻觉模块然后学习预测看不见的远处区域以及利用上下文信息恢复噪声语义。俯视图请注意,我们的幻觉模块的输入和输出都是h×w×(C+1)。图4个可视化图4. 两组输入和输出的幻觉模块的例子我们的模块旨在恢复遥远的稀疏语义(右)和幻觉与有限的视野(左)附近的地区。顶视图参数预测模块给定顶视图(HST)中的半透明语义,我们的下一步是通过将HSTx映射到场景模型参数Θ的顶视图参数预测(TPP)模块来预测布局属性。如上所述,我们遵循[23,46]中的贡献定义。我们的Θ由三组组成:分别为14个二进制的Θb,2个多类的Θm和场景模型的10个连续属性的Θc二进制属性由诸如道路是否为单向的信息组成自我汽车左手侧的车道数是多类属性的示例,并且到右侧道路的更多细节可以在补充材料中找到。我们的TPP模块定义为:Θ=ftpp(x)=(fg)(x),(4)其中f和g分别是多层感知器(MLP)和卷积神经网络。请注意,与[46]类似,该模块也能够在训练期间利用丰富的模拟数据,但我们将此扩展留给未来的工作。3.2. 模型训练在我们对假设监督可用的中间模块的上述描述之后,我们在本节中描述了仅具有参数布局Θ的注释以及深度监督训练的这种监督的生成。我们采用了一个多阶段的训练原型,而不是从头开始以端到端的方式训练完整的模型我们首先预训练所有三个模块,然后以端到端的方式联合训练完整的模型从经验上讲,在我们的实验中,结束训练提供了1%的性能改进我们的全损失函数L被定义为:该模块的两组输入和输出相比根据地面实况OSP生成的输入,目标HST在远距离(右侧)区域以及近距离区域都得到了L=λLTPP +γL+βL、(五)其中预测是稀疏的(左)。其中λ、γ和β是每个模块的权重。tsPS17004N×Σ----2k=1计算均方误差(MSE)。我 我其中x=p,xp表示我们的预测,我我在D中投影了样本i的透视语义的地面实况。4. 实验图5.TS模块的渲染地面实况示例从左到右:RGB、参数化人类注释和顶视图中渲染的像素级语义。俯视参数预测模块 由于Θ和I我们将TPP的损失函数定义为:Ltpp=ΔBCE(Θb ,i,ηb, i)+CE(Θm , i,ηm ,i)+Δ1(Θc,i,ηc,i),数据集和模型细节我们利用[23]中的注释和数据分割验证了我们在KITTI [9]和NuScenes [28]上的想法。有关道路布局属性注释的详细信息,请参阅[23]和我们的手册。h和w设置为256和128,在现实世界中呈现60米30米的空间。相机参数通过校准在原始数据集中可用。权重(λ,γ,β)在验证集上以经验方式设置至于fps,我们使用HRNetV 2- W18 [43]作为主干,因为它在准确性和效率之间实现了非常好对于fhalln,我们利用ai=1其中(B)CE是(二进制)交叉熵损失,注意L1损失。(六)去[33]的较浅版本,例如5层编码器和解码器。最后,f被实现为一个多任务网络,每个参数的单独预测ηb、ηm和ηc表示数据集中的第i个样本。对于回归,我们将连续变量离散为通过卷积以Θ c为中心的狄拉克δ函数,用固定方差顶视图语义模块与参数空间中的直接设计不同,我们的TS模块需要顶视图中的逐像素监督 为此,我们建议利用一个渲染函数,从参数注释生成像素语义。具体来说,对于每个Θ,我们绘制一个映射x。我们的配对x,Θ的一些例子在图中。5,这表明我们渲染的xp准确地反映了俯视图中道路的布局。由于我们只需要参数化抽象,我们的渲染器可以使用简单的Python代码实现,而不是基于物理的图像渲染器的复杂机器。我们建议读者参考补充资料,了解有关渲染器和生成过程的更多详细信息TS模块的损失函数定义为:NLts=CE(xi,xi)(7)i=1其中,X1和X2表示D中的第i个样本的顶视图语义的预测和渲染的地面实况。透视语义模块获取顶视图场景模型的组Θb、Θm和Θc。并引入g进行特征提取。请注意,我们的方法不依赖于这些子模块的具体细节,但如果这种三阶段架构成立,则通常适用。参数化注释的成本我们在Tab中总结了每种监督类型的注释时间。二、与每帧需要几十分钟的像素级语义等非参数化注释不同,我们的参数化注释每帧需要不到一分钟。此外,在KITTI数据集上,该时间在视频序列中被大量分摊到仅约20秒,因为参数属性在连续帧中可预测地变化。二进制和多类属性(如支路的存在,或车道数)的变化不太频繁,它们的注释通常可以从以前的帧继承。此外,连续属性(诸如到相交的距离)通常跨帧平滑地改变,这便于注释。我们建议读者参阅补充材料以了解更多细节。由于我们的输出空间Θ由 三种类型的预测,涉及离散和连续变量,我们遵循[23,46]中的度量。具体地,对于二进制变量Θb和多类变量Θm,预测精度被定义为Accu.Bi=语义x,我们可以将它投影到透视图中,相机参数以及平面假设。我们恶魔-1Σ14[pk= Θb k]和Accu.- Mc= 12[pk= Θm k]。证明我们在图3(a)中的预测的有效性。类似地,PS模块的损失函数定义为:我们进一步报告了在Θb上的F1分数,以获得更好的考虑到观察结果,二元分类是非常有偏见的。从形式上讲,F1=114 2×pk×rk,其中pk和rk是预-N14pk+rkLps=CE(xp,xp)(8)i=1在Θbk上的精确率和召回率。对于连续变量,我们14k=1k=117005需要监督KITTI [9]方法参数化深度语义模拟视频+对象准确。-双性恋↑准确。-MC.↑MSE ↓F1↑RGB [15,35]✓.811.778.230.176RGB [15,35]+DBEV [34]H-BEV+DA [46]BEV-J-O [23]✓✓✓✓✓✓✓✓✓✓✓✓✓.818.820.834.831.819.797.831.837.154.141.134.142.109.324.435.494我们✓.833.832.140.473表1.基于KITTI的单图像道路布局预测性能我们观察到,当具有相同的模型设置时,我们的方法优于RGB此外,我们的结果与其他SOTA(H-BEV+DA和BEV-J-O)相当,但需要的人工注释要少得多。时间二进制多类连续总随机图像24.35.125.755.1视频帧20.2表2.平均注释时间(秒)在KITTI数据集上。除了参数预测,我们的模型还输出中间表示,例如。OSP和HST。我们进一步报告了这两个语义分割任务的IoU以及准确性请注意,在实践中,人类注释的OSP和HST在两个数据集上都不可用因此,我们通过将我们的预测与渲染的语义x和xp进行比较来报告我们的性能。4.1. 参数化道路布置基线我们选择几个适当的基线,如[23,46]所示。• RGB(RGB):介绍ResNet-101 [16,35]主干,并在手动注释的地面实况上进行训练请注意,这个设置是唯一一个可以直接与我们的设置相比较的设置,因为它只需要参数化注释作为地面实况。• RGB+深度(RGB+D):与RGB相同,但具有单目像素深度预测的额外任务[16]。相反,我们不需要密集的深度信息。• BEV(BEV):BEV使用[34]的输出,这是一个顶视图语义图。为了获得这样的地图,额外的像素级语义标注和深度监督需要在透视空间。虽然最近的方法[26,30]也能够在顶视图中输出语义,但它们错过了重要的语义,例如车道边界或人行横道,因此不希望作为BEV基线。我们还报告了SOTA方法用于单个图像顶视图布局预测或H-BEV-DA[46]和BEV-J-O[23]的性能。请注意,与我们的方法相比,这两种方法都需要更多的人工注释。我们建议读者参阅补充资料,了解所有基线的更多详细信息。定量结果表1总结了我们在KITTI上的主要结果[9]。首先,如果我们仅与具有相同设置或RGB的方法进行比较,则我们的方法以较大的幅度优于它,这表明引入PS和TS作为中间模块的有效性。此外,与引入深度通道的RGB+D方法相比,或者甚至与在透视空间中进一步需要数千个人类标记的语义分割图像的BEV请注意,H-BEV-DA和BEV-J-O都是基于BEV的,但需要更多的人工注释.通过与进一步利用附加模拟数据的H-BEV-DA和需要3D对象信息以及整个视频序列作为输入的BEV-J-O进行比较,我们可以看到我们的方法实现了相当的结果,而人类注释要少得多。我们在Tab中进一步报告了NuScenes [28]的结果。3 .第三章。我们的方法明显优于RGB。它还优于形式[23,46],需要的人工注释少得多。定性结果我们在图中展示了一些定性结果。六、请注意,在KITTI测试序列中,道路不是被前面行驶的汽车遮挡,而是在停放的汽车和道路/人行道之间,或者在前景类别(例如建筑物或树木)和弯曲的道路或侧面道路之间发生显著的遮挡。如在该图中所观察到的,我们的模型能够在所有三个代表上输出令人满意的结果我们能够处理复杂的道路布局,如任意数量的车道严重闭塞。同样,请注意,OSP和HST是在没有每像素人类注释的情况下获得的我们的最终布局预测也优于[23]。我们在图7中进一步可视化了我们在NuScenes上的最终结果。这表明我们的模型能够处理各种道路布局。我们建议读者参考补充材料,以获得更多的定性结果。4.2. 消融研究为了证明中间模块和深度监管的有效性,我们进一步进行了实验,17006odules 。 RGB 是 一 个包含PS模块的指令,其透视公式为:图6.我们提出的模型的完整预测。从左到右:输入RGB,OSP,HST,从参数预测渲染的图像,来自[23]的结果和从地面实况属性渲染的图像。方法准确。-双性恋↑Accu.- MC. ↑MSE↓F1↑RGB [15,35]0.850.503.084.109BEV [46]0.846.485.073.101H-BEV+DA [46]+GM0.877.496.032.125BEV-J-O [23]0.858.543.027.128我们0.875.560.023.130模块KITTI [9]方法fps f反式F哈尔恩fTPP 准确。-双性恋↑ 准确。-MC.↑ MSE ↓ F1↑RGB✓.811.778.230.176RGB+PS✓✓.822.827.159.425RGB+PS+T✓✓✓.826.829.144441我们✓✓✓✓.833.832.140.473表3. NuScenes数据集上的结果。我们观察到,当具有 相 同 的 模 型 设 置 时 , 我 们 的 方 法 显 著 优 于RGB。同时,它也优于H-BEV+DA和BEV-J-O,所需的人工注释要少得多.表4.基于KITTI的单图像道路布局预测的消融研究。请注意,所有这些方法共享相同数量的人类注释。我们可以看到,我们引入的PS和TS模块,一方面,提供了有意义的中间表示,没有额外的成本。另一方面,它们也被证明是有益的个别的最终参数预测任务。在没有任何模块的情况下递增地添加m。RGB+PS和直接预测参数pr输出。形式上,RGB+PS是f类似地,RGB+PS+T被公式化为:Θ=frbgpf(I)=(ftppftransfps)(I),(10)我们在表1中报告了定量结果。4.第一章结果表明,首先,将RGB与RGB+PS、透视表示或OSP进行比较,有利于改进最终参数预测。其次,RGB+PS+T和RGB+PS之间的性能差距证明了引入顶视图语义作为中间表示的有效性。最后,通过与RGB+PS+T的比较,我们可以看出,幻觉模块也是布局预测任务的关键。遮挡研究在这里,我们研究了场景中对象数量增加时的性能,表明遮挡越来越严重。因为[9,45]不提供像素-图7. NuScenes数据集上的示例。左:输入RGB右:根据我们的预测渲染BEV语义。为了分析我们处理遮挡的能力,我们改为报告关于Tab中的渲染地面实况x的四个类上的平均图像级IoU相对于前景对象的6,由Stereo-RCNN检测到的物体[20]。可以看出,我们的方法优于国家的最先进的consistently,增加差距时,有更多的对象。请注意,我们的模型是基于单个图像的,因此我们处理 所有的物体,不管它们是否运动,都以同样的方式运动。4.3. 中间表示除了在保持相当性能的同时需要较少的注释之外,所提出的方法的另一个优点是能够提供有意义的像素级信息,17007表示KITTI [9]数据OSP HST路陆地边界人行道Crosswalk前景平均准确IOU准确IOU准确IOU准确IOU准确IOU准确IOURGB+PS✓.689.563.365.214.226.126.010.007.954.878.449.358我们✓✓.700.605.605.461.403.272.272.197.255.167.147.102.042.038.033.032.962.868.883.651.472.390.388.289表5.关于KITTI的中间结果我们报告每个语义类别的IoU和准确性与RGB+PS相比,我们的方法在端到端训练的帮助下在OSP我们的方法进一步提供了有意义的HST结果。物镜012345678Avg.[46个]我们.67.78.78.81.67.72.64.69.61.67.45.48.48.50.37.40.35.35.45.50仅考虑道路等级[46个].85.74.85.79.67.63.59.57.37.63我们.86.91.86.83.70.70.61.61.50.70表6.平均每图像IoU w.r.t.道路参与者的数量作为副产品的中间产物,OSP和HST。为了证明这些中间表示在语义上确实对下游任务有用,我们研究了它们的IoU和准确性得分,作为它们性能的指标请注意,与需要密集和耗时的像素级人工注释的现有工作相比,我们只需要廉价的参数化人工注释,并在透视图和俯视图中产生像素级遮挡推理的如Tab.所示5.我们的方法能够提供多种有意义的中间表示。此外,我们的深度监督被证明是有益的,在端到端的方式,这可以从OSP的性能差距之间的RGB+PS和我们的完整模型。此外,我们的模型在HST上也取得了相当好的性能。作为参考,[31]旨在预测以透视图像作为输入的顶视图中可见区域的像素级语义,报告了约63。0%IoU用于两个可驾驶类别不同的数据集。然而,请注意,[31]在训练期间需要顶视图中的像素级密集注释,并且预测不是基于遮挡的。我们在图8和图9中进一步可视化定量结果。可以看出,尽管存在遮挡,我们的方法在透视图和俯视图中都获得了高质量的语义。5. 结论我们提出了一种新的端到端模型,输入单RGB透视图像和输出多方面的道路布局表示,包括顶视图参数预测,OSP和HST。具体来说,我们引入了两个中间模块,并利用深度监督来学习遮挡推理、几何变换和语义抽象中的归纳偏差。我们证明了图8. 我们演示了输入RGB,预测HST以及如[46]的BEV,它是用数千个像素级注释图像和LiDAR图像训练的。从这些例子中可以看出,我们的模型能够以逼真的方式对遥远的区域产生幻觉,即使在弯曲的道路上,也没有像素级的人类注释。图9.输入图像,生成地面实况像素级语义和预测语义从上到下一行。我们的模型能够很好地预测语义,尽管闭塞。我们提出的方法的有效性以及中间模块公开可用的数据集,并证明我们可以实现SOTA性能与较少的人工注释。17008引用[1] 放 大 图 片 创 作 者 : Iro Armeni , Ozan Sener , AmirR.Zamir , Helen Jiang , Ioannis Brilakis , MartinFischer,and Silvio Savarese.大规模室内空间的三维语义解析。在CVPR,2016年。2[2] Yigit Baran Can,Alexander Liniger,Danda Pani Paudel和Luc Van Gool。结构化的鸟瞰ICCV,2021。2[3] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割。arXiv预印本arXiv:1412.7062,2014。3[4] Helisa Dhamo,Nassir Navab,and Federico Tombari.对象驱动的多层场景分解从一个单一的图像。在ICCV,2019年。2[5] 放大图片作者:Vikas Dhiman,Quoc-Huy Tran,Jason J.科索,还有曼莫汉·钱德拉克。一种用于道路场景理解的连续遮挡模型。在CVPR,2016年。1[6] Christoph Feichtenhofer , Axel Pinz , and Richard PWildes.视频动作识别的时空倍增器网络。在CVPR,2017年。2[7] Ravi Garg,Vijay Kumar Bg,Gustavo Carneiro,and IanReid.单视图深度估计的无监督cnn:几何拯救。在ECCV,2016年。4[8] Andreas Geiger , Martin Lauer , Christian Wojek ,Christoph Stiller,and Raquel Urtasun.基于移动平台的三维交通场景理解PAMI,2014年。一、二[9] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun. Vision meets Robotics : The KITTIDataset. IJRR,2013年。二五六七八[10] Cl e´mentGodard,OisinMacAodha,andGabrielJBrost ow.具有左右一致性的无监督单目深度估计在CVPR,2017年。4[11] 史蒂芬·古尔德理查德·富尔顿和达芙妮·科勒。将场景分解为几何和语义一致的区域。ICCV,2009年。2[12] Ruiqi Guo和Derek Hoiem。视线之外:标记下面的表面。ECCV,2012年。2[13] Saurabh Gupta,James Davidson,Sergey Levine,RahulSuk-thankar,and Jitendra Malik.视觉导航的认知地图和规划在CVPR,2017年。一、二[14] Richard Hartley和Andrew Zisserman。计算机视觉中的多视图几何学。剑桥大学出版社,2003年。四、五[15] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习在CVPR,2016年。二六七[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。6[17] 拉尔斯·昆泽,汤姆·布鲁尔斯,塔兰·苏莱曼诺夫和保罗·纽曼。在车道之间阅读:从部分分段场景重建道路布局。智能交通系统国际,2018年。2[18] Chen-Yu Lee , Saining Xie , Patrick Gallagher ,Zhengyou Zhang,and Zhuowen Tu.深度监督网。在Pro-2015年第十八届商业情报和统计国际会议的主办方。2[19] Chi Li,M.作者:Zia Zeeshan,Quoc-Huy Tran,XiangYu,Gregory D.海格和曼莫汉·钱德拉克用于遮挡感知3d对象解析的具有形状概念的深度在CVPR,2017年。2[20] Peiang Li,Xiaozhi Chen,and Shaojie Shen.用于自动驾驶的基于立体r-cnn的3d目标检测。在CVPR,2019年。7[21] Beyang Liu,Stephen Gould,and Daphne Koller.从预测的语义标签进行单CVPR,2010。二、四[22] 刘步宇和何旭明。具有对象级主动推理的多类语义视频分割CVPR,2015。2[23] Buyu Liu,Bingbing Zhuang,Samuel Schulter,Pan Ji,and Manmohan Chandraker.从视频中整体了解道路布局。在CVPR,2020年。一、二、四、五、六、七[24] 作 者 : Chen Xi Liu , Alexander G.Schwing , KaustavKundu,Raquel Urtasun,and Sanja Fidler.Rent3D:单目布局估计的平面图先验。CVPR,2015。2[25] ChenyangLu , MarinusJacobusGerardusvandeMolengraft,and Gijs Dubbelman.用卷积变分编码器-解码器网络进行单目语义占用网格映射。IEEE Roboticsand Automation Letters,2019。2[26] Kauh Mani,Swapnil Daga,Shubhika Garg,Sai ShankarNarasimhan , Madhava Krishna , and Krishna MurthyJataval- labhula.Monolayout:单一图像的非模态场景布局。在WACV,2020年。二、六[27] Kaujanh Mani , N Sai Shankar , Krishna MurthyJatavallab- hula,and K Madhava Krishna. Autolay:自动驾驶的基准amodal布局估计。在IROS,2020年。2[28] NuTonomy NuScenes 数 据 集 。 https : //www.nuscenes.org,2018年。二、五、六[29] B.潘,J.孙,H. Y. T. Leung、黄毛菊A. Andonian和B.舟用于感知环境的跨视图语义分割。IEEE Robotics and Automation Letters,2020。2[30] 乔纳·菲利翁和桑娅·菲德勒。Lift,splat,shoot:通过隐式地取消投影到3d来编码来自任意相机设备的arXiv预印本arXiv:2008.05711,2020。二、六[31] 托马斯·罗迪克和罗伯托·西波拉。使用金字塔占有网络从图像预测语义地图表示。在CVPR,2020年。一、二、八[32] 托马斯·罗迪克、亚历克斯·肯德尔和罗伯托·西波拉。用于单目三维目标检测的正交特征变换。arXiv预印本arXiv:1811.08188,2018。2[33] Olaf Ronneberger,Philipp Fischer,and Thomas Brox.U-网:用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议,2015。三、五[34] 塞缪尔·舒特,翟梦华,内森·雅各布斯,曼-莫汉·钱德拉克。学习查看周围的物体,以获得户外场景的顶视图表示。在ECCV,2018。二、六[35] Ari Seff和Jianxiong Xiao。从地图中学习:自动驾驶的视觉常识arXiv:1611.08583,2016. 一、二、六、七17009[36] SunandoSengupta、PaulStur gess、L` uborLadicky'和PhilipH. S. 乇从街道级图像自动密集视觉语义映射InIROS,2012. 2[37] Yujiao Shi,Liu Liu,Xin Yu,and Hongdong Li.用于基于 图 像 的 跨 视 图 地 理 定 位 的 空 间 感 知 特 征 聚 合 。NeurIPS,2019。2[38] Karen Simonyan和Andrew Zisserman用于视频中动作识别的双流在NIPS,2014。2[39] 宋 舒 然 曾 安 迪 天 使 X Chang , Manolis Savva , SilvioSavarese , and Thomas Funkhouser. Im2Pano3D : Ex-trapolating 360 Structure and Semantics Beyond the Fieldof View.在CVPR,2018年。2[40] Joseph Tighe,Marc Niethammer,Svetlana Lazebnik.场景解析与对象排序和遮挡排序。在CVPR,2014年6月。2[41] Shubham Tulsiani,Richard Tucker和Noah Snavely。基于视图合成的层次结构三维场景推理在ECCV,2018。2[42] 武端雄,崔元君,萨缪尔·舒特,还有曼莫汉·钱德拉克。记忆扭曲学习长期在线视频表示。arXiv预印本arXiv:1803.10861,2018。2[43] Jingdong Wang , Ke Sun , Tianheng Cheng , BoruiJiang,Chaorui Deng,Yang Zhao,Dong Liu,YadongMu,Mingkui Tan,Xinggang Wang,et al.用于视觉识别的深度高分辨率表示PAMI,2020年。三、五[44] Yan Wang , Wei-Lun Chao , Divyansh Garg , BharathHariha-ran,Mark Campbell,and Kilian Q Weinberger.视觉深度估计的伪激光雷达:弥合自动驾驶3D物体检测的差距。在CVPR,2019年。2[45] Ziyan Wang , Buyu Liu , Samuel Schulter , andManmoh
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高效办公必备:可易文件夹批量生成器
- 吉林大学图形学与人机交互课程作业解析
- 8086与8255打造简易乒乓球游戏机教程
- Win10下C++开发工具包:Bongo Cat Mver、GLEW、GLFW
- Bootstrap前端开发:六页果蔬展示页面
- MacOS兼容版VSCode 1.85.1:最后支持10.13.x版本
- 掌握cpp2uml工具及其使用方法指南
- C51单片机星形流水灯设计与Proteus仿真教程
- 深度远程启动管理器使用教程与工具包
- SAAS云建站平台,一台服务器支持数万独立网站
- Java开发的博客API系统:完整功能与接口文档
- 掌握SecureCRT:打造高效SSH超级终端
- JAVA飞机大战游戏实现与源码分享
- SSM框架开发的在线考试系统设计与实现
- MEMS捷联惯导解算与MATLAB仿真指南
- Java实现的学生考试系统开发实战教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功