没有合适的资源?快使用搜索试试~ 我知道了~
10325复杂道路场景的参数化俯视表示王紫燕1* 刘步宇2塞缪尔·舒尔特2曼莫汉·钱德拉克2,31卡内基梅隆大学2NEC实验室美国3加州大学圣地亚哥分校摘要在本文中,我们解决的问题,推断布局的复杂道路场景给定的一个单一的摄像机作为输入。为了实现这一目标,我们首先提出了一种新的参数化模型的道路布局的俯视图表示,这不仅是直观的人类可视化,但也提供了一个可解释的界面,更高层次的决策。此外,我们的顶视场景模型的设计允许有效的采样,从而生成大规模的模拟数据,我们利用这些数据来训练深度神经网络来推断场景模型具体来说,我们提出的训练过程使用监督域自适应技术,将模拟以及手动注释 的 数 据 。 最 后 , 我 们 设 计 了 一 个 条 件 随 机 场(CRF),强制相干预测的一个单一的帧,并鼓励视频帧之间的时间平滑。在两个公开数据集上的实验表明:(1)我们的参数化俯视图模型具有足够的代表性,能够描述复杂的道路场景;(2)所提出的方法优于仅在手动注释或模拟数据上训练的基线,从而获得两者的最佳效果;(3)我们的CRF能够生成时间平滑而语义有意义的结果。1. 介绍理解3D世界的复杂布局对于机器人导航、驾驶员辅助系统或自动驾驶等应用来说是一项 最近在基于深度学习的感知系统中的成功实现了场景透视图中的像素精确语义分割[3,4,33]和(单眼)深度估计[9,15,32]。其他作品如[10,23,25]更进一步,解释了遮挡,并为3D场景理解构建了更好的表示。然而,这些作品中的表示通常是非参数的,即,它为场景的2D/3D点提供语义标签,这使得下游应用难以进行更高级的推理。在这项工作中,我们专注于理解驾驶场景,并提出了一个丰富的参数化模型,描述COM-*在NEC美国实验室实习期间完成的工作。图1:我们的目标是从单个摄像头推断复杂驾驶场景的布局。给定捕获3D场景的透视图像(左上),我们预测丰富且可解释的场景描述(右下),其以基于遮挡的语义顶视图表示场景。在一个俯视图表示丛道路布局(图。1和Sec。第3.1节)。我们的模型的参数描述了重要的场景属性,如车道的数量和宽度,以及各种类型的交叉口,人行横道和人行道的存在和距离。这些参数的显式模型有利于更高级别的建模和决策制定,因为它提供了与现实世界的有形接口。与现有技术[7,14,17,23,24,25]相比,我们提出的场景模型更丰富,完全参数化,并且可以通过深度神经网络和图形模型的组合从单个相机输入中推断出来。然而,训练深度神经网络需要大量的训练数据。虽然为真实RGB图像注释我们模型的场景属性是可能的,但在大规模上这样做成本也很高,更重要的是,对于某些场景属性来说非常困难。虽然人行横道的存在是一个二进制属性,很容易注释,但注释辅路的确切宽度需要场景几何知识,这在仅给出透视RGB图像时很难因此,我们建议利用模拟数据。然而,与渲染照片般逼真的RGB图像相比,这是一个困难和时间-10326消耗任务[20,21],我们提出了一个场景模型,允许有效的采样和渲染语义顶视图表示,避免昂贵的照明建模或遮挡推理。给定具有准确和完整注释的模拟数据,以及具有潜在噪声和不完整注释的真实图像,我们提出了一种利用两种信息源的混合训练方案。具体来说,我们的神经网络设计涉及(i)一个特征提取器,旨在利用来自两个领域的信息,来自[23]的模拟和真实语义顶视图(见图2)。4),以及(ii)场景参数的域不可知分类器。在测试时,我们使用[23]将透视RGB图像转换为语义顶视图表示,并预测场景模型的参数。给定各个场景参数预测,我们进一步设计了一个图形模型(Sec.3.4)其捕获单个图像中的场景属性之间的依赖性,并在帧序列上强制时间一致性我们在两个公共驾驶数据集KITTI [8]和NuScenes [18]上验证了我们的想法。4).结果表明,顶视图表示的有效性,混合训练过程与真实和模拟数据,以及连贯和一致的输出的图形模型的重要性。总而言之,我们的主要贡献是:• 一个新颖的参数化和可解释的模型,复杂的驾驶场景的顶视图表示。• 神经网络(i)预测来自单个相机的参数,并且(ii)被设计成能够从真实数据和合成数据两者实现混合训练方法。• 一种图形模型,确保连贯和时间一致的场景描述输出。• KITTI [8]和NuScenes [18]数据集的场景属性的新注释1.2. 相关工作3D场景理解是计算机视觉中的一项重要任务,许多应用于机器人导航[11],自动驾驶[7,14],增强现实[1]或房地产[16,27]。场景理解:场景的显式建模通常用于室内应用,其中可以利用关于房间布局的强先验知识[1,16,26]。非参数方法对于室外场景更常见,因为布局通常更复杂并且更难在连贯模型中捕获,其中遮挡原因通常是主要焦点。由于反映顺序的自然能力,分层表示[10,29,31]已被用于场景理解,以推理遮挡区域中的几何和语义。然而,这种中间表示对于需要距离信息的应用是不期望的相反,顶视图表示[23,25]是更详细的描述1http://www.nec-labs.com/~mas/BEV3D场景理解。我们的工作遵循这样的顶视图表示,旨在从单个输入图像推断复杂的户外驾驶场景的参数化模型一些参数化模型也被提出来用于室外环境. Seff和Xiao [24]提出了一种神经网络,可以直接从单个RGB图像预测场景属性。虽然这些属性是从OpenStreetMaps自动获取的[19],但它们不够丰富,无法完全描述复杂的道路场景,例如带有支路的弯曲道路Geiger等人提出了一个更丰富的模型,能够处理复杂的交叉口与交通参与者。[7]的文件。为此,他们建议利用多种形式,如车辆轨迹,消失点和场景流。与他们的工作不同,我们更多地关注场景布局,并在第二节提出建议。3.1一个更丰富的模型在这方面,包括多车道,人行横道和人行道。此外,我们的基本框架是能够推断模型参数与一个单一的透视图像作为输入。最近的一项工作[14]提出从图像的部分分割中推断道路的图形表示,包括车道和车道标记。与我们旨在处理复杂道路场景的方法不同,[14]只关注直路。Máttyus等人[17]提出了一个有趣的道路参数模型,目标是用更丰富的语义增强现有的地图数据。同样,该模型仅处理直线道路,并且需要来自透视和航拍图像的输入。也许[23]是最接近我们的工作。与此相反,我们提出了一个完全参数化的模型,能够重建复杂的道路布局。从模拟数据中学习:除了场景模型本身,我们工作的一个关键贡献是利用模拟数据的训练程序,其中我们还利用了域适应工具[6,30]。虽然这一领域的最新进展集中在弥合合成和真实RGB图像之间的域差距[20,21],但我们受益于定义模型的语义顶视图表示。这种表示允许对各种道路布局进行高效建模和采样,同时避免了照片级真实感渲染的困难,以显着减少模拟数据和真实数据之间的域差距。3. 我们的框架这项工作的目标是从一个单一的摄像机提取复杂的道路场景布局的可解释的秒3.1介绍了我们的第一个贡献,一个参数化的和丰富的道路场景模型,描述属性,如道路的拓扑结构,车道的数量或场景元素的距离。我们的场景模型的设计允许有效的采样,因此,能够生成大规模的模拟数据与准确和完整的注释。同时,为真实图像手动注释这些场景属性的成本很高,更重要的是,对于某些属性甚至是不可行的,参见第2节。3.2. 第二10327i=1图2:我们的场景模型由几个参数组成,可以捕捉各种复杂的驾驶场景。(左)我们展示了模型并突出显示了重要参数(A-I),这些参数分为三类(中):车道,用于描述单个道路的布局;拓扑,用于对各种道路拓扑进行建模;步行,用于描述行人的场景元素我们的模型被定义为一个有向的非循环图,使有效的采样,并表示在顶视图,使渲染容易。这些属性使我们的模型成为语义顶视图的模拟器(右)我们展示了上述各组的渲染示例补充资料中给出了场景参数和相应图形模型的完整列表我们的工作的贡献,在第二节中描述。3.3是一个深度学习框架,它利用来自真实和模拟两个领域的训练数据来推断我们提出的场景模型的参数。最后,我们的第三个贡献是一个条件随机场(CRF),它加强了我们的场景模型的相关参数之间的一致性,并鼓励视频输入的时间平滑性,见第二节。三点四分。3.1. 场景模型我们的模型描述了道路场景的语义顶视图表示,我们假设相机是在底部中心的每一帧。这允许我们相对于相机定位所有在更高的层次上,我们区分了所有道路至少由一条车道组成,交叉口由多条道路组成图2给出了我们提出的模型的概述。定义两条辅路(一条在主路的左侧,一条在主路的右侧)以及到每条辅路的距离,使我们能够灵活地建模3路和4路交叉口。另一个属性确定主要道路是否在交叉点后结束,这将产生T形交叉点。将一组参数θ分成不同的类型,计Mb=14个二元变量Θb,Mm=2个多类变量Θm和Mc=22个连续变量Θc。补充材料包含我们的模型参数的完整列表请注意,使用简单模拟器的能力意味着我们可以轻松地使用更多参数和关系扩展场景模型3.2. 根据真实和模拟数据进行监控从 RGB 图 像 推 断 模 型 Seff 和 Xiao [24] 利 用OpenStreetMaps [19]收集RGB图像的地面实况。虽然这可以在给定GPS坐标的情况下自动完成,但可检索的属性集是有限的,并且可能有噪声。相反,我们利用手动注释和模拟的组合进行训练。真实数据:只有在使用合适的工具时,才能有效地使用与我们定义的参数相对应的属性来注释真实图像。对于顺序数据尤其如此,因为许多属性在很长一段时间内保持不变。补充材料包含有关我们的注释工具和过程的详细信息我们有主干道由一组车道组成,一条或两条-收集数据集Dr={xr,Θr}Nr的Nr个样本,道路交通、分隔符和人行道。我们还在相机的左侧和右侧定义了多达六个通道,这些通道占据了自我通道。我们允许不同的车道宽度来模拟特殊车道,如转弯车道或自行车道。在最外面的车道旁边,一定宽度的可选分隔符将道路与可选人行道分开。在交叉口,我们还模拟了所有四个潜在侧的人行横道的存在。对于辅路,我们仅对其宽度建模。我方最后语义 顶视图 Xr和对 应的场 景属性 Θr。语 义俯视 图xr∈RH×W×C,空间维度为H×W,包含C个语义范畴(“道路”、“人行道”、“车道边界”和“人行横道”),应用[23]的框架计算然而,真实数据会出现一些问题首先,对于每个RGB图像,要求地面实况深度处于合理的密度,以要求人类可靠地估计到场景元素的距离,如10328i=1supsup图3:我们提出的框架概述:在训练时,我们的框架使用手动注释来真实数据(蓝色)和模拟数据的自动注释(红色),请参见第3.2.特征提取器g将来自任一域的语义顶视图转换成输入到h的公共表示。 对抗性损失(橙色)鼓励g的域不可知输出。在测试时,透视图中的RGB图像首先被转换为语义顶视图[23],然后由我们提出的神经网络使用(参见第二节)。3.3),hg,推断我们的场景模型(见第二节)。第3.1节)。图中定义的模型。3.4确保一致的最终输出。十字路口或人行横道。其次,总是有一个限制,多少不同的数据可以注释成本效益。第三,最重要的是,即使深度信息可用,也不是所有期望的场景属性都容易或甚至可能大规模地注释出于这些原因,我们探索模拟作为另一种监督来源。模拟数据:我们提出的场景模型定义在第二节。 3.1可以作为模拟器生成具有完整和准确注释的训练数据。首先,通过将每个属性视为具有特定手动定义(条件)概率分布的随机变量,并将其与有向非循环图相关联,我们可以使用祖先采样[2]来有效地对场景参数Θ s的不同集合进行采样。其次,我们渲染由参数Θs转换成语义上的顶视图xs,与xr具有相同的维度。重要的是要强调渲染是容易的,与透视RGB图像的照片级真实感渲染年龄[20,21],因为我们的模型(i)在不需要遮挡推理的顶视图中工作,并且(ii)在语义空间中定义,使得照明或照片现实主义成为可能。其中,k定义了一个函数组合,h和g是我们想要训练的神经网络,分别具有权重γh和γgg的体系结构是一个6层的控制器,卷积神经网络(CNN),将语义顶视图x∈RH×W×C转换为一维特征向量fx∈RD。然后,函数h被定义为多层感知器(MLP),其预测给定fx的场景属性Θ。具体地,h被实现为多任务网络,对于每个多任务网络,具有三个单独的预测ηb、ηm和ηc场景模型的参数组Θb、Θm和Θc我们的目标是让hoblog能够很好地处理真实数据,同时我们希望利用训练过程中的模拟数据。我们的设计背后的直觉是有一个统一的g,它将不同领域的语义顶视图x映射到一个公共的特征表示中,可由领域不可知的分类器h使用。为了实现这一直觉,我们定义了真实和真实的监督损失函数模拟数据,并利用域自适应技术来最小化来自不同域的给定顶视图的输出之间的域间隙。过时了 我们生成一个数据集Ds={xs,Θs}Ns的NSSIM-场景属性标注的损失函数:给定化的语义顶视图xs和对应的Θs。图2真实数据和模拟数据的数据集Dr和Ds,我们定义(右)给出了渲染的俯视图的几个示例Lsup=λr·Lr+λs·Ls(二)3.3. 训练和推断场景模型我们提出了一种深度学习框架,该框架将语义顶视图x映射到场景模型参数Θ。图3提供了一个概念性说明。为了利用这两个来源,作为监督损失。标量λr和λs衡量真实数据和模拟数据之间的重要性,N{r,s}L{r,s}=BCE(Θ{r,s},η{r,s})的监督(真实和模拟数据)在培训期间,我们supi=1b我b我(三)将此映射定义为+CE(Θ{r,s},η{r,s})嗯,我嗯,我Θ=f(x)=(hg)(x),(1)10329+θ1(Θ{r,s},η{r,s}),c,ic,i10330supB图4:模拟语义顶视图(上)和来自[23]的真实视图(下)的未配对示例。3.4. 用于相干场景理解的CRF我们现在介绍我们的图形模型,用于预测道路场景的一致布局。我们首先提出我们的CRF单帧,然后将其扩展到时域。单张图像CRF:让我们首先将场景属性的元素和对应的预测表示为Θ[·]和η[·],其中我们使用索引i∈{1,.Mb},p∈{1,., m∈ {1,..., M c}分别用于二进制、多类和连续变量。我们就能理解-能量最小化问题E(Θ |x)= E b(Θ b)+E m(Θ m)+E c(Θ c)其中,(B)CE是(二进制)交叉熵损失,并且{Θ,η},i+Es(Θb,Θm)+Eq(Θb,Θc)+Eh(Θb, Θm,Θc),(五)表示数据集中的第i个样本。对于回归,我们通过将以Θc为中心的狄拉克δ函数与固定方差的高斯函数进行卷积,将连续变量离散化到K个仓中,这使得更容易进行多模态预测,并且对于第2节中定义的图形模型很有用三点四分。我们其中,E表示相关场景属性变量(Θb、Θm和Θc)。我们将在下文中详细描述每种电位。对于二元变量Θb,我们的势函数Eb由两项组成,忽略场景属性,而不对Lr进行手动注释。ΣΣ弥合领域差距:由于我们的目标是在训练过程中利用模拟数据,因此我们的网络Eb(Θb)=φb(Θb[i])+我我b(Θb[i],Θb[j]).(六)J符号需要考虑固有的域间隙。因此,我们定义了具有共享权重γg的单独的特征提取网络gr和gs,它们将来自任一域的语义顶视图作为输入,即,xr或xs,并计算相应的特征fxr和fxs。然后我们明确地鼓励领域不可知论者特征表示采用对抗损失函数Ladv[6]。我们使用具有参数γ d的MLP d(fx)如图1所示,其从任一域中获取特征表示,即,fxr或fxs作为输入,并进行“真实”或“虚假”的二进制预测。 就像标准的生成对抗性网络,d的目标是区分这两个域,而模型的其余部分旨在通过提供不可区分的输入fxr,s来在底层分布中,即,一个领域不可知论的代表,语义顶视图映射的表示xr,s. 图4示出不成对的例子模拟和真实的顶视图,以illust-缩小Domain Gap。请注意,我们选择了特征级的域自适应,而不是我们最初尝试的像素级[35]的修改版本,因为它的设计更简单,精度更高。然而,我们参考补充文件来讨论我们的像素级方法,该方法提供了对域适应的作用的见解,并进一步可视化克服域差距。一元项φb(·)指定为Θi分配标签的成本,定义为−logPb(Θb[i]),其中Pb(Θb[i])=ηb[i]是我们的神经网络h的概率输出。成对项θb(·,·)将将Θb[i]和Θb[j] 分 配 给 第 i 个 和 第 j 个 变 量 的 成 本 定 义 为 θb(Θb[i],Θb[j])=-logMb ( θb[i] , Θb[j] ) , 其 中 Mb 是 同 现 概 率 , Mb(Θb[i],θb[j])是相应的概率-是的。 对于多类变量,我们的势定义为Em(Θm)=pφm(Θm[p]),其中φm(·)=−1ogPm(·)且Pm(Θm[p])=ηm[p]。 类似地,我们将连续变量的势定义为Ec(θc)= mφ c(Θc[m]),其中φ c(Θc[m])是ηc[m]的负对数似然。对于一个连贯的预测,我们进一步介绍了po-Es、Eq和Eh来对场景属性之间的相关性进行建模。Es和Eq分别在某些二元变量和多类或连续例如,它们传达了这样一种思想,即支路的车道数与该支路的实际存在是一致的。我们表示预定义的集合当S={(i,p)}时,Θb和Θm之间的对以及Θb和Θm之间的对且Θc为Q={(i,m)}。势Es定义为:ΣE(Θ,Θ)=∞ ×[Θ [i]/=Θ [p]],(7)最佳化:我们使用ADAM [13]通过求解来估计我们的神经网络模型的参数:sb mB.B.M(i,p)∈Smax min Lsup+ λadvLadv.(四)其中,[]是指示函数。势Eq定义为类似地,但是使用集合Q和变量Θ。在这两种情况下γd γg,γh图3提供了我们框架的概述10331C我们对两种类型的预测不一致的情况给予高惩罚。10332k=12最后,我们的能量定义在Eq。(5)建立了Θb、Θm和Θc之间的高阶关系模型。势的形式是ΣEh(Θb,Θm,Θc)=∞×fc(Θb[i],Θm[p],Θc[m]),(8)c∈C其中c=(i,p,m)并且fc(·,·,·)是其中冲突预测被设置为1的表补充资料提供了一个完整的我们的模型。有关注释过程的详细信息,请参阅补充文件。总的来说,我们为KITTI [8]和NuScenes [18]获得了大约17000个注释。评价指标:由于我们的预测的输出空间是复杂的,并且由离散和连续变量的混合组成,这需要不同的处理,我们使用多个不同的度量进行评估。对于二进制变量(如支路的存在对于多类变量(例如通道数量),我们C的定义,其中包含场景属性和我们对它们施加的约束。测量精度为Accu.- Bi=1Σ21414[pk=Θbk]和时间CRF:鉴于视频作为输入,我们建议扩展我们的CRF,以鼓励时间上一致和有意义的输出。我们从Eq扩展能量函数。(5)通过两个术语来实现二进制和多类变量的时间一致性以及连续变量的平滑性。由于篇幅所限,我们的提法详见补充材料。CRF上的学习和推理:我们使用QPBO [22]在两个CRF模型中进行推断。由于地面真值并不适用于所有帧,因此我们不引入每势权重。然而,如果提供了基础事实,我们的CRF可以进行分段[28]或联合学习[5,34]。4. 实验为了评估我们的场景理解方法的质量,我们进行了几个实验,并分析了我们的模型的不同方面的重要性。由于我们确实有手动注释的基础事实,我们可以量化我们的结果,并与几个基线进行比较,这些基线展示了两个关键贡献的影响:使用俯视图和模拟数据进行训练。我们还强调这项工作的定性结果,原因有二:首先,并非我们模型的所有属性都包含在手动注释的基础事实中,因此不能量化,只能定性验证。其次,显然没有现有技术显示关于这组新的地面实况数据的结果,这使得定性结果的分析更加重要。数据集:由于我们的重点是驾驶场景,并且我们的方法需要语义分割和深度注释,因此我们选择使用KITTI[8]和新发布的NuScenes [18]2数据集。尽管两个数据集都提供了激光扫描数据用于深度地面实况,但请注意,深度超视也可以来自立体图像[9]。此外,由于NuScenes [18]不提供语义分割,我们重用KITTI的分割模型。对于这两个数据集,我们用场景属性手动注释图像的子集。注释器可以看到RGB图像以及深度地面实况,并为22个属性提供标签2在进行实验时,我们只能访问预先发布的数据集。准确。- Mc= 1k=1[pk= Θm k]。对于回归变量我们使用均方误差(MSE)。除了这些标准度量之外,我们还提出了另一种度量,将所有预测变量和输出组合成一个数字。我们采用预测的参数并相应地渲染场景。对于相应的图像,我们采用地面实况参数(用没有地面实况注释的变量的预测值来增强)并渲染场景,该场景为每个像素分配语义 类别。为 了进行评 估,我们 现在可以 使用Intersection-over- Union(IoU),这是语义分割中的标准度量。虽然在此设置中是一个非常具有挑战性的度量,但它隐含地通过属性对顶视图区域的影响来衡量属性。例如,将车道数预测错一米所产生的影响比将到路边的距离预测错一米所产生的影响更大。4.1. 单个图像评估我们的主要实验是用一张图像作为输入进行的在下一节中,我们将分别评估第2节中描述的时态建模的影响。三点四分。基线:由于我们提出了一个场景模型的道路与新的属性和相应的地面实况注释,不存在以前报道的数字。因此,我们选择适当的基线,这些基线要么是我们模型的变体,要么是扩展到我们场景模型的相关先前工作:• 手动-GT-RGB(M-RGB):分类CNN(ResNet-101[12])在手动注释的地面事实上训练。Seff和Xiao[24]具有相同的设置,只是我们使用具有更多参数的网络,并在多任务设置中同时训练所有属性• 手动-GT-RGB+深度(M-RGB+D):与M-RGB相同,但具有单目深度预测的额外任务(如在我们的感知模型中)。直觉这种额外的监督有助于预测某些场景属性,例如,距离侧路,并呈现一个更公平的比较点,我们的模型。• 手动-GT-BEV(M-BEV):代替使用透视RGB图像作为输入,该基线使用[23]的输出,其是顶视图中的语义图,也称为鸟瞰图(BEV)。我们训练函数f人工标注的真实情况因此,M-BEV可以被视为[23]对我们场景模型的扩展。10333图5:我们在表中的定量评估中比较的所有模型的图示1.一、KITTI [8][18]第十八话方法准确。-双性恋↑准确。-MC.↑MSE ↓欠条↑准确。-双性恋↑准确。-MC.↑MSE ↓欠条↑M-RGB [24].811.778.230.317.846.604.080.316M-RGB [24]+D.799.798.146.342.899.634.021.335M-BEV [23].820.777.141.345.852.601.022.269[23]第二十三话.831.792.136.350.852.601.036.338S-BEV.694.371.249.239.790.366.162.155S-BEV+DA.818.677.222.314.753.568.103.171S-BEV+DA+GM.847.683.230.320.723.568.081.160混合动力电动汽车.816.756.152.342.783.569.039.345H-BEV+DE.830.776.158.381.854.626.042.423H-BEV+DA.845.792.108.398.856.545.028.346H-BEV+DA+GM.849.805.098.371.855.626.033.450表1:KITTI [8]和NuScenes [18]数据集上道路场景布局估计的主要结果• 模拟BEV(S-BEV):该基线使用与M-BEV相同的架构,但仅在模拟中进行训练。• 模拟-BEV +DomainAdapt(S-BEV+DA):与S-BEV相同,但具有我们模型中提出的额外域适应损失。我们表示我们在第二节中提出的方法。3,根据上述命名 法 , 将 其 命 名 为 Hybrid-BEV+DomainAdapt ( H-BEV+DA),并进一步探索其两种变体。首先,H-BEV并不使用BHD,但仍然从这两个领域进行训练。第二,H-BEV+DE也避免了重复,但使用了单独的一组权重γr和γsKITTI [8][18]第十八话方法seman.↓温度↓seman.↓温度↓S-BEV+DA2.825.321.082.09M-BEV [23]2.653.991.091.27H-BEV+DA5.596.011.081.05+GM1.771.930.110.42表2:一致性测量的主要结果。KITTI上的RGB+D和NuScenes上的更差,但具有至关重要的优势,gg俯视图成为可能,如所有混合动力汽车所示。对于特征提取网络G.直觉是来自两个域的监督损失和单独的域特定编码(因此,“+DE”)已经为模型提供了足够的容量和信息,以找到数据的域不可知表示。请参考图5以了解我们比较的不同模型的概述。对于每组(M-,S-和H-)中的最佳模型,我们使用图形模型(+GM)报告数字。定量结果:选项卡. 1总结了我们对这两个数据集的主要结果,我们可以得出几个结论。首先,当按监督类型比较各组方法时,即,手动(M)、模拟(S)和混合(H),我们可以清楚地观察到利用两个域的混合方法的好处其次,在手动注释组中,我们可以看到在[24]的方法中添加深度监督直接从[23]的顶视图表示预测场景属性略好于M。变体。第三,在模拟数据组内,使用域自适应技术(S-BEV+DA)具有显著的我们想强调S-BEV+DA的竞争性整体结果,这是一种不需要手动注释的无监督域自第四,同样对于混合方法,明确地解决域间隙(H-BEV +DE和H-BEV+DA)使得能够实现更高的准确度。最后,所有模型都随着我们的图形模型的增加而改进。定性结果: 我们展示了几个定性的结果图6和图7,并再次强调其重要性,以证明我们的方法的实用性定性。我们可以从例子中看到,我们的模型成功地描述了一组不同的道路场景。4.2. 评估模型我们现在分析图形模型对预测一致性的影响,为此我们定义了以下指标:10334图6:来自KITTI的单个帧上的H-BEV+DA+GM的定性结果。每个示例分别示出了透视RGB、地面实况和预测语义顶视图。我们的表现足够丰富,以涵盖各种道路布局和处理复杂的情况下,旋转,存在人行横道、人行道、便道和弯道。图7:在KITTI验证集的两个示例序列的连续帧中比较H-BEV+DA和H-BEV+DA+GM的定性结果在每一列中,我们从左到右可视化了透视RGB图像、来自H-BEV+DA的预测每一行显示三个帧的序列。我们可以观察到更一致的预测,例如,在时间CRF的帮助下,确定了支路宽度和支路宽度。• 语义一致性:我们测量了贡献预测中的冲突。它们的语义。特别是,如果预测的属性在我们的场景模型中不可行,我们就计算冲突冲突的平均数量被报告为我们的语义一致性度量。• 时间一致性:对于视频序列中的每个属性预测我们报告的平均数量的预测变化的时间一致性。数值越小,我们得到的预测越稳定。请注意,一致性本身不能取代准确性,因为预测也可能始终是错误的。至于时间的一致性,我们可视化连续帧的定性结果在两个验证序列从KITTI在图。7.该图形模型成功地实现了时间平滑,特别是车道数,车道宽度和支路宽度。最后,我们在Tab中显示。KITTI和NuScenes数据集上定义的时间一致性度量的2个定量结果。我们将来自不同监督形式(M-、S-和H-)的每组的代表性模型与应用于H-BEV + DA的图形模型的输出进行我们可以清楚地观察到两个数据集的一致性有了显著与Tab中的优越结果一起1,这清楚地表明了为我们的应用程序提出了图形模型。5. 结论在这项工作中,我们提出了一个复杂的道路场景理解我们的主要贡献是:(1)在顶视图中定义的场景的参数化和可解释的模型,并且使得能够对不同场景进行有效采样。语义顶视图表示使渲染变得容易(与透视图中的照片级逼真RGB图像相比),这使得能够生成大规模模拟数据。(2)神经网络设计和相应的训练方案,以利用模拟以及手动注释的真实数据。(3)一种图形模型,可确保对单帧输入进行相干预测,并对视频输入进行时间平滑输出。我们提出的混合模型(使用两个数据源)优于其同行,只使用一个监督来源的实证评估。这证实了顶视图表示的好处,使大规模模拟数据的简单生成,从而我们的混合训练。鸣谢:我们要感谢KihyukSohn对领域适应的宝贵讨论和所有匿名评论者的评论。10335引用[1] 放 大 图 片 创 作 者 : Iro Armeni , Ozan Sener , AmirR.Zamir , Helen Jiang , Ioannis Brilakis , MartinFischer,and Silvio Savarese.大规模室内空间的三维语义解析。在CVPR,2016年。[2] Christopher M.主教模式识别与机器学习。Springer,2007.[3] SamuelRotaBulò , LorenzoPorzi , andPeterKontschieder.用于DNN的内存优化训练的就地激活的BatchNorm在CVPR,2018年。[4] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.基于Atrous可分离卷积的语义图像分割编码解码器。在ECCV,2018。[5] 贾斯汀·多姆克用近似边缘推理学习图形模型参数。PAMI,35(10):2454-2467,2013.[6] Yaroslav Ganin , Evgeniya Ustinova , Hana Ajakan ,Pascal Germain,Hugo Larochelle,François Laviolette,Mario Marc- hand,and Victor Lempitsky.神经网络的领域对抗训练。JMLR,2016.[7] Andreas Geiger , Martin Lauer , Christian Wojek ,Christoph Stiller,and Raquel Urtasun.基于移动平台的三维交通场景PAMI,2014年。[8] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun.视觉与机器人:KITTI数据集。国际机器人研究杂志(IJRR),2013年。[9] Clément Godard,Oisin Mac Aodha,and Gabriel J.布罗斯 托 具 有 左 右 一 致 性 的 无 监 督 单 目 深 度 估 计 。 在CVPR,2017年。[10] Ruiqi Guo和Derek Hoiem。视线之外:标记下面的表面。ECCV,2012年。[11] Saurabh Gupta,James Davidson,Sergey Levine,RahulSuk-thankar,and Jitendra Malik.视觉导航的认知地图和在CVPR,2017年。[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[13] Diederik P. Kingma和Jimmy Ba。亚当:一种随机优化方法。2015年,国际会议[14] 拉尔斯·昆泽,汤姆·布鲁尔斯,塔兰·苏莱曼诺夫和保罗·纽曼。《小巷之间的阅读》:基于部分分割场景的道路布局重建。智能交通系统国际会议(ITSC),2018年。[15] Iro Laina , Vasileios Belagiannis Christian Rupprecht ,Fed-erico Tombari,and Nassir Navab.使用全卷积残差网络进行更深的深度预测。在3DV,2016年。[16] 作 者 : Chen Xi Liu , Alexander G.Schwing , KaustavKundu,Raquel Urtasun,and Sanja Fidler.Rent3D:单目布局估计的平面图先验。CVPR,2015。[17] Gellért Máttyus , Shenlong Wang , Sanja Fidler , andRaquel Urtasun.高清地图:通过解析地面和航空图像进行细粒度道路分割。在CVPR,2016年。[18] NuTonomyNuScenes 数 据 集 。 网 址 : //www.nuscenes.org,2018年。[19] OpenStreetMap贡献者行星转储重新尝试从 https://planet.osm.org .https://www.openstreetmap.org,2017年。10336[20] Stephan R Richter,Zeeshan Hayder,and Vladlen Koltun.玩Benchmarks见ICCV,第2232-2241页。IEEE,2017年。[21] Stephan R Richter, Vibhav Vineet , Stefan Roth ,andVladlen Koltun.玩数据:《Ground Truth from ComputerGames》在ECCV中,第102-118页。施普林格,2016年。[22] CarstenRother , VladimirKolmogorov , VictorLempitsky,and Martin Szummer.通过扩展的屋顶对偶优化二进制MRFs在CVPR中。IEEE,2007年。[23] 塞缪尔·舒特,翟梦华,内森·雅各布斯,曼-莫汉·钱德拉克。学习查看周围的物体,以获得户外场景的顶视图表示。在ECCV,2018。[24] Ari Seff和Jianxiong Xiao。从地图学习:自动驾驶的视觉常识。arXiv:1611.08583,2016.[25] SunandoSengupta 、 PaulStur gess 、 L`uborLadickeland 和PhilipH. S. 乇从街道级图像自动密集视觉语义映射InIROS,2012.[26] 宋舒然,余菲雪,曾志祥,天使X张,马诺利斯·萨瓦,托马斯·芬克豪泽.从单个深度图像中完成语义场景在CVPR,2017年。[27] 宋 舒然 曾 安迪 天 使X Chang, Manolis Savva , SilvioSavarese , and Thomas Funkhouser. Im2Pano3D : Ex-trapolating 360 Structure and Semantics Beyond the Fieldof View.在CVPR,2018年。[28] 查尔斯·萨顿和安德鲁·麦卡勒姆无向模型的分段训练。在UAI。AUAI Press,2005.[29] Joseph Tighe,Marc Niethammer,Svetlana Lazebnik.场景解析与对象排序和遮挡排序。在CVPR,2014年6月。[30] Yi-Hsuan Tsai , Wei-Chih Hung , Samuel Schulter ,Kihyuk Sohn , Ming-Hsuan Yang , and ManmohanChandraker.学习适应语义分割的结构化输出空间。在CVPR,2018年。[31] Shubham Tulsiani,Richard Tucker和Noah Snavely。基于视图合成的层次结构三维场景推理在ECCV,2018。[32] Dan Xu , Wei Wang , Hao Tang , Hong Liu , NicuSebe,and Elisa Ricci.用于单目深度估计的结构注意引导卷积在CVPR,2018年。[33] Hengshuang Zhao , Jianping Shi , Xiaoj
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功