“自适应对象图实现更好的瞬时映射”

101 浏览量更新于2023-10-25 收藏 1.84MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19528“The Pedestrian next to the自适应对象图实现更好的瞬时映射Avishkar Saha1，Oscar Mendez1，Chris Russell2，Richard Bowden11英国萨里大学视觉、语音和信号处理中心2亚马逊，图宾根，德国{a.saha，o.mendez，r.bowden} @ surrey.ac.uk，cmruss@amazon.com摘要从单个图像估计语义分割的鸟瞰然而，它们显示出随着与相机的距离而增加的定位误差。虽然这种误差的增加是完全预期的-在这项工作中，我们通过学习场景中对象之间的空间关系来解决BEV映射中的我们提出了一个图形神经网络，预测BEV对象从单目图像的空间推理有关的其他对象的上下文中的对象我们的方法在来自三个大规模数据集的单目图像的BEV估计中设置了新的最先进技术，包括针对nuScene上的对象的50%的相对改进。1. 介绍从图像生成自顶向下鸟瞰图的能力是自动驾驶中的一个重要问题。开销地图提供场景的空间配置和其他代理的紧凑表示，使其成为下游任务（如导航和规划）的理想表示。考虑到它们的效用，从图像推断语义BEV地图的BEV估计问题近年来引起了越来越多的关注-映射诸如交通锥和行人的当前的BEV估计技术[32，34，36，37]已经朝着来自单个图像的“事物”和“东西”的高精度语义映射取得了令人印象深刻的进展这些基于纹理的模型在其简单性方面是优雅的，仅需要在其预测的BEV图上的最小损失。虽然这些模型适用于大型AMOR-主导场景的物理纹理类，例如道路和人行道（a.k.a.stuff [4]），但是它们对于更大距离处的更小和潜在动态对象具有低召回率和大定位误差（a.k.a. 事情）。相比之下，单目3D检测领域通过采用基于对象的方法显示出更高的对象定位精度。在BEV估计中增加重新调用和定位准确度的简单解决方案是应用现成的单目3D检测器来生成BEV对象边界框。令人惊讶的是，这将BEV估计任务上的对象交并（IoU）准确性这就提出了一个问题：为什么不把两种方法中最好的一种都用上呢？也就是说，推理对象空间中的物体，并使用它们来改进背景“东西”的估计我们提出了一种新的BEV估计方法，杠杆年龄对象图的原因场景布局。这些图提供了丰富的附加信息源来改进对象本地化，因为它们通过在对象之间传播来生成上下文。我们的模型预测BEV ob-birth从单目图像的空间推理的对象给定的长范围内的场景中的其他对象。我们的工作贡献如下：1. 我们提出了一种新的应用图卷积网络的空间推理定位BEV对象从单目图像。2. 我们证明了学习节点和边缘嵌入的重要性，它们的相互增强和边缘监督的对象定位的问题。3. 我们将位置等方差引入到我们的图传播方法中，从而在三个大规模数据集上获得了最先进的结果，包括“事物”或对象的BEV估计的50%相对改进。195292. 相关工作BEV估算：道路布局估计的初始工作[39]采用了两阶段的方法，即图像中的语义分割，然后是基于单应性的地平面映射。其他人[25，38，46]类似地利用深度和语义分割图来将场景和对象实体提升到BEV中。由于这些方法需要密集的注释图作为额外的输入，最近的工作在网络中实现了深度和语义方面的原因。一些方法隐含地学习图像到BEV的变换[27，28，31]，而最近的方法通过根据相机的几何形状调节变换来改进结果这些方法可以根据它们的转换大致分为固定的或自适应的。固定方法[34]使用全连接层将图像特征垂直压缩到瓶颈中，然后使用另一个全连接（FC）层扩展到BEV。该方法的一个局限性是两个FC层的权重都是固定的，这增加了层忽略小对象的倾向，并导致这些类别的召回率较低。另一方面，自适应方法[32，36]使用通过查询空间位置来生成上下文的注意力机制该方法的主要挑战是图像搜索空间的大小：学习为相关背景稀疏且不确定的远距离对象选择适当的图像特征是具有挑战性的。我们克服了大搜索空间的问题，具体的对象之间的通信节点，沿边缘采样的场景上下文的帮助。单目物体检测：与BEV估计相反，单目物体检测方法通常是基于物体的，每个物体都有损失。这项工作的大部分都集中在约束搜索空间-在图像中搜索对象及其3D姿态回归。一种常见且成功的方法是通过2D对象检测以及随后的3D姿态回归来约束图像搜索空间[19，30，33，40，44]。一些方法使用几何先验来约束投影的3D边界框以适合2D框[14，30]，而其他方法利用2D框高度和估计的对象高度之间的关系来创建初始质心建议[23]。另一方面，Mono3D [6]在地平面上生成3D提案，然后通过投影回图像来评分。所有这些方法的主要缺点是，每个对象提案是独立生成的。一些方法试图在整个场景中进行全局推理。OFTNet [35]建立在Mono3D上，通过将3D体素网格投影到图像上来收集图像特征，从而在BEV中进行全局推理。然而，这产生了类似于固定BEV估计器的瓶颈，因为分配给体素的特征与深度无关。MonoPair [7]通过优化对象的成对空间关系来约束对象的位置，但这是- 仅使用预测的3D边界框在网络外部的后优化步骤。虽然图已被用于语义推理[9，26，48]，但与所有以前的工作不同，我们：（1）使用图来推理场景布局和（2）通过在对象之间传播来生成上下文。图形神经网络：图神经网络（GNN）已经成为一种强大的神经架构，可以从图结构数据中学习，在社交网络[29]，药物设计[41]等方面表现出有希望的结果。GNN通过聚集来自其邻域的局部信息来构建节点表示。借鉴卷积神经网络（CNN）的优点，一些作品将卷积运算推广到了图域。这些图卷积网络（GCN）通常分为两大类：光谱和空间。谱方法[8，21]在傅立叶域中执行卷积，而空间方法[15，47]在节点（或顶点）域中执行卷积。重要的是，我们的图具有欧几里得解释，因此我们的图卷积需要是空间的而不是谱的。最近，Velickovic et al.[43]开发了一种在节点域中运行的基于注意力的邻域聚合机制-图形注意力网络（GAT）。在这里，每个节点都通过关注以自身为条件的邻居来更新其表示，从而使GAT成为最先进的图学习神经架构[2]。除了一些值得注意的例外[18，49]，大多数图学习方法忽略了边的表示能力，只关注节点嵌入。CensNet[18]通过使用谱图卷积将节点和边缘同时嵌入到潜在特征空间中来解决边缘特征的效用NENN [49]在空间域中处理这种共嵌入我们同样学习节点和边嵌入以及它们的相互增强。然而，与所有以前的方法不同，我们的图传播方法是位置等变的，以说明欧几里德结构在局部化中的重要性。3. 我们的方法给定在驾驶时捕获的图像，我们希望推断其场景的语义分割BEV图。如图首先，我们将BEV估计作为对象定位的两阶段过程，随后是随后的完整BEV估计，包括诸如道路或人行道等不能被视为对象的无定形“东西”的定位。为了提高3D对象检测所提供的标准精度之外的对象定位，我们通过在对象之间传播信息来推断它们的空间布局来生成上下文在本节中，我们首先鼓励使用图进行对象定位（第二节）。第3.1节）。然后，我们讨论图中所示的方法的主要组成部分1：首先，我们以图形的形式构建场景内容，19530G V EG V E∈|E|GV EV| V|E--我∈--∈我我--∈∈GC图像FeBEV MAPS（场EI MP图构造器对象图（初次）图形传播器对象图（最终）场景估计器图1. 模型架构。我们的图形构造器将图像特征HI和候选区域B作为输入并生成图形=场景的N个对象的（，）。图形映射器以位置均衡的方式在图形的节点和边之间传递消息，将节点和边共同嵌入到用于对象定位的潜在特征空间，从而生成图形′=（′，′），嵌入更新。场景估计器获取图像特征H1并将它们变换为BEV，其中它们与对象嵌入V'组合以生成BEV图MBEV。图像和/或BEV平面（Sec. 3.2）。接下来，我们通过在图中传播结构和位置嵌入来本地化BEV中的对象（第二节）。第3.4段）。最后，我们使用它学习的嵌入来生成完整的地图，包括“填充”无定形区域，如道路（第二节）。第3.4段）。3.1. 设计动机为什么要用图形表示？一个自然的问题是，是什么让对象图比当前的BEV估计方法更适合定位？答案是双重的：（1）图形编码BEV网络必须隐式建模的对象之间的显式几何关系，以及（2）它们允许实体之间的非局部通信，卷积BEV网络需要许多下采样操作来完成。在本节中，我们以此为基础来激发我们对（1）一个联合学习节点和边嵌入的图的需求;以及（2）监督边嵌入作为放置几何约束的一种方式。为什么要学习节点嵌入？目标定位的主要挑战是深度估计。为了解析物体虽然像阴影这样的伪影提供了很强的先验，但它们对于远处的物体变得越来越稀疏和不确定。当这样的图像特征变得不可靠时，仍然可以通过将对象的外观、几何形状和位置与场景中的其他对象进行比较来定位对象这可以通过将每个对象表示为图中的节点并在它们之间传递消息来实现。为什么要学习边缘嵌入？虽然节点之间的传播为本地化提供了一种基线机制，但回归图中节点为了限制这个空间，我们可以通过预测每个边缘的中点来对对象定位施加几何约束-但是，这需要学习边缘嵌入。3.2. 图构建我们构造的图应该同时表示场景对象和它们的空间关系。给我一个图像-提出了N个对象，并与已知的内在矩阵K，我们的图形构造器（如图所1）构造一个欧氏图=（，），其中其集合N=节点和它的一组E =边。每个节点具有表示对象在地平面中的估计位置的明确的欧几里德位置特征P iR2。除了其欧几里德表示，每个节点和边缘有一组图像特征Sv和Se，分别。与大多数基于图的学习方法不同的是，输入图是给定的，我们是动态构建的。我们基于两个关键选择来设计我们的图：（1）特征分配：每个节点和边应该具有什么特征？（2）图的连通性：节点应该如何相互连接？Feature extraction: The features assigned to a nodeform an initial embedding that is updated in order to makepositional predictions in BEV (the same principle also ap-plies to edge embeddings).如第3.1，确定场景中对象的相对深度的一种方法是通过比较它们的外观、几何形状和位置。我们表示这些方面的每一个对象的文本功能，其二维边界框尺寸和它的中心。给定图像I，我们首先获得一组候选对象区域B=b1，…Bn使用区域提案网络对于每个区域，我们获得其中心坐标-指定p UVR2，其边界框biR4，以及ROI池[13]特征向量fiRC×h×w。此外，对于帮助深度估计的长范围垂直上下文，我们包括跨边界框的宽度获取的一组垂直扫描线，其水平汇集以获得特征向量l i R C × H ×1。这给了我们一组对象O=o1，.，o n，其中o i=（p i，s i）是具有位置坐标p i和一组图像特征状态S i=bi，l i，f i的对象。图形连接：图的结构决定了信息如何在节点和边之间传播。我们的输入对象在图像中被检测到，但我们希望将它们定位在BEV中。当确定对象的深度时，通常更有帮助的是相对于在类似深度处的其他对象而不是在相同深度处的其他对象来确定该深度。19531节点级更新边缘级更新原始图共轭图node2node + edge2node M.Pedge2edge + node2edge M.P{·|}我GIJ∈我我{∈|}我G V E我我我我我我n输入图输出图. . . - 是的多层消息传递输入图节点和边缘特征输出图节点和边缘特征单层消息传递图2.我们的图传播方法。单层消息传递包括节点到节点和边缘到节点更新，然后是边缘到边缘和节点到边缘更新。然后监督输出图的节点和边嵌入以进行定位。深度差异较大。例如，当定位远处的行人时，知道它在靠近相机的车辆后面是没有用的。相反，我们通过观察它相对于类似深度的其他物体的位置来从这里，我们提取了我们的图连接性的两个原则：（1）我们希望我们的图结构存在于欧几里得域中，在那里我们可以连接图像或BEV平面中的对象，（2）我们希望通过它们的相对深度的粗略近似来对对象进行排序，然后将其连接起来。矩阵A，并遵循与上面为节点定义的相同的特征提取过程，得到等式（1）。1.一、就像每个对象都由一个边界框定义一样，我们同样将每个边缘定义为图像中的边界框区域。因此，上述节点特征提取过程可以应用于每个边缘。最后，我们有一个图G=（V，E），其中每个节点都有对象特征v0=（pv，Sv={bv，lv，fv}），并且每个节点都有对象特征v 0=（p v，S v = { b v，lv，f v }）。边缘具有场景特征e0=（pe，Se={b e，le，f e}）。将它们映射到最近的深度邻居。我们近似这些粗略的、未标度的相对深度Z0={z0，.，z0}作为伊日伊3.3. 图传播我我我Z0=diciN，其中c是从中心开始的向量图像的底部边缘到其主点（u0，v0），以及di对象pUV到主点。这些相对深度约为-给定我们的输入图，初始节点特征为v，边特征为e，我们希望在节点和边之间传递消息，以学习更新的嵌入v′和e′，我们将使用它们进行定位。我们认为ii ij这些图像是未缩放的并且非常粗糙，仅用于区分明显远的对象和明显近的对象然后，我们使用这些粗略的无标度近似Z0来生成基于最近邻的图的连通性，从而得到邻接矩阵A R N × N，其中如果节点i和j之间存在边，则A ij = 1。嵌入初始化：图的结构确定后，我们为其节点和边缘分配初始特征，这些特征将用于稍后的传播。下面，我们描述分配给每个节点的特征，然后是边。首先，我们得到了pBEV∈R2的欧几里得表示将输入图作为扰动的质量和弹簧系统，并将消息传递作为使系统返回平衡的松弛过程，在我们的情况下，这将是输出对象的我们的消息传递机制，如图所示。2，是由标准GNN所带来的挑战所激发的：即（1）对空间感知的需求，或者更明确地说，位置等方差和（2）相互增强的节点和边缘嵌入。位置等方差：为了描述我们如何在图传播中建立位置等方差，我们从标准GCN公式和它所面临的挑战开始。每个节点。对于每个对象，我们为我们的任务定义其初始BEV 姿势。然后，我们重新制定我们的方法-欧几里得位置为pBEV=（z0tan−1（α0），z0），其中响应于这些挑战。我我我α0是其估计的视角。同样，这两个参数的比例是任意的，仅用于指示相对的立场之间的差异。然后我们将每个节点的初始特征定义v0=（p，S={b，l，f}），（1）给定图=（，），标准GCN层将一组节点嵌入hiRdi V和边作为输入E. 该图层将生成一组更新的节点嵌入{h′i∈ Rd|i ∈ V}通过应用相同的参数函数给定其邻居Ni={j ∈ V|（j，i）∈我我我我我我E}：其中P1是其BEV坐标估计，S1是来自图像和BEV的一组然后，对于每条边h′i=fW（hi，AGREGATE（{hj|j∈Ni}））（195322）这些图卷积函数被设计为在-19533我VE{∈| ∈ V}GG我我JIJ我我IJIJ我 Ki，k我我IJIJ我我我我我我xi=αi，iΘx[xi<$pi]+αi，jΘx（[xj<$pj]+[xij<$pij]{e′e′我我∥伊伊季i i ijij ijpv′=αi，iΘppv+α iαi，jΘp（pv+pe），（六）结因此，这样的函数将无法区分具有相同1跳局部邻域的同构节点。这不适合我们的任务，因为对象通常可能具有相同的节点度，但具有完全不同的欧几里得结构。为了克服这一点，我们在消息传递期间将Eu-clidean位置信息连接到节点（3）第三章。这使我们能够学习捕捉欧几里得结构的节点表示。此外，我们的图的欧几里得结构的变化，连续的消息传递层之间，提高了更新的位置信息在每个消息传递层的需要。我们通过传播位置嵌入来做到这一点，4）.这与现有的GCN不同，现有的GCN仅通过将位置信息与输入节点特征连接来集成位置信息[1，12，22]。鉴于这些要求，我们建议pv，pe∈Rd，Θp∈Rd′×d其中，Θ是线性变换权重矩阵，α i，j是我们在下面定义的注意力系数。为了清楚起见，我们排除了应用于xv′和pv′的非线性。边嵌入[xepe]的包含使得该等式成为节点到节点+边到节点更新，这意味着更新的节点嵌入包含来自其边嵌入的上下文。如果我们想保持这种纯粹的节点到节点，我们只需省略边嵌入。对于我们的加权平均值，我们对类似于GAT [43]的邻域应用注意力，但是我们在此计算中还在我们的方法中，每个节点i使用评分函数Λ计算其相邻节点j和它们之间的边eijRd×Rd×Rd→R计算注意力系数：具有可学习结构和位置嵌入的空间感知消息传递机制我们的方法的通用更新方程定义为：Λ（hi，hj，ei，j）=σ（ai·[Θhi<$Θhj<$Θei，j]），Θ∈Rd′×d，a ∈R3d′（七）h′i= fh（[hi<$pi]，AGGREGATE（{[hj<$pj]|j∈Ni}）），i∈Si.（三）其中α和Θ是学习的权重，σ是LeakyReLU非线性。最后，使用softmax函数对所有jp′i=f p（pi，AGGREGATE（{pj|j ∈ Ni}）），（4）exp（Λ（hi，hj，ei，j））（八）其中，f是级联运算，并且fh和fp表示：αi，j=Σ、exp（Λ（h，h，e））Si和位置。以这种方式，位置信息在每轮消息传递时通过每个特征状态被更新和消散。相互增强的节点和边嵌入：我们希望通过在节点和边之间传播信息来学习它们的嵌入。也就是说，除了节点到节点和边缘到边缘的传播，我们还需要边缘到节点和节点到边缘的通信。在这里，我们详细介绍了我们的通用更新方程（方程。3和4）以相互增强节点和边缘嵌入。如图2所示，每一轮消息传递由两个更新机制组成：节点级更新之后是边缘级更新。在我们的节点级更新中，每个节点状态计算其邻居的节点和边缘状态的加权平均值。每个节点i通过计算cor的加权平均值来更新其位置pv和其特征状态xv∈Sv其邻域节点的响应状态类似地，我们的边级更新聚合其相邻边和节点嵌入。然而，将节点嵌入合并到聚合函数中是对输入图G的挑战。相反，我们构建了它的骗局-对图G进行共轭，并在这里执行边级更新共轭图是图G的顶点是图G的边且两个顶点在图G中相邻的图当且仅当对应的边在图G中相邻。可以如下计算共轭矩阵G的邻接矩阵AeAe=CT C−2I（9）其中C是输入图的关联矩阵，I是单位矩阵。使用共轭的（）=（，），每个边嵌入ei，jRdiϕ可以使用Eq. 5-8 ，除了节点和边交换。经过多轮消息传递后，我们的图传播方法输出具有更新的节点边缘xe∈Se：J J嵌入{v′ =（p v′，Sv′ ={bv′，lv′，f v′}）|i∈v′vj∈N（i）v v e eV}和边嵌入{e′ij=（pe′，Se′=bi，li，fixv，pv，xe，pe∈Rd，Θx∈Rd′×2d（五）3.4. 场景估计使用我们的图propagation模块输出的节点嵌入，我们对场景类别进行预测。因为在大多数图学习任务中，对于节点位置和置换，j∈N（i）为每个特征状态发送单独的参数函数，k∈N（i）<${i}e′）的文件|（i，j）∈E}.19534不DT ×→D ×→我- -在这里，我们采用基于[36]的基于纹理的方法，其中来自我们前端的图像特征被转换到BEV平面以生成场景类别的BEV地图。然而，一个关键的区别是，我们的条件下，这个模块的潜在功能对我们的节点嵌入。以这种方式，我们约束场景类别的潜在BEV空间，因为对象提供了道路、人行道等存在的强烈线索。在[36]之后，Transformer [42]将图像特征HI映射到BEV特征HBEV：：RC×H×W R3×3RC×100×100（十）（HI，K）→ HBEV。然后，具有深层聚合[ 50 ]的解码器使用以节点嵌入{ v ′ i}为条件的潜在BEV特征H B E V生成场景类别的BEV图|i∈V}：：RC×100×100 RLVRk×100×100（十一）（HBEV，{vi|i∈V}）→MBEV.3.5. 损失对象网络：我们的对象网络预测参数以帮助恢复对象此外，我们还预测了我们的图的边p e =（x，z）的中点对于这些头部中的每一个，我们首先将两层MLP应用于适当的输入特征。节点和边定位：我们完全监督图本地化为了获得BEV位置（x，z），我们回归pa-使用单独的MLP为每个参数我们使用Graph Constructor中估计的视角α0回归视角α，并直接回归z轴深度z。然后使用视角和z轴深度来确定x。分类、尺寸和方向：我们使用初始化的节点特征v0来预测对象的标签、尺寸和方向。如图1，这些估计是在网络的早期进行的，因此它们在用于LO时约束了图的初始特征。之后的calization。对于对象分类，我们使用其原始公式中的焦点损失[24]我们直接回归客观维度。代替预测物体偏航θ，我们预测其观察角β，其为观察角和物体偏航之和估计观察角度而不是偏航有助于解释基于其视角的对象我们遵循[30]并使用离散-连续损失来估计观察角度：将定向范围离散化为多个面元，然后将角度回归为相对于面元中心的偏移。我们的对象网络使用多任务损失进行训练，定义为：Ltotal=Llocv+Lloce+Lθ+Ldim+Lc（12）其中L locv、L loce和L dim以及对象质心、边缘中点和对象尺寸的回归损失，Lθ是方向的离散-连续损失，Lc是对象分类损失。所有回归损失使用平滑L1损失，所有分类损失使用交叉熵损失，除非另有说明。现场网：我们使用与[ 36 ]相同的多尺度Dice损失来训练我们的场景网络。有关所有损失的详细情况，请参阅补充说明。4. 实验数据集：我们将我们的方法与 nuScenes [3] ，Argoverse [5]和Lyft [20]数据集上的当前最先进的方法进行了比较。nuScenes [3]由1000个20秒长的片段组成，在不同的城市拍摄。每个场景都用10个对象类的3D边界框进行注释，以及道路，人行道等的矢量地图。我们生成我们的BEV地面实况地图如下[34]。实施情况：我们使用预先训练的ResNet-50 [16]和特征金字塔（FPN）作为我们的前端。我们提取FPN的每个级别，插值到相同的大小并添加，以获得一组特征。为了获得图像中的候选 2D 区域，我们使用FCOS3D [45]并将其微调到适当的数据集（在训练期间，我们使用抖动的地面真实区域）。我们图中的每个节点都连接到它的3个最近的邻居，我们使用2层消息传递。我们的BEV估计模块使用100x100像素的BEV潜在特征空间，每个像素表示0。世界坐标为5平方米其最大规模的产量是100x100像素，我们将其上采样到200x200以获得公平与文学比较。我们使用Adam进行优化，权重衰减为1e4，学习率为5e5，在50个epoch中每个epoch衰减0.99。4.1. 消融相互增强的嵌入：在表1中，我们展示了使用节点和边嵌入的有效性，相互增强它们，以及它们的监督效果。从仅节点图开始，IoU最低（尽管这仍然高于表3中的当前SOTA BEV估计值）。添加边缘嵌入，然后允许节点从它们收集信息（n2n + e2n）略微增加IoU。这种增加是可以理解的，因为每个节点现在都从其相邻对象和周围场景中收集上下文。IoU的最大增长来自边缘嵌入与其监督之间的通信（n2n+ e2n + e2e）。这说明了使用边几何约束节点的空间布局的好处。最后，将所有类型的图传播与节点和边监督相结合，可以实现最佳定位，突出相互增强嵌入的好处19535图像地面实况无源光[32]STA-ST[35]TIIM-ST [34]我们图3.我们的模型结果在nuScenes上。如图所示，我们的模型能够定位远处和/或严重遮挡的车辆和行人，而其他方法则无法定位。表1. 图形传播类型。 dif的跨对象IoU（%）-表2。图特征类型对nuScene的IoU（%）影响nuScenes上的不同图形传播类型。n2n =节点到节点，e2n =边到节点，e2e =边到边，n2e =节点到边。图形节点和边特征对象均值外观22.5图形传播监督对象平均n2n个节点20.0n2n + e2n节点21.1n2n + e2n + e2e节点和边25.9n2n + e2n + e2e + n2e节点和边27.1图形节点和边特征：在表2中，我们演示了初始化具有不同特征类型的节点和边的效果。有趣的是，仅依赖于应用程序，基线IoU为22.5%。这表明该模型能够在很大程度上仅通过比较它们的纹理特征来定位对象。这个结果的一部分也源于我们的前端的特征金字塔聚合的场景上下文这可以解释为什么包含扫描线特征并没有改进这么多。与此相反，包括对象的边界框参数cree- ates最大的改进。由于城市驾驶环境的图像在场景结构中显示出强烈的模糊性，因此知道对象在图像中的位置及其图像尺寸提供了足够的信息来粗略地推断深度。最后，用位置信息调制每个特征类型进一步改进了这一点。这可以用注意力机制来解释：节点邻域的位置近似值可以表示最相关的节点，因为它通常是最近的邻居外观，扫描线22.9外观，几何形状26.1外观、几何形状、扫描线26.2位置w。外观，扫描线，几何27.1这在本地化的上下文方面最有用。图节点度的影响：在表6中，我们检查了在构造输入图时节点度的影响。广义上讲，IoU与节点度成反比。性能的逐步下降是由每个节点在聚合其邻域时可用的信息来解释的：较大的节点度需要更多的冗余，并且随着邻域中冗余的增长，学习使其最小化越来越具有挑战性。4.2. 与SOTA基线：我们比较了nuScenes、Argoverse和Lyft数据集上的一些我们比较了[ 32 ][33][34][35][36][37][38][39为了完整起见，我们还将我们对“对象”的BEV估计结果在表3中，我们证明了相对于下一个最佳执行方法TIIM [36]的30%的相对改进，优于其空间TIIM-S和时空TIIM-ST模型。特别是，我们的19536节点度0 1 2 3 5 10 15 20+对象平均值20.226.226.527.121.114.211.56 十点三表3. nuScenes IoU（%）结果基于[34]的验证分割。最后一行显示了每个类别相对于当前最先进的BEV估算器的相对改进。模型可驱动穿越走道停车场车卡车拖车总线Con.Veh.自行车摩托车儿科锥屏障是说对象平均值VPN [31]58.027.329.412.325.517.316.620.04.94.45.67.14.610.817.411.7[34]第三十四话60.428.031.018.424.716.316.620.812.39.47.08.25.78.119.112.9STA-S [37]71.131.532.028.034.618.011.422.810.014.67.17.45.810.821.814.3TIIM-S [36]72.636.332.430.537.424.515.532.514.815.18.18.77.415.125.117.9FCOS3D [45]----28.625.020.434.28.111.114.69.89.523.9-18.6STA-ST [37]70.731.132.433.536.022.813.629.212.112.18.08.66.914.223.716.4TIIM-ST [36]74.536.635.931.339.726.313.932.814.214.77.69.57.614.725.718.1我们75.939.737.936.841.538.028.858.123.812.218.411.59.030.133.027.1Rel.即兴表演（%）6.412.921.620.04.544.573.277.260.7-19.0127.321.517.899.732.450.0表4.Argoverse对[34]的验证分割的结果方法可驱动Veh.儿科L.Veh.自行车总线拖车摩托车是说VPN [31]64.923.96.29.70.93.00.41.913.9[34]第三十四话65.431.47.411.13.611.00.75.717.0TIIM-S [36]75.935.85.714.93.730.212.12.622.6我们78.252.1六点九23.03.149.023.86.930.3表5. IoU（%）对nuScenes规范验证分裂和Lyft的nuScene场景Lyft开车车Veh.开车车Veh.LSS [32]72.932.032.0-43.144.6FIERY [17]-39.9----TIIM-S [36]78.939.938.982.045.945.4我们81.441.749.884.247.448.3表6. IoU（%）节点度对nuScene的影响。积极增加50%，与摩托车和障碍显示，- ing 100%的相对增益。这种差异大部分可以归因于我们对这些类进行本地化的基于对象的方法。为了公平比较，我们还将我们在“对象”上的结果与另一种基于对象的方法进行了比较：FCOS3D [45].在这里，我们在所有对象类中展示了类似的45%的相对改进。FCOS3D像我们一样生成对象边界框，这里的性能差异可能是由于我们基于图形的本地化方法。我们在Argoverse上的结果显示了类似的特征，其中我们将下一个最佳性能方法TIIM-S [36]改进了33%。在表5中，我们在nuScenes和Lyft上优于自适应方法[17，32，37]。在Lyft上与LSS [32]进行真正的比较是不可能的，因为我们无法获得他们的训练/验证分裂。然而，性能的差异可以归因于我们比较对象的上下文，而自适应方法依赖于场景上下文。为了获得与SOTA相比对我们的方法的性能的更细粒度的理解，我们将“对象”的IoU（%）准确度作为与图1中的相机的距离的函数进行比较。4.第一章当前SOTA BEV估计器的IoU通常会随着距离的增加而下降。虽然我们的方法显示IoU在25- 45米之间略有下降，但它大致保持在图4.在nuScenes上与摄像机的距离上的IoU（%）。深度轴。这种定位遥远物体的能力可以在我们的定性结果中看到。3，我们的模型能够正确定位距离较远和/或被严重遮挡的对象，而其他方法则无法定位。4.3. 限制我们的图构造器在图连接性和特征类型方面实施了许多归纳偏见。理想情况下，我们希望在优化对象定位的同时，共同学习连通性和特征例如，我们在表3中的自行车上的IoU表明我们的图构造方法在所有对象类别中都不是最佳的。虽然自行车是一个困难的类别，因为它们的姿势变化很大，但它仍然提供了学习图形构造方法的机会。5. 结论我们提出了一种具有新颖的位置等变消息传递机制的图卷积网络，以从图像中局部化BEV中的对象特别是，我们证明了学习节点和边嵌入以及相互增强方法的好处。我们的一个关键的见解，更好地定位是使用边缘特征作为一种方法，收集场景的背景和监督作为一种方式，把几何约束对象的位置。我们的模型是最先进的BEV估计从单目图像在三个大规模的数据集。确认该项目得到EPSRC项目ROSSINI（EP/S 016317/1）和助学金2327211（EP/T517616/1）的支持。19537引用[1] 放大图片作者： DominiqueBeaini ， SaroPassaro ，VincentLe'tourneau，W illiamL. 汉密尔顿，加布里埃尔科索，和彼得罗L io'。有向图网络。Marina Meila和TongZhang编辑，第38届国际机器学习会议论文集，ICML2021，2021年7月18日至24日，虚拟事件，机器学习研究论文集第139卷，第748-758页PMLR，2021年。5[2] 迈克尔M布朗斯坦，琼布鲁纳，塔科科恩，和佩塔尔韦埃利cko vi c'。几何深度学习：网格、组、图形、测地线和量规。arXiv预印本arXiv：2104.13478，2021。2[3] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。nuscenes：自动驾驶的多模态数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第11621-11631页，2020年。6[4] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可可 - 东西：上下文中的事物和东西类。在IEEE计算机视觉和模式识别会议论文集，第1209-1218页，2018年。1[5] Ming-Fang Chang，John Lambert，Patsorn Sangkloy，Jag-jeetSingh ， Slawomir Bak ， Andrew Hartnett ， DeWang，Peter Carr，Simon Lucey，Deva Ramanan，et al.Argoverse：3d跟踪和预测与丰富的地图。在IEEE/CVF计算机视觉和模式识别会议论文集，第8748-8757页，2019年。6[6] Xiaozhi Chen ， Kaustav Kundu ， Ziyu Zhang ， HuiminMa，Sanja Fidler，and Raquel Urtasun.用于自动驾驶的单目三维物体检测。在IEEE计算机视觉和模式识别会议论文集，第2147-2156页，2016年。2[7] Yongjian Chen，Lei Tai，Kai Sun，and Mingyang Li.Monopair：使用成对空间关系的单目3d对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第12093-12102页2[8] MichaeülDefferrard，XavierBresson，andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统， 29 ： 3844-3852 ，2016。2[9] Helisa Dhamo ， Azade Farshad ， Iro Laina ， NassirNavab ， Gregory D Hager ， Federico Tombari ， andChristian Rupprecht.使用场景图的语义图像操作。在IEEE/CVF计算机视觉和模式识别会议论文集，第5213-5222页，2020年。2[10] 汤姆·范·迪克和吉多·德·克隆。神经网络如何在单个图像中看到深度在IEEE/CVF计算机视觉国际会议论文集，第2183- 2191页第1、3条[11] Isht Dwivedi ， Srikanth Malla ， Yi-Ting Chen ， andBehzad Dariush.使用提升的2d语义特征的鸟瞰图分割。2021. 2[12] 维杰·普拉卡什·德维迪和泽维尔·布列松。Transformer网络的图化。arXiv预印本arXiv：2012.09699，2020。5[13] 罗斯·格希克。快速R-CNN。2015年，国际计算机视觉会议（ICCV）。3[14] 弗雷德里克·古斯塔夫松和埃里克·林德。Automotiv e3d物体检测，无目标域注释，2018年。2[15] William L Hamilton，Rex Ying，Jure Leskovec.大图上的归纳表示学习。在第31届神经信息处理系统国际会议论文集，第1025-1035页，2017年。2[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofth

下载后可阅读完整内容，剩余1页未读，立即下载