局部透视：基于局部视角的单目3D目标检测

146 浏览量更新于2023-10-16 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

643MonoEdge：基于局部视角的单目3D目标检测朱明涵1*，葛玲婷2，王潘曲2，彭慧11密歇根大学2TuSimple Incminghanz@umich.edu，lingting.ge tusimple.ai www.example.com@www.example.com，wwwtusimple.ai panqu.wang @hpeng@umich.edu摘要我们提出了一种新的方法，单目3D物体检测，利用每个对象的局部透视效果虽然显示为尺寸和位置变化的全局透视效果已被广泛用于单目3D检测，但局部透视长期被忽视。我们设计了一个局部透视模块来回归一个新定义的变量keyedge-ratios作为局部形状失真的参数化，以考虑局部透视，并从中导出对象的深度和偏航角。理论上，该模块不依赖于对象在图像中的像素尺寸或位置，因此独立于相机的内部参数。通过将该模块插入到现有的单目3D目标检测框架中，我们将局部透视失真与全局透视效果结合起来进行单目3D推理，并在多个数据集上证明了强基线方法的有效性和优越性能。1. 介绍3D物体检测是自动驾驶和其他机器人应用的重要感知任务。单色方法被认为是具有挑战性的，主要是由于在单个图像中丢失了深度信息。然而，单目3D物体检测仍然吸引了很多兴趣，部分原因是与LiDAR相比成本低，与立体相机相比传感器设置简单。尽管在单个图像中缺乏深度，但由于嵌入在数据中的对象的物理场景布局和大小的隐含先验知识，给定这样的先验知识，对象的3D定位通过相机几何形状与它们在图像平面中的尺寸和位置相关联位置和大小是前两个主要的线索杠杆* 在TuSimple Inc.实习期间完成的图1.上：外观和大小沿图像深度方向变化的全局向下：局部透视效果嵌入到对象内部的形状变形中，如虚线所示我们建议从局部视角推断深度d和偏航角θ单目3D目标检测方法是全局透视对整个图像影响的结果。对于安装在车辆上的摄像机，其视角类似于人的视线和大多数物体在近似平坦的地面上的常见场景，较近的物体出现在图像底部附近，并且较远的物体的位置在地平线附近较高它被用作深度估计的先验知识在几个作品[18，1]。此外，物体在靠近时看起来更大，否则看起来更小。这种关系也经常应用于深度的推断[33，34]。同时，一些方法依赖于逐像素深度图像作为输入或中间输出[23]。如[6]中所讨论的，密集深度预测网络也严重依赖于图像中的像素位置来进行深度预测。在这项工作中，我们建议探索另一种类型的3D推理线索：地方观点。在这里，我们的目标是exploit的局部失真内的一个对象，而不是不同的对象。换句话说，物体的近距离部分644看起来比远处的部分大，这种失真的大小与它的距离直接相关。见图1比较全球视角和局部视角。捕捉物体的透视变形是绘画中的一项常见技能，它在很大程度上影响了绘画的真实性，因为它与人类的3D感知紧密相连。受此观察的启发，我们希望利用这一因素来改善单目计算机视觉的3D推理。为了实现这一目标，我们首先提出了一种方法来parameastern 的幅度的局部透视失真，通过定义的keyedges和keyedge-ratio。然后，我们表明，深度和偏航角的对象可以确定给定的keyedge-ratios和物理尺寸。我们的方向估计也是新颖的，因为直接获得全局偏航角，而不是遵循大多数现有的方法，首先估计非同心我们的方法名为MonoEdge，可以形成为神经网络中的轻量级模块，并且可以插入现有的单目3D检测框架。我们的实验证明了KITTI 3D检测基准[9]上强基线方法的有效性和优越性能，并且还在nuScenes数据集[2]上验证了改进。总之，我们的工作有以下贡献：• 我们建议利用局部透视失真的单目3D目标检测。• 通过我们的方法，深度和全局偏航角可以估计从图像中的对象的局部外观，而不知道相机的内部参数。• 我们通过将我们的基于局部视角的方法与KITTI数据集[9]和nuScenes数据集[2]上的强基线方法相结合，并改进它们，来展示我们的基于局部视角的方法的普遍适用性。2. 相关工作2.1. 对象和像素深度估计如在几个先前的工作[22，32]中所提到的，不准确的深度是限制单目3D对象检测的准确性的主要单一因素。许多研究工作致力于改进基于对象的深度估计。一个最简单的策略是直接回归对象的深度[19，31]，它实际上在KITTI [9]和nuScenes [2]等基准中工作得很好。然而，直接回归的深度通常过拟合到训练数据的相机内部和外部参数，并且当相机参数改变时表现不佳。[35]通过估计和比较，部分解决了这个问题补偿外部扰动。逐像素深度回归是类似的任务，其也用作一些单目3D检测工作中的输入或中间输出[23，7]。它在推广到不同的相机参数时遇到类似的困难[8]。如[6]所示，深度回归严重依赖于图像中像素的高度，这意味着依赖于像素位置和相机参数。更高和更接近地平线的像素通常更远的定性关系可以用作深度估计的先验。[1，18]通过在卷积中视觉尺寸是3D推理的另一个重要线索，[33，34]估计物体的高度，然后从中计算深度。[27，21]侧重于从物体的外观和物理高度估计深度的不确定性分析。总的来说，位置和大小先验由对整个图像的全局透视效果决定[32，5]对由对象在图像中的位置通知的对象之间的全局透视关系进行[17]探索了符合全局观点的大小-位置关系2.2. 目标方位估计方向估计是单目3D目标检测的另一个重要课题。Deep3DBox [24]表明，图像中对象的可见部分主要由局部观察角（也称为同心角）而不是全局偏航角（也称为自我中心角，参见第2节）确定。第3.1节）。由于可见部分在很大程度上决定了图像中物体的外观，他们首先从网络中回归出非中心角，然后将其转换为具有像素位置和相机本征的自我中心偏航角这一策略在后来的作品中被广泛最近，Ego-Net [16]直接从网络回归自我中心偏航角，提出了一种具有中间几何表示的渐进提升策略2.3. 三维物体检测一些以前的工作包含的想法，使用局部形状失真的3D推理。GS3D [13]通过透视变换从粗3D边界框的可见面提取特征。KM 3D-Net [14]设计了一个消失点到方向网络模块，以从图像平面中投影的3D盒角点回归方向。一些先前的工作遵循渲染和比较策略[12，11，3，20]，其通过将渲染的形状模型与2D观察对齐来优化3D属性。然而，他们没有明确参数化的局部透视失真或从这些信息中获得3D属性，我们将在本文中显示。645BAw2BCL2图2.左：3D检测中的几何形状和角度定义。根据KITTI的定义，所有表示的角度都显示在其正方向上右：图像中3D边界框的投影，关键边缘以红色亮显。3. 方法我们首先介绍基本的几何形状和我们模型中变量的定义（第二节）。第3.1节）。然后，我们使用局部视角推导出深度和全局偏航角3.2）。关键边缘比率回归的网络设计三点三3.1. 预赛首先，我们解释模型中使用的参数的定义。如图左侧所示。在图2中，对象的全局偏航角（或自我中心角）是相机的右轴与对象的前轴之间的角度，表示为图3.用于根据键缘比计算深度dobj和偏航角θ的几何结构，以自顶向下视图显示用蓝色弧线表示的三个角是相同的。其中给出了两个关键边缘比率rba和rbc，并且对象的实际长度、宽度和高度分别表示为l、w、h。我们也将焦距表示为f（见图1）。（3）第三章。对于任何keyedgei，如θ。局部观察角（或非中心角）f=hidh=d h=d h=fh（2）是摄像机的位置相对物体物体位置相对于物体的角度二氢异a a b c c相机它们满足方程θ=α+γ。在这些角度中，只要给出摄像机的内部参数，就可以从像素的水平位置计算γ局部透视效果表现为内部扭曲表示三个角A、B、C（对应于关键边a，b，c）作为da，db，dc，我们还具有：da=db+wcosθ，dc=db+lsinθ（3）一个物体的另一部分看起来更小。由于大多数ωr=hb=da=1+wcosθ，rlsinθ=1+（四）对象与垂直轴对齐（零俯仰和滚转），巴哈德布dbbcdb通过高度变化可以方便地测量尺寸畸变。因此，我们将3D边界框中的四条垂直边定义为关键边，并使用ra-从等式(4)，我们通过消去θ得到db，通过消去db得到θ：关键边缘的视觉高度之间的tio，以参数化局部透视失真。我们称之为钥匙边-比率：b=.（r1−1）2（r−1）2（五）里季伊什岛 HJ（一）θ=arctan2（w（rbc−1），l（rba−1））（6）其中hi和hj是键边缘i的视觉高度，J. keyedges以对象为中心的方式进行索引：将物体中心的深度表示为dobj，我们有骰子a、b、c、d从对象的左前角开始按顺时针方向分配，如右侧所示。德奥布杰=db1+（lsinθ+wcosθ）（7）2图二、3.2. 无本征深度和偏航角推导在这一部分中，我们表明，深度和全球偏航角可以计算从keyedge-ratios和物理尺寸的对象。我们用最小化的方式展示数学+646以这种方式，获得对象深度dobj和偏航角θ。请注意，焦距被消除，最终结果仅取决于rba，rbc，l和w。因此，该方法是无相机固有的。对于其他键边，方程中的角度和符号将相应地改变，我们在附录中更详细地显示。647----图4.我们网络的整体结构设计。橙色虚线框突出显示了我们基于局部透视的3D推理模块。橙色框外是用于单目3D估计的典型一级或两级CNN架构，为了完整起见，我们展示了它。子图（a）以红色字母示出了以对象为中心的键边缘索引，以蓝色数字示出了以相机为中心的键边缘索引。图（b）显示了以他者为中心的群体虚线箭头和ROI功能仅适用于两级网络3.3. 网络设计总的来说，我们的模块中有两个主要组件：关键边缘比回归与allocentric组分类和基于不确定性的深度融合，如下所述。3.3.1键边比回归基于局部透视的三维推理与图像中关键边缘的绝对高度无关。因此，我们设计了一个专门的模块来直接估计关键边缘比率。首先，我们引入了一个以相机为中心的索引策略来回归keyedge-raitos。该策略如图所示。4（a）作为蓝色数字索引，其中索引1总是分配给到相机中心距离最短的键边缘。通过使用以摄像机为中心的索引，所有四个关键边缘比率[r21，r41，r32，r34]都等于或小于1旋转无关（在大多数情况下，请参见附录以了解更多信息（讨论），从而促进学习和趋同。以相机为中心的索引1、2、3、4与以物体为中心的索引a、b、c、d之间的转换是通过非中心组进行的，该非中心组由非中心角α所落入的四分之一来定义，如图2所示。第4（b）段。每个非中心组对应于如图所示在图4（b）中。其次，我们建议使用分组头的关键边缘比回归。换句话说，不同的通道被用来回归每个allocentric组的键缘比。在网络中，共有16个通道用于所有可能的4个非中心群的4个关键边缘比的回归。对于每个对象，仅使用对应于其allocentric组的4个通道。其动机是，当对象呈现在不同的allocentric组中时，它们的外观是非常不同的，并且我们将它们中的每一个的学习解耦，以生成更具区分力的特征。由于关键边缘比回归依赖于对象的非中心组，因此我们还将4向非中心组分类任务添加到网络中，并使用交叉熵损失进行监督。3.3.2基于不确定性的深度融合在从以相机为中心的索引转换为以对象为中心的索引之后，关键边缘比率被重新组织为4个元组：（r ad，rab），（r ba，r bc），（r cb，r cd），（r dc，r da）.每个元组生成深度和偏航角的估计，如第12节所示。3.2，并设计了一个专用的基于不确定性的融合模块来生成最终结果。具体地，每个键边缘比预测头部rij伴随有回归的不确定性估计值648ΣΣ布里尔方法瓦尔，放松AP3D、IoU中度≥ 0的情况。7硬Val，AP容易BEV，IoU中度≥0。7硬测试，简单AP3D、IoU中度≥0。7硬测试，简单APBEV，IoU中度≥0。7硬Monodis [28]11.067.606.3718.4512.5810.6610.377.946.4017.2313.1911.12M3D-RPN [1]14.5311.078.6520.8515.6211.8814.769.717.4221.0213.6710.23吸烟[19]------14.039.767.8420.8314.4912.75MonoPair [5]16.2812.3010.4224.1218.1715.7613.049.998.6519.2814.8312.89RTM3D [15]------14.4110.348.7719.1714.2011.99[29]第二十九话14.2811.139.6822.3617.8715.7315.1910.909.2622.7617.0314.85D4LCN [7]22.3216.2012.3031.5322.5817.8716.6511.729.5122.5116.0212.55PGD [32]24.3518.3416.9030.5623.6720.8419.0511.769.3926.8916.5113.49[30]第三十话-----19.7112.789.8028.0817.8913.44[18]第十八话23.6316.1612.06---21.6513.259.9129.8117.9813.08CaDDN [26]23.5716.3113.84---19.1713.4111.4627.9418.9117.19MonoGeo [34]18.4514.4812.8727.1521.1718.3518.8513.8111.5225.8618.9916.19MonoEF [35]------21.2913.8711.7129.0319.7017.26[21]第二十一话22.7616.4613.7231.0722.9419.7520.1114.2011.77---[20]第二十话20.0914.6512.07---22.4714.1711.3630.6620.0815.59MonoRCNN [27]16.6113.1910.6525.2919.2215.3018.3612.6510.0325.4818.1114.10我们的（基于MonoRCNN）18.4414.6012.5726.1920.6717.3019.7414.3511.9427.5220.0716.34改进+1.83+1.41+1.92+0.90+1.45+2.00+1.38+1.70+1.91+2.04+1.96+2.24MonoFlex [33]23.6417.5114.8331.6523.2920.0219.9413.8912.0728.2319.7516.89我们的（基于MonoFlex）25.6618.8916.1033.7125.3522.1821.0814.4712.7328.8020.3517.57改进+2.02+1.38+1.27+2.06+2.06+2.16+1.14+0.58+0.66+0.57+0.60+0.68表1.KITTI验证集和测试集的定量结果最好的以粗体突出显示第二个最好的是下划线。与基线相比的改进以斜体字表示。σ ij。将从关键边缘比率估计的深度表示为dkr，我们使用一阶导数来近似dkr的不确定性我们将我们的局部视角模块与三个网络结合起来：MonoFlex [33]，MonoRCNN [27]和PGD [32]，因为它们是代表性的一阶段和两阶段网络σdkr =krσ伊杰河（i，j）（八）[9]和nuScenes [2]基准测试。网络中常见的估计变量-使用PyTorch的IJ自动微分引擎[25]。利用逆不确定性作为权重，对从关键边缘比率元组估计的深度进行平均， wdt=1/σdt ， dft= 1 /σdt，其中t表示每个深度预测。当将该方法与现有网络中的其他深度预测相结合时，也使用基于不确定性的加权和，如在Sec. 4.关键边缘比率及其不确定性一起由不确定性感知损失函数监督[10]：包括对象分类得分、2D投影中心，以及3D边界框的物理大小。估计的物理长度l和宽度w用于等式2中。(5)至（7）。2D边界框和关键点（由3D边界框的2D投影定义）在MonoFlex [33]和MonoRCNN [27]中回归，但在PGD [32]中是可选的。变量列表及其相应的回归头和损失函数遵循原始网络。图4是我们在这项工作中结合的网络虚线橙色矩形是建议的局部透视图L（r ，σ;r）=|rij−rij|+logσ（九）模块，它的外部是主干和回归ij ijij ijσijij插电网络的负责人虚线箭头和ROI特征块用于MonoRCNN [27]作为两阶段其中，ri_j是地面真值k_e_ yedge比。3.3.3本地透视图模块之外的组件除了如上所述估计关键边缘比的所提出的局部透视模块之外，还有其他变量要被估计以完成单目3D物体检测任务。由于我们的本地透视模块可以插入各种网络结构，模块外部估计的变量列表根据所使用的整体网络结构具体地说，其中回归头是在提取ROI特征之后的网络，而一阶段网络（MonoFlex [33]和PGD [32]）遵循实线箭头。4. 实验实验在KITTI数据集[9]和nuScenes数据集[2]上进行KITTI有7，481张用于训练的图像和7，518张用于测试的图像我们进一步将官方训练集分为训练集和验证集[4]，以便与其他基线进行公平比较。数据集评估三个对象类：汽车、行人和骑自行车的人，我们649主要集中在汽车类别时，报告的结果后，以前的工作。评估度量是3D边界框（AP3D）和鸟瞰根据[28]，我们使用40个回忆位置，与11个回忆位置版本相比，这是更有我们还将我们的实验扩展到nuScenes数据集[2]，以表明我们的方法在各种环境下都有效。4.1. KITTI数据集4.1.1实现细节对于KITTI数据集上的实验，我们选择了两条基线MonoFlex [33]和MonoRCNN [27]，并基于这些网络实现了我们的方法。它们分别是用于单目3D目标检测的具有代表性的一级网络和两级网络。我们将基于局部视角（LP）的估计与基线的原始估计相融合，以表明我们的方法带来了超越现有方法的两个基线都有其输出的不确定性估计，便于进行第2节所述的基于不确定性的融合3.3.2.训练设置（批量大小，训练时期，优化器设置，数据增强）与基线一致。4.1.2定量和定性结果定量结果见表。1.我们的方法在验证集和测试集中的所有评估指标上实现了一致的改进。在没有和有我们的LP模块的网络中的参数的数量是21.47M vs.22.07 M（对于 MonoFlex ）和 69.71M ， 70.80M（MonoRCNN），分别仅占因此，我们认为改进的建议方法，而不是增加的参数。我们的LP模块的推理时间MonoFlex为0.037s，MonoFlex为0.06sV.S. 对于 MonoRCNN 为 0.065s ）。我们的结果（MonoFlex基线）的定性示例如图所示。7.我们的方法提供了更准确的定位性能。4.1.3估计中局部视角的影响在选项卡中。2进一步解耦了局部视角估计的影响如第二行所示，单独使用关键边缘比率回归进行3D检测产生次优结果。这并不奇怪，因为物体的局部透视畸变比它们在图像中的大小和位置这不是一个问题，因为我们不需要放弃更强的信号，并限制自己，图5.前面的一辆车的例子显示出很小的局部透视变形。节中4.1.5我们证明了LP模块的性能在这样的对象上不会恶化。图6. 在KITTI验证集的汽车类别上，分析了不同视点下在实践中，只有地方观点。尽管如此，当与现有方法结合时，基于局部视角的方法显示出其价值两个基线的所有度量的普遍改进表明，局部透视失真是先前工作中缺失的部分，并且我们可以将其与各种现有方法结合以进行一般改进。4.1.4Keyedge-ratio回归在这里，我们验证了键边比回归头的特定设计是有益的。我们在基于MonoFlex的网络上进行了实验我们还使用了以对象为中心的索引，而不是以相机为中心的索引。实验结果如表1所示。3.分组头或摄像机中心内标的移除导致严重恶化（高达3分），并且当两者都不存在时，结果最差。这表明，所提出的回归头设计是关键的键刃比的准确估计。4.1.5地方观点人们可能会怀疑，局部透视失真是只观察到的对象与某些观点，这可能会限制所提出的方法的普遍适用性例如，在摄像机前面的车辆只有后面可见，显示关于其局部透视的线索很少650|−|−D基线MonoFlexMonoRCNN方法B LPVal，AP3D，IoU≥ 0. 7简单中硬Val、AP BEV、IoU ≥0。7简单中硬Val，AP3D，IoU≥ 0. 7简单中硬Val、AP BEV、IoU ≥0。7简单中硬✓23.6417.5114.8331.6523.2920.0216.6113.1910.6525.2919.2215.3021.1316.0814.0728.9121.2918.9111.989.818.4117.6114.1412.49✓33.7125.3522.1818.4414.6012.5726.1920.6717.30✓✓25.6618.8916.10表2. KITTI验证集上不同设置的比较。B表示基准中的估计方法。LP表示我们的局部视角估计与关键边缘比率回归。方法Val，AP3D，IoU≥ 0. 7简单中硬Val、AP BEV、IoU≥ 0。7简单中硬我们的（基于MonoFlex）25.66 18.8933.71 25.35无分组头23.0117.6-1.2914.82-1.2831.26-2.45二十三点四十八-1.87 20.02-2.16无相机中心索引22.81-2.8516.31-2.5813.71-2.3930.44-3.2722.35-3.0019.45-2.73无分组头摄像机中心索引21.21-4.4515.44-3.4513.20-2.9029.66—4.05二十一点半—4.05十八点三七-3.81表3.KITTI确认集的消融研究与默认设置相比的性能变化以斜体突出显示畸变一个例子如图所示五、我们的方法在这样的对象上失败了吗答案是否定的，如下图所示。为了检查这个问题，我们分析了在不同视点处的对象的深度估计精度，其由如在Sec.3.1.潜在的假设是，大多数车辆在前面也轴对齐，显示只有一个面对相机。这对于KITTI数据集来说通常是正确的。如果局部透视法对前方的物体不起作用，深度估计将在γ=0附近恶化。自从...视图中心的γ（γ接近于零）趋于深度越大，估计深度的误差也往往越大。我们通过评估相对深度误差来排除在不同γ下地面真实深度的不同分布的影响，即，d r=d estd gt/d gt. 然而，在3D检测任务中评估（相对）深度误差并不直接，因为没有关于对应的地面实况对象和估计的对的明确定义，这取决于检测关联和置信度阈值。在这里，我们在KITTI[9]中模拟AOS（平均方向相似性），并设计一个称为平均相对深度误差（ARDE）的新度量：凯蒂该度量反映了具有不同检测置信度的对象的相对深度误差。在图6中，我们显示了仅基于MonoFlex基线的局部视角（LP）的深度误差结果。γ的范围设定为[ 30分，20分]因为范围之外的物体频率要低得多。事实证明，没有明显的模式在ARDEw.r.t. γ是视角，表明LP模块不受前方物体的影响。原因可能是网络能够从全局信息中推断以及隐含的局部透视变形。4.2. nuScenes数据集我们在nuScenes [2]数据集上进行了进一步的实验，以证明我们的方法的价值在不同的环境中通常是有效的。首先，我们重新训练基于MonoFlex[33]的网络，其中没有微调nuScene的超参数。由于MonoFlex 仅在KITTI上进行实验，因此基线结果由我们生成，并且我们仅处理来自与KITTI具有相似视点的FRONT摄像头的图像，从而在哪里1ARDE=40 r∈n[r40]maxs（r）（10）r≥r训练/验证集。我们在8个GPU上训练了100个epoch，批量然后，我们还将局部透视模块与PGD [32]结合起来，后者报告了nuScene的结果1s（r）=|D（r）|i∈D（r）dr（i）（11）数据集。PGD的官方开源实现不包括几何图形部分，因此在下面的比较中使用的基线和网络融合其中[r40]是用于计算平均精度（AP）的40个召回率点的集合，（r）是召回率r下的真阳性检测的集合，并且dr（i）是检测i的相对深度误差。这里的召回是w.r.t.2D边界框检测，与AOS一致，与我们的本地透视图模块都没有几何图形部分。我们遵循nuScenes的官方划分，在训练和验证集中得到106，416/36，114张图像我们遵循PGD的在8个GPU上训练12个epoch，批大小为16因为只有651图7. KITTI验证集的定性结果。在每一列中，图像在左边，鸟瞰图中的3D检测结果在右边示出。地面实况是红色的，探测是绿色的。我们在基线上实现了总体改进。方法地图车卡车总线拖车施工车辆行人摩托车自行车交通锥屏障MonoFlex*0.1670.3360.0800.1770.0230.0000.2380.1040.0570.3300.325我们的（基于MonoFlex）*0.1820.3530.0990.1750.0160.0040.2550.1520.0810.3470.337PGD0.3170.5020.2260.2910.0740.0430.4250.3120.2870.5510.462我们的（基于PGD）0.3210.5120.2330.2940.0700.0440.4270.3170.2950.5550.460表4.nuScenes验证集上的实验结果AP的定义与KITTI不同* 表示结果仅显示在前置摄像头的图像上。PGD发布了在验证集上评估的学习时间表，我们的结果也是在验证集上。实验结果见表 1 。 4.我们在此报告由官方nuScenes基准定义的平均预测（AP）指标，使用地平面上的2D中心距离测量，并在0.5、1、2、4米的阈值上取平均值mAP通过取所有类别的平均值来计算。与两个基线相比，我们在大多数类别中实现了更高的mAP和更高的AP。5. 结论我们提出了一种方法，利用局部透视效果的单目3D目标检测。我们设计了一个新的回归目标称为keyedge比率参数的局部透视失真。该方法在给定一对关键边缘比和目标物理尺寸的情况下，无需摄像机内、外参数即可估计目标的深度和偏航角。关键边缘比回归的任务不限于特定的网络架构，并且可以附加到任意的骨干和中间层。因此，这项工作可以被视为一个通用的插件模块，可用于扩大广泛的一系列现有的工作。我们包括-将基于局部透视的模块与三个最近的代表性单目3D对象检测网络结合起来，并在KITTI数据集和nuScenes数据集上实现一致的改进。我们的工作也有一些局限性。虽然基于局部透视的方法探索了用于3D推理的新方式，但是它需要与现有方法（例如，基于视觉尺寸和位置）来带来改进。该方法不是为非常远的对象设计的，在这种情况下，局部透视失真变小。由于已经出现了一些利用全局视角的作品，因此将全局视角和局部视角效应结合起来以改善两者的估计是一个有趣的方向。我们相信，我们的方法提供了一个新的观点和额外的机会，为未来的研究单目3D目标检测。引用[1] 加里克巴西和刘晓明。M3 d-rpn：用于对象检测的单目3d区域提议网络在IEEE/CVF计算机视觉国际会议论文集，第9287-9296页[2] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan，Yu Pan，652吉安卡洛·巴尔丹和奥斯卡·贝伊博姆。nuscenes：用于自动驾驶的多模态数据集。 arXiv 预印本 arXiv ：1903.11027，2019。[3] Hansheng Chen ， Yuyao Huang ， Wei Tian ， ZhongGao，and Lu Xiong. Monorun：通过重建和不确定性传播进行单目3D对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第10379-10388页[4] Xiaozhi Chen，Kaustav Kundu，Yukun Zhu，Andrew GBerneshawi ， Huimin Ma ， Sanja Fidler ， and RaquelUrtasun.用于精确对象类别检测的3D对象建议。神经信息处理系统的进展，第424-432页。Citeseer，2015.[5] Yongjian Chen，Lei Tai，Kai Sun，and Mingyang Li.Monopair：使用成对空间关系的单目3d对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第12093-12102页[6] 汤姆·范·迪克和吉多·德·克隆。神经网络如何在单个图像中看到深度在IEEE/CVF计算机视觉国际会议论文集，第2183- 2191页[7] Mingyu Ding，Yuqi Huo，Hongwei Yi，Zhe Wang，Jianping Shi，Zhiwu Lu，and Ping Luo.用于单目3d目标检测的学习深度引导在IEEE/CVF计算机视觉和模式识别研讨会会议论文集，第1000-1001页[8] Jose M Facil、Benjamin Ummenhofer、Huizhong Zhou、Luis Montesano 、 Thomas Brox 和 Javier Civera 。 Cam-convs：用于单视图深度的相机感知多尺度卷积。在IEEE/CVF计算机视觉和模式识别集，第11826[9] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在计算机视觉和模式识别会议中，2012年。[10] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？第31届神经信息处理系统国际会议论文集，NIPS'17，第5580-5590页，美国纽约州Red Hook，2017年Curran Associates Inc.[11] Jason Ku，Alex D Pon，and Steven L Waslander. 单目3d物体检测利用精确的建议和形状重建。在IEEE/CVF计算机视觉和模式识别会议论文集，第11867- 11876页[12] Abhijit Kundu，Yin Li，and James M Rehg. 3d-rcnn：通过渲染和比较进行实例级3d对象重建。在IEEE计算机视觉和模式识别会议论文集，第3559-3568页，2018年。[13] Buyu Li，Wanli Ouyang，Lu Sheng，Xingyu Zeng，andXiaogang Wang. Gs3d：一个高效的自动驾驶三维物体检测框架。在IEEE/CVF计算机视觉和模式识别会议论文集，第1019-1028页[14] 李培轩和赵怀慈。基于几何约束嵌入和半监督训练的单目 3d 检测。 IEEE Robotics and Automation Letters ， 6（3）：5565[15] Peixuan Li，Huaici Zhao，Pengfei Liu，and Feidao Cao.Rtm3d：自动驾驶的目标关键点实时单目3D检测。在计算机Springer，2020年。[16] Shichao Li，Zengqiang Yan，Hongyang Li，and Kwang-Ting Cheng. 探索单目车辆姿态估计的中间表示在IEEE/CVF计算机视觉和模式识别会议论文集，第1873-1883页[17] 卿莲，叶波涛，徐瑞嘉，姚伟龙，张彤。用于单目3d目标检测的几何感知数据增强。arXiv预印本arXiv：2104.05858，2021。[18] 刘宇轩，袁逸轩，刘明。用于自动驾驶的地面感知单目3d 目标检测 IEEE Robotics and Automation Letters ， 6（2）：919[19] Zech e nLiu，ZizhangWu，andRolandTo'th. Smok e：通过关键点估计的单阶段单眼3D对象检测在IEEE/CVF计算机视觉和模式识别研讨会会议论文集，第996[20] 刘宗岱，周定福，卢飞翔，方进，张良军。Autoshape：实时形状感知monocular三维物体检测。在ICCV中，第15641[21] Yan Lu ， Xinzhu Ma ， Lei Yang ， Tianzhu Zhang ，Yating Liu，Qi Chu，Junjie Yan，and Wanli Ouyang.几何不确定投影网络用于单目三维目标检测。在ICCV，第3111-3121页[22] Xinzhu Ma，Yinmin Zhang，Dan Xu，Dongzhan Zhou，Shuai Yi，Haojie Li，and Wanli Ouyang.单目3d目标检测定位误差研究。在IEEE/CVF计算机视觉和模式识别会议论文集，第4721-4730页[23] Fabian Manhardt ， Wadim Kehl ， and Adrien Gaidon.ROI-10 d：将2d检测提升到6d姿态和度量形状的单目提升。 IEEE/CVF会议论文集计算机视觉和模式识别，第2069- 2078页，2019年。[24] Arsalan Mousavian、Dragomir Anguelov、John Flynn和Jana Kosecka。使用深度学习和几何学的3D边界框估计在IEEE计算机视觉和模式识别会议论文集，第7074-7082页[25] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zeming Lin 、 Natalia Gimelshein 、 LucaAntiga 、 Alban Desmaison 、 Andreas Kopf 、 EdwardYang 、 Zachary DeVito 、 Martin Rai son 、 AlykhanTejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chintala。Pytorch：一个操作风格的高性能深度学习库。 In H.Wallach ， H.Larochelle、A. B e ygelzime r、F. d'Alc he´-Buc，E. Fox和R.加内特，编辑，神经信息进展-653Tion Processing Systems 32 ，第 8024Curran Asso-ciates，Inc.，2019年。[26] Cody Reading，Ali Harakeh，Julia Chae，and Steven LWaslander.用于单目3d目标检测的分类深度分布网络。在CVPR中，第8555-8564页，2021年。[27] Xuepeng Shi ， Qi Ye ， Xiaozhi Chen ， ChuangrongChen，Zhixiang Chen，and Tae-Kyun Kim.基于几何距离分解的单目 3d 目标检测。 arXiv 预印本 arXiv ：2104.03775，2021。[28] Andrea Simonelli，Samuel Rota Bulo，Lorenz

下载后可阅读完整内容，剩余1页未读，立即下载