没有合适的资源?快使用搜索试试~ 我知道了~
1991单目3D物体分离检测AndreaSimonelli,Zhao,SamuelRotaBulo`,LorenzoPorzi,ManuelLo' pez-Antequera,PeterKontakeder特伦托大学布鲁诺·凯斯勒基金会research@mapillary.com图1:从我们的单图像,单目3D物体检测网络MonodIS在KITTI 3D测试图像上获得的结果,以及相应的鸟瞰图,显示了它在不同尺度下估计物体大小和方向的能力摘要在本文中,我们提出了一种从单个RGB图像中进行单目3D对象检测的方法,该方法利用了一种新的2D和3D检测损失的解纠缠变换和一种新的3D边界框的自监督置信度得分我们提出的损失解纠缠具有双重优势,即在存在具有复杂参数相互作用的损失的情况下简化训练动力学,并回避了平衡独立回归项的问题。我们的解决方案通过隔离参数组对给定损失的贡献克服了这些问题,而不改变其性质。我们进一步将损失解纠缠应用于另一种新颖的、签名的交集超过并集准则驱动的损失,以改善2D检测结果。除了我们的方法创新之外,我们还严格审查了KITTI3D中使用的AP指标,该指标是比较3D检测结果的最重要数据集。我们确定并解决了11点内插AP度量中的缺陷,该缺陷影响了所有先前公布的检测结果,特别是使单眼3D检测的结果产生偏差。我们提供广泛的实验评估和消融研究,并在KITTI3D Car类上设置了新的最先进技术。1. 介绍物体识别[17]的最新发展已经使单目2D检测任务的性能接近人类。对于具有给定的实际精度要求或计算预算限制的应用,可以从大型池中选择通用2D对象检测器[26,18,25,16,12]。在3D对象检测情况下,性能情况发生了很大变化。尽管有基于多传感器融合的有前途的方法(通常利用RGB图像旁边的LIDAR信息[14,33,30]),但从单个单目RGB输入图像产生的3D检测结果远远落后。这可以归因于问题的不适定性质,其中缺乏关于未观察到的深度维度的显式知识导致3D到2D映射中的模糊性,因此显著增加了任务复杂性。为了仍然能够从单目图像中检测3D对象,当前的工作通常对场景几何形状、相机设置或应用(例如,汽车不能飞[24]。这种先验的实现确定3D框、对应的2D投影或它们的3D框中心深度的范围和位置/旋转的编码。这些参数的大小具有不同的单位,因此具有不可比较的意义,当基于它们的误差项直接组合在损失函数中时,这会对优化动态产生负面影响。因此,最先进的基于CNN的单目3D检测方法[19,24]报告以阶段方式训练其网络。首先训练2D检测器,直到它们的性能稳定,然后可以集成3D虽然阶段式训练本身在深度学习的背景下并不罕见,但这可能表明目前使用的损失函数还不是最佳的。最近大量的工作都集中在KITTI3D数据集上的实验分析[6],1992×≈特别是它的汽车类别[19,24,27,34]。合适的基准数据集的可用性限制了实验分析的范围,并且当只有少数数据集可用时,研究领域的进展与所使用的评估指标的表达性密切相关。KITTI 3D采用PASCAL VOC2007 [5]挑战中使用的11点插值平均精度方法[29]。我们发现了该指标的一个主要缺陷,即使用每个难度类别的单个置信检测结果(KITTI3D区分容易、中等和困难样本)足以在数据集水平上获得9%的AP评分,这比最近的工作报告的性能高出3分[3,2,9,34]。我们的论文的贡献解开单目3D物体检测的任务在几个层面上。我们的主要技术贡献解开不同的,ent参数的依赖关系,隔离和处理参数组分别在一个损失的水平。这克服了参数幅度的不可比性问题,同时保留了最终损失的性质。我们的损失去纠缠显著改善了2D和3D任务的损失。它还使我们能够有效地训练整个CNN架构(2D+3D),而不需要超参数敏感的阶段式训练或预热阶段。作为额外的贡献,我们i)通过基于有符号的交集大于并集准则的新损失来调节2D检测性能,以及ii)引入用于预测3D框的检测置信度分数的损失项,以自我监督的方式学习。另一个主要贡献是对用于判断单目3D目标检测进展的3D指标进行了严格审查,特别关注主要使用的KITTI3D数据集。我们观察到,11点内插AP度量的定义中的缺陷在当前最先进方法的性能水平下显著地使3D检测结果偏置我们应用的校正,尽管使所有的作品评估KITTI3D回到现实,更充分地描述了他们的真实表现。对于我们的所有贡献,我们提供了KITTI3D数据集的汽车类别的消融研究。公平的比较表明,我们的工作大大提高了目前的单目3D检测方法。2. 相关工作我们回顾了最新的,相关的工作从三维物体检测和分组,根据其中使用的数据模式。在讨论了像我们这样的仅RGB的作品之后,我们列出了利用深度和/或合成数据增强或3D形状信息的作品,最后对LIDAR和/或基于立体的方法进行了高级总结。仅RGB图像。 Deep3DBox [20]建议估计通过利用投影几何的约束,核心思想是3D边界框的透视投影应该紧密地配合其对应的2D框检测的至少一侧。在SSD-6D [10]中,初始2D检测假设被提升,以通过使用完整旋转空间的结构化离散化来提供3D对象的6D姿态。3D模型信息仅通过从合成增强的数据集进行训练来学习OFTNet [27]引入了正交特征变换,将从2D提取的特征映射到3D体素图。 体素地图Mono3D [2]强调3D候选框的生成,通过不同的特征(如类别语义、轮廓、形状和位置先验)进行评分。即使在测试时,结果仅基于单个RGB图像产生,他们的方法也需要输入语义和实例分割结果。ROI-10 D [19]的基本变体(不使用深度)提出了一种新的损失,将2D检测,定向和缩放提升到3D空间中,可以以端到端的方式进行训练。MonoGRNet [24]是目前仅用于RGB输入的最先进技术,使用由四个子网络组成的CNN,分别用于2D检测,实例深度估计,3D位置估计和局部角点回归。后三个子网络侧重于几何推理,即:实例深度估计预测最近对象实例的中心3D深度,3D位置估计通过在给定实例深度估计处利用3D到2D投影来寻找3D边界框中心,局部角点回归以局部(或非中心[11,19]方式)直接预测8个3D边界框角点。值得一提的是,[24]报告说,培训是分阶段进行的:首先,使用Adam与2D检测器一起训练骨干。接下来,几何推理模块被训练(也是用Adam)。最后,使用随机梯度下降对整个网络进行端到端的训练。包 括 深 度 。 ROI-10 D [19] 的 扩 展 阶 段 利 用 由 Su-perDepth [22]提供的深度信息,其本身以自我监督的方式学习。在[34]中,提出了一种多级融合方法,在2D框建议生成阶段以及其网络的3D预测部分期间利用来自预训练模块的视差估计结果。包括3D形状信息。3D-RCNN [11]利用了使用逆图形的想法,用于每个图像的所有对象实例的实例级,他们提出了一种可区分的渲染和比较损失,利用现有数据集中可用的2D注释在[35]中,识别任务是通过联合推理来1993×× ××× ××××--×FPN×3×3×8256×16 1×12563×3×16256×32 1×12563×3×32256×323×3/2256×643×3/2×128256conv5conv4conv31×12568conv2conv1关于多个物体的3D形状。Deep-MANTA [1]在从粗到精的定位过程中使用3D CAD模型和带注释的3D部件。[21]中的工作使用关键点对形状先验进行编码,以恢复查询对象的3D姿态和形状在Mono3D++[9]中,通过使用可变形线框提供汽车的3D形状和姿态,并且它优化了生成的3D假设和相应的2D伪测量之间的投影一致性LIDAR和/或基于立体的。3DOP [3]利用立体图像和关于场景的先验知识直接在3D中进行Stereo R-CNN [13]通过利用立体图像来处理3D对象检测,并产生立体框,关键点,尺寸和视角,总结在学习的3D框估计模块中。在MV3D [4]中,提出了一种相反,FrustrumPointNet [23]直接对LIDAR点云进行操作,并对齐从相应的2D检测提供的候选点,以估计最终的非模态3D边界框。PointRCNN [30]描述了一个2阶段框架,其中第一阶段提供自下而上的3D产品,第二阶段在规范坐标中对其进行细化。RoarNet [31]在处理相应的3D点云以获得最终的3D边界框之前,应用2D检测器首先3. 任务描述我们解决了单目3D物体检测的问题,其中输入是单个RGB图像,并且输出包括在3D边界框中,以相机坐标表示,对于图像中存在的每个物体(参见图11)。①的人。与文献中的其他方法相反,我们不采用额外的信息作为输入,如从LIDAR或其他监督或自监督单目深度估计器获得的深度。此外,训练数据仅由具有相应注释的3D边界框的RGB图像尽管如此,我们需要一个校准的设置,所以我们假设每个图像的校准参数在训练和测试时都是可用的。4. 建议的体系结构我们采用两阶段架构,与最先进的技术[19]共享相似的结构。它由一个单级2D检测器(第一级)和一个附加的3D检测头(第二级)组成,该检测头是在从检测到的2D边界框汇集的特征之上构建的该架构的详细信息如下所示。4.1. 骨干我们使用的主干是ResNet34 [8],其上构建了特征金字塔网络(FPN)[15]。FPN网络具有与[ 16 ]相同的结构,具有3+2尺度,连接到ResNet34的模块conv3,conv4和conv5的输出,分别对应于8,16和32的下采样因子。我们的ResNet34与标准版本不同,它将BatchNorm+ReLU层替换为InPlaceABN(iABN sync)的同步版本,该版本使用LeakyReLU激活,斜率为负0。01如[28]中所提出的。这种修改不会影响网络的性能,但可以释放大量的GPU内存,可以利用这些内存来扩展批量大小或输入分辨率。所有FPN块如图所示。2对应于33卷积与256频道,然后是iABN同步。输入。主干的输入x是单个RGB图像。产出主干提供5个输出张量f1,. . . ,f5对应于FPN网络的5个不同尺度,覆盖8、16、32、64和128的下采样因子,每个具有256个特征通道(参见,图2)的情况。图2:主干架构。“FPN”块中的矩形4.2. 2D检测头我们考虑在RetinaNet [16]中实现的单级2D检测器的头部,其将检测模块独立地应用于上述主干的每个输出fi检测模块共享相同的参数,但是根据它们作为输入接收的特征的尺度,固有地以不同的尺度工作。与标准的RetinaNet相反,我们在这个头中也采用了iABN同步。头部,描绘在图。由3 × 3卷积的两个平行堆栈组成,并且由每个尺度级别的n个参考边界框大小(锚)参数化。输入。输入是5个输出{f1,. . .,f5},其中fi具有hi× wi的空间分辨率。产出对于每个图像和每个输入张量fi,2DResNet341994δδwh·××××∈2D2222γ二维二维- -⌊⌋−3D−1图3:2D检测模块。矩形表示卷积。除了每行最后一个卷积之外,所有卷积后面都是iABN同步。检测头为H1×W1网格中的每个空间单元G生成N个针对具有大小(wa,ha)的给定锚点a的每个提议被编码为5元组(δ2D,δu,δv,δw,δh),使得−2D−1图4:3D检测头。“FC”矩形表示完全连接的层。除了每行的最后一行之外,所有FC后面都是iABN。IoU阈值为0。对剩下的5000个得分最高的进行5,并保留最好的100个。4.3. 3D检测头• p二维 =(1+e)给出2D边界框预测,• (ub,vb)=(ug+δuwa,vg+δvha)给出边界框的中心,其中(ug,vg)是单元格g的图像坐标,并且(wb,hb)=(wae,hae)给出边界框大小。图5给出了头部输出的视觉描述损失 我们采用焦点损失[16]来训练边界框置信度得分。 这种损失有以下形式,对于给定的小区g和锚点a,3D检测头(图4)回归3D边界-对于由2D检测头返回的每个2D边界框(在过滤步骤中幸存),它首先应用ROIAlign [7]将FPN中的功能池化到每个2D边界框的1422平均池化,生成具有形状77128. 为每个边界框b选择哪个FPN输出的选择遵循与[15]中相同的逻辑,即,特征从输出fk中被提取,其中{0, 1}和预测置信度p∈[0, 1]:Lconf ( p2D , y ) =−αy ( 1−p2D ) γlogp2D−α<$y<$plog(1−p2D),其中,α[0, 1]和γ>0是调节错误和正的重要性的超参数,分别为α<$=1α和y<$=1y. 置信度tar-gety不取决于回归的边界框,而仅取决于单元格g和锚点a。它的值为1,如果以(ug,vg)为中心、大小为(wa,ha)的参考边界框展现出具有大于给定阈值τiou的地面实况边界框的交并(Intersection-over-Union,IoU)。对于每个单元格g和锚点a,1、2、3、4、5、6、7、8、10、11、12、13、14、15、16、17、18、19、 wbhb/224)。之上这是两个完全连接的层的平行分支,512个通道计算下面详细描述的输出。每个完全连接的层,但每个分支的最后一个层后面是iABN(非同步)。输入. 输入是由2D检测头返回的2D边界框提议b和来自主干的特征fk输出.的头返回为每个2D具有中心(ub,vb)和维度(wb,hb)的建议b,根据10元组θ=(δz,δu,δv,δW,δH,δD,qr,qi,qj,qk)编码的3D边界框,以及附加输出θ3D,使得真值边界框Bb,预测边界框B=wbhbwbhb(ub−,vb−,ub+,vb+)我们考虑以下情况:• p三维|2D=(1 + e ) 代表了降低检测损失:Lbb(b,b)=1−sIoU(b,b),(1)其中sIoU表示公共IoU函数的扩展,其防止在不重叠边界框的情况下梯度消失。我们称之为有符号IoU函数,因为直观地说,它在不相交的边界框的情况下创建负交集(请参考[32]以了解进一步的讨论)。节中5,我们讨论了方程中损失的解纠缠变换。(1)允许隔离每个网络的输出对损失的贡献输出过滤。 2D打印头的高密度输出是文件-• z=µz+σzδz表示预测的3D边界框的中心C的深度,其中给出µz和σz,小范围深度统计,c=(ub+u,vb+v)给出C在图像平面上投影的位置(以图像坐标计),• s= (W0eδW ,H0eδH ,D0eδD )是3D 边界框的大小,其中(W0,H0,D0)是给定的数据集范围的参考大小,并且q=qr+qii+qjj+qkk是提供边界框相对于分配中心[11]局部坐标系的姿态的四元数。图5给出了头部输出的视觉描述损失 设θ是表示回归的10元组,如[16]中所述:首先,分数低于3D边界框的检测,并使B∈R3×8为地面实况0的情况。05,然后相机坐标中的非最大值抑制(NMS)3D边界框通过应用··3D边界框预测给定2D提议,1995FFǁ· ǁ3DYY⊂Y × Y →F−j2D−j3D3D8不3D∈提升变换在[19]中引入并在[32]中回顾,给定网络B=(θ)。3D边界框回归的损失由下式给出:Lbb(B,B<$)=1<$B−B<$$>、(二)其中H表示Huber损失,参数δH按分量应用于幅角矩阵的每个元素置信度p 3D的损失|关于预测的3D边界框的2D由经由变换重新映射到概率范围中的3D边界框损失自监督。图5:2D和3D检测头输出语义的可视化左:图像平面上的2D边界框回归。中心:3D边界框回归。tionpˆ=e−1Lbb(B,B),其中T>0是温度右:鸟瞰图中的非同心角。参数. 3D边界框的置信度损失则是标准的二进制交叉熵损失:L配置f(p3D|2D,p=3D|2D)=−plogp−(1−p)log g(1−p),为了便于阅读,我们省略了下标。与仅使用2D置信度相比,该损失允许获得关于返回的3D边界框的质量的更有根据的置信度。类似于2D的情况下,我们也采用了不同的变体方程。(2)理清参数组的贡献,以提高训练的稳定性和有效性。然而,置信度计算将由Eq.(二)、输出过滤。最终输出将根据贝叶斯规则,根据2D和3D置信度的组合进行过滤。3D置信度p3D|2D隐含地以具有有效的2D边界框为条件,后者的概率由p2D反映。同时,给定无效的2D边界框,3D边界框的置信度默认为0。因此,无条件3D置信度可以通过全概率定律获得,p3D = p3D|2Dp2D。这是我们的方法与每个3D检测相关联的最终置信度,用于通过阈值τconf过滤预测。我们不对回归的3D边界框执行进一步的NMS步骤,也不基于3D先验知识(例如,可以通过投放“飞行”汽车来减少误报5. 解开2D和3D检测损失例如,在Eq.(1)和方程(2)不受平衡问题的影响,它们可能在优化期间表现出不良的动态,如我们将用玩具实验所示。相反,我们提出的转型保留了两个世界的最佳之处。解开Trans f。 设L:R+是定义在空间上的一个损失函数(例如,3D边界框的空间),使得如果y = y,则L(y,y=0)。让ΘRd是一组可能的网络输出,可以通过我们假设为是一对一的此属性适用于通过常见4D参数化(中心+尺寸)的2D边界框,以及通过第10节中描述的10D表示的3D边界框四点三。在后一种情况下,与提升变换重合. 设y是一个固定的输出元素(例如,地面实况边界框),并考虑将Θ的d个维度划分为k个组。举一个具体的例子,在2D边界框的情况下,我们可以有两组参数:一个用于尺寸,一个用于中心。在3D边界框的情况下,我们考虑与深度直观相关的4个组,中心、旋转和尺寸。给定θ∈Θ,我们用θj表示对应于第j个群的子向量,θ−j对应于除第j个组之外的所有组的子向量。此外,给定θ,θ′Θ,我们用<$(θj,θ′)表示参数化的映射,该映射从θ取第j个群,从θ′取其余参数。 将损失Lg i venyn的解纠缠、映射k和参数分解为k个组定义为:在本节中,我们提出了可以应用于2D边界框损失Lbb和3D对流部分Lbb的变换,以及更广泛的损失函数集。我们Ldis(y,y)=Σkj=1L(θj,θj),y(θj),我们称之为“解开转换”,因为它将其中θ=θ−1(y)且θ=−1(y)。 我们的想法是-参数组对给定损失的贡献,而保持其固有的性质。每个参数组保持其独立的损失项,但它们都是可比的,从而避开了寻找适当权重的困难。虽然在单个项中组合参数的损失,在数学之外,转换是非常直观的情感形式主义我们简单地复制k倍的损失L,每个副本只有一组可以优化的参数,另一个被固定到地面实况参数化,可以通过k−1恢复。我们有H3D|2D19963D≈|43 .第三章。531目标始端5 H·10−2启动50目标−500。20的情况。40的情况。50q30028026024022020020181614121005101520253010500510152025302W3QI0的情况。6j420440460480500520un.的迭代·102n.的迭代·102图6:当使用纠缠(洋红色)和解纠缠(蓝色)3D检测损失时,每组参数(尺寸、旋转四元数、投影中心、深度)从左到右:维度的轨迹、旋转四元数(最后3个坐标)、3D边界框中心在图像上的投影以及3D边界框中心的深度最后一幅图显示了两种情况下纠缠Lbb将解缠变换应用于等式中的2D(1)和方程中的3D损失(2)并使用它们来进行我们的实验,除非另有说明。玩具的例子。我们进行了一个玩具实验,其中我们从KITTI3D训练集中修复了一个真实的3D边界框,并使用随机梯度下降(SGD)直接优化了10个参数θ,其中使用了来自Eq.(2)(称为纠缠损失)和当将与尺寸、旋转、中心投影和中心深度有关的参数组合在一起时得到的解纠缠对应物。我们从相同的扰动3D边界框开始两个优化,并在图中报告。6我们根据边界框尺寸、最后3个四元数分量、投影边界的图像坐标获得的轨迹它总共包含7481张训练图像和7518张测试图像,并且没有官方的验证集。然而,通常的做法是将训练数据分为3712个训练图像和3769个验证图像,如[3]中所提出的,然后报告验证结果。在官方的测试分割中,使用哪一个训练集没有共同的共识,但是如果验证数据用于快照挑选,则必须提供来自同一模型的测试数据分数。每个3D地面实况检测框被分配到三个难度类别(容易、中等、困难)中的一个,并且在每个难度类别上单独计算所使用的11点插值平均精度度量。该指标最初在[29]中提出,并在2007年至2010年期间用于PAS-CAL VOC挑战[5]。它将精确率/召回率曲线的形状近似为盒子的中心和中心的深度。我们指出了每组参数的初始值和目标值,并在优化过程的每次迭代中标记一个项目符号1AP |R= |R|Σr∈Rρinterp(r),cess.正如我们所看到的,使用非纠缠损耗比纠缠损耗导致更有效和稳定的轨迹。值得注意的是,旋转参数几乎收敛于零。对ρinterp(r)提供的精度值求平均值。在当前设置中,KITTI3D正好应用11个相等的间隔的回忆水平,即, R11={0,0. 1,0。2、. . . ,1}。在-而他们,则是被一个人,一个人,一个人,一个人,长而曲折的轨迹,当优化entan时,插值函数定义为ρinterp(r)=m′ a′xr:r≥r ρ(r′),Gled one.类似的事情也发生在绑定框维度上。特别地,纠缠损耗优化过程首先通过平坦化一些维度(在这种情况下为高度)来减小到目标的距离。这种平坦化持续直到目标框和预测框开始重叠,之后优化动态可以最终收敛到目标维度。这种次优行为完全可以通过解纠缠损失来避免,因为预测框和目标框在构造上总是居中的。关于这个玩具实验的更多细节在[32]中提供。6. KITTI3D AP度量的评论KITTI3D基准数据集[6]显著决定了3D物体检测的发展和总体进展,并已成为像我们这样的单目3D检测算法它能-其中ρ(r)给出了查全率r时的查准率,这意味着不是对每个点R的实际观察到的精度值求平均,而是取大于或等于R的查全率值处的最大精度。召回间隔从0开始,这意味着单个正确匹配的预测(根据应用的IoU水平)足以在最底部的召回箱中获得100%的精度。换句话说,如果对于每个难度水平,向评估提供单个但正确的预测,则这产生1 /110的AP R11分数。0909对于整个数据集,如我们的实验部分所示,它已经优于许多最近的方法,但它显然没有正确评估算法的质量。鉴于KITTI3D的重要性,我们提出了一个简单但有效的修复方法,该方法基本上利用了官方评估服务器和评估脚本提供的更多信息。我们不是从提供的41个点中对11个点进行子采样,而是近似计算面积目标开始纠缠解纠缠DQKvzLbb3D1997--方法简单中硬方法容易2D检测中度硬容易3D检测中度硬容易鸟瞰中度硬回归70.1073.2066.801.300.900.702.601.901.703D BB74.3077.1069.503.902.702.506.905.104.40回归w/ IoUDIS,3DConf70.1075.1066.902.601.701.405.403.803.003D BB,带IoUDIS,3DConf95.1088.9078.608.806.105.0014.6010.108.303D BB,带解缠80.5080.8074.404.103.002.707.105.404.80MonoDIS94.9689.2280.5811.067.606.3718.4512.5810.66表1:AP |KITTI 3D上的R 40确认集消融结果(0.7 IoU阈值)。方法容易2D检测中度硬容易3D检测中度硬容易鸟瞰中度硬OFTNet [27]–––1.611.321.001.280.810.51ROI-10 D带深度,合成[19]76.5670.1661.154.322.021.469.784.913.74MonoGRNet [24]88.6577.9463.319.615.744.2518.1911.178.73MonoDIS93.1185.8673.617.034.894.0812.189.137.38Monodis,较大的培训部分94.6189.1578.3710.377.946.4017.2313.1911.12表2:AP |KITTI3D上的R 40测试集SOTA结果(0.7 IoU阈值)在曲线下方,只需将R11替换为R40= 1/40,2/40,3/40,. . . ,1,从而对40个召回位置上的精确度结果进行平均,而不是在0处。这消除了在最低召回箱处遇到的故障,并且允许对2D和3D AP分数上的所有当前提供的测试服务器结果进行后处理。7. 实验我们将重点放在我们在第二节中描述的KITTI3D基准数据集6、使用0.7 IoU阈值计算AP。7.1. 实现细节在本节中,我们将详细介绍超参数的实现和实例化2D和3D探测头。有关FPN、2D锚点以及Car类参考尺寸和深度统计的详细信息,请参阅[32]。损失我们在所有实验中采用相同的加权策略。 我们设置权重为1。0至2D检测头中的所有损失,以及0。5至3D检测头中的所有损失Huber参数设置为δH= 3。0和T=1的3D置信温度。优化. 我们的训练计划对所有实验都是一样的,它不涉及任何多步骤或热身程序。我们使用SGD,学习率设置为0.01并将0.0001的权重衰减应用于除iABN的标度和偏差之外的所有参数。我们还在主干中冻结ResNet34的conv1和conv2。我们在4个NVIDIA V-100 GPU上使用批量大小为96的训练,总共进行了20 k次迭代,在12 k和16 k次迭代时将学习率缩放0.1倍。 我们的输入分辨率根据[19]设置。我们将水平翻转作为唯一的形式训练数据增强。未对测试/确认进行任何增强。7.2. 2D检测在第一组实验中,我们研究了带符号的IoU损失函数(Sec.4.2、隔离。为了做到这一点,我们训练我们的骨干+ 2D头在KITTI3D中执行纯2D汽车检测,比较原始RetinaNet回归损失,签名的IoU和具有解纠缠的签名的IoU。对于这个更简单的任务,我们将训练时间表减少到3.5k次迭代,在2k和3k之后进行学习率步长,同时保持所有其他参数。7.1. 如Tab.所示。3,使用带符号的IoU会导致适度的性能提升,这在添加解纠缠时会大大提高。RetinaNet87.7783.7474.02RetinaNet + IoU88.3784.0574.32RetinaNet + IoUDIS89.3585.3876.26表3:KITTI 3D与2D检测网络的消融结果,AP |R40分。7.3. 3D检测在本节中,我们专注于我们的主要任务,并对我们的贡献进行详细的分析,将结果与最相关的最先进的单细胞3D检测算法进行比较。保持网络架构和训练时间表固定,我们评估不同的损失函数和检测评分策略。经讨论节中6,我们报告两者,我们修订后的AP |R40公制(Tab. 1和2)和原始AP |R11(表4).消融研究。首先,我们将10D参数θ[19]的直接回归与1998||方法容易2D检测中度硬容易3D检测中度硬容易鸟瞰中度硬回归66.5072.3066.001.601.501.202.702.102.303D BB70.8077.1066.504.703.002.907.805.405.80回归w/ IoUDIS,3DConf67.2073.6065.503.202.902.005.804.804.303D BB,带IoUDIS,3DConf90.2088.4078.4015.4013.6012.0020.5016.2015.703D BB,带解缠76.4080.3073.204.903.403.107.305.706.30每个困难的9.099.099.099.099.099.099.099.099.09OFTNet [27]–––4.073.273.2911.068.798.91Xu等[34个]–––7.855.394.7319.2012.1710.89[20]第二十话–––5.854.103.849.997.715.30Mono3D [2]93.8988.6779.682.532.312.315.225.194.13Mono3D++[9]–––10.607.905.7016.7011.5010.10[19]第十九话78.5773.4463.6910.121.761.3014.043.693.56[19]第十九话89.0488.3978.777.795.163.9510.747.467.06ROI-10 D带深度,合成[19]85.3277.3269.709.616.636.2914.509.918.73MonoGRNet [24]–––13.8810.197.69–––MonoDIS90.2388.6479.1018.0514.9813.4224.2618.4316.95表4:AP |KITTI3D上的R11确认集评分(0.7 IoU):消融结果(顶部),SOTA结果(底部)。方程中的3D BB损失(二)、比较结果见表1和表21和4.重申[19]中的发现,我们观察到当在度量空间中的(纠缠)3D BB损失函数中将所有参数联系在一起时,3D检测分数增加。也许令人惊讶的是,这种损失也会导致更好的2D检测性能:我们推测这可能是由于从3D头部传播的更多信息梯度改善了骨干特征。基于有符号IoU添加我们的解纠缠的2D检测损失IoUDIS(等式2)。(1))和3D置信度预测3DConf(第二节)。4.3),一致地提高了回归和3D BB(第3行和第4行)的性能。类似地,对3D BB损耗应用解缠绕改善了3D检测性能,并且对2D侧(第5行)具有甚至更大的影响。最后,在我们的方法MonodIS中将所有贡献放在一起,在所有考虑的指标下都会导致显著的每千次增加(Tab中的最后一行。1和4)。与SOTA比较在选项卡中。2和4我们报告了许多最近的单眼3D检测方法的测试和验证集结果。当在验证集上进行评估时,我们考虑[3]中定义的分裂,就像在所有基线中一样。对于测试集,我们考虑了[3]中的分割,这与OFTNet [27]和ROI-10 D [19]共享,以及更大的训练分割1,因为用于MonoGR的设置。[24]不清楚。为了节省空间,我们只显示AP |R40的测试集结果得分为2,并在[ 32 ]中报告相应的AP R11得分。除了一个例外,我们的方法在所有3D和鸟瞰图指标上击败了所有基线注意有些优于其他方法的方法依赖于附加数据,例如合成图像(ROI-10 D [19])或预先训练的单眼深度预测网络(ROI-10 D [19],Xu等人,[34])。1https://github.com/MarvinTeichmann/KittiBox2根据KITTI3D排行榜页面中的PR曲线计算。有趣的是,许多现有的方法得分低于“单一正确假设”基线(见第二节)。6)关于3D检测APR11,强调需要改进AP度量。8. 结论我们提出了一种新的损失解缠变换,使我们能够有效地训练端到端的3D对象检测网络,而不需要阶段式训练或预热阶段。我们的解决方案将参数组对给定损耗的贡献隔离到单独的项中,这些项保留原始损耗的相同性质,因此是兼容的,而不需要进一步的、繁琐的损耗平衡步骤。我们提出了两个进一步的损失函数,其中i)基于新的有符号交并准则以改善2D检测结果,以及ii)用于预测以自监督方式学习的3D边界框预测的检测置信度。除了方法论的贡献,我们揭示了KITTI3D中使用的主要检测指标的缺陷,其中 单个正确预测的边界框在验证或测试分割上产生9.09%的总体AP分数。我们的简单修复一般纠正以前公布的方法的性能结果,并显示如何显着偏置单目3D物体检测结果,特别是。在我们广泛的实验结果和消融研究中,我们证明了我们提出的模型的有效性,并显着改善了以前的最先进的。致谢我们要感谢丰田研究所的Fabian Manhardt,WadimKehl和Adrien Gaidon进行了有益的讨论。1999引用[1] FlorianChabot,MohamedChaouch,JaonaryRabarisoa,Ce- line Teuliere,and Thierry Chateau.Deepmanta:一个从粗到细的多任务网络,用于从单目图像进行联合2D和3D车辆在(CVPR),2017年7月。3[2] Xiaozhi Chen , Kaustav Kundu , Ziyu Zhang , HuiminMa,Sanja Fidler,and Raquel Urtasun.用于自动驾驶的单目三维物体检测。In(CVPR),2016. 二、八[3] Xiaozhi Chen,Kaustav Kundu,Yukun Zhu,Andrew GBerneshawi , Huimin Ma , Sanja Fidler , and RaquelUrtasun.用于精确对象类别检测的3D对象建议。在(NIPS),2015年。二三六八[4] Xiaozhi Chen,Huimin Ma,Ji Wan,Bo Li,and TianXia.用于自动驾驶的多视角三维物体检测网络。在(CVPR),2017年7月。3[5] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K. I.威廉斯,J.Winn和A.齐瑟曼。Pascal Visual Object Classes(VOC)挑战。(IJCV),88(2):303-338,2010. 二、六[6] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准 备 好 自 动 驾 驶 了 吗 ? Kitti Vision 基 准 套 件 。 In(CVPR),2012. 1、6[7] KaimingHe,Geo r giaGkioxari,PiotrDol la'r,andRossB.娘娘腔。面罩R-CNN。In(ICCV),2017. 4[8] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 用 于 图 像 识 别 的 深 度 残 差 学 习 。 CoRR ,abs/1512.03385,2015。3[9] 何彤和斯特凡诺·索亚托。Mono3d++:具有双尺度3d假设和任务先验的单目3d车辆检测CoRR,abs/1901.03446,2019。二、三、八[10] Wadim Kehl , Fabian Manhardt , Federico Tombari ,Slobodan Ilic,and Nassir Navab.Ssd-6d:使基于rgb的3d检测和6d姿态估计再次伟大。In(ICCV),October2017. 2[11] Abhijit Kundu , Yin Li , and James M.瑞 格3D-RCNN:通过渲染和比较的实例级3D对象重建。在(CVPR),2018年6月。二、四[12] 黑律和贾登。Cornernet:将对象检测为成对的关键点。In(ECCV),September 2018. 1[13] Peiang Li,Xiaozhi Chen,and Shaojie Shen. 基于立体R- CNN的自动驾驶三维目标检测。In(CVPR),2019.3[14] 梁明,杨斌,陈云,胡瑞,拉奎尔·乌塔孙.三维目标检测的多任务多传感器融合。In(CVPR),2019. 1[15] 放 大 图 片 作 者 : 林 宗 毅 , 彼 得 · 多 尔 , 罗 斯 ·B.Girshick,KaimingHe,Bharath Hariharan,and Serge J.贝 隆 吉 用 于 对 象 检 测 的 特 征 金 字 塔 网 络 CoRR ,abs/1612.03144,2016。三、四[16] 放 大 图 片 创 作 者 : 林 宗 毅 , Priya Goyal , Ross B.Girshick,Kaiming He,andPiotrDoll a'r.密集目标检测的焦面损失。CoRR,abs/1708.02002,2017
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功