基于几何不确定投影网络的单目三维目标检测

57 浏览量更新于2023-10-13 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3111基于几何不确定投影网络的单目三维目标检测闫露1，†，* 马新柱1，*雷洋2张天柱3刘雅婷4齐楚3，闫俊杰2欧阳万里11悉尼大学商汤计算机视觉集团2商汤集团有限公司3中国科学技术大学信息科学与技术学院4中国{yan.lu1，xinzhu.ma，wanli. oyang} @ sydney.edu.au{ yanglei，yanjunjie} @ sensetime.com@ ustc.edu.cnliuyat@mail.ustc.edu.cn摘要几何投影是单目三维物体检测中一种有效的深度估计方法。它根据高度估计深度，这将数学先验引入深度模型。但是投影过程也引入了误差放大问题，估计高度的误差将被放大并在输出深度处被极大地反映出来。这种性质导致不可控制的深度推理，也损害了训练效率。在本文中，我们提出了一个几何不确定性投影网络（GUP网），以解决在推理和训练阶段的错误放大问题。具体地，提出了GUP模块来获得推断深度的几何引导的不确定性，这不仅为每个深度提供了高可靠的置信度，而且有利于深度学习。此外，在训练阶段，我们提出了一个分层任务学习策略，以减少错误放大造成的不稳定性。该学习算法通过一个建议的指标来监控每个任务的学习情况，并根据不同任务的前任务情况自适应地分配适当的损失权重在此基础上，每个任务只有在其前任务学习好的情况下才开始学习，这可以显著提高训练过程的稳定性和效率。大量的实验证明了该方法的有效性整体模型可以推断出比现有方法更可靠的对象深度，并且在KITTI基准测试中，在汽车和行人类别中，整体模型的性能优于最先进的基于图像的单目 3D 检测器的 3.74% 和 4.7% 。代码和型号将在https://github.com/SuperMHP/GUPNet发布。[2]这项工作是颜璐在商汤科技实习时完成的*同等贡献。通讯作者。图1.我们的几何不确定性投影模块的主要管道。在概率框架中对投影过程进行建模。推断深度可以被表示为分布，使得可以提供准确的值和分数。1. 介绍3D物体检测是自动驾驶中的重要组成部分，并且近年来受到越来越多的关注。与基于LiDAR/立体的方法[32，35，37，40，41，49，57]相比，由于缺乏深度线索，单目3D对象检测仍然是一项具有挑战性的任务，这使得单目对象级深度估计自然不适定。因此，单目3D检测器无法实现令人满意的性能，即使应用一些复杂的网络结构[39]。最近，为了解决这个问题，一些作品[36，47]试图引入几何先验来帮助深度推断，其中广泛使用的先验是透视投影模型。现有的方法与投影模型通常是，��ℎℎ2��ℎ3��3112·±首先估计二维和三维边界框的高度，然后通过投影公式depth=h3df/h2d（f为摄像机焦距）推断深度。由该公式推断的深度与估计的2D/3D高度相关，因此高度估计的误差也将反映在估计的深度处。然而，高度估计的误差是不可避免的，特别是对于不适定的3D高度估计（由于成熟的2D检测，2D高度估计相对更准确），因此我们更关心由3D高度估计误差引起的深度推断误差。为了显示该属性的影响，我们在图2中可视化由固定的3D高度误差引起的深度偏移。我们可以发现，3D高度的轻微偏差（0.1m）可能会导致投影深度的显著偏移（甚至4m）这种误差放大效应使得基于投影的方法的输出难以控制，显著影响推理可靠性和训练效率。在本文中，我们提出了一个几何不确定性投影网络，其中包括一个几何不确定性投影（GUP）模块和层次任务学习（HTL）策略来处理这些问题。第一个问题是推理的可靠性。3D高度估计中的小质量变化将引起深度估计质量的大变化。这使得模型不能容易地预测可靠的不确定性或置信度为了解决这个问题，提出GUP模块以基于分布形式而不是离散值来推断深度（参见图1）。深度分布由估计的3D高度分布推断。因此，所估计的3D高度估计的统计特性将反映在输出深度分布中，这导致更准确的不确定性。在推断时，该良好学习的不确定性将被映射到置信度值以指示深度推断质量，这使得总投影过程更可靠。另一个问题是模型训练的不稳定性。特别地，在训练阶段开始时，2D/3D高度的估计往往是有噪声的，并且误差将被放大并导致离谱的深度估计。这样，网络的训练过程就会受到误导，导致最终性能的下降为了解决训练的不稳定性，我们提出了层次任务学习（HTL）策略，旨在确保每个任务只有在所有的前任务（例如：3D高度估计是深度估计的前置任务之一）被很好地训练为了实现这一目标，HTL首先通过一个精心设计的学习情况指标来衡量然后根据前任务的学习情况自动调整每个损失项的权值，可以显著提高训练的稳定性，从而提高最终的性能。概括而言，主要贡献如下：图2.由0.1m 3D高度抖动引起的深度偏移的可视化示例。我们画了一些鸟瞰图的例子来显示误差放大效应。在该图中，横轴和纵轴的单位均为米，纵轴对应于深度方向。绿色框表示原始投影输出。蓝色和红色框分别是由+0.1m和-0.1m 3D高度偏差引起的移位框（最佳彩色视图）。• 我们提出了一个几何不确定性投影（GUP）模块结合了数学先验知识和不确定性建模，这显着减少了不可控的影响所造成的错误放大的推理。• 针对基于几何的方法中任务依赖性导致的训练不稳定性，提出了一种分层任务学习策略（HTL），可以显著提高训练效率。• 在具有挑战性的KITTI数据集上的评估显示，整体提出的GUP Net在KITTI测试集上分别在汽车和行人3D检测上实现了约20.11%和14.72%的最2. 相关作品单眼3D对象检测。单眼3D物体检测旨在从单个给定图像预测3D边界框[13，17，21，25，31，43]。现有方法集中于深度表示学习[39]和几何先验[29，30，46，56]。Deep3DBox [34]首先尝试通过几何先验来解决关键角度预测问题。DeepMANTA [7]引入了3D CAD模型来学习基于形状的知识，并指导更好的尺寸预测结果。GS3D [22]利用ROI表面特征提取更好的对象表示。M3DRPN [4]给出了一种新的修改后的3D锚点设置，并提出了一种深度卷积来处理单眼3D检测任务。MonoPair [10]提出了一种成对关系，以提高单目3D检测性能。3113角度热图ℒℎ��2d偏移2d大小22[ ，2 ][，]ℒ��2��ℒ��2��2d箱子分层任务学习ℒ��ℒ��坐标映射3d尺寸ROI对齐深度偏差[，3 ，3]几何不确定性投影ℒ��3��ℒ��ℎ3d偏移[，]33ℒ3图3.几何不确定性投影网络的框架。将输入图像发送到网络以提取2D框和基本3D框参数。几何不确定性投影模块将根据高度参数推断深度。在训练阶段，所有的任务损失将通过分层任务学习策略收集起来，并为其分配适当的权重除了这些方法外，许多方法试图引入几何投影来推断深度[1，2，6，20]。Ivan等人 [2]将关键点方法和投影结合起来进行几何推理。Decoupled3D [6]使用边界框边缘的长度来投影并获得推断的深度。Bao等人 [1]将中心投票与几何投影相结合，以实现更好的3D中心推理。所有这些基于投影的方法都没有考虑误差放大问题，导致性能有限。基于不确定性的深度估计。不确定性理论广泛应用于深度回归方法[3]，它可以对任意和认知不确定性进行建模。该技术在深度估计中得到了很好的发展[18，24]，它可以显著降低深度目标的噪声然而，这些方法直接回归的深度不确定性的深度模型，忽略了高度和深度之间的关系在这项工作中，我们试图通过结合端到端学习和几何关系来计算不确定性。多任务学习。多任务学习是计算机视觉中一个广泛研究的课题。许多工作集中在任务关系表征学习[28，45，48，51，52，53]。除此之外，一些作品还试图调整不同损失函数的权重以解决多任务问题[11，19，54]。GradNorm [11]试图解决联合多任务学习中的损失不平衡问题，提高训练稳定性。Kendall等人 [19]提出了一种任务不确定性策略来处理任务平衡问题，也取得了很好的效果。这些损失权重控制方法假设每个任务是彼此独立的，这不适合我们的方法，因为多个在我们的框架中的任务形成分层结构，即，某些任务依赖于它们的前任务。因此，我们提出了一个分层的任务学习策略来处理它。3. 几何不确定性投影网络图3示出了所提出的几何不确定性投影网络（GUP网络）的框架。图像首先由2D检测主干处理，产生2D边界框（感兴趣区域，RoI），然后计算基本的3D边界框信息，即、角度、尺寸和每个框的3D投影中心。之后，GUP模块通过结合数学先验和不确定性建模来预测深度分布。该深度分布提供准确的推断深度值及其对应的不确定性。预测的不确定性将在推断阶段被映射到3D检测置信度。此外，为了避免在训练开始时错误放大引起的误导，有效的分层任务学习（HTL）策略将控制整个训练过程，其中每个任务直到其前任务已经训练好才开始训练。3.1. 2D检测如图3所示，我们的2D检测器构建在中心网络[55]上，计算热图以指示对象的粗略位置和置信度，并预测每个潜在2D框的2D偏移和2D大小。3.2. RoI特征表示为了引导模型专注于对象，我们使用RoIAlign [16]裁剪和调整 RoI特征但这些3114∼HDGTpBDpB特征缺乏对单目深度估计必不可少的位置和大小线索[12]。因此，我们计算归一化的坐标图，然后以通道方式将其与每个RoI的特征图连接起来，以补偿该线索（如图3所示）。3.3. 基本3D检测头利用提取的RoI特征，我们构造了几个在这些特征之上的子标题来预测一些基本的3D为了获得更好的预测深度，我们添加学习偏置以修改初始投影结果。我们还假设学习偏差是拉普拉斯分布La（µb，σb），并且与投影分布无关。因此，最终深度分布可以写为：d=La（µp，λp）+La（µb，λb），µ=µ+µ，σ=。（σ）2+（σ）2。（三）边界框信息。3D偏移分支旨在估计2D特征图上的3D中心投影[10]。角度预测分支预测相对α旋转角度[34]。3D尺寸分支估计3D尺寸参数，包括高度、宽度和长度。这些预测分别由L偏移3d、L角度和L大小3d监督注意，L尺寸3d包括用于不同尺寸的三个部分，例如，，高度损失Lh3d.我们将最终的不确定性σd称为基于几何的不确定性（GeU）。这种不确定性反映了投影不确定性和偏差学习不确定性。使用此公式，h3d的小不确定性将反映在GeU值中。为了优化最终深度分布，我们应用不确定性回归损失：√23.4. 几何不确定性投影L深度=|+ log（σ d）。|+log(σ d).（四）基本的3D检测头提供除了深度之外的3D边界框的大部分信息。针对直接回归深度的困难，提出了一种新的几何不确定投影模型.总体模块在概率框架中而不是在单个值中构建投影过程，使得模型可以计算出更好的推断深度的不确定性，这可以指示深度推断的可靠性，也有助于模型学习。为了实现这一目标，我们首先假设每个物体的3D高度是拉普拉斯分布La（µh，λh）1。平均值µh和标准差σh由3D尺寸流以端到端的方式预测。µh表示回归目标输出，σh是推断的不确定度。因此，3D高度损失函数可以定义为：注意，为了简化，我们还假设深度分布属于拉普拉斯分布整体损失将推动投影结果接近地面实况dgt，并且梯度将同时影响深度偏差、2D高度和3D高度。此外，在优化过程中还训练了3D高度和深度偏差的不确定性。在推理过程中，深度预测的可靠性对于现实世界的应用至关重要。一个可靠的推理系统，预计将反馈高信心的一个好的估计和低分数的一个坏的。由于我们精心设计的GeU具有指示深度的不确定性的能力，我们进一步通过指数函数将其值映射到0 1以指示深度不确定性置信度（UnC）：LH3D√2=σ |µ h -h3d|+ log（σ h）的情况。（一）p深度= exp（−σ d）。（五）高度gth3dmakeµh和真实它可以为每个投影提供更准确的置信度深入因此，我们使用此置信度作为条件3DH3D尽可能接近。特别是，困难的或噪声标记的样本通常产生大的σ3d，指示低预测置信度。基于学习到的h3d分布，投影输出La（μp，λp）的深度分布可以近似为：d=f·h3d=f·（λh·X+µh）边界框得分p3d|2D在测试中最后的推断--可以将得分计算为：p3d=p3d|2d·p2d= p深度·p2d。（6）该分数表示2D检测置信度和2D检测置信度两者。ph2dH2d（二）深度置信度，这可以指导更好的可靠性。=f·λh·X+f·µh，3.5. 分层任务学习h2dh2d其中X是标准拉普拉斯分布La（0，1）。在这个意义上，µp和σp分别是f·µh和f·σh到GUP模块主要解决推理阶段的误差放大效应。然而，这种影响也是dam-H2dH2d老化训练程序。具体来说，一开始1拉普拉斯随机变量X的概率密度函数（1）x（x）=0（|x−µ|），其中μ和λ是拉普拉斯pa-训练中，h2d和h3d的预测都很不准确，这会误导整个训练和2λ λ√半径。标准偏差σ可以通过下式计算2λ。σdL3115破坏性能。为了解决这个问题，我们设计3116ΣL不YJP∼ΣDFDFLDFDFL L·不iTi·角度热图3D偏移3D框2D偏移2D箱子3D尺寸深度2D大小阶段1：2D检第2阶段：3D头部阶段3：深度推断图4.GUP Net的任务层次结构第一阶段是2D检测。第二阶段建立在RoI功能之上，由基本的3D检测头组成基于在先前阶段中估计的2D和3D高度，第三阶段推断深度，然后构成3D边界框。分层任务学习（HTL），以控制每个时期的每个任务的权重。总损失为：L总=wi（t）·Li（7）i∈T其中是任务集。 t表示当前时期索引，i表示第i个任务损失函数。wi（t）是第t个时期的第i个HTL的灵感来自于每个任务都应该在其前任务训练好之后开始训练的动机。我们将任务划分为不同的阶段，如图4所示，并且损失权重w（t）应该与所有预任务相关联图5.带调整参数的多项式时间调度函数。垂直轴是wi（t）的值，水平轴是时期指数t。(best以颜色查看）。课程因此，αi（t）定义为：αi（t）=lsj（t），（9）j∈Pi哪里i是第i个任务的预任务集。表示第j个任务的学习情况指示符，其是0 - 1之间的值。该公式意味着只有当所有预任务都达到高ls（训练良好）时，α i才会获得高值。F或lsj，受[11，54]的启发，我们设计了一个尺度不变因子来指示学习情况：ls（t）=DFj（K）-DFj（t），DFj（K）我的第i个任务。第一阶段是2D检测，包括热图、2D偏移、2D尺寸。然后，第二阶段是包含角度、3D偏移和3D尺寸的3D头所有DFj1（t）=Kt−1t=t−K|L′j.tΣ|、（十）这些3D任务是建立在ROI特征上的，因此2D检测阶段的任务是它们的前任务。类似地，最后阶段是深度推断，并且其前置任务是3D尺寸和2D检测阶段中的所有任务，因为深度预测取决于3D高度和2D高度。为了充分训练每个任务，我们的目标是随着训练的进行逐渐将wi（t）从0增加到1因此，我们采用课程学习主题中广泛使用的多项式时间调度函数[33]作为我们的加权函数，其适应如下：w（t）=（t）1-αi（t），α（t）∈[0，1]，（8）其中T是总训练时期和归一化时间其中，′j（t）是j（）在第t时刻的导数，它可以指示损失函数的局部变化趋势。j（t）计算在第t个历元之前的最近K个历元中的导数的平均值以反映平均值变化趋势。如果j在最近的K中快速下降在新纪元，j将获得更大的价值。因此，lsj公式意味着比较当前趋势j（t）与第j个任务的训练j（K）开始时的前K个时期的趋势之间的差异。如果当前损失趋势与开始趋势相似，则指标将给出一个小值，这意味着此任务没有训练好。相反，如果一个任务趋向于收敛，则lsj将接近于1，这意味着该任务的学习情况任务得到满足。变量t可自动调整时间刻度。 αi（t）为在整体设计的基础上，对各学期的减肥在第t个时期的调整参数，对应于第i个任务的每个预任务。图5显示了αi可以改变时间调度器的趋势。αi越大，wi（）增加得越快。从调整参数的定义来看，很自然地通过每个预任务的学习情况来确定其值。如果所有的预任务都经过了良好的训练，那么αi应该很大，否则应该很小。这是由于人们通常在完成基础课程后学习高级课程能动态地反映其前任务的学习情况，使训练更加稳定。4. 实验4.1. 设置数据集。KITTI 3D数据集[15]是3D对象检测任务中最常用的基准，它提供了左摄像机图像、校准文件、注释以及用于检测的图像。3117表1. KITTI测试仪上的3D物体检测。我们以粗体突出显示最佳结果。对于额外的数据：①的人。“深度”意味着这些方法使用额外的深度注释或从更大的深度估计数据集预先训练的现成网络。2）的情况。“时间”意味着使用额外的时间数据。（3）第三章。“LiDAR”是指利用真实的LiDAR数据进行更好的训练。4）.“无”表示不使用额外的数据。方法额外数据汽车@IoU=0.7行人@IoU=0.5Cyclist@IoU=0.5容易Mod.硬容易Mod.硬容易Mod.硬Mono-PLiDAR [47]深度10.767.506.10------[6]第六话深度11.087.025.63------AM3D [30]深度16.5010.749.52------PatchNet [29]深度15.6811.1210.17------DA-3Ddet [4]深度16.7711.508.93------D4LCN [13]深度16.6511.729.514.553.422.832.451.671.36运动学[5]时间19.0712.729.17------MonoPSR [20]LiDAR10.767.255.856.124.003.308.704.743.68CaDNN [38]LiDAR19.1713.4111.4612.878.146.767.003.413.30Monodis [43]没有一10.377.946.40------UR3D [42]没有一15.588.616.00------M3D-RPN [4]没有一14.769.717.424.923.482.940.940.650.47吸烟[27]没有一14.039.767.84------MonoPair [10]没有一13.049.998.6510.026.685.533.792.121.83RTM3D [23]没有一14.4110.348.77------MoVi-3D [44]没有一15.1910.909.268.995.444.571.080.630.70RAR-Net [26]没有一16.3711.019.52------GUP网（我们的）没有一20.1114.2011.7714.729.537.874.182.652.09改进vs. 深度+3.46+2.48+2.26+10.17+6.11+5.04+1.73+0.98+0.73改进vs. 时间+1.04+1.48+2.60------改进vs. LiDAR+0.94+0.79+0.31+1.85+1.39+1.11-4.52-2.09-2.09改进vs. 没有一+3.74+3.19+2.25+4.7+2.85+2.34+0.39+0.53+0.26标准单眼3D检测。它总共提供7，481帧用于训练，7，518帧用于测试。在[8，9]之后，我们将训练数据分为训练集（3，712张图像）和验证集（3，769张图像）。我们根据这一分割进行消融研究，并报告了在所有7，481张图像上训练的模型的最终结果，并通过KITTI官方服务器进行测试。评估方案。所有的实验遵循标准的评价协议中的单目3D对象检测和鸟的视图（BEV）检测任务。在[43]之后，我们评估了AP40以避免原始AP 11的偏倚。实作详细数据。我们使用DLA-34 [50]作为基线和我们的方法的基础。输入图像的分辨率设置为380 × 1280，特征图下采样率为4。每个2D子头具有两个Conv层（第一个的通道被设置为256），并且每个3D子头包括具有256个通道的一个3x3Conv层、一个平均池化层和一个全连接层。这些磁头的输出通道取决于输出数据结构。我们在3个Nvidia TiTan XP GPU上以32的批量大小训练我们的模型140个epoch。的初始学习率为1.25e−3，在第90和第120个历元时衰减0.1为了使训练更加稳定，我们在前5个epoch中采用线性预热策略。HTL中的K也被设置为5。4.2. 主要结果KITTI测试集上的汽车类别结果。如表1所示，我们首先将我们的方法与其他方法进行比较。KITTI测试集上的对应项。总的来说，所提出的方法实现了优越的结果，汽车类别比以前的方法，包括那些额外的数据。在公平的条件下，我们的方法实现了3.74%，3.19%，和2.25%的增益上容易，中等，和硬设置，分别。此外，我们的方法也优于额外的数据的方法。例如，与最近提出的利用LiDAR信号作为深度估计子任务的监督的CaDNN [38]相比，我们的方法在三个困难设置上仍然获得0.94%、0.79%和0.31%的增益，这证实了所提出的方法的有效性。KITTI验证集上汽车类别的结果。我们还在表2中的KITTI验证集上展示了我们的模型具体地，我们的方法在0.5IoU阈值处获得与最佳竞争方法MonoPair几乎相同的性能。此外，我们的方法相对于MonoPair在0.7IoU 阈值的中等设置下的 3D/BEV 检测提高了4.16%/4.77%。这表明我们的方法非常适合高精度任务，这是自动驾驶场景中的重要特征。请注意，RTM3D和RAR-Net未报告验证集上的AP40度量，并且可以在补充材料中找到与它们在AP11KITTI测试装置上的行人/骑车人检测。我们还在表1中报告了行人/骑自行车者检测结果。具体来说，我们的方法显著优于所有3118→→→→→→→→→→ →→→表2. 汽车类别在KITTI验证集上的性能。我们以粗体突出显示最佳结果。方法3D@IoU=0.7BEV@IoU=0.73D@IoU=0.5BEV@IoU=0.5容易Mod.硬容易Mod.硬容易Mod.硬容易Mod.硬[55]第五十五话0.600.660.773.463.313.2120.0017.5015.5734.3627.9124.65MonoGRNet [36]11.907.565.7619.7212.8110.1547.5932.2825.5048.5335.9428.59Monodis [43]11.067.606.3718.4512.5810.66----M3D-RPN [4]14.5311.078.6520.8515.6211.8848.5335.9428.5953.3539.6031.76[44]第四十四话14.2811.139.6822.3617.8715.73------MonoPair [10]16.2812.3010.4224.1218.1715.7655.3842.3937.9961.0647.6341.92GUP网（我们的）22.7616.4613.7231.0722.9419.7557.6242.3337.5961.7847.0640.88表3. 针对Car类别的KITTI确认集的消融研究。表4.与我们的GUP网与其他一些广泛使用的损失权重控制器的组合在汽车类别的KITTI验证集上的比较。3D@IoU=0.7 BEV@ IoU=0.7失重控制器竞争的方法在所有的难度水平上的pedes-trian检测。对于循环检测，我们的方法优于MonoPSR和CaDNN之外的其他方法。主要原因是这两种方法可以受益于来自LiDAR信号的额外深度监督，从而提高整体性能。相比之下，其他算法的性能受限于少量训练样本（KITTI训练值集中总共有14，357/2，207/734个实例应该注意的是，我们的方法仍然排名第一的方法没有额外的数据。延迟分析。我们还测试了我们的系统的运行时间。在单个Nvidia TiTan XP GPU上测试了平均运行时间，达到29.4 FPS，显示了推理流水线的有效性。4.3. 消融研究为了了解每个组件提供了多大的改进，我们对汽车类别的KITTI验证集进行了消融研究，主要结果总结在表3中。坐标图的有效性。我们为每个RoI特征连接一个坐标图（CM），实验（a b）清楚地显示了这种设计的有效性，这意味着位置和大小线索对我们的任务至关重要。请注意，CM引入的额外计算开销可以忽略不计。几何不确定性投影的比较。我们在这里评估我们的几何不确定性投影（GUP）模块。请注意，我们认为我们的GUP模块从以下几个方面带来了好处：几何投影（GeP）、基于几何的不确定性（GeU）和不确定性-置信度（UnC，Eq. （五）。所以我们评估有效性这三个部分分别。首先，我们评估了UNC的有效性。通过比较设置（b c和 d e），我们可以发现UnC部分可以有效和稳定地提高整体性能，例如。在中等水平下，三维检测任务（b c）提高1.09%，（d e）提高0.78%。在此之后，我们关注GeP部分的有效性，我们可以看到，添加GeP部分提高了在没有UnC的实验（bd）中的性能，但是导致在具有UnC的实验（c e）中的准确度下降（c和e实验直接使用等式中的学习不确定性）。5表示信任）。这证明了我们的动机。由于误差放大的存在，投影模型很难直接学习精确的不确定度和此外，注意，在两组实验中，困难情况的准确性降低其次，我们应用我们的基于GeP的GeU策略，以及两组对照实验（e f和g h）进行。与c e相比，c f证明了该方法可以解决基于投影的模型中置信度学习的困难实验结果清楚地表明，我们的几何建模方法的有效性的所有指标。分层任务学习的影响。我们还通过两组控制实验（例如g和f h）量化了所提出的分层任务学习（HTL）策略的贡献此外，我们研究了损失项之间的关系，并在图7中可视化训练阶段的损失权重的变化趋势，以表明我们的HTL方案的设计有效性显示第二阶段失重开始在其所有任务（{热图、2D偏移和2D大小}）接近收敛之后增加。对于第三深度推断-CM UnCGeP GeUHTL3D@IoU=0.7BEV@ IoU=0.7容易Mod.硬容易Mod.硬（一）- -✓-✓ ✓✓-✓ ✓✓ ✓✓ ✓✓ ✓- -- -- -✓-✓-✓ ✓✓-✓ ✓------✓✓15.1811.009.5221.5716.4313.93（b）第（1）16.3912.4411.0123.0818.3216.03容易改良硬度容易改良硬度GradNorm [11]16.19 10.49 921.80 14.74 13.02任务不确定性[19]18.95 13.94 12.1825.07 19.45 16.74HTL（我们的）22.76 16.46 13.7231.07 22.94 19.753119--图6.验证集上的可视化不确定度示例。第一行（蓝色框）是我们方法的结果。第二行（红框）是基线结果。第3行显示鸟瞰图结果（绿色表示地面实况框）。IoU意味着预测框和相应的地面实况框之间的交集。不确定度值等于拉普拉斯分布的σ（最佳颜色视图）。图7.上图显示了损失曲线，下图表示损失重量趋势。蓝色、绿色和棕色分别表示图4中的第1、第2和第3阶段。阶段，也有类似的趋势。它的损失重量在大约第11个时期开始增加。当时，其所有前期任务热图、2D偏移量以及2D尺寸、3D尺寸都取得了一定的进展。为了进一步证明这种策略适合我们的方法，我们还将我们的HTL与表4中的一些广泛使用的失重控制器[11，19]进行了比较。我们可以看到，我们的方法实现了最佳性能。比较方法性能不佳的主要原因是我们的模型是一个分层的任务结构。他们要求的任务独立而对于GardNorm来说，其低性能也是由误差放大效应造成的。这种效应使得损失函数的大小在整个训练阶段显著变化，因此GardNorm难以平衡它们。4.4. 定性结果为了进一步研究我们的GUP网络的有效性。我们从我们的模型和基线投影方法（表3中的第4行中的相同设置）示出了一些坏情况和相应的不确定性。结果示于图6中。我们可以看到，我们的GUP网络可以预测不同的坏情况，包括遮挡和远距离的高不确定性。并且随着预测结果的改善，该方法的预测不确定性基本降低。基线投影模型给出了类似的低不确定性值的坏的情况下，这表明我们的GUP网络的效率。5. 结论针对传统几何投影模型忽略的误差放大问题，提出了一种单目三维目标检测的该方法将数学投影先验和深度回归幂结合起来，计算出每个对象的更可靠的不确定度，不仅有助于基于不确定度的学习，而且可以在测试阶段计算出准确的置信度。我们还提出了一种分层任务学习策略，以更好地学习整体模型，减少错误放大造成的不稳定性大量的实验验证了所提出的算法的优越性能，以及模型的各个组成部分的有效性。6. 确认这项工作得到了澳大利亚研究委员会资助DP200103223、FT210100228和澳大利亚医学研究未来基金MRFAI000085的支持。3120引用[1] 包文涛、齐钰、俞空。单目3d目标检测的目标感知质心投票。arXiv预印本arXiv：2007.09836，2020。[2] Ivan Barabanau 、 Alexey Artemov 、 Evgeny Burnaev 和Vyacheslav Murashkin。基于关键点几何推理的单目3d目标检测。arXiv预印本arXiv：1905.05618，2019。[3] CharlesBlundell，JulienCornebise，KorayKavukcuoglu，and Daan Wierstra.神经网络中的权重不确定性。国际机器学习会议，第 1613-1622 页。PMLR，2015.[4] 加里克巴西和刘晓明。M3 d-rpn：用于对象检测的单目3d区域提议网络在IEEE/CVF计算机视觉国际会议论文集，第9287-9296页[5] Garrick Brazil，Gerard Pons-Moll，Xiaoming Liu，andBernt Schiele.单目视频中的运动三维目标检测。在欧洲计算机视觉会议上，第135- 139152. Springer，2020年。[6] Yingjie Cai ， Buyu Li ， Zeyu Jiao ， Hongsheng Li ，Xingyu Zeng，and Xiaogang Wang.具有解耦结构多边形估计和高度引导深度估计的单目三维物体检测。在AAAI人工智能会议论文集，第34卷，第10478- 10485页[7] FlorianChabot、MohamedChaouch、JaonaryRabarisoa、Ce'lineTeuliere和ThierryChateau。Deepmanta：一个从粗到细的多任务网络，用于从单目图像进行联合2D和3D车辆分析。在IEEE计算机视觉和模式识别会议论文集，第2040-2049页[8] Xiaozhi Chen ， Kaustav Kundu ， Ziyu Zhang ， HuiminMa，Sanja Fidler，and Raquel Urtasun.用于自动驾驶的单目3d物体检测。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2016年6月。[9] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月[10] Yongjian Chen，Lei Tai，Kai Sun，and Mingyang Li.Monopair：使用成对空间关系的单目3d对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第12093-12102页[11] Zhao Chen，Vijay Badrinarayanan，Chen-Yu Lee，andAn-drew Rabinovich. Gradnorm：梯度归一化，用于深度多任务网络中的自适应损失平衡国际机器学习会议，第794-803页。PMLR，2018。[12] 汤姆·范·迪克和吉多·德·克隆。神经网络如何在单个图像中看到深度在IEEE/CVF计算机视觉国际会议论文集，第2183- 2191页[13] Mingyu Ding，Yuqi Huo，Hongwei Yi，Zhe Wang，Jianping Shi，Zhiwu Lu，and Ping Luo.学习深度引导对话-用于单目3D对象检测的解决方案。在IEEE/CVF计算机视觉和模式识别研讨会会议论文集，第1000-1001页[14] Xiaoqing Ye ， Liang Du ， Yifeng Shi ， Yingying Li ，Xiao Tan，Jianfeng Feng，Errui Ding，and Shilei Wen.基于特征域自适应的单目3d目标检测。在计算机视觉-ECCV 2020中：第16届欧洲会议，格拉斯哥，英国，2020年8月23日至28日，会议记录，第IX部分16，第17-34. Springer，2020年。[15] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。2012年IEEE计算机视觉和模式识别会议，第3354-3361页。IEEE，2012。[16] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[17] 何彤和斯特凡诺·索亚托。Mono3d++：具有双尺度3d假设和任务先验的单目3d车辆检测在AAAI人工智能会议论文集，第33卷，第8409-8416页[18] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？ arXiv 预印本 arXiv ：1703.04977，2017。[19] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。在IEEE计算机视觉和模式识别会议论文集，第7482-7491页[20] Jason Ku，Alex D Pon，and Steven L Waslander. 单目3d物体检测利用精确的建议和形状重建。在IEEE/CVF计算机视觉和模式识别会议论文集，第11867[21] Abhijit Kundu，Yin Li，and James M Rehg. 3d-rcnn：通过渲染和比较进行实例级3d对象重建。在IEEE计算机视觉和模式识别会议论文集，第3559-3568页，2018年。[22] Buyu Li，Wanli Ouyang，Lu Sheng，Xingyu Zeng，andXiaogang Wang. Gs3d：一个高效的自动驾驶三维物体检测框架。在IEEE/CVF计算机视觉和模式识别会议论文集，第1019-1028页[23] Peixuan Li，Huaici Zhao，Pengfei Liu，and Feidao Cao.Rtm3d：自动驾驶的对象关键点的实时单目3D检测。arXiv预印本arXiv：2001.03343，2，2020。[24] Chao Liu ， Jinwei Gu ， Kihwan Kim ， Srinivasa GNarasimhan，and Jan Kautz.神经rgb（r）d感知：从摄像机里看出来的深度和不确定性。在IEEE/CVF计算机视觉和模式识别会议论文集，第10986-10995页[25

下载后可阅读完整内容，剩余1页未读，立即下载