新的方法：3D检测与度量的单眼提升

190 浏览量更新于2023-10-17 收藏 2.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2069ROI-10 D：2D检测到6D姿势和度量形状的单眼提升Fabian Manhardt慕尼黑工业大学fabian. tum.deWadim Kehl丰田研究所wadim. tri.globalAdrien Gaidon丰田研究所adrien. tri.global摘要我们提出了一种用于端到端单眼3D对象检测和度量形状检索的深度学习方法。我们提出了一种新的损失公式提升2D检测，方向和规模估计到3D空间。代替单独优化这些量，3D装置允许适当地测量盒子的度量我们的实验表明，我们的10D提升稀疏的2D感兴趣区域（ROI）取得了很大的成果，为6D姿态和恢复的纹理metric几何实例。这进一步通过将恢复的网格直接修复到2D场景上来实现3D合成数据增强我们对KITTI3D与其他强大的单眼方法进行了评估，并证明我们的方法在官方测试集上的3D姿态度量上使AP加倍，定义了最新的技术水平。1. 介绍一个人从一张单色图像中能了解多少场景？使用大型注释数据集和深度神经网络，计算机视觉社区已经稳步推进了人们认为可能的范围，不仅用于语义理解，还用于场景和对象的3D特性。特别是，单目图像上的深度学习方法已被证明与多传感器方法在3D对象检测等重要的不适定逆问题上具有竞争力（[3，31，20，34，24]，6D姿态跟踪[30，40]，深度预测[9，11，13，42，33] ，或形状恢复[18，23]。这些改进主要是通过结合强隐式或显式先验来实现的，这些先验将欠约束的输出空间正则化为几何相干的解。然而，这些模型通常直接受益于端到端的可训练性。这导致增加的准确性，因为网络被有区别地调谐到目标对象，而不是中间输出，然后是不可训练的后处理算法。主要的挑战，*同等缴款。这项工作是在TRI实习的一部分图1.顶部（从左到右）：我们的2D检测，3D盒子，以及从一个单目图像中推断出的网格形状中间：我们在LIDAR点云上的预测下图：我们的网络预测的局部化、度量准确、纹理化的网格示例。然而，设计一个模型和可微损失函数，使其适合于行为良好的最小化。在这项工作中，我们介绍了一种新的端到端的方法，计量准确的单目三维物体检测，即。使用单个RGB图像作为输入来预测3D中对象的位置和范围的任务。我们的关键思想是回归定向三维边界框提升预测的二维感兴趣区域（ROI）使用单目深度网络。我们的主要贡献是：• - 用于单眼3D对象检测的端到端多尺度深度网络，包括可微分的2D到3D RoI提升图，其内部回归用于3D框实例化的所有所需分量;2070• 损失函数，其在度量空间中对齐那些3D框，直接最小化它们相对于地面实况3D框的误差;• 扩展我们的模型来预测度量纹理网格，使进一步的三维推理，包括三维相干合成数据增强。我们称我们的方法为在KITTI3D [12]基准上的实验此外，我们表明，我们的单目3D姿态是有竞争力的或优于最先进的。2. 相关工作由于物体检测的工作量在过去几年中显著增加，我们将把重点放在基于RGB的3D物体检测方法的最新进展上。3DOP来自Chenet al. [4]使用KITTI[12]立体数据和附加场景先验来创建3D对象建议，随后是基于CNN的评分。在他们的后续工作Mono3D [3]中，作者通过利用各种单目对应物（例如形状、分割、位置和空间背景）来替换基于立体的Mousavian等人[31]建议将单次激发2D检测与方位角方向的附加分箱加上偏移回归相结合。类似地，来自Kehlet al. [20]介绍了一种结构化的离散化的完整的旋转空间的单镜头6D姿态估计。Xuet al. [41]结合了单目深度模块，以进一步提高KITTI上推断姿势的准确性。代替离散化SO（3），[34，37]将6D估计问题公式化为3D边界框的2D投影的回归。这些方法假定已知物体的比例，因此可以使用透视法-n 点（ Pn P ）变量来从 2D-3D 对应性恢复姿态。Grabner等人[14]提出了一种混合的方法，他们回归2D控制点和绝对规模，以恢复姿态，随后，对象类别。此外，Radet al. [34]经验表明，该代理损失优于6个自由度的标准回归。相比之下，[40，24，30]直接编码6D姿态。特别地，Xianget al.[40]首先将旋转回归此后，他们将3D网格转换为相机帧，并测量模型点[16]与地面实况的平均距离。类似地，[24]还最小化了6D姿势细化的模型点的平均距离Manhardt等人[30]还进行6D姿态细化，但回归4D更新四元数以描述3D旋转。他们的代理丢失样本和转换3D轮廓点，以最大限度地提高投影对齐。值得注意的是，所有这些直接编码方法都需要精确的3D模型的知识。然而，当在类别级别工作时，3D模型通常是不可用的，并且这些方法没有被设计成处理类内3D形状变化（例如，不同类型的汽车之间）。因此，我们提出了一种更强大的提升到3D的方法，只需要边界框。因此，这些边界框的范围也可以是可变大小的。与我们类似，[7]使用ROI来提升2D检测，但他们的管道不是端到端训练的，并且依赖于RGB- D输入进行3D框实例化。在单眼形状恢复方面，来自 Kundu 等人的 3D-RCNN。[23]使用RPN来估计KITTI上汽车的方向和形状，并进行渲染和比较损失。Kanazawa等人[18]使用可微分网格渲染器预测实例形状，纹理和相机姿势[19]。虽然这些方法作为其合成误差最小化的一部分显示出非常令人印象深刻的结果，但它们只能按比例恢复形状此外，我们的方法不需要可区分的渲染或其近似。3. 单目提升到10D的姿势和形状在本节中，我们描述了我们在2D空间中检测物体的方法，从而从单个单目图像计算它们的6D姿态和度量形状。首先，我们概述了我们的网络架构。其次，我们解释了如何将损失计算提升到3D以提高姿态精度。第三，我们描述了我们学习的度量形状空间及其用于从估计的形状参数进行3D最后，我们描述了我们的形状估计如何使3D相干数据增强-灰，以提高检测。3.1. 端到端单目架构我们的架构（图2）遵循两阶段方法，类似于FasterR-CNN [36]，其中我们首先生成2D区域建议，然后为每个区域运行后续预测。对于第一阶段，我们采用Reti- naNet [26]，其使用具有FPN结构[25]和焦点损失加权的ResNet-34主干对于每个检测到的精确2D对象建议，我们然后使用RoIAlign操作[15]来提取每个区域的局部特征。与上述相关工作相反，我们不直接从这些局部特征中独立地为每个提案回归3D信息。从单目数据预测该相比之下，旨在预测整个场景上的全局深度信息的网络可以通过利用几何约束作为监督来克服这些模糊性[11]。因此，我们使用基于最先进的Su的并行流2071图2.我们使用ResNet-FPN架构处理输入图像，用于2D检测和单目深度预测网络。我们使用预测的感兴趣区域（RoI）通过RoIAlign操作从ResNet-FPN和深度网络中提取融合的特征图，然后回归3D边界框，我们称之为RoI提升。perDepth网络[33]，它从同一个单目图像预测每像素深度我们使用这些预测的深度图来支持我们网络的后续3D提升部分的距离推理。除了上述来自我们的2D RPN的局部化特征图为了更好的定位精度，我们还决定包括一个2D坐标图[27]。因此，我们将所有信息传播到我们的融合模块，该模块由两个卷积层组成最后，我们连接所有特征，使用RoIAlign并运行到单独的分支中，用于3D旋转，平移，绝对（度量）范围和对象形状的回归，如以下部分所述。3.2. 从单目2D实例到6D姿势形式上，我们解决这个问题的方法是定义一个从2D RoI X到3D盒B：={B1，...，B8}的八个有序3D点。我们选择将旋转编码为4D四元数，将平移编码为投影2D对象质心（类似于[31，20，40]）以及关联深度。此外，我们将3D范围描述为与整个数据集的平均范围的偏差给定RoIX，我们的提升F（X）在该位置运行RoIAlign，然后是单独的预测头，以恢复旋转q、RoI相对2D质心（x，y）、深度z和度量范围（w，h，l）。由此，我们构建8个角Bi：图3.我们的提升F回归所有分量以估计3D框B（蓝色）。从这里，我们的损失最小化了与地面真值B的逐点距离（红色）。我们将八个对应中的三个用绿色表示。年龄平面虽然这样的3D锚点明确地提供了对象提升姿态误差估计到3D当仅从单目数据估计姿态时，像素空间中的小偏差可以在3D中引起大误差。此外，单独惩罚每个项可能导致不稳定的优化，并且容易出现次优的局部最小值。我们建议将问题提升到3D，并采用代理损失来描述完整的6D姿势。因此，我们不强制同时优化所有项，而是让网络在训练期间确定其焦点给定一个地面实况3D框±w/2x·zB：={B，.，B}及其相关联的2D检测X，B：=q·±h/2·q−1+K−1y·z（1）18我±l/2图像，我们运行我们的提升映射来检索3D预测，ztionF（X）=B. 损失本身就是平均数除以8其中K−1是逆相机本征函数。我们构建度量空间中的角距离：点Bi以定义的顺序保持绝对定向。我们在图3中描述了实例化。我们的公式让人想起3D锚定（如L（F（X），B）=18Σi ∈{1..8）||F(X)i - Bi||.（二）MV3D [5]、AVOD [22]）。然而，我们对这些3D锚点的2D实例化是稀疏的，并且在整个IM上都有效在图3中，我们将损失对齐的一些3D-3D对应关系描绘20721图4.自我中心式（上）和非自我中心式（下）的比较。虽然自我中心的姿势在平移时经历朝向相机的视点改变，但非自我中心的姿势总是表现出相同的视图，与对象的位置无关当推导损失时，链式法则导致图5.顶部：学习的形状空间中每个类别的中位数下图：隐超球面上的平滑插值，ΣF（ X）、qF（X）、n（x，y）F（X）、塞兹F（X）（w，l，h）ΣL（·）F（X）L（·）（三）两类。繁琐的过程，我们反而训练了一个3D卷积au-并清楚地显示了每一次提升对个人的影响-零部件有助于实现3D对齐。类似于采用投影或几何约束的工作[29，30]，我们观察到我们需要一个预热期来将回归带入适当的数值范围。因此，我们使用单独的项进行训练，直到我们达到稳定的3D框实例化，然后切换到我们的提升损失。我们还想强调的是，我们的参数化允许一般的6D姿态回归。尽管KITTI3D中的对象注释仅显示方位角变化，但许多驾驶场景和大多数机器人用例需要解决toencoder，由编码器E以及解码器D组成，并对输出TSDF施加不同的约束。特别地，我们采用了4个卷积层，E和D的滤波器大小分别为1，8，16，32。此外，我们使用了一个6的全连接层来表示潜在空间。在训练期间，我们进一步将所有潜在表示映射到单位超球面上，以确保嵌入内的平滑性。此外，我们通过总变差来惩罚输出水平集中的跳跃，这会朝着更平滑的表面正则化。最后的损失是所有这些组成部分的总和：六个自由度。Ltsdf（E，D，φ）=|D（E（φ））− φ| +的|（||E（φ）||− 1）|+的|φ D（E（φ））|（四）Allocentric Regression和Egocentric LiftingMultiple作品[31，23]强调了估计单眼数据的allocentric姿态的重要性，特别是对于较大的视场。差异在图4中描绘，其中相对于相机的相对对象平移改变观察到的视点。因此，我们遵循同样的原则，因为ROI失去了全球背景。因此，旋转q在F内的回归期间被认为是非自我中心的，然后用推断的平移进行校正以构建自我中心的3D框。3.3. 物体形状学习检索在本节中，我们将解释如何扩展端到端单目3D对象检测方法，以额外预测网格，以及如何使用它们进行数据增强。光滑形状空间的学习给定一组50个商业上可用的汽车CAD模型，我们创建了我们还将每个 CAD 模型分类为之后，我们使用Weiszfeld算法[38]计算每个类别和所有汽车的中值形状，如图所示。5（顶部）。下面，我们展示了我们在嵌入中的中值形状之间平滑插值的能力。我们观察到，我们可以安全地遍历嵌入上的所有中间点，而不会退化形状，并发现六维潜在空间是平滑和细节之间的良好地面实况形状注释。为了避免通过中心差异进行梯度近似[23]，我们将KITTI3D汽车实例标记为离线。运行从每个中值初始化的贪婪搜索，我们寻求LIDAR和分割中的最小投影差异[15]。对于我们的3D lifter的形状分支，我们将预测形状s和地面真实形状s之间的相似性度量为超球面上两点之间的角度。尺寸128×128×256。我们最初使用PCA来学习低维形状，类似于[23]。在实验中-Lshape（s，s）=arccos. 2s，s2−（五）我们发现形状空间很快就不连续，远离平均值，导致退化网格。使用PCA生成适当的形状需要根据其标准差2073来评估每个为了避免这种在推理过程中，我们预测低维潜在向量并将其馈送到解码器以获得其TSDF表示。我们还可以使用移动立方体[28]从TSDF计算3D网格。2074简单的网格纹理。由于我们的方法计算绝对尺度和6D姿态，我们进行投影纹理检索的3D网格。为此，我们将面向相机的每个顶点投影到图像平面上，并指定相应的像素值。之后，我们沿着对称轴镜像颜色以完成。3.4. 合成3D数据增强由于使用度量准确的3D注释来注释单目数据通常是昂贵且困难的，因此许多最近的作品利用合成数据[10，8，2，1]来训练它们的方法[20，17，35]。然而，由于域间隙，这通常会导致性能显著下降。对于KITTI3D来说尤其如此，因为它是一个非常小的数据集，只有大约7k个图像（或分别用于train和val的3.5k个图像，从[3]中分离这很容易导致训练数据分布的严重过拟合一个有趣的解决方案，这一领域的差距，提出了Alhaija等人。[1]，在于通过将对象的3D合成渲染内画到真实世界图像背景上来扩展数据集。受这种增强现实类型的方法的启发，我们建议利用我们以前的网格，以产生逼真的渲染。这允许增加的真实性和多样性，与使用一小部分固定的CAD模型（如[1]）形成对比此外，我们不使用强大的手动或地图先验来放置场景中的合成对象。相反，我们采用allocentric姿态移动的对象在3D不改变的观点。我们在3D中应用一些旋转扰动来生成新的不可见姿势并减少过拟合。图6示出了一个合成生成的训练样本。虽然红色边界框显示原始地面实况注释，但绿色边界框描绘了合成添加的汽车及其采样的6D姿态。3.5. 实现细节该方法在 PyTorch 中实现 [32] ，我们使用 AWSp3.16xlarge实例进行训练。我们使用了带有动量的SGD，批量大小为8，学习率为0.001，线性预热。我们总共运行了200k次迭代，并在120k和180k步之后将学习率衰减0.1。我们采用尺度抖动和水平翻转来增强数据集。对于合成汽车增强，我们从训练序列中总共提取了140个网格，我们使用相应的地面真实姿势对这些网格进行纹理化。然后，我们通过在随机方向上拍摄射线并沿着射线采样3D平移，用多达3辆不同的汽车来增强每个输入样本。此外，我们采用原始的allocentric旋转来避免纹理伪影，然而，扰动旋转高达10度，以便始终产生新的不可见的6D姿势。我们的形状空间是六维的，尽管较小的维度可以导致良好的行为图6.合成生成的训练样本。顶部：绿色边界框显示原始地面实况汽车和姿势。与此相反，红色框说明了从采样的6D姿势渲染的网格。下图：SuperDepth的增强深度图[33]。注意，我们使用了带注释的网格，我们使用地面真实姿势和投影纹理对其进行着色空间，也是。我们在补充中显示定性结果。在测试过程中，我们将图像的短边调整为600并运行2D检测。在ROI提升之前，我们用2D-NMS在0.65处过滤检测然后通过非常严格的鸟瞰图NMS处理所产生的3D框0.05以防止物理交叉。4. 评价在本节中，我们描述了我们的评估方案，与基于RGB的方法的最新技术水平相一致，并提供了一个消融分析，讨论了我们个人贡献的优点4.1. 评价方案我们使用标准的KITTI3D基准[12]及其官方评估指标。我们评估我们的方法在三个不同的困难：简单，适度，用力。此外，正如建议的那样，我们还将2D和3D的IoU阈值设置为0.7。对于姿态，我们计算鸟瞰图中我们还计算完整3D边界框的AP。4.2. 与相关工作的比较我们在火车/验证分裂上比较自己，[3]以及针对KITTI3D上最先进的基于RGB的方法的官方测试集，即（基于立体的）3DOP [4]，Mono3D [3]和Xu等人。[41]它还使用了深度模块来进行更好的推理。请注意，尽管在2D AP中略低，但我们使用合成数据的模型在我们训练的网络中提供了最佳的姿态准确度，我们选择了这个模型来与其他模型竞争。从表1和表2中可以看出，我们的方法在2D中表现较差，2075方法类型鸟瞰图AP [val/test]3D检测AP [val /test]容易中度硬容易中度硬Mono3D [3]3DOP [4]Xu等[41个]单立体声单声道5.22/12.63 /22.03/13.735.19/9.49/13.63/9.624.13/7.59/11.60/8.222.53/6.55/10.53/7.082.31/5.07/2.31/4.10/ROI-10DROI-10D（Syn.）单单10.74 /14.50 /16.777.46/9.9112点40分7.06/8.73/11.397.79/9.6112点半5.16/6.63/10.303.95/6.29/9.39表1.KITTI3D验证[3]和官方KITTI3D测试集上的3D检测性能我们为鸟瞰图和3D报告我们的AP每个指标的官方IoU阈值为0.7请注意，我们仅在在线测试集上评估了合成ROI-10 D版本表2. KITTI3D验证[3]上的2D AP性能和官方测试集，官方IoU阈值为0.7。由于我们严格的3D-NMS，但我们是迄今为止最强大的鸟瞰这强调了正确的数据分析的重要方面，以抵消过度拟合。在官方测试集上，我们获得的3D AP是最接近的单目竞争对手的两倍。值得注意的是，[41]在KITTI3D和Cityscapes [6]上训练了他们的深度模块，以便更好地泛化，而我们使用的SuperDepth模型仅在KITTI数据上进行了预训练。有趣的是，当从验证集移动到测试集时，它们的数量会大幅下降（例如，由22.03%至13。73%或10。53%至7。08%），这表明对具有已知基础事实的验证集进行积极调整。我们想要提及的是，评估协议迫使3D AP和鸟瞰图AP从上方被2D检测AP限制，因为2D中的错过的检测总是负面地反映在姿态度量上。这进一步加强了我们的情况，因为如果我们要用2D AP归一化来校正它们，我们的姿势4.3. 消融分析在烧蚀分析中，我们首先要研究我们的新损失如何特别地最小化对齐问题。此外，我们将确定KITTI3D中的某些姿势在哪里以及为什么更难以正确估计。最后，我们分析了我们的方法在不同的输入和如何以及我们的损失影响的构成的质量。提升损失我们运行受控实验，其中，用地面实况RoIX和3D框BX来隔离一个实例，我们仅用随机初始化的参数来优化提升模块F。F（X）和B（X）之间对齐的逐步改进我们参考补充材料以获得完整的动画。独立于初始化，我们可以观察到，我们的损失总是平滑地收敛到全局最优。我们还显示了每个雅可比分量的大小从方程。3，可以看出，损失主要集中由于我们的尺度回归恢复了与平均汽车尺寸的偏差，因此在优化过程中大多数情况下被忽略，因为原始误差范围最小。在优化或缩放幅度期间无需手动强制执行任何主要方向，损失可以很好地控制每个组件的影响。姿势回忆与培训数据为了更好地了解我们的优势和劣势，在图。8我们展示了我们对来自[3]的train/val分割的深度和旋转的不同bin的回忆。如果鸟瞰图IoU大于0.5，我们接受检测注意，我们遵循KITTI约定，使得0度的角度对应于面向右侧的对象。由于数据集对于深度学习方法来说相当小，我们还绘制了训练数据分布图，以了解样本频率和姿势质量之间是否存在相关性。对于平移，我们没有发现训练数据中出现的次数与姿势结果之间的任何联系。然而，较近的对象通常在3D中比较远的对象显著更好地定位。这可以通过以下事实来解释：网络强烈依赖于预测的深度图来估计距离。然而，我们的单目深度估计的不确定性也随着距离而增长。非常有趣的是，利用我们的合成数据生成改进了所有箱的结果这证实了，由于场景的多样性是有限的，网络很快就学会了偏差，并且在没有我们提出的增强的情况下有过度拟合的风险我们的综合方法也明显导致更好的旋转估计。与平移相比，我们可以发现训练数据分布和姿势质量之间存在很强的相关性虽然我们的方法在频繁的视点上取得了很好的效果，但当从代表性不足的角度观察对象时，召回率自然会下降方法2D检测AP [val/test]容易中度硬Mono3D [3]93.89/92.3388.67/88.6679.68/78.963DOP [4]93.08 /93.0488.07 /88.6479.39 /79.10Xu等[41个]– /– /– /ROI-10D89.04 /88.39 /78.77 /ROI-10D（Syn.）85.32 /75.3377.32 /69.6469.70/61.182076方法2D检测AP [0.7]鸟瞰3D检测AP [0.5 /0.7]容易中度硬容易中度硬容易中度硬无加权多任务加权[21]88.9588.2087.5483.8178.6874.8740.17 /11.8536.22 /10.0027.85 /7.3226.82 /6.6024.49 /7.2223.02 /5.8433.95 /7.4731.40 /6.7022.53 /4.8321.04 /4.6421.78 /3.7617.32 /3.63ROI-10 D（无深度）78.5773.4463.6936.21 /14.0424.90 /3.6921.03 /3.5629.38/10.1219.80 /1.7618.04 /1.30ROI-10D89.0488.3978.7742.65 /10.7429.80 /7.4625.03 /7.0636.25 /7.7923.00 /5.1622.06/3.95ROI-10D（Syn.）85.3277.3269.7046.85/14.5034.05/9.9130.46/8.7337.59/9.6125.14/6.6321.83 /6.29表3.训练/验证上的不同加权策略和输入模式来自[3]。我们报告我们的AP指的是2D探测、鸟瞰除了官方的IoU阈值0.7之外，我们还报告了更软的阈值0.5。图7.在具有不同播种的多次运行中，使用给定的2D RoIX进行受控提升损失实验。上图：优化过程中在相机和鸟瞰图中可视化F（X）底部：每个提升分量的梯度幅度，在所有运行中平均。我们参考补充完整的动画。损失和输入数据我们在训练/验证[3]中使用不同的损失和数据配置训练网络，以逐步突出我们的贡献。在表3的前两行中，我们使用单独的回归项进行训练，而不是使用提升损失。而第一行显示了F的所有项的均匀加权的结果（类似于 Xu 等人的方法）。[41]），第二行显示了Kendall等人的自适应多任务加权训练。[21]第20段。有趣的是，我们无法看到自适应加权的改进。我们认为这是因为每一项的大小根本不可比：虽然（x，y）质心在RoI归一化的图像坐标中移动，但深度z是度量的，前图8.根据地面真实分裂分布回忆方向和深度。显然，模型性能和样本分布之间存在很强的相关性。综合增强代表性不足的箱导致总体上更好的结果。tents（w，h，l）是平均范围的标准偏差的倍数，旋转q在4D单位球面上移动。除了数值大小之外，任何关于实际3D实例的不知情加权都无法正确评估相对重要性，因此将苹果与橘子进行我们的公式（第4行）避免了这些问题，并且在所有指标上都是平等或更好的。表3还呈现了没有单眼深度的训练变体的结果（第3行）以及我们的方法使用没有合成增强的深度（第4行）和具有合成增强的深度（第5行）的结果。没有深度线索的结果显然更糟，但我们仍然得到了鸟瞰图和3D AP的可观数字。不幸的是，我们的积极的3D-NMS放弃了一些正确的解决方案，因为错误的回归重叠的z值，减少了我们的2D AP显着。我们的合成数据训练显示出很强的即时性-2077图9.测试集（左）和验证集（右）的定性结果。值得注意的是，我们只训练了火车分裂，以确保我们从来没有看到任何这些图像。对于验证样本，我们还用红色描绘了地面真实姿势。为了正确估计姿势的准确性，我们还绘制了鸟瞰由于我们减少了旋转数据样本的不平衡，因此证明了姿势度量。通过检查2D AP的下降，我们意识到我们设计的增强是无遮挡的，以避免与环境的不切实际的交叉。反过来，这导致了强遮挡实例的较弱表示和另一个引入的偏差。我们还在图9中显示了一些定性结果。5. 结论我们提出了一种单目深度网络，可以在3D中提升2D检测，以进行度量准确的姿态估计和形状恢复，直接优化新的3D损失公式。我们发现，最大化6D姿态估计的端到端3D对齐会带来非常好的结果，因为我们优化了我们所寻求的数量。我们对KITTI3D中的姿态分布进行了深入的分析，以及如何利用这些信息与恢复的网格进行合成数据增强。我们发现这种反射非常有帮助，对改善姿势非常重要。电话然而，在2D和3D中的非最大值抑制对最终结果是一个主要影响，并且在未来的工作中也应该加以解决。引用[1] Hassan Abu Alhaija ， Siva Karthik Mustikovela ， LarsMescheder，Andreas Geiger，and Carsten Rother.增强现实与计算机视觉的结合：城市驾驶场景的高效数据生成。国际计算机视觉杂志，126（9）：961[2] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。CVPR，第95-104页[3] Xiaozhi Chen ， Kaustav Kundu ， Ziyu Zhang ， HuiminMa，Sanja Fidler，and Raquel Urtasun.用于自动驾驶的单目三维物体检测。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。2078[4] Xiaozhi Chen ， Kaustav Kundu ， Yukun Zhu ， AndrewBerne-shawi ， Huimin Ma ， Sanja Fidler ， and RaquelUrtasun.用于精确对象类别检测的3D对象建议。在第28届神经信息处理系统国际会议的开幕式上-第1，NIPS，第424麻省理工学院出版社.[5] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEECVPR，2017年。[6] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。 IEEE计算机视觉与模式识别会议（CVPR），2016年。[7] Zhuo Deng和Longin Jan Latecki。3D对象的非模态检测：从rgb深度图像中的2d边界框推断3d边界框。在计算机视觉和模式识别会议（CVPR），2017年。[8] Alexey Dosovitskiy 、 German Ros 、 Felipe Codevilla 、Antonio Lopez和Vladlen Koltun。卡拉：一个开放的城市驾驶模拟器。在第一届机器人学习年会论文集，第1-16页[9] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统的进展，第2366-2374页，2014年[10] A Gaidon，Q Wang，Y Cabon和E Vig。虚拟世界作为多目标跟踪分析的代理。在CVPR，2016年。[11] Ravi Garg ，Vijay Kumar BG ，Gustavo Carneiro ，andIan Reid.用于单视图深度估计的无监督CNN：几何学拯救了我们。在欧洲计算机视觉会议上，第740-756页。施普林格，2016年。[12] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在计算机视觉和模式识别会议中，2012年。[13] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在CVPR，第2卷，第7页，2017年。[14] 放大图片作者：Peter M. Roth和Vincent Lepetit野外物体的三维姿态估计和三维模型检索。在IEEE计算机视觉和模式识别会议论文集，2018。[15] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面罩R-CNN。在2017年国际计算机视觉会议（ICCV）上[16] S. 欣特施托伊塞尔河谷Lepetit，S.Ilic，S.Holzer，G.布拉斯基K. Konolige，和N.纳瓦布基于模型的训练，检测和姿态估计无纹理三维物体在严重混乱的场景。2012年亚洲计算机视觉会议。[17] Stefan Hinterstoisser，Vincent Lepetit，Paul Wohlhart，and Kurt Konolige.关于用于深度学习的预训练图像特征和合成图像CoRR，abs/1710.10710，2017。[18] 放大图片作者：Angjoo Kanazawa，Shubham Tulsiani，Alexei A.埃弗罗斯和吉坦德拉·马利克从图像集合学习特定类别的网格在ECCV，2018。[19] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在IEEE计算机视觉和模式识别会议论文集，第3907- 3916页[20] Wadim Kehl ， Fabian Manhardt ， Federico Tombari ，Slobo- dan Ilic，and Nassir Navab. Ssd-6d：让基于rgb的3d检测和6d姿态估计再次变得强大。2017年10月在IEEE计算机视觉国际会议（ICCV）上发表。[21] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何和语义损失的多任务学习。在IEEE计算机视觉和模式识别会议（CVPR），2018年。[22] Jason Ku 、 Melissa Mozifian 、 Jungwook Lee 、 AliHarakeh和Steven Waslander。从视图聚合的联合3d建议生成和IROS，2018年。[23] Abhijit Kundu，Yin Li，and James M.瑞格3d-rcnn：通过渲染和比较进行实例级3d对象重建。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。[24] 易离，顾望，向阳季，于翔，迪特尔福克斯。Deepim：深度迭代匹配6D姿态估计。在欧洲计算机视觉会议（ECCV），2018年9月。[25] 林宗义、杜拉拉、葛希克、何开明、哈里哈兰、贝隆吉.用于对象检测的特征金字塔网络。在CVPR，第1卷，第4页，2017年。[26] Tsung-YiLin ， Priyal Goyal ， Ross Girshick ， KaimingHe，and PiotrDoll a'r. 密集目标检测的焦面损失。IEEE关于模式分析和机器智能的交易，2018。[27] Rosanne Liu 、 Joel Lehman 、 Piero Molino 、 FelipePetroski Such 、 Eric Frank 、 Alex Sergeev 和 JasonYosinski。卷积神经网络和coordconv解决方案的有趣失败。CoRR，abs/1807.03247，2018。[28] William E. Lorensen和Harvey E.克莱恩移动立方体：一种高分辨率三维表面构造算法。在1987年美国纽约州纽约市 SIGGRAPH′ 87 第 14 届计算机图形和交互技术ACM。[29] Reza Mahjourian，Martin Wicke，and Anelia Angelova.基于3d几何约束的单目视频深度和自运动的无监督学习在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。[30] Fabian Manhardt ， Wadim Kehl ， Nassir Navab ， andFederico Tombari.rgb中基于深度模型的6d姿态细化。在欧洲计算机视觉会议（ECCV），2018年9月。[31] Arsalan Mousavian、Dragomir Anguelov、John Flynn和Jana Kosecka。使用深度学习和几何学的3D边界框估计2017年IEEE计算机视觉和模式识别会议（CVPR），第5632-5640页，2017年。[32] Adam Paszke，Sam Gross，Soumith Chintala，GregoryChanan，Edward Yang，Zachary DeVito，Zeming Lin，Al-2079班·德梅森卢卡·安提加亚当·勒勒。pytorch中的自动微分。在NIPS-W，2017年。[33] 苏迪普·皮莱，拉雷斯·安布鲁斯，阿德里安·盖东。超深度：自我监督，超分辨率单眼深度估计，2018年。[34] 马赫迪·拉德和文森特·莱佩蒂特Bb8：一种可扩展的、准确的、对部分遮挡鲁棒的方法，用于预测具有挑战性的对象的3D2017年10月在IEEE计算机视觉国际会议（ICCV）上发表。[35] Mahdi Rad ， Markus Oberweger ， and Vincent Lepetit.feature- ture mapping for learning fast and accurate 3d poseinference from synthetic images.在IEEE计算机视觉和模式识别会议（CVPR），2018年。[36] 任少卿、何开明、罗斯·格尔希克、孙健。更快的R-CNN：用区域建议网络进行实时目标检测。神经信息处理系统（NIPS），2015年。[37] Bugra Tekin，Sudipta N. Sinha和Pascal Fua。实时无缝单镜头6d物体姿态预测。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。[38] 恩德雷·韦兹菲尔德Sur le point pour lequel la sommedesdistancesdenpointsdonn e'sestminimum. 东北数学杂志，第一辑，43：355[39] Yuxin Wu和Kaiming He。组归一化。在CVPR，2018年。[40] Yu Xiang，Tanner Schmidt，Venkatraman Narayanan，Dieter Fox. Posecnn：一种卷积神经网络，用于在杂乱场景中进

下载后可阅读完整内容，剩余1页未读，立即下载