CountNet3D：一种用于推断遮挡物体计数的3D计算机视觉方法

11 浏览量更新于2023-10-16 收藏 752KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1CountNet3D：一种用于推断遮挡物体计数的三维计算机视觉方法[10]李文辉，李文辉.斯托克顿·詹金斯（StocktonJenkins）、韦德·威尔基（Wade Wilkey）、坦纳·沃茨（TannerWatts）†杨百翰大学，Delicious AI，§犹他大学†pjenkins@cs.by.edu，{sn258，sjenkin2} @ byu.edu电子邮件：{kyle.armstrong，sidd.gotad，wade.wilkey} @ deliciousai.com，§u1090501@utah.edu摘要3D场景理解是近年来经历了很大进展的重要问题，这在很大程度上归因于用于3D对象检测的最先进方法的发展。然而，3D对象检测器的性能可能在存在对象的极端遮挡或对象类的数量大的场景中受到影响在本文中，我们研究的问题推断3D计数从密集的场景与异构对象。这个问题有应用的重要任务，如库存管理或自动作物产量估计。我们提出了一种新的基于回归的方法，CountNet3D，它使用成熟的2D对象检测器进行细粒度分类和定位，并使用PointNet骨干进行几何嵌入。该网络处理来自图像和点云的融合数据，以进行计数的端到端学习。我们在一个新的合成数据集上进行实验，用于零售业的库存管理，我们构建了该数据集并向社区公开。我们的研究结果表明，基于回归的3D计数方法系统地优于基于检测的方法，并揭示了直接从原始点云学习极大地帮助了极端遮挡下的计数估计。最后，我们研究了CountNet3D在存在极端遮挡的真实场景的大型数据集上的有效性，并实现了11.01%的错误率。1. 介绍在三维空间中自动识别和计数密集分布的物体是许多实际应用中的重要问题。能够准确识别和计数物体的系统可用于简化物理过程。例如，在实体零售和库存管理中，知道在任何给定时间货架上有多少产品可能是具有挑战性的任何对产品的审计-图1：3D计数推断问题的示例。(Best通过RGB摄像头和LiDAR传感器，我们捕获了具有被遮挡物体的场景的图像和相应的点云。目标是推断每个细粒度类的总计数。这个问题是具有挑战性的，因为对象是密集的间隔，并极度闭塞。此外，对象可以具有相同的几何形状，但具有不同的类别标签。上面我们展示了一个带有图像的场景，一个2D检测提升到3D的点云，以及我们的PointBeam建议UCT计数必须手动完成，这可能是乏味和耗时的，尤其是当对象类的数量很大时。其他应用可能包括估计农作物产量[41][21]，其中测量员必须覆盖大片农田，并通过采样和插值来推断数量。在这两种情况下，现有的技术不能很容易地用于自动化的任务。30083009在目前的工作中，我们试图自动推断密集间隔的3D对象的计数，并遭受极端遮挡。中的示例见图1一个零售店在许多情况下，对象被一个放在另一个前面，使得仅从视觉输入进行推理变得我们建议将来自图像的视觉信息与来自点云的3D信息融合，用于3D计数的端到端学习。最近，计算机视觉社区已经投入了大量的注意力来推断图像中的对象计数。例如，人群计数是一个研究得很好的问题，有许多强大的方法用于操作单个[14][42][17][44][19]或图像序列[40]。其他工作试图通过快速适应人群来统一对象计数方法，以适应新的领域，如野生动物，车辆[11]和癌细胞[20]。现有的研究主要从2D图像推断计数，并且不能处理诸如点云的3D场景表示。3D计数推断问题具有许多技术挑战。首先，物体被定位在非常接近的位置，并且预期会显著地遮挡更远的物体。我们称之为极端遮挡问题。这样的遮挡使得仅从RGB图像的检测和计数推断都难以处理，因为每个被遮挡对象的显著特征不是清晰可见的。即使简单地应用强大的3D对象检测器也可能由于对象的严重遮挡而产生其次，场景中的对象是异质的，因此需要分类和计数。以前的研究假设图像或场景中的所有对象都属于同一类（例如，所有目标对象都是人）。现实的问题往往涉及分类和计数的对象类别的一个大集合第三，缺乏基准数据集和标记3D数据的高成本在过去一直阻碍着研究这个问题。据我们所知，没有现有的基准数据集存在的3D计数推理问题。在本文中，我们试图用一种新的基于回归的深度学习架构来解决这些问题，我们称之为CountNet3D。我们提出的方法处理来自RGB图像和LiDAR点云的多传感器数据，并输出细粒度的对象计数估计。我们使用成熟的2D对象检测器来识别和定位来自图像的异质然后，我们将点云分割成围绕局部对象的更小的子空间，构建我们所谓的点束。PointBeam建议使用2D边界框的形状，通过将搜索空间减少到已知对象周围的局部我们使用PointNet主干来学习每个PointBeam的几何特征，然后完全预测PointBeam内对象总数的连接层。在我们的实验中，我们将基于回归的方法与最先进的基于检测的计数方法进行了比较，并证明了学习计数端到端大大提高了性能。CountNet3d在我们的测试集上实现了3.9%的年龄误差，与最有效的3D对象检测器相比，误差减少了33.96%。此外，我们比较了建议的 PointBeams 分割点云的全局处理，并发现PointBeams建议通常提高了极端遮挡下的性能。我们在一个名为3DBev 24k的新合成数据集上进行了实验，该数据集包含零售货架上被遮挡物体的LiDAR模拟，该数据集公开提供。最后，我们在一个由7.8k激光雷达扫描零售货架组成的新的真实数据集上评估了CountNet3d，并观察到11.01%的误差，这优于所有其他3D计数方法。我们的主要贡献概述如下：• 我们提出了一种新的，基于回归的框架，用于计算密集间隔的物体在3D中，称为计数-Net 3D• 我们表明，基于回归的3D计数方法优于最先进的3D物体检测器• 我们将CountNet3D应用于现实世界的库存管理问题，并在我们公开提供的模拟LiDAR场景的大规模数据集上进行实验我们还手动收集了7.8k的真实零售货架扫描，并证明CountNet3d优于其他方法。2. 相关工作视觉对象计数在许多领域已经研究了RGB和RGB-D图像的视觉对象计数。从历史上看，人群计数已经受到计算机视觉社区的显著关注[14]，因为遮挡、照明差和透视等问题使其具有挑战性。一般来说，存在两种用于从图像计数对象的主要策略：回归和检测技术。Mardsen等人构建卷积神经网络（CNN）架构，该架构对图像块进行操作以预测局部对象计数，然后使用全局CNN层进行细化以预测总计数[20]。其他技术利用CNN的训练来预测密度图，通过密度图集成产生计数估计[42][17][14]。Zhang等人通过估计3D场景级密度图来解决多视图人群计数问题[40]。其他解决方案依赖于视频[44]和图表[19]。最后，最近的工作解决了密集堆积中的精确目标检测问题。3010SJXX {}S {}C{}J·--X联系我们零售场景[7]，可用于计算2D中的对象。我们的工作的不同之处在于，我们建议使用激光雷达点云直接计算3D物体计数与基于图像的计数相比，3D物体计数的研究相对薄弱。最近的工作提出了一种基于激光雷达的遥感系统，用于对人行道上的行人进行计数[15]。该系统使用手工制作的点云特征和分水岭聚类算法来确定行人数量。其他工作研究了自动作物计数，并提出了一种新的流水线，该流水线依赖于立体图像的3D构造、奇异值分解（SVD）和球面拟合，以实现快速准确的葡萄计数推断[21]。这些研究与当前工作的一个关键区别是，我们试图通过端到端学习直接从点云推断计数。基于点云的深度学习在点云上运行的深度学习体系结构可用于各种任务，包括自动驾驶、3-D对象检测和分类。在许多这些作品中的关键思想是学习原始点云或体素上的特征。PointNet [26]是一种开创性的深度学习架构，它直接在点云上操作，而不必将数据转换为3D体素网格[25]。PointNet++[25]建立在PointNet的基础上，通过局部邻域引入分层特征学习。最近的工作[24，37，22]表明PointNets以及3D查看Frus- tum可以被训练来检测 3D 中的对象重要的是， Frus- tumPointNets假设一个单一的对象位于视锥中，因此不能应用于我们的问题。PointCNN[16]引入了一个卷积运算符来杠杆化网格中密集表示的数据中的空间局部相关性。其他方法，如VoxelNet[43]和PointPillars[13]对点云进行体素化，并对体素执行3D或2D卷积。一般来说，许多其他作品试图构建机制，在原始点或体素上使用卷积运算器[33][34][8][31]。我们的方法与这些方法之间的主要区别是我们使用基于回归的深度学习架构来学习3D中的对象计数3. 问题公式化在下面的部分中，我们正式定义了3D计数推理问题。假设我们有一组n个场景=si：0

下载后可阅读完整内容，剩余1页未读，立即下载