路边感知数据集-Rope3D：用于自动驾驶和单目3D物体检测任务的高多样性数据

145 浏览量更新于2023-10-25 收藏 2.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

21341Rope3D：用于自动驾驶和单目3D物体检测任务的路边感知数据集叶小青1*毛舒1李涵宇1施易峰1李莹莹1王广杰2肖谭1 <$丁二瑞11百度公司2中国矿业大学摘要用于自动驾驶的并发感知数据集主要限于安装在车辆上的传感器的正面视图。它们中没有一个是为被忽视的路边感知任务而设计的。另一方面，从路边摄像头捕获的数据比前视图数据更有优势，这被认为有助于实现更安全，更智能的自动驾驶系统。为了加速路边感知的进展，我们从一个新的角度提出了第一个具有高多样性挑战的路边感知3D数据集-Rope 3D该数据集由各种场景中的5万张图像和超过150万个3D对象组成，这些图像和对象是在不同的设置下捕获的，包括具有模糊安装位置、相机规格、视点和不同环境条件的各种相机。我们进行严格的2D-3D联合标注和全面的数据分析，并建立了一个新的3D路边感知基准与度量和评估devkit。此外，我们调整现有的前视单目3D目标检测方法，并提出利用几何约束来解决由各种传感器、视点引起的固有我们的数据集可以在https://thudair.baai.ac.cn/rope上找到。1. 介绍自动驾驶在帮助减少交通事故和提高运输效率方面发挥着至关重要的作用。目前的感知系统主要为移动车辆配备LiDAR或相机传感器。由于车辆的运动，车辆感知系统不能长时间观察路面。此外，由于安装的传感器相对较低（通常在车辆顶部），因此感知范围相对有限，并且容易受到遮挡。相反，从道路采集的数据-*表示同等贡献†小谭（tanxchong@gmail.com为通讯作者）（（（图1.（a）正面视图和（b）具有俯仰角的路边摄像机视图的比较。汽车视图更多地关注前方区域，而路边摄像头则以长时间和大范围的方式观察场景。在正面视野中，车辆很容易被较近的物体遮挡，但在路边视野中，这种风险更小。例如，对于汽车视图（a），白色面包车被黑色吉普车遮挡，而在路边视图（b）中，它们都是可见的，对应于（c）中的白色和粉红色3D框。三角形标记表示相同的安装有LiDAR的车辆。侧面摄像机在对遮挡和长时间事件预测的鲁棒性方面具有其固有的优势，因为它们是从安装在离地面几米的杆上的摄像机收集的。两种不同的数据视图之间的比较如图所示。1.一、路边感知的重要性如下：（ 1 ）合作自主驾驶（AD）。由于盲点，AD仍然面临安全挑战和不受控制的威胁。相反，路边视图可以覆盖盲点，因为它比汽车视图有两个额外的优势：一个是远程全局视角，可以在空间和时间上扩展车辆21342安全为代价的例如，在停放的车辆后面行走的行人可能突然撞上移动的车辆，因为车辆传感器由于有限的感知范围或严重的遮挡而无法检测到环境中的突然变化相反，路边视图能够及时地进行预测（2）全球感知。在现有的汽车视图数据集中，更近的物体会遮挡（即使使用360个多亏了安装在头顶上的路边摄像机，这片看不见的区域现在可以看到了。此外，自动驾驶汽车（AV）可以被告知选择一个更快的车道时，有一个死车在队列中，因为路边的看法认为全球。(3)很划算。在成本方面，值得通过协作感知和成本效益来确保安全，因为来自路边摄像头的信息可以广播到周围的所有(4)智能交通控制。路边感知还有助于智能交通控制和流量管理。路边感知系统在促进更安全和更智能的自动驾驶系统方面的关键贡献已在许多作品中得到认可[8，34，41]。然而，现有的路边感知能力的研究只集中在2D任务，如2D检测和跟踪，3D定位的能力仍然是欠开发[29，30，39]。在这项工作中，我们专注于单目3D检测，从一个单一的图像定位在3D空间中的对象虽然已经发布了丰富的感知数据集来推动从车辆角度来看自动驾驶的发展，例如KITTI [12]，nuScenes [5]，A*3D[32]和Waymo [38]，它们都不是专门为被忽视的路边3D感知任务而设计的。因此，我们发布了第一个大规模的高多样性 ROadside Perception 数据集（ Rope3D），希望弥合这一差距。与现有的车辆视图数据集相比，路边感知数据可以在三个方面不同。首先，由于各种摄像机规格，如不同的视角俯仰角，安装高度以及各种路边环境，模糊性无处不在第二，由于路边摄像机安装在杆上而不是在前视图中安装在车辆的顶部上，因此摄像机的光轴平行于地面的假设第三，由于路边感知系统的大得多的可感知范围，期望在路边视图中观察到更多数量的对象，从而增加感知系统的密度和难度。所有这些差异阻止了直接应用大多数现有的3D检测方法。因此，我们tail-lor现有的单目3D物体检测方法的路边应用。概括起来，我们的贡献如下：• 我们将呈现第一条具有挑战性的高多样性道路-被称为“Rope 3D”的侧数据集• 我们专门定制了当前的正视单目3D检测方法来处理路边视图数据，并进行了全面的研究与新的3D检测指标，特别是路边的3D检测任务，希望能够促进路边场景中的单目3D感知任务的发展2. 相关工作2.1. 前视自动驾驶数据集近年来，由于大量的大规模交通场景数据集，自动驾驶技术取得了很大的进展。[2，10，11，17，26，32，44]作为一个pion-neer工作，KITTI [12]提供了多模态数据，并为各种任务打开了一个排行榜。虽然来自LiDAR的原始点云在收集车辆周围360mm，但注释仅在相机的重叠前视图为了解决这一限制，本田研究所3D数据集（H3D）[31]提供了总共110万个3D框，可以加速全环绕多目标检测和跟踪。nuScenes [5]中引入了另一个360个视图的多模态3D检测数据集，在1000个场景中提供了超过 140 万个带注释的 ApolloScape 和ApolloCar3D [16，37]专注于像素语义分割任务，包括场景解析，3D汽车实例，车道分割任务。Argoverse数据集[7]设计用于车辆感知任务，如3D跟踪和运动预测。Waymo开放数据集[38]由城市和郊区场景中的1000多个场景和12M 3D盒子组成，在各种天气和照明条件下。虽然上述数据集推动了自动驾驶的创新，但它们都是为车辆视图感知而设计的。然而，目前还缺乏一个数据集来帮助我们有效地进行研究的三维定位下，路边监控摄像头。一个相关的工作来自BoxCars [36]，它通过估计图像上3D边界框的投影顶点而不是真实世界的位置、大小和方向来执行细粒度的车辆识别另一项当代工作[49]关注基于LiDAR的3D检测任务。我们的路边3D数据集和以前的AD数据集之间的比较列于表1。2.2. 单目3D目标检测虽然具有挑战性，但基于单眼的3D检测仍然是一种有吸引力的解决方案，特别是在自动驾驶21343图2.在不同天气和条件下采集样品的例子。从左到右，每一列分别对应晴/晴、雨、夜和黎明/黄昏。更多的样品可以在补充材料中找到。视图数据集RGB帧场景LiDAR信道3D盒2D盒RGB决议CLS年雨多样性晚上黎明范围（m）KITTI [12]阿波罗景观[16][26]第二十六话15k144k个90k22//64646480k70千475千80k001392×5123384×27101920×10801920×10801928×12081920×12001920×12002048×15362048×10241600×9001920×10801920×102088-358201320192019✓7042070[17]第十七话46k366401.3M092019/正面A2D2 [13]阿尔戈斯[7]H3D [31]A*3D [32][11]第十一话12千22千27.7千39k5k/113160/115016326464否993K1M230k27k00000381587820192019201920202020✓✓✓✓100200100100150nuScenes [5][38]第三十八话[27]第二十七话1.4M230k7M100011501M3264401.4M12M417k09.9M02345202020202021✓✓✓✓✓✓✓7575200路边[36]第三十六话我们116k50k13726没有40/300116k1.5M0670K∼128×1281920×10806122018/✓✓✓/200表1. 3D AD数据集的比较。顶部和底部分别表示前视图和路边视图数据集。LiDAR通道是指LiDAR激光的光束编号。2D框编号表示仅具有2D框注释的框。表示未知信息。（†）：没有激光雷达传感器来获取地面实况，使用立体声代替。（注）：对于BoxCars116k数据集，仅提供投影的八个角点，而不是3D边界框。换句话说，3D边界框的位置、尺寸和方向是未知的。此外，仅提供约128×128的裁剪图像，而不是完整图像。系统，其中该方法从单个图像预测3D边界框[1，9，18单目3D检测方法可以分为三类。(1) 基于锚点。这一类别中的方法利用一系列具有称为“锚”的位置的预定义3D边界框，M3 D-RPN [3]利用3D区域建议网络以及2D和3D视角的几何约束来直接回归3D位置和大小。Kinematic 3D [4]通过利用单眼视频的3D运动学来进一步扩展M3 D-RPN，以改善整体定位。（2）基于关键点。已经进行了许多尝试[23，25，33，40，50]来直接回归关键点，然后通过优化从关键点的图像位置估计3DRTM-3D [21]和MonoGR-Net [33]。（3）基于伪激光雷达/深度。采用额外的深度估计模块和/或点云引导开创性的工作伪激光雷达[42，43，47]模仿了基于LiDAR的方法通过利用现成的深度估计器将图像像素转换为伪LiDAR点云，并采用基于LiDAR的方法进行进一步检测。DA-3Ddet [46]将来自基于非声音图像的伪LiDAR域的特征调整为可靠的LiDAR域，用于指导以提高单目性能。Ur-banNet [6]利用城市3D地图，包括驾驶车道、海拔和坡度作为辅助3D检测任务的先验。现有的单目三维检测方法主要是针对车辆视图数据的处理而设计的。由于领域差距和分布变化，自然提出的问题是这些方法是否仍然适用于路边应用，如果不适用，我们如何能够将这些方法调整到新的场景。3. 路边感知数据集3.1. 规格传感器设置。路边的数据收集是由两组传感器进行的，一组是安装在路边的摄像头21344×∼≤±另一种是安装在停放/行驶车辆上的LiDAR，用于获取同一场景的3D对于传感器同步，我们采用最近的时间匹配策略，找到图像和点云的对在5毫秒的误差。• 路边摄像头：RGB1920 1080分辨率，30- 60 Hz捕捉频率和1/1.8• 激光雷达：（1）和赛Pandar 40 P，40束激光，10/20 Hz捕获频率，2cm精度，360毫米视场，-25毫米+15毫米垂直视场，200米范围。(2) Innovative的Jaguar Prime：300束，6-20 FPS，精度±3cm，水平FOV100mm，垂直FOV40mm，范围≤280m坐标系和校准。数据集中使用了三种坐标系：世界坐标（即，通用横轴墨卡托坐标系（UTM坐标）），相机坐标，以及Li-DAR坐标。为了获得可靠的地面真值2D-3D联合注释，需要在不同传感器之间进行校准。首先对摄像机进行标定，通过检测棋盘图案获得本征函数然后通过车辆定位模块进行Lidar-to-World标定，得到UTM坐标下的高清地图。对于World-to-Camera校准，我们首先将包含车道和人行横道端点的HD地图投影到2D图像上以获得原始变换。束调整细化之后，得到最终的transformation。然后，激光雷达到相机的变换可以通过简单地乘以激光雷达到世界和世界到相机的变换来获得。在获得三个坐标系之间的变换之后，我们可以通过将地面点[x，y，z]拟合到相机坐标中的地平面来容易地计算地面方程 G （ α ， β ， γ ， d ），其中αx+βy+γz+d= 0。3.2. 数据收集和注释在获得本征函数以及LiDAR到相机的转换之后，我们可以收集2D-3D数据。我们选择各种路边摄像头，让配备激光雷达的车辆停放或行驶。为了保持真实环境的高度多样性和复杂性，我们在不同时间采集了超过50 k帧的图像（白天、夜晚、黎明/黄昏），不同的天气条件（晴天、多云、雨天），不同密度交通量的不同分布等，共划分出13个对象类，并给出了它们相应的类别、二维属性和空间属性（遮挡，截断）和7-DOF 3D边界框：位置（x，y，z），大小（宽度-W，长度-L，高度-H），方向（航向角-θ）。完整的流水线如图所示3 .第三章。（1）首先，在获得3D点云和2D图像（它们在相同的空间，但不同的观点），我们首先注释的三维边界框直接在三维点云。(2) 同时，注释的3D边界框将被投影在2D图像平面上，参见图3（c）的顶部。我们调整3D参数，使投影点与2D实例对齐，并主要覆盖它。（3）对于2D框标注，如果物体被激光扫描，则其在图像中的2D框标签是8个3D角的非模态投影的最小边界框对于被严重遮挡或太远而无法被激光检测到的对象，进行2D互补标记以直接在图像中标记2D边界框并将其3D注释留空，参见图3（c）的底部。3.3. 统计与分析由于俯仰角、高度、摄像机类型以及多种场景的不同设置，所采集的图像具有高度多样性和固有的模糊性。数据集采用两级分类粗粒度级别主要关注最常见的交通元素：汽车、大型车辆、行人和骑自行车的人。Car包括轿车和厢式货车，Big Vehicle又可分为卡车和客车，Cyclist又可分为自行车、摩托车、手推车和三轮车，因为他们驾驶的是非机动车。我们已经注释了13个类，除了上述类别之外，还有四个额外的类：“交通锥”，“三角板”，“未知-不可移动”，“未知-可移动”。下面的统计数据主要是关于粗粒度类和细粒度类的.数量分布。我们首先在图4中给出关于2D和3D对象的数量的数据集的概述分析。如前所述，2D对象比3D对象更多，因为有些对象没有被LiDAR激光扫描，所以它们只有2D注释。我们给出了对应于图（a）和（b）的类别的粗层次和细粒度层次4.第一章深度分布。此外，我们在图5中分析了粗类别的深度分布。捕获的3D物体的深度范围可以从10米到超过140米。大多数物体位于60到80米之间。密度的密度可能是影响3D感知能力的关键因素。因此，我们从图6中的两个方面分析数据集的密度。从全局水平，我们在（a）中示出了每个图像的2D和3D注释数量样品可以多达一百多与密度为KITTI [12]：5.3，nuScenes [5]：9.7和A*3D [32]：5.9的其他数据集相比从粗略类别的角度来看，每帧3D样本的数量如图6（b）所示。“汽车”类别的密度分布相对均匀，而每张图像中的大型车辆不到10辆21345车大型车辆步行自行车运动员激光雷达汽车本地化激光雷达全球校准3D标签对准监控摄像头激光雷达-摄像机校准投影离线校准内部函补充2D标签(a) 数据采集（b）对准和校准（c）2D-3D关节注释（d）可视化图3.数据采集和标记管道。我们的平台将捕获的路边图像和安装在停放/行驶车辆上的LiDAR扫描的点云作为输入。在各种传感器之间的校准和对准之后，获得LiDAR、世界和相机之间的变换，以及地平面方程和本征函数。通过将点云投影到图像上并手动调整3D边界框以适合2D实例来执行2D-3D关节注释。对于未被激光扫描的物体，仅在图像上执行2D互补标记例如，在（d）中，由于缺少3D点，一些107106105104103102101100106105104103102101100车大型车辆行人骑单车者总数(a) 总计和每个粗略类别的注释编号1051041031021011001051041031021011000 102030405060708090 100110120(a) 每个图像的注释数量（密度）汽车大型车辆行人骑自行车5 10 15 20 25 30(b) 每个类别的（b）细粒度类别的注释数量图4.数量：（a）粗级，（b）细粒级。图6. Top：每个图像的注释对象总数。底部：每个图像的粗略类别3D对象的数量。4035302520151050204060 80 100 120 ≥140深度范围[m]图5.粗分类的深度分布。100806040200车大型车辆行人骑车人occ_0occ_1occ_2trunc_0trunc_1trunc_2遮挡和截断分析。接下来，我们为遮挡和截断属性标注三个级别。对于闭塞，0级表示无闭塞，1级和2级表示小于/大于50%闭塞。对于截断属性，级别0表示没有截断，1和2表示图像边界中的水平和垂直截断统计数据如图所示7 .第一次会议。一半以上的物体被部分或严重遮挡，而KITTI的遮挡百分比为图7.粗分类的遮挡和截断分布。超过一半的物体被部分或严重遮挡。5%到30%之间，这反映了我们的3D感知数据集和任务的难度。歧义分析。路边数据集具有固有的模糊性，这是由于所采用的各种摄像机具有不同的摄像机规格、安装高度、三维二维三维二维注释%Number项罪名Number项罪名Number项罪名Number项罪名百分比%21346Σ。ΣΣ∆S| |S∗SSΣ。ΣΣ∆^联系我们S2平均精度指标（AP |R将物体中心点投射到地平面上：201006.16.67.1高度[m]7.68.1ACS= 1|D|s∈D1分钟C1，sCs（二）30201009 10 11 12 13 14 15俯仰角[度]302010021003000其中，D是真阳性样本的集合，Cs是GT地面中心的范数，ωc是样本s的预测地面中心与GT地面中心之间的欧几里得距离。D是真阳性对象的总数。平均方向相似性。引入平均方向相似性（AOS）来衡量方向估计的程度，其定义类似于[38]，11 + cos. 2∗∆θΣ|D|s∈D焦距[像素] fx fy图8.路边摄像头的多样性。从上到下分别是安装高度、相机的俯仰角和焦距在数据集上的分布。因此，我们分析了图1中背景的多样性分布。8.其中，θ是样本s的角度差，并且cos（2θ）意味着在评估过程中，我们不区分对象的头部或尾部是否面向相机。平均区域相似度。我们测量预测的地面发生率w.r.t GT的面积，其中ΔA是绝对面积差，A s是地面真实面积。4. 任务和任务4.1. 任务概述和指标。AAS= 1|s ∈D|s∈D1分钟一1，sAs（四）任务概述。单目3D感知任务是定位在各种设置和场景下捕获的给定模糊图像的对象，包括不同的相机规格、视点和安装位置。四个地面点的平均距离和相似性。我们还计算3D边界框（AGD）的四个地面顶点的平均距离，因为它将位置，方向和宽度/长度合并在一起。评估指标。有多个评估指标11）和平均方位a-1Σ。1K−1GGs∈Dg=0（五）对于AD数据集。在KITTI [12]中，11点插值AGD=|D|K|S-s^|相似度（AOS）被提出来评估本地化，和定向性能。[35]第40话回忆而不是11个职位，以更公平的比较，儿子nuScenes [5]将平均AP和五种真阳性（TP）错误类型合并到nuScenes检测中其中sg和sg是第g个预测地面点和GT地面点的样本，分别。K= 4是总数量地面点。与其他类似情况一致-rics，我们将AGS（地面点相似性）定义为：1Σ。.1K−1|s−s^|ΣΣ我们采用AP |R-40 [35]，即，1个亚太地区|=ma xρ（r）R假设S=（ACS+AOS+AAS+AGS）/4，我们通过重新加权3D AP合并到Rope评分中，|R|r∈Rr：r≥r（一）所提出的相似性度量具有ω1=8和ω2=2。绳索评分=（ω1AP+ω2S）/（ω 1+ω 2）（7）其中ρ（r）是在一定查全率阈值r 1/40，2/40，...时的查准率，1.一、为了便于全面评估w.r.t. 例如定向的某个因素，我们将合并度量分解为若干子度量。平均地面中心相似性。地平面上物体之间的距离表明了碰撞的风险，因此我们通过pro-e 计算地面欧氏距离。百分比/ %百分比/ %百分比/ %AOS=（三）评分（NDS），包括翻译、量表、方向、速度和属性错误类型。受AP指标的启发，AGS= |D|s∈D1分钟1、Kg=0G|c|G.（六）.213474.2. 3D路边感知任务如图所示，SEC。1，由于由不同的摄像机规格（各种内在和安装位置等）引起的路边数据现有的正视单目3D目标检测方法不能直接应用于Rope 3D数据集。因此，21348电子邮件：info@martina.comX，Y，Z，1G= 0|×我们通过利用摄像机规范和对基础知识进行编码来进行简单而有效的尝试以减轻歧义问题。进行了两种修改（早期融合和深度融合）以将地平面的深度图与RGB图像和两种类型的地平面（集成和多网格）结合以减轻多焦点模糊。通过利用地平面进行调整采用地平面方程G（α，β，γ，d）和摄像机固有参数K3×3，生成与图像大小相同的地平面深度图DG。.Z<$x，y，1<$T=K3×3<$X，Y，Z<$T其中[x，y]是图像坐标中的像素，[X，Y，Z]是位于地平面上的相机坐标中的对应3d点。因此，深度Z可以由已知的2d图像点和地平面方程G导出。通过早期融合和深度融合将地表深度图与RGB外观特征相结合。第一种方法是直接将深度图与原始RGB通道连接作为输入，第二种方法是采用另一种连体网络进行深度特征提取，并进一步对两种深度预测进行加权融合。这两种方法的性能相似，因此我们仅报告了基于锚点的M3D-RPN和基于关键点的MonoDLE和MonoFlex方法的级联结果。我们相信，更巧妙的方法可能会进一步提高性能，这超出了本文的范围。此外，还尝试了两种不同形式的接地层。一种是将视野内的整个地面拟合到单个平面，该平面由地平面方程表示另一种是将整个地面划分为多个小网格，每个网格由地面方程表示。5. 实验5.1. 实验装置我们的路边3D感知数据集包含5万张图像，训练和验证比例设置为8：2。我们提供了两种分割训练和验证集的方法，I：Homol- ogous，对于每个场景，我们选择70%的图像并将它们组合用于训练，并将所有剩余的图像用于验证。II：异质性，我们选择80%的相机与收集的图像进行训练，剩下的20%（不同的相机规格）用于验证，这可以用于验证单目3D对象检测方法的泛化能力。实施细节。（1）对于M3 D-RPN [3]，我们使用ResNet34[14]主干，（2）Kinematic3D [4]是一个基于单目视频的3D对象检测器，具有DenseNet121 [15]主干，我们仅在没有视频知识的情况下实现第一阶段(3) MonoDLE [25]基于无锚单级检测器CenterNet [51]和主干DLA 34 [48]。(4)MonoFlex [50]是一种基于关键点的方法，具有修改后的DLA 34 [48]主干。调整训练图像分辨率以适应我们的数据集。对于只包含2D注释而不包含3D注释的对象对于具有3D标记的那些对象，2D和3D的训练损失权重都被设置为1。5.2. 主要结果和分析vanilla和改进方法的性能。单目3D检测方法在Rope3D数据集上的性能如表2所示。带后缀（G）的方法表示我们定制具有地平面功能的相应方法，以即使在相机的光轴由于俯仰角而不平行于地平面时也重新连接3D位置和2D投影点。改进的方法用后缀（D）表示。我们采用三维APR40以及建议的metrics进行评估。我们发现，大多数方法有一个明显的性能下降，从同源的heter-erroneal验证集。然而，当将在车辆视图ONCE数据集上训练的3D检测模型应用于nuScenes数据集时，性能下降是微不足道的[27]。这一现象表明，不同的摄像机规格和安装位置所造成的磁畴间隙不能可以忽略，这可能是车辆视图和路边视图应用之间的可区分的差异，并且应该小心对待。通过利用地平面的深度图，我们观察到大多数方法都有明显的改进，即使在训练集和验证集具有不同相机规格的异源集上也是如此。不同接地层格式的性能进一步分析了采用两种不同的接地层形式，通过将视野内的整个地面拟合到单个平面或通过将整个地面分段地划分为多个5m 5m网格。我们对KM3D [20]进行了实验，这是一种通过最小化重新投影误差来预测2D关键点并求解3D位置的方法。换句话说，它依赖于利用可微几何约束恢复三维位置，而不是直接预测，这在很大程度上取决于地平面的精度。如表3所示，KM 3D-（GG）利用网格接地层，在大多数细粒度类别上显示出更好的性能。主要原因可能是分段网格化的平面更适合实际的地平面.不同范围的性能。我们进一步分析了模型在0到120 m不同范围内的性能。如表4所示，随着深度范围的增加，大多数性能下降，特别是对于（八）21349设置方法骨干分支IOU车AP 3D |R40绳分= 0.5大AP 3D|R40车辆绳分CaAP3D |R40IOUR绳分= 0.7大AP 3D|R40车辆绳分M3D-RPN-（G）[3]ResNet34一54.1962.6533.0544.9416.7532.906.8624.19M3D-RPN-（D）[3]ResNet34一67.1773.1439.0649.9533.9446.4511.2828.12我Kinematic3D-（G）[4][25]第二十五话DenseNet121DLA-34一K50.5751.7058.8660.3637.6040.3448.0850.0717.7413.5832.9929.466.109.6322.8825.80美国（D）[25]DLA-34K77.5080.8449.0757.2254.5362.4817.2532.00[50]第五十话DLA-34K60.3366.8637.3347.9633.7846.1210.0826.16[50]第50话DLA-34K59.7866.6659.8166.0735.6447.4324.6138.01M3D-RPN-（G）[3]ResNet34一21.7536.4021.4935.496.0523.842.7820.82M3D-RPN-（D）[3]ResNet34一36.3348.1624.3937.8111.0928.173.3921.01IIKinematic3D-（G）[4][25]第二十五话DenseNet121DLA-34一K23.5619.0837.0533.7213.8519.7628.5833.075.823.7723.0621.421.272.3118.9219.55美国（D）[25]DLA-34K31.3343.6823.8136.2112.1628.393.0219.96[50]第五十话DLA-34K32.0144.3713.8628.4710.8627.390.9718.18[50]第50话DLA-34K37.2748.5847.5255.8611.2427.7913.1028.22表2.在两种训练值分裂设置下，Rope 3D数据集上的单目3D物体检测方法的总体性能，IoU = 0.5和0.7：同源（I）和异源（II）。-（G）表示调整地平面，-（D）表示使用地面的深度图。abbr.表示：A：基于锚点，K：基于关键点。设置方法骨干车van总线AP 3D |R40 [Mod] /绳索评分卡车自行车手摩托车手骑三轮车的人行人我KM3D [20]ResNet348.97/25.097.77/23.798.07/23.894.94/20.591.8117.343.61/19.3414.39 /27.850.37/17.93KM3D-（G）ResNet349.83/26.6013.16 /29.264.19/22.0518.42/32.4011.35 /27.2411.45 /27.2419.13 /33.509.90/26.28KM3D-（GG）ResNet349.86/26.6415.71/31.307.66/24.4812.67 /27.7113.23/28.9415.08/30.1419.97/34.1311.92/27.90IIKM3D [20]ResNet345.89/22.912.91/20.2621.20 /34.3025.86 /37.461.36 17月14日4.67/20.032.40/19.480.29/17.93KM3D-（G）ResNet3417.39 /32.7130.48 /43.2221.25/35.2034.93 /45.8424.98 /38.3014.49 /29.4747.47 /56.7912.61 /28.44KM3D-（GG）ResNet3423.70/37.9031.37/44.0419.99 /34.6137.65/48.3426.38/39.5816.58/30.8254.03/62.4612.81/28.46表3.在两种训练值分裂设置下，Rope 3D数据集上具有不同地平面格式的KM 3D的性能：同源（I）和异源（II）。-（G）表示调整地平面方程，-（GG）表示使用网格化地平面。非机动车和行人IoU = 0.25，机动车IoU = 0.5。6. 结论表4.在异质（II）集合上的不同范围内的性能。我们为汽车/大型车辆设置IoU = 0.5，IoU =0.25为骑自行车和行人，以下KITTI九十到一百二十米。其原因是由于两个方面：图像中的区域太小，无法提取用于学习的强特征，以及由于遮挡而导致的远距离区域中的 3D 注释少得多。MonoFlex-（G）在骑自行车和行人上表现出更好的性能，而在机动车上表现较差。我们提出了第一个具有高多样性挑战的路边单目3D感知数据集-Rope 3D。Rope 3D是从路边视图中采集的，具有联合的2D-3D注释，使其不同于任何先前发布的数据集，并且是专门为路边3D捕获而设计的。此外，由于其独特的视角和各种相机规格和多样化道路场景中固有的模糊性，我们专门针对新数据集定制了现有的我们希望能引起人们对特殊视角--道路侧视角的关注，从而促成一个更安全、更智能的自动驾驶系统。伦理问题和局限性。为了防止被用于非法监视，数据集中的所有图像都是时间离散的，不允许用于跟踪任务。请注意，所有的敏感信息，包括车牌，人脸，公交车站，道路和建筑物的名称完全掩盖。目前的车辆视角三维检测方法还需要进一步的研究。方法范围（m）车AP 3D|R40大型车辆/绳分骑车人行人所有19.08 /33.7219.76 /33.0710.93 /26.443.72/21.420-3031.43 /43.1237.36 /46.6919.83 /33.2810.26 /26.61MonoDLE-（G）30-6010.42 /26.688.68/24.028.11/24.233.90/21.6660-9018.60 /33.4232.46 /44.159.29/25.232.37/20.2890-12011.84 /28.0510.29 /26.099.8425.112.88/20.58所有32.01 /44.3713.86 /28.4744.27 /53.5825.48 /39.040-3015.49 /30.4927.68 /39.1661.94 /67.3737.25 /48.50MonoFlex-（G）30-6045.69 /55.3312.18 /27.4850.70 /58.7835.74 /47.3760-9046.72 /56.4119.34 /33.4530.65 /42.828.94/25.6590-12014.19 /30.151.30/18.829.43/25.204.79/22.35所有36.33 /48.1624.39 /37.8111.22 /27.543.93/21.540-3052.07 /60.6024/37/1816.77 /31.805.19/22.53M3D-RPN-（D）30-6033.57 /46.3025.22 /38.8414.38 /30.368.09/24.9921350引用[1] Yousef Atoum ， Joseph Roth ， Michael Bliss ， WendeZhang，and Xiaoming Liu.使用多路复用器卷积神经网络的基于单目视频的拖车车钩检测InICCV，2017. 3[2] Apratim Bhattacharyya ， Daniel Olmeda Reino ， MarioFritz，and Bernt Schiele.欧洲pvi：密集城市中心的行人与车辆相互作用。在IEEE/CVF计算机视觉和模式识别会议论文集，第6408-6417页，2021年。2[3] 加里克巴西和刘晓明。M3 d-rpn：用于对象检测的单目3d区域提议网络在IEEE计算机视觉国际会议论文集，第9287-9296页三、七、八[4] Garrick Brazil，Gerard Pons-Moll，Xiaoming Liu，andBernt Schiele.单目视频中的运动三维目标检测。欧洲计算机视觉会议，第135- 152页。Springer，2020年。三、七、八[5] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。nuscenes：自动驾驶的多模态数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第11621-11631页，2020年。二三四六[6] 胡安·卡里略和史蒂文·瓦斯兰德Urbannet：利用城市地图进行远程3D物体检测。2021年IEEE国际智能交通系统会议（ITSC），第3799-3806页IEEE，2021。3[7] Ming-FangChang ， JohnWLambert ， PatsornSangkloy ， Jag-jeet Singh ， Slawomir Bak ， AndrewHartnett，De Wang，Peter Carr，Simon Lucey，DevaRamanan，and James Hays.Argo- verse：3d跟踪和预测与丰富的地图。在CVPR，2019年。二、三[8] 齐尘，四海堂，青阳，宋浮。Cooper：基于3D点云的联网自动驾驶车辆的协作感知。2019年IEEE第39届分布式计算系统国际会议（ICDCS），第514-524页。IEEE，2019。2[9] Xiaozhi Chen ， Kaustav Kundu ， Ziyu Zhang ， HuiminMa，Sanja Fidler，and Raquel Urtasun.用于自动驾驶的单目三维物体检测。在CVPR，2016年。3[10] Yukyung Choi，Namil Kim，Soonmin Hwang，KibaekPark，Jae Shin Yoon，Kongghwan An，and In So Kweon.用于自动驾驶和辅助驾驶的Kaist多光谱昼夜数据集IEEE Transactions on Intelligent Transportation Systems，19（3）：934-948，2018。2[11] 尼尔·斯·盖勒特，尼古拉斯·卡丹，马里乌斯·科茨，乌维·弗兰·凯，约阿希姆·登茨勒。Cityscapes 3d：9自由度车辆检测的数据集和基准。 arXiv 预印本 arXiv ：2006.07864，2020。二、三[12] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在2012年IEEE计算机视觉和模式识别上，第 3354-3361 页。IEEE，2012。二三四六[13] Jakob Geyer，Yohannes Kassahun，Mentar Mahmudi，Xavier Ricou

下载后可阅读完整内容，剩余1页未读，立即下载