没有合适的资源?快使用搜索试试~ 我知道了~
1联合单目3D车辆检测与跟踪胡厚宁1岁,蔡奇智2岁,王德全3岁,纪林4岁,孙敏1岁,菲利普·Kr henbuhl5岁,Trev orDarrel1岁,FisherYu31国立清华大学2创新创业人工智能研究院3加州大学伯克利分校4麻省理工学院5UT奥斯汀摘要车辆3D范围和轨迹是预测车辆未来位置和基于这些预测规划在本文中,我们提出了一种新的在线框架,从单目视频的3D车辆检测和跟踪。该框架不仅可以随着时间的推移关联运动车辆的检测,而且还可以从在移动平台上捕获的2D图像序列中估计其完整的3D边界框信息我们的方法利用3D框深度排序匹配的强大的实例关联,并利用3D轨迹预测的重新识别闭塞的车辆。我们还设计了一个基于LSTM的运动学习模块,用于更准确的长期运动外推。我们的模拟,KITTI和Argoverse数据集上的实验表明,我们的3D跟踪管道提供了强大的数据关联和跟踪。在Argoverse上,我们基于图像的方法在跟踪30米内的3D车辆方面明显优于以LiDAR为中心的基线方法。1. 介绍自动驾驶激发了当代视觉深度学习研究的许多动力。然而,许多商业上成功的自动驾驶控制方法依赖于广泛的视图和传感器阵列,在推断3D物体轨迹之前重建周围环境的相比之下,人类观察者在从简单的2D图像序列而不是3D点云中感知空间和时间的3D世界方面最近的进展,单目目标检测和场景分割提供了承诺,使低成本的移动性广泛可用。在本文中,我们探索了使用深度神经网络开发类似功能的架构和数据集工作是在胡厚宁、蔡奇智和林吉在伯克利DeepDrive中心的时候完成的图1:3D中的关节在线检测和跟踪。我们的动态3D跟踪流水线预测3D边界框关联的观察到的车辆在图像序列中捕获的单目相机与自我运动传感器。单目3D检测和跟踪是固有的不适定。在缺乏深度测量或强先验的情况下,单个视图不提供足够的信息来准确地估计场景的3D布局在没有良好的布局估计的情况下,跟踪变得越来越困难,特别是在存在大的自我运动(例如,转弯的汽车)。这两个问题内在地交织在一起。鲁棒跟踪有助于3D检测,因为沿着连续帧的信息被集成。准确的3D检测有助于跟踪,因为可以排除自我运动。在本文中,我们提出了一个在线网络架构,以联合跟踪和检测车辆在3D从一系列单目图像。图1提供了我们的3D跟踪和检测任务的概述在检测对象的2D边界框之后,我们利用世界坐标和重新投影的相机坐标来关联跨帧的实例。值得注意的是,我们利用新颖的遮挡感知关联,5390[R|t]的范围内[R|t]的范围内5391和深度排序匹配算法,以克服遮挡和再现问题的跟踪。最后,我们在世界坐标系统中捕获实例的运动,并使用LSTM运动估计沿轨迹更新它们的3D姿态,随着时间的推移整合与实例相关的单帧与任何深度网络一样,我们的模型对数据非常饥渴。我们输入的数据越多,它的性能就越好。然而,经验数据集要么局限于静态场景[41],缺乏所需的地面实况轨迹[26],要么太小而无法训练当代深度模型[13]。为了弥合这一差距,我们求助于现实的视频游戏。我们使用一个新的管道来收集大规模的3D轨迹,从一个现实的合成驾驶环境,增强与每个观察到的场景和对象的动态元数据。据我们所知,我们是第一个解决完整的3D车辆边界框跟踪信息从单目相机的估计。我们基于深度特征跨帧联合跟踪车辆,并估计轨迹的完整3D信息,包括每个对象的位置、被跟踪车辆的深度排序构造了重要的感知线索以降低失配率。我们的闭塞感知数据关联提供了一个强大的先验被遮挡的对象,以减轻身份切换问题。我们的实验表明,与传统的2D跟踪相比,3D信息提高了新帧中的预测关联,并且用帧序列估计3D位置比单帧估计更准确。2. 相关作品在过去的十年中,物体跟踪已经得到了广泛的探索[44,36,39]。早期的方法[4,12,21]基于相关滤波器跟踪对象。最近的基于ConvNet的方法通常建立在预先训练的对象识别网络上。一些通用对象跟踪器完全在线训练,从给定视频的第一帧开始[16,1,19]。一个典型的跟踪器将采样块附近的目标对象被认为是前景和一些较远的补丁作为背景。然后使用这些补丁来训练前景-背景分类器。然而,这些在线训练方法不能充分利用大量的视频数据。Held等人[18]提出了一种基于回归的神经网络离线训练方法,在测试时以100 fps的速度跟踪新暹罗网络也在使用中,包括通过对象验证跟踪[40],通过相关性跟踪[3],通过检测跟踪[11]。Yu等人[43]通过将track-let建模为不同的状态来增强跟踪,并显式地学习用于状态转换的马尔可夫决策过程(MDP)由于缺乏3D信息,它仅使用2D位置来确定轨迹是否被遮挡。所有这些方法都只考虑了2D视觉特征,其中搜索空间被限制在原始图像附近对象的最终位置。这对于静态观察者很有效,但在动态3D环境中会失败。在这里,我们进一步利用3D信息来缩小搜索空间,并稳定目标对象的轨迹。Sharma 等 人 [38]使 用 3D线 索 进 行 2D车 辆 跟 踪 。Scheidegger等人[37]还在3D位置上添加了3D卡尔曼滤波器,以获得更一致的3D定位结果。由于目标是2D跟踪,因此不考虑3D框尺寸和方向。 Osep等人[28]和Liet al. [22]研究了使用立体相机的3D边界框跟踪。由于可以直接感知3D深度,因此任务要容易得多,但在ADAS等许多情况下,大基线立体视觉是不可能的。对象检测从卷积表示的成功中获得了许多好处。有两种主流深度检测框架:1)两步检测器:R-CNN [15],Fast R-CNN [14]和Faster R-CNN [31]。2)一个-步进检测器:YOLO [29]、SSD [24]和YOLO 9000 [30]。我们应用Faster R-CNN,最流行的对象检测器之一,作为我们的对象检测输入。上述算法都依赖于标记图像的分数来训练。在3D跟踪中,这没有什么不同。我们拥有的训练数据越多不幸的是,大量的3D跟踪监控是困难的。近年来,驾驶数据集引起了很多关注。[25]第十三届全国人大常委会第十五次会议审议通过了《中华人民共和国宪法》。BDD100K [47]、NuScenes [5]和Argoverse [6]为视觉里程计、立体重建、光流、场景流、对象检测和跟踪提供了注释良好的地面实况。然而,与虚拟数据集相比,它们提供的3D注释非常准确的3D注释很难从人类那里获得,并且使用LiDAR等3D传感器进行测量是昂贵的因此,这些真实世界的数据集通常规模较小或注释不良。为了克服这一困难,在虚拟驾驶数据集方面开展了大量工作:虚拟KITTI [12]、SYN- THIA [34]、GTA5[33]、VIPER [32]、CARLA [9]和Free视频游戏监管(FSV)[20]。最接近我们的数据集是VIPER [32],它为各种计算机视觉问题提供了一套视频和注释,我们扩展FSV [20]以包括2D和3D中的对象跟踪,以及细粒度对象属性,来自驱动程序动作的控制信号在下一节中,我们将描述如何从2D仪表盘摄像头视频生成3D对象轨迹。考虑到自动驾驶的实际需求,我们主要专注于在线跟踪系统,其中只有过去和跟踪器可访问当前帧3. 联合三维检测与跟踪我们的目标是跟踪对象,并从单个单目视频流和GPS传感器推断其精确的3D位置、方向和尺寸。图2显示了一个概览5392跟踪器预测角度-2建议副更新跟踪器预测角度-1建议副更新跟踪器角度预测不建议副更新帧((((aa+1b输入图像区域提案单目3D估计深层联想多帧细化不不图2:我们的单眼3D跟踪框架概述。我们的在线方法处理单眼帧,以估计和跟踪3D中的感兴趣区域(RoIs)(a)。对于每个ROI,我们学习3D布局(即,深度、方向、尺寸、3D中心的投影)估计(b)。通过3D布局,我们的LSTM跟踪器利用遮挡感知关联和深度排序匹配(c)在帧之间产生强大的链接在3D跟踪的帮助下,该模型通过融合先前帧(d)的对象运动特征来进一步细化3D估计的能力。我们的系统。图像首先通过训练的检测器网络,以生成对象建议和中心。然后,这些建议被馈送到推断3D信息的层聚合网络中。使用3D重新投影来生成所有轨迹和检测到的建议之间的相似性度量,我们利用当前轨迹的估计3D信息我们的方法还解决了遮挡问题的帮助下,闭塞感知的数据关联和深度排序匹配- ING跟踪。最后,我们使用LSTM通过新匹配的轨迹重新估计对象的3D位置3.1. 问题公式化我们将3D跟踪问题称为监督学习问题。 我们的目标是找到N个轨迹{τ1,. . . ,τ N},一个用于视频中的每个对象。 每个轨迹τ i将检测到的对象状态{s(i),s(i),. . . ,s(i)}从第一个可见帧A开始到最后一个可见帧A结束可见框湾 在帧a处的对象的状态由sa=(P,O,D,F,Δ P)给出,其中P定义对象的3D世界位置(x,y,z),并且Δ P代表其速度(xstec ,ystec,zstec)。O,D,F分别表示对象方向θ、维度(l,w,h)和外观特征fapp。此外,我们利用估计的P,O,D和三维盒中心在图像中的投影c=(xc,yc),为每个对象重建了一个三维边界盒X边界框允许使用我们的深度排序匹配和遮挡感知关联。每个边界框X还形成投影使用相机参数M = K [ R]将2D框M(X )={xmin ,ymin,xmax,ymax}投影到2D图像平面上|t]。内参数K可以从摄像机中校准外在参数[R|t]可以从通常配备的GPS或IMU传感器计算。整个系统由卷积网络管道提供动力接受过大量的实地监督训练接下来,我们将更详细地讨论每个组件。3.2. 候选框检测在本文中,我们使用在我们的数据集上训练的FasterR-CNN [31]以边界框形式提供对象建议。每个对象提议(图2(a))对应于2D边界框d={xmin , ymin ,xmax,ymax}以及3D框的中心的估计投影检测结果用于定位候选车辆并提取其外观特征。然而,对象的三维边界框的中心通常不直接投影到其二维边界框的中心。 因此,我们必须提供对3D框中心的估计以获得更好的精度。关于3D中心估计的更多细节可以在补充材料1中找到。3D长方体中心的投影。为了更准确地从单个图像估计3D布局,我们扩展了回归过程,以使用L1损失从ROI池化特征F预测3D边界框中心的投影2D点估计3D中心的投影是至关重要的,因为图像坐标中的值得注意的是,我们的流水线可以与任何现成的检测器一起使用,并且即使检测器被替换,我们的3D盒估计通过扩展的ROI头,模型1 联 合 单 目 3D 车 辆 检 测 和 跟 踪 的 补 充 材 料 可 以 在https://eborboihuc.github.io/Mono-3DT/深度深度深度53932一F一一3D3D一一回 归 边 界 框 d 和 3D 框 的 中 心 c 从 锚 点 的 投 影 使 用ROIalign [17]而不是ROIpool来获得给定检测到的感兴趣区域(ROI)的区域表示。这减少了两步量化的未对准。3.3. 3D框估计我们通过2D边界框中像素的特征表示从图像中的ROI估计完整的3D框信息(图2(b))使用ROIalign从34层DLA-up [46]中提取ROI特征向量F。通过将ROI特征传递通过3层3x 3卷积子网络来估计每个3D信息,这扩展了Mousa- vian等人的堆叠线性层设计。[27]第10段。我们专注于由对象中心、方向、维度和深度组成的3D位置估计,而[27]专注于来自2D框的对象方向和维度此外,我们的方法集成了2D检测,并有可能联合训练,而[27]则使用预先计算的框裁剪输入图像。该网络使用地面真实深度、3D边界框中心帧和当前帧。首先,我们需要为世界坐标中的每个跟踪对象生成这样的3D轨迹3.4. 数据关联和跟踪给定一组轨迹{τ,. . . ,τ K},其中1≤J≤K≤M,我们的目标是将每个轨迹与候选检测相关联,产生新的轨道,或结束一个轨道(图2(c))在网上的方式。我们使用加权二分匹配算法解决数据关联问题。轨迹和新检测之间的亲和性根据两个标准计算:当前轨迹在时间上向前的投影与边界框候选之间的重叠;以及新的和现有对象检测的外观的深度表示的相似性。使用对象的估计速度和相机自我运动来在时间这里,我们假设自我运动由传感器给出,如GPS、加速度计、陀螺仪和/或IMU。我们定义了一个亲和矩阵A(τa,sa)之间的信息的现有轨道τa和一个新的候选人sa作为联合概率的出现和位置相关性。投影、尺寸和方向值。 一个卷积-A(τ,s)= exp(−||F、F||)(1)传统网络用于保存空间信息。在检测器被另一种架构替换的情况下,深一一τasa1dτ 马德斯中心C可以从该子网络获得。一(τ,s)=aa(二)三维世界位置。 与以前的方法相比,2D一一dτa我们还从单目图像推断3D位置P。的一 (τ,s)=M(Xτa)<$M(Xsa),(3)网络回归逆深度值1/d,但经过训练3D一一M(Xτ)<$M(Xs)为了最小化深度值d的L1损失,3D定位P.使用3D对象中心c的估计的2D投影以及深度d和相机变换M来计算投影的3D位置P。车辆定 位 。 给 定 到 图 像 水 平 中 心 的 坐 标 距 离x∈=xc−w和焦距f,我们可以恢复从 具 有 简 单 几 何 形 状 的 θ l 得 到 相 机 坐 标 , θ=(θl+arctanxθ)mod2π。[27]对于θl估计,其中Fτa、Fsa是外观特征fapp、维度D、中心c、方向θ和深度d的级联。Xτa和Xsa是跟踪和预测的3D边界框,M是将边界框投射到图像坐标的投影矩阵,A2D和A3D是并集的交集(IoU)。A(τa,sa)=w深Aapp(τa,sa)+w2DA2D(τa,sa)+W一 (τ,s)(4)我们首先将角度分为两个组,然后回归使用平滑L1损失相对于面元中心的残差。车辆尺寸。在驾驶场景中,不同类别车辆(例如,汽车、公共汽车)导致难以使用单峰对象建议对各种车辆进行因此,我们使用L1损失将维度D回归到对象特征表示上的真实维度。对象的3D属性的估计对于任何新轨迹片段,网络被训练为通过利用ROI特征来预测对象的单眼对象状态。对于任何先前跟踪的对象,以下关联网络能够通过合并来自最后可见的对象状态来学习多视图单目3D估计wdeep、w2D、w3D是外观、2D重叠和3D重叠的权重我们利用这些因素的混合作为跨帧的亲和力,类似于POI的设计[45]。与2D跟踪相比,面向3D的跟踪对自我运动、视觉遮挡、重叠和再现更鲁棒。当目标在时间上被遮挡时,对应的3D运动估计器可以在一段时间内滚动,并且经由相机坐标变换在每个新的时间点重新定位2D位置。深度排序匹配。我们引入实例深度排序分配的检测邻居轨迹,它建模的强先验相对深度排序中发现的人类感知。 对于每个目标检测(DOI),我们按照其深度的顺序考虑潜在的关联轨迹从每个DOI的角度出发,我们得到了两个无遮挡重叠地图的IOU,从两个上升方向5394一S=saa−1帧=T-1轨道深度排序匹配低检测的内容帧=T建议0.060.000.130.82高IoU遮挡感知关联跟踪阻塞丢失深度顺序帧不可见T-1闭塞截短T-2图3:深度排序匹配的图示给定tracklet和检测,我们将它们按深度顺序排序到列表中。对于每个感兴趣的检测(DOI),我们计算DOI与每个轨迹片段的非遮挡区域之间的IOU深度顺序自然地向DOI附近的轨迹片段提供更高的概率。和降序。为了消除一个遥远的轨迹的排序模糊,我们过滤掉那些轨迹与DOI的距离大于可能的匹配长度。因此等式3变为A(τ,s)=1×φ(M(Xτa))<$M(Xsa),(5)图4:阻塞感知关联的图示。跟踪的轨迹片段(黄色)始终可见,而在帧T-1处,一个轨迹片段(红色)被另一个轨迹片段(蓝色)遮挡。在遮挡期间,轨迹片段不更新状态,但保持推断-直到重新出现。对于截断或消失的轨迹片段(在帧T处为蓝色),我们将其保留为丢失。虽然这是一个很好的方法,但是我们仍然使用估计的运动来预测其3D位置。图4示出了遮挡感知关联如何工作。在下一小节中,我们将展示如何使用深度网络利用相关的tracklet和边界框来估计该距离3D一一φ(M(Xτ ))M(Xs)a a3.5。运动模型其中,1表示在深度滤波之后是否保留轨迹片段,并且重叠函数φ(·)=argmin{x|ord(x)
下载后可阅读完整内容,剩余1页未读,立即下载
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 保险服务门店新年工作计划PPT.pptx
- 车辆安全工作计划PPT.pptx
- ipqc工作总结PPT.pptx
- 车间员工上半年工作总结PPT.pptx
- 保险公司员工的工作总结PPT.pptx
- 报价工作总结PPT.pptx
- 冲压车间实习工作总结PPT.pptx
- ktv周工作总结PPT.pptx
- 保育院总务工作计划PPT.pptx
- xx年度现代教育技术工作总结PPT.pptx
- 出纳的年终总结PPT.pptx
- 贝贝班班级工作计划PPT.pptx
- 变电值班员技术个人工作总结PPT.pptx
- 大学生读书活动策划书PPT.pptx
- 财务出纳月工作总结PPT.pptx
- 大学生“三支一扶”服务期满工作总结(2)PPT.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)