COOPERNAUT：基于视觉的跨车辆协作驾驶模型

32 浏览量更新于2023-10-25 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17252×COOPERNAUT：网络车辆的崔家勋1邱航2陈典1 彼得·斯通1，3朱宇科11德克萨斯大学奥斯汀分校2斯坦福大学3索尼人工智能cuijiaxun@utexas.edu，hangqiu@stanford.edu，{dchen，pstone，yukez} @ cs.utexas.edu摘要用于自动驾驶车辆的光学传感器和学习算法尽管如此，当今自动驾驶车辆的可靠性随着近年来自主驾驶技术的发展，车对车通信的协同感知已成为一种在危险或紧急情况下增强自主驾驶的有前途的我们介绍了COOPERNAUT，这是一种端到端的学习模型，它使用跨车辆感知进行基于视觉的协作驾驶。我们的模型将Li-DAR信息编码为紧凑的基于点的表示，这些表示可以通过现实的无线信道作为车辆之间的消息传输。为了评估我们的模型，我们开发了一个UTOCASTSIM，这是一个网络增强的驾驶模拟框架，其中包含事故多发场景。我们在AUTOCASTSIM上的实验表明，在这些具有挑战性的驾驶情况下，我们的合作感知驾驶模型的平均成功率比以自我为中心的驾驶模型提高了40%，并且比先前的工作V2VNet的带宽要求更小。COOPER-NAUT 和 AUTOCASTSIM 可在 https ： ut-austin-rpl.github.io/Coopernaut/。1. 介绍自动驾驶和高级驾驶辅助系统的广泛部署受到安全问题的挑战。虽然深度学习已经通过数据驱动技术改进了自主性堆栈[9，10，42]，但迄今为止，基于学习的驾驶策略仍然很脆弱，特别是在面对极端情况和每百万英里可能只遇到几次的极端情况时。* 同等缴款。通信地址： cuijiaxun@utexas.edu ，hangqiu@stanford.edu，yukez@cs.texas.edu碰撞！本车辆接收消息闯红灯的车辆网联汽车发送消息图1. COOPERNAUT使车辆能够在遮挡和感知范围之外传递关键信息，以实现基于视觉的驾驶。蓝色虚线箭头是信息共享流。通过协作感知，COOPERNAUT在视线感知受限时做出更多信息化的驾驶决策。驾驶[8]。单个车辆上的光学传感器（例如，立体摄像机和LiDAR）的有限感测能力加剧了学习算法的鲁棒性的缺乏，所述光学传感器局限于视线感测并且在恶劣天气条件下不可靠。随着5G网络和车对车（V2V）通信等新电信技术的出现，合作感知[6，13，21，32]正在成为一种有前途的范例，使传感器信息能够在车辆（和路边设备[45]）之间实时共享。共享的信息可以扩大个体车辆的视野，并传达附近车辆的意图和路径规划，从而提供提高驾驶安全性的潜力，特别是在事故多发的情况下。理想情况下，通过合作感知学习自动驾驶策略应该利用现有的深度学习方法，通过将来自所有车辆的组合感知数据视为车载感知的增强版本，为自我感知定制[11，16，29在实践中，协作感知的有效性取决于在有限的网络带宽内传输什么数据以及如何使用聚合的信息来建立一致性。17253对交通状况有准确的了解。最近关于协同驾驶的工作已经证明了跨车辆感知对于增强感知能力和驾驶决策的益处[6，21]。尽管如此，这些方法已经用低维元数据抽象出原始传感器数据。之前的工作介绍了3D传感器融合（ AVR [32] ， Cooper [13] ）和表示融合（V2VNet [41]）算法，这些算法通过V2V通道聚合来自附近车辆的感知结果。他们专注基于静态数据集的3D检测和运动预测，而不是交互式驾驶策略。我们介绍COOPERNAUT，一种用于联网车辆的端到端协作驾驶模型。COOPERNAUT学会在现实的V2V信道容量下融合附近车辆共享的编码LiDAR信息为了在符合带宽限制的同时从附近车辆传达有意义的场景信息，我们基于点Transformer [46]（一种用于点云处理的自注意网络）设计了我们的驾驶策略架构该架构将每个联网车辆上的原始点云本地预处理为空间感知神经表示。这些表示是紧凑的，其可以在现实的无线信道上有效地传输。同时，它们又是以身体为基础的，因而可以通过自我表征进行空间转化和聚合整个架构是端到端可区分的，允许控制监督（模仿访问特权信息的Oracle计划器）流回感知堆栈，从而确保学习的表示和消息包含任务相关信息。为了检验COOPERNAUT的有效性，我们开发了一个基于CARLA的仿真框架，A UTO-CAST SIM，其中我们设计了三个易发生事故的场景。所有的场景都被设计成具有挑战性的自我感知，以充分理解交通状况。UTOCAST SIM具有用于可定制的多车辆通信的内置网络模拟和具有特权信息的专家驾驶模型我们使用基于体素的基线 [41] 和不同的传感器融合方案来评估COOPERNAUT综上所述，我们的主要贡献如下：• 我们介绍了COOPERNAUT，这是一种通过V2V通道进行协作感知的端到端驾驶模型。我们的模型学习了用于通信的紧凑表示，这些表示可以很容易地被自我车辆利用，以改善其驾驶决策。• 我们开发了一个网络增强的自动驾驶仿真框架AUTO CAST SIM ，以评估事故多发场景中的COOPERNAUT和基线，并促进未来基于视觉的合作感知研究• 我们的研究结果表明，COOPERNAUT大大减少了视线传感的安全隐患。其德-Sign在基线上改进了驾驶性能和通信效率。2. 相关工作深度学习驱动策略。学习驾驶控制器涉及使用深度网络训练闭环策略，通常通过模仿学习和/或强化学习。自动驾驶的模仿学习由Pomerleau开创[27]，此后已扩展到城市和更复杂的场景[7，11，14，15，28，36]。最近，强化学习在自动驾驶方面也取得了进展[12，39]，显示出在复杂情况下训练更好策略的潜力[12，39]。然而，众所周知，强化学习更需要数据，并且需要设计高质量的奖励函数。我们遵循模仿学习范式，但使用具有完整全局信息的专家预言[11]来提高训练效率。自动驾驶的3D感知由于商品化LiDAR传感器的成本降低，3D成像在自动驾驶中变得更加流行。Zhou和Tuzel[47]率先在自动驾驶中使用3D物体检测，从那时起，它已经进一步发展为更好的模型，并且已经发现了更先进的技术。最近，Prakash et al.[28]还探索了使用点云数据的端到端驾驶。两类3D感知骨干已被广泛采用：基于体素的方法将点离散化为体素[22，37，47];基于点的方法直接在坐标上操作[30，31，46]。COOPERNAUT使用基于变换器的架构[40]和基于点的表示[30，31，46]，其通过离散化保持高空间分辨率，并且需要较低的带宽来传输，而无需先前工作[41]所需的压缩。网络车辆和合作感知。网络连接为提高自动驾驶汽车的安全性和可靠性提供了巨大的潜力。车辆现在可以使用诸如专用短程通信（DSRC）[20]和蜂窝辅助V2X（C-V2X）[18，34]的无线技术这些V2 V/V2X通信设备越来越多地部署在当前和即将推出的车辆模型中[3，4]）。学术界已经建立了城市规模的无线研究平台（COSMOS [1]）和大型联网车辆测试平台（例如MCity [5]，DRIVE C2X [38]），以探索协作车辆和应用程序的可行性。先前的工作[13，32]提出了合作感知系统，通过与附近的其他车辆共享原始视觉信息来拓宽车辆这样的系统可以利用边缘服务器[45]或以自组织方式[33]扩展到密集流量场景。最近的工作[24，41，43]提出了多-17254不不∈不Σ不不|JK代理感知模型来处理传感器信息并在本地交通网络内共享紧凑表示相比之下，我们专注于通过车载视觉数据和现实的联网条件来实现联网车辆的协同驾驶，从而向现实世界的V2V设置迈进。3. COOPERNAUT3.1. 问题陈述我们的目标是学习控制自主自我车辆的闭环策略，该自主自我车辆在时间t接收LiDAR观测O（eg o）。假设存在一个变量在V2V范围内的相邻车辆的数量为N其中，O（i）是来自第i个车辆的车载LiDAR的三维3D点云。本车的协调驾驶策略是寻找一个策略π（ atoO （ ego ）， O （ 1 ）， . -是的 -是的， O（Nt）），其基于自我车辆和Nt个相邻车辆的联合观测来做出控制决策a t。在这里，π由深度神经网络参数化并进行端到端训练在印刷-简单地说，我们可以将所有跨载具的观察传输到自我载具，并将它们作为一个整体进行处理。在实践中，我们必须考虑到网络带宽的限制，这只允许消息大小的数量级更小。因此，我们首先将原始点云处理成紧凑的表示，可以通过V2V通道实时传输。3.2. 背景：点Transformer我们模型该算法通过对点云数据的非局部交互作用进行推理，得到了置换不变的表示，从而有效地实现了多车辆点云数据的聚合。在这里，我们提供了一个点变压器的简要回顾。我们采用与Zhao等人相同的设计。[46]，使用向量自注意力来构建点Transformer层。我们还在特征之间应用减法，并将位置编码函数δ应用于注意力向量γ和变换后的特征α：对于点i和j坐标p i，pjR3δ=θ（pi−pj）（2）其中θ是具有两个线性层和一个ReLU的MLP图2中显示了一个Point Transformer块，它集成了自注意层、线性投影和剩余连接。输入是具有每个点的特征X的3D点p的集合。该块实现点之间的局部信息交换，并为每个点产生新的特征向量。图中的下采样块步骤2是减少点集的基数。我们对输入集进行最远点采样[17]以获得一个良好分布的子集，然后使用kNN图和邻域中的（局部）最大池化来进一步将信息压缩到更小的点集。输出是具有新特征的原始输入点的子集。3.3. 我们的模型我们使用跨车辆感知来增强自我车辆的感知能力，以便在具有挑战性的情况下做出更关键的挑战是通过真实的V2V通道有效地传输感知信息，从聚合的信息中了解交通状况，并实时确定反应性驾驶行为。如图2所示，我们的COOPERNAUT模型由每个相邻V2V车辆的点编码器组成，用于将其传感数据编码为紧凑的消息，表示聚合器将来自相邻车辆的消息与自我感知集成，以及控制模块将集成的表示转换为驾驶命令。点编码器。为了减少通信负担，每个V2V车辆都在本地处理自己的LiDAR数据，并将原始3D点云编码为关键点，每个关键点都与Point Transformer块学习的紧凑表示相关联。我们构造具有三个点Transformer块以及两个下采样块的编码器，这两个下采样块都具有（1，4，4）的下采样率。中间表示的最终基数是P/16，其中P是原始点中的点数yi=xj∈X（i）ρ（γ（（xi）−（xj）+δ））（α（xj）+δ）（1）cloud.在我们的实验中，我们通过体素池将65,536个原始Li-DAR点预处理为2,048个点，即，使用它们的体素质心来表示体素网格中的点这里，xi和xj分别是点i和j的输入特征，yi是点i的输出注意力特征，X（i）表示邻域中的点集由第j个车辆产生的消息Mj包括一组基于位置的表示Mj，并且被表示为K3表示为Mj={（pjk，Rp）}，其中pjk∈R的xi;，和α是逐点特征变换，MLP;γ是具有两层和一个ReLU非线性的MLP映射函数;δ是位置编码函数，ρ是归一化函数softmax。鉴于3D对于k = 1，. - 是的- 是的，K是3D空间中的关键点的位置，并且Rpjk是由点编码器产生的其对应的特征向量。我们把Mj的大小限制为至多K元组这些关键点承载着每一辆车的特征，17255图2. COOPERNAUT是一种用于联网车辆的端到端基于视觉的驾驶模型。它包含一个点编码器，提取关键信息本地共享，一个表示聚合器，合并多车辆消息，和一个控制模块，推理联合消息。由编码器产生的每条消息具有128个关键点坐标及其相关特征。然后，信息在空间上被转换成自我框架。自我车辆合并传入消息并通过体素最大池化来计算聚合表示最后，聚合器合成来自自我车辆及其所有邻居的联合表示，然后将它们传递到控制模块以产生控制决策。括号中的数字表示数据维度。cle的本地帧。它们保留空间信息，因为它们的坐标是从原始点云采样的。表示聚合器。从其他车辆传输的消息需要由自我车辆融合和解释。用于协作感知的表示聚合器（RA）被实现为体素最大池化操作和点Transformer块。RA首先使用其他车辆坐标中的关键点的相对姿态将其空间变换该操作假定精确的车辆定位（例如，使用HD地图）。然后，它通过最大池化位于内部在遵守限速规则的情况下，我们采用PID速度控制器来防止超速。3.4. 政策学习我们使用Dagger [35]训练我们的模型来模仿具有私有信息的专家策略为了热启动策略学习，我们首先使用行为克隆训练模型。行为克隆行为克隆的目的是最大限度地减少培训政策和专家政策之间的分配差距。目标是找到一个最优策略，使得损失w.r.t.专家相同的体素网格单元。最后，将多视图感知信息与另一个Point Transformer块进行融合ππ=argminπ∈ΠEsS[control（π（s），πexpert（s））].（三）上述两个操作相对于其他车辆的排序保持置换不变，并且可以处理可变数量的共享车辆。对于带宽控制，COOPERNAUT从附近随机选择的三辆V2V车辆接收消息。控制模块。控制模块是一个完全连接的神经网络，设计用于根据接收到的消息做出控制决策。这些控制决策包括油门、制动和转向，分别表示为标量T、B、S。从模型输出的这些值首先被限幅到它们的有效范围（例如，[0，1]用于节流阀）。到目标函数控制是策略动作和专家动作之间的油门、制动和转向损失控制=η1油门+η2刹车+η3转向（4）其中η1、η2、η3是每个动作的损耗系数在我们的实验中，所有三个系数都设置为1匕首Codevilla等人[15]讨论了自动驾驶行为克隆的局限性。DAg- ger [35]通过在线培训解决协方差偏移问题核心思想是让学生政策与空间变换和体素池对等点云（N，3）点编码器合并表示(256，128 +3）闭塞车辆(128，128众议员聚合器控制模块控制对等点云（N，3）点编码器众议员聚合器(128，128+3）表示(128，128 +3）来自对等体的(256 128）(64 256）点编码器本车辆自我点云（N，3）(128，128 +3）自我载体表征点编码器（2048，3）（512，32）（512，256）（128，128）（128，128）下采样模块点式Transformer块最远点采样线性kNN，MLP点式Transformer本地最大池线性体素池MLP点式Transformer下采样点式Transformer下采样点式Transformer表示表示下采样点Transformer表示17256.××我在专家监督下的环境，并记录专家使用学生和专家的行动的混合，迭代地聚合训练数据集第i次迭代的采样策略πi如下：超车左转闯红灯π=π专家，w.p.βiπ学生，i，w.p.1−βi（五）其中βi=β0βi−1从初始β 0开始呈指数递减，表示专家的动作在第i次迭代时被执行的概率。3.5. 实现细节当超过三个相邻车辆发送消息时，我们随机选择其中三个车辆的消息所有邻居通过3块点编码器本地编码其处理的点云，并发送大小为128（128，3）的消息，并将坐标扭曲到自我帧。我们通过Point Transformer的另一个块聚合合并的表示在全局最大池化之后，特征在传递到全连接层之前与自我速度特征级联。我们的模型在NVIDIA GTX3090 GPU上有90ms的延迟我们的模型训练分为行为克隆和Dagger两个阶段，首先通过行为克隆来训练每个特定于机器人的模型，然后将行为克隆的最终策略作为Dagger的初始学生策略。我们收集了4个新的轨迹，并使用β 0 = 0的采样策略（见§ 3.4），每5个epoch将它们附加到Dagger数据集。8在Dagger阶段。对于用于训练的所有数据，25%其中75%是在易发生事故的情况下收集的（插入有遮挡碰撞车辆），其中75%是正常的驾驶轨迹。更多详情请参阅我们的补充资料和项目网站。4. AUTO CAST SIM我们提出了一个 UTOCAST SIM，这是一个仿真框架，它在CARLA之上提供网络增强的自动驾驶仿真[16]。该仿真框架允许定制各种交通场景的设计，用于训练和评估协作驾驶模型。模拟车辆可以配置真实的无线通信。它还提供了一个基于路径规划的oracle专家，可以访问特权环境信息。4.1. 场景我们在AUTO CAST SIM中设计了三个具有挑战性的流量场景，如图3所示，作为我们的评估基准。这些场景选自美国国家公路交通安全管理局的预碰撞类型学，0秒10秒图3. AUTOCASTSIM中的基准场景。灰色汽车是我们模型控制的自我车辆。橙色卡车是大型车辆，部分挡住了环境的视线。红色汽车没有联网，很可能与自我汽车相撞所有其他车辆都是具有或不具有共享能力的后台交通绿蓝点标记了任何移动车辆的计划如果两个计划轨迹在相似的颜色（时间）相交，则表明可能发生碰撞。对于每个场景，呈现RGB鸟瞰我们在这里使用较少的背景流量作为说明，并将在§5.3中研究流量密度的影响。美国国家公路交通安全管理局（NHTSA）[26]，其中有限的视线感知影响驾驶决策：* 超车。一辆卡车在一条双向单车道的道路上挡住了一辆轿车的去路，道路上有一条虚线黄色的车道分隔线。卡车也阻碍了轿车对对面车道的视线。自我车必须通过变道超车* 左拐左边的自我汽车试图在左转让行灯下左转，但在相反的左转车道上遇到了另一辆卡车，挡住了它对相反车道和潜在直行车辆的视线。* 闯红灯当另一辆车闯红灯时，自我车正在穿过十字路口。由于排队等待左转的车辆，激光雷达无法感知其他车辆4.2. V2V通信为了模拟真实的无线通信，我们使用真实的V2V无线电来分析无线带宽ca。不共享共享鸟瞰17257DSRC C-V2X802.11n和802.11ac吞吐量（Mbps）丢包率（%）2.0<57.2<5∼200>90∼900>90移动性支持是的是的没有没有表1.使用现成无线电测量的无线吞吐量和分组丢失率。容量和分组丢失率由于信道分集之间的移动代理。具体而言，我们使用三个iSmart-路DSRC无线电和三个C-V2X无线电[2]，安装在移动车辆顶部，以测量实际中连续无线传输的最大表1显示了测试的吞吐量和数据包丢失。它还示出了针对上下文的WiFi（802.11n，ac）的吞吐量。请注意，802.11系列不是为移动场景设计的。表1显示V2V带宽比室内无线容量小两个数量级在实践中，极其有限的带宽对设计用于V2V通信的表示提出了重大挑战。我们在模拟器中使用Winner II无线信道模型[25]，并在信道模型中使用测量的C-V2X无线电容量和分组丢失率。我们参考先前的工作[33]，以设计和实现协调，调度和网络传输层。4.3. Oracle专家专家有权访问交通场景的特权信息。该信息包括来自所有相邻车辆的LiDAR的点云以及这些相邻车辆和其他交通参与者的位置和速度。专家将来自相邻汽车的所有点云转换为其自我视角（由于上述无线带宽限制，这是不切实际的）。将变换后的点云融合用于下游障碍物检测和规划。ex-pert策略利用上述所有信息来分析和避免可能的冲突。路径规划算法使用A* 轨迹规划器[19]，具有姿态和距离分解。专家以20公里/小时的目标速度移动。5. 实验我们首先讨论评估方法和实验设置，然后简要概述我们的基线。接下来，我们提出了我们的方法对基线的主要定量评估结果。最后，我们提供进一步的分析和可视化，以了解我们学习的模型的质量。5.1. 实验设置方案配置。我们从我们在A UTO C AST S IM（§ 4.1）中实现的三个场景中生成跟踪，用于训练和评估。这些场景可以通过编程重新配置关键参数，特别是车辆数量、车辆产生位置和车辆巡航速度。对这些参数的随机组合进行采样，以程序化地生成具有不同复杂性的交通情况的轨迹-在某些情况下，自我车辆必须采取紧急行动以避免潜在的碰撞，而在其他情况下，沿着默认路线巡航可以到达目的地。数据集。具体来说，对于每个场景，我们使用专家代理（第4.3节）生成一个初始训练集，该训练集包含12个随机场景配置的跟踪，然后是其他随机配置的84个Dagger跟踪。在评估中，我们系统地测试了每个模型的频谱上的27个随机选择的事故多发环境配置超过三个重复运行，每个使用不同的随机种子的背景流量。为了公平比较，我们使用一组固定的27个测试配置来评估所有模型。指标. 我们报告三个指标，成功率，碰撞率和成功完成时间：成功率（SR）。一个成功完成的场景被定义为自我代理到达指定的目标位置在允许的时间内没有冲突或延长停滞。成功率定义为所有评估的轨迹中成功完成碰撞率（CR）。碰撞是最常见的失效模式。碰撞率被定义为自我车辆与任何实体（诸如车辆、建筑物等）碰撞的评估轨迹的百分比。按完成时间（SCT）加权的成功。SR反映了总体任务的成功或失败。它不区分驾驶员完成跟踪所需的时间我们引入了第三个指标，通过专家和代理之间的完成时间比率来衡量成功率SCT=I{座席成功}T专家/T座席（6）其中I是一个指标函数，T专家和T代理分别是专家由于专家代理应该不需要比代理更长的完成时间，所以比率驻留在[0，1]的范围内。5.2. 基线我们将COOPERNAUT与非V2V和V2V驱动基线进行比较。为了公平比较，我们在V2V方法中采用了相同的邻居选择过程（§3.5）：* 无V2V共享。非共享基线仅基于机载LiDAR数据和自我速度进行决策。该模型共享相同的数据处理方案，单个车辆和点编码器架构，我们的最终模型。* 早期融合早期融合模型假设了一个不现实的通信带宽，它可以跨17258×××型号带宽超车左转闯红灯81.9±7.281.2±5.211.9±5.172.8±8.668.8±8.9 26.3 ±8.1 78.6±11.8 75.8±9.190.5±1.288.4 ± 1.14.5 ± 3.1 80.7±5.276.2±3.9 18.1± 6.2 80.7± 7.6 77.8± 7.0表2.不同模型在三次重复运行中的定量结果。SR：成功率，百分比; SCT：成功率按完成时间加权，以百分比表示; CR：冲突率，以百分比表示;在带宽列中，我们报告不进行数据压缩所需的通信吞吐量。带宽通过假设IOHz LiDAR扫描频率来计算。从所有邻近的车辆中提取并融合整个原始点云数据。虽然这种方法在实践中是棘手的为了在GPU内存中拟合此模型，我们将融合输入点的大小限制为4，096。与之前的基线一样， Early Fusion 也使用 3 块点Transformer编码器。* 体素GNN。我们调整了V2VNet [41]，它专为3D检测和运动预测而设计，以学习端到端驾驶。每辆车处理其本地点云板载和共享体素表示与自我车辆的控制。它在自我框架中使用图神经网络（GNN）作为聚合器。从GNN融合表示预测控制动作。为了进行公平比较，所有基线和拟定方法均使用相同的训练参数在三次重复运行中进行独立训练（§3.5）。我们报告了在相同场景配置下三次运行的平均性能（第5.1节）。5.3. 定量结果本节介绍三种基准情景下对所有模型的实证评估。场景完成。表2显示了三种流量场景中的每一种情况下的性能比较。在所有三种场景中，无V2V共享模式表现不佳，每个场景的成功率低于50%，碰撞率较高所有三种合作驾驶模式，包括早期融合、体素GNN和COOPER-NAUT，都实现了比无V2 V共享基线高得多的SR和SCT分数以及低得多的碰撞率。这表明V2V通信通过自我车辆的视线感测提供关于交通状况的关键信息，以做出明智的早期融合方法的平均成功率比非V2V基线提高了30%以上。然而，早期融合基线需要跨车辆传输原始点云，导致60Mbps的带宽要求（数据压缩前）不切实际。相比之下，将原始感官数据预处理成代表性的Sentations在提高驱动性能的同时显著降低了带宽需求。Voxel GNN和COOPERNAUT都对代表进行感觉融合，怨恨水平。与其他合作驾驶模型相比，COOPERNAUT在所有三种场景下都优于Early Fusion和Voxel GNN基线。我们假设COOPERNAUT的基于点的表示学习使其对与早期融合中的融合原始点一致的定位误差具有鲁棒性。此外，与体素GNN使用的基于体素的特征图相比，点3D位置的显式表示和COOPERNAUT的点采样模块保留了其中间表示的高空间分辨率带宽要求。如表2所示，以10 fps的LiDAR扫描速率共享原始点云将需要60 Mbps的无线带宽，远远超过当前（DSRC）和未来（C-V2X或LTE直连）V2 V通信技术中可实现的带宽（预期小于10 Mbps，参见表1）。V2VNet [41]声称点云压缩的带宽要求为25 Mbps，这也超出了当前V2V无线电可以支持的范围。在我们的设计中，Voxel GNN和COOPERNAUT都需要不到6Mbps的带宽，在没有压缩的情况下，V2VNet的通信数据大小在开发V2V模型时，我们仔细探索了体素GNN和COOPERNAUT的可共享表示大小及其带宽要求的设计空间。例如，如果COOPERNAUT要共享32 32表示，则它仅需要0.9 Mbps。然而，粗糙信息不足以使模型达到良好的性能.我们发现，一个128 128点表示满足带宽要求（表1）没有实质性的性能下降。对交通密度的敏感性。在最具挑战性的左转场景中，我们进一步测试了不同交通密度下的COOPER-NAUT图4显示，我们的方法适用于各种流量密度，始终优于无V2V共享基线。在质量方面，我们观察到No V2VSharing在密集的交通中行驶速度较慢，对紧急情况的反应更好。相比之下，V2V方法在更密集的流量中没有多大改进，因为它们往往受到来自改变邻居的传入消息的增加的随机性的影响。尽管如此，COOPER-NAUT在所有流量密度方面都优于基线，成功率比无V2V共享高出30%（Mbps）SR↑SCT↑CR↓SR↑SCT↑CR↓SR↑SCT↑CR↓无V2 V共享-早期融合60.045.3±0.643.6±0.735.8±3.640.3±5.937.8±4.655.6±9.647.3±18.746.1±18.451.4±17.417.7± 15.2体素GNN 5.60COOPERNAUT（Ours）5.1070.0±4.867.8±4.216.1±3.653.5±6.951.0±6.933.3±7.364.2±25.362.0±24.835.0±25.917.7± 7.8172598567.556.849.83无V2V共享我们的模型早期融合体素GNN812.ing435.40.453.49.352.72.380.780.4888.84..0100699.培训密度不同交通密度10080604020t=6.5st=6.5st=8.5st=10.5s t=13.5s00 15 30 45交通密度（背景车辆数量）图4.左转情景下交通密度变化水平的敏感性分析。定性可视化。图5示出了来自左转的示例评估轨迹。左转弯的自我车辆（灰色）可以通过使用COOPERNAUT主动避让对向行驶的车辆。非共享模型的一个常见故障模式是，由于其自我感知的有限视线，它向前行驶到其目标位置，而不管任何交通违规者或潜在的碰撞者。通过V2V通道传输的消息有助于我们的模型解决跨车辆感知的模糊性，从而在这种事故多发的情况下做出更安全的驾驶决策5.4. 局限性和未来工作虽然我们的合作感知模型符合现实的无线带宽，我们没有考虑到实际的网络问题，包括传输延迟，网络工作协议，重复或丢失的数据包。尽管如此，COOPERNAUT在一定程度上对分组丢失是鲁棒的（如在A UTOCAST SIM中配置的5%）。它的随机邻居选择还增加了另一层，以承受来自各个发送器的分组丢失。此外，假定高度准确的车辆定位，其由COOPERNAUT使用以将基于点的表示从相邻车辆变换到自我车辆，即使AUTO CAST SIM模拟车辆的姿态和高度估计中的微小误差。实际上，如果没有高清地图（HDMap），定位误差可能会导致米级位移。使用HDMap可以显著改善位置和姿态估计，这在工业界和学术界都是普遍采用的[23，44]。为了公平比较，我们对所有基于点的基线和我们的方法使用相同的下采样方案，这在移动车辆和大型障碍物的场景中被证明是有效的。对于像pedes-trians这样的较小对象，基于语义信息的自适应采样方案我们还希望扩展COOPERNAUT图5.左转场景中的轨迹比较。图中的灰色汽车是可控自我汽车。那辆红色的车正向相反的方向直行，被橙色的卡车挡住我们的模型避免了碰撞，因为它能够看到闯红灯的车辆从合作的看法（突出的黄色框）。以更好地结合用于改善驾驶性能的时间信息。6. 结论和未来工作本文研究了在新设计的仿真基准AUTO CAST SIM中使用协作感知的联网车辆的基于视觉的驾驶。我们介绍了COOPERNAUT，这是一种端到端的驾驶策略，可对来自网络车辆的3D LiDAR数据进行编码、聚合和分析。点编码器和代表性aggregator的COOPERNAUT保留详细的空间信息和鲁棒性，以不同数量的通信车辆。我们的实证结果表明，我们的方法提高了风险敏感的交通场景中的自动驾驶策略的鲁棒性。这项工作有很大的扩展空间。我们的方法依赖于一个手工设计的甲骨文模仿学习。它留下了开放的问题，以调查自适应策略，什么时候沟通，什么编码的消息，以及如何驾驶合作，理想的情况下，不需要一个算法的预言。致谢这项工作已经发生在机器人感知和学习实验室（RPL）和学习代理研究小组（LARG）在UT奥斯汀。RPL研究部分由NSF（CNS-1955523，FRR-2145283），UT-Austin机器学习实验室的MLL研究奖和亚马逊研究奖支持LARG研究部分得到NSF（CPS-1739964，IIS-1724157，FAIN-2019844），ONR （ N 00014 -18-2243 ）， ARO （ W 911 NF-19-2-0333），DARPA，Lock-注意马丁，通用汽车，博世和UT奥斯汀的良好系统的大挑战。Peter Stone担任Sony AI America的执行董事这项安排的条款已经由德克萨斯大学奥斯汀分校根据其研究客观性的政策审查和批准。t=6.5st=6.5st=8.5st=9.5st=10.5s成功率（%）无V2V共享Coopernaut（我们17260引用[1] 云增强开放软件定义的移动无线测试平台，用于城市规模部署（ cosmos ）。网址https://cosmos-lab.org/。2[2] ismartway的业绩计量。URLhttps：//fccid.io/2AQQ 3 IM 2 RSE/测试-报告/FCC-第22 -4039626部分。6[3] 2016年新款梅赛德斯e级车的18项令人敬畏的创新。网址https://www.businessinsider。com/Mercedes-e-class-2017-features-2016-6. 2[4] 丰田的v2v举措表明，2018年汽车行业仍然对汽车相互交谈感兴趣。网址 https ：www.consumerreports.org/automotive-technology/toyota-v2v-vehicle-to-vehicle-communications/. 2[5] 2019 年安娜堡互联车辆测试环境。网址http://www.aacvte.org。 2[6] 青木俊介，口隆正，大努尔·阿尔廷塔斯.联网车辆的深度强化学习协同感知。2020年IEEE智能车辆研讨会（IV），第328-334页。IEEE，2020年。一、二[7] MayankBansal 、 AlexKrizhevsky 和 AbhijitOgale。Chauffeurnet：通过模仿最好的和综合最差的来学习驾驶。 arXiv 预印本 arXiv ：1812.03079，2018。2[8] Myra Blanco，Jon Atwood，Sheldon M Russell，Tammy Trimble，Julie A McClaffeine和Miguel APerez。使用自然数据的自动车辆碰撞率比较。技术报告，弗吉尼亚理工大学交通研究所，2016年。1[9] Mariusz Bojarski ， Davide Del Testa ， DanielDworakowski，Bernhard Firner，Beat Flepp，Pra-soonGoyal ， LawrenceDJackel ， MathewMonfort，Urs Muller，Jiakai Zhang，et al.自动驾驶汽车的端到端学习 arXiv 预印本 arXiv ：1604.07316，2016。1[10] 陈晨毅，阿里·谢夫，阿兰·科恩豪泽，肖建雄.Deepdriving ： Learningaffordancefordirectperception in autonomous driving.在IEEE计算机视觉国际会议论文集，第2722-2730页1[11] Dian Chen ， Brady Zhou ， Vladlen Koltun ， andPhilipp Kr aühenbuühl. 通过作弊来学习。机器人学习会议，第66-75页PMLR，2020年。一、二17261[12] DianChen，VladlenKoltun，andPhilippK r hen bhl.从一个轨道上的世界学开车。在arXiv预印本arXiv：2105.00636，2021。2[13] 齐尘，四海堂，青阳，宋浮。Cooper：基于3D点云的联网自动驾驶车辆的协同感知。2019年IEEE 第 39 届分布式计算系统国际会议（ICDCS），第514-524页。IEEE，2019。一、二[14] FelipeCodevilla，MatthiasMüller，AntonioLo'pez ， Vladlen Koltun ， and AlexeyDosovitskiy.通过条件模仿学习实现端到端驾驶。在2018年IEEE机器人和自动化国际会议（ICRA），第4693-4700页。IEEE，2018年。2[15] 费利佩·科德·维拉、埃德·桑塔纳、安东尼奥·洛佩斯和阿德里安·盖东。探索自主驾驶行为克隆的局限性。在IEEE计算机视觉国际会议论文集，第9329-9338页，2019年。二、四[16] AlexeyDosovitskiy ， GermanRos ， FelipeCodevilla，Antonio Lopez，and Vladlen Koltun.卡拉：一个开放式的城市驾驶模拟器。arXiv预印本arXiv：1711.03938，2017。一、五[17] Yuval Eldar ， Michael Lindenbaum ， MoshePorat，and Yehovah Y Zeevi.渐进图像采样的最远点策略IEEE图像处理学报，6（9）：1305-1315，1997。3[18] L.加洛和J.哈里。短文：用于定期车辆安全通信的远程直接广播机制。在 IEEE VehicularNetworking Conference 2013中，第166-169页。IEEE，2013年12月。doi：10.1109/VNC.2013.6737604。2[19] P. E. Hart，N. J. Nilsson和B.拉斐尔最小费用路径的启发式确定的形式基础。IEEE Transactionson Systems Science and Cybernetics ， 4 （ 2 ）：100-107，1968. 6[20] J. B.肯尼美国的专用短程通信标准。Proceedingsof the IEEE，99（7）：1162-1182，July 2

下载后可阅读完整内容，剩余1页未读，立即下载