分布式深度强化学习应用于无人机出租车的自主空中eVTOL移动性

82 浏览量更新于2023-12-10 收藏 651KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝可在www.sciencedirect.com在线获取ScienceDirectICTExpress 7（2021）1www.elsevier.com/locate/icte分布式深度强化学习在无人机出租车应用中的自主空中eVTOL移动性Won Joon Yuna，Soyi Junga，Joongheon Kima，Jiang，Jae-Hyun Kimb，Jianga大韩民国汉城高丽大学电气工程学院b大韩民国水原市Ajou大学电子计算机工程系接收日期：2020年11月29日;接收日期：2021年1月17日;接受日期：2021年1月20日在线预订2021年摘要城市空中机动（UAM）系统，如无人机出租车或空中出租车，是未来按需交通网络之一。之间其中，电动垂直起降（eVTOL）是UAM系统之一，用于识别乘客的位置，飞行到乘客所处的位置、装载乘客以及将乘客运送到目的地。在本文中，我们提出了一种分布式深度强化学习，其中代理被配制为eVTOL车辆，可以在考虑乘客行为，eVTOL之间的碰撞和eVTOL电池状态的情况下计算最佳乘客运输路线c2021韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：eVTOL;无人机出租车;空中出租车;分布式深度强化学习;城市空中机动性1. 介绍工业界和学术界一直在讨论按需移动性（ODM）的研究，这将使交通运输发生革命性变化[1]; ODM主要用于将乘客从他们的出发地运送到他们期望的目的地。为了实现这一目的和系统，电动垂直起降（eVTOL）等飞行器的使用如今被广泛讨论并商业化，被称为城市空中机动（UAM）[1]。例如，Ehang最近推出了使用无人驾驶eVTOL的UAM [1]。在各大无人机研究成果中，对无人机轨迹优化问题的讨论较为活跃。其中，有几种方法通过深度强化学习（DRL）[2]和凸优化框架[3]计算无人机的最佳轨迹。DRL方法适用于在不确定的突发环境下实时运行的无人机移动网络另外，在无人机航迹优化问题中，需要多架无人机协同工作，∗ 通讯作者。电子邮件地址：ywjoon95@korea.ac.kr（W.J. Yun），jungsoyi@korea.ac.kr（S.Jung），joongheon@korea.ac.kr（J. Kim），jkim@ajou.ac.kr（J.H. Kim）。同行评审由韩国通信和信息科学研究所（KICS）负责https://doi.org/10.1016/j.icte.2021.01.005无人机的全局最优轨迹。因此，多智能体深度强化学习（MADRL）应该在各种DRL方法中被考虑[4，5]。其中，本文考虑在QMIX [6]的考虑下设计多无人机客运轨迹优化。基于QMIX的MADRL算法被认为是设计多无人机滑行轨迹优化的原因是，QMIX是著名的分布式MADRL算法之一。注意，需要分布式计算，因为通过集中式计算实时处理大量eVTOL是不现实的。因此，QMIX是分布式MADRL，而不是其他集中式算法，即。通信神经网络（CommNet）[7]和基于两阶段注意力网络（G2ANet）的游戏抽象机制[8]。作为相关工作，研究了日间行车线在eVTOL路径规划中的应用在[9]中进行研究。文[9]中将日间行车作用定义为车头角，本文中将日间行车作用定义为乘客的位置和垂直方向。因此，我们在各个方面都有详细的控制。2. 强化学习和QMIX本章介绍强化学习的基础知识和主要算法。从根本上说，强化学习是2405-9595/2021韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。W.J. Yun，S.Jung，J.Kim等人ICT Express 7（2021）12S 一 RT联系我们≤∑[]}是一个是一个--;;−⎟--Qnt=1∑⎜⎟≥∈V.基于马尔可夫决策过程（MDP）[4]。在MDP中，、和γ存在于它们代表状态空间、代理可以采取的动作空间、个体动作的奖励值、转移概率和折扣因子的地方，其中0 <γ1所示。也就是说，MDP可以可以表示为元组，，，，γ。强化学习的目标是最大化累积奖励，直到场景终止，其中累积奖励的公式如下：t=TJ（πθ）<$Eτ<$πθγt·r（st， at）（1）t=0其中π θ是由深度神经网络训练的强化学习策略，其中训练参数是θ，τ是情节τ ={s0，a0，r0，. . . ，s T，a T−1，rT−1，J（π θ）是目标函数。有两种方法可以将强化学习扩展到MADRL。首先，有MADRL方法增加的维度的数量和只有一个政策在方程。（1），例如：[7]和G2ANet [8]。另一方面，存在另一种类型的方法，其用于减少N个多个策略的维数，例如，，独立Q-learning（IQL）[10]。然而，这两种架构是矛盾的。其中一个在集中式架构中，只有一个策略决定操作。此外，集中式策略收集所有可观察的信息（完全可观察的信息），并立即确定所有代理的动作。另一方面，在分布式体系结构中，策略的数量与代理的数量一样多。每个代理都有自己的政策，通过观察部分可观察的信息，每个代理都根据自己的政策行事。在我们通过MADRL进行的多无人机滑行轨迹优化中，需要完全分布式的架构，因为在集中式计算机中控制所有eVTOL无人机滑行车辆是不现实的。在主要的分布式体系结构中，即IQL和QMIX，基于IQL的不能显示代理之间的合作方面，因为它完全独立地工作。在QMIX中，存在这样的假设，即总动作价值函数可以被解释为每个动作价值函数的线性组合或每个动作价值函数的混合网络。因此，基于QMIX的方法有望与附近的代理合作行动。在图1中，示出了我们提出的MADRL算法的概述。在这里，多个eVTOL代理之间的合作是允许通过混合网络[6]。相应的合作公式如下：最大Q1（s1，a1）Fig. 1. 基于QMIX的MADRL架构。a TD误差，定义为ΔTDΔγmaxa Qtot（st，at θ−）Qtot（st，atθ）。在这种基于混合网络的QMIX合作训练之后，深度学习推理不使用混合网络。因此，每个代理/eVTOL基于其自己的策略行动，并观察附近的乘客、代理和垂直起降。3. 基于MADRL的无人机滑行控制3.1. 场景假设在城市地区存在多个地面充电的eVTOL和多个垂直起降场。每架eVTOL只能搭载一名乘客，是一架自主的无人驾驶飞机。每个垂直起降平台可以将乘客的信息传输到附近的eVTOL，并且一个选定的eVTOL可以装载乘客。在将乘客运送到所需目的地后，eVTOL应该飞回离eVTOL最近的垂直起降场并为自己的电池充电。在这里，我们基于QMIX的MADRL算法应该确定选定的eVTOL车辆装载的多名乘客（即，调度/匹配eVTOL车辆和乘客），然后在考虑电池状态的情况下对eVTOL车辆3.2. 基于QMIX的MADRL算法公式化eVTOL、乘客和垂直起降的集合可以是，分别表示为E {e1，. . .，e n，. . .，e N}，Pa1{p1，. . . ，pi···，pi}，并且V {v1，. . . ，v j，. . . ，其中，argmax Q tot（s，a）= 0。，（2）ssa（N N）eVTOL代理可以处于状态e，其中earg max Q NS ，aaN其中n=0，vn.然后，学习期间的相应损失函数可以表示为L（θ）Δt=T[R（st， at）+ΔTD]2，其中ΔTD为“行，行。空闲状态。在驾驶状态下，eVTOL车辆飞行方式从其相关的垂直端口，例如，、载客或飞行送完乘客回来。在空闲状态下，eVTOL位于其最近的垂直端口并为自己的电池充电。W.J. Yun，S.Jung，J.Kim等人ICT Express 7（2021）13n|−|≤←∪=：|−|≤←∪=：∈P∈P∈E∈Pn−nnep，. . .，，。. .. 最后，剩余能量1n−1n+1NvJn我e n∈E，即，eb，应可观察到，以避免电池算法1Agent状态观察1：对于n=1：N做2：sn<$，Pn<$，vm<$arg minv<$j（V）3：如果es isdrivethenPn←（piboarding inen）n4：如果es 则是空闲的5：如果n是平稳的，则6：对于i1我7：如果vjpiWv，则PnPnpi8：如果结束9：结束10：否则，如果en在飞行，则11：对于i1我12：如果en piWe，则PnPnpi13：如果结束14：结束15：如果结束16：如果结束17：sn←{Pn，vm，ep，vj，ep，eb}18：结束每个eVTOL无法观察环境中的所有信息（即，部分可见）。首先，位于其相关联的垂直端口中的每个eVTOL可以仅观察位于距垂直端口的预定范围内的p i个乘客（由Wv表示）。此外，每个eVTOLe，n还可以观察位于乘客的预定范围内的p，i个乘客（由We表示）。乘客pi包含诸如出发位置ps、到达位置pd、icip预订取消P1，以及Vertiport的位置Vj。请注意，乘客可以乘坐eVTOL无人机出租车在建筑物的顶部（即，出发位置pS），其可以不是Ip与垂直端口vj的位置相同。每个eVTOL代理观察（i）其自身的位置ep和（ii）位置npo{ftheothereVT OLagent}sforavoidingcollisions，e−nnn疲惫不堪然后，计算过程中的代理状态观察可以在算法1所示。在（第2-17行）中详情如下。在（第3行）中，如果状态是en服务于乘客并且正在驾驶的情况，则乘客将被添加到Pn。在（第5-15行）中在（第6-9行）中，乘客组Pn由乘客组织，其中他们的位置在V的W内。在（第11-14行）中图二、多个 e V T O L 车辆的轨迹规划结果。如果eVTOL车辆中的电池耗尽，则将给予负奖励。4. 评估和轨迹可视化我们的实验是在自由飞行的情况下使用10辆eVTOL车辆，15名乘客和4个垂直起降场。网络大小为200 × 200网格。注意p c= 0。05.这种模拟-更新了额外的乘客，他们的位置在We和en之间。在（第17行）中，eVTOLen收集MADRL计算所需的所有数据。对于基于QMIX的MADRL轨迹计算，动作空间可以由八个不同的eVTOL移动方向来组织，这些方向是基于乘客的期望目的地的方向和最近的垂直端口的方向来组织的。此外，奖励可以计算如下。如果eVTOL车辆装载或起飞乘客，则可以获得积极的奖励。如果发生eVTOL车辆之间的碰撞或假设当eVTOL在预定义的阈值碰撞距离。我们提出的基于QMIX的算法与独立DQN（I-DQN）和随机游走[11]进行了比较。我们的性能评估结果如图2所示。图2（a）显示了我们提出的基于QMIX的算法中的奖励收敛。我们提出的基于QMIX的算法的收敛奖励是最高的，而I-DQN和随机游走算法的收敛奖励较低。此外，乘客无人机出租车服务的数量分别为9.8，7.25，W.J. Yun，S.Jung，J.Kim等人ICT Express 7（2021）142.2，分别使用我们提出的基于QMIX的算法，I-DQN和随机游走。因此，我们提出的算法是优于其他人。乘客无人机出租车服务的可视化结果如图所示。 2（b）[对于我们提出的基于QMIX的算法]和图。2（c）[Random Walk].图中的视觉结果。图2（b）示出了我们提出的基于QMIX的算法导出有意义的各种轨迹以服务于更多的乘客，而随机行走不能，如图2（c）所示。总之，使用我们提出的基于QMIX的MADRL算法的eVTOL的轨迹总体上更广泛，并且它验证了无人机出租车服务动作工作良好。5. 结论和今后的工作提出了一种新的分布式MADRL算法，用于基于eVTOL的无人机滑行管理和控制。对于无人机出租车应用，多个eVTOL 车辆应同时为多名乘客提供服务，而不会在eVTOL车辆之间发生碰撞。此外，算法计算应该是分布式的，因为不可能以集中的方式管理许多eVTOL车辆。该系统是用著名的分布式MADRL算法QMIX设计和实现的。基于性能评估结果，我们可以确认我们提出的分布式MADRL算法可以达到预期的性能。作为未来的工作，各种模拟是相当可观的，例如。在给定的时间窗口内到达旅客的流量。此外，在考虑航空和空运的具体要求时，应考虑到更现实的情况。竞合利益作者声明，他们没有已知的可能影响本文所报告工作致谢这项研究得到了韩国国家研究基金会（2019 R1 A2C4070 663）和韩国大学未来研究基金会（KU-FRG）的联合支持。引用[1] K.H. Goodrich，医学博士Moore，按需移动（ODM）技术途径：实现易用性和安全性，载于：AIAA航空学报，2015年。[2] N. Zhao ， Z. Liu ， Y. Cheng ， Multi-agent Deep ReinforcementLearningfor Trajectory Design and Power Allocation in Multi-UAVNetworks，IEEE Access 8（2020）139670-139679。[3] S. Jung，J. Kim，J.- H. Kim，用于节能监视无人机调度的联合消息传递和凸优化框架，Electronics 9（2020）1475。[4] D. Kwon ， J. Jeon ， S. Park ， J. Kim ， S. Cho ，基于 MultiagentDDPG 的深度学习用于智能海洋联合学习物联网网络，IEEEInternetThings J。7（2020）9895[5] M. Brittain，P. Wei，高密度途中部门的自主分离保证：深度多代理强化学习方法，在：IEEE智能交通系统会议论文集，ITSC，2019年。[6] T. Rashid ， M. 萨姆韦良角 Schröder de Witt ， G. 法夸尔， J.N.Foerster ， S. Whiteson ， QMIX ： Monotonic value functionfactorisation for deep multi-agent reinforcement learning ， in ：Proceedings of ICML，2018。[7] M.申，D. Choi，J. Kim，PV/ESS启用的电动汽车充电站的合作管理：多智能体深度再增强学习方法，IEEE Trans. Ind. Inf. 16（2020）3493-3503。[8] Y. Liu，W. Wang，Y. Hu，J. Hao，X. Chen，Y. Gao，通过图形注意力神经网络进行多智能体游戏抽象，在： ProceedingsAAAI，2020年。[9] X.杨培伟，可扩展的多智能体计算制导与分离保证自主城市空中机动作战，AIAAJ。向导对照Dyn.43（2020）1473[10] M. Tan ， Multi-Agent Reinforcement Learning ： Independent vs.Cooperative Agents，Proceedings of ICML，1993。[11] J. Foerster，A.阿萨埃尔河De Freitas，S. Whiteson，学习与深度多智能体强化学习进行通信，在：会议记录的NIPS，卷。29，2016，pp.2137-2145。

下载后可阅读完整内容，剩余1页未读，立即下载