没有合适的资源?快使用搜索试试~ 我知道了~
自动驾驶中的安全学习方法——ADAS-RL与稳定性的研究
可在www.sciencedirect.com上在线获取ScienceDirectICTExpress 8(2022)479www.elsevier.com/locate/icteADAS-RL:用于稳定自动驾驶的安全学习方法李东秀,权大韩民国首尔崇实大学接收日期:2021年11月23日;接收日期:2022年2月15日;接受日期:2022年5月5日2022年5月14日网上发售摘要稳定性是自动驾驶系统中最重要的组成部分,影响驾驶员和行人的生命以及交通流量。强化学习(RL)是自动驾驶中使用的一种代表性技术,但由于它是基于试错,因此具有挑战性。在这封信中,我们提出了一种有效的学习方法来实现稳定的自动驾驶。所提出的基于深度强化学习的方法可以解决混合交通中的部分可观察场景,其中包括自动驾驶车辆和人类驾驶车辆。仿真结果表明,该模型优于控制理论和香草RL方法。此外,我们证实了同步惩罚的效果,它教代理不安全的决定,而不会遇到事故。© 2022作者(S)。由爱思唯尔公司出版代表韩国通信和信息科学研究所这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:自主车辆;深度强化学习算法;马尔可夫决策过程1. 介绍自动驾驶汽车的商业化将导致混合交通,其中自动驾驶汽车和人类驾驶的汽车共享道路[1]。在这种情况下,稳定是最重要的先决条件,因为它影响到司机和行人的生活以及社会秩序。由于自动驾驶汽车应该在任何给定的情况下决定最佳行动,因此深度强化学习方法是自动驾驶系统中最流行的决策方法。然而,这种方法也有挑战。在这种学习方法中,智能体通过试错来学习特定环境中的最佳动作,这在现实中是不可能应用的。此外,即使经过充分培训,也不能保证该方法在所有情况下都能安全运行。为了应对这些挑战,人们对安全强化学习进行了大量研究[2这些方法在学习时间和性能方面优于普通强化学习,最重要的是,它们确保了安全性[5,6]。这是引入屏蔽的结果。然而,在这方面, [5]中使用概率屏蔽具有有限的适用性地址:Soongsil University,369 Sangdo-ro, 首尔市东雀区,邮编06978电子邮件地址:movementwater@soongsil.ac.kr(D.Lee),minhae@ssu.ac.kr(M.Kwon)。同行审议由韩国通信研究所负责教育与信息科学(KICS)。https://doi.org/10.1016/j.icte.2022.05.004到自动驾驶系统。自动驾驶汽车完全依赖于盾牌的安全性,即使在训练结束后[6]。在这封信中,我们提出了一个名为自动驾驶辅助系统强化学习(ADAS-RL)的系统,它结合 了深度RL和ADAS [7ADAS不限制智能体的决策,并选择性地操作可能导致崩溃的决策。我们还引入了同步惩罚,教代理不安全的决定。当ADAS约束代理的决策时,会给出此惩罚。为了确认稳定性,我们将基于ADAS-RL的车辆的性能与一个传统的基于控制理论的车辆,并评估有多少次ADAS在训练的车辆中使用这封信的主要贡献概述如下。我们提出了一种有效的基于强化学习的训练算法,将ADAS应用于自动驾驶汽车,以促进安全驾驶,我们提出了一个同步惩罚,以避免在训练后代理对ADAS的依赖,我们用速度分布熵来评价不稳定性,大量的仿真结果证实,所提出的系统比传统的控制理论方法具有更高的稳定性。2405-9595/© 2022作者。 由Elsevier B.V.代表韩国通信和信息科学研究所出版。这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。····D. Lee和M. KwonICT Express 8(2022)479480∈O=||=-={个|| =−|| =| |为=={}{ }====−A∈A∈A∈{−}==∈、∈S⏐vN⏐当N辆车在道路上行驶时,状态的维数t∈R3N×1.st =[vt,1,pt,1,kt,1,vt,2,pt,2,kt,2,. . . ,vt,N,pt,N,kt,N]T.t的观测值包括以下部分信息:st,智能体在时间步t可以观察到。如图 一、Fig. 1. 混合交通环境下自动驾驶的有效学习模型。2. 问题表述在本节中,我们将对部分可观测马尔可夫决策过程(POMDP)进行建模,以解决混合交通中的自动驾驶问题。然后,我们描述了用于训练自动驾驶汽车的ADAS-RL算法。2.1. 道路建筑我们考虑一个多车道的环形交叉路口,一辆自动驾驶汽车和多名人类驾驶员一起行驶路况由两个矢量E和K组成。E表示场景中所有车辆的集合。E包括一组自动驾驶车辆E a v和一组人类驾驶员E h,因此EEavEheNe1,e2,. . .,e N−1.在道路上行驶的所有车辆的编号为EN,数量自动驾驶汽车是E a v1,人类驾驶员的数量是E hN1.设K表示道路上所有车道号的集合。集合K 1,2,. . .,L,并且车道的数量为KL.在此,k1表示最外侧通道,kL表示最内侧通道。车道号向内递增1。2.2. 部分可观察马尔可夫决策过程在这项工作中,我们允许代理人只部分地知道环境中发生了什么。这样的问题可以用POMDP来表示[10]。POMDP可以是智能体可以观察相邻车辆,相邻车辆是位于同一车道和相邻车道中的领先车辆和跟随车辆。t定义为:ot=[vt,N,kt, N]T,其中,N[N,L,N,S,N,R]是相对速度的矢量,N[N,L,S,N,R ]是相对速度的矢量,N [N,L,S,R]是相对位置的向量。这里,下标f和l分别表示领先和跟随车辆,下标L、 S和R分别表示相对于代理位于左侧、相同和右侧车道动作at包括加速控制以及在时间步t处的车道变换aT, lc,lc。at,定义了acc作为从最小加速度到最大加速度的连续值[amin, amax]。at,lc被定义为离散值,10 1在此,t,lc0表示代理保留在泳道; a t,lc1表示座席向内变道(左);ΔT, Lc1表示代理向外(右)改变车道智能体与环境交互,并在强化学习中获得奖励。为了简单起见,我们将奖励写为Rt而不是R(st,at,st+1)。奖励Rt定义为:Rt=Ps, t+Rw,t,(1)其中Ps, t表示同步惩罚,Rw,t表示来自环境的奖励。(1)中的同步惩罚Ps,t与代理尝试但失败的动作有关在这种情况下,我们利用ADAS来控制导致事故的行为。否则,事故会导致仿真的重新执行,这在训练中是低效如果主体的行动at是不可行的,则改变at,然后Ps,t<0。通过引入同步惩罚,智能体可以在不经历事故来自(1)中的环境R w,t的奖励定义如下。R w,t=η1R1+η2R2+ η3R3。(二)第一个奖励期限定义为R1(vt+1N)=1−vt+1,N−v<$N<$,描述为元组M=S,O,A,R, T, O,γ,其包括状态st∈S,观测值ot∈O,动作at∈A,奖励函数R(st, at,st+1),状态转移概率T(s t+1|s t,a t),观测概率O(o t|s t)在时间步t,其中,v∈N表示目标向量y。 该术语被设计为诱导代理接近于V_N驾驶。如果vt+1,NvN,t他的奖励期限被最大化。第二个奖励期限定义为以及时间贴现因子γ[0, 1)。在这项研究中,智能体是自动驾驶汽车,环境是道路状况。R2(Δ pt+1,fS)=min[0,1−st+1,f S)2]、状态st包括道路上所有车辆的信息:速度vt、位置pt和车道数kt。其中,s表示安全距离。我们设计这个奖励项来诱导智能体驾驶跟随的车辆,(D. Lee和M. KwonICT Express 8(2022)479481≤R我1|| =R||一|LC¯我¯¯N¯¯∈=HH−=πφ不-1的lc当代理人改变车道时要小心如果s≠t+1,fS,2变为0。ADAS-RL中的动作选择方法要求:初始探测噪声方差σ2第三个奖励期限被定义为计算原动作a<$=[a<$,a'我]←(o)R3(α pt, 1 S,αpt+ 1,1 S,αt, 1 c)=min[0,pt+1,lS− pt,lS] × |a t,lc|你好,lS。这与不必要的车道变化有关;即移动到驾驶空间比当前车道更小的车道当衰减探测噪声方差σ2将噪音添加到原始动作中进行探索:a<$acc,t=a<$acc,t+σ1,σ1<$N(0,σ2)a<$ =a<$ +σ,σN(0,σ2)pt+1,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功