贝叶斯纳什均衡驾驶博弈模型与生态安全

175 浏览量更新于2024-01-17 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于贝叶斯纳什均衡的生态安全驾驶博弈模型Neetika Jain，SangeetaMittal印度诺伊达Jaypee信息技术学院计算机科学工程与信息技术系阿提奇莱因福奥文章历史记录：收到2021年2021年6月23日修订2021年7月6日接受2021年7月14日在线提供保留字：高级驾驶辅助系统（ADAS）物联网（IoT）联网汽车博弈论贝叶斯纳什均衡生态安全驾驶A B S T R A C T生态安全驾驶是一种既节能又安全的驾驶方式。现有的研究已经提出了反馈和警报系统，以提高驾驶员对生态安全驾驶的敏感性。然而，这些方法已被证明具有较低的驾驶员接受度。基于博弈论的方法可以维持驾驶员在这项工作中，驾驶游戏的基础上贝叶斯纳什均衡（BNE）的游戏策略已被设计为建议最佳的车辆操纵实时。BNE战略从舒适性、里程数和安全性方面提升了所有驾驶员的驾驶体验。驾驶员在应用BNE游戏模式后驾驶分数提高了5%因此，结果证明，由于所提出的战略，生态安全驾驶行为的有效恢复©2022由Elsevier B.V.代表沙特国王大学出版。这是一篇开放获取的文章，CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍车辆安全性和碰撞避免在汽车工业中是至关重要的。节油驾驶对于降低车辆排放和降低运营成本同样重要有多种相互冲突的情况下，保持燃油经济性的行为可能会导致安全隐患。例如，在通过十字路口、行人过路处或在交通拥堵期间的汽车跟随场景中保持速度等措施可能具有成本效益，但很危险。一个新的想法，培训和激励司机走向生态安全驾驶正在获得牵引力。在实时驾驶条件下，很难预测相邻驾驶员的驾驶风格和侵略性驾驶员仅通过定期培训提高驾驶员对生态安全行为的敏感性并不会导致长期的行为改变（Sullman等人，2015年）。*通讯作者。电子邮件地址：sangeeta. jiit.ac.in（S.米塔尔）。沙特国王大学负责同行审查如今，正在制造具有众多传感器和互联网连接的智能车辆。智能汽车正被用于开发高级驾驶辅助系统（ADAS），该系统采用人机界面，通过移动应用程序为驾驶员提供实时帮助。在许多研究中，已经提出了基于移动应用的反馈机制来减少驾驶疲劳或单调的影响并降低驾驶碰撞的风险（Pozueco等人，2020; Yin等人， 2020; Yin和Chen，2018;Bian等人，2018; Yin等人，2018年; Wu等人，2013年度）和一些方法（ Hoffman 和 van der Westhuizen ， 2019;Nousias 等人， 2019;Magana 和 Munoz-Organero ， 2015; Lai ， 2015; Jamson 等人，2015）对应于给予驾驶反馈以提高燃油经济性。因此，必须研究其他更有效的方法来持续地吸引和激励驾驶员，例如游戏。博弈论已经在各种交通相关的应用中实现，如寻找停车位（Zhang等人，2020），汽车跟随中的交通协商（Pekkanen等人，2018; Pariota等人，2016; Tak等人，2015）、车道转换场景（Zhang等人，2020; Ji等人，2019年），驾驶交叉口（Zeleli和Badia，2018年），以及最佳路线选择（Lin等人，2018年; Li等人，2018年）。上述方法从安全性或燃料经济性的角度控制驾驶员的行为，但缺乏考虑这两个参数（Yin等人，2020; Yin和Chen，2018; Zelzeli和Badia，2018; Ji等人，2019年; Lin等人，2018年; Li等人，2018; Knoefel等人，2018; Yin等人，2018; Pariota等人， 2016年）。现有的方法假设其他参与者（如车辆或行人或骑自行车的人）的已知行为，或者在二级游戏上工作以保持驾驶员参与。连续驾驶https://doi.org/10.1016/j.jksuci.2021.07.0041319-1578/©2022由Elsevier B. V.出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comN. Jain和S. 米塔尔沙特国王大学学报7483到目前为止，还没有研究实时参与和游戏对驾驶行为的影响为了应用博弈论，司机被视为球员。这里考虑的生态安全驾驶方案属于非合作游戏的范畴，在路上的是独立的实体，由于外部监管的一些义务而不合作。纳什均衡决定了非合作博弈的最优解。为了达到纳什均衡，每个参与者需要知道游戏中所有其他参与者的收益，然而，这可能不是chosen问题的情况，因为道路上的驾驶员不知道其他驾驶员的风险偏好和环境敏感性。贝叶斯纳什均衡（ Bayesian NashEquilibrium，BNE）是纳什均衡的一种扩展形式，用于在不确定性条件下实现均衡，更适用于不完全信息的情况每个参与者必须形成一个最优的博弈策略，以最大限度地提高其效用，对其他参与者采取随机混合策略关于其他参与者的信念可以用贝叶斯概率分布来表示。在贝叶斯博弈中，所有可能的参与者策略类型然而，哪个玩家选择哪种类型并不确切，因此被设置为先验概率分布。对于本文所考虑的博弈，两种可能的驾驶员（参与者）被认为是攻击性的或非攻击性的，其概率分布分别为p和（1-p）。提出的工作是一种新的尝试，应用贝叶斯纳什均衡（BNE）的实时驾驶数据，以优化驾驶员的效用下的驾驶场景中，同伴的驾驶员的侵略性类型是未知的。游戏化策略优化了驾驶员在舒适性、燃油效率和安全，无论他们的行动和驾驶风格。BNE模式的总体目标是提高驾驶者的参与度和动力，并长期恢复积极的驾驶行为。这项工作的主要特点如下：游戏模型捕捉各种类型的驾驶行为，并评估司机的整体驾驶侵略性驾驶员据我们所知，这是一种新颖的尝试，旨在构建一个多目标游戏模型，实现舒适性，燃油经济性和安全性之间的平衡。驾驶交互评分通过在与相邻驾驶员的同时游戏中向驾驶员推荐最佳可能的动作来帮助增加驾驶员的效用利用贝叶斯纳什均衡的策略，在未知的驾驶侵略性和相邻司机的行动的约束下，所有司机的效用最大化。该模型通过提高驾驶员效用来提高驾驶员的内在动机其余的文件由四个部分组成。第2回顾并比较了不同的基于博弈论的模型，以加强积极的驾驶行为及其局限性。第三阐述了生态安全驾驶行为的问题和解决方法，并详细阐述了基于博弈论的生态安全驾驶行为模型的设计。第4将博弈模型应用于驾驶数据，将博弈后的收益与现有的工作进行比较，并概述了模型的应用。第5节总结了方法并讨论了重要的观察结果。2. 文献综述对安全驾驶方法、燃油经济性驾驶方法模型和驾驶辅助框架的最新论文进行了评价2.1. 安全驾驶为驾驶员安全提出的计算方法驾驶员风险评估-该框架提供在职培训和反馈。结果表明，年龄较大的职业驾驶员，有额外的经验，表现出较低的安全和预期的驾驶行为。该研究建议为适龄的高级职业司机提供驾驶强化课程。Yin等人（2020）制定了一个多目标线性模型以及一个半监督学习策略，该策略基于来自多源驾驶数据的驾驶员，车辆和道路相关信息获取属性。采用帕累托排序和折中排序对驾驶员的驾驶风险进行排序.多目标遗传算法的性能优于其他模型，多目标粒子群算法和基于分解的多目标进化算法。Chen（Yin和Chen，2018）开发了一个AdaBoost多内核学习框架，用于基于车辆、驾驶员和车道属性的特征评估驾驶风险，以针对大量不同驾驶数据提供基于使用的保险据观察，驾驶风险评估的准确性增加，如果驾驶员，车辆和车道相关的属性相结合，但是，它也导致了计算复杂性的增加此外，作者建议基于GPU的实现，以权衡计算复杂性和模型的准确性。 Bian等（2018）使用装袋和集成学习方法开发了一个以行为为中心的车辆保险定价模型。该模型将驾驶风险与保险费联系起来，从而激励驾驶员通过表现出良好的驾驶行为来实现良好的风险评级。Yin等人（2018）开发了一种模糊模型来估计驾驶员危险驾驶强度（DDI）来自模糊粒子群优化的驾驶员，车辆和车道属性。通过向驾驶员发出警告和反馈，确保了驾驶安全 Wu等人（2013）提出了一个基于推理的框架，以直观地提醒驾驶员发出明确的危险级别信号。第一阶段使用隐马尔可夫模型（HMM）检测7个驾驶事件，包括第二阶段使用模糊推理系统（FIS）指示准确的危险级别。HMM模型实现了99%的平均检测率然而，作者提到，危险水平的基本事实不适用于所进行的研究。Knoefel等人（2018）提供了一个自然的框架，以性别-评估基于驾驶特征、他们的动作/反应、目的地和上下文条件（诸如在各种交通场景下的行驶时间、交通拥堵）的驾驶员简档信息。驾驶员状态检测- Bier等人（2019年）对37名参与者的驾驶行为进行了一项基于模拟器的研究，这些参与者游戏化让驾驶员保持车道，与领先车辆保持安全距离，并了解当前的最大速度。参与者表现出降低速度，改善横向控制，并提高注意力跨度后，游戏化Steinberger等人（2017）利用游戏化机制消除与驾驶员疲劳和无聊相关的安全危害。皮肤电活动（EDA）、心脏活动（ECG）、眼●●●●●N. Jain和S. 米塔尔沙特国王大学学报7484研究人员通过扫视、自我评估和访谈来捕捉无聊的程度。降低驾驶速度，改善驾驶注意力和预期驾驶后游戏化。2.2. 燃油经济性油耗预测他们根据驾驶行为与燃油经济性之间的直接联系，为每位驾驶员分配了Jamson等人（2015）研究了提供各种类型的反馈对燃油经济性的影响，包括视觉反馈、触觉力、触觉刚度。根据研究，触觉反馈超过-在高交通拥堵下形成视觉反馈燃油经济性游戏化-游戏化模型根据油耗、换档、加速、减速、粗暴划桨行为的频率生成分数。该模型还具有内置的知识卡，头像和徽章的内在和外在的司机动机。游戏化提高了驾驶员的参与度，驾驶员能够遵循提供的指示。 Magana和Munoz-Organero（2015）使用基于模糊逻辑的模型来生成驾驶员的燃油经济性评分，并为驾驶员提供生态驾驶提示。一个游戏化工具被用来生成相对分数和排行榜排名。Lai（2015）提出了一种基于动机-能力-能力（MOA）理论的激励方法。获得奖励的司机减少了10%Pozueco等人（2020）、Yin等人（2020）（2020）、Yin和Chen（2018）、Bian等人（2018）、Yin等人（2018）和Wu等人（2013）通过考虑驾驶员、车辆和车道属性进行了驾驶员风险评估。方法（Pozueco等人，2020; Yin等人，2020; Yin和Chen，2018; Bian例如，2018年）为客户提供实时反馈和板载帮助，但其他方法缺乏持续的用户参与。Hoffman和van der Westhuizen（2019），Nousias等人（2019），Magana和Munoz-Organero（2015），Lai（2015）和Jamson等人（2015）的方法只关注燃油经济性，而不是安全驾驶。Hoffman 和 van der Westhuizen （ 2019 ）， Yin 等人（ 2018 ）和Pariota等人（2016）中提到的过程为用户提供了生态驾驶提示，但缺乏安全反馈。现有的驱动磁阻的方法（Zhang等人，2020年; Zelzeli和Badia，2018年; Ji等人，2019年; Lin等人，2018年; Li等人，2018;Knoefel等人，2018;Pekkanen等人，2018）是基于一个理论模型，其中游戏反馈直接应用于发动机控制器或模拟器或自动驾驶汽车，这些方法的实际意义还有待研究。许多现有的方法要么集中在安全性或燃油经济性，也缺乏研究驾驶员应用博弈模型后驾驶行为变化的影响。因此，仍有研究范围应用游戏理论来加强生态安全驾驶行为，并优化驾驶员之间的驾驶效用，使所有人都受益。这项工作的其余部分详细介绍了拟议方法的细节。2.3. 辅助驾驶方法已经提出了用于导航、停车和驾驶评级等的不同类型的驾驶相关游戏，以增强乘客的体验质量（Bellotti等人， 2020年）。车道变换辅助-GTMPC选择一辆相邻车辆，在变道期间，主题车辆与之进行交通协商。Ji等人（2019）提出了一种基于游戏的控制框架，通过反馈控制转向系统。由Nash和Stackelberg开发的动态规划框架为智能电动助力转向（IEPS）系统提供了反馈，减少了驾驶员和机器之间的任何冲突。驾驶员和骑自行车者的驾驶交叉口场景-Kazeli和Badia（2018）提出了基于纳什均衡（NE）的贝叶斯博弈方法，以评估驾驶交叉口场景下驾驶员和骑自行车者各自的收益以及他们采取的相应行动。该理论有助于建模和定义道路使用者和自动驾驶汽车模型之间的战略最优轨迹发现使用任何一对车辆之间的历史和当前社会相关性来完成车辆的社会聚类SVRS不仅有助于确定最佳路线，还有助于减少交通拥堵。Li et al.（2018）定义了一个两级控制器，用于根据各种交通状况预测路径和驾驶员控制器预测参考轨迹并保持所需的转向角、加速度/减速度以使车辆保持在参考轨迹上。汽车跟随场景的驾驶辅助- Pekkanen等人。（2018）提出了一个计算模型，预测汽车跟随场景中领先车辆的速度该模型以车辆速度，领先距离，当前的加速/减速模式，拥堵流量，驾驶员的角度行为，注意力跨度和驾驶员的响应时间作为输入，并通过模型的控制器生成预测的领先车辆的加速度或减速度。Pariota等人（2016）提出了基于k均值聚类的汽车跟驰模型，用于从意大利和英国收集的高速公路数据。k-means聚类模型的工作原理是通过领先车辆的速度来实现领先空间保持的均衡。它根据引导者和跟随者之间的相对速度和引导空间来调整车辆基于减速的替代安全措施（DSSM）（Tak等人，2015）建议基于领先车辆速度、驾驶员对特定加速度的偏好、车辆的机械能力来保持安全阈值距离。它使用了下一代仿真（NGSIM）的轨迹数据，建议由Tak，Sehyun等人。可以看出，现有的方法集中在任何一个方面驾驶的能力。建议的工作涉及所有三个方面，并为驾驶员提供不显眼的帮助，以实现安全和经济的驾驶。3. 拟议方法可以通过培训来提高意识，但是，如果不定期提醒，人们可能会忘记所学内容（Sullman等人，2015年）。游戏方式通过持续的投入和激励作用使驾驶员的心理状态向积极的主动状态转变3.1. 问题公式化本研究的目的是提高驾驶员解决N. Jain和S. 米塔尔沙特国王大学学报7485--●2¼为了实现这一目标，我们的模型正在解决以下研究问题：研究问题1研究问题2 -研究问题3 -该模型确定了同时交通交互中两个驾驶员驾驶交互下驾驶员的最优反应。该模型可以进一步扩展到同时'n'驱动程序的情况下，通过聚合所有相邻车辆的交互得分。研究中的参考车辆和驾驶员分别被称为主体车辆和主体驾驶员。与目标驾驶员进行交通交互的相邻车辆和驾驶员称为目标车辆和目标驾驶员。3.2. 驾驶员攻击性对舒适性、安全性和燃油经济性的影响驾驶行为一直是影响行车安全和燃油经济性的主要因素之一。许多研究已经定义了有资格作为“风险/危险驾驶”的驾驶参数（Pozueco等人，2020;Hoffman和van der Westhuizen，2019;Bier等人，2019年;Yin等人，2020; Yin和Chen，2018; Bian等人， 2018年）。基于这些研究，在这项工作中，原始驾驶数据被推断为以下潜在变量，以捕捉侵略性。1) 剧烈加速/减速-当驾驶员的加速或减速在短时间内超过阈值时。特别地，如果驾驶员2) 急转弯如果车速超过60 km/h且车辆角速度在10-25度/秒范围内，则检测到急3) 超速4) 频繁加速/减速-交通拥堵或高峰时段行驶可能导致短时间内频繁减速和加速的模式。如果车辆的加速度/减速度在短时间内超过定义的频繁频繁加速或减速的阈值已被定义在0.25-1.25m/s 2的范围2然而，以下情况也可能导致冲突：当车辆在交叉路口或十字路口保持稳定速度时，车辆漂移以避免施加制动，这可能导致碰撞或安全危险。从燃料消耗的角度以及从安全的角度来看，红灯停车是好的，但如果尾随司机不能及时采取行动降低速度以避免碰撞，突然停车可能会导致追尾事故上述潜在参数已经从由OBD装置感测的原始驾驶数据导出。3.3. 基于BNE的驾驶博弈模型设计驾驶博弈模型用贝叶斯纳什均衡表示，其中驾驶员i（局中人i）具有其驾驶行为的信息，但不具有相邻驾驶员（集合Oi-1中的局中人）的信息.集合O i-1中的参与者构成除参与者i之外的所有相邻参与者的类型（Wu等人，2013年）。如果表现出表1该模型的目标是实现一种均衡状态，使所有驾驶员的效用可以最大化的基础上所采取的战略行动，他们的类型和相邻的驾驶员的行动无关。定义1. 当前上下文中的驾驶游戏模型可以在先验信念集合O下通过元组G1/数学地描述。驾驶游戏模型的属性描述如下：● N是f1; 2; 3;：;ng驱动程序（玩家）的数量Ti是驱动器is. t的类型。对于i 1 ; 2 ; 3 ;：; n，T i● Si是驾驶员i的动作或策略的集合，其中，第一卷;第二卷;第三卷;在这种情况下，它对应于三个选项中的任一个，加速表示为“A i“的车辆Si2 fAi;Di;Mig用于驱动程序i。● pi是给出概率分布集的概率函数在T-i上的bitions代表了如果他自己的类型是Ti，我会相信其他司机的类型。参与者i的动作由Oi表示的参与者类型确定：ri->其中DSi包括行动集Si上的所有概率分布，ri表示不同类型的局中人iTi2 {‘‘A”, ‘‘NA”} with probability distribution as ð分别因此，p i给出了其他驱动因素类型的概率猜测，作为条件概率，属于公知常识-0.25至-1.25m/s，取决于不同的车辆的速度范围所有事件的持续时间被捕获为事件结束时间和事件开始时间之间的差值，以毫秒为单位。上下文属性，如道路类型，旅行时间，交通拥堵流量在事件发生时也被捕获，并作为潜在变量的模型。如果驾驶员表现出任何上述行为，则其被称为攻击性驾驶员：表1中显示了各种类型的攻击性驾驶行为对燃料消耗、安全性和舒适性的影响。表1侵略性驾驶行为对燃油经济性、安全性和舒适性的影响攻击性驾驶行为燃油经济性安全舒适苛刻的加速;;;剧烈减速;;;超速行驶限制;;“急转弯;;;频繁加速/减速;;;●●●●●N. Jain和S. 米塔尔沙特国王大学学报7486×在所有参与的车手中。在仅两种类型的这种情况下，以概率P假设驾驶员j(A)= p和非攻击性，概率为p（NA）= 1- P● 效用函数u i：T × S？ R是这样的，对于任何行为的轮廓和任何类型的轮廓（t，s）e T S，u i（t，s）指定驱动者i将获得的收益。在我们的模型中，为攻击性或非攻击性驱动程序设置的动作是相同的，但是，驱动程序攻击性驾驶员可以选择更频繁地加速或减速，并且可以在几次保持较高的速度，而非攻击性驾驶员可以尝试保持较低的车辆速度，使得不需要频繁的加速或减速，并且偶尔加速或减速。将参与人i的混合策略映射到ri：Ti？ D Si，使得D Si表示Si上的所有概率分布的集合，其中ri表示参与者i的策略简档，其中i e {1，2，3，.. n}。取决在驾驶员Di的动作的分布上，用于加速（rAi）、减速（rDi）、保持速度（rMi）以及分别作为p（A）和p（NA）的攻击性和非攻击性的概率，混合驾驶动作的分布值可以是由Eqs描述。（1）-（3）分别：rAipA： rAiapNA： rAina 1rDipA： rDiapNA： rDina2rMipA： rMiapNA： rMina33.4. 基于BNE的模型在驾驶中的实现基于BNE优化的驱动模型的实现过程如图所示。1.一、正在采取以下步骤1. 首先，驾驶数据是从预先安装在车辆上的车载诊断设备中捕获的。2. 驾驶行为参数，如在剧烈加速，剧烈减速和发动机停止/怠速持续时间和巡航持续时间花费的时间用于计算潜在参数，它有助于建立主体驱动程序的攻击性类型。3. 相邻驾驶员的攻击性类型以概率p为攻击性，并计算其动作分布（rAi）、（rDi）、（rMi）。4. 加速、减速和保持速度的效用为所有相邻的驱动器聚合以获得交互效用。5. 舒适度和里程效用按公式计算。（4）、（5）。受试者驾驶员的驾驶效用按公式计算。（六）、6. BNE均衡是通过迭代消除严格劣势策略建立的。7. 在均衡条件下，根据驾驶效用最大化的策略配置文件采取适当的驾驶行为。BNE基于驾驶员攻击性的概率测量找到最佳策略通过迭代消除严格优势策略，找到了驾驶员的最优策略。3.4.1. 驾驶员一次旅行的整体驾驶效用是根据其舒适性、燃油里程和交通场景中的驾驶员互动来评估的。驾驶交互确定驾驶安全分数以及存在另一个目标驾驶员时的燃油效率，该目标驾驶员具有假定的驾驶攻击性类型和动作分布。作为我们模型的一部分，驾驶员1) 车辆巡航时间与总行程持续时间的百分比被认为是驾驶员的舒适效用，如等式2所述。（四）图1.一、基于贝叶斯纳什均衡的驾驶模型实现流程N. Jain和S. 米塔尔沙特国王大学学报7487P.Σ2fgP¼j1次跳闸持续时间j第1页保持速度为（rM目标），A1-j½1desiredMilk2fgaggInteractionUtil主题联系我们.- 是的ΣPnh巡航时间ji×燃料消耗量jJ（9）分别在目标驱动器ð4ÞD对于加速度定义为（r），减速度为（r），主题Pn燃料消耗目标Aj Dtarget其中j 1; 2; 3;：;n表示受试驾驶员FuelConsumedj表示行程j期间消耗的燃料。2) 驾驶员的里程效用是指燃油里程与期望里程的百分比，如方程式（1）所述对于特定有关司机所采取的行动：UsubjectArAtargetωA1rD targetωA4rM targetωA77U主题D目标ωA2目标D目标ωA 5目标M目标ωA 8目标 8目标（5）─受试者A目标 ωA3rD目标ωA6rM目标ωA99PnH里程ji×燃料消耗量j行程的驾驶交互效用是通过取5Þ加速度效用U（A）、减速度效用U（A）、主题¼n第1页燃料消耗量KUk（D），对应于第k个的速度维持效用Uk（M）其中j2f1; 2; 3;：;ng表示在行程中与所有目标驾驶员的互动，如主题驱动程序FuelConsumedj表示行程j期间消耗的燃料。3) 与其他驱动程序交互期间的实用程序定义为当量（十）、相互作用公用事业跳闸zk1/2[½rAk×UkArDk×UkDrM k×UkM]zð10Þ主题驱动程序的聚合交互实用程序（aggInteractionUtilsubject第3.4.2节描述了使用BNE策略计算驾驶员4) 驾驶员（6）─Usubject<$ comfort效用subject×u里程效用subject×v使用主题×w106其中u、v和w是为舒适效用、里程效用和相互作用实用等的uvw¼ 1，其中k 1; 2; 3;z表示由主体驱动器完成的第k次交互，z表示由驱动器进行的交互的总数。rAkrDkrMk¼10≤rAk;rDk;rMk≤ 1主体驾驶员的聚合驾驶交互效用可以通过针对主体驾驶员进行的所有行程取与FuelConsumedj成比例的interactionUtilj的加权平均来计算如Eq. （十一）、0≤u;v;w≤ 1。Pn相互作用效用j×燃料消耗j在舒适效用、里程效用和交互效用之间的平衡。n第1页燃料消耗jð11Þ其中j2 f 1; 2; 3;：;ng表示3.4.2. 驾驶员图2的游戏树描绘了在驾驶交互期间主体驾驶员D主体和目标驾驶员D目标之间的各种驾驶场景和动作可能性驾驶员D主体的加速、减速和保持速度的驾驶交互效用被定义为等式（1）中的U 主体（A）、U 主体（D）、U主体（M）（7）─主题驱动程序FuelConsumedj表示行程j期间消耗的燃料。作为主体驾驶员D主体和目标驾驶员D目标的各种动作的结果，它们之间的相对距离保持相同，或者增加，或者减小。当车辆之间的安全距离减小时，就会增加撞车的可能性图二. 贝叶斯网络下的驱动效用。P舒适度里程利用如Eq.系数u、v和w有助于实现N. Jain和S. 米塔尔沙特国王大学学报7488以下是导致车辆碰撞的一些示例场景：当两个车手都加速时，尾随车手Stengel，2015）。一些示例场景已在图1A和1B中详细说明。 3和4解释如何消除低效策略。3.5.1. 示例场景图 3阐述了一个保持安全距离的场景当前面的司机减速，后面的司机是不能降低速度。在非攻击性主体驾驶员D主题不具攻击性当尾随司机加速并与司机保持安全距离领先车辆减少更高的加速度可以减少行驶时间并提高燃油效率，但是，如果不能保持安全距离，则可能导致碰撞情况。因此，驾驶员必须采用稳态安全最大速度以同时实现安全性和燃料效率虽然D主体和D目标的各种其他可能的动作可能导致安全距离的保持或破坏，但它不会建立平衡。在与目标驾驶员D目标的交通交互期间，主体驾驶员D主体的效用受到影响，反之亦然。因此，主体驾驶员D主体在BNE下保持最优策略简档，而不管目标驾驶员D目标选择的任何动作。如果主体驾驶员D目标偏离最优策略简档，则D主体的效用不会增加，反之亦然。3.5. 游戏策略这项研究评估驱动程序的效用的基础上，对目标驱动程序的类型，他们的侵略性，并计划各自的驱动程序的行动，由主题驱动程序的某些信念。为了使所有驾驶员都获得最佳得分，BNE的策略以这样一种方式使用，即驾驶员的策略不根据对手驾驶员类型采取的不同行动而改变。如果U i（ri）> U i（si，r-i），则策略简档r被称为在BNE之下，其中r-i表示除策略ri之外的取决于驾驶员类型的所有其他策略。它表明，考虑到概率，参与人i不能选择比ri更好的替代策略不同玩家类型的能力分布及其动作分布。从驾驶员群体样本的现有数据中导出了驾驶员类型及其相应行为的概率分布。如图2所示，虚拟玩家“本性”选择驾驶员的攻击性类型为攻击性，概率为p，非攻击性，概率为（1-p）。这根据为BNE指定的先验概率分布定义了1级和2级选择的目标驱动程序和主题驱动程序的类型（Sullman等人，2015年）。p值取0.4根据当前样本群体攻击性分布。四种可能的博弈树是根据目标和主体驱动程序的攻击性类型形成的，如图所示。二、每个玩家可以采取3个动作，加速（A），减速（D）和保持速度（M）。玩家1，即主体驾驶员，由级别3处的红色圆圈表示，玩家2，即目标驾驶员，由级别4处的蓝色圆圈表示。在游戏树的底部显示了主体驾驶员和目标驾驶员的36种可能的驾驶实用程序组合。当每个玩家都有一个策略配置文件，最大限度地提高其效用，而不管对手采取的任何策略下，假设的概率是积极的驱动程序作为p.一旦BNE实现后，消除无效的策略迭代，并实现最大限度地提高所有玩家的效用的解决方案。博弈论探索者（Sullman等人，2015）用于绘制博弈树，并通过迭代消除严格支配策略（Savani和von目标驱动程序的实用程序是使用分布导出的不同的行动和球员类型的作用，如Eqs.（1）这个问题的解决方案是通过迭代消除严格支配策略（Savani和von Stengel，2015）。博弈树最左边的分支强调了解决方案，建议双方驾驶员在保持安全距离的同时加速。如果D目标偏离减速或保持速度，则D目标的效用降低，因此如果D主体加速，则D目标不会偏离加速如果D主体减速，则D目标加速并获得更好的效用，而D主体的效用降低。类似地，当D主体保持速度时，D目标也保持速度以最大化其效用，然而，D主体实现的效用变得低于在加速动作的情况下实现的效用因此，D主体和D目标都图4详细描述了攻击性主体驾驶员D主体和攻击性目标驾驶员D目标的场景，其中概率为0.16，并且用于加速、减速和保持速度的动作分布（1）当两个驾驶员都减速以保持安全距离并避免碰撞时，平衡就实现了。如果D主体或D目标偏离均衡策略，则会导致非最优解，例如碰撞情况或驾驶效用降低。主体和目标驾驶员的瞬时效用取决于驾驶员问题的解决方案可以根据计算的效用以及主体驱动器D主体和目标驱动器D目标之间的相对距离而变化。使用BNE评估动态决策，以识别驾驶员的适当动作响应4. 结果4.1. 实验设计本研究中涉及的所有车辆都预装了工厂安装的OBD设备。车辆GPS定位的数据收集，加速和减速的桨统计已经使用OBD完成，并且车辆上的传感器在自然条件下以每分钟1次的采样率进行。如图5所示，OBD（车载诊断）设备插入汽车的OBD-II端口，并包括内置GPS/ GPRS、陀螺仪和加速度计传感器。OBD可以连接到控制器局域网（CAN），并访问各种电子控制单元捕获的原始数据捕获的数据通过蜂窝网络发送到云服务器。不同驾驶风格的驾驶员在不同时间（如表2所述的白天、夜晚和高峰时间）穿越23个地理分布的城市，包括高速公路和城市地区。司机没有得到任何具体的指示，做任何危险的驾驶，并应该执行自然驾驶。分析了9名驾驶员2317次出行数据。从表2中给出的细节可以看出，本研究使用了大约35，000 km的行驶数据。驾驶员的行车情况的变化由于所进行的行程次数、所覆盖的总行程距离、总行程时间和行程期间的平均速度而更加明显。驾驶数据的收集分为两个阶段，第一阶段包括数据●●●N. Jain和S. 米塔尔沙特国王大学学报7489图3.第三章。BNE-非攻击性见图4。 BNE第一阶段包括在应用游戏模型之前的数据收集，并且第二阶段包括在应用游戏模型之后的数据收集。表3解释了使用原始数据推导出的驾驶行为属性，用于根据等式1计算舒适度评分、里程评分、驾驶员行为评分和驾驶员行为评分。（4）和（5）。考虑驾驶员高速加速或减速的总持续时间以及停车和巡航时间。基于驾驶行为属性，评估主体驾驶员的驾驶攻击性类型。目标驾驶员的驾驶行为分布由方程估计。（1）主体驱动器的动作响应由方程表示。（7）-（9）假设由等式（1）表示的目标驱动器的动作分布，（1）类似地，假设目标驾驶员知道他的攻击性类型，目标驾驶员也可以计划驾驶响应，并且可以基于主体驾驶员的攻击性概率来导出目标驾驶员的动作分布。在BNE导致的均衡下，所有驱动器都以这样的方式被优化，即如果任何驱动器偏离所建议的动作策略，则其降低了最终的驱动效用。4.2. 结果每个驾驶员的净效用是通过结合舒适度、里程数和根据等式的总交互效用来计算的。（六）、图6对应用BNE模型前后的驾驶员9名司机的驾驶效用计算了1175次旅行前应用所提出的模型，并与1140次旅行后应用BNE模型的驾驶效用进行比较。在将净效用分数映射到从等式[0-1]中获得的范围[0-1]中的值之后，净效用分数在0- 100%的范围内表示（六）、如图6所示，所有驾驶员的总驾驶员驱动程序2，4，5和6显示10%至17%的改善，他们的综合驾驶后游戏。表4中还列出了游戏前后的舒适度、里程和交互的组成效用的总结。它可以看出，BNE Gaming模型为驾驶员带来了更好的燃油经济性和舒适性。由于巡航时间百分比的增加，驾驶员2、5和6显示出舒适度分数的大约30%的改善，并且其余驾驶员显示出高达10%的改善。游戏后驾驶互动效用显示所有驾驶员的改善在4%-7%的范围内，而燃油经济性的改善在10%-20%的范围内。在9名驾驶员中，4名驾驶员表现出显著改善，而其他5名驾驶员则表示其各自的效用有中度改善。这表明，拟议的游戏为基础的方法已成功地提高用户对生态安全和舒适的驾驶动机。4.3. 讨论所提出的BNE模型恰当地解决了所有的研究问题。图五.数据收集和处理N. Jain和S. 米塔尔沙特国王大学学报表27490所有驾驶员的行程详情。ID旅行次数覆盖距离（公里）平均最高速度（公里/小时）平均速度（公里/小时）持续时间（小时）司机14244,8467924201驱动程序241510,7556431276驱动程序35246,2026625208驱动程序4821,279823036驱动程序51692,419772576驱动程序62744,6417425149驱动程序72813,3006423146驱动程序8901,385702745驱动程序9581,051702632表3驾驶行为的已处理属性的详细信息。博弈模型由于更少的燃料消耗、更少的驾驶努力、持续的安全驾驶，变量名变量单位范围（秒）描述帮助司机，让他保持专注。AccDUR毫秒0-438000与高或频繁使用的时间加速度DecDUR毫秒0-38000高或频繁使用的时间减速StopDUR毫秒0-27673 停止时间车辆CruiseDUR毫秒0-5007000期间在旅行中花费的时间巡航4.3.1. 研究问题1 -如何基于博弈论的模型在舒适性，安全性和燃油经济性方面提高驾驶员的效用？基于博弈论的BNE模型将驾驶舒适度作为效用计算的一部分，作为驾驶员在行程中巡航的时间百分比（四）、无需加速或减速即可巡航车辆，从而使努力最小化，从而提高驾驶员的舒适度驾驶员在游戏后的驾驶舒适度得分提高了30%类似地，根据Eq.（5）也是驾驶效用优化的一部分，并且里程分数在游戏后显示出10%-20%的驾驶交互得分由Eq.（11）安全性与经济性相结合驾驶交互得分有助于实现最佳稳态速度，最大限度地减少加速度或减速度。它在燃油效率和安全性之间取得了平衡。应用BNE后驾驶4.3.2. 研究问题2基于贝叶斯纳什均衡的模型利用自然界作为虚拟玩家的一种，根据攻击性玩家的种群分布来估计相邻玩家的攻击性。主题驱动程序根据其他驱动程序的类型和动作分布应用贝叶斯策略。假设主体驾驶员的类型已知，主体驾驶员通过使用所有其他驾驶员的类型和动作的概率分布来应用条件贝叶斯概率。BNE通过迭代地消除低效策略来帮助找到最优策略。通过选择驾驶员类型的概率分布和相邻驾驶员采取的行动的混合，所有驾驶员的策略分布达到平衡。结果表明，驾驶员的驾驶得分从5%提高到17%。4.3.3. 研究问题3 -如果以最小的努力以生态安全的方式完成旅行，司机会感到成就感和内在BNE模型增加了车辆巡航的时间百分比，从而减少疲劳并提高燃油经济性。通过游戏后评估观察到，游戏理论通过以下方式对驾驶者的驾驶行为带来了长期变化见图6。驱动程序N. Jain和S. 米塔尔沙特国王大学学报7491-Driver0saggBeha vior¼j¼1%violationRate1表4舒适，军事，互动和网络实用程序舒适分数Milestone评分交互分数驾驶评分ID预邮政预邮政预邮政预邮政司机1百分之六十四百分之七十一百分之五十七百分之七十二占6%百分之十百分之三十九百分之四十七驱动程序2百分之五十七百分之八十九百分之九十二百分之九十九占7%百分之八百分之四十七百分之六十驱动程序3百分之七十三百分之七十五百分之九十六百分之九十九占6%百分之十三百分之五十三百分之五十八驱动程序4百分之六十八百分之七十七百分之六十七百分之八十六占7%百分之十二百分之四十三百分之五十四驱动程序5百分之五十四百分之八十一百分之七十二百分之九十三百分之四百分之十百分之三十九百分之五十六驱动程序6百分之五十二百分之八十四百分之七十八百分之九十四占6%占7%百分之四十二百分之五十六驱动程序7百分之七十九百分之八十一百分之八十三百分之九十五百分之五百分之九百分之五十百分之五十六驱动程序8百分之七十七百分之八十三百分之八十三百分之九十九百分之四百分之九百分之五十百分之五十八驱动程序9百分之八十三百分之八十四百分之七十四百分之九十一百分之三百分之八百分之四十八百分之五十六帮助他们并使他们参与到一个真实的驾驶场景中，在这个场景中，其他相邻驾驶员的攻击性是未知的。4.4. 与现有方法的采用博弈模型后，驾驶行为有所改善，例如保持低侵略性和减少违规次数。它导致了减少驾驶员驾驶行为攻击性。据我们所知，现有的方法都没有设计出基于效用的评估机制来评估驾驶员生态安全驾驶的改善然而，为了建

下载后可阅读完整内容，剩余1页未读，立即下载