自动变速器中齿轮换挡控制器的深度强化学习

3 浏览量更新于2023-12-06 收藏 12.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

gearshift controller synthesis by means of deep reinforcement learning(DRL) methods.The key contributions of this paper are the design of a learningframework in simulation including a Markov decision process (MDP)formulation of the shifting task and the successful transfer of DRLagents for gearshift control trained in simulation to a real transmis-sion using two different transfer approaches. Measurements on theMercedes-Benz 9G-TRONIC show that DRL-based gearshift controllersoutperform the shifting quality of conventional control approachesand the automated process considerably reduces the effort of manualcalibration for gearshift controller synthesis.To the best of our knowledge, this work is the first to successfullyapply DRL techniques for the closed loop control of a real worldtransmission of realistic complexity.0Array 15（2022）1002350获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。0ScienceDirect提供的内容列表0Array0期刊主页：www.elsevier.com/locate/array0自动变速器中齿轮换挡控制器的深度强化学习0Gerd Gaiselmann a，1，Stefan Altenburg a，�，1，Stefan Studer a，Steven Peters b0a 德国梅赛德斯-奔驰集团，b德国Darmstadt工业大学，汽车工程研究所（FZD）0文章信息0关键词：深度强化学习模拟到真实的转移领域适应汽车自动变速器换挡0摘要0现代汽车自动变速器中的换挡控制设计是一项具有挑战性且耗时的任务，需要经过高度训练的专家来完成。这是因为需要操纵各种非线性和部分可观测系统，以便在足够低的换挡时间内实现舒适的换挡行为。所提出的方法利用深度强化学习（DRL）来控制换挡，优于当前最先进的控制器性能。这需要将换挡任务构建为马尔可夫决策过程，通过设计合适的动作和观测空间以及有意义的奖励函数。由于DRL方法的样本复杂性，控制代理在模拟中进行训练，然后转移到测试台上的真实变速器。为了成功地将DRL代理从模拟转移到现实，采用了领域随机化和利用进化优化的领域适应等方法。据作者所知，这项工作是首次成功将DRL应用于实际复杂度的汽车自动变速器的闭环控制。01. 引言0现代自动变速器是高端车辆传动系统的关键组成部分，对驾驶性能和能源效率有很高的要求。电气、液压和机械部件的相互作用使得换挡快速而舒适。在考虑的这种类型的变速器中进行换挡时，通过液压作用的多片离合器连接或断开不同行星齿轮组的轴，从而改变变速器中的动力传递。因此，换挡控制器需要操纵这些离合器，以便快速而舒适地改变动力传递，并具有很高的可靠性。在这项工作中，我们专注于连接轴的同步过程。涉及的各种非线性子系统以及部分可观测性使得设计这些控制器成为一项复杂而费时的任务。经典的控制方法需要通过高度训练的专家在测试台上进行大量的物理实验，并在车辆运行过程中进行参数图的繁琐调整。在游戏玩法[1,2]、机器人技术[3-6]和工厂控制[7,8]等方面取得的最新成功案例，促使我们将强化学习（RL）技术应用于换挡控制器的合成。我们提出的方法如图1所示，通过深度强化学习（DRL）方法实现了部分自动化的换挡控制器合成。本文的主要贡献是在模拟中设计了一个学习框架，包括换挡任务的马尔可夫决策过程（MDP）的制定，以及成功将在模拟中训练的DRL代理转移到真实变速器的两种不同转移方法。在梅赛德斯-奔驰9G-TRONIC上的测量结果表明，基于DRL的换挡控制器优于传统控制方法的换挡质量，并且自动化过程大大减少了换挡控制器合成的手动校准工作量。据我们所知，这项工作是首次成功将DRL技术应用于实际复杂度的真实世界变速器的闭环控制。0� 通讯作者。电子邮件地址：gerd.gaiselmann@mercedes-benz.com（G. Gaiselmann），stefan.altenburg@mercedes-benz.com（S.Altenburg）。1 这些作者贡献相同。02. 相关工作02.1.换挡的自动化功能开发0除了传统的手动校准和优化开环和闭环控制器参数映射之外，还有一些部分0https://doi.org/10.1016/j.array.2022.100235收稿日期：2021年12月17日；修订稿收到日期：2022年7月15日；接受日期：2022年7月15日20Array 15 (2022) 1002350G. Gaiselmann等0图1.本文的贡献示意图：深度强化学习(DRL)被应用于控制自动变速器中的换挡。控制代理在模拟中进行训练，然后转移到测试台。展示了几种方法，有助于成功地从源领域转移到目标领域。请注意，并非所有方法都同时应用。0存在用于换挡控制的自动化方法。手动校准主要是通过在道路测试中改变参数映射来进行的，直到得到的换挡符合执行工程师预期的特性。存在许多客观标准来表达主观换挡质量，例如振动剂量值(VDV)[9]或驾驶座纵向加速度的幅度和均方根值[RMS][10]。利用这些客观评价标准，已经开发和发布了不同的校准自动化方法，利用模糊逻辑和进化算法[11,12]或基于梯度的优化高阶多项式函数，将控制参数映射到舒适性[13]。02.2.汽车应用和变速器控制中的(深度)强化学习0尽管近年来RL取得了快速进展，但在汽车行业中只有少数应用。汽车行业中RL的常见应用包括自动停车系统[14]、自动驾驶[15]、发动机控制，例如怠速控制[16]或涡轮增压器增压控制[17]，以及各种混合能源管理策略，例如[18,19]。然而，许多当前的研究项目在健壮性、安全性和质量方面都处于中间状态，远未能用于系列生产。在变速器控制方面，工作领域包括最佳换挡选择[20,21]以及控制换挡过程本身。Becsi等人[22,23]应用深度双Q网络和策略梯度(PG)来离散动作控制重型车辆自动手动变速器的双作用浮动活塞缸的电磁阀。他们使用同步器和换挡来控制同步。在纯模拟训练后，他们发现在测试台上使用蒙特卡洛树搜索(MCTS)获得了更好的结果。最佳结果和实时性能是通过PG-MCTS代理实现的。他们还表明，在标称条件下，PID控制器可以实现更好的性能，但在更广泛的环境设置下，PG控制器的效果更好。Sommer Obando[24]应用表格Q学习和SARSA算法来控制摩擦离合器上的法向力，以减少离合器抖动。然而，这项工作在控制任务上进行了相当简化，忽略了现实汽车变速器的几个方面，如非线性执行器动态和部分可观测性。此外，当将代理从模拟转移到实验变速器时，报告了实质性的性能损失。0RL技术也被用于学习湿式变速器中开环控制的控制轨迹[25-28]。他们既在模拟中进行离线学习，也在实际离合器上进行在线学习。他们应用RL来优化参数化的控制配置文件，类似于传统控制。由于他们使用开环控制，代理的实时动作计算不会被执行，这显著降低了问题的复杂性，但也没有利用代理的控制能力。Lampe等人[29]使用DDPG代理在简化的模拟中学习闭环策略。他们表明，所得到的代理可以控制自动手动变速器(AMT)和双离合器变速器(DCT)的车辆启动中的离合器。然而，并没有对实际变速器或汽车进行验证。先前的研究表明，无模型离线软演员-评论家(SAC)代理可以实现与传统闭环控制器类似的结果，用于自动变速器中湿式离合器的激活过程[30]。学习过程和比较是在模拟中执行的。与前述工作相反，本文是第一个成功将DRL应用于真实世界汽车自动变速器的闭环控制，其复杂性是现实的。02.3. 深度强化学习代理的模拟到真实转移0尽管深度强化学习（DRL）近年来在模拟环境中取得了令人印象深刻的成果，但其在实际系统中的应用仍然是一个备受关注的开放问题，在强化学习社区中引起了越来越多的关注[31]。由于DRL方法的样本复杂性较高，以及它们在训练初期的次优行为，DRL代理通常更倾向于在模拟环境中进行训练，以限制训练时间和对物理系统的磨损。这导致了需要将代理从它们接受训练的模拟源域转移到它们应该控制的物理目标域（见图1）。这就是所谓的从模拟到真实的转移。关于利用强化学习在实际系统中的挑战的广泛概述可以在[32]中找到。本文克服这些挑战的最相关方法是域随机化（DR）和域自适应（DA）。将DRL代理从模拟转移到现实中的转移挑战源于代理过度拟合模拟表示或利用建模不准确性。当转移到物理系统时，这些策略表现出降低的性能，甚至可能导致完全失败。DR通过扰动环境的表示在指定范围内，强迫代理处理各种类似但不同的环境，使其控制策略对一定程度的表示不确定性具有鲁棒性。例如，这可以通过随机化输入数据的表示[33,34]或通过改变模拟器的动态参数[35]来实现。DA旨在通过调整模拟器来减少模拟和现实之间的差异，使其行为尽可能类似于物理系统的测量。关于这方面的不同方法在[36-38]中有报道。这些方法共享一个基本概念，即从物理系统中收集数据，并使用无梯度优化来调整模拟器的动态参数，以使其与这些测量值相匹配，因为模拟器通常是不可微分的。弥合模拟到真实差距的其他方法包括通过增强模拟模型来提高模拟保真度[39,40]，训练能够适应环境变化的代理[35,41-46]，以及以对抗的方式训练代理以强化鲁棒性[36,47-49]。3In an automotive drivetrain, a transmission transfers torque androtational speed provided by the engine to the driven wheels. A varietyof transmission ratios represented by different gears is required fordifferent driving situations. In most automatic transmission, powerflows over different sets of planetary gears which can be coupled anddecoupled in various ways by means of electro-hydraulically actuatedwet running multi plate clutches to realize different overall transmis-sion ratios. Coupling and decoupling of planetary gear sets by engagingand disengaging those clutches represents the shifting procedures in theconsidered automatic transmission. The presented work focuses solelyon shifting from neutral to first gear. This is achieved by engaging asingle clutch of the transmission, in a stationary condition or duringforwards or backwards coasting. Therefore, no torque transfer betweentwo clutches is necessary, resulting in an easier control problem com-pared two dynamic shifts which require control of two clutches andthe engine. However, the difference in transmission output torque fromstart to end of the shift is higher. Furthermore, due to lash between gearteeth and the clutch plate teeth and its carrier, a gentle touchpoint be-havior is important. In this paper, constant transmission temperature isconsidered. In conventional control, temperature dependent parametermaps are used to allow control at low temperatures.𝑛(𝑡) = 𝑛(𝑡0) − ∫𝑡0𝑇1 − 𝑇𝑠𝐼1+ 𝑇𝑠 − 𝑇2𝐼2𝑑𝑡(1)𝑇𝑠 = 𝐹𝑛 ⋅ 𝑧 ⋅ 𝑟𝑚 ⋅ 𝜇(2)𝐹𝑛 = 𝑓(𝑝, 𝐼𝑐, 𝐻ℎ, 𝐻𝑠)(3)𝜇 = 𝑓(𝑝𝑐, 𝑇𝑓𝑝, 𝑞𝑜𝑖𝑙, 𝑛(𝑡0), 𝑛, 𝑥)(4)0Array 15（2022）1002350G. Gaiselmann等人0在汽车传动系统中，变速器将发动机提供的扭矩和转速传递给驱动轮。不同驾驶情况需要不同的传动比，由不同齿轮代表。在大多数自动变速器中，动力通过不同组行星齿轮传递，这些行星齿轮可以通过电液控湿式多片离合器以各种方式耦合和解耦，以实现不同的整体传动比。通过启动和解除这些离合器来耦合和解耦行星齿轮组代表了所考虑的自动变速器中的换挡过程。本文仅关注从空挡到一挡的换挡。这是通过在静止状态或前进或后退滑行时启动变速器的单个离合器来实现的。因此，不需要在两个离合器之间进行扭矩传递，从而导致了一个更简单的控制问题，与需要控制两个离合器和发动机的动态换挡相比。然而，换挡过程中的传动输出扭矩差异较大。此外，由于齿轮和离合器板齿之间以及其载体之间的间隙，温和的接触行为是很重要的。本文考虑恒定的传动温度。在传统控制中，使用温度相关参数图来允许在低温下进行控制。03. 转移控制任务03.1. 离合器的接合0如图2所示，电液驱动湿式多片离合器的功能由液压驱动活塞、多个摩擦片和用于离合的回弹弹簧组成。由于摩擦片交替连接到轴1和轴2，这些摩擦片之间的摩擦允许将扭矩 � �从一个轴传递到另一个轴。为了使离合器接合，轴1和轴2之间的初始相对转速 � ( �0 ) 需要同步为零。假设轴1为输入轴，轴2为输出轴，则相对转速（滑动速度） �与滑动扭矩 � � 之间的关系由以下公式给出0其中 � 1 和 � 2 分别是轴1和轴2的扭矩， � 1 和 � 2代表输入和输出的惯性。为了实现理想的换挡行为，需要通过激活控制电磁阀来激活 � �，该电磁阀将高压作用剂油引导到离合器的油路中。油室中的压力产生的力对活塞产生作用，抵消回弹弹簧力。由于液压力超过了弹簧力，活塞0图2. 基于[ 50 ]的湿式离合器的示意横截面0移向摩擦片。一旦接触点达到，活塞接触摩擦片并施加一个法向力 � �，使其能够传递滑动扭矩0除了取决于摩擦片配对的数量 � ，它们的平均摩擦半径 � � 以及它们的摩擦系数 �外，还取决于 � � 。常数因子 � 和 � � 取决于离合器的设计，而0是系统压力 � 、电液供应的控制电流 � � 、液压管路到活塞的传递函数 � �以及油室压力 � �� 到有效离合器力 � �的传递函数的非线性函数，所有输入都受到不确定性的影响。摩擦系数0是摩擦片的表面压力 � � 、它们的温度 � �� 、冷却油体积流量 � �� 以及初始 � ( � 0 )和当前相对转速 � 以及其他非主导因素（统称为 � ）的非线性函数。 � � 和 �都是嘈杂的，无法在现场测量。列出的依赖关系、不确定的影响因素和随时间的误差聚合使得控制换挡变得复杂。有关液压控制路径的概述，请参阅附录A.1。03.2. 传统换挡控制0在考虑的情况下，以及一般情况下，大多数换挡的传统激活逻辑由开环控制和从属PI控制器组合以及自适应方案组成，以实现离合器滑速的期望轨迹。换挡过程可以分为两个主要阶段：活塞充液直到活塞接触摩擦片和同步阶段。在充液期间，无法测量变量的变化。因此，开环控制器遵循预定义的电流轨迹，该轨迹使用为一系列操作点（如温度和扭矩需求）设计的参数图。这种开环控制基于前几次换挡的速度的初始变化而自适应改进。在同步期间，除了前馈控制器外，还根据传感器信号计算当前滑速，并将其与预定义的轨迹进行比较。偏差用于反馈控制执行电流。控制器可以增加或减少可传递的离合器扭矩，从而改变滑速并避免不良的抖动。然而，这种传统的控制策略有几个缺点，例如受限的激活范围，以确保用小的抖动进行校正，以及无法预测和对抗未来偏移，因为PID控制只能对已经发生的错误做出反应。Array 15 (2022) 1002354G. Gaiselmann et al.∫′ 𝑇 (𝑠, 𝑎, 𝑠′)𝑑𝑠′ = P(𝑆𝑠𝑡+1 ∈ 𝑆′ 𝑠𝑡 = 𝑠, 𝑎𝑡 = 𝑎)P(𝜏 𝜋) = P(𝑠0)𝑡=𝑡0𝑇 (𝑠𝑡, 𝑎𝑡, 𝑠𝑡+1)𝜋(𝑎𝑡 𝑠𝑡).sp(𝑡) = max((𝑛(𝑡0) − 𝑛(𝑡))∕𝑛(𝑡0), 0)04. 方法论0在第 3 节介绍的转移控制任务旨在0由DRL算法解决。特别地，考虑了两种最先进的（SOTA）无模型DRL方法，即Proximal Policy Optimization (PPO) [ 51 ] 和Soft Actor Critic (SAC) [ 52 ]用于控制问题。在第 4.1节中简要介绍了强化学习（RL）的一般概念和利用的算法。0为了有效地学习良好的策略，合适的制定0将控制任务视为MDP，包括观察和动作空间的精心设计以及制定有意义的奖励函数，至关重要。解决方案见第 4.2节。为了将从模拟中学到的代理转移到现实中，我们在第 4.3节中介绍了所采取的措施。DR被应用于使代理对来自测试台的测量噪声以及参数不确定性具有鲁棒性。此外，介绍了两种DA方法，一种依赖于测试驱动更新，另一种依赖于数据驱动优化，以减少模拟与现实之间的差距。04.1. 深度强化学习04.1.1. 强化学习简介0在RL中，代理通过与环境的交互学习某种行为0环境。这种形式主义建立在MDP框架之上。在本文中，考虑由元组 ( �, �, � , � )定义的完全可观测MDP，其中连续状态空间 � ∈ R � 为 0 < � < ∞ ，动作空间 �∈ R 。环境的转移函数 � ( �, �, � ′ ) ，其中 � ∈ � 且 �, � ′ ∈ � ，给出了在状中执行动作 � 时转移到下一个状态 � ′的概率。由于在我们的情况下状态空间是连续的，转移函数指定了概率密度函数（PDF），使得0表示动作 � 在状态 � 中导致转移到区域 � ′ � �的概率。在每个状态转移时，MDP发出有界奖励 � ∶ � × � × � ′ → R。RL代理由策略 � ( � | � ) ∶ � → P ( � ) 表示，将状态映射到连续动作空间 �上的概率密度函数，其中对策略的每个查询给定特定状态 �从条件分布中采样一个动作 � 。基于描述的设置，轨迹或回合 � = ( � 0 , � 0 , � 1 , … , � � −1 , � � −1 , � � ) 定义为状态序列0和从任意策略 � 中采样的动作。更确切地说，轨迹 � = ( � 0 , � 0 , � 1 , � 1 , … , −1 , � � −1 , � � ) 的可能性 P ( � | � )0在策略 � 下的行为由0代理的目标是最大化折扣回报 � = ∑ � � = � 0 � � � ( � � , � � ) ，其中 � ∈ [0 , 为折扣因子， � ≤ ∞ 为0每个episode的时间跨度。学习过程中的目标是找到一个最优策略 � � ，使期望回报 � ( � ) = E [ � | � ] 最大化：04.1.2. 深度强化学习算法0两种SOTA无模型深度强化学习方法，即PPO算法0算法[ 51 ]和SAC算法[ 52 ]被应用于转移控制任务。0PPO代表基于策略的在线深度强化学习算法，基于策略0梯度公式[ 53]。因此，PPO可以仅使用在当前策略下观察到的轨迹来执行策略更新。为了稳定学习，PPO利用了剪切梯度更新的概念，这受到了有信任区域来限制梯度更新的想法的启发[ 54 ]，同时计算上要求较少。0此外，本文中使用的实现利用了广义优势估计公式[55]来权衡策略更新所需的优势估计的偏差和方差。0SAC是一种演员-评论家Q学习离线策略DRL算法。因此，0任何策略下观察到的状态转移都可以用于策略学习。除了连续深度Q学习的其他重要概念，例如重放缓冲区和目标Q网络[1]，演员-评论家架构[56]和剪辑双Q学习[57]，SAC还包括[58]中引入的软MDP形式。因此，SAC学习了一个最大化预期回报和策略熵的随机策略。我们的实现利用了[52]中提出的SAC改进架构。04.2.换挡任务的马尔可夫决策过程公式化0将RL技术应用于换挡控制任务需要0将换挡过程公式化为MDP。因此，需要设计代理环境交互，定义适当的状态和动作空间公式。此外，需要设计一个奖励函数，向代理传达理想的行为。0换挡过程根据辅助测量进行结构化0确保换挡进程0描述已同步的初始相对旋转速度的部分。基于这个公式，换挡过程可以分为三个子阶段 �� :0• �� = 1：填充阶段：0%–10%的换挡进程 • �� =2：功率转换阶段：10%–90%的换挡进程 • �� =3：协调阶段：90%–100%的换挡进程。0在填充阶段，油流入活塞腔室并0活塞向摩擦片移动，但摩擦片上没有施加显著的法向力，导致滑动力矩接近零。10%的阈值是基于专家知识的工程决策，使得相位定义对于当前相对旋转速度的测定中的感知噪声具有鲁棒性。从10%到90%的换挡进程对应的相位称为功率转换相位。在这个阶段，活塞对离合器施加显著的法向力，并且实现了同步的主要部分。协调相位对应于从90%到100%的换挡进程。在这个阶段，同步了相对旋转速度的最后部分。经验研究表明，代理从同步阶段的这种细分中受益，因为输入状态的额外变化导致了更平滑的最终同步。04.2.1.状态公式化0环境状态 � � 的定义为0• 自启动换挡程序以来的经过时间（以毫秒为单位）：0• 换挡进度 �� ( � ) • 相位 �� ( � ) • 施加到电磁阀的控制电流 � � ( � ) •填充状态 �� ( � )0提供了传动系统操作点的简洁而富有表现力的表述。大部分用于状态表述的信号在上面已经介绍，而填充状态信号需要进一步解释。0为了满足成本效益设计的高要求，0传动系统仅提供最相关的换挡过程传感器，导致换挡过程的部分可观测性54.2.3. Reward formulationThe main objective of the shifting control task are fast, yet comfort-able gear shifts. Fast corresponds to a short time from initialization ofthe shift procedure until complete synchronization of relative rotationalspeed, whereas comfortable corresponds to a low longitudinal jerkduring shifting.0Array 15 (2022) 1002350G. Gaiselmann等人0这是RL方法部署中已知的挑战，特别是在填充阶段系统的状态没有明确的物理测量可用。然而，为了实现高性能换档，精确地知道活塞何时开始接触摩擦板并传递滑动扭矩至关重要。因此，训练了填充状态估计模型以克服填充期间的部分可观测性。填充状态估计器实现为前馈神经网络（FNN），在监督学习设置中进行训练（见附录A.4）。为了生成标记的训练数据，生成了随机长度的 � �执行轨迹。一半轨迹完全随机生成，而另一半轨迹是传统执行策略的随机化和嘈杂版本。这解决了填充状态估计器需要对任何执行都进行足够准确的预测，但对合理轨迹需要更精确的预测的事实。应用随机长度的轨迹后，控制电流保持恒定在其最大水平。一旦达到从填充阶段到功率转换阶段的相位转变，即换档进度达到10％，则停止运行并存储相应的数据。对于每次运行，随机控制电流轨迹是特征，直到填充完成的最大电流时间步数是标签。因此，FNN被训练来预测到目前为止应用于系统的控制电流的历史，还有多少时间步骤的最大电流执行剩下，直到填充完成。在填充阶段，估计的填充状态 �� 提供给代理，而在随后的阶段，该值设置为−1，以指示填充状态估计器处于非活动状态。04.2.2. 行动制定该策略向环境提供的不是直接的控制电流 � � 作为行动 � �，而是作为行动应用于液压压力控制阀的微分控制电流，即 � �,� +1 = � �,� + � �。行动根据换档过程的阶段进行了调整。因此，行动 � ∈ [−1, 1]根据以下公式进行修改：0� � = { 100 � � ，填充阶段 10 � � ，功率转换和协调阶段。0这是因为在填充阶段，代理需要在很大范围内变化执行，而在随后的阶段需要谨慎执行，因为控制电流的变化会强烈影响滑动扭矩。这样一来，可能解决方案的空间通过去除一些不切实际的解决方案而受到限制。这显然加快了学习过程。0与同步离合器的相对旋转速度的梯度相关的 � �。因此，快速和舒适是换档过程的竞争目标，因为相对旋转速度的高梯度会导致快速而不舒适的换档，反之亦然。奖励制定0� = � 1 � � �� + � 2 � � �� + � 3 � � �� + � 4 � � �� + � 5 � � �� 0以加法方式包括这两个目标。为了强制实现快速换档，在每个模拟时间步骤中都会给出一个恒定的惩罚 � �� 。为了惩罚不舒适的换档，会应用基于 �的立方绝对值的惩罚 ��。此外，还添加了基于各种专家知识的惩罚：对于换档进度的减少，会给出密集惩罚 � �� ，以强制相对旋转速度的单调减少。最后0图3. 测试期间代理的所有解决方案（灰色），具有设置 � 1 ∈ [0.01, 0.05, 0.1, 0.5, 1, 2, 5]的代理的平均收敛点（彩色六边形）和帕累托最优解（三角形）。（有关本图例中颜色的解释，请参阅本文的网络版本。）0在填充阶段，添加了两个可选的奖励：一个是超过最大可接受填充时间的惩罚��，另一个是基于填充阶段结束时控制电流超过预定义最大值的惩罚��，超过该值将无法实现舒适的换挡。如果代理无法在规定的时间内完成完整的换挡过程，则根据实现的换挡进度给予额外的密集惩罚��。专家奖励项最终应该趋近于零，一旦代理收敛于最优解。通过通过�1和�2对竞争目标进行不同的加权，可以训练出不同帕累托最优解的代理，从而产生要么舒适缓慢的换挡，要么具有更高 jerk峰值的运动换挡。图3描述了在模拟测试中使用��的加权值�1∈[0.01，0.05，0.1，0.5，1，2，5]对传动输出jerk的均方根（RMS）值和代理的同步时间的各种组合。�1=1给出了jerk和换挡时间奖励的平衡加权，与系列生产的传统控制相当。对于每个设置，训练了20个代理进行了200万个时间步长，这大致相当于40,000次换挡。所有代理在训练设置内收敛到了稳定的策略。对于每个设置，收敛点以颜色显示。图3中的每个测试点对应于代理找到的解决方案。从这组解决方案中，确定了帕累托最优解并以蓝色三角形表示。收敛点的排列符合预期顺序，随着�1的增加，换挡时间越长，越平滑，从而验证了所选的奖励制定。在初始探索阶段，代理找到了许多换挡时间在0.75秒以下且 jerk非常高的解决方案。校准工程师需要确定帕累托前沿线上的目标。然而，要在靠近帕累托前沿线上实现鲁棒的解决方案变得越来越复杂，因为交互次数很少，对于长换挡时间，长期依赖性增加了控制任务的难度。04.3. 从模拟器到传动系统的转移0代理的验证是在专用传动测试台上进行的，该测试台使用生产系列传动。测试台由电机组成，用于模拟燃烧发动机和汽车的行驶阻力。电机和传动都连接到一个高度精确的模拟器，模拟传动剩余部分和所有必要的ECU。只有代理的策略网络用于计算电磁液压阀的控制输入。当部署到真实传动时，代理的控制性能可能会受到模拟到真实的差距的影响60Array 15（2022）1002350G. Gaiselmann等人0在第2.3节中介绍。为了实现成功的转移，利用了两种DR和两种DA方法。为了评估换挡质量，最佳实践是定义关键绩效指标（KPI）[59]。总换挡时间�的均值�和标准偏差�以及jerk的均方根（RMS）值��被用作KPI，基于第4.2.3节中定义的竞争目标。04.3.1. 领域随机化0为了使DRL代理对有限的不确定性具有鲁棒性0关于同步过程的动态行为，训练期间从高斯分布中对已知对离合器动态至关重要的不同模拟参数进行采样（见图1）。这些参数主要影响�、��和��，并迫使代理在面对其环境的未知行为时学习出鲁棒的策略。分布的均值要么是专家知识的期望值，要么是经过优化以适应真实传动动力学的值。方差被选择为工程决策，以产生足够鲁棒但不过于保守的代理。此外，策略还必须对来自传感器的噪声具有鲁棒性。因此，在计算状态的换挡过程之前，对模拟器的相对转速添加了高斯噪声。有关随机化参数的完整列表，请参阅附录A.2。04.3.2. 领域适应方法：测试驱动0液压控制路径（附录A.1）中的一个主要挑战是0填充阶段的延迟系统响应，其中在填充完成之前无法测量到相对旋转速度的变化。如果腔室过度填充，活塞以较高的速度到达触点，导致初始jerk较高。由于部分可观测性，代理受填充状态估计器的引导，在填充过程中对其行为产生很大影响。在这个测试驱动的领域适应方法（DA1）中，策略是在模拟器的标准设置上进行训练的，其中动态参数被选择为在测试台上被假定的参数。在训练期间，DR处于活动状态，以创建能够处理模拟和测试台参数之间的小差异的稳健代理。通过将这些训练过的策略转移到测试台，使用标准策略执行了多次换挡。然后，填充状态估计器被调整到观察到的这次换挡的行为，即对填充状态��应用线性校正，使其与测试台传动的行为相匹配（见图1）。然后，具有调整后填充状态估计器的相同策略在传动测试台上进行了测试。04.3.3. 领域适应方法：数据驱动0数据驱动的领域适应方法（DA2）旨在减少0模型不准确，导致模拟器动态与真实系统之间存在偏差（见图1）。0专家确定并调整这些参数，使其尽可能类似于来自真实系统的测量数据。为了优化这些参数，收集了一批在测试台上的换挡。从测试台观察到的动作轨迹被应用于模拟器，并制定了一个损失函数，以最小化相对旋转速度�和液压系统压力在模拟器和真实系统之间的轨迹偏差。由于模拟器不可微分，使用了协方差矩阵调整进化策略（CMA-ES）优化器[60]来调整动态参数。CMA-ES是一种最先进的无梯度优化器，特别适用于具有高维搜索空间的连续域中的黑盒优化问题[61]。优化后的值用作DR分布的均值。0图4.由PPO代理执行的换挡程序。PPO在纯模拟训练后学习了控制电流��的合适激活，触发了相对旋转速度�的快速降低，保持最大的jerk�较低（带有DA2的PPOSim，10次模拟运行的平均值）。当转移到传动测试台时，PPO策略会产生高且不舒适的jerk�（PPOTB标准，50次测试台运行的平均值和标准偏差）。根据DA2方法优化模拟器（见第4.3.3节），并在此环境中训练新的代理，实现了成功的模拟到真实的转移（带有DA2的PPOTB，50次测试台运行的平均值和标准偏差）。（有关本图例中颜色的解释，请参阅本文的网络版本。）05. 结果0上述介绍的方法的结果在下面呈现0以下。PPO代理进行的换挡显示在图4中，而SAC代理进行的换挡显示在图5中。这两个图表说明了换挡过程的三个最相关的指标，即磁阀上的控制电流取决于代理的动作，需要将离合器上的相对旋转速度同步到零，并且换挡产生的jerk需要保持较低以实现舒适的换挡。SAC和PPO都能够学习适合的策略在模拟中进行高性能的换挡。这可以从图4和5中的黑色虚线中看出。这些虚线描述了在模拟中使用DR训练的一个代理的10次换挡过程的平均值。对于这两种算法，都在模拟中训练了五个代理（训练超参数列在附录A.3中），并使用了DR（噪声超参数列在附录A.2中），最表现最好的代理用于进行绘制的换挡过程。这两种算法都学会了激活策略，以快速将相对旋转速度降至零，同时产生较低的jerk。这是通过在换挡开始时以高控制电流快速填充腔室油来实现的。当活塞开始接触摩擦板时，控制电流逐渐减小，以便逐渐产生正常力和因此渐进的滑移扭矩，导致相对旋转速度的缓慢降低，从而产生较低的jerk。在同步过程中，控制电流缓慢但持续地增加，导致可持续上升的可传递滑移扭矩。一旦相对旋转速度达到零，硬编码逻辑会将控制电流加速到最大值以锁定离合器。由于DRL代理在此过程中不受控制，因此这种加速过程不被视为换挡过程的一部分。0将这些策略直接转移到测试台上而不进行0应用DA，预期会导致换挡质量下降。图4和图5中的橙色图表显示了由相同代理进行的50次测试台换挡的平均值和标准差，与模拟中的换挡相同。由于实际传动的活塞比模拟中更早地接触摩擦板，控制电流未能及时减少。这导致可传递的滑移扭矩急剧上升，产生高峰值冲击。SAC和PPO代理的换挡质量都70Array 15（2022）1002350G. Gaiselmann等0图5.SAC代理进行的换挡过程。SAC在纯粹的模拟训练后学习了控制电流��的合适激活，触发了相对转速�的快速降低，保持冲击�在低水平（SACSim，10次模拟运行的平均值）。当转移到传动测试台时，SAC策略在同步轨迹上产生了高方差，关键性能指标下降（SACTB标准，50次测试台运行的平均值和标准差）。然而，根据DA1（见第4.3.2节）方法调整填充状态估计模型后，可以报告成功的模拟到实际转移（SAC TB with DA1，50次测试台运行的平均值和标准差）。（有关本图图例中颜色的解释，请参阅本文的网络版本。）0不可接受。因此，成功转移训练代理需要DA方法。在传动测试台上评估PPO的最佳结果可以通过数据驱动的DA2方法（见第4.3.3节）实现，而SAC的最佳结果是应用测试驱动的DA1方法（见第4.3.2节）。0图4和图5中的紫色图表显示了KPI的平均值和标准050次使用相应DA方法的代理进行的换挡的标准差。可以观察到，两个DA代理显示出明显减

下载后可阅读完整内容，剩余1页未读，立即下载