自动变速器中齿轮换挡控制器的深度强化学习

111 浏览量更新于2023-12-05 收藏 12.88MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

gearshift controller synthesis by means of deep reinforcement learning(DRL) methods.The key contributions of this paper are the design of a learningframework in simulation including a Markov decision process (MDP)formulation of the shifting task and the successful transfer of DRLagents for gearshift control trained in simulation to a real transmis-sion using two different transfer approaches. Measurements on theMercedes-Benz 9G-TRONIC show that DRL-based gearshift controllersoutperform the shifting quality of conventional control approachesand the automated process considerably reduces the effort of manualcalibration for gearshift controller synthesis.To the best of our knowledge, this work is the first to successfullyapply DRL techniques for the closed loop control of a real worldtransmission of realistic complexity.0Array 15（2022）1002350获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。0ScienceDirect提供的内容列表0数组0期刊主页：www.elsevier.com/locate/array0自动变速器中齿轮换挡控制器的深度强化学习0Gerd Gaiselmann a，1，Stefan Altenburg a，�，1，Stefan Studer a，Steven Peters b0a 德国梅赛德斯-奔驰集团，b德国Darmstadt工业大学，汽车工程研究所（FZD）0文章信息0关键词：深度强化学习模拟到真实的转移领域适应汽车自动变速器换挡0摘要0现代汽车自动变速器中的换挡控制设计构成了一项具有挑战性且耗时的任务，需要由经过高度训练的专家来执行。这是因为需要操纵各种非线性和部分可观测系统，以便在足够低的换挡时间内实现舒适的换挡行为。所提出的方法利用深度强化学习（DRL）来控制换挡，优于当前最先进的控制器性能。这需要将换挡任务构建为马尔可夫决策过程，通过设计合适的动作和观测空间以及有意义的奖励函数。由于DRL方法的样本复杂性，控制代理在模拟中进行训练，然后转移到测试台上的真实变速器上。为了成功地将DRL代理从模拟转移到现实，采用了领域随机化和利用进化优化的领域适应等方法。据作者所知，这项工作是首次成功将DRL应用于实际复杂度的汽车自动变速器的闭环控制。01.介绍0现代自动变速器是高端车辆传动系统的关键组成部分，对驾驶性能和能源效率要求高。电气、液压和机械部件的相互作用使得换挡快速而舒适。为了在考虑的类型的变速器中进行换挡，通过液压作动的多片离合器连接或断开不同行星齿轮组的轴，从而改变传动中的动力流。因此，换挡控制器需要操纵这些离合器，以便快速而舒适地转移动力流并具有很高的可靠性。在这项工作中，我们专注于连接轴的同步过程。涉及的各种非线性子系统以及部分可观测性使得这些控制器的设计成为一项复杂而费时的任务。经典的控制方法需要通过高度训练的专家在测试台上进行大量的物理实验和车辆操作来繁琐地调整参数映射。在游戏玩法[1,2]、机器人技术[3-6]和工厂控制[7,8]等难题控制方面的最新成功案例，激发了将强化学习（RL）技术应用于换挡控制器合成的动力。我们提出的方法如图1所示，通过深度强化学习（DRL）方法实现了部分自动化的换挡控制器合成。本文的主要贡献是在模拟中设计了一个学习框架，包括换挡任务的马尔可夫决策过程（MDP）的制定，并成功地将在模拟中训练的DRL代理转移到真实变速器中，使用了两种不同的转移方法。在梅赛德斯-奔驰9G-TRONIC上的测量结果表明，基于DRL的换挡控制器优于传统控制方法的换挡质量，并且自动化过程大大减少了换挡控制器合成的手动校准工作量。据我们所知，这项工作是首次成功地将DRL技术应用于实际复杂度的实际变速器的闭环控制。0� 通讯作者。电子邮件地址：gerd.gaiselmann@mercedes-benz.com（G. Gaiselmann），stefan.altenburg@mercedes-benz.com（S.Altenburg）。1 这些作者贡献相同。02.相关工作02.1.换挡的自动化功能开发0除了传统的手动校准和优化开环和闭环控制器参数映射外，还有一些部分0https://doi.org/10.1016/j.array.2022.100235收稿日期：2021年12月17日；修订稿收到日期：2022年7月15日；接受日期：2022年7月15日20Array 15（2022）1002350G. Gaiselmann等0图1.本文的贡献示意图：深度强化学习（DRL）被应用于控制自动变速器中的换挡。控制代理在模拟中进行训练，然后转移到测试台。展示了几种方法，有助于成功地从源领域转移到目标领域。请注意，并非所有方法都同时应用。0存在用于换挡控制的自动化方法。手动校准主要通过在繁琐的道路测试中改变参数映射来完成，直到得到的换挡满足执行工程师的预期特性。存在许多客观标准来表达主观的换挡质量，例如振动剂量值（VDV）[9]或驾驶座横向加速度的幅度和均方根（RMS）值[10]。利用这些客观评价标准，已经开发和发布了不同的校准自动化方法，利用模糊逻辑和进化算法[11,12]或基于梯度的优化高阶多项式函数，将控制参数映射到舒适性[13]。02.2.汽车应用和变速器控制中的（深度）强化学习0尽管近年来RL取得了快速进展，但在汽车行业中只有少数应用。汽车行业中RL的常见应用包括自动停车系统[14]、自动驾驶[15]、发动机控制，例如怠速控制[16]或涡轮增压控制[17]，以及各种混合能源管理策略，例如[18,19]。然而，许多当前的研究项目在稳健性、安全性和质量方面都处于中间阶段，远未能用于系列生产。在变速器控制方面，工作领域包括最佳换挡选择[20,21]以及控制换挡过程本身。Becsi等人[22,23]应用深度双Q网络和策略梯度（PG）来离散动作控制重型车辆自动手动变速器的双作用浮动活塞缸的电磁阀。他们使用同步器和换挡来控制同步。在纯粹在模拟中训练后，他们发现在测试台上使用蒙特卡洛树搜索（MCTS）获得更好的结果。最佳结果和实时性能是通过PG-MCTS代理实现的。他们还表明，在正常条件下，PID控制器可以在一定范围内实现更好的性能，但在更广泛的环境设置下，PG控制器的效果更好。SommerObando[24]应用表格Q学习和SARSA算法来控制摩擦离合器上的法向力，以减少离合器抖动。然而，这项工作在很大程度上简化了控制任务，忽略了现实汽车变速器的几个方面，如非线性执行器动力学和部分可观测性。此外，将代理从模拟转移到实验变速器时报告了实质性的性能损失。0RL技术也被用于学习湿式离合器在变速器中的开环控制轨迹[25-28]。他们既在模拟中进行离线学习，也在实际离合器上进行在线学习。他们应用RL来优化参数化控制曲线，类似于传统控制。由于他们使用开环控制，代理的实时行动计算不会被执行，这显著降低了问题的复杂性，但也没有充分利用代理的控制能力。Lampe等人[29]使用DDPG代理在简化的模拟中学习闭环策略。他们表明，所得到的代理可以控制自动手动变速器（AMT）和双离合器变速器（DCT）的车辆启动时的离合器接合。然而，并没有对实际变速器或汽车进行验证。先前的研究表明，无模型离线软演员-评论家（SAC）代理可以在模拟中实现与传统闭环控制器类似的结果，用于自动变速器中湿式离合器的激活过程[30]。学习过程和比较是在模拟中执行的。与前述工作相反，本文是第一个成功将DRL应用于真实世界汽车自动变速器的闭环控制，其复杂性符合实际。02.3. 深度强化学习代理的模拟到真实转移0尽管深度强化学习（DRL）近年来在模拟环境中取得了令人印象深刻的成果，但其在实际系统中的应用仍然是一个备受关注的问题，引起了强化学习社区的日益关注[31]。由于DRL方法的样本复杂性较高，并且在训练初期表现不佳，DRL代理通常更倾向于在模拟环境中进行训练，以限制训练时间和对物理系统的磨损。这导致了需要将代理从它们接受训练的模拟源领域转移到它们所要控制的物理目标领域（见图1）。这就是所谓的从模拟到真实的转移。关于利用强化学习在实际系统中的挑战的广泛概述可以在[32]中找到。本工作克服这些挑战的最相关方法是领域随机化（DR）和领域适应（DA）。将DRL代理从模拟转移到现实中的转移挑战源于代理对模拟表示的过度拟合或利用建模不准确性。当转移到物理系统时，这些策略表现出降低的性能，甚至可能导致完全失败。DR通过在指定范围内扰动环境的表示来解决这个问题，因此代理被迫处理各种类似但不同的环境，使其控制策略对一定程度的表示不确定性具有鲁棒性。例如，这可以通过随机化输入数据的表示[33,34]或通过改变模拟器的动态参数[35]来实现。DA旨在通过调整模拟器来减少模拟与现实之间的差异，使其行为尽可能类似于物理系统的测量值。关于这方面的不同方法在[36-38]中有报道。这些方法共享一个基本概念，即从物理系统中收集数据，并使用无梯度优化调整模拟器的动态参数，因为模拟器通常是不可微分的。弥合从模拟到真实的差距的其他方法包括通过增强模拟模型来提高模拟保真度[39,40]，训练能够适应环境变化的代理[35,41-46]，以及以对抗的方式训练代理以强化鲁棒性[36,47-49]。3In an automotive drivetrain, a transmission transfers torque androtational speed provided by the engine to the driven wheels. A varietyof transmission ratios represented by different gears is required fordifferent driving situations. In most automatic transmission, powerflows over different sets of planetary gears which can be coupled anddecoupled in various ways by means of electro-hydraulically actuatedwet running multi plate clutches to realize different overall transmis-sion ratios. Coupling and decoupling of planetary gear sets by engagingand disengaging those clutches represents the shifting procedures in theconsidered automatic transmission. The presented work focuses solelyon shifting from neutral to first gear. This is achieved by engaging asingle clutch of the transmission, in a stationary condition or duringforwards or backwards coasting. Therefore, no torque transfer betweentwo clutches is necessary, resulting in an easier control problem com-pared two dynamic shifts which require control of two clutches andthe engine. However, the difference in transmission output torque fromstart to end of the shift is higher. Furthermore, due to lash between gearteeth and the clutch plate teeth and its carrier, a gentle touchpoint be-havior is important. In this paper, constant transmission temperature isconsidered. In conventional control, temperature dependent parametermaps are used to allow control at low temperatures.𝑛(𝑡) = 𝑛(𝑡0) − ∫𝑡0𝑇1 − 𝑇𝑠𝐼1+ 𝑇𝑠 − 𝑇2𝐼2𝑑𝑡(1)𝑇𝑠 = 𝐹𝑛 ⋅ 𝑧 ⋅ 𝑟𝑚 ⋅ 𝜇(2)𝐹𝑛 = 𝑓(𝑝, 𝐼𝑐, 𝐻ℎ, 𝐻𝑠)(3)𝜇 = 𝑓(𝑝𝑐, 𝑇𝑓𝑝, 𝑞𝑜𝑖𝑙, 𝑛(𝑡0), 𝑛, 𝑥)(4)0数组15（2022）1002350G. Gaiselmann等0在汽车传动系统中，变速器将发动机提供的扭矩和转速传递给驱动轮。不同的齿轮代表着不同的驾驶情况所需的各种传动比。在大多数自动变速器中，动力通过不同组的行星齿轮传递，这些齿轮可以通过电液控湿式多片离合器以各种方式耦合和解耦，以实现不同的整体传动比。通过启动和停止这些离合器的耦合和解耦来实现所考虑的自动变速器中的换挡过程。本文仅关注从空档到一档的换挡。这是通过启动变速器的单个离合器，在静止状态或在前进或后退滑行时实现的。因此，不需要在两个离合器之间传递扭矩，这导致了一个更简单的控制问题，与需要控制两个离合器和发动机的动态换挡相比。然而，换挡过程中传动输出扭矩的差异更大。此外，由于齿轮齿和离合器盘齿及其载体之间的间隙，温和的接触行为是很重要的。在本文中，考虑恒定的传动温度。在传统控制中，使用温度相关参数图来允许在低温下进行控制。03. 转移控制任务03.1. 离合器接合0如图2所示，电液驱动湿式多片离合器的功能由液压驱动活塞、多个摩擦片和用于离合器解除的回弹弹簧表示。由于摩擦片交替连接到轴1和轴2，摩擦片之间的摩擦允许将扭矩 � �从一个轴传递到另一个轴。为了接合离合器，轴1和轴2之间的初始相对旋转速度 �( � 0 )需要同步为零。假设轴1为输入轴，轴2为输出轴，则相对旋转速度（滑动速度） �与滑动扭矩 � � 之间的关系由以下公式给出0其中 � 1 和 � 2 分别为轴1和轴2的扭矩， � 1 和 � 2代表输入和输出的惯性。为了实现理想的换挡行为，需要通过激励控制电磁阀来激励 � �，该电磁阀将高压作动油导入离合器的油路。油室内的压力产生的力对活塞产生作用，抵消回弹弹簧力。由于液压力超过了弹簧力，活塞0图2. 基于[50]的湿式离合器的示意横截面0向摩擦片移动。一旦接触点达到，活塞接触摩擦片并施加一个法向力 � �，使其能够传递滑动扭矩0除了取决于摩擦片对的数量 � ，它们的平均摩擦半径 � � 和摩擦系数 �外，还取决于 � � 。常数因子 � 和 � � 取决于离合器的设计，而0是系统压力 � 、电磁阀的控制电流 � � 、液压管路到活塞的传递函数 � �以及油室压力 � �� 到有效离合器力 � �的传递函数的非线性函数，所有输入都受到不确定性的影响。摩擦系数0是摩擦片的表面压力 � � 、它们的温度 � �� 、冷却油体积流量 � �� 以及初始 � ( � 0 )和当前相对旋转速度 � 以及其他非主导因素（统称为 � ）的非线性函数。 � � 和 �都是嘈杂的，无法在现场测量。列出的依赖关系、不确定的影响因素和随时间的误差累积使得控制换挡变得复杂。有关液压控制路径的概述，请参阅附录A.1。03.2. 传统换挡控制0在考虑的情况下，以及大多数换挡情况下，传统激励逻辑包括开环控制和一个从属的PI控制器，结合自适应方案来实现离合器滑速的期望轨迹。换挡过程可以分为两个主要阶段：活塞充液直到活塞接触摩擦片和同步阶段。在充液过程中，无法测量变量的变化。因此，开环控制器遵循预定义的电流轨迹，该轨迹使用为一系列操作点（如温度和扭矩需求）设计的参数图。这种开环控制基于先前换挡速度的初始变化而自适应改进。在同步期间，除了前馈控制器外，当前滑速是从传感器信号计算出来并与预定义轨迹进行比较。偏差用于反馈控制激励电流。控制器可以增加或减少可传递的离合器扭矩，从而改变滑速并避免不良的颠簸。然而，这种传统的控制策略有几个缺点，例如受限的激励范围，以确保用小颠簸进行校正，以及无法预测和对抗未来偏移，因为PID控制只能对已经发生的错误做出反应。Array 15 (2022) 1002354G. Gaiselmann et al.∫′ 𝑇 (𝑠, 𝑎, 𝑠′)𝑑𝑠′ = P(𝑆𝑠𝑡+1 ∈ 𝑆′ 𝑠𝑡 = 𝑠, 𝑎𝑡 = 𝑎)P(𝜏 𝜋) = P(𝑠0)𝑡=𝑡0𝑇 (𝑠𝑡, 𝑎𝑡, 𝑠𝑡+1)𝜋(𝑎𝑡 𝑠𝑡).sp(𝑡) = max((𝑛(𝑡0) − 𝑛(𝑡))∕𝑛(𝑡0), 0)04. 方法论0在第 3 节介绍的转移控制任务旨在0由DRL算法解决。特别地，考虑了两种最先进的（SOTA）无模型DRL方法，即Proximal Policy Optimization（PPO）[ 51 ]和Soft Actor Critic（SAC）[ 52]被应用于控制问题。在第 4.1节中给出了强化学习（RL）的一般概念和利用的算法的简要介绍。0为了有效地学习良好的策略，合适的制定0将控制任务视为MDP，包括观察和动作空间的精心设计以及制定有意义的奖励函数，这是至关重要的。解决方案见第 4.2节。为了将从模拟中学到的代理转移到现实中所采取的措施见第 4.3节。DR被应用于使代理对来自测试台的测量噪声以及参数不确定性具有鲁棒性。此外，提出了两种DA方法，一种依赖于测试驱动更新，另一种依赖于数据驱动优化，以减小模拟到真实的差距。04.1. 深度强化学习04.1.1. 强化学习简介0在RL中，代理通过与环境的交互学习某种行为0环境。这种形式主义建立在MDP框架之上。在本文中，考虑了由元组 ( �, �, � , � )定义的全观察MDP，其中连续状态空间 � ∈ R � ，对于 0 < � < ∞ ，动作空间 �∈ R。环境的转移函数 � ( �, �, � ′ ) ，其中 � ∈ � 和 �, � ′ ∈ � ，给出了在状中执行动作 � 时转移到后续状态 � ′的概率。由于在我们的情况下状态空间是连续的，转移函数指定了一个概率密度函数（PDF），使得0表示动作 � 在状态 � 中导致转移到区域 � ′ � �中的状态的概率。在每个状态转移时，MDP发出有界奖励 � ∶ � × � × � ′ → R。RL代理由一个策略 � ( � | � ) ∶ � → P ( � ) 表示，将状态映射到连续动作空间 �上的概率密度函数，其中对策略的每个查询在给定特定状态 �时从条件分布中抽样一个动作 � 。基于描述的设置，轨迹或回合 � = ( � 0 , � 0 , � 1 1 , … , � � −1 , � � −1 , � � ) 被定义为状态序列0和从任意策略 � 中抽样的动作。更确切地说，轨迹 � = ( � 0 , � 0 , � 1 , � 1 , … , −1 , � � −1 , � � ) 的可能性 P ( � | � )0在策略 � 下的行为由0代理的目标是最大化折扣回报 � = ∑ � � = � 0 � � � ( � � , � � ) ，其中 � ∈ [0 , 是折扣因子， � ≤ ∞ 是0每个episode的时间跨度。学习过程中的目标是找到最优策略 � � ，使期望回报 � ( �) = E [ � | � ] 最大化：04.1.2. 深度强化学习算法0两种SOTA无模型深度强化学习方法，即PPO算法0算法[ 51 ]和SAC算法[ 52 ]被应用于转移控制任务。0PPO代表基于策略的深度强化学习算法，基于策略0梯度公式[ 53]。因此，PPO可以仅使用在当前策略下观察到的轨迹来执行策略更新。为了稳定学习，PPO利用了剪切梯度更新的概念，这受到了有信任区域来限制梯度更新的想法的启发[ 54 ]，同时计算上要求较少。0此外，本文中使用的实现利用了广义优势估计公式[55]来权衡策略更新所需的优势估计的偏差和方差。0SAC是一种演员-评论家Q学习离线策略的DRL算法。因此，0任何策略下观察到的状态转移都可以用于策略学习。除了连续深度Q学习的其他重要概念，如重放缓冲区和目标Q网络[1]，演员-评论家架构[56]和剪辑双Q学习[57]，SAC还包括[58]中介绍的软MDP公式。因此，SAC学习了一个最大化预期回报和策略熵的随机策略。我们的实现利用了[52]中提出的SAC改进架构。04.2.换档任务的马尔可夫决策过程公式化0将RL技术应用于换档控制任务需要0将换档过程公式化为MDP。因此，需要设计代理环境交互，定义适当的状态和动作空间公式。此外，需要设计一个奖励函数，向代理传达理想的行为。0换档过程按辅助测量进行结构化0确保换档进程0描述已经同步的初始相对旋转速度的部分。基于这个公式，换档过程可以分为三个子阶段 �� :0• �� = 1 : 填充阶段：0%–10%的换档进程 • �� = 2 :功率转换阶段：10%–90%的换档进程 • �� = 3 :和谐化阶段：90%–100%的换档进程。0在填充阶段，油流入活塞腔室0活塞向摩擦片移动，然而对摩擦片施加的正常力不大，导致滑动扭矩接近零。10%的阈值是基于专家知识的工程决策，使得相位定义对于确定当前相对旋转速度的感知噪声具有鲁棒性。从10%到90%的换档进程对应的相位称为功率转换相位。在这个阶段，活塞对离合器施加了显著的正常力，并且实现了同步的主要部分。和谐化阶段对应于从90%到100%的换档进程。在这个阶段，同步了相对旋转速度的最后部分。经验研究表明，代理从同步阶段的这种细分中受益，因为输入状态的额外变化导致了更平滑的最终同步。04.2.1.状态公式化0环境状态 � � 定义为0• 自初始化换档过程以来的经过时间（以毫秒为单位）：0• 换档进度 �� ( � ) • 相位 �� ( � ) • 施加到电磁阀的控制电流 � � ( � ) •填充状态 �� ( � )0提供了传动装置操作点的紧凑而富有表现力的公式。大部分用于状态公式的信号在上面已经介绍，而填充状态信号需要进一步解释。0为了满足成本效益设计的高要求，0传动装置仅提供最相关的换档过程测量传感器，导致换档过程的部分可观测性54.2.3. Reward formulationThe main objective of the shifting control task are fast, yet comfort-able gear shifts. Fast corresponds to a short time from initialization ofthe shift procedure until complete synchronization of relative rotationalspeed, whereas comfortable corresponds to a low longitudinal jerkduring shifting.0数组15（2022）1002350G. Gaiselmann等人0这是部署RL方法中已知的挑战，特别是在填充阶段系统的状态没有明确的物理测量。然而，为了实现高性能的换挡，精确地知道活塞何时开始接触摩擦片并传递打滑转矩至关重要。因此，训练了填充状态估计模型以克服填充过程中的部分可观测性。填充状态估计器被实现为一个前馈神经网络（FNN），在监督学习设置中进行训练（见附录A.4）。为了生成标记的训练数据，生成了随机长度的 � �执行轨迹。一半的轨迹是完全随机生成的，而另一半的轨迹是常规执行策略的随机化和嘈杂版本。这解决了填充状态估计器需要对任何执行进行足够准确的预测，但对合理轨迹需要更精确的预测。应用随机长度的轨迹后，控制电流保持在其最大水平。一旦达到从填充阶段到动力转换阶段的相位转变，即换挡进度达到10％，则停止运行并存储相应的数据。对于每次运行，随机控制电流轨迹是特征，直到填充完成的最大电流时间步数是标签。因此，FNN被训练来预测在给定到目前为止应用于系统的控制电流历史的情况下，还有多少时间步骤的最大电流执行剩下，直到填充完成。在填充阶段，估计的填充状态 ��提供给代理，而在随后的阶段，此值设置为−1，以指示填充状态估计器处于非活动状态。04.2.2. 动作制定策略不直接将控制电流 � � 作为动作 � �提供给环境，而是将其作为应用于液压压力控制阀的微分控制电流作为动作，即 � �,�+1 = � �,� + � �。动作根据换挡过程的阶段进行缩放。因此，动作 � ∈ [−1, 1]根据以下公式进行修改：0� � = { 100 � � , 填充阶段 10 � � , 动力转换和协调阶段 .0这是因为在填充阶段，代理需要在很大范围内改变执行，而在随后的阶段需要谨慎执行，因为控制电流的变化会强烈影响离合器的打滑转矩。这样一来，可能解决方案的空间通过去除一些不切实际的解决方案而受到限制。这显然加快了学习过程。0与相对旋转速度的梯度相关的 ��。因此，快速和舒适是换挡过程的竞争目标，因为相对旋转速度的高梯度会导致快速而不舒适的换挡，反之亦然。奖励制定0� = � 1 � � �� + � 2 � � �� + � 3 � � �� + � 4 � � �� + � 5 � � �� 0以加法方式包括这两个目标。为了实现快速换挡，在每个模拟时间步骤中都会给出一个恒定的惩罚 � ��。为了惩罚不舒适的换挡，会应用基于 � 的立方绝对值的惩罚��。此外，还添加了基于各种专家知识的惩罚：对于换挡进度的减少，会给出一个集的惩罚 � ��，以强制相对旋转速度的单调减少。最后0图3. 测试过程中代理的所有解决方案（灰色），具有设置 � 1 ∈ [0.01, 0.05, 0.1, 0.5, 1, 2, 5]的代理的平均收敛点（彩色六边形）和帕累托最优解（三角形）。（有关本图例中颜色的解释，请参阅本文的网络版本。）0在填充阶段，添加了两个可选的奖励：一个是超过最大可接受填充时间的惩罚��，另一个是基于填充阶段结束时控制电流超过预定义最大值的惩罚��，超过该值将无法实现舒适的换挡。如果代理无法在给定的时间限制内完成完整的换挡过程，则会根据实现的换挡进度给予额外的密集惩罚��。专家奖励项最终应趋近于零，一旦代理收敛于最佳解。通过通过�1和�2对竞争目标进行不同的加权，可以训练出不同帕累托最优解的代理，从而产生要么舒适缓慢的换挡，要么具有更高冲击峰值的运动换挡。图3描述了在模拟测试中使用��的加权值�1∈[0.01，0.05，0.1，0.5，1，2，5]时，传动输出冲击的均方根（RMS）值和代理同步时间的各种组合。�1=1给出了冲击和换挡时间奖励的平衡加权，与系列生产的传统控制相当。对于每个设置，训练了20个代理进行了200万时间步的训练，这大致相当于4万次换挡。所有代理在训练设置内收敛到了稳定的策略。对于每个设置，收敛点以颜色显示。图3中的每个测试点对应于代理找到的解。从这组解中，确定了帕累托最优解并表示为蓝色三角形。收敛点的排列符合预期顺序，随着�1的增加，换挡时间越长，越平稳，从而验证了所选的奖励公式。在初始探索阶段，代理找到了许多换挡时间在0.75秒以下且冲击过高的解。校准工程师需要确定帕累托前沿的目标。然而，要在靠近帕累托前沿实现稳健的解决方案变得越来越复杂，因为短换挡时间的交互很少，长换挡时间的长期依赖性增加了控制任务的难度。04.3. 从模拟器到传动的转移0代理的验证是在专用传动测试台上进行的，该测试台使用生产系列传动。测试台由电机组成，用于模拟燃烧发动机和汽车的行驶阻力。电机和传动都连接到一个高度精确的模拟器，模拟传动剩余部分和所有必要的ECU。只有代理的策略网络用于计算电磁阀的控制输入。当部署到真实传动时，代理的控制性能可能会受到模拟到真实的差距的影响6apFigs. 4 and 5 show the mean and standard deviation of 50 shifts onthe test bench conducted by the same agent as was used for shifting insimulation. As the piston of the real transmission touches the frictionplates earlier than in simulation, control current is not reduced on time.This causes an abrupt rise in transferable slipping torque resulting inhigh peaks of jerk. Shifting quality of both SAC and PPO agents are0Array 15（2022）1002350G. Gaiselmann等人0在第2.3节中介绍。为了实现成功的转移，利用了两种DR和两种DA方法。为了评估换挡质量，最佳做法是定义关键绩效指标（KPI）[59]。总换挡时间�的均值�和标准偏差�以及换挡冲击的均方根（RMS）值��被用作KPI，基于第4.2.3节中定义的竞争目标。04.3.1. 领域随机化0为了使DRL代理能够抵御有限程度的不确定性0关于同步过程的动态行为，训练期间从高斯分布中对已知对离合器动态至关重要的不同模拟参数进行抽样（见图1）。这些参数主要影响�，��和��，并迫使代理学习在面对其环境的未知行为时的稳健策略。分布的均值要么是专家知识的期望值，要么是经过优化以适应真实传动动力学的值。方差被选择为工程决策，以产生足够稳健但不过于保守的代理。此外，策略还必须能够抵御传感器噪声。因此，在计算状态的换挡过程之前，对模拟器的相对转速添加了高斯噪声。有关随机化参数的完整列表，请参阅附录A.2。04.3.2. 领域适应方法：测试驱动0液压控制路径（附录A.1）中的一个主要挑战是0在充填阶段，液压控制路径（附录A.1）中的一个主要挑战是延迟的系统响应，在这个阶段测不到相对转速的变化。如果腔室过度充填，活塞以很高的速度到达接触点，导致高初始jerk。由于部分可观察性，代理受到充填状态估计器的引导，在充填期间对其行为产生很大影响。在这个测试驱动的领域适应方法（DA1）中，策略是在模拟器的标准设置上进行训练的，其中动态参数被选择为在测试台上被假定的参数。在训练期间，DR处于活动状态，以创建能够处理模拟和测试台参数之间小差异的强健代理。通过将这些训练过的策略转移到测试台上，使用标准策略执行了多次换挡。然后，充填状态估计器被调整到观察到的这个换挡的行为，即对充填状态��应用线性校正，使其与测试台传动的行为相匹配（见图1）。然后，具有调整后的充填状态估计器的相同策略被测试在传动测试台上。04.3.3. 领域适应方法：数据驱动0数据驱动的领域适应方法（DA2）旨在减少模拟器动态和真实系统之间的偏差（见图1）。0模型不准确性导致模拟器动态和真实系统之间的偏差（见图1）。0因此，模拟器的相关动态参数是由专家确定和调整的，以使其尽可能类似于来自真实系统的测量。为了优化这些参数，收集了一批在测试台上的换挡。从测试台观察到的动作轨迹被应用到模拟器上，并制定了一个损失函数，以最小化模拟器和真实系统之间相对转速�和液压系统压力轨迹的偏差。由于模拟器不可微分，利用了协方差矩阵调整进化策略（CMA-ES）优化器[60]来调整动态参数。CMA-ES是一种最先进的无梯度优化器，特别适用于连续领域中高维搜索空间的黑盒优化问题[61]。优化后的值作为DR分布的均值。0图4.PPO代理进行的换挡程序。PPO在模拟训练后学习到了控制电流��的合适激活，触发了相对转速�的快速降低，保持最大的jerk�低（PPO Sim withDA2，进行了10次模拟运行的平均值）。当转移到传动测试台时，PPO策略产生了高且不舒适的jerk�（PPO TBstandard，进行了50次测试台运行的平均值和标准偏差）。根据DA2方法优化模拟器（见第4.3.3节），并在这个环境中训练一个新的代理，实现了成功的模拟到真实的转移（PPO TB withDA2，进行了50次测试台运行的平均值和标准偏差）。（有关本图图例中颜色的解释，请参阅本文的网络版本。）05. 结果0上述方法的结果在下面进行了介绍0以下。PPO代理进行的换挡显示在图4中，而SAC代理进行的换挡显示在图5中。这两个图表展示了换挡过程中的三个最相关的指标，即磁阀上的控制电流（取决于代理的动作）、需要与零同步的离合器上的相对转速以及换挡产生的jerk需要保持较低以实现舒适的换挡。SAC和PPO都能够学习到在模拟中进行高性能换挡的合适策略。这可以从图4和5中的黑色虚线中看出。这些虚线描述了在模拟中进行了10次换挡程序的平均值。对于这两种算法，都在模拟中训练了五个代理（训练超参数列在附录A.3中），并使用了DR（噪声超参数列在附录A.2中），表现最好的代理用于进行绘制的换挡程序。这两种算法都学会了激活策略，以快速将相对转速降至零，同时产生较低的jerk。这是通过在换挡开始时产生高控制电流来实现的，该电流快速填充了腔室的油。当活塞开始接触摩擦板时，控制电流被减小，使摩擦板上的法向力和因此滑动扭矩逐渐增加，导致相对转速的缓慢降低，从而产生较低的jerk。在同步过程中，控制电流缓慢但持续地增加，导致可传递的滑动扭矩不断增加。一旦相对转速达到零，硬编码逻辑将控制电流加速到其最大值以锁定离合器。由于DRL代理在此过程中不受控制，因此这个加速过程不被视为换挡过程的一部分。07015阵列（2022）1002350G. Gaiselmann等0图5.SAC代理进行的换挡过程。SAC在纯粹的模拟训练后学习了控制电流��的合适激活，触发了相对转速�的快速降低，使得抖动�保持在较低水平（SACSim，进行了10次模拟运行的平均值）。当转移到传动测试台时，SAC策略在同步轨迹上产生了很高的方差，并且关键性能指标出现了下降（SACTB标准，进行了50次测试台运行的平均值和标准差）。

下载后可阅读完整内容，剩余1页未读，立即下载