深度强化学习的机器鳗鱼在线运动控制

12 浏览量更新于2023-12-05 收藏 993KB PDF 举报

深度强化学习

水下机器人

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

仿生智能与机器人2（2022）100066学习游泳：基于深度强化学习的欠驱动机器鳗鱼在线运动控制王启新，洪子存，钟勇华南理工大学智能工程学院，广东广州510640A R T I C L E I N F O保留字：机器鳗鱼深度强化学习在线控制A B S T R A C T机器鱼作为一种典型的水下机器人，其游动控制方法和能耗的降低一直是研究的热点。车身灵活性和被动设计已被证明是提高机器鱼游动性能的有效途径。然而，这些方法的被动结构或运动的增加使得机器人的运动控制更加困难鱼.提出了一种基于深度强化学习的多被动结构机器鳗鱼在线学习控制方法。首先，我们设计了一个机器鳗鱼，它有两个线驱动的部分和两个弹性材料制成的投诉机构。其次，建立了机器鳗鱼的仿真模型并对模型的有效性进行了检验。随后，神经网络在模拟中进行训练，并直接部署在机器人鳗鱼上，机器人鳗鱼在没有底层控制模型或策略的情况下被控制，并直接由神经网络在线控制。最后，大量的实验验证了我们的控制方法的有效性，这提供了一个有价值的和潜在的解决方案，难以建模和控制的机器人1. 介绍近几十年来，随着海洋资源的不断开发，水下机器人引起了越来越多的关注。与传统的螺旋桨推进水下机器人相反它们对水下环境的破坏性较小，具有良好的适应性，并且具有高度的可扩展性[1]。像鳗鱼一样的机器人有更长的驱动部分，几乎整个身体都参与了游泳过程。这种高灵活性的身体和高游泳效率导致了许多研究。从结构特点上看，目前已经设计出了各种类型的机器人鳗鱼，主要分为两种类型：多关节刚性机器人鳗鱼[2在游泳过程中，真正的鱼可以利用它们身体的被动结构更有效地传递波形，从而产生更好的游泳性能。受此启发，在机器鱼的设计中添加可变刚度或被动结构是通过提高身体灵活性来提高游泳效率的可能方法[9例如，White等人[12]通过改变关节配置构建了具有不同程度灵活性的鱼尾，并发现增加驱动部分的灵活性可以提高机器鱼的游泳速度和效率。 Chen等[13]在仿生机器鱼的尾部采用扭转弹簧构造柔性关节，分析了不同刚度的尾部对机器鱼游动性能的影响。Zhong等人[14]设计了一个机器人*通讯作者。电子邮件地址：zhongyong@scut.edu.cn（Y. Zhong）。https://doi.org/10.1016/j.birob.2022.100066鱼具有主动线驱动的身体和柔软的顺应性尾巴，以实现机器鱼的有效游泳。Leftwich等人[15]研究了三种不同的柔性被动尾对游泳机器人七鳃鳗尾流结构和推力产生的影响。Nguyen等人[16]设计了一种带有四个软致动器的机器鳗鱼，并比较了被动和主动尾巴对鳗鱼游泳的影响。机器鳗鱼这些研究表明，被动结构的加入对机器鱼的游泳性能有有益的影响，然而，大多数研究都集中在只有一段被动结构的机器鱼。对于类似鳗鱼的机器人，以前的研究表明，可以在欠驱动机器鳗鱼的设计中采用多被动段来提高其效率[17，18]。在这项工作中，我们实现了两段被动结构上机器人鳗鱼创建一个高度欠驱动的机器人，并验证其游泳能力，使用我们提出的控制方法。此外，为机器鱼添加被动结构通常涉及弹性体和软材料，这使得为这种欠驱动机器人建立精确模型成为一个巨大的挑战。在游动过程中，机器鱼的柔软部位也会不断变形，增加了运动控制的难度。最近，基于学习的算法的发展为这种机器人的控制提供了新的解决方案深度强化学习（Deep Reinforcement Learning，DRL）它是一种无模型的方法，可以用合适的方法训练神经网络。接收日期：2022年7月20日;接收日期：2022年8月15日;接受日期：2022年8月22日2022年9月2日网上发售2667-3797/©2022作者。由Elsevier B.V.代表山东大学出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表仿生智能与机器人学期刊主页：www.elsevier.com/locate/birobQ. Wang，Z.Hong和Y.钟仿生智能与机器人2（2022）1000662设置额外空间以添加配重块。所述柔顺体2图1.一、机器人鳗鱼的概述。（a）机器鳗鱼模型（b）机器鳗鱼的俯视图数据控制策略在环境中不断优化，最终导致基于给定状态的机器人端到端控制[19有许多使用DRL的机器鱼控制优化的例子。例如，Zheng等人[22]将在模拟环境中训练的神经网络直接部署到原型机器鱼上，以实现姿态保持任务。 Yan等人[23]使用了一种基于神经网络的协同结构化控制方法，成功地降低了一条机器鱼在执行追踪任务然而，在大多数研究中，机器人鱼依赖于底层的控制模型，如中央模式发生器。据我们所知，没有研究使用DRL直接控制机器鱼与被动结构。本文设计了一种具有两段被动结构的欠驱动机器鳗，在不需要给定运动模型的情况下，实现了基于DRL的机器鳗直接在线控制。通过进行几个实验，我们已经验证了我们的在线控制提供了更好的控制比离线控制。2. 机器鳗鱼在之前的研究中，Zhong等人[17]分析了具有柔顺尾巴的机器鱼的身体和流体力矩之间的相互作用，并发现在鳗鱼所属的鳗形鱼上，基于两个柔顺身体的设计可以用于提高机器鳗鱼的游泳效率。基于这一概念，我们设计了一个欠驱动机器鳗鱼作为实验平台。2.1. 机械结构和硬件设计本文设计的机器鳗鱼由两个主动体和两个柔顺体组成，如图1（a）所示。由于我们只考虑在水平面上的运动，所以没有设计胸鳍。机器鳗鱼的两个活动身体都是线驱动的部分，每个部分都配备了一个驱动器，通过卷轴旋转来驱动离散的关节。一根直径为0.8 mm的金属丝缠绕在卷轴上，并连接到卷轴上，依次穿过几个接头，并连接到最后一个接头上。第一个线驱动体长145 mm，两个关节。第二个线驱动体长225mm，有六个接头。每个接头的宽度为10 mm，椭圆形横截面的长轴长度为70 mm，短轴长度为55 mm，两个相邻接头之间的间隙为15 mm。这两个主动体都是刚体。主体和关节是3D打印的，尺寸与接头相同。顺应性尾部的长度为162 mm。基于我们先前工作[17]中提出的优化方法设计了丝驱动段和顺应段之间的长度比。为了更好地模拟真实鳗鱼，使用锥形设计以满足85°的前缘角和120°的凸后缘角。Huang等人[24]发现，在这种组合中，蛇形机器人尾巴的几何形状有助于产生更强的涡环，并显着提高游泳速度和效率。厚度为1 mm的硅橡胶套管（Ecoflex 00-50，Smooth-On）覆盖有源体接头之间的间隙。在提供更大浮力的同时，橡胶套还增加了机器鳗鱼身体与水之间的接触面积，这有助于波的传播。橡胶套在相应的关节间隙中留有凸起的褶皱，以帮助适应关节弯曲引起的拉伸和收缩。两个伺服电机（SAVOX SW-1210 SG）重71 g ，最大扭矩为32kg/cm ，能够在 7.4 V 下以 0.13 s/60m 的角速度运行。微控制器（Arduino UNO）根据设定程序计算并输出相应的脉宽调制信号至两个伺服电机。7.4 V和5 V的恒压直流电源用于为伺服电机供电，微控制器，分别。电源和控制板位于机器鳗鱼的外部，并与伺服电机相连。在接头的中心轴线下方留有通孔，电线穿过机器鳗鱼，最后一个角度，尽量减少对机器鳗鱼游泳的影响。通过增加配重块，可以使机器鳗鱼在水中保持水平，使机器鳗鱼的密度略小于水的密度。机器鳗鱼的原型如图1（b）所示。机器鳗鱼的总长度为0.607米，总重量约为1.675公斤。2.2. 运动控制线驱动机构允许机器鳗鱼的多个关节由单个伺服电机控制，这意味着每个主动体的运动取决于一个伺服电机的控制，显著减少了控制参数。如图2所示，我们假设每个关节的旋转角度相同，几何关系使我们能够计算出关节的旋转角度与活动体的总弯曲角度之间的对应关系，可以表示为：=180和柔性尾部均由硅橡胶（Ecoflex 00-10，Smooth-On）制成柔顺体为椭圆柱体，长75 mm，截面其中，X表示接头的数量，X是卷轴的半径，并且X表示两条线之间的距离。对应于我们的机器鳗鱼，=18.5 mm，=32 mm。Q. Wang，Z.Hong和Y.钟仿生智能与机器人2（2022）1000663∑||∑||与实体机器鳗鱼一致最后，我们实现了||奖励函数包含三个奖励项，其中，图二. 两个相邻接头的初始状态和弯曲状态。3. 方法机器鳗鱼的总体控制框架如图3所示。首先，根据控制目标，我们在仿真中训练我们的神经网络。随后，我们将训练好的神经网络直接部署在机器鳗鱼上。在实验过程中，机器鳗鱼的顶部安装了标记，以获得实时的位置和姿态信息。最后，我们进行基于视觉反馈的实时在线控制。3.1. 仿真平台使用DRL训练神经网络需要收集大量有效数据，如果在现实中进行测试和数据迭代，将非常耗时，并且对机器鳗鱼的防水性提出了更大的挑战。特别是，我们的机器人鳗鱼有两个被动节（投诉机构和投诉尾巴），这是不驱动的，弹性体的变形增加了难度数据采集。同时，由于欠驱动机器电鳗结构的特殊性，获得精确的动力学和运动学模型是非常具有挑战性的，这也是我们采用DRL的原因来控制机器鳗鱼为了获得有效数据，我们需要设置模拟中的环境应满足以下条件：(1) 机器鳗的仿真模型不仅要满足绳传动机构对关节运动的约束，更重要的是要体现两个柔性节段的柔性特性。(2)仿真模型与实际机器鳗鱼的误差应在一定的可接受范围内，以便训练后的神经网络可以直接使用。因此，我们选择了MuJoCo作为仿真平台。MuJoCo是一种通用物理引擎，能够通过多关节建模构建仿真模型，并通过基于模型的动态控制与环境交互[25]。它可以将交互过程可视化，并已广泛应用于DRL研究和机器人控制等领域[26，27]。图4（a）描绘了机器鳗鱼的模拟模型。与物理模型相比，我们做了一些简化。首先，我们通过去除折叠来简化橡胶套的模型。的两个主动体的仿真模型具有连续光滑表1深度强化学习的参数表。参数值学习率0.0003伽马0.99缓冲区大小1 000 000批量256奖励等级10由活动体的总弯曲角度与时间之间的关系表示。控制信号为对称方波，每2秒切换一次弯曲方向。两个主动体的控制信号相位相反。图图4（c）描绘了物理机器鳗鱼的游动姿态和仿真模型，表明成功实现了游动姿态的仿真。我们获得了机器鳗鱼的实际位置信息，并将游泳距离与模拟中的数据进行了比较，结果如图4（d）所示。仿真模型与实体机器鳗绕原点游动的趋势一致，误差可以保持在很小的范围内，表明仿真模型3.2. 基于DRL的培训方法DRL本质上是一种试错学习方法，其中代理机器人根据环境提供的状态值在允许范围内做出动作。动作对环境做出反应，获得新的状态值，并更新用于评估的奖励值。此外，机器人根据奖励值改进策略，通过与环境的迭代交互来最大化奖励值[19]。为了充分探索机器人鳗鱼的控制，我们使用软演员-评论家（SAC）训练神经网络，这适用于连续动作空间[28]。SAC算法最重要的特征是增加了策略熵，这要求在实现更高的累积奖励值的同时也增加了策略的熵。熵代表混沌的程度。熵越高，策略的随机性越大。换句话说，熵的包含允许对动作进行更随机的探索，并且可以在一定程度上避免过早地陷入局部最优。SAC算法由一个动作网络和一个评价网络组成。在这项研究中，多层感知器（MLP）被选择来构建这两个网络;这两个网络具有相同的结构，具有两个隐藏层，每层256个神经元。网络的具体参数如表1所示。利用奖励函数对机器鳗鱼的性能进行评价。奖励函数与目标任务直接相关，它是目标任务的定量描述，合适的奖励函数有助于学习过程的收敛。在本研究中，我们专注于机器鳗鱼的线性游泳姿势和游泳效率，希望机器鳗鱼能够在消耗很少能量的情况下学会沿着直线游泳。奖励函数设置如下：面随后，我们将每个活动体中的关节约束为一致地改变它们的旋转角度，即，以满足线驱动机构的约束。此外，活动关节的数量==1联系我们=1||（二）使用离散被动关节对两个投诉机构进行建模它计算机器鳗鱼前进方向的速度��=1应该指出，这两个投诉机构没有驱动表示能量消耗的奖励值，以及|∑�� |是他们只能被动地移动。通过调整关节参数，可以准确模拟投诉主体和投诉尾巴仿真模型的尺寸、重量等物理参数与实体机器鳗鱼一致为了验证仿真模型的可靠性并最大限度地减少物理机器鳗鱼的仿真误差，我们用相同的控制信号。如图 4（b），控制信号是偏差奖励值。此外，扭矩表示电机的扭矩主动关节上的伺服电机， ��表示单个关节的角速度。 ��表示单个关节在垂直于机器人鳗鱼前进方向的方向上的位置偏差。��和在训练中，我们设置=−0.001和=−=1Q. Wang，Z.Hong和Y.钟仿生智能与机器人2（2022）1000664图三. 机器鳗鱼的总体控制框架。见图4。机器鳗鱼的模拟测试。(a)机器鳗鱼的仿真模型。(b)仿真中的控制信号。(c)机器鳗鱼在现实中的游泳姿势世界与模拟（d）机器鳗鱼在真实世界和模拟世界中的位置信息为满足绳驱动机构的约束条件，同一主动体中的每个主动关节共享相同的控制参数，这意味着只需要两个控制参数就可以控制机器鳗的运动，简化了动作空间的配置。我们将两个输出的动作空间的范围在（-1，1）的范围内归一化。输出> 0意味着活动体以顺时针方向，而输出0意味着活动体以逆时针方向旋转。特别地，两个主动体具有不同的旋转角度范围，在执行控制时需要输出转换。在仿真中，我们可以捕捉到大量的运动参数，然而，由于实际传感器的限制，现实世界中可用的数据是有限的。此外，我们需要选择最有效的数据作为神经网络的输入，构成观察空间。同时，减少观测空间参数的数量在一定程度上有助于训练过程更快地达到收敛。观察空间将在第4.1节中给出3.3. 培训详情训练后的神经网络将直接应用于机器鳗鱼，然而，在现实中获得的数据不可避免地会有误差。同时，机器鳗鱼的控制节奏受到硬件.控制周期过短会导致实际控制过程中出现重大误差，而控制周期过长会导致机器鳗鱼的控制分辨率过低。在训练过程中采取了以下措施来提高神经网络的适应性(1) 使用固定周期输出控制。在训练期间，仿真模型将保持相同的动作输出值直到下一个周期。随后，将更新动作输出值、奖励值和观察空间。模拟中的时间步长被设置为0.01秒，输出的控制周期被设置为20个时间步长，这意味着机器鳗鱼每隔0.2秒才接收到一个新的动作输出值。(2) 对训练过程造成干扰。由于水的扰动，机器鳗的初始状态是随机的，通过人工干预可以将随机量的范围限制在一定范围内。在每个训练阶段的第一步中，对机器鳗鱼的位置和速度以及两个活动体的关节角度添加随机干扰。随机扰动值满足均匀分布。根据实验经验，对不同范围的随机扰动进行了分析，位置和速度的随机扰动满足（−0.3 m，0.3 m），角度的随机扰动满足（−5m，5m）。Q. Wang，Z.Hong和Y.钟仿生智能与机器人2（2022）1000665（）下一页（）（）下一页（）每一个点的旋转，都是用后向的差，（）图五. 标记的对应位置和机器鳗鱼的运动数据。(3) 机器鳗鱼的能量消耗仅考虑两个活动体的关节。此外，用于计算位置偏差的关节的数量与主要影响机器鳗鱼的位置的标记的数量相同。在实验中，我们设置了= 8， = 4。4. 实验和分析为了验证基于DRL的机器鳗鱼在线控制的有效性，我们在一个完整的实验平台上进行了广泛的实验。通过训练得到了有效的神经网络，并采用在线和离线的方法对机器鳗鱼进行了控制，并对其控制性能进行了评价。4.1. 实验装置如图3、在180× 140× 60 cm的水池中对机器鳗鱼的游泳能力进行了测试。因为我们的机器鳗鱼缺少传感器，我们需要依靠外部设备以获得观测空间中的信息。摄像头直接安装在游泳池上，距离地面170厘米，能够以30 Hz的频率捕获图像数据。为了选择合适的数据来组成观察空间，图像数据被实时发送到计算机进行图像处理，计算机通过识别机器鳗鱼顶部的标记来捕获机器鳗鱼的运动数据。在柔性体上安装标记会限制它们的移动，因此将标记部署在刚性体上。标记的相应位置和机器鳗鱼的运动数据如图所示。五、首先，我们获得信息的位置，�� ，在全局坐标系中的六个点，然后我们可以计算连接相邻点的直线所形成的角度。基于柔索驱动机构的性质，我们假设一个主动体中的每个主动关节具有相同的转角，并且每个主动关节的转角可以用主动体的弯曲来表示。因此，我们只关心三个角度信息 1、��2、��3，其中 1表示机器鳗鱼相对于全局坐标轴的偏航角，对应于动作空间设置，其中角度> 0意味着顺时针旋转，角度<0意味着逆时针旋转。基于图像捕获的频率，我们可以计算出速度�� ，和角2001年、2002年、2003年见图6。 DRL奖励曲线。4.2. 实验结果机器鳗鱼在模拟中训练了200个时期，每个时期由500步组成。训练过程如图6所示，其中神经网络在接近20000步时已经趋于收敛，并且收敛速度快且稳定。我们得到了五个稳定收敛的神经网络，它们都是以同样的方式训练的。另外，我们也进行模拟，并选择其中控制效能最佳的一个来控制机器鳗鱼。为了验证在线控制的有效性，我们比较了在线控制和离线控制的游泳性能。我们对三种离线控制方法进行了测试。首先，我们将训练好的神经网络应用到仿真中，以获得仿真中机器鳗的控制输出数据。由于机器鳗游动的节律运动满足周期性控制，因此机器鳗的中心离线控制信号可以用曲线拟合来近似。保持中央离线控制信号的幅值恒定，通过下式获得另外两个离线控制信号：调节两个有源体之间的相位差。由于机器鳗鱼的控制周期为0.2 s，因此我们设置相位差离线控制1的相位差比中央离线控制的相位差小0.2s，离线控制2的相位差比中央离线控制的相位差大0.2s。图7描述了实验中使用的四种控制方法。通过训练得到的机器鳗鱼的运动周期约为0.5Hz，与真实鳗鱼的低频游动对于每种控制方法，进行了五个实验，并使用图像处理来获得机器人鳗鱼的运动数据。设置了一个测试区域，使得只有当机器鳗鱼游进测试区域时才收集数据并进行比较，从而便于比较并最大限度地减少机器鳗鱼不同初始状态对游泳性能的影响。根据控制目标的不同，我们分别在直线游泳速度方面，我们开始计时机器鳗鱼何时进入测试区域，并比较前进距离的机器人鳗鱼在正方向上的α-轴超过8秒。结果示于图八、通过所有四种控制方法实现了机器鳗鱼的向前游泳，其中在线控制实现了约0.4m的最长距离，中央离线控制具有约0.36m的稍低的距离，并且离线控制1具有约0.21m的最短距离。结果表明，在线控制可以获得最大的游泳速度，而通过拟合在线控制得到的中心离线控制具有第二高的速度。这两种控制方法都比其他控制方法有更高的速度，证明了我们的学习方法的有效性参考方法最后，我们选择了13个运动参数来形成神经网络的观测空间=1，1，3，4，6，1，2，3，1，1，1，2，3机器人领域的关注，以及消耗直接影响机器人的效率。在本文中，我们使用运输成本（COT）来评估机器人的能源消耗速度能源消耗一直是一个重要的指标，Q. Wang，Z.Hong和Y.钟仿生智能与机器人2（2022）1000666×见图7。四种控制方法的信号。（a）在线控制。（b）中央离线控制。（c）离线控制1.（d）离线控制2.见图8。四种控制方式下机器鳗鱼的移动距离。这与机器人的能耗、质量和速度直接相关。我们将COT定义如下：见图9。四种控制方式下机器鳗鱼的偏差。表2四种不同控制方式下电鳗机器人的能量消耗。=（三）控制方法COT在线控制68.95式中，λ表示机器鳗鱼在游泳过程中消耗的能量的功率，λ表示机器鳗鱼的重量（1.675 kg），�� 表示游泳速度。机器人唯一的驱动输入电鳗是电，因此机器电鳗的能量消耗可以通过下式计算：=×，其中表示电源电压，表示驱动电路中的总电流。��我们使用数字示波器（VICTOR 8246B）来测量机器鳗鱼游泳时的电源电压和总电流。四种控制方法的COT如表2所示; COT越低，效率越高机器鳗鱼的能量使用与速度优势类似，在线控制和中央离线控制的COT都显著高于其他两种控制方法，表明我们的学习方法可以优化游泳效率。中央离线控制的COT最低，在线控制的COT略高于中央离线控制。这是因为来自在线控制的信号不是固定的周期性值，并且可能突然变化，导致能量消耗增加。比较了四种控制方法对机器鳗鱼游动偏差的影响，结果如图所示。第九章在线对照组的游泳偏差最小，约为0.014 m，离线对照1的最大游泳偏差为0.093 m。离线控制2具有大约0.03 m的游泳偏差的最小误差极限，其次是具有0.035 m的误差极限的在线控制，以及具有大于0.042 m的误差极限由于闭环视觉反馈的存在，使得在线控制能够保持线性中央离线控制64.29离线控制1 117.16离线控制2 79.00游泳非常好，而所有离线方法在限制偏差的变化方面都不是有效的。总之，在线和离线控制方法都实现了机器鳗的直线前向游动，而这些控制信号本质上都是由神经网络产生的，这证明了本文方法对欠驱动机器鳗运动控制的有效性。在控制性能上，在线控制可以将直线游动的偏差限制在最小范围内，通过本文提出的DRL优化方法，在线控制可以获得最快的游动速度和次低的COT，整体游动性能明显优于离线控制。5. 结论在本文中，我们探讨的可行性，使用DRL策略，直接控制机器人鳗鱼与多个顺应机构。我们设计了一个欠驱动机器人鳗鱼两个主动机构和两个顺应机构，作为一个测试原型。为了确保DRL策略的适用性，我们建立了一个可靠的仿真模型，可以再现机器鳗鱼的实际运动我们已经成功验证了Q. Wang，Z.Hong和Y.钟仿生智能与机器人2（2022）1000667通过比较机器鳗鱼的直线游动速度、能量消耗和游动偏差，验证了我们的在线控制方法的有效性，使得能够有效地对机器鳗鱼进行直线游动控制。这为研究无驱动被动结构机器鱼的控制提供了参考方案。此外，我们让机器鳗鱼自己学习如何游泳，而不是在DRL中给出基本的控制方程，这增加了机器鳗鱼探索控制方法的自由度。此外，在本文中的方法也更适用于某些控制问题的机器鱼是复杂的，难以建模。未来的工作将进一步研究机器鳗鱼的游泳姿势在环境中的额外干扰，以及不同的任务目标的最优控制策略。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢这项工作得到了中国国家自然科学基金的部分支持（62103152），部分由中国广东省自然科学基金资助（2022A1515011479），广东省普通高等学校机器人与智能装备重点实验室（2017KSYS009），部分由机器人与智能装备创新中心提供。附录A. 补充数据与本文相关的补充材料可以在https://doi.org/10.1016/j.birob.2022.100066上找到。引用[1]R.杜，Z. Li，Y. Kamal，V. Pablo，Robot Fish，Springer，Berlin，Heidelberg，2015，pp. 978-3[2] B. Bayat ， A. Crespi ， A. Ijspeert ， Envirobot ： A bio-inspired environmentalmonitoringplatform ， in ： 2016 IEEE/OES Autonomous Underwater Vehicles ，AUV，2016，pp. 381-386.[3] P. Liljebäck，P. Stavdahl，K.Y. Pettersen，J.T. Gravdahl，Mamba-一种具有触觉传感的防水蛇机器人，在：2014年IEEE/RSJ智能机器人和系统国际会议，IEEE，2014年，pp. 294-301[4] C. Stefanini等人，由神经科学家和生物工程师开发的新型自主生物灵感游泳机器人，Bioinspiration Biomim。7（2）（2012）025001。[5] 差量Nguyen，V.A.何，鳗鱼启发的软体机器人的蛇形游泳表演，软体机器人。9（3）（2022）425[6] Y. Chen，T. Wang，C. Wu，X.王，设计，控制和实验的流体软机器人鳗鱼，智能脱线。结构。30（6）（2021）065001.[7] R. Dang等人，基于分段式软驱动器阵列的仿鳗机器人仿生体波控制，见：2021年第40届中国控制会议，CCC，IEEE，2021，pp. 4261-4266[8] C. Christianson，N.N. Goldberg，D. D. Deheyn，S. Cai，M.T. Tolley，由无框架流体电极介电弹性体致动器驱动的平移软机器人，ScienceRobotics 3（17）（2018）eat1893。[9] E.D. 泰特尔角Y. 徐天良威廉姆斯，A.H.Cohen，L.J.Fauci，相互作用内力，身体刚度，和流体环境中的神经力学模型的七鳃鳗游泳，Proc。Acad. Sci.107（46）（2010）19832-19837。[10] Y.-- J. Park，T.M.嗯，D。帕克，K.赵俊，变刚度扑翼机构的设计，以最大限度地提高仿生水下机器人的推力，生物灵感生物。9（3）（2014）036002。[11]Z. Cui，H.平面串并联系统的设计、分析与仿真变刚度柔性机器鱼的机械结构，机械工程学， 8 （ 8 ）（ 2016 ）1687814016660927.[12] C.H. White，G.V. Lauder，H. Bart-Smith，Tunabot Flex：一个具有身体灵活性的金枪鱼启发机器人，提高了高性能游泳，Bioinspiration Biomim。16（2）（2021）026019.[13] D. Chen，Z.Wu，H.董，M.谭俊玉，游泳运动员的探索-具有柔顺被动关节的仿生多关节机器鱼， Bioinspiration Biomim 。 16 （ 2 ）（2020）026007.[14] Y.钟氏Z.利河，巴西-地杜，一种新型的机器鱼与线驱动的主动机构和顺应性的尾巴，IEEE/ASME Trans. 机电一体化22（4）（2017）1633[15] M.C. Leftwich，E. D. Tytell，A.H. Cohen，A.J. Smits，Wake structures behindaswimming robot lamprey with a passive flexible tail，J. Exp. 215（3）（2012）416-425。[16] 差量 Nguyen，评价鳗鱼启发的软机器人的游泳效率部分受损的身体，在：2021年IEEE第四届国际软机器人会议（RoboSoft），IEEE，2021年，pp。289-294。[17]Y. Zhong，J. Song，H.于河，巴西-地杜先生，从浅水鱼类游动模型到仿生机器鱼的转换方法，IEEE Robot.自动Lett. 3（3）（2018）2632-2639。[18] Y. Zhong，J.宋，H.于河，巴西-地鱼类波动运动规律的研究使用机器鱼的运动，J.Mech.Robot。 10（4）（2018）041013.[19] K. 作者：M.P. Brundage ，A.A. Bharath ， Deep Rein-WearingLearning： A BriefSurvey，IEEE Signal Process。Mag. 34（6）（2017）26-38.[20] T.P. Lillicrap等人，深度强化学习的持续控制，2015年，arXiv预印本arXiv：1509.02971。[21] S.莱文角Finn，T. Darrell，P. Abbeel，深度可视化策略的端到端培训，J. Mach。学习. Res. 17（1）（2016）1334-1373.[22] J. Zheng，T.中国植物研究所所长。Zhang C.，中国古猿科 Wang，M. Xiong，G.谢，机器鱼姿态保持的学习：一种端到端的方法与模拟到真实的转移，IEEE Trans.机器人38（2）（2021）1287-1303。[23] S. Yan，Z.吴，J.Wang，M.Tan，J.Yu，高效协同结构控制多关节仿生机器鱼，IEEE/ASME Trans. Mechatronics 26（5）（2020）2506-2516。[24] Z. Huang等人，尾鳍几何形状对游泳性能的影响一个蛇形机器人海洋工程师245（2022）110372。[25] E. Todorov，T. 埃雷兹湾Tassa， Mujoco：基于模型控制的物理引擎， 2012年IEEE/RSJ智能机器人和系统国际会议，IEEE，2012年，pp. 5026-5033[26] L. 克里希纳，G.A.美国卡斯蒂略米什拉A.Hereid，S.Kolathaya，线性政策是足以在具有挑战性的地形上实现稳健的双足行走，IEEE机器人。自动Lett. 7（2）（2022）2047-2054。[27] Z. Xie，G. Berseth，P. Clary，J. Hurst，M. van de Panne，具有深度强化学习的机器人反馈控制，2018年IEEE/RSJ智能机器人和系统国际会议，IROS，IEEE，2018年，pp。1241-1246。[28] T. Haarnoja，A.Zhou，P.Abbeel，S.莱文，软演员评论家：政策外的最大限度熵深度强化学习与随机演员，在：国际机器学习会议，PMLR，2018年，pp。1861-1870年。

下载后可阅读完整内容，剩余1页未读，立即下载