YADPF：MATLAB中的可重用动态规划函数包

190 浏览量更新于2024-01-27 收藏 708KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件X 17（2022）101001原始软件出版物YADPF：一个可重用的确定性动态规划的MATLABAuralius Manurunga，Nan，Lisa Kristianab，Nur Uddinca印度尼西亚雅加达Pertamina大学，12220，b印度尼西亚万隆国家技术研究所，邮编40124cUniversitas Pembangunan Jaya，万丹，15413，印度尼西亚ar t i cl e i nf o文章历史记录：2021年11月24日收到2022年1月15日收到修订版2022年1月25日接受保留字：动态规划最优控制动态优化强化学习a b st ra ct本文介绍了YADPF包，一个可重用的MATLAB函数的集合，解决确定性离散时间最优控制问题，使用动态规划算法。对于有限和无限时域最优控制问题，实现了两种类型的动态规划算法：向后动态规划和值迭代。与其他实现一样，用户必须提供离散化的状态和输入变量、模型动态方程、终端成本函数和阶段成本函数。为了更好地激励用户使用这个MATLAB函数包，我们还提供了十多个学术案例研究，介绍YADPF函数包如何解决动态优化问题，并提供详细的分步说明。所提供的指南和示例有望帮助用户，特别是学生和研究人员，以最少的编码专业知识启动即时动态编程体验©2022作者（S）。由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。当前代码版本v1.0.10用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-21-00222代码海洋计算胶囊法律代码许可证MIT许可证使用git的代码版本控制系统使用MATLAB的软件代码语言、工具和服务编译要求、操作环境依赖性如果可用，链接到开发人员文档/手册https://auralius.github.io/yadpf/技术支持电子邮件auralius. ieee.org1. 动机和意义动态规划（ DP ）首先在 [1] 中引入以解决最优控制问题（OCP），其中解是在预定义的时间范围内使目标函数最大化或最小化的输入序列。这被称为动态优化或多级决策问题。有许多关于DP如何用于实际应用的例子，例如在能源管理系统[2]和资源分配问题[3]中。*通讯作者。电子邮件地址：auralius. ieee.org（Auralius Manurung）。https://doi.org/10.1016/j.softx.2022.101001自从引入DP以来，DP有许多变化从广义上讲，动态规划可以分为两类：精确动态规划（EDP）和近似动态规划（ADP）。很少有EDP实现为MATLAB可重用函数，如[4，5]。除了这两种仅为确定性OCP设计的实现之外，还有一个更复杂的工具箱，其中实现了几种DP算法，可用于随机和确定性OCP [6]。除了EDP和ADP之外，其他使用非线性规划（NLP）技术的方法也可以用于求解OCP。事实上，ADP和NLP更适合复杂系统，相对于EDP。另一方面，电子数据处理在2352-7110/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softxAuralius Manurung、Lisa Kristiana和Nur Uddin软件X 17（2022）10100120=+=↑=⎪⎪以x↑kM=f（x↑kM，u↑kM，k）⎩⎪由于所提供的解决方案的精确性和全局最优性的保证，为不太复杂的系统提供了学术环境[7]。如前所述，当系统复杂时，ADP和NLP实际上更有利，有许多商业和非商业的实现。这种流行的原因是因为ADP和NLP比EDP更有效[8]。EDP访问所有可能的状态值，并使用所有可能的输入值对其进行测试，这使得EDP成为一种非常需要资源的方法[7]。此外，许多研究人员往往选择开发自己的EDP实现，这是专门为解决一个特定的动态优化问题。它们的实现通常配备了高级功能，例如自适应离散化[9]。但是，没有公开可用的实现。因此，我们决定通过提出DP的另一种实现（向后DP和值迭代）来向可重用精确动态规划函数的数据库中添加一个新项。我们将我们的实现命名为 YADPF ： Yet Another DynamicProgramming Function。我们严格根据我们的实施贝尔曼因此，我们的工作将与[4，5]中的工作在同一我们选择MATLAB是因为它在控制工程师和研究人员中很流行在我们的MATLAB实现中，我们通过利用MATLAB提供的矢量化功能来实现快速高效的性能。我们还包括YADPF包与许多学术的例子，我们将在本文的后面部分讨论2. 软件描述YADPF软件包中的反向DP用于求解具有以下公式的OCP。N（xN）+∑N−1gk（xk，uk）u由方程式（2），γ是反映未来价值如何估值的贴现因子。较小的γ值有助于更快的收敛，但不太准确的解决方案。2.1. 软件构架后向DP从终端阶段开始并移动到初始阶段。该算法在每一步中访问所有节点，并计算阶段成本。在计算阶段成本之前，该算法首先向前一步计算系统整个过程是迭代的，可以更快。为了使上述过程更快，在我们的实现中，我们首先计算系统的动态前进一步的所有现有节点。我们访问所有节点，并将所有输入应用于系统的动态模型。然后，我们将结果保存在查找表中，以供以后在阶段成本计算期间使用。有了这个查找表，我们可以避免对系统动态特性的重复计算，并避免使用for循环。因此，我们现在有一个矩阵操作，而不是一个for循环。因此，我们可以释放MATLAB的矩阵计算引擎的全部潜力然而，创建查找表的过程可以很容易地消耗所有计算能力，包括导致整个系统无响应的存储器空间。这个问题很可能发生在一个不太强大的计算系统中使用高维系统时。有趣的是，这个过程可能与自举过程非常相似在强化学习中。然而，在强化学习中，自举过程涉及更复杂的估计过程[10]。在YADPF中，除了后向DP，我们还实现了值迭代，原则上是DP实现的一种变体。与后向DP不同，价值迭代中的迭代不是基于阶段的. 迭代基于某些计算成本的收敛而终止因此，价值迭代是一个无限水平DP。关于价值迭代的更多细节可以在一本流行的教科书中找到⎨⎪K↑M↑MP：服从xk+1=f（xk ，uk （k）x0=A且xN=Bk= 0，1，. . . ，N −1（一个）”[11]《孝经》。通过值迭代，我们可以构建一个控制表（策略矩阵），使得动态系统从任何给定的初始状态到目标终端状态。相比从求解上述OCPP得到的结果是沿着有限时间范围（范围长度为N1，从k0到kN）定义的控制序列uk。由方程式在等式（1）中，我们将xkM称为通过因子上采样的信号x使用零阶保持（ZOH）插值来计算M此外，本发明还x k+1f（x k，uk，k）描述了系统的动态特性，而阶段成本和终端成本分别由g k和g N描述。对于xk和uk，这两个变量表示状态变量和输入变量。初始状态由x0给出，最终状态由xN给出。状态变量、输入变量和时间都是有界的和离散化的。离散化的状态称为节点，离散化的时间称为阶段。除了后向DP，YADPF软件包还配备了值迭代算法来求解没有明确预定义的水平长度和终端成本的 OCP 。这样的 OCP 在 Eq.（二）、向后DP，值迭代需要较少的存储器，并且不需要预定义的水平长度。因此，它成为一个更好的选择无限时域优化问题。2.2. 软件功能DP的实现需要一个离散化的仿真环境。在这个离散化的环境中，状态、输入和时间都是离散化的。使用YADPF包时，用户负责离散化过程。除了离散化过程之外，用户还必须创建三个函数，如下所示。功能x_next =state_update_fn（X，U，dt）1% 描述的系统动力学2端34功能J =stage_cost_fn（X，你，k，dt）5拉斯敏⎪⎨Q ：LimN→∞+1个N−10γgk（xk，uk）% 描述的阶段成本函数6端78功能J = terminal_cost_fn（X）9（二%期望终端状态成本功能在此结束1011x0=Ak= 0，1，. . .⎩0<γ≤ 1清单1：状态更新、阶段成本和终端成本函数的结构。uk∑⎪Auralius Manurung、Lisa Kristiana和Nur Uddin软件X 17（2022）1010013==×=-−∑αf+αx−x+αv−v12fN3fNM[=]的情况下，2M610151837在清单 1 中， state_update_fn 、 stage_cost_fn 和 ter-update_cost_fn分别是状态更新函数、阶段成本函数和终端成本函数。参数X、U和dt分别表示OCP的状态变量、输入变量和时间间隔。重要的是要注意，函数state_update_fn只能接受非自治动力系统，因为没有关于当前阶段的信息可用。然而，在stage_cost_fn函数中，存在参数k，其为当前阶段的编号，并且可用于处理时间加权目标函数。在下一步中，将前面提到的三个函数的句柄注册到一个数据结构（名为dpf）。然后，我们将此数据结构发送到DP求解器，如下面的清单2所示。%图的 r e s ul ts20yadpf_p lot（dpf，清单3：YADPF中值迭代的MATLAB代码与向后DP非常相似。值迭代在清单2的第19行中执行。在这里，我们选择γ0。9.像向后DP一样，值迭代为所有可能的初始状态值（节点）求解OCP。因此，我们必须通过使用yadpf_vitrace函数来跟踪我们感兴趣的初始状态值的特定解决方案。最后，可以使用与向后DP中相同的绘图函数yadpf_plot来绘制结果。3. 说明性实例%设置：2个状态和1个输入P =−1.2：0.001：0。5;V = −0.07：0.0001：0的情况。07;U= [−1 01 ] ;dpf。states = { P V};dpf。输入={U};dpf。T_ocp = 1;dpf。T_dyn = 1;dpf。n_horizon =一百;dpf。状态更新fn= @state_update_fn ; dpf.阶段成本fn =@阶段成本fn; dpf。terminal_cost_fn = @terminal_cost_fn;%创建和运行的 solver dpf =yadpf_solve（dpf）;%Trace，i n i t i a l states：[ −0.50]dpf = yadpf_trace（dpf，[ −0.5 0 ]）;% 情节的r e s u l ts1在本节中，我们提出了两套完整的工作代码3演示YADPF软件包的功能：45山地车问题在这两个问题中，我们使用YADPF7包计划时间最佳的运动，以达到给定的8个目标9除了这两个问题外，青年人口政策论坛的一揽子计划还包括以下几个方面：11个更加学术化的例子，如稳定12架F8飞机[12-13明智的质量弹簧系统[ 17 ]，Lotka-Volterra渔业[ 5，18 ]，a14搅拌罐混合器[19]，并在地形上找到最短路径。16173.1。 The mass–damper’s optimal control1920（b）假设我们有一个质量（m=1 [千克]）和一个阻尼器yadpf_p lot（dpf，2101 [牛顿秒/米]），具有两个状态变量22（位置xk[米]和速度vk[米/秒]），以及1清单2：在后向DP中，一个结构用于保存必要的信息。在清单2的第9到16行中，我们可以看到一个简单的数据结构dpf用于保存OCP上的所有信息。接下来，在实现DP的位置调用yadpf_solve函数。请注意，后向DP解决了所有可能的初始状态值（节点）的OCP因此，我们必须跟踪具体的解决方案，输入变量（外力fk[牛顿]）。可以施加的作用力范围为4牛顿到4牛顿。我们的目标就是把质量从x0到x0的情况。5、尽可能快，以最小的输入（能量）。当质量到达目标位置时，其速度应尽可能接近零。基于上述陈述，我们可以用如下公式表示OCP。N−1我们感兴趣的初始状态值。这个过程是通过yadpf_trace函数完成的。最后，我们可以使用yadpf_plot函数绘制结果。对于值迭代，我们还必须将OCP离散化，如minfk， xN，vN22 2Kk=0服从：反向DP然而，与后向DP不同，值迭代仅需要两个用户定义的函数：状态更新函数，xk+1vk+11吨01−btxk]+[01吨[fk（三）和阶段成本函数。这两个函数的原型与反向DP中的原型相同（请参见清单1）。不再需要地平线长度。相反，引入了一个新变量来设置最大迭代次数（请参见清单3第10行）。f k= F k∈ {−4，−3. 9，-3。8，. . . 、3.八三9、4}x k= X k∈ {0，0. 001，0。002，。. . ，1}vk= V k∈ {0，0. 001，0。002，。. . ，1}x f= 0。5%设置：2个状态和1个输入P =−1.2：0.001：0。5;V = −0.07：0.0001：0的情况。07;U= [−1 01 ] ;dpf。states = { P V};dpf。输入={U};dpf。T_ocp = 1;dpf。T_dyn = 1;dpf。max_iter =一万;1vf=02在方程式中（三）、 α1、α2和α3是力4输入，位置和速度，分别，其值五是要坚持实践性。让我们设置采样周期，6OCP为0.1 s，动态模拟为0.01 s。清单48包含等式中OCP的MATLAB实现（3）使用9YADPF一揽子计划。10dpf。状态更新fn= @state_update_fn ;dpf.stage_cost_fn = @stage_cost_fn;%创建和运行求解器百分之十一设置的状态输入112 X =0：0.001：1;%位置213 V =0：0.001：1;%速度314架F=-4： 0。一曰：4;%作用力4dpf =yadpf_visolve（dpf，0的情况。99）;15516%设置的地平线6% 崔思I n i t i a l状态：[-0.50]17TF= 1;7DPF=yadpf_vitrace（dpf，[-0.50 ]）;18T_ocp = 0。1个单位;819不= 0：T_ocp：转铁蛋白;9[VKAuralius Manurung、Lisa Kristiana和Nur Uddin软件X 17（2022）1010014∗ ∗∗∗∗38414447图二. 质量-阻尼器系统时间最优运动的向后DP可达性图。Fig. 1. 质量阻尼器系统的时间最优运动，由向后DP计算。dpf。状态={X，};dpf。int n = {n};dpf。T_ocp = T_ocp;dpf。T_dyn = 0。01 ;dpf。n_horizon =return（t）;dpf。状态更新fn= @state_update_fn ; dpf.阶段成本fn =@阶段成本fn; dpf。terminal_cost_fn = @terminal_cost_fn;% 快跑，跟踪，和情节%初始状态：[0 0]dpf =yadpf_solve（dpf）;dpf = yadpf_trace（dpf，[00 ]）;yadpf_plot（dpf，%可选：绘制相对湿度图yadpf_rplot（dpf，[ 0 . 50]、0 . 1）、%%的状态未更新的功能功能 X=state_update_fn（X，F、dt）m= 1;%质量b = 0。1;%阻尼系数X{ 1} = X{ 1} + dt X{ 2};X{ 2} = X{ 2}− b /m dt。X{ 2} + dt /m。F { 1};端%%的阶段成本函数功能J=stage_cost_fn（X，F、K，dt）J = dt F {1}。^2;端%%终端成本功能函数J=terminal_cost_fn（X）xf = [ 0 . 5 0 ];%对照增益α 1 = 1000;alpha2= 100;J=alpha1<$（X{1}−xf（1））。^2+. . .endalpha 2 <$（X{2}−xf（2））. ^2;101112131415161718192021222324252627282930图三. 时间最优运动31质量3233343536、我们要强调的是，37OCP不是一个时间最优控制问题。实施39DP中的时间最优控制问题不是一个简单的40过程。这里应用的目标函数最小化和42平方误差沿预定义的时间范围。然而，在这方面，43开关动作出现的输入序列，通过应用非常45高控制增益。46最优控制问题。然而，这一论点要求48进一步验证。495051523.2.萨顿清单4：具有向后DP的质量阻尼器系统的时间最优运动我们首先在清单4的第7到9行中猜测地平线长度，因为它还不知道。在一个典型的时间最优控制问题中，我们可以通过使用值迭代来避免猜测。值迭代和向后DP在方程中描述的问题。（3）给出了非常相似的结果，如图1所示。向后DP生成可达性图（见图2），而价值迭代生成策略矩阵，也可以以图的形式呈现（见图2）。 3）。山地车问题是一个普遍存在的问题，最初由Moore在[20]中提出，并由Sutton和Barto在他们的教科书[21]中推广从那时起，它已经成为一个常见的玩具问题，强化学习算法测试与许多变化。我们在本文中使用的问题类似于[21]中发现的问题。将Sutton的山地车问题转化Auralius Manurung、Lisa Kristiana和Nur Uddin软件X 17（2022）1010015联系我们∗∗∗ ∗∗37见图4。Sutton山地车问题的最优解γ给出Eq. （四）、min γ α1（x N0. 5）2α2xNuk服从：xk+1=xk+xsteck+1dpf。T_dyn =1; 9dpf。max_iter =1500; 10dpf。状态更新fn=@state_update_fn; 11dpf。stage_cost_fn =@stage_cost_fn;13%运行和跟踪14%从[-0.50] 到 [ 0。 5 0]15dpf = yadpf_visolve（dpf，0的情况。第99条）;第16条dpf = yadpf_vitrace（dpf，[-0.50 ]，[ 0。50]）; 17yadpf_p lot（dpf，19%策略图20yadpf_pplot（dpf）2122%% 的状态更新功能23功能X= state_update_fn（X，U，~）24X{ 2} = X{ 2} + 0.001 U{ 1}− 0.0025cos（3 X{ 1}）; 25X{ 1} = X{ 1} + X{2}; 2627% 打的 L e ft壁28[r，c]=f ind（X {1}（：，：）=−1.2）; 29X{2}（r，c）= 0。001; %I n e l a s t i c壁3031% 打的右侧壁32[r，c]=find（X {1}（：，：）>= 0。第五条）;33条X{ 2 }（r，c）=0的整数;%停止！34端3536%% 的阶段成本函数37功能J =stage_cost_fn（X，你，k，~）38α 1 =1000; 39α 2 =1000; 4041J = α 1(X{1}−0.5）。^ 2 + α 2X{ 2 }。^ 2; 42端43清单5：具有值迭代的Suttonxsteck+1=xsteck+0。001 uk−0。0025cos（ 3xk）x k∈ X k={− 1. 2，-1。199，。. . ，0.（五）xsteck∈Xsteck={− 0. 07，-0。0069，。 . . ，0. 07}uk∈Uk={−1， 0， 1}k= 0，1，. . .（四）4. 影响由于DP提供的解决方案的精确性，它为动态优化提供了黄金标准次优性从Eq可以看出。（4），γ是贴现因子，设定为0.99。汽车有两个状态变量：汽车引入了两个控制增益α1和α2，分别用于调节小车这些控制增益被逐层调整清单5包含了等式1中OCP的MATLAB实现（4）使用YADPF软件包。结果示于图1A和1B中。 4和5.的解决方案是由在离散化过程中引入的限制。然而，DP需要大的存储容量，使其不适合复杂的系统。因此，我们的DP实施面向学术环境：学习，教学和研究。我们还添加了额外的功能来生成两个技术图：可达性图和策略矩阵图。这些图可以生成低维系统的一个和两个状态变量。此外，在除了后向DP之外还实现值迭代的情况下，%设置的状态和的输入P =-1.2：0.001：0。5;V = −0.07：0.0001：0的情况。07;U= [−1 01 ] ;dpf。states = { P V};dpf。输入={U};dpf。T_ocp = 1;1YADPF包可以解决有限和无限水平OCP。2我们目前正在使用YADPF软件包进行理论计算。四是优化控制。我们有更大的灵活性，非线性系统的时间最优控制OCP和动态模拟的6个独立采样周期8个单位。 OCP采样周期的选择图五. 左图显示了非常复杂的可达性图，其中有许多由后向DP生成的未连接区域。右图为价值迭代生成的策略矩阵。用这两种方法观察到非常相似的最优状态轨迹Auralius Manurung、Lisa Kristiana和Nur Uddin软件X 17（2022）1010016通常出现在时间最优控制问题中的切换动作。YADPF的源代码已经向MATLAB社区公开，并提供了详细的使用说明，因此，我们相信YADPF软件包可以帮助动态规划和优化领域的研究人员，特别是那些在最优控制理论方面相对薄弱的研究人员。5. 结论本文介绍了动态编程的一般性，特别是在MATLAB中实现的一个通用的动态编程的YADPF包。引入的YADPF包使学生和研究人员能够解决有限和无限视野的动态优化问题。在本文中，我们还表明，它是相对容易使用的YADPF包。因此，它可以成为动态优化和强化学习领域的研究，学习和教学的有效工具。在不久的将来，我们计划将YADPF软件包用于大学高级选修课的教学，同时继续在文档中添加更多已解决的问题作为示例。我们希望将YADPF包公开给许多不同的使用场景。此外，我们已经为我们的长期计划提出了几个关于YADPF一揽子计划的发展想法第一种是实现ADP的选定变化，第二种是实现随机DP。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作引用[1] 贝尔曼河动态规划。普林斯顿，新泽西州，美国：普林斯顿大学出版社;1957年。[2] Jamal S，Tan NML，Pasupuleti J.微电网和纳米电网应用的能源管理和电源管理系统综述。可持续发展2021;13 （ 18 ）： 10331 。http://dx.doi.org/10.3390/su131810331网站。[3] 李文，等.随机资源分配问题的近似动态规划.北京：机械工业出版社，2000，24 （ 1 ）： 100 - 101. IEEE/CAA J Automat Sinica 2020;7 （ 4 ）： 975-90.http://dx.doi.org/10.1109/JAS.2020.1003231网站。[4] Miretti F，Misul D，Spessa E. DynaProg：有限时间多阶段决策问题的确定性动态规划求解器。SoftwareX2021;14：100690.http://dx.doi.org/10.1016/j.softx.2021.100690网站。[5]古泽拉·桑德斯特罗姆一个通用的动态规划matlab函数.第18届IEEE控制应用国际会议， No.7 。圣彼得堡，俄罗斯 ; 2009 年，第 1625-30 页。http://dx.doi.org/10.1109/CCA.2009的网站。5281131。[6] Chadès I，Chapron G，Cros M-J，Garcia F，Sabbadin R.MDPtoolbox：一个多平台工具箱，用于解决随机动态规划问题 .Ecography 2014;37（9）：916-20. http://dx.doi.org/10.1111/ecog.00888网站。[7][10]李晓，李晓，李晓.最终状态约束下n维最优控制问题的动态规划实现。IEEE TransControl Syst Technol 2013;21（3）：924-31. http://dx.doi.org/10的网站。1109/TCST.2012.2190935。[8]O'Connell JF，Mumford CL.一种基于精确动态规划的方法，使用GPU解决优化问题。2014年第二届计算与网络国际研讨会。2014年，第347- 353页。http://dx.doi的网站。org/10.1109/CANDAR.2014.27。[9] Grüne L，Semmler W.用动态规划与自适应网格法求解经济学中的最优控制问题。经济动力控制杂志 2004;28 （ 12 ）： 2427-56.http://dx.doi.org/10.1016/j.jedc.2003.11.002网站。[10]Osband I，Blundell C，Pritzel A，Van Roy B.通过DQN进行深度探索。在：神经信息处理系统的进展29. 巴塞罗那，西班牙; 2016，arXiv：1602.04621。[11]伯采卡斯岬动态规划与最优控制，第一卷。第三版Belmont，MA，USA：Athena Scientific; 2005.[12] Garrard WL， Jordan JM. 非线性自动飞行控制系统设计。Automatica1977;13（5）：497-505. http://dx.doi.org/10.1016/0005-1098（77）90070-X.[13]Banks SP，Mhana KJ.非线性系统的最优控制与镇定。IMA J Math Control Inf1992;9（2）：179-96. http://dx.doi.org/10的网站。1093/imamci/9.2.179。[14]Kaya CY，Noakes JL.计算和时间最优控制。Optim Control Appl Methods1996;17 （ 3 ）： 171-85. http ： //dx.doi.org/10.1002/ （ SICI ） 1099-1514（199607/09）17：3 171：：AID-OCA571>3.0.CO;2-9.[15] Dubins LE.在具有平均曲率约束，并具有规定的起始和终止位置及切线的最小长度曲线上。美国数学杂志 1957;79 （ 3 ）： 497.http://dx.doi.org/10.2307/2372560网站。[16]Wolek A ， Cliff EM ， Woolsey CA. 变速运动小车的时间最优路径规划 JGuid，Control，Dyn 2016;39（10）：2374-90. 网址：//dx.doi.org/10.2514/1.G001317网站。[17]Lobo MS，Vandenberghe L，Boyd S，Lebret H.二阶锥规划的应用。线性代数应用 1998;284 （ 1-3 ）： 193-228. http ： //dx.doi.org/10.1016/S0024-3795（98）10032-0.[18]Sundström O，Ambühl D，Guzzella L.动态规划法求解有终态约束的最优控制问题。石油和天然气科学技术 - 修订 IFP 2010;65 （ 1 ）： 91-102 。http://dx.doi.org/10.2516/ogst/2009020。[19]哈斯道夫湖梯度优化与非线性控制。A Wiley-IntersciencePublication;1976.[20]摩尔高效的基于记忆的机器人控制学习（Ph.D. 剑桥大学;1990年。[21]Sutton RS，Barto AG.强化学习：介绍。第2版麻省理工学院出版社;2018.

下载后可阅读完整内容，剩余1页未读，立即下载