多机器人基于改进Q学习和扰动速度粒子群算法的路径规划

197 浏览量更新于2024-01-04 收藏 3.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程科学与技术，国际期刊19（2016）651全长文章基于改进经典Q学习和扰动速度粒子群算法的智能多机器人路径规划P.K.这是，*，H.S. Beheraa，B.K.帕尼格拉希ba印度奥里萨邦Burla的VSSUT计算机科学工程和信息技术系b印度德里IIT电气工程系A R T I C L E I N F OA B S不 R 一C T文章历史记录：收到日期：2015年7月30日收到日期：2015年9月9日2015年9月22日接受2015年12月15日在线发布保留字：Q-learning路径规划移动机器人能源IPSO-DV凯佩拉二世经典的Q学习算法需要大量的计算量来计算一个粒子状态下所有可能动作的Q值，并且需要大量的存储空间来存储所有动作的Q值，从而导致收敛速度慢。提出了一种新的方法来确定多机器人在杂波环境中的路径优化轨迹，该方法采用基于四个基本原则的改进经典Q学习与通过修改参数的改进粒子群优化算法（IPSO）和用于提高收敛性的差分扰动速度（DV）算法相该算法用于最小化所有机器人在环境中到达各自目的地的路径长度和到达时间，并减小每个机器人的转弯角度以减少每个机器人的能量消耗。该方案中，改进的经典Q学习算法存储状态最佳行为的Q值，节省了存储空间，用于确定改进粒子群优化算法每次迭代的Pbest和gbest，并利用微分进化中的向量微分算子调整粒子群优化算法的速度.在仿真机器人和Khepera- II机器人上对算法进行了验证© 2015 ， Karabuk University. Elsevier B. V. 制作和托管这是 CC BY-NC-ND 许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍移动机器人的路径规划问题是一个复杂的问题。它[1]确定了机器人从指定的起始位置到达预定目标位置的路径，而不会在给定环境中遇到各种障碍物。路径规划问题被分为不同的类别。其中一类是基于环境信息的静态和动态路径规划。在静态路径规划中，障碍物和目标是静止的。但在动态路径规划中，障碍物和目标在环境中每次都是移动的，而且环境每次都在变化。另一种分类是局部和全局路径规划。机器人在局部路径规划方案的帮助下，通过逐步导航通过障碍物，并通过满足路径，时间和能量最优性等约束来确定其下一个位置以到达目标[2在全局规划中，机器人在从指定的初始位置向目标的* 通讯作者。联系电话：+919439005466;传真：06632430573电子邮件地址：daspradipta78@gmail.com（P.K.Das）。由Karabuk大学负责进行同行审查上述的全局规划被称为全局规划[9]。局部路径规划包括导航和在线规划，有时仅在文献中被称为导航。短语运动规划，包括机器人在规划轨迹上的位置的时间概念，通常用于路径规划的上下文中在路径规划中，我们需要通过避开障碍物在世界地图中生成无碰撞的轨迹路径，并且路径相对于某些标准进行优化。然而，环境可能是巨大的、动态的、不精确的、不确定的和部分非结构化的。在这样的环境中，移动机器人通常使用机器学习来感知其环境。早期的研究使用监督学习来训练机器人，根据从环境中获得的传感数据来确定其在给定世界地图中的下一个位置。但它为机器人在固定地图中的移动管理提供了最好的结果。然而，这是困难的，以指导机器人，以决定其下一个位置，虽然获得的知识，以小的变化，在机器人因此，需要对具有新旧感觉数据-动作对的机器人进行完整的训练强化学习被认为是一种替代学习方法。这是一项以奖励和惩罚为原则的政策。在这种学习中，智能体对环境执行动作，http://dx.doi.org/10.1016/j.jestch.2015.09.0092215-0986/© 2015，Karabuk University.由Elsevier B. V.制作和托管。这是CC BY-NC-ND许可证下的开放获取文章（http：creativecommons.org/licenses/by-nc-nd/4.0/）。出版社：Karabuk University，PressUnit ISSN （印刷版）：1302-0056 ISSN（在线）：2215-0986 ISSN（电子邮件）：1308-2043主办可在 www.sciencedirect.com上在线ScienceDirect可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页：http://www.elsevier.com/locate/jestch652P.K. Das等人/工程科学与技术，国际期刊19（2016）651-669根据行动立即获得奖励或惩罚。学习器基于来自其环境的反馈信号的状态（奖励/惩罚）来调整其参数。由于不知道未来奖励的确切价值，因此可以根据机器人的世界地图进行猜测。强化学习的主要优势在于其固有的自动学习能力在强化学习的多机器人导航方面存在广泛的研究，这些研究已经在许多模拟环境中进行了测试[3，10-现实世界的环境比模拟环境带来更多的挑战，例如扩大的状态空间[11]，增加的计算复杂性，重大的安全问题（真实的机器人可能会造成真正的损害），以及更长的结果周转时间。该研究测量了诸如Q学习的自动学习技术在多大程度上可以应用于实际机器人的导航问题[19，20]。作者[21]通过设计一种自适应模因算法（AMA），利用Q学习的局部优化和差分进化（DE）的全局搜索的综合优势，在Khepera-II环境中实现了多机器人导航在论文[22]中，多机器人导航在现实世界地图中通过人工蜂群（ABC）进行全局搜索和Q学习进行局部优化的混合来解决;性能在运行时间，成本函数和准确性方面进行了评估论文[23]在强化学习中使用李雅普诺夫设计原理来切换控制策略，而不是训练控制策略的代理，并将PSO和基于Q值的强化学习结合起来用于神经模糊系统设计。多目标Q学习算法已经被建模来解决虚拟团队中的多目标学习问题[24]。在本文中，我们修改了经典的Q-学习算法（CQL），以下称为改进的Q-学习（IQL），并集成了一个改进的粒子群优化（IPSO）与DV杂交，称为基于IQ值的IPSO-DV，以提高其性能的多机器人路径规划问题。从特定的角度研究了多机器人的在线轨迹规划问题在这项工作中，我们提出了将初始位置固定到目标位置而不碰到障碍物和队友的方法。在多机器人路径规划问题中，每个机器人在给定的环境中具有指定的初始位置和目标位置，并且每个机器人必须通过在线或在线方法规划其无碰撞路径，而不会撞到地图中存在的任何同事或障碍物。存在于环境中的障碍物可以是静态的或动态的。然而，在本文中，我们已经考虑了静态障碍物在给定的环境中的机器人，和机器人被视为一个动态障碍物的其他机器人。多机器人的路径规划问题有集中式和分布式两种解决方法。成本或目标函数以及用于计算所有机器人的路径的约束在集中式方法中被一起考虑[25，26]，而在分布式规划中，[27]每个机器人在向目的地移动时独立地确定其无碰撞轨迹路径，而不会与静态障碍物或同事发生碰撞。多机器人导航问题可以分解为两个小问题：速度规划和路径规划.在第一阶段，每个机器人通过满足每个机器人的最佳路径来构建单独的路径。在速度规划中，每个机器人都避免了与障碍物和队友的碰撞.许多研究人员将多机器人导航问题作为一个元启发式优化问题，并使用不同的元启发式优化算法为每个机器人生成最佳轨迹无碰撞路径，例如遗传算法（GA），粒子群优化（PSO）[28，29]和差分进化（DE）[26]。在我们的研究中，我们将强化学习技术与改进的粒子群优化算法（IPSO）和DV相结合，计算所有机器人的最优轨迹路径。在杂乱的环境中，机器人从指定的初始位置到固定的目标位置，目标是最小化每个机器人的路径距离。在本文中，我们加强了我们的实施IQ值为基础的IPSO-DV算法，以确定从预定义的初始位置到预定义的目标位置在环境中的多个机器人的路径轨迹，以最小化所有机器人的路径长度的目标。结果表明，该算法能在合理的时间内提高解的质量。将经典的Q学习算法与IPSO-DV算法相结合，改进了多机器人全局路径规划问题，提高了收敛速度，并从路径偏差、路径行进、转弯次数和到达目的地所需总时间等方面对算法性能进行了最后，通过仿真和Khepera机器人实验验证了基于IQ值的IPSO-DV算法的有效性，并将其结果与其他进化计算方法IPSO-DV、IPSO和DE进行了比较本文件其余部分概述如下。多机器人导航的问题制定已在第2节中阐述。第三节介绍了经典的Q学习及其局限性。经典Q-学习是基于所提出的称为改进Q-学习的性质而改进的，并且克服了经典Q-学习的局限性，如第4所介绍的。改进的Q学习算法在第5中给出。第六节简要介绍了经典粒子群算法和改进粒子群算法。第7节介绍了差分进化算法。第八给出了多机器人路径规划的IPSO-DV混合算法的理论描述和算法。第9节给出了基于QIPSO-DV算法的多机器人路径规划。混合QPSO-DV的实现和性能分析在第节中简要描述10个。第11节提供了Khepera II机器人的实验结果。结论见第12节。2. 多机器人导航多机器人导航问题被公式化为每个机器人从其在环境中的当前位置通过避免与其路径中的队友（其本质上是动态的）和障碍物（其本质上是静态的）碰撞来计算其下一个位置以到达目标。在以下假设的帮助下，在制定多机器人路径规划问题时考虑这组原则：假设1. 所有机器人的当前位置/初始位置和目标位置/目标位置在先验坐标系中是已知2. 在任何时刻，机器人都可以从一组预定义的动作中决定任何动作。3. 每个机器人都在执行其动作，直到逐步到达各自的目标位置。为了满足给定的假设，已经考虑了以下原则。1. 为了从其当前位置确定下一个位置，机器人尝试将其航向方向对准目标位置。2. 对准可能导致与环境中的机器人/障碍物（其本质上是静态的因此，机器人将其航向方向向左或向右转动一定角度，以从其当前位置确定其下一个位置3. 如果一个机器人能够在不发生碰撞的情况下将自己与目标对准，那么它将移动到确定的位置。4. 如果航向方向向左或向右旋转，则要求机器人绕其z轴旋转相同的角度;如果多个方向相同，则随机决定i1下一页吉吉yy目 2 下我的目 2我我vcurr我（xcurr，ycurr）我我吉吉我拉吉吉我我我我n我我我我我我我我我我我我我我P.K. Das等人 /工程科学与技术，国际期刊19（2016）651-669653通过从表达式（3）和（4）中将值xi置于下一个和y置于下一个，将Y（4）代入表达式（5），我们得到y下一个我n xcurrvcurrc osxgoal2F1赛车第一卷伊伊目标 2（六）i 我的天啊我的天啊Curr我Curr我接下来X我第二个目标函数被认为是一个排斥函数。的排斥功能是已定义作为一功能的的相对距离之间的机器人和障碍.设dminX p<$是 X p 从的障碍. 因此，每个静态障碍物的排斥场在表达式（7）中定义。Fig. 1. 表示第i个机器人当前位置的下一个位置。年1月日，如果 XF  X最小p0（七）2年，minp0否则考虑第i个机器人在时间t的初始位置是（x icurr，y icurr），同一机器人在时间t的下一个位置是（x inext，y next），v curr是机器人Ri的速度，（xgoal，ygoal）是机器人Ri的目标或目标位置。因此，下一个位置的表达式（xinext，ynext）可以从图1导出如下：其中，λ0是障碍物的感应范围，k是正常数，λ2形成了电势的径向分布。第三个功能是在预测世界地图中的动态对象的基础上考虑的，该动态对象将动态地出现在机器人的轨迹中。因此，机器人在决定下一个位置之前必须预测动态障碍物的位置。目标函数，包括预测原则，是前-x下一个最新汇率（一）被问及y下一个你现在是什么样子（2）Fn（八）我3 当t=1时，方程（1）和（2）被简化为x下一个第1003章：我的天（3）第一章1再次使用第四目标函数考虑路径的平滑度。平滑度表示为连接目标点和两个连续点的两条假设直线y下一个货币我的世界（四）机器人在每次迭代中的静态位置我我我首先考虑，机器人Ri被放置在（xi curr，y icurr）。我们要找到机器人的下一个位置（x inext，y next）在第i次迭代中。路径平滑度的目标函数在数学上表示为我是我 Xi你好，我是一个很好的人通过连接{（xicurr，yicurr），（xinext，ynext）}和{（xinext，ynext）;（xgoal，ygoal）}不应该碰到障碍物，cosCurr目标目标我我我ycurrygoalyi1y世界地图，如图所示。 2，并最小化总路径F阿吉岛格贝斯特岛（九）从当前位置到目标位置的长度（不接触）通过形成约束来克服障碍。然后，确定n个机器人的轨迹路径长度的目标函数F1xcurrF1赛车Y（五）X现在，多机器人导航问题可以表示为一个优化问题。该优化问题包含一个目标函数，该目标函数基于避免与其路径上的障碍物/队友碰撞来约束条件采用三种罚函数建模第一个罚函数用于避免移动机器人与障碍物或队友的碰撞，而第二个罚函数用于避免移动机器人与动态障碍物之间的碰撞，第三个罚函数用于考虑路径的平滑性。因此，通过四个目标函数的加权和获得总体目标（或拟合度）函数，例如：F1F12F23F4F4（ 10）其中，R1、R2、R3和分别是最短路径、静态障碍物、动态障碍物和路径平滑度的权重。这些权重在模拟和Khepera中进行调整II型机器人，具有卓越的价值，发现10.11，，，10.25，0.25美元。因此，通过最小化图二. 从当前位置（xcurr，yicurr）选择下一个位置（x inext，ynext），在Eq中的函数（10）每个人的权重我避免与障碍物碰撞。我标准吉吉xCurr下 2 y Curr我的下2我我x 埃什基目  2目p我p我 2阿克格贝 X射线目我  2gbesti1  y目第一我 2（xnext，ynext）我我障碍（xcurr，ycurr）我我yXX4a/a/a/a/BAGcGdG654P.K. Das等人/工程科学与技术，国际期刊19（2016）651-6693. 经典Q学习（CQL）及其局限性经典Q学习（CQL）是一种强化学习，其中智能体通过环境中的状态转换执行动作，并通过执行该动作以达到目标状态来获得奖励或惩罚。智能体的主要目标是学习控制策略，从特定状态下可能的集合动作中选择一个动作，以最大化通过状态转换过程从指定的起始状态到目标状态设S0， S1，S2，.. 、.、Sn是一个智能体的n种可能状态，a0，a1，a2，an，am是每个状态的m种可能动作的集合。代理从每个状态中的可能的n个动作的集合中选择动作，并且接收该动作。每个状态的Q值，并允许它学习，直到所有的锁变量都被设置。假设Sk是任何状态。已知目标状态和S k的下一个可能状态之间的距离。设S ∈ {Sa，Sb，Sc，Sd}为Sk的下一个可能状态，G为目标.设Sa、Sb、Sc、Sd与G之间的城市街区距离分别为daG、dbG、dcG和ddG，并且按顺序的距离为dbG <$Q p对0<$1是逻辑上可满足的.现在，由于Lp= 0，Qp直到这次迭代才固定;所以Qn在当前迭代中也不固定。现在，在Qn和Qp中添加迭代t的概念，我们有：我不知道你在说什么，但是，如果Qn不等于1，则Qp不等于，否则，请执行以下操作。（十七）将（17）中的表达式组合成一个表达式，我们写：Qnmaxn，p 现在，从（18）的两边去掉t，我们得到，QnMaxn，Qp5. 改进的Q学习算法（十八）（十九）在所提出的新的Q学习算法中，每个网格只需要两个字段，一个用于存储Q值，另一个用于存储Q你好，656P.K. Das等人/工程科学与技术，国际期刊19（2016）651-6695.1. 空间复杂度在经典的Q学习中，如果有n个状态，每个状态有m个动作，那么Q表的维数为 mnn。在改进的Q学习中，对于每个状态，需要2个存储器，一个用于存储Q值，另一个用于存储特定状态的锁定变量的值因此，对于n个状态，我们需要一个2 n维的Q表。因此，在本上下文中，关于经典Q的存储器节省由mn-2n = n（m-2）给出。因此需要动态地改变惯性权重来动态地调整搜索能力。因此，有几个propos-als修改粒子群算法的惯性权重值在每次迭代自适应的方式。为了提高粒子群优化算法的收敛速度，本文对粒子群优化算法（IPSO）进行了自适应权值调整和加速系数的改进，并将经典的粒子群优化方程修改为如下形式。V t wi V C1 pbest x5.2. 时间复杂在经典Q学习中，在给定状态下更新Q值需要确定该单元中所有可能的最大Q值 C2 gbest xidt xid1 xidVidIPSO中的局部最佳值可以计算为：（二十一）有意义的行动。因此，如果在给定状态下有m个可能的动作m个可能的Q值的最大化需要m-1个比较。普贝斯特最后一个，if Oxbjid你好，（二十二）IDxt你好，因此，如果我们有n个状态，阿卡德BJid bj id整个Q表的经典方法需要n（m−1）次比较。与经典的情况不同，这里我们不需要任何这样的比较来评估从下一个状态Sn到一个状态Sp的Q值。但是我们需要知道状态n是否被锁定，即，Sn的Q值是永久和稳定的。因此，如果我们有n个状态，我们需要n个比较。因此，我们节省了n（m−1）− n = nm−2n = n（m−2）。6. 粒子群优化算法6.1. 经典粒子群算法CPSO是一种基于随机种群的生物启发进化优化算法，最初由Kennedy和Eberhart（1995）提出，它利用群体智能来实现其中f代表移动粒子的适应性函数，全局最佳位置如下获得：gbestObjpbest1，Objpbest2，bjt（二十三）粒子群算法的收敛速度得到了提高，其参数微调的帮助下，几种技术。这些技术通常在不改变算法固有结构的情况在前一个时间步长期间的速度通过比例因子惯性权重（w）对其进行缩放，以在粒子每次移动搜索空间时更新新的速度在过去已经进行了经验性实验，其中惯性权重从0.9（wmax）线性减小到0.4（wmin），如下所示优化的目标。它基于鱼群或鸟群的智慧集体行为在经典的PSO算法中，种群中的每个成员在D维搜索中被称为粒子，wiwwmaxwⅰ阶K（二十四）一组粒子被称为swarm。CPSO的速度参数根据粒子自身的经验和对伴随粒子的经验进行动态更新整个种群的成员在个体之间共享信息，以改变每个粒子的位置，从而在搜索空间中找到最佳位置与其他优化算法相比，CPSO算法的优点是易于实现，需要调整的参数少。设N为人口规模。在每一代k中，粒子的速度和位置使用等式更新（一）.V t V C1 pbest x其中K是粒子的数量，rank i是第i个粒子的位置，粒子是根据它们的最佳拟合值排序的。同样，加速度系数也设定为固定值（通常固定为2.0）。与认知成分C1相比，社交成分C2的大值导致粒子过早地到达局部最优，并且认知成分的相对高的值导致粒子在搜索空间周围徘徊。通过修改认知和社会系数项，减少了认知分量，减少了社会分量，提高了解的质量。 C2 gbest xidt xid1 xidVid（二十）随着一代人的成长而成长系数的修改（对于第k代）使用等式（1）进行（23）Eq.（24）.其中xixi1，xi2，x i=x ii，x i = x i i，x i = x i i，x i = x i，x i = x i，x i 颗粒iiN在一d维搜索空间，代表第i个粒子的速度，C1$C1<$0$C1C1iC1iMax_IterCQC（二十五）和CC是加速度常数，有两C2C2i2F2我阿勒特（二十六）22 1 2Max_Iter范围[0，1]中的随机数xpbest是第k代中第i个粒子的先前最佳位置，xgbest是第k代中所有粒子中的先前全局最佳位置。如果C1≤0，则将PSO算法转换为纯社会模型。类似地，如果C20，那么它就变成了一个仅认知的模型。6.2. 改进粒子群优化为了平衡粒子群算法的探索性和利用性，Shi和Eberhatte提出了一种惯性权值的粒子群算法，该算法中每个粒子的速度都是更新的，惯性权值越大则提供全局搜索，惯性权值越小则提供局部搜索。其中，C1i、C1f、C2i和C2f分别是认知和社会成分加速因子的初始值和最终值，Max_Iter是允许迭代的最大次数。7. 差分进化算法差分进化算法是Storn和Price在1995年提出的一种新的全局优化进化算法[12，15]。它使用选择、变异和重组作为一种特殊的微分算子，从亲本基因组或染色体中产生新的后代，而不是使用Ui tX1iiMm嗯嗯我我普贝我格贝我我i，mx否则为P.K. Das等人 /工程科学与技术，国际期刊19（2016）651-669657下一代的经典交叉或突变。DE特别用于D维搜索空间中的全局搜索。它是一种类似于遗传算法的基于种群的算法，具有类似的操作，但主要区别在于DE依赖于突变操作，而遗传算法依赖于交叉。差分进化算法采用变异操作作为搜索机制，选择操作将搜索向前推进到搜索空间的期望区域。DE开始于在时间t=0时随机生成的D维搜索变量向量的种群。在随后的生成中，离散时间步长可以表示为t 0，1。、t由于向量可能在不同世代中发生变化，因此使用以下符号来表示当前世代t的群体的第i个向量：当CR值在0和1之间时，在D的每个变量上进行交叉游戏。计划概要如下：ui， m以这种方式，为每个试验向量X t创建后代向量。为了保持种群规模在后续世代中恒定，在算法的下一步中调用选择过程以确定在时间t = t+1时靶载体或试验载体在下一代中的存活。这是达尔文的“适者生存”原则X i不等于x i1，x i2，x i3.iD打印机（二十七）乌特河如果UXiXt如果XU（三十一）这个载体被称为染色体。为了得到更好的结果，每个参数的值必须在每个变量所在的一定范围内变化在t = 0时DE运行开始期间，在可行的数值范围内初始化问题的所有参数和自变量因此，如果给定问题的第m个参数的下限和上限为xmin和xmax，则我们可以将第i个种群的第m个分量初始化为i i其中f（）是要最小化的函数。如果试验向量生成更好的拟合值，则试验向量在下一代中替换其目标;否则目标保持不变在人口中。因此，种群要么变得更好（就拟合值而言），要么保持不变，但永远不会恶化。xi，0xmixxxmin（二十八）8. IPSO-DV算法[001 pdf 1st-31 files]其中，[001 pdf 1st-31 files]是一个随机数。通过改变每一代中的每个群体成员Xiti ti来创建供体向量Vi ti。已经使用各种类型的DE方案来创建供体向量。在这里，我们使用DE/rand/1作为突变策略。在此策略中，要为每个第i个成员创建V ，从当前总体中随机选择参数向量（比如z1、z2和z3）。接下来，计算差xz2xz3，通过标量因子F对其进行缩放，并将第三矢量xz1作为第三项相加，以获得施主矢量Vit 。我们可以从数学上-按下每个供体向量的第m个分量，粒子群的概念源于对社会生物集体行为的模拟，并逐渐演变为一种强大的全局优化技术，现在被称为粒子群优化（PSO）。粒子群优化算法是目前最流行的实参数优化算法之一经典的粒子群优化模型不能保证收敛到最优解，并且依赖于加速度参数和惯性权重等外部参数。由于上述原因，其效率相对较差，因此采取了多种措施来改善其性能，vi，mxz1，mtxz2，mxz3，m（二十九）粒子群优化（PSO），如前一节所述，被称为改进的粒子群优化（IPSO）。在大多数情况下，骗局-其次，交叉方法开始在DE方案中发挥作用，以增加种群的潜在多样性; DE使用两种类型的交叉：一种是指数交叉，另一种是bino交叉。mial。在该方案中，供体载体的X组分与靶载体X交换。在指数交叉过程中收敛是过早的;当大多数粒子在连续的阶段中不改变它们在群中的位置时，不能发现全局最优。这种情况的发生是由于惯性重量或收缩系数的值很由方程式（2），我们发现，如果V ik很小，除了非常小的值，从[0，D-1]中随机选择一个整数n，x k<$x k且x k<$x k，则 Vk不能达到大的值，整数充当靶载体中的起始点以与供体载体的组分再次gener-即将到来的迭代这意味着探索能力的丧失这种情况甚至可能发生在搜索过程的早期阶段，从区间[0，D-1]中取另一个整数L来表示这个数粒子处于全局最佳状态，kpbest  XK和克贝斯特  xk为供体载体贡献给靶载体的组分。为零，并以比率w迅速衰减。在生成n和L之后，试验向量如下：当x k和x k足够接近时，从多样性损失[30-32]。斯普贝斯特格贝斯特U ui， t， ui，2 ui，tu i，mv i，mt为mnD，n1DnL1D阿克斯岛（三十）针对上述问题，采用微分算子调节粒子群算法的速度，以消除早熟收敛。提出了一种利用差分进化算法中的矢量微分算子来调整IPSO速度的新方案。新颖的基于维数均值的其中角括号>D表示具有模D的模函数。根据下面的伪代码，整数L从[1，D]L = 0重复{L = L+1}until（（rand（0，1）CR）AND（L D））这里，CR是交叉常数，并且与F一样用作DE的控制参数。效应概率（L > P）=（CR）P-1。如上所述为每个供体向量V创建新的n和L的在一个XX扰动策略，一个简单的老化指南，和一组非线性时变加速系数，以实现探索和开发能力之间的更好的权衡，从而避免过早收敛的多模态适应性景观。老化准则用于在粒子没有进一步改进时在群中引入新的解决方案。在这项工作中，粒子的速度受到扰动的加权差异的任何两个不同的粒子的位置矢量选择从他们的前一个和下一个邻居的群体。这个微分速度项是从DE变异方案中继承来的，因此该算法被称为IPSO-DV（改进粒子群算法）V658P.K. Das等人/工程科学与技术，国际期刊19（2016）651-669微分扰动速度）。DE的贪婪选择方案采用适者生存的原则。IPSO-DV在IPSO的速度更新方程中使用微分算子该算子被引入到从种群中选择的两个相邻粒子的位置向量上，并没有处于最佳状态。此外，一个粒子被移动到一个 T riV迭代值我的朋友们，我的朋友们，我的朋友们，（三十四）（三十五）只有当新的位置产生更好的拟合值时，在IPSO方案中，即选择过程已纳入群体动力学。在所提出的算法中，群中的每个粒子i都考虑了另外两个不同的粒子，即j和kij，其中ji1和k1是从群中粒子i的其中n是调整交叉比以获得更好收敛的非线性指数。仅当该位置的坐标产生更好的拟合值时，才将粒子放置在该新位置。因此，如果我们正在寻找一个n维函数fX的最小值，那么目标粒子的重新定位如下：   将它们的位置坐标的差作为差X1Tri如果fft（三十六）vector.  Xk Xj（三十二） Xt1 Xt otherwise因此，每当它的速度改变时，粒子要么移动到搜索空间中更好的位置，要么坚持它以前的位置。然后，目标部分的第d个速度分量<$d<$n <$n-1clei更新为是的。因此，粒子的当前位置是它迄今为止发现的最佳位置如果一个粒子不改变它的位置，V 别说了C JX 不过，如果rand0，1则为CR在搜索空间中定义迭代次数（即，在任何一点上停滞Vidt1阿卡德编号d但是，22gdidd否则（三十三）在搜索空间中），则通过随机突变将粒子移动到新的位置，并在下面进行数学解释。该方法其中CR是交叉概率，是的第d个分量帮助逃离局部极小值并保持群体移动。你好，差向量，是[0，1]中的比例因子本质上如果XtX1XN且f*方程中的速度更新公式的认知部分（1）重新-与矢量微分算子一起放置以产生一些附加的探索能力。显然，对于CR，它随迭代的变化表示在等式1中。（14），一些速度分量将保持其旧值。现在，一个新的审判地点然后为j1至nX Xminj ，  maxXmin（三十七）通过将更新速度添加到先前位置Xi来为粒子创建：其中f*是适应性函数的全局最小值，N是停滞可以达到的最大迭代次数。公司P.K. Das等人 /工程科学与技术，国际期刊19（2016）651-669659步骤，即Q值和IPSO-DV操作。第四节介绍了粒子Q值的生成策略，并介绍了IPSO-DV算法。9. QIPSO-DV路径规划算法在新提出的改进Q学习中，动态地选择每个状态的最佳动作。这有助于减少移动时代理所需的能量。在规划算法中，通过比较8个相邻状态的Q值来选择最佳动作。如果有一个以上的状态具有相等的Q值，则选择需要最小能量进行转动在图4中，机器人位于中心，面向东方。下一个可行的状态是8-邻居状态，并且在每个状态中给出有两个状态的最大Q值为89。如果下一个州位于南部，则机器人必须向右旋转90°，如果下一个州位于西部，则机器人必须旋转180°。因此，假定的下一个状态将是南方的状态，因为机器人需要较少的能量来移动到该状态。在路径规划过程中，机器人在给定的状态下从几个最佳动作

下载后可阅读完整内容，剩余1页未读，立即下载