动态多智能体控制的贝叶斯优化模型及其在解决复杂任务中的应用

191 浏览量更新于2023-12-06 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

阵列15（2022）100218空间导航放大图片创作者：John A. 黄a，b，1，张克臣c，Kevin M. 放大图片作者：Joseph D. 摩纳哥ca约翰霍普金斯大学应用物理实验室，劳雷尔，20723，MD，美国bKavli Neuroscience Discovery Institute，Johns Hopkins University，Baltimore，21218，VA，USAc约翰霍普金斯大学医学院生物医学工程系，巴尔的摩，21205，MD，美国A R T I C L E I N F O保留字：贝叶斯优化多智能体控制Swarming动力系统模型UMAPA B S T R A C T用于控制多智能体群的动态系统模型已经证明了在弹性、分散式导航算法方面的进展。我们之前介绍了NeuroSwarms控制器，其中基于代理的交互通过类比神经网络交互来建模，包括吸引子动力学和相位同步，这已经被理论化为在导航啮齿动物的海马位置细胞回路中操作。这种复杂性排除了通常使用的稳定性、可控性和性能的线性分析来研究传统的蜂群模型此外，调整动态控制器手动或基于网格的搜索往往是不够的，由于目标的复杂性，模型参数的维数，和基于模拟的采样的计算成本。在这里，我们提出了一个框架，调整动态控制器模型的自治多智能体系统与贝叶斯优化。我们的方法利用任务相关的目标函数来训练高斯过程代理模型，以实现自适应和有效的探索动态控制器模型的参数空间。我们证明了这种方法，通过研究一个目标函数选择NeuroSwarms的行为，合作本地化和捕获空间分布的奖励下的时间压力。我们通过结合不同几何形状的多个迷宫中的模拟得分来概括不同环境下的任务性能。为了验证搜索性能，我们通过可视化二维嵌入中的样本轨迹来比较高与低似然参数点的高维聚类。我们的研究结果表明，自适应，样本效率的评估复杂系统的自组织行为能力，包括动态群控制器，可以加速翻译的神经科学理论应用领域。1. 介绍动物群体的集体生物行为，包括群集，群集和学校行为[1 特别是，提高多智能体群控制的自主空间能力已经成为基于动力系统模型的人工群仿真研究和分析的关键目标[13]。此外，基于深度学习的人工智能最近取得的令人印象深刻的进展[14]证明了采用神经科学和大脑的关键生物灵感的重要性。然而，目前还不清楚如何整合复杂的大脑动力学时间特征，这些特征被认为是支持关键的神经计算机制[15]。因此，解决自主机器人和人工智能中的关键问题可能取决于对具有许多单元之间的复杂交互的动力系统模型的有效探索和优化。在这两个领域中，最先进能力的主要差距突出表现在涉及复杂，新颖或不断变化的环境中的自主空间导航和觅食任务[16贝叶斯优化提供了一个概率框架，用于对具有中等维度（最多20个参数）和昂贵样本评估的“黑盒”模型进行自适应、样本有效的优化。在这个框架中，任务相关的目标函数表示复杂基础模型的输出性能，优化器跟踪候选点的参数空间轨迹，∗ 通讯作者。电子邮件地址：arminhadzic@outlook.com（A.Hadzic），grace. jhuapl.edu（G.M.Hwang），kzhang4@jh.edu（K. jhuapl.edu（K.M.Schultz），joe@selfmotion.net（J.D.摩纳哥）。[1]本材料基于国家科学基金会（在该基金会任职期间）支持的工作任何意见、发现、结论或建议本材料中表达的观点是作者的观点，不一定反映国家科学基金会的观点https://doi.org/10.1016/j.array.2022.100218接收日期：2022年3月1日;接收日期：2022年7月1日;接受日期：2022年7月2日2022年7月15日在线提供2590-0056/© 2022作者。爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表阵列期刊主页：www.elsevier.com/locate/arrayA. Hadzic等人阵列15（2022）1002182|��||��|驱动相互吸引和排斥的内部相变量��=1��在更简单的代理模型上操作的采集功能。典型的替代模型是一个高斯过程，它用多元正态分布填充感兴趣的参数空间，并用作候选点更新的先验分布[20，21]。使用高斯过程代理模型的贝叶斯优化已经实现了包括进化算法、多模态函数、机器人控制器和其他复杂系统的超参数调整和优化在内的应用[22一些群集模型的集体行为状态易于进行稳定性、密度和聚类特性的线性分析[28然而，对于由于非线性、非平稳性、随机性或其他复杂性而排除这种分析的动态系统，基于仿真的样本的参数探索或优化的计算预算是转化为工程设计的限制因素。实际上，基于梯度下降的标准方法在此上下文中具有两个主要缺点：它们可以发现局部最优，但抵制出于其他目的对系统行为的探索;并且它们的基本操作是大量样本效率低下的，这对于昂贵的基于模拟的样本评估来说可能是禁止的此外，涌现的集体行为（如群集）超过了传统的基于代理的学习方法，这些方法基于强化学习的限制性动作和策略空间，特别是对于不确定、变化或开放式任务。我们之前介绍了NeuroSwarms框架，用于在大脑启发的多智能体元控制器中对紧急高级导航和觅食进行建模[33NeuroSwarms通过类比神经回路动力学（包括振荡[36- NeuroSwarms模型的集体行为包括在具有复杂、不规则或碎片几何形状的模拟迷宫环境中群集、巡逻和目标寻找[34]。这些行为使NeuroSwarms能够完成合作的多个奖励捕获任务，而无需在不同的环境中进行预训练[34]。然而，NeuroSwarms的振荡相位耦合自组织中固有的非线性排除解析方法到全局识别，探索或优化系统行为。因此，这类表1控制示例Neu-roSwarms模型实现的时空动态的可调参数[34]。‘Range’ indicates thelimits of the parameter 所有其他NeuroSwarms参数值和常数都固定在Monaco等人的表1中的默认值。（2020）[34]。名称范围说明��[10− 3，4]归一化的区间空间尺度��[10− 3，4]归一化奖励法空间尺度��[10−3，4]递归交互学习率��前馈[10−3，4] 奖励法学习率��0[0，1]基线药剂振荡频率最大值[0，1] 基于激活的频率增加��美国[0，1] 交互作用时间常数��前馈[0，1] 报酬时间常数[��0，1]感官输入时间常数2.2. 贝叶斯优化贝叶斯优化构建并执行替代模型的顺序优化，该替代模型代表更复杂模型的客观性能[44如果直接优化复杂模型在给定资源约束的情况下在计算上不容易处理，则学习代理模型可以是有益的。然后可以部署这些代理模型来预测基础模型的性能在未经测试的参数点，而不需要完整的模型模拟这些参数值（图。①的人。我们使用定义为高斯过程的代理模型实现了贝叶斯优化[20，48，49]。高斯过程是对位的，迭代学习概率映射的度量模型��使得密度估计p（k）=k（k，k），其中XkRk是��被优化的有界参数子空间，是参数点，并且是目标函数输出值[21，50，51];例如，��在本文中，神经网络= 9个参数。因此，假设潜在的��真其中，（）和（）是应用于输入参数集的均值和协方差核，X。以观察到的训练为条件的一��批大小为的候选点��的后验分布动态系统模型可以提供对大脑关键方面的见解数据 = {（��，��）}��是一个多维的多变量结构和功能，可能会激发理论的进步，以及系统工程设计的新方向。这种洞察力关键取决于设计一个任务相关的目标函数，可以指导系统行为和最佳性能的有效发现。在本文中，我们证明了贝叶斯优化可以利用这样的目标函数，有效地找到路径，否则禁止模型空间。特别是，我们表明，神经动力学控制器模型与紧急属性可以使用贝叶斯优化高斯过程代理模型的特点和调整。2. 模型和方法2.1. NeuroSwarms模型Monaco等人。（2020）[34]介绍了NeuroSwarms框架，并描述了一个具有300个代理的模型实现;基线避墙，动量携带运动矢量更新;几何形状遮挡代理视线的迷宫装置正态分布，即，P（（））（（），（））。��2.3. 获取功能贝叶斯优化依赖于获取函数来提供导航底层模型空间的候选参数点。采集函数定义了一种策略，用于管理探索参数空间和利用先前样本得到改善的区域之间的权衡[52]。采集函数可以通过对一组蒙特卡罗（MC）样本求平均来在高斯过程后验P（P��（M））上进行评估，例如，��̂��(��;)=1∑��(��(��)),(1)=1其中，n是样本计数，n（n）是提供目标函数输出的净效用函数。因此，��是后验样本的期望值P（（��））。我们研究了一对基于MC的采集函数：��-预期改善（qEI）[53]和噪声��-预期改善（qNoisyEI）[54]。我们将qEI和qNoisyEI与候选参数的随机采样进行比较。第一，类似于Eq。�� （1）），qEI计算后验样本的期望��[[001 pdf 1st-31files]qEI（）<$1∑max−��=1和9个关键的动态参数（表1），需要密集的手动微调，以平衡群集和奖励捕获。其中[k]+表示线性校正，��并且k是最佳观测目标函数值。因此，qEI估计无噪声预期+，A. Hadzic等人阵列15（2022）1002183Fig. 1. 优化和基于模拟的采样的计算流程。步骤1：基于训练数据，从高斯过程代理模型（GP模型）计算后验分布。步骤2：采集函数的准蒙特卡罗采样过程使用后验分布，以基于采集函数的估计目标函数值α（步骤4）来选择新的候选参数α（步骤3）。步骤5：使用候选参数点模拟NeuroSwarms模型[33，34]，以生成观察到的目标值 (seeB）。第六步：然后计算初始高斯过程模型的边际对数似然（MLL），并使用L-BFGS-B算法[ 47 ]优化高斯过程。步骤7：所得到的时间序列（来自步骤5）和MLL（来自步骤6）更新高斯过程模型，以用于外部模型的下一次迭代。循环. B、基于模拟的候选点评估流程图。对于每个样本（参见A中的步骤5），优化器在Hairpin（顶部）和Tunnel（底部）迷宫环境中执行play-tunnel。样本的目标值被计算为相应损失值L和L的平均值（等式10��（三））。A. Hadzic等人阵列15（2022）1002184��⋅��（）下一页|（）下一页相对于最佳值的后验改善。其次，qNoisyEI近似于相对于以每个批次内观察到的MC采样历史样本为条件的预期最佳目标值的改善[55];简单地说，qNoisyEI [54，56]执行的约束批次采样近似于观察到的参数和拟合超参数与有限的记忆拟合过程提供更新的MLL 下一个优化步骤qNoisyEI（;）1∑m��ax[��−max]2.5.1. 收敛度量��=1=1obs+，重复上述超参数调整过程但是对该复杂优化问题的更详细的处理提供了关键分析和警告（参见，[54在整个研究中，使用三种采集函数中的任何一种的贝叶斯优化采用了512个MC样本，30个训练时期（批量大小为3）和8个随机训练样本来初始化高斯过程代理模型。2.4. 目标函数我们构建了一个目标函数来评估时间压力合作中示例NeuroSwarms模型[34]直到根据两个度量收敛：最大后验方差和最小候选相异性。首先，计算训练时期的最大后验方差，maxVar P（（））以指示高斯过程的后验方差是否不再增加以及训练是否应该停止。第二，最小候选相异性将候选选择的稳定性度量为反余弦相似性;即，我们计算了以下度量觅食任务目标函数量化了代理群集体捕获几个空间分布的奖励的速度，−1min=11 −[��]��‖ ‖ ‖ ‖给定的迷宫。假设Cumbercap（Cumbercap）是合作的累积数量，��按时间顺序获得奖励。��如果在任何时间步，至少有100个闪烁的智能体同时位于距离奖励的定义半径内，则捕获奖励，其中在隧道和发夹迷宫中，100= 300个智能体，100��对于给定的模拟播放，该目标函数可以表示为损失，在每个时间步更新，直到捕获所有奖励L=−闪烁闪烁的��其中，时间步长是时间步长的总数。特工组的人...IOR受到持续增长的时间压力，直到所有奖励都被捕获。��如果蜂群无法捕获环境中的所有奖励，则将奖励设置为模拟奖励允许的最大时间步长数，并且损失将反映错过的奖励数量。损失值范围为[-1，0]，任务性能更好，接近于零。为了说明空间任务表现在不同环境几何形状上的可概括性，每个基于模拟的样本构成发夹迷宫和隧道迷宫的游戏时间，分别提供如在等式（1）中计算的损失值L1和L2。（2）（参见图1B）。因此，给定参数点处的广义性能由目标值表示，计算为平均值��L + L��以确认是否为与先前训练时期中的参数点的类似邻域选择时期。这些收敛度量确定了超参数收敛，并使高斯过程代理模型能够有效地适应NeuroSwarms参数空间。2.6.参数可视化由均匀多重近似和投影（UMAP）[57]产生的低维表示来自局部保持嵌入，其用于在空间上聚类更高维向量，例如三维参数点。2D UMAP投影允许这些点簇被简单地可视化为图像或散点图，其中，X轴和Y轴构成任意坐标系。对于UMAP散点图，如图2所示。如图3和图6所示，每个点的标记可以是彩色的，以便于对相关值进行视觉检查，包括矢量元素或计算输出。我们使用这种视觉聚类来定性地检查高斯过程代理模型的参数依赖性和结构，通过选择UMAP数据点，例如，高性能由其损失值表示，��（3），并评估该点��(��) ≐=2.（三）值在的上下文的其位置和邻域相对于2.5. 高斯过程训练高斯过程代理模型的均值和方差随每个样本评估而更新，以分别反映基础模型性能的预期值和不确定性。我们使用贝叶斯优化库BoTorch [51]来实现代理模型训练的外循环，该外循环基于使用样本数据迭代初始化后迭代更新高斯过程。然后，使用采集函数从批量MC采样过程中采样后验分布P（P（）），以从由表1中列出的范围界定的子空间中确定候选参数点。候选点是根据效用值的预测估计来选择的。1A），并通过模拟NeuroSwarms模型来评估以生成损失值（Eq. （2））和目标函数输出（Eq. （3）（Fig. 1B）。最后，将结果（k，i）图附加到训练数据k，以更新用于下一次迭代的高斯过程。通过首先计算所应用基于UMAP的集群。3. 结果和讨论3.1. 概述我们展示了贝叶斯优化方法（见第2.2节），用于调整神经科学启发的群集模型NeuroSwarms [33，34，39]（见第2.1节）的参数，以找到合作的老化行为，用于在时间压力下在不同的迷宫环境中捕获多种奖励（见第2.4节）。我们训练高斯过程代理模型（参见第2.5节），以使用无噪声（即，qEI）和观察到的采样历史依赖性（即，qNoisyEI）采集功能（参见第2.3节）。然后，我们展示了如何使用UMAP嵌入提供的局部保持降维（参见第2.6节）来评估代理模型并识别系统行为。[A. Hadzic等人阵列15（2022）10021853.2. 训练用于群集性能的代理模型动态NeuroSwarms参数（表1）的微小变化可以极大地影响集体行为。允许NeuroSwarms模型完成广义合作觅食的最佳参数可能不限于一组参数由于分布式多智能体系统中涌现的集体行为的复杂性和潜在的退化性。因此，我们构建了一个简单的时间压力目标函数来衡量奖励捕获的进展（第2.4节），并使用高斯过程代理模型指导贝叶斯优化（图2）。1A）。与观察到的NeuroSwarms模拟相比，我们利用采集函数对候选参数点进行采样，并优化高斯过程我们在两种环境中评估了每个样本的替代模型：发夹迷宫和隧道迷宫（图1B）。通过同时评估具有不同几何形状的迷宫，代理模型优化被允许找到群集和导航动力学，从而产生可以在环境中推广的时间有效的合作觅食我们开始训练时使用了一组初始的24个随机选择的参数点以及相应的模拟结果。每个高斯过程都通过用于选择候选点的采集函数进行训练：随机批处理预期改善（ qEI ）、随机批处理噪声预期改善（qNoisyEI）或随机参数采样（第2.3节）。使用BoTorch [51]实现高斯过程建模和训练，并在30个训练时期内使用512个MC样本进行优化（第2.5节）。我们验证了基于EI的采集函数基于最小候选相异度和最大后验方差的度量收敛（第2.5.1节）。基于EI的采集函数在训练期间接近零相异度（图2A）。类似地，每个代理模型的最大后验方差在训练结束时收敛（图2）。2B）。我们评估了每个采集函数在寻找优化NeuroSwarms目标函数的参数空间区域时的有效性（等式2）。（2）和（3））。qEI和qNoisyEI都比随机采样发现了更多具有高性能值的参数点（图2C）。随机采样和Monaco等人（2020）[34]的默认参数均优于基于EI的采集函数。因此，qEI和qNoisyEI证明了在训练期间最佳观测值的最强效用改进，因为Neu-roSwarms参数空间是由相应的代理模型学习的（图11）。2D）。3.3. 评价选定参数理解上述贝叶斯优化过程的结果需要参数空间的可视化表示，然而表示具有>3维的数据可能具有挑战性。我们认为，可视化参数点在较低的维度，可以促进关键的替代模型结构，包括集群的发现的高性能参数，可能会产生不同的协同觅食任务的口头解决方案。因此，我们使用UMAP（第2.6节）将9维NeuroSwarms参数集（表1）简化为局部保持的2D表示。对于qEI选择的参数，我们根据目标值（顶部，左侧图）或单个参数值的后验平均估计值（图11）为所得的2D UMAP聚类数据点分配颜色。3）。在图中得到的视觉表示。3显示了最高效用（即，目标值的最佳后验均值估计）数据点基于NeuroSwarms参数的值鉴于qEI证明了最大的效用改善，（图2D）和一致识别的高性能参数（图2C），我们考虑其UMAP表示进行进一步分析。基于qEI的参数样本形成了两个具有最高效用的数据点簇（图11）。3）。在（上，左）后验均值图中，我们从左下聚类中选择一个点，图二. 训练中采集函数的收敛度量和目标函数值。A+B，训练收敛度量：最小候选相异度最大后验方差（B）。C+D，与随机采样的基线相比，基于qEI和qNoisyEI采集函数的高斯过程模型的训练性能通过目标函数值进行量化，目标函数值显示为采样参数轨迹（C）的损失直方图，并显示为最佳观测值（D），其中值越接近0表示性能越好（等式（二）在时间紧迫的合作觅食任务中。A. Hadzic等人阵列15（2022）1002186图三. 无噪声qEI采集功能选择的UMAP聚类参数点。通过UMAP变换计算的降维（第2.6节）保留了相邻参数点的局部性。因此，可以通过二维UMAP数据的散点图来揭示高维簇。10个散点图中的每一个都显示了qEI采样参数点的相同UMAP投影，使用相同（任意）2D坐标系。在第一个图（左上）中，每个点的颜色表示根据图右侧的彩色条图例，训练的高斯过程代理模型的预期后验均值;例如，一组相邻的蓝点反映了一组高性能的神经群参数左上角的颜色条还用于提供颜色如何映射到相应值范围的参考(i.e.、[min，max]）在剩余的图上方的标签中指定。这9个图显示了单独采样的参数值（参见表1）与每个UMAP相关点（有关此图图例中颜色的解释，请读者参阅本文的Web版本它与其相关参数的数值，我们随后在NeuroSwarms模拟中进行了评估我们在发夹迷宫和隧道迷宫上模拟了qEI优化的NeuroSwarms模型（见图2）。1B）。轨迹跟踪图的发夹（图。图4，蓝色轨迹）描绘了在整个模拟过程中对奖励捕获做出贡献的每个代理的运动，直到实现每个奖励目标的合作捕获的时间步。同样，轨迹轨迹以橙色显示（图1）。（4）反映奖励捕获Agent在捕获奖励后的行为。例如，从群集和目标导向的动态到捕获后探索的转变由图3的第三行中的奖励3（R3）的捕获来描绘。4，其中一个代理子集聚集并捕获R3并立即分散，从而允许搜索和捕获随后的奖励目标。代理重新开始探索奖励捕获后，因为NeuroSwarms依赖于本地，代理之间的视线通信，这意味着代理的运动可能不会受到附近奖励的影响，如果他们被迷宫的墙壁遮挡。如图4所示，qEI调整的群体能够快速捕获发夹环境中的所有五种奖励（Δ t=25.38 s），而NeuroSwarm的原始默认参数-通过手动调整确定，如我们之前的工作[34]所述-产生相对较慢的奖励捕获（Δ t= 41.02 s）。使用默认参数的奖励捕获速度在隧道迷宫中另外加剧（Δ t= 175.42 s）。相比之下，qEI调整的群体捕获所有三个奖励（图5）比默认群体捕获两个奖励（Δ t= 34.88 s）更快。我们将手动调整的默认参数的较差性能归因于较长的动态时间常数和因此较慢的行为响应性。因此，与每个迷宫环境的手动参数调整相比，我们的贝叶斯批量优化过程（第2.3节;图10）。1A）与联合目标抽样（第2.4节;图。1B）能够同时、联合且有效地发现多个迷宫的不同的高性能动力学参数。我们的贝叶斯优化器的一个关键特征是目标间接量化（即，作为一个一般来说，该特征允许任务相关目标评估集体任务中的多代理性能，例如，社会协调或分布式共识。与常规相比，发夹迷宫的碎片几何形状（图隧道迷宫要求蜂群通过不规则的几何形状分布来完成觅食任务（图5）。此外，尽管在发夹迷宫中的均匀随机位置处初始化试剂，但是所有试剂都在相同的位置处初始化。在隧道迷宫中，初始化为在其西南象限内限定的小圆盘内的点。因此，这些药物迅速捕获R2（图11）。 5，顶行），然后分成子组，以捕捉其余两个奖励（图。5，下两排）。隧道迷宫的另一个挑战是，R3最初对所有智能体都是可见的，并且比R1更近，但隧道限制了访问相反，R1最初是可见的和可访问的，但是一旦代理已经聚集到R2的位置上，R1就更远并且部分地被遮挡。R1（λ= 5.46 s）与R3（λ= 31.78 s）的快速捕获分别反映了协调奖励接近轨迹和探索性群集轨迹之间的特征时间尺度差异。比较捕捉前（蓝色，左）和捕捉后（橙色，右）的轨迹为每个奖励（图。5），特工们开始使用地图中心的大开口，只有当R2和R1都被捕获时。这种行为的转变表明，探索与目标导向的剥削自适应地形成和重新分组的代理。因此，隧道迷宫提出的独特挑战，与我们的优化器的目标函数定义（第2.4节）相一致3.4. 探索未来的参数空间训练的采集函数可用于预测参数空间的未观察区域的性能。为了测试预测选择，我们从qEI采集函数及其训练的高斯过程代理模型的后验分布中生成了500个样本。qEI样本均值来自后验（图6，左上图）在大多数数据点上是相似的，因为qEI已经适应了具有最高效用改善可能性的参数区域。与前面的3.3节一样，我们从这些预期的未来qEI参数中选择候选点，以在发夹迷宫和隧道迷宫中进行模拟，但我们选择了具有中等参数值的点，即，其矢量元素不在或接近A. Hadzic等人阵列15（2022）1002187见图4。 NeuroSwarms轨迹描绘了发夹迷宫中的奖励捕获。发夹迷宫提供了一个大的，分散的舞台，以评估蜂群的觅食性能给定在具有对称重复几何图案的环境中固有的不确定定位。五个奖励目标在空间上分布在指示的迷宫位置处（R1-R5，左上角迷宫图）。10个迷宫图显示了在样本模拟期间由NeuroSwarms代理跟踪的空间轨迹段。迷宫图左侧显示从模拟开始或最近的奖励捕获到奖励捕获时间的代理路径（蓝色轨迹），图左侧的文本标签。只显示那些有助于合作捕获给定奖励的代理的痕迹（见2.4节）。相反，迷宫图右侧显示从奖励捕获时间到模拟结束的代理路径（橙色轨迹）。从上到下，每一行都显示一个预捕获和后捕获在模拟中捕获奖励的顺序中的一对群迹图。单个迹线是半透明的;因此，多个迹线的轨迹叠加在相同观察路径上的试剂由迹线颜色的相对饱和度指示。因此，目视检查产生了关于群集的信息和奖励方法动态相对于空间收敛和发散的代理随着时间的推移。A. Hadzic等人阵列15（2022）1002188图五. NeuroSwarms轨迹描绘了隧道迷宫中的奖励捕获。隧道迷宫呈现出一个不规则的竞技场，以评估群的觅食性能，给出了一个环状环境，该环境具有可见性的基本几何遮挡和具有大的与狭窄的通道（例如，连接西南象限和东南象限的“隧道”）孔径。三个奖励目标在空间上分布在由金色星星指示的迷宫位置（R1-R3，左上迷宫图）。6个迷宫图显示代理图中左侧的标签显示了合作奖励捕获（参见第2.4节）之前（左，蓝色轨迹）和之后（右，橙色轨迹）的路径。附加细节如图 1 的标题所示。四、相应参数（表1）。特别地，我们选择了时间常数大于其范围的最小值（1 ms）的参数，构成了与qEI样品簇不同的参数方案，qEI样品簇响应于我们的目标函数施加的时间压力而使其各自的时间常数最小化（等式2）。（2））。我们选择了这些点，相应的模拟如图所示。7，以证明不同的行为解决方案，为老化任务，可以发现相同的收购功能和相关的代理模型。在发夹迷宫和隧道迷宫上合作捕获奖励之前和之后，奖励捕获代理的轨迹跟踪图显示，所选参数导致发夹迷宫（Δ t= 47.44 s;图7A）和隧道迷宫（Δt = 47.44 s;图7 B）的奖励捕获较慢。（��= 66.96 s;图 7B）迷宫相比，图中的优化参数。 4（Hairpin，��= 25.38 s）和Fig. 5（隧道，λ= 31.78 s）。此外，Monaco等人（2020）[34]的默认参数需要强有力的奖励方法利用（例如，=6.6），但基于群集的探测较弱（例如，=2.0）。这五种力量的结合增加了所有五种奖励的捕获时间因此，在本发明中，我们将缓慢的奖励捕获归因于较长的动态组合， cal时间常数参数和勘探开发不匹配。此外，如果智能体运动的能量预算（例如，速度，转弯-ing等）如果目标函数要考虑这些参数，则由这些参数机制实现的较慢的行为库可以有助于最小化能量或低效的导航模式。4. 总结发言神经科学启发的学习和控制方法已经引起了机器人、人工智能和多智能体控制的兴趣。在这里，我们提出了一个演示，探索和可视化的参数空间的多智能体模型与复杂的动力学行为使用样本有效的贝叶斯优化与高斯过程代理模型。我们在NeuroSwarms模拟[34]中为空间合作觅食任务引入了一个目标函数，以预测两个不同迷宫环境中的奖励捕获性能。代理模型的训练由A. Hadzic等人阵列15（2022）1002189见图6。预期的未来qEI采样参数点。与图在图3中，UMAP投影显示在一系列图中：左上角的散点图为每个2D UMAP分配颜色基于图右侧颜色条的点，由每个相关参数点的代理模型的预期后验均值索引��描绘了相同的UMAP变换，除了每个点的颜色被映射到指定的范围（即，[min，max]）的给定NeuroSwarms参数（参见表1）。示出了大批量的500个基于qEI的参数样本，以便于对训练的替代模型的局部结构进行目视检查。例如，这些图显示后验样本均值（上，左）已经收敛到类似的高性能值，并且大多数发现的系统行为依赖于神经控制器动态中的短时间常数（即，在三个图中红色数据点的流行率）。�� (For为了解释该附图图例中对颜色的引用，读者可以参考这篇文章的网络版本）。见图7。来自选定的未来qEI采样的NeuroSwarms参数的奖励捕获轨迹示例。捕获前（左，蓝色迹线）和捕获后（右，橙色迹线）对相对于来自Hairpin中的qEI选择的模拟的示例奖励捕获事件示出了两个随机迹线图（A; cf. 图4）和隧道（B; cf. 图5）迷宫。选择中间值的参数（即，远离参数范围限制）与由经训练的基于qEI的替代模型生成的预测性（预期的未来）样本。我们的贝叶斯批处理优化器自然地产生不同的输出参数，允许选择不同的高性能解决方案和系统行为，所有这些都具有被其任务相关目标函数的高维形状等效地约束和引导A. Hadzic等人阵列15（2022）10021810qEI和qNoisyEI采集功能。特别是，qEI被证明可以引导优化器轨迹朝向具有高效用改进的参数区域，优于随机采样和手动调整。通过学习UMAP嵌入[57]，我们展示了9维参数点的可视化，以识别和选择高性能的参数集群。我们通过在两个不同的迷宫环境中联合评估NeuroSwarms元控制器来说明跨环境推广的参数的识别。总的来说，我们的研究是复杂多智能体模型的贝叶斯优化的一个示例应用，用于探索和选择具有分布式神经控制的系统中的目标导向空间导航等复杂行为。随着参数大小的增长，计算更新的高斯过程参数所需的矩阵求逆的计算成本呈指数增长，最终超过了通过在代理模型上计算获取函数以推进样本轨迹所提供的自适应搜索效率的增益[20]。这种对模型维数的限制一般不会妨碍复杂动力学的分析，特别是在均匀粒子系统中，但它会合理地降低贝叶斯优化建模系统的可行性与非平凡的在模型复杂性的适度限制��贝叶斯优化可以促进动态参数空间的自适应和有效的计算探索，从而识别独特而复杂的系统行为。未来的工作需要开发新的控制器模型和关键的空间任务，以探索多智能体目标函数的能力，这些目标函数有效地适应不同环境的特征（例如，闭塞几何形状、动态变化、奖励分布、线索丰富度等）。我们的理论是，异质变化的群体空间结构和跨期协调动态将能够支持一种形式的群体元认知，允许调整到可用的目标在一个环境中，没有最初的知识的目标或它们的位置。这种方法可以扩展贝叶斯优化的灵活性，使其在不同的环境中运行，并有效地适应具有困难或不确定目标的任务CRediT作者贡献声明Armin Hadzic：方法论，软件，验证，调查，数据管理，写作格蕾丝·M 黄：概念化，方法论，资源，写作&-评论编辑，监督，项目管理，资金获取. 张克晨：撰写-Kevin M. Schultz：概念化，方法论，形式分析，资源，写作-评论编辑，监督，项目管理，资金获取&。Joseph D.摩纳哥：概念化，方法，软件，验证，形式分析，写作&-审查编辑，监督，资金获取。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢这项工作的资金由美国国家科学基金会（NCS/FO Award No.1835279，授予GMH、KZ、KMS和JDM）、NIH国家神经疾病和卒中研究所（NINDS R 03 NS 109923，授予KZ和JDM）和约翰霍普金斯大学应用物理实验室（JHUAPL）内部研发计划（AH、GMH和KMS）提供。约翰霍普金斯大学Kavli神经科学发现研究所和JHUAPL创新与合作Janney计划为GMH提供了额外的支持引用[1]Passino KM.仿生学用于优化、控制和自动化。SpringerScience& BusinessMedia;2005.[2]Seeley TD，Morse RA，Visscher PK.蜜蜂群飞行的自然史。Psyche1979;86（2-3）：103-13.[3]PA.在移动中：动物如何以及为什么成群旅行。芝加哥大学出版社，2000年。[4]CouzinID.集体认知在动物组趋势科根Sci 2009;13（1）：36-43. http://dx.doi.org/10.1016/j.tics.2008.10.002网站。[5]萨姆普特DJ 集体动物行为。普林斯顿大学出版社;2010.[6]Herbert-Read JE，Perna A，Mann RP，Schaerf TM，Sumpter DJ，Ward AJ. 探讨浅水鱼类的互动规律。 Proc Natl Acad Sci USA 2011;108（ 46）： 18726-31.http://dx.doi.org/10.1073/pnas.1109355108网站。[7]贝尼湾从群体智能到群体机器人。上一篇：关于Swarm Robotics的国际研讨会Springer; 2004，p. 1-9. http://dx.doi.org/10.1007/978-3-540-30552-1_1.[8]E.G.群机器人：从灵感来源到应用领域。上一篇：关于Swarm Robotics的国际研讨会Springer; 2004，p. 10-20. 网址：//dx.doi.org/10.1007/978-3-540-30552-1_2网站。[9]Brambilla M，Ferrante E，Birattari M，Dorigo M. Swarm Robotics：A Reviewfrom the Swarm Engineering Perspective.Swarm Intell 2013;7（1）：1网址：//dx.doi.org/10.1007/s11721-012-0075-2网站。[10] 拜恩德尔湖群机器人任务的回顾。神经计算 2016;172 ： 292- 321.http://dx.doi.org/10.1016/j.neucom.2015.05.116网站。[11] 放大图片作者：Robert F.机器人群基于通信行为的自动设计。上一篇：关于SwarmIntelligence的国际会议Springer;2018，p.16-29.http://dx.doi.org/10.1007/978-3-030-00533-7_2网站。[12] Brown DS，Turner R，Hennigh O，Loscalzo S.在有限的机器人能力下发现和探索新的群体行为。在：分布式自主机器人系统。 Springer; 2018 ， p. 447-60.http://dx.doi.org/10.1007/978-3-319-73008-0_31.[13] Coppola M，de Croon GC.模式形成任务的自动局部证明辅助的群体行为优化。上一篇：关于 Swarm Intelligence 的国际会议 Springer; 2018 ， p. 123- 134.http://dx.doi.org/10.1007/978-3-030-00533-7_10。[14] 李康 Y ，本吉奥 Y ，辛顿 G. 深度学习 Nature 2015;521 （ 7553 ）： 436-44.http://dx.doi.org/10.1038/nature14539网站。[15] Monaco JD，Rajan K，Hwang GM.人工智能动态智能的脑基础和计算神经科学。2021年，http://dx.doi.org/10.48550/arXiv.2105。07284，ArXiv预印本。[16] Price IC，Lamont GB.遗传算法指导的自组织搜索和攻击无人机群。在：冬季模拟会议 . IEEE; 2006 年，第 1307-15 页。 http://dx.doi.org/10 的网站。1109/WSC.2006.323229。[17] Quijano N，Passino KM.蜜蜂资源分配的社会觅食算法：理论与应用。Eng ApplArtifIntell2010;23（6）：845-61.http://dx.doi.org/10.1016/j.engappai.2010.05.004网站。[18] 卢Q，赫克JP，摩西ME。多地点群觅食与动态仓库。Auton Robot 2018;42（4）：909-26. http://dx.doi.org/10.1007/s10514-017-9693-2.我的朋友[19] [10]张文辉，张文辉. 复杂的集

下载后可阅读完整内容，剩余1页未读，立即下载