EGTtools：Python游戏动态分析和演化研究

150 浏览量更新于2024-02-02 收藏 2.03MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

日记帐预校对EGTtools：PythonElias Fernández Domingos，Francisco C.汤姆？莱纳茨？桑托斯PII：S2589-0042（23）00496-0DOI：https://doi.org/10.1016/j.isci.2023.106419参考：ISCI 106419出现在：ISCIENCE接收日期：2022年修订日期：2023年2月17日接受日期：2023年请引用这篇文章作为：多明戈斯，E.F.，桑托斯足球俱乐部Lenaerts，T.，EGTtools：Evolutionary GameDynamics in Python，ISCIENCE（2023），doi：https://doi.org/10.1016/j.isci.2023.106419.这是一篇文章的PDF文件，在接受后进行了增强，例如添加了封面和元数据，并设置了可读性格式，但它还不是记录的最终版本。这个版本在出版前将经过额外的文字编辑，排版和审查在它的最终形式，但我们提供这个版本，让文章的早期可见性请注意，在制作过程中，可能会发现可能影响内容的错误，并且适用于该期刊的所有法律声明均适用。版权所有2023作者。0比0 5 2 010 0 20 1 0行为游戏不LSgame1.strategy1分析Game1game1.strategy2game2.strategy1游戏2game2.strategy2数值EGT密谋灵活的体系结构，具有分析和绘制演化动态有限和无限种群无限总体有限总体基于代理的模拟1.00.80.60.4AllC全DTFT巴甫洛夫随机GRIM0.20.0100101102103104105106107一代……k/ZEGTtools：PythonElias Fernández Domingosa，b，1，100，Francisco C.Santosc，Tom Lenaertsa，b，daMachine Learning Group，ULB，Campus la Plaine，Brussels，1050，Belgiumb AI Lab，VUB，Pleinlaan 9，Brussels，1050，BelgiumcINESC-ID Instituto Superior Técnico，Universidade de Lisboa，IST-Taguspark，Porto Salvo，2744-016，Portugald Center for Human-compatible AI，UC Berkeley，2121 Berkeley Way，Berkeley，CA，94720，USA&摘要进化博弈理论为研究群体行为提供了一个重要的理论框架。它将进化生物学和种群动力学的思想与战略互动的博弈理论模型相结合。它的重要性突出了许多高水平的出版物，丰富了不同的领域，从生物学到社会科学，几十年来。尽管如此，还没有一个开源库提供对这些方法和模型的简单、高效的访问。在这里，我们介绍EGTtools，一个高效的混合C++/ Python库，它提供了分析和数值EGT方法的快速实现。EGTtools能够分析评估基于复制动力学的系统它也能够评估任何EGT问题诉诸有限人口和大规模马尔可夫过程。最后，它采用C++和蒙特卡罗模拟来估计许多重要的指标，如平稳或策略分布。我们用具体的例子和分析来说明所有这些保留字：进化博弈论，人口动态，社会学习，开放软件，Python，C++1 介绍2经典博弈论[1]通常分析两个（或几个）参与者之间的互动，旨在回答如何3每个人都可以最大化他们的效用。这样的问题，从数学的角度来看，变得非常复杂4和复杂作为一个球员必须考虑所有其他球员的效用和任何可能的信念集。因此，继5纳什的著名作品[2]，它通常假设所有的球员都以最大化他们的效用的方式行事，并相信6其他人也会这么做这简化了分析，并将其转化为对平衡7没有参与者有任何改变策略的动机（纳什均衡）。这个假设要求玩家8对游戏/环境有完美的了解，被称为理性。然而，这往往是繁琐的，9假设个体在许多社会和生物系统中是理性的，即使在简单的两两互动中也是如此。更多-10此外，每当问题需要正确理解发生在大量人口中的冲突时，11这是描述许多个体在整个时间内的选择和策略的必要条件，而不仅仅是在均衡状态下。12因此，在许多应用博弈论的现实世界场景中，目标转向理解13从特定困境（或“游戏”）中出现的复杂行为生态。这就是进化博弈14理论（EGT）作为一个理论和计算框架闪耀[3，4]。15在EGT中，通过给定博弈中的策略交互收集的个体收益与16个人健康在生物环境中，最适合的个体更有可能产生春天，从而传递下去。17把他们的特征传给下一代因此，适应度可以直接用相对死亡率和出生率来解释。18当把这种进化概念应用于社会系统时，最成功的系统更容易被模仿。作为19因此，他们的策略将有更高的机会被其他人口成员采用，联系人： elias.fernandez. domingos@ulb.be.1电极导线接触。预印本提交给iScience 2023年3月9日2∈20 代因此，健康是衡量社会成功的一个标准。总的来说，EGT允许一个方便的（正式的和21社会学习和达尔文进化论之间的相似性，进一步拓宽了可能22进化博弈23然而，EGT模型是复杂的，反映了相互作用的复杂性，背景是现代的，24#21453;，以及正在解决的问题。这种复杂性可能来自不同的因素。举几个例子，印度-25游戏可以描绘不同的适应机制[5，6]，角色，策略和标签[7，8];当玩游戏时，他们可以26从有限数量的策略中选择，或者从连续域中采样一个值[9];个人可能具有27传播关于其他人的信号或信息的机会（例如，[10，11，12，13，14，15，16]population28可以显示（静态或动态）交互结构[17，18，19，20，21，22]。复杂性的来源是无穷无尽的。29因此，进化动力学的研究越来越依赖于计算方法，因为越来越多的30问题超出了分析的范围[23]。然而，大规模的计算机模型，往往基于代理-31基于模拟的系统很容易变成黑盒子，可能比实际的真实世界系统更难理解。32我们想解释一下因此，基于代理的模型应该这样构建，在合理的范围内，它们可以33与分析结果相比。因此，EGT模型通常将大规模模拟与正式模型相34近似值[35]尽管创建一个通用框架来构建和分析EGT模型很重要，但无论是来自com，36从推理和分析的角度来看，没有一个标准库提供了一个简单、有效和可访问的途径来实现这些目标。37方法和模型。在这里，我们介绍EGTtools[24]（参见Star方法中的图7），一个混合的C++/ Python38库，提供必要的分析，数值和蒙特卡罗方法的快速和并行实现，39有效地估计许多EGT模型的基本输出。这个图书馆渴望提供一种标准化的方式，40研究人员访问和共享EGT模型和方法。此外，Python接口旨在促进41将这些复杂的数学公式应用于更大的科学领域。42EGTtools依赖于计算和分析方法之间的协同作用，所有这些方法都在同一个框架内实施。43框架. 它提供了从纯计算的角度解决问题的方法（通过大规模的44缩放基于代理的模拟）以及相同模型的几种类型的分析描述。尤其是，45EGTtools允许i）大规模多代理模拟和分析描述，可以涉及ii）46使用马尔可夫过程，它密切遵循基于代理的模拟，iii）小规模马尔可夫过程，47近似在一个易于处理的方式相同的随机模拟，和iv）经典的确定性分析，通过48微分方程（即，复制者方程）。为了说明EGTtools在所有这些场景中的使用，我们提供49六个具体例子。[50]在下文中，我们通过复制子方程介绍大种群中的进化博弈随后，委员会注意到，51我们研究能够解决有限种群中的随机效应和种群动态的方法。52稍后，我们将讨论在分析可以采用大量数据53以及我们如何通过分析近似或降维来克服它们。菲-54最后，我们讨论如何所有这些观点可以补充大规模的数值模拟。示例55每一节都附有关于如何使用EGTtools应用这些方法和模型的说明。最后，我们比较了EGTtools56现有的图书馆，并讨论其优势。57大种群[58]让我们考虑一个规模为Z的混合种群，其中个体参与博弈（或社会困境）。59每个个体i可以采用n个可用策略中的任何策略ei[60]当在一个混合良好的群体中相互作用时，与任何其他个体相互作用的概率是相等的。61每个交互都由一个游戏来控制，例如，囚徒博弈的期望收益62通过（一个或）多个相互作用转化为个体适应性。这种适应性定义了一个63个体在下一代将产生春天。在这样的达尔文动态中，策略i的频率，64x i，与它的适合度成比例增长。因此，我们可以将种群状态考虑为元组x =（x1，.， x i，.， x ns）Rns65表示人口中个体采用每种策略的频率（或比例）[3]。66种群的可能状态（或混合策略）及其梯度可以用单纯形表示367Sns。图1示出了表示PD中所有可能的总体状态的单纯形S2 [4]。箭头指示68 策略增长的趋势，圆圈代表博弈中的固定点或均衡。4→ ∞j=1Njj−–−j=1.Σxsteci=xifi（x）−f（x）（1）j=1J[69]复制因子方程表示无限种群（Z）中竞争个体的动态70它定义了种群中策略频率变化的速率（选择梯度）[25]。71它经常以Eq的形式出现。1[3]，其中xi表示策略i在群体中的频率，并且fi（x）=fi（x），g i是当前种群状态x的适应度（或f的期望收益）。术语。Nxjfj（x）表示73状态x中的种群的平均适应度。好吧[74]前面的微分方程代表了由繁殖成功率决定的选择动态但据75在经济游戏中，人们通常会采用不同的机制来看待人类的社会互动。在这里，变化76是社会学习的产物，通过这种学习，个体相互模仿，77它们的适应性差异的函数。78具体地说，我们假设在给定的时刻，一个随机抽样的个体j在寻找一个角色模型，79通过随机抽样另一个个体来确定总体i. 如果i的适应度高于j，则后者80模仿前者，其概率与适应度差异fij（x）成比例，并且增长率由81微分方程2[3]。xsteci= x i.（f ij（x）− f ji（x））x j（2）[82]每个个体fi（x）的适应度由期望收益fi（x）表示。因此，适应性差异83可以表示为fij（x）=[fi（x）fij（x）]+=[i（x）j（x）]+，其仅定义为正值，即，84当fi（x）>fj（x）时，在这里，我们还假设模仿概率和适应度差异之间的关系是85线性和1：1。这并不总是这种情况，并且通常包括额外的参数β，使得86可以使支付的差异适应于每个上下文。然而，假设这种直接关系，fij（x）fji（x）=87[i（x）j（x）]。如果我们在Eq中替换它 2我们得到一个类似于1的方程。最后，进行一些替换88我们可以这样写：89其中，x=？Nxsteci=xii（x）−（x）（3）xj fj（x）表示种群的平均适应度这个微分方程完全90919293949596979899100101102103104105通过表示每个策略的变化方向来表征种群中的策略变化。如果xsteci>0，策略i将增长。因此，如果xsteci0，它将减少。<当xsteci=0（布居状态的变化梯度为0）时达到平衡，并且这种平衡可以是稳定的或不稳定的。如果种群中策略频率的微小变化产生了一个向x_∞的梯度，那么均衡x_∞被称为进化稳定的;如果梯度远离x_∞，那么均衡x_∞是不稳定的。一个直观的例子可以在图1中找到，它代表了PD的S2策略C的梯度xstecC0<是严格递减的，除非整个群体都采用C。因此，当种群处于xC=1（所有个体采用C）时，单个参与者策略的变化将使种群向x C = 0（所有个体采用D）移动。然后我们说博弈在xC=0处有一个稳定的平衡点。这种进化稳定状态（ESS）[26，27]提供了比众所周知的纳什均衡更严格的稳定性概念平衡态[2]。这里的稳定均衡不仅表明没有参与者可以通过单方面偏离而受益的情况，而且ESS中的种群对由于噪声引起的小变化是鲁棒的，即，突变策略不会使种群进入不同的状态，相反，种群将返回ESS。示例1和示例2展示了如何使用EGTtools来可视化Hawk-Dove博弈的动态，战略分别。这些例子中提出的相同概念可以应用于任何其他游戏，所需要的只是定义一个包含每个策略对任何其他策略的支付的支付5106基于总体的马尔可夫过程107从技术角度来看，无限人口的限制是方便的，因为它允许使用相对108个简单的微分方程来模拟复杂的进化过程。然而，在许多情况下，当建模6∈→.Σ→ ∞→→−sn1109在现实问题中，我们不能忽视个体在有限的流行中相互作用时产生的随机效应，110结果[5]。这是许多集体努力的情况，从动物群体狩猎和战争[28，29，30]，111众多的人文因素，如小社区集体项目，宏观经济关系和世界闻名112次关于气候变化的峰会[31，32，33，34，35，36]，这些峰会上的群体和人口规模往往相当，113数以百计的顺序。114对于这样的种群规模，随机效应起着重要的作用，行为动力学是最好的描述115根据离散生灭型过程，导致有限种群选择梯度G（k/Z）[37]，定义116作为增加和减少一个给定策略的数量的概率之间的差异，117与马尔可夫链的平稳分布相关联（见图4a），它表征了普遍性118在给定的人口组成的时间。随机效应在不同误差的存在下被放大119排序（诱导行为“突变”），包括模仿错误[5，38，23]。[120]我们现在考虑一个有限的Z个人的群体，他们在规模为N[2，Z]的群体中相互作用，在这些群体中，他们121参与战略互动（或游戏）。每个人都可以采用n个策略中的一个。健康（fitness）122可以计算为给定状态x下博弈的预期收益。123我们采用随机生灭过程结合成对比较规则[5，37，38]来描述124在一个有限的群体中，每种策略的社会学习动态（见图3）。在每一个时间步，125选择的个体j采用策略e j有机会通过模仿（或不模仿）126从群体中随机选择的成员i. 模仿将以概率p发生，该概率随着127j和i之间的适应性差异。在这里，我们采用费米函数（见Eq。（4）来源于统计128物理，并提供了一个定义良好的映射之间的R+[0，1]。还请注意，由于人口129有限，而不是假设每个策略在人口中的频率（xi），我们使用绝对值ki，以便130x i[k i/Z]。p<$[1+eβ（fi（ki）−fj（kj））]−1（4）131In Eq. 4，fj（fi）是个体j（i）和β的适应度，也称为逆温度，控制强度132和模仿过程的准确性。对于β0，个体适应度只是一个小扰动，133随机漂移;因为β模仿变得越来越确定。同样，ki也代表了134采用策略I的个人。此外，我们认为，在突变（或探索）概率μ的情况下，135个体采取随机选择的策略，自由探索策略空间。总的来说，这种适应过程136定义了一个大规模的马尔可夫链，其中状态之间的转移概率是根据137策略在群体中的适应度及其频率。这一过程的完整特征是138不可行，因为可能的人口配置数量与人口规模和人口数量有关。139遵循Z+ns −1的策略 [39]第39段。因此，对于更大的策略空间，用于估计140模型参数通常是一个要求。为此，我们首先通过使用引入的PD假设ns=2141之前在下一节中，我们将展示我们可以将这里所示的两个策略的情况应用于任意数量的策略，如果142我们假设μ0。采用合作策略C的参与者数量k增加的概率143（T+（k））或减少（T−（k））可以指定为[5]：Z−k k Z−kT+=（1−μ）[1+e−β（fC−fD）]−1+μZ Z−1Z（五）T−=（1−μ）k Z−k[1+eβ（fC−fD）]−1+μkZ Z−1Z144其中，μZ−k表示发生突变并选择策略D的概率，（1−μ）Z−kk表示概率Z ZZ−1145相反，模仿过程发生了，采取不同策略的个体（在这种情况下是C和D）146选定.因此，完全表征随机过程动态的转移矩阵T由以下组成：147从每个状态k（在这种情况下，状态由合作者的数量定义）到相邻状态k′的映射为：7148描述Eq. 6[3，36]。8−.Σ在突变罕见的极限（μ→s-n1..Ti+1，i=T−Ti， i+1=T+T1，i=1−T+−T−（六）最后，系统的平稳分布pe，即，人口在每个州花费的时间，可以是150解析地计算为与转换矩阵T的特征值1相关联的归一化特征向量，151马尔可夫链[38，40，41]。[152]正如复制因子动力学中所发生的那样，种群向某些状态移动的趋势可以被阻止。153通过梯度挖掘，现在是离散的，命名为选择梯度G（k）= T+（k）T−（k）[37]。因此，我们认为，154如果G（k）为0，则种群中合作者的数量将趋于减少。< 类似地，G（k）=0的点155构成系统的静止点（或平衡点）。[156]这里描述的社会学习的模仿动力学为我们研究集体行动提供了一个强有力的工具157大量文献成功地应用这些模型来解释公益游戏中的社会互动158[42，43，44，45，46]，阈值PGG和集体风险困境（CRD）[47，37，48，25，49，35，50，51，36，52]和159其他社会困境[20，6，53，54，25，55]。此外，一些研究工作成功地解释了实验160通过进化模型观察集体行为[56，57，16，58，59]。161这个带有成对模仿的随机过程在分析器内部的PairwiseComparison类中实现162EGTtools的裂解模块。实施例3和4示出了如何分析与实施例1和2中相同的游戏，然而，163我们现在假设我们有一个Z=100个个体的有限种群。虽然结果相似，但车站-164图4b中的二元分布表明，系统将不再确定性地终止于稳定平衡，165相反，存在以这种均衡为中心的概率分布。166近似和降维167上述马尔可夫链可能很快变得过于复杂，无法进行分析描述，因为168策略，即使是小的人口规模（有Z+ns-1 可能的人口结构）。然而每当1690）它是可能的近似完全随机过程由马尔可夫170链的状态数由策略数给定。在这个小突变极限（SML）[38，40]中，当171一种新的策略通过突变出现，两种结果之一在新的突变发生之前很久就出现了：172要么种群面临新引入策略的固定，要么突变策略灭绝。[173]因此，在种群中最多会有两个策略同时存在[38，40]。这让我们174用大小为ns的简化马尔可夫链来描述行为动态，其转换定义为175采用策略i的单个突变体在采用另一策略的个体群体中的固定概率ρ ji176.第176章按照你的意思7[5，60，41]。因此，固定概率也决定了策略177而增加（减少）概率T−（k）（T+（k））的定义如等式（1）所示。8.第八条。ρji=πι πι1+Z−1mm=1k= 1T−（k）−1T+（k）（七）T±（k）=Z−k k[1+e<$β（fi−fj）]−1（8）Z Z−11781791801811821831841859.−–而且，现在可以构造转换矩阵T，使得每个条目表示单态之间的转换，即，所有个体都采用相同策略的种群状态因此，从策略i到策略j的转移概率为Ti，j=ρij/（ns1），保持相同状态的概率为Ti，i=1<$jTi，j。的归一化因子（n s1）保证概率之和为1。配备了这些工具，我们现在可以通过上一节中描述的n个s状态马尔可夫链的平稳分布pe来计算每个策略的流行度在这种情况下，平稳分布表征了种群在每个单态状态中花费的平均时间e。平稳分布可以用来估计群体中的平均成功（合作）水平。这可以通过将静止的10≈×186通过每个可用策略的成功（或合作）的概率，即，成功率η=pe He，187 其中pe是包含平稳分布的行向量，H是包含以下概率的列向量：188每个单态的成功。189最后，固定概率也可以用来绘制一个入侵图，表示190不同的单晶型状态（参见实施例5和图6a）。在这样的图中，箭头表示转换191受到自然选择的青睐，即，注视概率超过1/Z（与注视概率相关联）的那些192中性进化下的突变体）。这个图提供了一个方便的战略稳定性的衡量标准，193没有向外箭头的策略，即，不能被突变体侵入的细菌，据说具有选择优势。194这种策略被认为是一种进化鲁棒策略（ERS）[61]。195大规模基于代理的模拟196正如前一节所解释的，分析一个具有大量状态的系统可能是棘手的分析。197真的在这些情况下，我们要么诉诸近似来减少系统的维数，要么198数值模拟后者往往是根据蒙特卡罗方法来估计有关指标199人口动态，例如，平稳分布，策略分布，财富分布等等200然而，这些方法是计算密集型的，并且取决于目标的大小，可能需要很长时间来收敛。201系统由于这个原因，使用这种算法的有效实现是非常重要的。202EGTtools通过PairwiseComparisonNumerical类实现提供高效的基于代理的模拟。203用C++编写，可以通过Python API访问。图5a示出了估计站的误差-204使用estimate_stationary_distribution方法计算示例3205 PairwiseComparisonNumerical类的函数。在此图中，我们显示了206鸽子的期望频率，通过将估计的平稳分布乘以鸽子的分数获得207存在于每个可能的人口状态中。可以看出，对于更高的强度，误差几乎可以忽略不计。208选择（β）。正常情况下，较低的β值会产生更多的误差，因为系统具有更多的噪声。这只是意味209具有更高代数的模拟（以便系统有时间收敛到稳态）210必需的. 平均而言，均方误差非常小（8 10−6）。图5b显示了估计的稳态211与分析计算的分布相比，β = 1的分布，并表明两者几乎相同。212一模一样当然，这是一个最小的例子，一个种群只能采用两种策略。在实施例6中，和213图6b和c，我们提供了一个更复杂的情况，有6个策略214其他图书馆215EGTtools旨在为多智能体系统的动力学研究提供一个集成的软件框架216并简化EGT研究的复制。它是Python唯一可用的库，217最好的作者的知识，它提供了高效的C ++实现的数值模拟，218需要用EGT分析大规模问题。它还提供了一套完整的可视化功能219和类，这是非常有用的研究动态的2和3战略游戏。然而，还有其他220提供补充功能的开放源代码库。221特别值得一提的是NashPy[62]和Axelrod[63]库NashPy提供了几种方法222以及寻找和计算博弈均衡的函数。最近他们增加了计算进化稳定性的方法223策略和复制动力学。阿克塞尔罗德专注于迭代囚徒224一个有利于在这一领域进行研究的环境。这个图书馆还包括研究方法225种群动力学通过莫兰过程或复制因子方程。然而，关于EGT，EGTtools提供了226一套更完整的工具，使研究人员能够分析和可视化任何游戏的人口动态227而不仅仅是确定均衡解。228另一个旨在实现EGT方法的Python库是DyPy（https://github.com/229anjalika-nande/dynamics_sim）[64]。这个库实现了三种最常用的进程类型，230研究进化博弈动力学：莫兰、赖特-费舍尔和复制者。它还实现了个人和11231群体水平的选择，以及频率偏差的模仿。但是，它只支持以下数值模拟：232矩阵形式的游戏，纯粹是用Python实现的。关于这一点，我们认为EGTtools提供了一个更12233完整的功能，允许分析任何游戏，方法在C ++中更有效地实现，如234以及分析方法和数值方法的结合。235此外，还有另外两个图书馆，旨在通过三种策略实现人口动态的可视化：236simplex（https://github.com/marvinboe/egtsimplex）和egtplot（https://github.com/mirzaevinom/237egtplot）。特别是，egtsimplex启发了我们Simplex 2D类的实现。238最后，我们想提一下著名的Mathematica笔记本Dynamo套件[65，66]，其中简单地说，239EGT方法的分段，对于那些拥有Mathematica许可证的研究人员来说，这是一个很好的选择。我们240也可以参考Hindersin等人的优秀文章。[23]它提供了计算方法的概述，241这对EGTtools的实施非常有帮助。242未来实现243EGTtools是一个正在积极开发的库，我们计划继续添加现有的和新的EGT模型，244EGTtools的当前版本是0.1.12。我们计划在2450.1.13版中的复杂网络，0.1.14版中的多总体模型以及组和多水平模型246版本0.1.15中的选择。我们还将增加很快支持其他竞争力的增长模式，如莫兰247过程（基于频率的选择）和赖特-费舍尔过程。248该研究249与本文相关的EGTtools版本仅将复制因子方程实现为进化的250模型的无限人口，和Moran过程与成对比较有限的人口。在这两种情况下，251EGTttools允许用户将这些模型应用于对称和非对称游戏（在后一种情况下，252假设种群中的所有个体都可以采用任何可用的策略），2人和N人游戏，以及任何253战略的数量。当然，随着策略数量的增加，解析解变得计算化，第254章复杂计算由于这个原因，EGTtools还提供了高效255（数值模块是用C ++实现的，并且已经预编译）。然而，EGTtools目前并不256在结构化人群中支持EGT方法（例如，复杂的网络），也没有其他竞争性增长模式。这些257是EGT文献中的重要模型，我们计划逐步将它们添加到库中，如第258未来的实施。259 致谢260E.F.D. 在F.W.O.的支持下建立这个框架（Fonds Wetenschappelijk Onderzoek）261基础研究（SB）博士补助金（nr。G.1S639.17N），F.R.S.-FNRS（Fonds de la Recherche Scientific）grant262（编号）31257234）和F.R.S-FNRS Chargé de Recherche补助金（编号：40005955）。朗格是由一个F.W.O.支持263项目（赠款编号G 054919 N）和两个F.R.S.-FNRS PDR（授权号31257234和40007793）。E.F. D 和264朗格由Service Public de Wallonie Recherche根据digitalwallonia4.ai的授权编号2010235-ariac提供支持265朗格感谢佛兰德政府通过人工智能研究计划提供的支持。 F.C. S 承认266葡萄牙信托基金支持（赠款UIDB/ 50021/ 2020、PTDC/ CCI-INF/ 7366/ 2020和PTDC/ MAT-APL/ 6804/2020）。267朗格和F.C.S.双方都感谢TAILOR的支持，TAILOR是一个由欧盟地平线2020研究资助的项目，268根据GA No 952215号文件实施的创新方案。特别感谢Yannick Jadoul，Parselmouth和Eugenio的269Bargiacchi AIToolBox的作者，他们对EGTtools的实现提出了很好的建议。270作者贡献13271概念化E.F.D.， F.C. S T. L.; 方法E.F.D.， F.C. S T. L.; 软件E.F. D 验证272E.F.D.; 形式分析 E.F.D.的研究资源E.F.D.; 数据处理写作-原创273E.F.D、F.C.S.草案T. L.;写作-评论编辑E.F.D，F.C.S. T. L.;可视化E.F.D;监督274F.C.S.项目管理E.F.D.;融资收购E.F.D.和T.L.之间。14275申报利益276.提交人声明没有利益冲突。277包容性和多样性278.我们支持包容性、多样性和公平的研究。279主要人物称号和传说280图例所有D所有C0 1X图1：囚徒困境的单纯形S2沿着这条线的值代表了群体中合作者的频率。箭头指示选区渐变的方向。圆圈代表静止点或平衡点。黑色圆圈代表稳定的平衡，白色圆圈代表不稳定的平衡。在这个例子中，所有成员都采用策略D是唯一的稳定均衡。一图2：2和3策略鹰鸽博弈的复制因子动态选择梯度白色圆圈表示不稳定平衡，黑色圆圈表示稳定平衡，灰色圆圈表示鞍点。图a）示出了2策略鹰鸽博弈的选择梯度该图还显示了梯度的方向、系统的稳定点及其稳定性。所有这些信息都可以使用EGTtools中的plot_gradients函数轻松绘制（参见示例1）。图b）显示了鹰鸽游戏的3策略版本的类似信息。在这种情况下，梯度是绘制在一个单纯形S3（三角形）和他们的强度显示使用颜色。2战略3战略B0.25-0. 50.200200-0. 502 00 20 1010.150.100.050.000.00.2 0.40.6 0.81.0鹰的频率选择梯度15一2战略3战略B0.120.10-0. 5 20-0. 502 00 20 00 1010.080.060.040.020.00k = 0 k = 1 k = Z-1 k = ZDDDDDDCCCCCCDDDDT+T-DDDDT+T-…T+T-CCCCT+T-CCCCDDDCDDCCDCCCDDDDDDCCCCCC图3：两种策略（合作和背叛）的随机生灭过程当种群中只有背叛者（k=0）或只有合作者（k=Z）时，种群是单态的在这些情况下，只有当μ> 0时，T + > 0，即，一个突变体必须出现，这样系统才能改变状态。在所有其他情况下，转移概率（T+和T-）取决于背叛者和合作者之间的支付差异，这也是人口状态的函数。0.00.20.4 0.6鹰的频率（k/Z）0.81.0图4：2和3策略Hawk-Dove博弈的随机生灭过程的选择梯度，两两比较。图a）示出了2策略鹰鸽博弈的选择梯度。这个绘图信息可以很容易地用EGTtools中的plot_gradients函数生成（参见示例3）。图b）显示了鹰鸽游戏的3策略版本的类似信息。在这种情况下，梯度是绘制在一个单纯形S3（三角形）和他们的强度显示使用颜色。此外，我们还绘制了灰度的平稳分布，定义系统动态的马尔可夫链（见示例4）。（Z=100，β=1）选择梯度16k/Z×0.60.50.40.30.2MSE = 8.965e-06解析数值= 1B0.060.050.040.030.020.10.010−410−310−210−1100101β0.010.000.0 0.2 0.4 0.6 0.8 1.0鸽子频率（k/Z）图5：Hawk-Do ve博弈中平稳分布的估计误差。在图a）中，我们可以看到通过数值模拟估计的鸽子的预期频率非常接近于分析计算（MS E= 9。965 10−6）。在图b）中，我们绘制了β=1的估计平稳分布，并将其与解析计算的平稳分布进行面板a）中显示的鸽子的预期频率可以是通过将人口处于给定状态（平稳分布）的概率乘以给定状态下鸽子的频率来计算（Z=100，μ=10−3，所有模拟已运行108代，结果为30次运行的平均值。）a b1.00.80.60.4AllCAllDTFT巴甫洛夫随机GRIM0.20.01000.4101102103104一代1051061070.30.20.10.0AllC AllD TFT Pavlov随机GRIM图6：迭代囚徒困境（IPD）中的有限种群动态图a）显示了当考虑小突变的限制（SML，参见实施例5）时的侵入图。图b）示出了使用成对模仿规则的Moran过程的数值模拟的单次运行的结果（参见实施例6第9行）。y轴显示了在x轴所示的世代中群体中每种策略的频率（k/ Z）。最后，图c）示出了通过数值模拟估计的策略的分布（参见实施例6线12）。我们可以观察到，估计的策略分布（考虑突变率μ=10−3），图b）和c））与假设SML的计算结果相似。这可以是SML假设对于该问题是可接受的指示符（Z=100，β=1，所有模拟已运行了107代，结果是30次运行的平均值。）分析数值鸽子的频率频率平稳分布一17图7：EGTtools的架构该软件包分为五个主要模块：一个游戏模块，它定义了战略互动的环境;一个行为模块，它定义了每个游戏中可以使用的策略;一个分析和一个数值模块，它实现了进化博弈理论方法和模型;最后，一个绘图模块，它包含几个函数和类，可以用来可视化模型的结果。密谋行为游戏EGTtLSgame1.strategy1分析Game1game1.strategy2game2.strategy1游戏2game2.strategy2数值……18示例1：复制者方程：具有两种策略的281示例下面你可以找到一个例子，说明如何使用EGTtools来可视化一个2策略鹰鸽博弈的选择梯度（结果如图2a所示）。在鹰-鸽博弈中，鹰策略代表一个具有攻击性的个体，即，遇到其他个体（任何策略）它都会选择战斗。然而，鸽子更喜欢避免对抗。因此，当老鹰遇到其他老鹰时，他们会打架，并有机会以重伤告终。我们用收益-0.5来表示。另一方面，当一只鹰遇到一只鸽子时，鸽子会逃跑，而鹰将能够保持资源的争端。我们用鹰的收益2和鸽子的收益0来表示。最后，当鸽子相遇时，他们会分享资源，但这不会给他们带来盈余，他们的收益为0。该示例显示如何获取梯度数组（ calculate_gradients ）、提取根（ find_roots ）并检查其稳定性（check_replicator_stability_pairwise_games），以及绘制它们（plot_gradients）下面的例子展示了如何获得一个梯度数组，提取根及其稳定性并绘制它们。同样的过程可以应用于任何其他2策略2玩家游戏。1importnumpyasnp2将egttools导入为egt3从egttools.analytical.utils进口（calculate_gradients，find_roots，‹→check_replicator_stability_pairwise_games，）的方式4五号计算梯度6个收益=np。数组（[[-0.5，2. ]、[0. ，0]]）7x=np。linspace（0，1，num=101，dtype=np. float64）8gradient_function=lambdax：egt. 分析。replicator_equation（x，payoffs）9梯度=calculate_gradients（np. 数组（（x，1-x））。T，梯度函数）1011号找到根源与稳定性12个根=find_roots（梯度函数，nb_strategies=2，nb_i初始随机点=10，‹→方法=“hybr”）13稳定性=check_replicator_stability_pairwise_games（根，收益）1415号情节梯度16egt. 密谋plot_gradients（gradients[：，0]，xlabel=“frequencyofhawks”，roots=roots，‹→ 稳定性（stability）

下载后可阅读完整内容，剩余1页未读，立即下载