迭代学习：最佳集体学习问题的制定与解决

163 浏览量更新于2023-11-30 收藏 282KB PDF 举报

学习模型

个人学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

第九届国际会计师联合会控制教育进展国际自动控制联合会，俄罗斯下诺夫哥罗德，2012年集体边干边学总统德米特里诺维科夫俄罗斯科学院控制科学研究所65 Profsoyuznaya str.，117997，Moscow，Russianovikov@ipu.ru迭代学习的模型，在专业活动中实施，被认为是。最佳集体学习（团队成员之间的任务分配）的问题制定和解决。版权所有© 2011 IFAC关键词-1. 介绍在共同行动时，集体成员（代理人）有意识或无意识地获得个人和集体活动的经验。也就是说，他们的学习过程发生了。在这里和下文中，我们将学习理解为“获得个人经验的过程和结果”（赫尔，1943;诺维科夫，1998）。对这个术语的这种解释是学习作为获得知识、技能和习惯的过程的更一般概念的一个特例（Bush和Mosteller，1962）。让我们连续考虑一些描述集体成员在工作过程中学习效果的模型。从一般的问题陈述和学习过程的定量描述开始，我们考虑一个模型的个人学习过程，然后一个模型的学习过程的集体代理。2. 一般问题陈述与学习过程在定性意义上，最优学习的一般问题可以表述如下。构成集合的每个代理的特征在于某种初始技能水平（例如，劳动生产率）。在工作活动过程中，一个行动者的劳动生产率，随着他获得经验、改进实践习惯等而增长（在工作过程中学习，即边干边学）。在这种情况下，这种增长率（下面正式定义的所谓学习率）对于每个代理都是单独的。我们感兴趣的是在代理之间的时间最佳共享工作。事实上，一个初始专业技能水平较低的智能体从一开始就被工作强烈地负荷着，可以迅速提高自己的技能，并且以后能够更有效地工作。从另一方面来看，可能是合理的，加载代理与较高的初始专业© 2012 IFAC 408 10.3182/20120619-3-RU-2024.000022012年6月19日至21日，俄罗斯下诺夫哥罗德，国际会计师联合会第九届研讨会409KK技能？这些问题的答案并不明显。更重要的是，我们必须确定什么是被理解为“最佳”的代理之间的工作共享。也就是说，代理人的总费用、集体完成一定数量工作所需的时间、在固定时间内取得的成果等，可以作为效率标准。让我们对所考虑的情况进行形式化。从最简单的模型开始，我们将逐步使其更复杂。在这一点上，让我们将自己限制在迭代学习（Novikov，1998）的情况下，对应于足够多的日常活动。迭代学习是行动、尝试、尝试等的多次重复，通过一个系统在不变的环境条件下实现一个固定的目标。迭代学习（IL）是形成人类习惯，动物条件反射，许多技术（物化）和控制论（抽象逻辑）系统学习的基础。这是教育学和工程心理学、心理生理学、教育学、控制理论和其他科学研究的主题（见（Novikov，1998）中的调查）。环境条件和目标的不变性允许以学习曲线的形式定量地描述IL，该学习曲线表示作为迭代次数的时间的函数的学习水平的标准。大量的实验数据表明，迭代学习的最重要的一般规律性在于学习曲线的渐近行为减慢。它们是单调的;学习水平标准的变化率随时间减小;曲线本身渐近地趋向于某个极限。在大多数情况下，迭代学习曲线可以近似为指数曲线。以下两个方面的学习是区分。第一个方面涉及结果。在学习过程中，系统必须实现所需的结果，这意味着在可接受的时间、能量等费用的情况下动作的质量。第二个方面涉及过程，并且包括学习到的系统对工作过程中的某种活动的适应（例如，分别区分了迭代学习的效率特征和自适应特征（Novikov，1998）。通常，适应特征与活动的生理成分（疲劳性等）有关。在本文中，我们将只考虑学习效率的特征（适应特征通常具有完全不同的动态）。如上所述，迭代学习通常以可以由指数曲线近似的减慢的渐近学习曲线为特征rk=r+（r0-其中t是学习时间，k是从学习开始的时刻开始的迭代（尝试，尝试）的次数;r（t）（rk）是在时间t（k-迭代）时代理的类型（实践习惯，专业技能的水平）;r0> 0是初始专业技能（与学习开始的时刻相对应的类型值，即第一时刻）;r是“最终”值，rr0;是定义类型变化速率的非负常数，称为学习速率。3. 单智能体学习让我们首先考虑单个智能体的学习模型。用yk 0表示代理人在第k个时间段内完成的工作量。如果智能体类型（技能水平）rk[0; 1]被解释为智能体成功动作的份额，则智能体在时间段k内执行工作量yk，从而实现结果zk=rk yk。然后代理的结果，即代理在k个时间段内成功完成的工作总量等于Zk=lyl.（三）l1另一方面，代理执行大量（成功和不成功）的工作：Yk=l.（四）l1这个工作量可以有条件地被认为是智能体获得的“经验”（Novikov，2008），即智能体的“有效内部时间”（从学习开始的那一刻起经过的时间和学习过程所花费的时间）。将（3）代入指数（1），我们得到rk= 1-记y1，=（y1，y2，结合（1）-（4），我们获得成功执行的各个工作量和代理类型的以下表达式：kl1Zk=l{1（1r0）exp（ym）}，（5）r（t）=r（r0-或离散序列1l1k1m11这里和下面的上标表示时间间隔号，而下标表示代理号。在考虑单个试剂的情况下，省略下标。r k= 1-（1 - r 0）exp（-ε r y l），k = 2，3，.（六）l12012年6月19日至21日，俄罗斯下诺夫哥罗德，国际会计师联合会第九届研讨会410YYK电注意，对于固定的总工作量，代理的类型由表达式（6）唯一地定义，并且不依赖于Tl 1ylexp（ym）min不.（九）作品的数量是如何在不同的时间段之间分布的。因此，在框架内，在总工作量固定的情况下，l1m1{y1，T|黑体\fs19\bord1\shad1\1cHD8AFAF\4cHC08000\b0}1所考虑的模型没有意义。模型中有三个“宏观参数”，即工程量总量Y、周期数T和结果Z.期望的变量是“学习轨迹“y1，T。最优学习问题可以包括在其他变量固定的情况下，其中一个变量的极值化。因此，我们得出以下问题陈述可以被理性地考虑。1.确定代理可以执行的工作总量Y和需要实现的结果Z。我们感兴趣的是找到一个最小化实现结果的时间的轨迹：表达式（9）已经不包括初始限定词-代理r0的作用，即下面的断言为真。断言1. 最优学习问题的解决方案不依赖于代理的初始资格。这一结论是感兴趣的学习方法，因为从个人的独立代理的结果的角度来看，只有他们的学习率之间的个体差异是必不可少的。3.确定需要达到的学习时间T和结果Z。我们有兴趣找到一个学习轨迹，最大限度地减少工作总量：T.B.明日本语简体中文联系我们.（十）YZ TZ.（七）Z TZ问题（7）可以有条件地称为最小时间问题。2. 确定需要由代理执行的工作总量Y和学习时间T。我们感兴趣的是找到最大化结果Z的轨迹：问题（7）-（10）中的每一个都可以归结为动态规划问题（或这类问题的集合）。4. 多代理因此，我们考虑一个单一的代理人。让我们推广的情况下，几个代理商工作的派生结果Z 我的天.（八）同步首先，我们考虑的情况下，每个代理是完全独立于其他代理的结果和类型（每个代理的结果和类型不联系我们问题（8）可以有条件地称为最优代理学习问题。当然，这个问题最接近于教学问题，当有固定的时间和数量的教育材料时，需要将这些材料沿着时间分配，以最大限度地增加“学习材料的数量”，即。最大限度地提高“学习质量”。在这一点上，取决于其他代理的结果和类型）。然后，我们分析了依赖代理的学习问题。让我们考虑一个集体，它是由n个代理组成的集合N={1，2，通过与表达式（5）和（6）类比，我们分别获得成功执行的工作量和代理类型的以下公式：教学方面，即其内容，并不重要，因为学习科目的常规性质。Zk=l{1 <（1 <$r0）exp（expl1 ym）}，（11）由于表达式（5）是代理的工作量和学习周期持续时间之和的单调性，我我l1我k1我我m1(8)可以写成r k= 1-（1 - r 0）exp（-n i n y l），k = 2，3，.，i n. （十2012年6月19日至21日，俄罗斯下诺夫哥罗德，国际会计师联合会第九届研讨会411我二）我我我l1如果集体的结果是构成这个集体的行动者的结果之和，即，2在更一般的情况下，人们会希望使一些函数极值化（例如，学习费用、学习质量等。考虑到一些额外的约束条件，同时改变几个变量等，所有这些问题形成了未来的研究前景的主题。Zk=ki1，k= 1，2，n2012年6月19日至21日，俄罗斯下诺夫哥罗德，国际会计师联合会第九届研讨会412= 1y），不N我不N我我我则集体的最优学习问题（与（8）一致）由下式给出：成功完成的工作量和代理人的类型：ZMax，（14）kkl0nl1M不N1，TZi=yi{1（1ri）exp（ijyj）}，（16）{YI| yi Y }2011年1月1日l1j1m1即nk0伊日k1LJnTl1j1l1yl{1(1r0)exp(ym)}Max我拉吉吉.（十五）k= 2，3，.，i ∈ N，（17）i1 l1m1{y 1，T|年1月1日{黑体\fs22\bord1\shad0\3aHBE\4aH00\fscx67\fscy66\2cHFFFFFF\3cH808080}其中常数ij$0}可以解释为问题（15）可以用动态规划方法求解。可以容易地看出，问题（15）的最优解通常也取决于各个速率智能体的学习{i}和初始技能{r0}。经验从第j个智能体转移到第i个智能体的效率，i，j∈N。那么最优学习问题就变成了nT nl1断言2. 如果智能体的学习率相等，则yl{1(1r0)exp(fn黑体}作品的最优分配是表现整体我我i1 l1伊伊j1m1具有最高初始技能的代理的工作量如果代理人的初始技能是相同的，那么工作的最佳分配是执行整个工作量，最大我拉吉吉.（十八）由具有最大学习速率的代理工作。{y 1，T|年1月1日{黑体\fs22\bord1\shad0\3aHBE\4aH00\fscx67\fscy66\2cHFFFFFF\3cH808080}因此，在所有代理都具有相等学习率的情况下，最优学习问题的解决方案似乎是“退化”的;只有一个代理工作和学习，而其余的代理不工作和学习。从另一方面来说，这样的集体很难被认为是完全有价值的。从另一方面，人们可以承认，这种情况在现实生活中并不罕见。让我们考虑一下当智能体在初始技能和学习速率方面都不同时会发生什么。名义上，当整个工作量由“最佳”（从初始技能和学习速率的组合的角度来看）代理执行时，问题（15）的解决方案结构受到单一约束下大量变量的制约。实质上，这个问题除了对集体成员完成的工作总量的限制之外，还可能有其他限制。对每个代理在一次迭代（一段时间）中可以执行的最大工作量的约束似乎是最自然的。5. 集体学习到目前为止，在讨论智能体的边做边学时，我们假设每个智能体只通过“自己的经验”学习。尽管如此，经验交流发生在集体中，代理人也可以通过观察其他代理人的活动（他们的成功和困难）来获得经验。考虑到这种影响，让我们描述的“经验”所获得的代理不仅作为其自身的行动的总和，而且还加上这个总和与加权总和的行动，其他代理。因此，我们有以下表达式，用于R2012年6月19日至21日，俄罗斯下诺夫哥罗德，国际会计师联合会第九届研讨会41301126. 例如例1. 考虑问题（十八）为两剂与T= 11，r0= 0，1，r0= 0.3，1= Y= 10（两者代理具有相同的学习率;第二代理具有更高的初始技能），||吉吉||1 2英里。从质量上讲， 第一代理通过它自己的经验和第二代理的经验来学习（甚至比通过它自己的经验更有效）。第二个智能体只能通过自己的经验来学习。药剂类型的动力学如图1所示。最佳工程量的动态如图所示。二、1,00,90,80,70,60,50,40,30,20,10,01 2 3 4 5 6 7 8 9 10 11Fig. 1.实施例12012年6月19日至21日，俄罗斯下诺夫哥罗德，国际会计师联合会第九届研讨会4144,03,53,02,52,01,51,00,50,01 2 3 4 5 6 7 8 9 10 11- 智能体的初始技能的缺乏可以通过其自身经验和其他经验的有效学习来成功地补偿。总之，我们要注意到，存在着比指数曲线或逻辑曲线更复杂的学习曲线，即所谓的序列逻辑曲线，它对应于各种相邻或更复杂的活动类型的发展;广义逻辑曲线等等。的详细讨论图二.实施例1在前六个时期，第一个代理人不执行自己的工作，但“观察”的行动，第二个代理人。此时，第一代理的专业技能比第二代理的专业技能增长得更快。从第七个时期开始，由第一个代理人而不是第二个代理人执行全部作品似乎是最佳的。这个例子清楚地说明了缺乏初始技能是如何通过有效地学习他人的经验来成功地弥补的。另一种（接近的）解释也是可能的。第二智能体可以被认为是具有较高初始技能并教导第一智能体的教师、导师、指导者。在某个时刻，学习者“跑”出教师，可以独立工作。7. 结论因此，在本文中，我们考虑了边做边学的模型。假设代理人已经完成的工作量有条件地反映了该代理人获得的“经验”，我们已经说明并解决了选择代理人在一定时间间隔内完成的工作量的最优学习问题。分析表明，建模可以得出以下结论：- 在一个Agent的工作总量固定的情况下，学习效率的特性不依赖于工作量在时间段内的分布;- 一个智能体的最优迭代学习的解不依赖于它的初始技能;- 智能体学习率越高，智能体在最后阶段必须完成的工作量越大（并且，分别地，在第一阶段需要分配的工作量越少，以提高其初始技能）;- 最优学习策略是随着时间的推移不断增加Agent的工作量，此时学习速率越高，最优学习轨迹越“凸”;- 如果对个人的工作量没有限制，则集体的全部工作量由“最佳”代理完成（从初始技能和学习率的组合的角度来看）;这些曲线超出了本文的范围。虽然，如果集体成员的学习规律是已知的（即使这些规律相当复杂），那么作品数量的最佳分配问题可以类似于上面所做的那样来陈述。但搜索一般（最好是分析）解决这个问题是未来研究的主题。引用布什河，和Mosteller，F. 1962年：《学习的随机模型》（ Stochastic Models of Learning ）。莫斯科：Fizmatlit。C.L. 赫尔 1943 年，《行为原理与行为理论导论》（ Principles of Behavior and Introduction to BehaviorTheory）出版。New York：Appleton Century Compa-ny，1943.诺维科夫检察官（一九九八年）规律的迭代学习莫斯科：议会联盟RAN。(in俄文）Novikov，D.A.（2008）Pareto不确定性下的团队建设。国际自动控制联合会第17届世界大会会议录。汉城，高丽。第1633 - 1638页

下载后可阅读完整内容，剩余1页未读，立即下载