对称性与黑盒元强化学习的泛化能力

108 浏览量更新于2023-12-01 收藏 19.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

with backpropagation-based optimization, such as memoryrequirements, catastrophic forgetting, and differentiability.Unfortunately, black-box methods have not yet been suc-cessful at discovering general-purpose RL algorithms thatcompete with the generality of human-engineered algo-rithms. In this work, we show that black-box methods ex-ploit fewer symmetries than backpropagation-based meth-ods. We hypothesise that introducing more symmetries toblack-box meta-learners can improve their generalisation ca-pabilities. We test this hypothesis by introducing a numberof symmetries into an existing black-box meta learning al-gorithm, including (1) the use of the same learned learningrule across all nodes of the neural network (NN), (2) theﬂexibility to work with any input, output, and architecturesizes, and (3) invariance to permutations of the inputs andoutputs (for dense layers). Permutation invariance impliesthat for any permutation of inputs and outputs the learn-ing algorithm produces the same policy. As we show, thisis similar to dense NNs trained with backpropagation thatalso exhibit permutation invariance. We refer to such agentsas symmetric learning agents (SymLA).To introduce these symmetries, we build on variableshared meta learning (VSML) (Kirsch and Schmidhuber2021), which we adapt to the RL setting. VSML arrangesmultiple RNNs like weights in a NN and performs mes-sage passing between these RNNs. We then perform metatraining and meta testing similar to black-box MetaRNNs,also known as RL2 (Wang et al. 2016; Duan et al. 2016).We experimentally validate SymLA on bandits, classic con-trol, and grid worlds, comparing generalisation capabilitiesto MetaRNNs. SymLA improves generalisation when vary-ing action dimensions, permuting observations and actions,and signiﬁcantly changing tasks and environments.arXiv:2109.10781v2 [cs.LG] 5 Jun 2022+v:mala2255获取更多论文0将对称性引入黑盒元强化学习0Louis Kirsch 1 2，Sebastian Flennerhag 1，Hado van Hasselt 1，Abram Friesen 1，Junhyuk Oh 1，Yutian Chen 101 DeepMind 2 瑞士人工智能实验室IDSIA，USI，SUPSIlouis@idsia.ch，{ �ennerhag，hado，abef，junhyuk，yutianc }@deepmind.com0摘要0元强化学习（RL）试图通过与环境的交互自动发现新的RL算法。在所谓的黑盒方法中，策略和学习算法由单个神经网络共同表示。这些方法非常灵活，但在泛化到新的未知环境方面往往表现不佳，与人工设计的RL算法相比。在本文中，我们探讨了对称性在元泛化中的作用。我们展示了最近一个成功的元RL方法，在基于反向传播的学习中元学习了一个目标，表现出某些对称性（具体来说是学习规则的重用，以及对输入和输出排列的不变性），而这些对称性在典型的黑盒元RL系统中是不存在的。我们假设这些对称性在元泛化中可以起到重要作用。在黑盒监督元学习的最新工作基础上，我们开发了一个具有相同对称性的黑盒元RL系统。通过仔细的实验，我们证明了纳入这些对称性可以导致具有更强泛化能力的算法，可以泛化到未知的动作和观察空间、任务和环境。0引言元强化学习（RL）的最新研究已经开始解决自动发现通用RL算法的挑战性问题（Kirsch，van Steenkiste和Schmidhuber2020；Alet等人2020；Oh等人2020）。这些方法通过优化多个环境中多个代理的生命周期内的奖励来学习强化学习。如果发现的学习原则足够通用，那么学到的算法应该能够泛化到显著不同的未知环境。根据学习算法的结构，这些方法可以分为基于反向传播的方法和基于黑盒的方法。基于反向传播的方法学习使用反向传播算法进行强化学习，而黑盒方法则通过单个（通常是循环）神经网络共同指定代理和RL算法（Wang等人2016；Duan等人2016）。尽管基于反向传播的方法更为普遍，因为它们相对容易实现并具有理论保证，但黑盒方法具有表达能力，并且有可能避免一些基于反向传播的优化问题，如内存需求、灾难性遗忘和可微性。不幸的是，黑盒方法尚未成功地发现与人工设计算法的通用性相媲美的通用RL算法。在这项工作中，我们展示了黑盒方法利用的对称性比基于反向传播的方法少。我们假设将更多对称性引入黑盒元学习者可以提高其泛化能力。我们通过将一些对称性引入现有的黑盒元学习算法来测试这个假设，包括（1）在神经网络（NN）的所有节点上使用相同的学习规则，（2）灵活处理任何输入、输出和架构大小，以及（3）对输入和输出的排列具有不变性（对于密集层）。排列不变性意味着对于任何输入和输出的排列，学习算法都会产生相同的策略。正如我们所展示的，这类似于使用反向传播训练的密集NN也具有排列不变性。我们将这样的代理称为对称学习代理（SymLA）。为了引入这些对称性，我们建立在可变共享元学习（VSML）（Kirsch和Schmidhuber2021）的基础上，将其调整为RL设置。VSML将多个RNN排列成NN中的权重，并在这些RNN之间进行消息传递。然后，我们进行类似于黑盒MetaRNNs的元训练和元测试，也称为RL2（Wang等人2016；Duan等人2016）。我们在赌博机、经典控制和网格世界上对SymLA进行了实验验证，比较了其泛化能力与MetaRNNs的能力。SymLA在动作维度变化、观察和动作的排列以及任务和环境的显著变化时改善了泛化能力。0版权所有 ©2022年，人工智能促进协会（www.aaai.org）。保留所有权利。0预备知识0强化学习0本文中的RL设置遵循标准的（PO）MDP公式。在每个时间步骤， t = 1 , 2 , . . . ，代理接收到来自环境状态 s t ∈ S生成的新观测值 o t ∈ O ，并执行从其（循环）策略 π θ= p ( a t | o 1: t , a 1: t − 1 ) 中采样的动作 a t ∈ A。代理接收到奖励 r t ∈ R � R，并且环境转移到下一个状态。这个转移由以下定义：xb=δ(k−1)a=02维 m0输入采样的动作 a t −10输出逻辑 y t 具有状态 h ab 的LS0双向连接02维 m0观测值 o t0所有LSTM共享相同的参数 θ0角度0角度 Δ0位置0位置 Δ0奖励 r t0图1：我们用来研究具有对称性的黑盒学习算法的对称学习代理（SymLA）的架构。神经网络中的权重被小的参数共享的RNN替代。原始网络中的激活对应于在网络中正向 −→ m 和反向 ←− m方向之间传递的消息。这些消息可能包含环境观测、先前采取的动作以及来自环境的奖励等外部信息。0环境动力学 e = p ( s t +1 , r t | s t , a t ) 。初始环境状态s 1 从初始状态分布 p ( s 1 )中采样。目标是找到最优策略参数 θ � ，使得期望回报最大化R = E [ � T t =1 γ t r t ] ，其中 T 是回合长度， 0 < γ ≤ 1 是折扣因子（对于非回合式 MDP， T = ∞ ， γ < 1）。0元强化学习元强化学习设置关注的是通过使用奖励 r t来更新其行为的新颖代理，这些代理在其多回合生命周期（L ≥ T ）中学习。这可以被表述为最大化 E e � p ( e ) [ E [ �L t =1 γ t r t ]] ，其中 p ( e )是元训练环境的分布。目标本身类似于多任务设置。在本文中，我们讨论了代理的结构对其在新任务和环境中学习和泛化程度的影响。我们寻求发现能够在元训练分布之外泛化的通用学习算法。我们可以将一个在其生命周期中学习的代理视为一个历史依赖映射 a t , h t = f ( h t − 1 , o t , r t − 1, a t − 1 ) ，它根据其先前状态 h t − 1 ，观测值 o t，环境奖励 r t − 1 和先前动作 a t − 1 产生一个动作 a t和新的代理状态 h t 。在基于反向传播的学习中， f被分解为：（1）将当前状态映射为动作的固定策略 π ( s )θ ， a t = π ( s ) θ ( o t )；（2）基于反向传播的更新规则，通过向后传播错误信号并在固定间隔（例如每个回合后）更新策略来优化给定的目标J 。在其最简单的形式中，对于NN策略的任何密集层 k ∈{ 1 , . . . , K } ，具有大小 A ( k ) × B ( k ) 的输入 x ( k )，输出 x ( k +1) ，和权重 w ( k ) � θ，反向传播更新规则如下：0a x ( k ) a w ( k ) ab （正向传递）（1）0b δ ( k ) b w ( k ) ab （反向传递）（2）0∆ w ( k ) ab α ∂J0∂w ( k ) ab = −αx ( k ) a δ ( k )b（更新）（3）0其中 a ∈ { 1 , . . . , A ( k ) }，b ∈ { 1 , . . . , B ( k ) }，α 是学习率，δ 是误差项，代理状态h 对应于参数 θ。初始误差由 NN 输出处的梯度给出，δ ( k ) = ∂J0sponds to parameters θ。初始误差由 NN 输出处的梯度给出，δ ( k ) = ∂J0∂x ( K+1)。此处省略了非线性等变换。在元强化学习中采用这种方法的工作将目标 J φ参数化，并元学习其参数（Kirsch、van Steenkiste 和Schmidhuber 2020；Oh 等 2020）。相比之下，黑盒元RL（Duan 等 2016；Wang 等2016）直接以单个非静态策略 π θ 的形式元学习 f。f的参数表示学习算法（没有显式的 J φ），而状态 h表示策略。在 f 的最简单形式的 RNN表示中，给定当前隐藏状态 h 和输入 o、r、a（连接的 [ ∙ ]）0a b，h b ← f θ ( h, o, r, a ) b σ ( �0a [ h, o, r, a ] a v ab0其中参数 θ = v，激活函数 σ，省略了偏置项。我们将其称为MetaRNN。输入必须包括观察 o 之外，还包括先前的奖励 r和动作a，以便元学习器可以学习将过去的动作与奖励相关联（Schmidhuber 1993b；Wang 等2016）。此外，黑盒系统在每个回合边界之间不会重置状态h，以便学习算法可以通过代理的生命周期累积知识。0元 RL 中的对称性在本节中，我们演示了基于反向传播系统（方程式3）中的学习动态与黑盒系统（方程式4）中的学习动态之间的差异，以及这如何影响将黑盒方法推广到新环境中。0基于反向传播的元 RL 中的对称性首先，我们确定了反向传播系统所展现的对称性，并讨论了它们如何影响学习算法的泛化能力。1.对称的学习规则。在方程式 3 中，每个参数 w ab都根据来自前向和后向传递的信息使用相同的更新规则进行更新。通过元学习目标 Jφ，通过反向传播对每个参数的更新具有对称性。02.灵活的输入、输出和架构大小。由于相同的规则在任何地方都被应用，学习算法可以应用于任意大小的神经网络，包括输入和输出的变化。0+v:mala2255获取更多论文∂Jφ(y′)∂y′b=�∂Jφ(y)∂y�ρ′(b)(5)0包括输入和输出大小的变化。这涉及到变化的 A 和 B以及层数的数量，影响学习规则的应用频率和正在学习的参数数量。03.对输入和输出排列的不变性。给定层中输入和输出的排列，由k 0a x ( k ) ρ ( a ) w ( k ) ab，δ ( k − 1) ρ ( a ) = �0b δ ( k ) ρ ′ ( b ) w ( k ) ab，以及 ∆ w ( k ) ab = −αx0如果 w ′ ( k ) ρ ( a ) ρ ′ ( b ) = w ( k ) a,b，则我们可以等价地使用 w ( k0a x ( k ) ρ ( a ) w ′ ( k ) ρ ( a ) ρ ′ ( b )，δ ( k − 1) ρ ( a) 0b δ ( k ) ρ ′ ( b ) w ′ ( k ) ρ ( a ) ρ ′ ( b )，以及 ∆ w ′ ( k0如果 w ′ ( k )的所有元素都是独立同分布初始化的，我们可以在上述更新中互换使用 w 代替 w ′。通过这样做，我们可以恢复任何a、b的原始学习规则方程。因此，学习算法对输入和输出的排列是不变的。虽然反向传播具有固有的对称性，但如果目标函数 J φ 是不对称的，则这些对称性将被破坏。形式上，当对NN 的输出 y = x ( K +1) 进行排列，使得 y ′ b = y ρ ′ ( b)，J φ 应满足在排列下的梯度也是一个排列。0当环境接受由 ρ ′ 排列的动作时，对于 J φ ( y ′ )，这是策略梯度的情况。例如，如果根据 ρ ′ 对动作选择 π (a | s )进行排列。在元学习目标函数时，之前的工作精心设计了目标函数 J φ 以保持对称性。在MetaGenRL（Kirsch，vanSteenkiste和Schmidhuber2020）中，采取的动作通过策略输出进行逐元素处理，并通过损失函数进行求和约简。在LPG（Oh等人，2020）中，采取的动作和策略输出没有直接输入到 J φ，而是仅使用了动作分布的对数概率。0黑盒元强化学习中的对称性不足黑盒元学习方法具有吸引力，因为它们需要很少的硬编码偏差，并且足够灵活，可以表示各种可能的学习算法。我们假设这是以过拟合给定的元训练环境为代价的，从而导致过度专门化的学习算法。反向传播系统（方程3）中的学习动态与黑盒系统（方程4）中的学习动态有明显的差异。特别是，元学习 J φ 受到更多限制，因为 J φ只能通过方程3中的相同学习规则间接影响每个策略参数 w (k ) ab 。相比之下，在黑盒系统（方程4）中，每个策略状态h b 都由唯一的元参数（向量 v ∙ b）直接控制，从而鼓励黑盒元学习者为策略状态的每个元素构建特定的更新规则。这导致对输入和输出的排列敏感。此外，0输入和输出空间的大小必须保持与RNN参数的数量相同，因为它们直接依赖于RNN参数的数量。例如，考虑一个由两个臂的老虎机组成的元训练分布，其中第一个臂的预期支付要比第二个臂大得多。如果我们在这些环境中对MetaRNN进行元训练，那么在元测试时，MetaRNN将学会立即增加拉动第一个臂的概率，而不考虑任何观察到的奖励。如果使用REINFORCE或元学习的对称目标函数来调整动作概率，由于隐含的对称性，学习算法无法区分两个臂以偏好其中之一。虽然MetaRNN在相同的元训练分布上进行元测试时的行为是最优的，但它完全无法推广到其他分布。因此，MetaRNN导致了一个非学习的、有偏差的解决方案，而基于反向传播的方法则导致了一个学习的解决方案。在前一种情况下，学习算法过拟合，只能产生一个固定策略，总是选择第一个臂。在后一种情况下，学习算法是无偏的，并将从观察到的奖励中学习出一个策略来选择第一个臂。除老虎机外，对于具有合理大小的元训练分布，我们可能在数据中有任意数量的偏差，MetaRNN将继承这些偏差，阻碍对未见任务和环境的泛化。0为黑盒元强化学习添加对称性0解决黑盒方法中过拟合问题的一种方法是在策略的参数化中引入对称性。这可以通过将前向传递（方程1），反向传递（方程2）和逐元素更新（方程3）推广为参数化版本来实现。我们进一步将损失计算合并到这些参数化更新规则中。它们共同形成一个具有额外对称性的单一循环策略。之前关于可变共享元学习（VSML）（Kirsch和Schmidhuber2021）的工作使用了类似的原则来元学习监督学习算法。在接下来的内容中，我们将他们的方法扩展到处理强化学习环境。0可变共享元学习0VSML描述了具有参数共享的元学习的神经网络架构。这可以通过元学习如何更新权重（Bengio等人，1992;Schmidhuber，1993a）来进行解释，其中更新规则在整个网络中共享。我们不是设计一个明确定义权重更新的元网络，而是将小型参数共享的RNN（LSTM）排列成NN中的权重，并在它们之间进行消息传递。在VSML中，每个具有w∈RA×B的NN中的权重wab被具有参数θ和隐藏状态hab∈RN的小型RNN替换。在这里，我们仅限于稠密的NN层，其中w对应于该层的输入大小A和输出大小B。如果需要，这可以适应其他架构，如CNN。所有这些RNN共享相同的参数θ，既定义了在神经网络中传播的信息，也定义了如何更新状态以实现学习。每个RNN与0+v:mala2255获取更多论文Figure 2: In SymLA, the inner loop recurrently updates allRNN states hab(t) for agent steps t ∈ {1, . . . , L} startingwith randomly initialized states hab. Based on feedback rt,RNN states can be used as memory for learning. The learn-ing algorithm encoded in the RNN parameters θ is updatedin the outer loop by meta-training using ES.RNN receives the current reward signal rt−1 as input. Theupdate equation is given byh(k)ab ← fRNN(h(k)ab , −→m(k)a , ←−m(k)b , rt−1��environment inputs, −→m(k+1)b, ←−m(k−1)a��from previous step)(9)where a ∈ {1, . . . , A(k)}, b ∈ {1, . . . , B(k)}. As we onlyuse a single layer, k = 1, we apply the update multiple times(multiple micro ticks) for each step in the environment. Thiscan also be viewed as multiple layers with shared parame-ters, where parameters correspond to states h. For pseudocode, see Algorithm 1 in the appendix.Symmetries in SymLABy incorporating the above changes to inputs, outputs, andarchitecture, we arrive at a black-box meta RL method withsymmetries, here represented by our proposed symmetriclearning agents (SymLA). By construction, SymLA exhibitsthe same symmetries as those described in Section , despitenot using the backpropagation algorithm.1. Symmetric learning rule. The learning rule as deﬁnedby Equation 9 is replicated across a ∈ {1, . . . , A} andb ∈ {1, . . . , B} with the same parameter θ.2. Flexible input, output, and architecture sizes. Changesin A, B, and K correspond to input, output, and archi-tecture size. This does not affect the number of meta-parameters and therefore these quantities can also be var-ied at meta-test time.3. Invariancetoinputandoutputpermuta-tions.Whenpermutingmessagesusingbijec-tions ρ and ρ′, the state update becomes h(k)ab←fRNN(h(k)ab , −→m(k)ρ(a), ←−m(k)ρ′(b), rt−1, −→m(k+1)ρ′(b) , ←−m(k−1)ρ(a) ),and the message transformations are −→m(k+1)ρ′(b)=�a f−→m(h(k)ab ) and ←−m(k−1)ρ(a)= �b f←−m(h(k)ab ). Similar tobackpropagation, when RNN states hab are initializedi.i.d., we can use hρ(a),ρ′(b) in place of hab to recover theoriginal Equations 7, 8, 9.+v:mala2255获取更多论文0状态hab接收到类似于先前激活的模拟，这里称为矢量化的前向消息−→ma∈R−→M和向后在网络中向后流动的消息←−mb∈R←−M。向后消息可能包含与信用分配相关的信息，但不限于此。然后，RNN更新方程（比较方程3和4）由以下给出0h(k)ab←fRNN(h(k)ab,−→m(k)a,←−m(k)b)(0对于层k，其中k∈{1,...,K}，a∈{1,...,A(k)}，b∈{1,...,B(k)}。类似地，通过使用函数f−→m：RN→R−→M（比较方程1），可以将RNN状态转换为新的前向消息，使得0−→m(k+1)= �0af−→m(h(k)ab)(7)0定义了层k+1的新的前向消息，其中b∈{1,...,B(k)=A(k+1)}。后向消息由f←−m：RN→R←−M（比较方程2）给出，使得0←−m(k−1)= �0bf←−m(h(k)ab)(8)0和a∈{1,...,A(k)=B(k−1)}。为简单起见，我们在下面使用θ来表示所有VSML参数，包括RNN和前向和后向消息函数的参数。接下来，我们基于VSML（在图1中可视化）推导出一个黑盒元强化学习器。0RL代理输入和输出0在环境中的每个时间步骤中，代理的输入包括先前采取的动作at−1，当前观察ot和先前的奖励rt−1。我们将rt−1作为附加输入馈送到每个RNN中，将观察ot∈RA（1）馈送到第一层（−→m（1）∙1 :=ot），将动作at−1∈{0,1}B（K）（独热编码）馈送到最后一层（←−m（K）∙1 :=at−1）。指数1指的是−→M或←−M维消息的第一维。我们将代理的输出消息y =−→m（K+1）∙1解释为动作上的未归一化logits的分类分布。虽然我们在目前的实验中只关注离散动作，但这可以适应概率性或确定性连续控制。0架构循环和奖励信号0在本文中，我们使用单层（K = 1）而不是使用多层（K >1）。在方程6中，同一层中的RNN无法直接协调，因为它们的消息只传递到下一层和上一层。为了使单层在RL设置中具有足够的表达能力，我们通过处理该层自己的消息−→m(k+1)b和←−m(k−1)a使其成为“循环”的。因此，网络具有两个级别的循环：（1）每个对应于标准NN的权重的RNN和（2）根据方程7和8生成并反馈到同一层的消息。此外，每个Learning / Inner LoopLearning corresponds to updating RNN states hab (see Fig-ure 2). This is the same as the MetaRNN (Wang et al. 2016;Duan et al. 2016) but with a more structured neural model.For ﬁxed RNN parameters θ which encode the learning algo-rithm, we randomly initialize all states hab. Next, the agentsteps through the environment, updating hab in each step. Ifthe environment is episodic with T steps, the agent is runfor a lifetime of L ≥ T steps with environment resets in-between, carrying the agent state hab over.Meta Learning / Outer LoopEach outer loop step unrolls the inner loop for L environ-ment steps to update θ. The SymLA objective is to maximizethe agent’s lifetime sum of rewards, i.e. �Lt=1 rt(θ). We op-timize this objective using evolutionary strategies (Wierstraet al. 2008; Salimans et al. 2017) by following the gradient∇θEφ∼N (φ|θ,Σ)[Ee∼p(e)[L�t=1r(e)t (φ)]].(10)with some ﬁxed diagonal covariance matrix Σ and envi-ronments e ∼ p(e). We chose evolution strategies due toits ability to optimize over long inner-loop horizons with-out memory constraints that occur due to backpropagation-based meta optimization. Furthermore, it was shown thatmeta-loss landscapes are difﬁcult to navigate and the searchdistribution helps in smoothing those (Metz et al. 2019).1.05.24.21201301401213151714131517201516170实验配备了一个对称黑盒学习器，我们现在研究其学习特性与标准MetaRNN的区别。首先，我们学习从Wang等人（2016年）的赌博机中学习，其中元训练环境与元测试环境相似。其次，我们展示了对未见过的动作空间的泛化，将学习的算法应用于在元测试时间具有不同数量手臂的赌博机上，而MetaRNN则无法做到这一点。第三，我们通过在经典控制基准测试中创建观察和动作的排列来展示对未见过的观察空间的泛化如何改善。第四，我们展示了排列不变性如何导致对未见任务的泛化，通过在元测试时间学习状态及其相关奖励。最后，我们展示了对称性如何导致更好的学习算法适用于未见环境，从网格世界到CartPole的泛化。超参数在附录中。0在相似环境中学习学习首先，我们将SymLA和MetaRNN在Wang等人（2016年）的两个手臂（相关）赌博机实验中进行比较，在这些实验中，元测试环境没有很大的变化。这些实验包括五个不同的设置，难度各异，我们用于元训练和元测试（见附录）。没有观察（没有上下文），只有两个手臂，以及每个手臂具有相同边际分布的元训练分布。因此，我们预计SymLA的对称性对性能没有显著影响。我们进行了一个代理的生命周期的元训练0独立均匀0依赖均匀0简单0中等0困难0测试环境0独立均匀0依赖均匀0简单0中等0困难0训练环境0MetaRNN0独立均匀0依赖均匀0简单0中等0困难0测试环境0SymLA0独立均匀0依赖均匀0简单0中等0困难0测试环境0SymLA - MetaRNN0图3：我们将SymLA与标准MetaRNN在Wang等人（2016年）的一组赌博机基准测试中进行比较。我们在不同难度的两个手臂赌博机上进行训练（y轴）和测试（x轴）。我们报告了在3个元训练和100个元测试运行中进行100次手臂拉动的预期累积遗憾（较小的值更好）。我们观察到SymLA的性能往往与MetaRNN相当。010个手臂012个手臂0测试环境02个手臂08个手臂010个手臂012个手臂0训练环境0预期累积遗憾0图4：我们在不同数量的独立手臂上进行元训练和元测试SymLA，以衡量其在未见配置上的泛化性能。我们通过添加或删除RNN来适应额外的输出单元来实现这一点。元参数的数量保持不变。我们报告了在3个元训练和100个元测试运行中进行100次手臂拉动的预期累积遗憾（较小的值更好）。特别重要的是超出分布的情况（非对角线）。0L =100次手臂拉动，并在图3中报告在元测试时间的预期累积遗憾。我们在每个五个设置中进行元训练，并在所有设置中进行元测试。MetaRNN的性能复制了Wang等人（2016年）的平均性能，这里是用ES而不是A2C进行训练。当使用对称性（如SymLA）时，我们恢复了与MetaRNN相比类似的性能。0对未见过的动作空间的泛化相比MetaRNN，SymLA可以在元测试时改变臂的数量。SymLA的架构允许通过复制现有的RNN来任意改变网络大小，因此在元测试时可以添加或删除臂，同时保留来自元训练的相同元参数。在图4中，我们在不同数量的臂上进行训练，并在已见和未见的配置上进行测试。所有臂都是从均匀分布p i � U [0,1]中独立抽取的。我们观察到SymLA在内部工作得很好0+v:mala2255获取更多论文302520151050012345670123456Experiments: G●Permutation invarianc●One-hot image○Channel �: Pla○Channel �: He○Channel �: Tra●Meta-Training on thi0.30.20.10.00.10.20.300 100 200 300 400 500 内部步骤0累积奖励0在CartPole上进行元测试0MetaRNN0SymLA标准洗牌00 100 200 300 400 500 内部步骤0在Acrobot上进行元测试00 100 200 300 400 500 内部步骤0在MountainCar上进行元测试0图5：SymLA的架构本质上是置换不变的。当在标准的CartPole、Acrobot和MountainCar上进行元训练时，MetaRNN和SymLA的性能是可比较的。然后，我们使用随机观察和动作进行元测试。在这种设置下，SymLA仍然表现良好，因为它在元测试时已经学会了识别观察和动作。相比之下，MetaRNN无法做到这一点。标准差基于3次元训练和100次元测试运行。私密和机密的泛化到类似的环境0扩展到对象类型0er rt p配置0玩家0r = +�0r = -�0�0100 200 300 400 500 内部步骤0平滑奖励0在GridWorld上进行元测试0MetaRNNSymLA随机策略0100 200 300 400 500 内部步骤0使用交换奖励在GridWorld上进行元测试0图6：我们将置换不变性扩展到概念——在网格世界环境中改变与不同对象类型（+1和-1）相关联的奖励（左图）。SymLA被迫在元测试时学习有关对象类型的奖励（从接近零的奖励开始，并随时间增加奖励）。当切换奖励并运行相同的学习器时，MetaRNN收集到错误的奖励，而SymLA仍然推断出正确的关系。标准差基于3次元训练和100次元测试运行。0对角线分布，并且可以推广到未见过的臂数（非对角线）。我们还观察到，对于两个臂，可以发现更专门的解决方案，当仅在这种配置上进行训练时，会阻碍泛化。0对未见过的观察空间的泛化在接下来的实验中，我们想要具体分析我们的架构所创建的置换不变性。在之前的赌博环境中，动作在训练分布中以所有置换的形式出现。相比之下，RL环境通常对其观察和动作具有一定的结构。例如，在CartPole中，第一个观察通常是杆的角度，第一个动作描述向左移动。人工设计的学习算法通常对置换不变，并因此对具有不同结构的新问题进行泛化。对于具有对称性的黑盒代理，同样适用。我们在经典控制任务CartPole、Acrobot和MountainCar上展示了这一特性。我们分别在每个环境上进行元训练，使用原始的观察和动作顺序。然后，在相同配置（1）或经过置换的版本

下载后可阅读完整内容，剩余1页未读，立即下载