基于强化学习的最小作用量原理在物理学中的应用

169 浏览量更新于2023-12-04 收藏 721KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

SS公司简介SSS用强化学习学习最小作用量原理金泽豪1*，林耀宇2 *，李晓芳3 *，1阿布扎比纽约大学天体、粒子和行星物理中心（Center for Astro，Particle and Planetary Physics，CAP3）2伊利诺伊大学厄巴纳-香槟分校3马萨诸塞大学阿默斯特分校摘要通过机器学习来学习物理是很有吸引力的，因为物理学既优雅又经济地描述了我们复杂的现实世界，用简单的物理定律来控制复杂状态的演变。在经典力学的情况下，自然倾向于物体根据拉格朗日的时间积分沿着路径移动我们考虑将奖励/惩罚设置为以下函数，通过强化学习，智能体可以学习粒子在各种环境在这项工作中，我们通过使用基于Q-Learning的算法来学习光如何在具有不同折射率的材料中传播来验证这一想法这一结果为进一步将RL与物理学相结合的应用提供了可能性。介绍从实用主义的观点来看，物理知识是根据输入信息进行预测的数学公式的综合。例如，牛顿力学（如牛顿牛顿力学有两种变体，即拉格朗日力学和哈密顿力学，它们使我们能够很容易地解决复杂的系统，例如多重摆，因为复杂的约束力可以用拉格朗日乘子来描述。已经使用具有归纳偏差的深度神经网络进行了几项研究，这些神经网络将拉格朗日或汉密尔顿机制纳入成本函数中以预测物体的运动（Lutter，Ritter和Peters2019; Cranmer等人2020; Greydanus，Dzamba和Yosinski2019; Toth等人。2019年）。与具有简单成本函数的香草神经网络相比，这些工作在预测更多的物理轨迹方面显示出有希望的结果然而，这些框架可能是限制性的，因为感兴趣的系统的训练集需要被完全设计为测试集，而在现实中，*平等贡献版权所有© 2021本文由其作者。知识共享许可署名4.0国际（CC BY 4.0）感兴趣任务通常是未知的，或者仅显示部分信息。在这里，我们提出可以使用强化学习来学习物理系统的轨迹。最小作用量原理表明，物理作用量，拉格朗日dTL的时间积分，将通过经典物理路径最小化。这一事实提出了使用最少动作原则的想法-Ple作为学习算法的基础，而不是La-grangian或Hamiltonian，用于与优化路径相关的物理模型。由于物理作用能够被解释为环境的内在属性，因此它显示了使用非监督学习算法的机会因此，我们决定实施强化学习（RL），它在各种应用中显示出有希望的进展，特别是当应用于游戏（ Mnih et al. 2013; Silver et al.2016），机器人（Kalashnikov et al. 2018）和科学发现或设计（Halverson，Nelson和Ruehle 2019; Garnier etal.2019; Popova，Isayev，and Trop- sha 2018; Denil etal.2016年）。我们使用光的折射结合Q-Learning作为一个例子来演示这个概念（Watkins 1989）。然后，我们的代理将与界面（RL动作）一起搜索每个界面处的入射点（RL状态）的位置，该位置给出了最短时间的光路。也就是说，智能体在每一轮中总是会得到一些奖励，这取决于它在每种材料中选择的事件点。我们注意到“动作”这个词在物理学和RL中的使用方式不同。在这项工作中，我们使用奖励函数为物理动作S的Q学习算法我们用起点A和终点B设置我们的环境，如图1所示，然后让光线（媒介）在不同的材料（环境）中传播。为了简单起见，光线在同一材料中被限制为沿直线运动。每个光路用依赖于的回报函数来评估，在每一轮中，仅仅是连接起点A、不同界面处的入射点和终点B的直线段。然后，我们的代理将与接口（RL动作）一起搜索每个接口处的事件点（RL状态）的位置，××∫··∫RSs图1：一幅漫画，总结了我们如何在光折射的情况下将最小动作原理和强化学习最短时间的光路也就是说，智能体在每一轮中总是会得到一些奖励，这取决于它在每种材料中选择从费马原理看物理作用费马为了确定光线在两点A和B之间所花费的时间，我们可以对每个时刻的时间dt进行积分，这将是距离除以光线在介质中的速度，takes 就是每种材料所用时间的总和， T =iTi ，Ti=linr，i。我们构建了一个三层，50 150网格环境，由三个50 50网格材料的空气，水和玻璃从左到右。我们的RL代理的给定端点是从左下角（A）到右上角（B）。我们的智能体的RL状态是State=（y1-空气-水界面坐标，y2-水-玻璃界面坐标）。在每个训练片段开始时，我们的智能体从初始状态sini（y1，y2）=（0，0）开始，理论上最短时间光路是状态stheo（y1，y2）=（21，37）。每一轮我们的代理沿着两个中的一个向上/向下移动一个单元BT=dt=一BDSV 、（1）接口。也就是说，对于每一轮，采取四个RL动作a={y1↑，y1↓，y2↑，y2↓}中的一个，其中箭头其中vr表示介质中的光速此外，给定真空中的光速c=1，它被推广到具有（物理作用）形式的光程长度（Chaves 2017），即CIBB表示沿着一个单位的方向移动我们定义了一个R得分，Rs为Rs=Ne−S=Ne−T（3）其中T是我们的代理在两个端点之间旅行所需的总时间，N只是一个任意的缩放比例S=T=nrds.（二）一因子e-S形式取自欧几里德路径积分形式（Hall2013）。我们的特工得到一旦我们有了实际行动，我们可以选择重新-作为物理行为的函数，在这种情况下，函数每一轮的Rs是这一轮的Rs与本集迄今为止达到的最佳Rs之间的差时间作为奖励。实验Q-Learning（Watkins and Dayan 1992）是一种基本的强化学习算法，它构建了一个Q表，记录了所有可能状态下所有可用动作的Q值。Q值基于代理通过在特定状态下进行特定动作而接收的奖励而更新。在任何状态下，智能体都有很小的机会做出具有最高Q值的动作，否则智能体将采取随机动作进行更多探索。在这项工作中，我们采用了贪婪因子ε = 0。9，学习率α= 0.001，折扣因子γ=0.9。我们的实验概述见表，在图2中可视化。光线在折射率为nr的材料中通过距离l所花费的时间T为T=lnr。当光穿过多种不同的材料时，R=Rcurrent−Rbest（4）奖励是这样定义的，如果当前路径比它探索的路径更好，代理将获得奖励，反之亦然。我们发现，在这个特定的环境设置中，这种奖励和Rs的定义有助于智能体更快地找到全局最大值。我们的代理人接受了100集的训练，在每一集中，我们的代理人移动了300轮。每个片段的训练结果可以在图3中可视化，并且作为示例，图2可视化训练片段#90。我们的代理能够找到花费最少时间的路径为了将问题概括一点，智能体还在（n1，n2，n3）=（1，1）以外的折射率下进行训练。三，一6），并与初始状态以外的sini（y1，y2）=（0，0）。代理仍然可以成功地找到正确的路径，其中一个试验如图4所示。一第0轮，T=228.14SS50 5000 50 1001505000 50 100 1505000 50 10015000 50 100 150图2：在单个训练事件中学习的演变空气（n空气= 1）、水（n水= 1）的环境。3），和玻璃（n玻璃= 1。6）从左到右。我们的代理人被要求从左下角到右上角旅行红线是我们的代理选择的光路，蓝色虚线是理论上的最短时间光路。Q-Learning和环境一般参数RL州S（y1，y2），其中0≤y1≤50且0≤y2≤50RL行动一y1↑，y 1↓，y 2↑，y 2↓RL奖励RR=Rcurrent−R best，Rs=Ne−TS s总时间不T=iTi， Ti=li·nr，i贪婪因素ϵ= 0。9学习率αα= 0。001贴现因子γγ = 0。9图2所示情况的专用参数折射率ni从左到右：n空气=1，n水=1。3，n玻璃= 1。6路径端点甲乙丙A（x，y）=（0， 0），B（x，y）=（150， 50）初始状态锡尼sini（y1，y2）=（0， 0）SnellSTheostheo（y1，y2）=（21， 37）训练总次数100每集300225220215210205事件#0第10集第20集第30集第40集第50集第60集第70集第80集第90集0 50 100 150 200 250 300轮讨论我们提出了一个新的基于RL的物理学习框架，该框架利用了最小动作原则的概念，该原则表明物理动作应该是最小的，作为其奖励函数。为了证明这个想法，我们使用Q学习来解决材料之间的光折射问题。智能体成功地学习了具有奖励函数e-S的最短时间路径，尽管我们高度限制了动作的相空间，仅限制了界面的y坐标的移动。当将来有更多的计算资源或更合适的算法时，该限制是可以放宽的。这里我们想提出一个重要的问题：我们能不能说我们的工作先于物理学知识如果我们考虑到我们的工作，图3：在10个不同的训练片段中，我们的代理在每个训练轮的给定端点之间旅行的时间。蓝色虚线表示理论上的最短时间. 第90集是图2中的一个例子从路径学习的角度来看。路径不受任何特殊条件的监督和约束。整个学习是基于最小化，费马原理，一个非常重要的物理知识嵌入作为奖励函数的内在属性。因此，答案取决于物理知识的定义约50，T=206.55取整100，T=205.32舍入147，T=205.14不d 0，T=362.13罗恩SSSS50 5000 50 1001505000 50 100 1505000 50 10015000 50 100 150图4：折射率n1，n2，n3=（3，1，2）的环境从左到右。搜索从初始状态sini（y1，y2）=（50，50）开始。红线是我们的代理在第90集选择的光路，蓝色虚线是理论上的最短时间光路。尽管如此，我们的工作仍然清楚地表明，路径是可能由物理行为决定的。反之亦然，也可以根据最小作用量原理从路径中学习物理作用量。我们将在未来探索这种可能性。虽然对于经典物理学，大多数寻路问题可以被视为传统的优化问题，但我们注意到，我们的RL框架提供了学习量子力学的潜在在量子世界中，哪条非最优路径也可能对最终状态有贡献，而我们的RL框架可以提供一种方法来评估传统优化无法轻松捕获的非最优路径的“价值”。描述量子力学的数学工具是时空的波函数. 将波函数与经典物理学中的坐标相比，数据量是惊人的巨大，整个空间与一分。然而，物理学家巧妙地观察到，量子力学能够通过所有可能路径的物理作用来描述，这被称为路径积分（Dirac 1981），更重要的是，RL方法的探索和利用性质可以用来挑选真正重要的路径，特别是深度强化学习。结论我们证明了RL可以应用于物理系统中的路径查找，通过纯粹与环境交互并在不知道地面真相的情况下获得最少动作的路径。我们相信，随着更多的计算资源和先进的强化学习算法，强化学习可以应用于学习基于物理行为的. 我们还注意到，RL方法的探索和开发性质的潜力实际上类似于量子力学中的路径积分的精神（ Dirac1981），其中所有可想象的（非优化的）路径也可以做出贡献，因此需要探索和评估两点之间的所有可能路径。我们计划在今后的工作中研究引用Chaves，J. 2017. 非成像光学导论。泰勒&·弗朗西斯。Cranmer，M.; Greydanus，S.; Hoyer，S.; Battaglia，P.;Spergel，D.;和Ho，S.2020年。拉格朗日神经网络arXiv预印本arXiv：2003.04630。Denil，M.; Agrawal，P.; Kulkarni，T. D.的; Erez，T.;Battaglia，P.;和De Freitas，N. 2016. 通过深度强化学习学习物理实验。 arXiv预印本arXiv：1611.01843。Dirac，P.A. M. 一九八一年量子力学原理。27.北京：清华大学出版社.Garnier ， P.; Viquerat ， J.; Rabault ， J.; Larcher ， A.;Kuhnle，A.;和Hachem，E. 2019.流体力学深度再学习研究综述。arXiv预印本arXiv：1908.04127。Greydanus，S.; Dzamba，M.;和Yosinski，J. 2019。哈密尔顿神经网络。神经信息处理系统的进展，15379霍尔湾C. 2013. 数学家的量子理论。斯普林格。Halverson，J.; Nelson，B.;和Ruehle，F. 2019. 带大脑的膜：用深度强化学习探索弦真空。高能物理学报2019（6）：3.卡拉什尼科夫，D.; Irpan，A.; Pastor，P.; Ibarz，J.;Herzog ， A.; 张， E.; Quillen ， D.; Holly ， E.;Kalakrishnan，M.; Van- houcke，V.;等，2018年。Qt-opt：可扩展的深度强化学习，用于基于视觉的机器人操作。arXiv预印本arXiv：1806.10293。Lutter，M.;Ritter，C.;Peters，J.2019年。深度拉格朗日网络：使用物理学作为深度学习的先验模型arXiv预印本arXiv：1907.04490。Mnih，V.; Kavukcuoglu，K.; Silver，D.; Graves，A.;安东诺格鲁岛;Wierstra，D.;和Riedmiller，M.2013年。用深度强化学习玩雅达利 arXiv 预印本 arXiv ：1312.5602。T=314.3550岁左右，T=313.06约100，T=313.03圆149Popova，M.; Isayev，O.;和Tropsha，A. 2018.深入的重新设计药物的学习。科学进展4（7）：eaap7885。Silver，D.; Huang，A.;麦迪逊角J.道：Guez，A.; Sifre，L.; Van Den Driessche，G.; Schrittwieser，J.;安东诺格鲁岛; Panneershelvam，V.;Lanctot，M.;等人2016年。用深度神经网络和树搜索掌握围棋游戏 Nature529（7587）：484Toth，P.; Rezegli，D. J.道： Ja e gle，A.; Racan ie`re，S.;Botev，A.; 希金斯，我。2019年。Hamilton生成网络arXiv预印本arXiv：1909.13789。Watkins，C.;和Dayan，P. 1992.技术说明：Q-学习。机器学习8：279-292. doi：10.1007/ BF00992698。沃特金斯角J. C. H. 一九八九年从延迟的奖励中学习。

下载后可阅读完整内容，剩余1页未读，立即下载