没有合适的资源?快使用搜索试试~ 我知道了~
软件影响8(2021)100061原始软件出版物rl_reach:机器人伸手任务的可重复强化学习实验放大图片作者:PierreAumjauda,DavidMcAuliffeb,FranciscoJ. RodríguezLerac,PhilipCardiffaa机械和材料工程学院,都柏林大学,贝尔菲尔德,都柏林4,爱尔兰bReservo Ltd,Dublin 7,爱尔兰cMódulo de Investigación en Cibernética,Avenida de los Jesuitas,24007 León,SpainA R T I C L E I N F O关键词:强化学习实验机器人人工智能A B标准在解决给定任务时训练强化学习代理高度依赖于识别最佳超参数集和选择合适的环境输入/输出配置。这个繁琐的过程可以通过一个简单的工具箱来简化,允许用户快速比较不同的训练参数集。我们提出了rl_reach,一个独立的,开源的和易于使用的软件包,旨在运行可重复的强化学习实验,用于可定制的机器人达到任务。rl_reach将训练环境、代理、超参数优化工具和策略评估脚本打包在一起,允许其用户快速调查和确定最佳训练配置。 rl_reach可在此URL上公开获得:https://github.com/PierreExeter/rl_reach。代码元数据当前代码版本v1.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-9可再生胶囊的永久链接https://codeocean.com/capsule/4112840/tree/法律代码许可证MIT许可证使用git的代码版本控制系统使用Python 3的软件代码语言、工具和服务编译要求、操作环境依赖性Docker或Python 3、Conda、CUDA(可选)如果可用,链接到开发人员文档/手册https://rl-reach.readthedocs.io/en/latest/index.html问题支持电子邮件pierre. ucd.ie1. 背景和动机近几十年来,由于重复性任务的自动化,特别是机器人技术的进步,工业过程的生产力和效率大大提高。这种生产力可以通过使机器人代理独立解决任务来进一步提高,而无需由人类显式编程强化学习(RL)是一种通过自学习解决顺序决策任务的通用框架,因此,它在机器人技术中有着自然的应用。在RL中,代理通过发送动作和接收观察来与环境- 描述世界的现状-和奖励-描述所采取行动的质量。 代理人RL已经发现了许多成功的应用,然而,实验是出了名的难以复制,因为学习过程高度依赖于权重初始化和环境随机性[1]。为了提高再现性和客观地比较RL解决方案, 有被执行[2许多软件套件提供培训环境,本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗通讯作者。电子邮件地址:pierre. ucd.ie(P. Aumjaud)。https://doi.org/10.1016/j.simpa.2021.100061接收日期:2021年1月28日;接收日期:2021年2月6日;接受日期:2021年2月8日2665-9638/©2021作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsP. 奥姆约湾McAuliffe,F.J.Rodríguez Lera等人软件影响8(2021)1000612图1.一、 培训环境,实时显示末端执行器和目标位置。机器人中的连续控制任务,如dm_control[8,9],Meta- World[10],SURREAL [11],RLBench [12],D4 RL [13],robosuite [14][15]《金刚经》我们介绍了rl_reach,一个独立的,开源的和易于使用的软件包运行可重复的RL实验,适用于机器人达到的任务。它的目标是让研究人员能够快速调查和确定有希望的训练参数集,为给定的任务。rl_reach建立在稳定基线之上3 [16]培训环境是基于WidowX MK-II机械臂,并改编自Replab项目[17],这是一个用于运行RL机器人实验的基准平台。rl_reach封装了所有必要的元素,用于为简单的机器人到达任务生成RL解决方案的鲁棒性能基准。我们的目标是促进RL研究中的可重复实验实践2. 功能和主要特点rl_reach软件旨在快速可靠地运行RL实验,并将经过训练的RL代理的性能与算法,超参数和训练环境进行比较。rl_reach• 自包含:rl_reach将广泛使用的RL框架-稳定基线3,训练环境,评估和超参数调优脚本打包在一起。2)的情况。 除了易于使用之外,只有少数其他软件包提供这种自包含的代码。• 免费和开源:源代码是用Python 3编写的,并在许可的MIT许可下发布,没有商业许可限制。rl_reach只使用免费和开源项目,如深度学习库Py- Torch [18]或物理模拟器Pybullet [19]。许多RL框架需要付费的MuJoCo许可证,这可能是共享研究成果的障碍。代码质量和易读性通过标准软件开发工具得到保证,包括Git版本控制系统、Pylint语法检查器、Travis持续集成服务和自动化测试。• 易于用途:提供了一个简单的命令行界面来训练代理,评估策略,可视化结果和调整超参数。提供文档以帮助最终用户安装和主要使用rl_reach。 软件及其依赖项可以从源代码安装,提供Github存储库和Conda环境。可移植性是通过提供rl_reach作为Docker镜像,使其能够在任何支持Docker的操作系统上运行,从而最大限度地跨平台。最后,CodeOcean平台上提供了一个可复制的代码胶囊。• 可定制的训练环境:rl_reach提供了许多训练环境,用于解决WidowX机器人手臂的伸展任务。这些环境可以轻松定制,以实验不同的动作,观察或奖励功能。虽然许多类似的软件包将玩具问题作为基准任务,但rl_reach为其用户提供了更接近工业问题的训练环境,即用机器人手臂到达目标位置• 稳定基线继承:由于rl_reach构建在稳定基线3 [16]及其“Zoo”之上,因此它具有相同的功能。特别是,它支持最新的无模型RL算法,如A2C,DDPG,HER,PPO,SAC和TD3以及Optuna优化框架的自动超参数调整[20]。• 可重复实验:每个实验(具有唯一标识号)由具有相同训练参数但使用不同初始化种子初始化的多个运行组成。评估指标在所有种子运行中取平均值,以促进可重复、可靠和稳健的实验。• 简单的基准测试:当评估经过训练的策略时,评估指标、环境变量和训练超参数会自动以CSV格式记录。选择的实验运行的性能可以可视化并以图形方式进行比较(图1)。4).• 模拟工具:在评估过程中,可以生成末端效应器和目标位置的2D或3D实时图(图1)。1),以及环境的许多物理特性,如末端执行器和目标位置,关节也可以绘制每个单独种子运行的训练曲线(图1)。5)。事实证明,这些图对于调试非常有用,尤其是在测试新的训练环境时。3. 影响概述强化学习是一个最近非常活跃的研究领域,每年都有大量的强化学习解决方案发表。准确评估和客观比较新的和现有的RLP. 奥姆约湾McAuliffe,F.J.Rodríguez Lera等人软件影响8(2021)1000613图二. r l _reach的流程图和组件。图三. 评估经过训练的策略后的元数据图示例。在这方面,采取适当的方法对于确保在这一领域继续取得进展至关重要。由于训练过程和训练环境的随机性,再现RL实验结果通常具有挑战性[1]。 通过提供一个系统化的工具来进行可重复的RL实验,我们希望rl_reach将促进RL研究社区更好的实验实践,并改善结果的报告和解释。由于rl_reach训练RL代理高度依赖于许多内在(例如初始化种子,奖励函数,动作形状,时间步长数)和外在(算法超参数)变量。确定控制成功训练的关键参数可能是一项艰巨的任务。由于其易于定制的学习环境和大量的训练参数记录,rl_reach提供了一个独特的解决方案,以探索内在和外在参数对训练性能的影响。最后,rl_reach提供了学习环境,旨在训练机器人机械手到达目标位置。这个任务P. 奥姆约湾McAuliffe,F.J.Rodríguez Lera等人软件影响8(2021)1000614图四、 一个 比较不同RL实验性能的可视化图示例。4. 结论和可能的改进我们选择专注于触及任务,因为它是用机器人手臂解决的最简单的任务之一,这允许用户以相对较低的计算资源运行实验,同时仍然具有工业相关性。此外,到达任务允许用户轻松地塑造奖励,并实现具有密集和稀疏奖励的训练环境。然而,rl_reach将受益于支持更复杂和多样化的操作任务,如堆叠,组装,推动或插入。它也不包括传统上用于基准RL代理的经典玩具问题。最后,物理WidowX手臂的训练环境的实现将有助于验证在模拟中训练的策略的性能。rl_reach被设计为一个自包含的工具,它将训练环境和RL框架Stable Baselines打包在一起 3为了方便。但这并不意味着灵活性-图五. 一个训练曲线图的例子。比其他基准测试包中考虑的许多玩具问题更具工业相关性,从而允许将RL应用从学术研究直接转移到工业。同行评审的文章[21]已经从这个软件中产生,其中机器人RL代理的性能经过训练以达到目标位置 比较。经过训练的策略成功地从模拟机器人环境转移到物理机器人环境。尝试RL算法是不受此框架支持的。一个潜在的未来改进将包括产生rl_reach的模块化实现,其中训练环境和RL代理可以很容易地互换。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作P. 奥姆约湾McAuliffe,F.J.Rodríguez Lera等人软件影响8(2021)1000615确认这个职业-FIT项目已获得欧盟地平线2020研究和创新计划的资助,该计划是713654。引用[1]亨德森河放大图片作者:J. Precup,D. Meger,Deep Reinforcement Learningthat Matters,第32届AAAI人工智能会议,AAAI 2018,2018年,第32页。3207[2] G.作者:A. Pettersson,J.Schneider,J.Schulman,J.Tang,W. Zaremba,OpenAI Gym,CoRR abs/1606.0.arXiv:1606.01540。[3]M.G. Bellemare, J.Veness, The Arcade Learning Environment: An EvaluationPlatform for General Agents,vol. 47,2013,pp. 253[4]C.贝蒂,J.Z.雷波D. Tejanashin,T.沃德,M。Wainwright,A. Lefrancq,S.Green,A.作者声明:J.Anderson,S.约克湾Cant,A. Cain,A. Bolton,S.加夫尼,H。金,D. Hassabis,S. Legg,S. Petersen,DeepMind Lab,2016,pp.1-11. arXiv:1612.03801v2。[5]A. Nichol,V. Pfau,C.黑森岛Klimov,J.Schulman,Gotta learn fast:A newbenchmark for generalization in RL , arxiv , 2018 , pp.1-21 arXiv :1804.03720。[6]K.科布角Hesse,J.Hilton,J.Schulman,Leveraging Procedural Generation toBenchmark Reinforcement Learning,arXivarXiv:1912.01588。[7]I. Osband,Y. Doron,M. Hessel,J.Aslanides,E. Sezener,A.萨拉伊瓦角麦金尼T.拉蒂夫角Szepezvari,S. 辛格湾 范罗伊河 萨顿,D。 西尔弗,H。vanHasselt,Behaviour suite for reinforcement learning,arxiv,2019,pp. 1-19.arXiv:1908.03568。[8]Y. Tassa,Y. Doron,A. Muldal,T. Erez,Y. Li,D.D.L. Casas,D. Budden,A.Abdolmaleki , J.Merel , A. Lefrancq , T. Lillicrap , M. Riedmiller , F.Benchmarking,DeepMind Control Suite,arXiv:1801.00690v1.[9]Y. Tassa,S.Tunyasuvunakool,A.Muldal,Y.Doron,P.Trochim,S.Liu,S.博赫兹,J. Merel, T.埃 雷兹 Lillicrap, N. Heess, Dm_control: Software and Tasks forContinuous Control,vol. 6,2020,pp. 1-34. arXiv:2006.12983v2.[10] T. Yu,D. Quillen,Z. 赫利河 朱利安,K. 豪斯曼角 Finn,S. Levine,Meta-world:多任务和元强化学习的基准和评估,arXiv(CoRL),2019年,pp. 1-18.arXiv:1910.10897。[11] L. 范,Y。Zhu ,J. Zhu,Z. Liu,O.Zeng,中国茶青冈A.Gupta ,J. Creus-Costa,S. 萨瓦雷塞,L. Fei-Fei,SURREAL:开源强化学习框架和机器人操作基准,在:A。Billard,A.Dragan,J.Peters,J.Morimoto(Eds.),第二届机器人学习会议论文集,第87卷,机器学习研究论文集,PMLR,2018年,第87页。767-782,URL http://proceedings. mlr.press/v87/fan18a.html网站。[12] S. James,Z.妈D.R. Arrojo,A.J. Daviso,Davison,RLBench:机器人学习基准学习环境,arXiv,第5卷(2),2019年,第100页。3019[13] J. Fu,A. Kumar,O. Nachum,G.塔克,S. Levine,D4RL:深度数据驱动的强化学习数据集,arxiv,2020,pp。1-15. arXiv:2004.07219。[14] Y. Zhu , J.Wong , A. 曼 德 勒 卡 河 Martín-Martín , robosuite : A ModularSimulation Framework and Benchmark for Robot LearningarXiv:2009.12293.[15] M. Lucchi,F. Zindler,S. Mühlbacher-Karrer,H. Pichler,Robo-gym[16] A. 希尔A.Raffin,M.Ernestus,A.Gleave,A.卡内维斯托河Traore,P.达里瓦尔C. 黑 森 岛 Klimov , A. Nichol , M. Plappert , A. Radford , J.Schulman , S.Sidor , Y. Wu , 稳 定 基 线 , GitHub 仓 库 。 URLhttps://github.com/hill-a/stable-基线。[17] B. Yang,J.Zhang,V. Pong,S. Levine,D. Jayaraman,REPLAB:机器人学习的可复制低成本手臂基准平台,机器人与自动化国际会议(ICRA)arXiv:1905.07447。[18] A. 帕斯克河格罗斯,F。Massa,A.Lerer,J. Bradbury,G. Chanan,T.基林,Z.林,N. 吉梅尔辛湖Antiga,A.Desmaison,A.Köpf,E.杨,Z.DeVito,M.赖森,A. Tejani,S. 奇拉姆库尔蒂湾 施泰纳湖,澳-地 Fang,J.Bai,S. Chintala,PyTorch:一个命令式风格的高性能深度学习库arXiv(NeurIPS)。arXiv:1912.01703。[19] E. Coumans,Y. Bai,PyBullet,用于游戏,机器人和机器学习的物理模拟的Python模块,URLhttps://pybullet.org/。[20] T. Akiba,S. Sano,T. Yanase,T.太田,M. Koyama,Optuna:下一代超参数优化框 架 , 2019年 , pp 。 2623 http://dx.doi 。 org/10.1145/3292500.3330701 ,arXiv:1907.10902.[21] P. Aumjaud , D. McAuliffe , F.J. Rodríguez-Lera , P. Cardiff , Reinforcementlearning experiments and benchmark for solving robot reaching tasks,2021,pp.318-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功