没有合适的资源?快使用搜索试试~ 我知道了~
BahiaRT软件工具包和BahiaRT健身房:机器人足球数据集构建和训练环境的研究工具
软件影响14(2022)100401原始软件出版物BahiaRT Setplays收集工具包和BahiaRT健身房马可足球俱乐部 Sim oéesa,b,a,GabrielMascarenhasa,RafaelFonsecaa,Vitor M.P. 多斯桑托斯,Felipe Mascarenhasa,Tatiane Nogueiraba巴西萨尔瓦多巴伊亚州立大学b巴西萨尔瓦多巴伊亚联邦大学A R T I C L E I N F O关键词:多Agent系统RoboCup机器人足球众包数据集构建A B标准使用机器学习的研究中的挑战之一是需要使用领域专家的常识知识构建真实的数据集。BahiaRT SetplaysCollecting Toolkit是一个支持研究的软件,足球迷或专家可以观看机器人踢足球,并捕捉他们想要向机器人团队展示更好的setplay的情况。所有演示都收集在一个数据集中,用于为强化学习机制提供数据,该机制为机器人足球队该软件影响了许多研究领域,如自动驾驶汽车,无人机,数据集组织,强化学习和从演示中学习。BahiaRT Gym 是 一 个 开 源 工 具 , 旨 在 将 OpenAI Gym 工 具 包 与 RoboCup Soccer Simulation 3D 服 务 器(rcssserver3d)集成,以便更轻松地为足球队创建训练环境,同时也促进其他RoboCup联赛环境的开发代码元数据当前代码版本v1.0.3用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-136可复制胶囊GNU Affero通用公共许可证(AGPL)使用git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求,操作环境依赖python3.7,OpenAI Gym如果可用,链接到开发人员文档/手册https://bitbucket.org/bahiart3d/bahiart-gym/src/master/README.md问题支持电子邮件teambahiart@gmail.com用于本软件未来更新的代码/存储库的永久链接https://bitbucket.org/bahiart3d/bahiart-gym.gitPyPi存储库的永久链接https://pypi.org/project/bahiart-gym/1. BahiaRT本文提出的工具包的主要目的是提供一个简单而强大的演示学习界面的机器人足球多智能体系统,特别是RoboCup 3D模拟机器人足球联赛。使用这个工具包,一个人类专家在足球或机器人足球可以转移他的知识,机器人代理在多智能体系统通过定义setplays建立从以前玩游戏的日志分析。情景剧相当于足球比赛中排练的戏剧。setplay定义了一组团队必须遵循的步骤,∗通讯作者。电子邮件地址:msimoes@uneb.br(硕士)C. Si moées).https://doi.org/10.1016/j.simpa.2022.100401实现一个特定的目标。每个步骤包含一定数量的参与代理,每个参与者在每个步骤中执行一个操作。该套件由两个工具组成,第一个是RoboViz的一个叉子1.6.0 [1],修改为支持演示学习模式。通过RoboViz的演示模式,专家可以观看记录在日志中的游戏当开始演示会话时,专家定义暂停的游戏场景中存在的哪些代理将参与要描述的新排练的移动。有关参与代理的信息,他们的位置,以及其他游戏数据,如球的位置和游戏模式,都被发送接收日期:2022年7月4日;接收日期:2022年7月22日;接受日期:2022年7月26日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsM.A.C. 你好G. 马斯卡雷尼亚斯河 Fonseca等软件影响14(2022)1004012Fig. 1. Roboviz初始屏幕。图二. 游戏介绍图三. 足球场在RoboViz展出。到工具包中的第二个工具,战略规划师(SPlanner)[2],以便专家可以将他的知识作为一个布景转移。SPlanner是一个setplay生成图形工具。默认情况下,SPlanner允许创建新的setplay,而无需提供任何相关上下文或游戏状态。BahiaRTSetplays Collecting工具包中提供的版本经过修改,以支持演示模式以及新的行为和功能[3,4]。SPlanner的主要功能是允许用户(专家)以排练动作的形式将其领域知识转移到多智能体系统参与行动者必须按照一系列步骤执行的动作流形成了排练的戏剧。在每个步骤中,为每个参与的代理定义一个新的动作然后,这些步骤通过转换操作链接,以创建setplay执行流。BahiaRT Setplays Collecting Toolkit集成了RoboViz和SPlanner,允许用户查看多个游戏日志并生成1.1. 设置本 安 装 教 程 展 示 了 设 置 和 运 行 启 动 BahiaRT Setplays CollectingToolkit的Docker容器所需的三步过程。然而,如果不仔细审查以下要求,所介绍的程序可能不会成功• 在现代Linux发行版中安装git和docker。• 对于NVIDIA显卡用户,请更新NVIDIA驱动程序。 确保操作系统使用NVIDIA驱动程序。• 对于没有NVIDIA显卡的用户,请更新显卡驱动程序。• * Windows用户专用 *安装并设置Docker Desk- top、WSL 2和XServer for Windows。(Only适用于Windows 10或以上系统)。安装工具包的详细步骤在安装文档1中有说明1.2. 运行工具包完成设置过程后,使用以下命令之一来运行工具包:对于使用NVIDIA驱动程序的系统:./ run.sh www.example.com对于其他系统:./ run.sh www.example.com对于没有NVIDIA显卡的Windows系统,请在Powershell中运行:run.cmd1.3. 使用工具包工具包使用教程展示了所需的五步过程 访问创建和发送setplay演示所需的环境,包括从打开游戏模拟到发送最终表单的所有内容。1. 打开游戏日志当工具包启动时,初始屏幕(图。(1)显示。有一个圆形的文件夹按钮,必须单击该按钮才能继续该过程。按下此按钮将引导用户到 选项卡中有一系列文件夹(图2),用户必须在其中查找名为“games”的文件夹才能访问可用的游戏日志。该文件夹包含从RoboCup 2021全球比赛和葡萄牙RoboCupOpen 2021中提取的19场比赛,分成两半(每个文件代表一场比赛)。用户必须选择一个游戏文件才能进行下一步。2. 了解Log Player环境一旦选择了游戏日志,先前空的Roboviz屏幕就会变成足球场,如图所示。3.第三章。记分牌和比赛计时器显示在图的左上角(图。3)。此外,在左上角,有一个“日志播放器”,可以理解为“控制面板”,因为它包含暂停、跳过(向后和向前)、更改模拟速度、访问文件夹以及 开始示威此外,模拟环境允许用户调整相机位置以增强体验。 通过按住鼠标注意:这是一个日志播放器,而不是流媒体工具,因此性能水平也不同:快速向前和向后移动可能会导致系统故障,例如崩溃或出现奇怪的行为。可以提交以组成一个集剧本的用于强化学习方法的数据集[4,5]。第1https://bitbucket.org/bahiart3d/setplaysdataset/src/master/README.mdM.A.C. 你好G. 马斯卡雷尼亚斯河 Fonseca等软件影响14(2022)1004013见图4。 开始示威的第一步。3. 开始新的演示自然地,随着游戏的进行,它展开到用户可以具有setplay建议的位置。在这些时刻,用户可以点击蓝色圆圈按钮访问一个名为“SPanner”的设置游戏设计器环境然而,必须回答特定的信息字段,以设置演示并继续进行“SPanner”,如图2和3所示。 4和5.图4显示了开始演示的第一步:选择建议定位球的球队、定位球类型(是防守还是进攻)和球之后,用户必须选择哪些球员将参加setplay。必须首先选择设定游戏所针对的球队,然后用户选择对方球队的球员。玩家可以通过点击他们头上的数字来选择(见图10)。 5)。通过点击图中的“开始演示”按钮,5,Roboviz被放在一边,SPlanner启动。详细的解释有关'2还提供完整的视频教程。34. 保存并提交Setplay完成Setplay后,用户必须通过单击左上角菜单上的“文件"并单击”导出“来保存它们。该文件必须导出到'' setplays '' 文件夹,如图所示。 六、最后,为了将setplays发送到在本研究期间组织的setplays数据集[4,5],用户必须将它们保存在.zip文件中(图10)。7)然后通过“提交表格”发送2. BahiaRT健身房BahiaRT Gym是一个使用OpenAI Gym工具包[6]创建的工具,用于比较和开发强化学习算法。OpenAI Gym允许代理使用多个环境进行强化学习训练。虽然该工具包已经提供了许多预构建的环境,但没有一个是理想的RoboCup社区,也不能与RCSSServer3d(3D足球模拟服务器)一起使用。4因此,我们决定在RoboCup Soccer Simulation Server上从头开始创建一个自定义环境来训练Agent。我们的想法是让它有用,不仅对我们的团队,而且对任何其他团队,无论使用的编码语言为了便于理解,我们绘制了图1所示的流程架构。 8、健身房环境可以连接到服务器2https://bitbucket.org/bahiart3d/setplaysdataset/src/master/USAGE.md3https://youtu.be/h_s8rA2IS88第https://gitlab.com/robocup-sim/SimSpark图五. 为每支球队挑选球员。见图6。 保存一个Setplay。见图7。 保存在. zip中。作为监视器,接收关于模拟的许多方面的信息,包括对象位置、游戏时间、游戏模式等,同时还能够发送回训练者命令,其可以控制这些方面中的一些。 健身房环境还连接到训练代理,向他们发送计算出的优化动作,他们应该执行,并接收自定义消息作为回报。 目前,我们一直将其用作同步标志,以检查是否正确接收了操作,但它可以用于其他方式,例如将生成的任何数据发送回环境 球队BahiaRT健身房的一个重要特点是代理,我们用于将代理和服务器相互连接。它为每个代理创建两个线程,发送代理动作并接收代理感知,如图所示。8 .第八条。 通过这种方式,代理能够拦截服务器和代理发送的任何消息,用于使用TCP套接字将代理的感知中继到健身房。总而言之,有了这个架构,就可以在训练过程中使用从一个到所有11个代理。此外,从代理和服务器收集的数据可以用于计算奖励,也可以作为强化学习模型的为了测试这个工具,我们创建了一个演示环境,在这个环境上我们设计了简单的训练。目的是让代理人了解最快的进球方式,无论是站着不动,带球还是踢球。通过使用代理收集代理仅使用一个超参数将总时间步长的数量设置为大约一万,M.A.C. 你好G. 马斯卡雷尼亚斯河 Fonseca等软件影响14(2022)1004014见图8。 BahiaRT Gym architecture.在大多数测试中,训练能够容易地收敛到令人满意的结果。值得注意的是,即使这个工具已经准备好与当前默认的rcssserver3d设置一起使用,仍然有改进的空间。2.1. 设置和使用BahiaRT Gym可以在Git和PyPi仓库中找到。有两个选项可以设置此软件。用户可以使用以下命令从PyPi安装它:pip install bahiart_gym。检查软件文档中的要求5第二个选项是使用以下命令从Git仓库克隆源代码:git clonehttps://bitbucket.org/bahiart3d/bahiart-gym.git.克隆后,用户应该切换到bahiart-gym文件夹并输入pip install-e。安装BahiaRT Gym库。学习如何使用BahiaRT健身房最简单的方法是采取查看存储库中可用的demo_test.py。6本演示是一个完整的强化学习训练和测试示例。它使用来自稳定基线3库的深度Q网络(DQN)[8]算法。训练教一个人形机器人在三个动作之间做出决定:(i)带球;(ii)踢球;(iii)停下来。这些动作的组合应该为机器人生成一个控制策略,使他能够尽可能快地在足球场上进球研究人员可以将BahiaRT Gym用于任何应用程序,而不仅仅是下一节中描述的Setplays选择策略学习。它是一个独立的库,研究人员可以用于任何使用RCSSSERVER3D作为环境的强化学习应用程序。3. 对研究领域BahiaRT Setplays Collecting Toolkit支持用于构建setplays演示数据集的众包策略[4,5]。 机器学习中的大多数研究都涉及使用专家经验构建真实数据集的困难。该工具包对于在多智能体系统(MAS)中协调工作的研究人员至关重要,特别是在RoboCup足球仿真3D社区的背景下。该数据集用于研究,其中一组机器人足球运动员从人类的演示中学习协调的计划,称为setplays作者使用了BahiaRT Setplays Collectinghttps://bitbucket.org/bahiart3d/bahiart-gym/src/master/README.md第https://bitbucket.org/bahiart3d/bahiart-gym/src/master/demo_test.py工具包四个月,以接收来自几个贡献者的setplays演示。在组织了这个数据集之后,本研究的作者使用BahiaRT Gym开发了一个强化学习策略,让机器人团队学习一个setplays选择策略。结果表明,团队绩效提高使用新的学习策略。由于机器人足球代表了一类多智能体系统,本文的研究结果有资格应用于多智能体系统可以作为解决方案的几个领域。自动驾驶汽车、自主飞行机器人(无人驾驶飞行器)和自主水下机器人等需要机器人团队协调的领域可以从BahiaRT Setplays Collecting Toolkit和BahiaRT Gym的使用结果中受益。该工具包使用以前的科学成果和工具[1,2]构建了一套易于使用的工具,允许足球迷或专家为MAS协调,强化学习和数据集组织领域的研究做出贡献。该工具包生成的数据类型需要开发组织策略来处理软实时环境中的大型数据集[4,5]。BahiaRT Gym可以被任何使用RC-SSSERVER 3D模拟器作为强化学习环境的研究人员使用。它可以用于个人机器人训练(例如,行走或踢腿学习)或多机器人训练(例如,setplays学习)。灵活的-BahiaRTGym的简单和模块化架构可以使其快速适应其他模拟器和应用程序。BahiaRT健身房不依赖于Setplays收集工具包。这是一个独立的工具,用于同一研究[9]。BahiaRT集剧收集工具包和BahiaRT健身房在所有上述领域的影响是显而易见的,以支持进一步的研究在本文中所描述的领域的承诺。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢我们感谢João Vítor Café dos Reis Batista,Rafael da Costa Fonsêca,Wesley da Silva e Silva以及所有使用此工具包并向我们的研究项目发送setplays演示的匿名贡献者。M.A.C. 你好G. 马斯卡雷尼亚斯河 Fonseca等软件影响14(2022)1004015引用[1] J. Stoecker , U. Visser , RoboViz : Programmable visualization for simulatedsoccer,in:RoboCup 2011:Robot Soccer World Cup XV,Vol. 7416,SpringerBerlin Heidelberg,Berlin,Heidelberg,2012,pp.282可用URLhttp://link.springer.com/10.1007/978-3-642-32060-6_24,系列标题:计算机科学讲义。[2] J. Cravo,F. Almeida,P.H. Abreu,L.P. Reis,N.劳湖,澳-地莫塔,战略规划者:足球定位球的图形定义,数据知识工程,94 (2014年) 110- 131,[在线]。可用URLhttp://www.sciencedirect.com/science/article/pii/S0169023X14000950。[3] M.A.C. Simoes ,J. 诺布雷湾苏萨角Souza,R.M.Silva ,J. Campos,J.R. 苏扎T.战略策划人诺盖拉:增强功能,以支持更好的防御和通过LfD方法中的策略,在:2020年IEEE自主机器人系统和竞赛国际会议,ICARSC,IEEE,蓬塔德尔加达 , 葡 萄 牙 , 2020 年 , pp 。 46-52 , [ 在 线 ] 。 可 用 网 址https://ieeexplore.ieee.org/document/9096188/,tex.ids=Simoes_2020。[4] M.A.C. Simoes ,J. 诺布雷湾苏萨角Souza,R.M.Silva ,J. Campos,J.R. 苏扎T. Nogueira,从演示中生成用于学习setplays的数据集, SN Appl. Sci. 3(6)(2021)608,[在线]。可用网址:https://link.springer.com/10.1007/s42452-021-04571-y,tex.ids=Simoes_2021。[5]M.A.C. Simoes,R.M. da Silva,T. 诺盖拉, 一 数据集 模式 为 多机器人系统演示中的合作学习,J.Intell。 机器人 系统99(3-4)(2020)589-608,[在线]。可用URLhttp://link.springer.com/10。1007/s10846-019-01123-w,tex.ids=Simoes_2019出版商:Springer Science and Business Media LLC。[6]G. 作 者 : A. Pettersson , J.Schneider , J.Schulman , J.Tang , W. Zaremba ,Openai gym,2016,arXiv.org,URLhttp://arxiv.org/abs/1606.01540,_eprint。[7]A. Raffin,A.希尔A. Gleave,A. Kanervisto,M. Ernestus,N. Dormann,Stable-Baselines3:Reliable Reinforcement Learning Implementations,J. 马赫学习.Res. 出版社:MIT Press.[8]V.姆尼赫,K.卡武克库奥卢D.银,A.A.首页-期刊主要分类-期刊细介绍贝勒马尔,A. 格雷夫斯,M。 里德米勒公司 菲杰兰湾 奥斯特洛夫斯基, S. 彼得森, C.Beat-tie,A.萨迪克岛安东诺格鲁H。 金,D. 库马兰角 维尔斯特拉,S。 莱格,D。Hassabis,Human-level control through deep reinforcement learning,Nature518(7540)(2015)529-533。可用URLhttp://www.nature.com/articles/nature14236。[9]M.A.C. Simoes , Aprendizagem PorDemonstracao De PlanoscoordenadosEmSistemasMultiagentes,(Ph.D. 巴伊亚联邦大学,2022年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功