没有合适的资源?快使用搜索试试~ 我知道了~
Griddly:开源网格世界游戏研究平台
软件影响8(2021)100066原始软件出版物Griddly:游戏C. Bamford英国伦敦玛丽皇后大学A R T I C L E I N F O关键词:强化学习网格世界环境A B标准Griddly是一个开源项目,旨在成为一个基于网格世界的研究的全方位平台。Griddly提供了一个高度优化的游戏状态和渲染引擎,并提供了一个灵活的高级界面来配置环境。Griddly不仅为单人、多人和RTS游戏提供了简单的界面,而且还提供了多种渲染方法、可配置的部分可观察性和程序内容生成界面。代码元数据当前代码版本0.3.2用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-6可再生胶囊的永久链接https://codeocean.com/capsule/8092846/tree/v1法律代码许可证MIT使用github的代码版本控制系统使用C++、Python的软件代码语言、工具和服务编译要求,操作环境依赖vulkan-sdk,python 3.5+,cmake,gcc如果可用,链接到开发人员文档/手册https://github.com/Bam4d/Griddly/blob/develop/README.md问题支持电子邮件chrisbam4d@gmail.com软件元数据当前软件版本0.3.2此版本可执行文件的永久链接https://pypi.org/project/griddly/#files可再生胶囊的永久链接https://codeocean.com/capsule/8092846/tree/v1法律软件许可证MIT计算平台/操作系统Linux,OS X,Microsoft Windows安装要求依赖关系要求 Python 3.5+如果可用,请链接到用户手册-如果正式出版,请在参考列表https://griddly.readthedocs.io/en/latest/问题支持电子邮件chrisbam4d@gmail.com格里德利AI研究最重要的事情之一就是数据。 在许多游戏环境中,数据的速率(每秒渲染的帧或每秒的状态表示)相对较慢,导致非常长的训练时间。研究人员可以通过并行化用于生成数据的游戏环境的数量来弥补这个问题,有时在昂贵的硬件上,有时在服务器集群,需要网络基础设施将状态传递给实际的学习算法。对于许多研究人员和爱好者谁想要学习。这种方法是无法实现的,只有拥有大量资金和工程师的研究团队才能支持所需的硬件和基础设施。Griddly旨在通过为AI研究提供高度可定制和优化的网格世界游戏引擎本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。电子邮件地址:c. d. j. qmul.ac.uk。https://doi.org/10.1016/j.simpa.2021.100066接收日期:2021年1月21日;接收日期:2021年2月13日;接受日期:2021年2月17日2665-9638/Crown版权所有©2021由Elsevier B. V.发布。这是CC BY许可证下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsC. Bamford软件影响8(2021)1000662表1与类似环境相比,Griddly的速度和内存占用。 所有环境都使用python OpenAI gym接口进行测试,除了DMLab2D,它有自己的等效python接口。在每个双行中,Griddly条目用于在每个平台上运行的相同或相似的游戏网格3769±12465056±1736 138DMLab2D(50× 50)984± 116 17036±534198网格1936±7660232±691 371DMLab2D(100× 100)318± 16 8577±2370146网格5012±24473134±839106GVGAI 19±5网络379迷你网格959±17061101± 4186±3 1228 ±2510649网116gym-microRTS 1770±15732130± 419±12 1906 ±272106278表2Griddly与其他类似环境的特征矩阵比较。Griddly提供更广泛的支持对于所有不同类型的游戏和可视化,在网格世界游戏中进行研究是有用的。Griddly不是专门满足一部分挑战,而是一个可以配置为支持许多不同需求的单一框架。X等距x线可配置部分可观测性x xGPU加速渲染x描述语言x xx程序内容生成x xx可复制的前向模型x x x x x单身x x x x x播放器模式多个x x xRTS x x人工智能算法作为奖励在很长一段时间内发生,并且有许多死胡同会导致算法在训练时陷入局部极小值。Griddly还允许自定义动作空间,例如允许在多个不同的玩家控制的单位上执行多个动作,或者只允许控制单个“化身”对象。 这允许创建许多类型的游戏环境,例如RTS,通过同一界面配置单个和多个代理。 在所有这些配置中,控制算法所暴露的接口是一致的。在使用特定的目标框架时,缺乏Fig. 1. 一个渲染网格环境蜘蛛巢的例子,带有一个特定玩家许多用于AI研究的游戏环境已经存在,但为特定问题提供特定环境。例如自定义玩具游戏环境[1,2],棋盘游戏[3],或使用流行视频游戏(如Starcraft [4] DOTA 2 [5]和NetHack [6])的包装器。Griddly提供了一个简单的特定于域的 语言 基于 在YAML上,它被称为网格描述YAML(GDY),它允许在环境和实验设计方面有很大的灵活性。GDY可用于配置玩家数量、每个玩家的可观察性(部分或完全可观察)、游戏机制、资源系统以及如何渲染实际环境或呈现给任何算法。图1显示了使用GDY配置的简单单人游戏的示例。在这个例子中,这对目前的影响概述本节提供了两个与现有游戏AI框架的比较,以展示选择Griddly进行实验的好处表1中的第一个比较显示了Griddly和其他几个类似框架之间的速度比较。与大多数其他环境相比,Griddly具有很大的速度优势,并且在环境大小方面更具可扩展性,如与DeepMind 2D实验室的比较所示。表2中的第二个比较显示了通过Griddly与其他环境的选择进行比较;由于本文是关于Griddly的,因此它突出了Griddly提供的其他环境所没有的功能。Griddly与GV- GAI [7]、DMLab 2D [8]和MiniGrid [1]关系最密切,但有各种扩展,以整合更快的渲染和对多代理和RTS游戏的支持,类似于MIGRARTS[9]。我们还比较了Nethack学习环境[6](NLE),它基于流行的基于网格的游戏NetHack。平台FPS(渲染)±标准FPS(向量)±标准最大内存(MB)格里德利DMLab2D(10×10)5023 ±26812815±386372790±247420562 ±66589594格里德利GVGAI小裸树MiniGridNLEDMLab2D向量x块x观察精灵xXXxXXXXASCII xXXXC. Bamford软件影响8(2021)1000663图二. Griddly架构的主要组件。作为网格引擎的焦点(见图1)。2)目前是为了提高网格世界环境中RL的数据速率,表1中显示了一些最流行的基于网格的环境的可用python gym接口的基准比较。该基准测试包括运行原始环境和具有随机代理的等效Griddly版本1,000,000帧,并计算渲染状态的平均每秒帧数(FPS)和最大内存使用量。渲染环境的像素是生成游戏状态的最苛刻的方法,因此它提供了一个有用的测试瓶颈。此外,我们比较了由游戏引擎产生的状态的矢量化版本(如果可用)。用于测试的游戏和地图如下:GVGAI -推箱子,MiniGrid -四个房 间 , gym-microrts [10] - MicrortsMining-v4 。 我 们 还 提 供 了 与Deepmind 2D实验室的三个单独比较,因为它与Griddly关系最这三个比较是在三个“Pushbox”游戏水平上进行的我们还将图块大小配置为在Griddly和其他平台中保持一致。结论和今后的工作我们相信,Griddly平台的速度和灵活性等显著优势使其处于一个独特的位置,可以为网格世界环境中的研究提供显著的加速作者还提供了156个实验的基线,作为未来比较的跳板。这些实验以及 代 码 示 例 、 超 参 数 和 视 频 可 以 在 以 下 URL 中 找 到 :https://wandb.ai/griddly。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作引用[1]M.舍瓦利耶-布瓦韦尔湖Willems,S. 2018,Minimalistic Gridworld EnvironmentforOpenAIGym,GitHubRepository,GitHub,2018,https://github.com/maximecb/gym-minigrid.[2] D. Perez-Liebana,J.Liu,A.哈利法河Gaina,J.Togelius,S.M.卢卡斯,通用视频 游 戏 AI : 用 于 评 估 代 理 , 游 戏 和 内 容 生 成 算 法 的 多 轨 道 框 架 网 址https://arxiv.org/abs/1802.10363。[3]G. Tesauro,时间差异学习和TD-Gammon,Commun。 ACM 38(3)(1995)58 http://dx.doi.org/10.1145/203330.203343 -68 , www.example.com , URLhttp://portal. acm.org/citation.cfm? doid=203330.203343。[4] O. 维尼亚尔斯岛巴布施金恰尔内茨基湾Mathieu,A.Dudzik,J. Chung,D.H.崔河,巴西-地鲍威尔,T.埃瓦尔德山口Georgiev,J. 哦,D。Horgan,M.克罗斯岛丹尼赫尔卡,A.黄湖,澳-地Sifre,T. Cai,J.P. Agapiou,M. Jaderberg,A.S.韦日涅韦茨河Leblond,T. Pohlen,V. Dalibard,D. Budden,Y. Sulsky,J.Molloy,T.L. 潘恩,C.古尔切雷角Wang,T. Pfaff,Y.武河,巴西-地Ring,D. Yogatama,D.温施湾 麦金尼岛史密斯,T. Schaul,T. Lillicrap,K. 卡武克库奥卢D. 哈萨比斯角 Apps,D.银,星际争霸II中使用多智能体强化学习的大师级,Nature 575(7782)(2019)350-http://www.nature.com/articles/s41586-019-1724-zhttp://dx.doi.org/10.1038/s41586-[5] C. 伯纳湾,澳-地布罗克曼湾Chan,V.Cheung,P.德比亚克角Dennison,D.Farhi,Q.费希尔,S。哈什梅角黑森河Józefowicz,S.格雷角Olsson,J.W.帕 卡 沃 基 湾 彼 得 罗 夫 de Oliveira Pinto , J. Raiman, T. Salimans , J.Schlatter,J. 施耐德,S.西多尔岛Sutskever,J.Tang,F. Wolski,S. Zhang,Dota 2与大规模深度强化学习,2019,arXiv:abs/1912.06680。[6]H. Küttler,N. Nardelli,A.H. 米勒河,巴西-地 Raileanu,M. Selvaeli,E. 格雷芬斯特T. Rocktäschel,NetHack学习环境,2020,arXiv。网址https://arxiv.org/abs/2006.13760网站。[7] D. Perez,J.Liu,A. Abdel Samea Khalifa,R.D. 盖纳,J.Togelius,S.M.Lucas , General video game AI : a multi-track framework for evaluatingagents , games and content generation algorithms , IEEE Trans. Games(2019)1,http://dx.doi.org/10.1109/{TG}.2019.2901021,URLhttps://ieeexplore.ieee.org/document/8664126/.[8] C. Beattie,T. Köppe,E.A. Duéñez Guzmán,J.Z. Leibo,DeepMind Lab2D,2020,arXiv.网址https://arxiv.org/abs/2011.07027。[9]S. Ontanón,组合多臂强盗问题及其应用实时策略游戏,在:Proceedings oftheAAAIConferenceonArtificialIntelligenceandInteractiveDigitalEntertainment,2013,vol.9,no. 1.一、[10] S. Huang,S.O. nón, Action guidance: Getting the best of sparse rewards andshaped rewards for real-time strategy games,2020,arXiv:2010.03956.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功