现代开放世界视频游戏中的深度神经网络模仿学习

86 浏览量更新于2023-12-04 收藏 500KB PDF 举报

视频游戏

神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

从演示和知识工程到现代开放世界视频游戏伊戈尔·博罗维科夫EA DigitalPlatformiborovikov@ea.comAhmad BeiramiEA DigitalPlatformabeirami@ea.com摘要在视频游戏中，对非玩家角色（NPC）的需求很高，这些角色的行为是可信的和类似人类的。传统的人工智能驾驶NPC很难在现代开放世界的多人游戏中扩大规模，并且经常导致机器人行为的神秘山谷我们讨论了一种新的方法来解决这个问题的基础上模仿学习。我们将演示、编程规则和游戏环境中的引导相结合，以训练定义NPC行为的深度神经网络（DNN）。与目标是最优性能的Rein-playerLearning（RL）不同，我们的目标是从几个演示中重现人类玩家的风格。我们嵌入了基本游戏规则的隐含知识我们构建了一个与游戏交互的复合模型，以引导人类演示，为更复杂的DNN模型提供足够的训练数据，该模型从演示中捕获风格化的游戏玩法我们表明，该方法是计算速度快，并提供了有前途的结果，在游戏生产周期。介绍和问题陈述RL在应用于玩电脑游戏方面的领先进展，例如，（OpenAI Five 2018; Mnih et al. 2015; Vinyals et al. 2017;Harmer et al. 2018），努力训练一个最佳的人工智能体（与此相反，在游戏开发过程中，目标和设置完全不同。代理可以扮演各种角色，并获得难以正式定义的奖励，例如，一个目标智能体探索游戏关卡的过程不同于搜寻、击败所有对手或解决谜题。此外，游戏环境在游戏版本之间经常发生变化在这样的设置中，希望快速训练可以作为NPC或机器人工作的代理，用于自动化测试和游戏平衡。投入计算资源，版权归作者所有。以.马丁，K. Hinkelmann，A. Gerber，D.Lenat，F.van Harmelen，P.Clark（Eds.），AAAI 2019春季研讨会将机器学习与知识工程相结合斯坦福大学，帕洛阿尔托，加利福尼亚州，美国，2019年3月25日至27日。在这样的条件下训练代理的大量工程努力是不实际的，并且需要不同的方法。优选的解决方案将仅利用由开发者播放的几个相对短的剧集。允许通过自动播放来增强这些演示的时间是有限的，特别是如果游戏引擎不支持动态加速的话因此，解决方案必须是样本效率高的，并离线训练代理。由于在开发过程中游戏外观的频繁变化，使用帧缓冲区进行训练是有问题的。相反，游戏环境的概念类型在其生产过程中很少发生变化这允许将关于游戏状态的先验知识的相当大的部分工程化为代替帧缓冲器的低维核心游戏玩法也很少改变，这允许根据核心游戏功能将所需的游戏描述为紧凑模型。在这份立场文件中，我们训练了一个NPC的模型与示范提供的文体特征。我们包括行为的方面，很难推断从示范工程规则。我们使用低维的engi- neered功能，以提供类似的信息，是可用的有机游戏。最后，我们训练了一个复合DNN模型，我们证明了它是有效的，而且价格低廉。该方法我们探索的方法假设适度的领域知识和第一人称射击游戏（FPS）的游戏机制的直观理解。这样的理解水平通常是广泛提供给游戏设计者和软件工程师工作的游戏。我们的目标是在一个高层次的抽象，以避免过于复杂或游戏特定的形式化的知识。考虑到这一点，我们设计的三个组件是：• 状态空间（特征），• 行动空间，• 规则捕捉隐含的人类知识。我们补充明确的人类demonstrations的规则，以建立一个马尔可夫合奏，它提供了基本的generalization。我们使用这个聚合模型来驱动游戏中的代理自举数据集允许训练组合示范和工程规则的复合DNN模型。作为一个案例研究，我们探讨了一个FPS游戏，∼∼−∼|| ∈这在概念上与（Harmer et al. 2018）研究的相似。它的核心机制是通用的，足以使我们的方法适用于相同或类似类型的其他游戏状态空间（特征）我们对游戏进行仪表化，并将其当前状态s作为低维归一化向量s=（c1，. . . ，cn，d1，. . . ，dm）。它的分量c和d对应地描述n个连续特征和m个离散特征。在FPS游戏中，连续特征可以包括显示-与对手的距离、目标视线（LoS）与玩家方向之间的角度、速度分量、弹药和生命值。我们将所有连续分量映射到范围Ci[0，1]。一个用于未绑定COM的映射函数-像距离这样的分量可以是arctan或任何类似的值。具有平滑的功能。对于具有自然定义的范围，像弹药或健康，我们使用线性归一化。离散分量d可以包括二进制值，如LoS的存在、冲刺开-关，以及非二进制值的一个热编码值，诸如当前动画类型。通过构造，所有di∈ {0，1}。在我们的概念验证实现中，单个对手的特征总数相当小：n20和m20，这取决于实验。特别是，我们只探索步行动作，并保持在相同的游戏形态，例如，我们排除进入和驾驶车辆。感兴趣的位置和对象，如掩护点，医疗包和弹药夹，可以以不同的形式出现在状态向量中，但我们将其详细描述留给未来更详细的出版物，我们打算在那里探索更复杂的游戏玩法。最后，我们只暴露有机游戏中可观察到的功能，以实现类似人类的游戏。动作空间智能体的动作自然地映射到游戏控制器的输入，输入用几个行动a1，. . . ，k包括k个连续和离散值。控制器有六个模拟输入：两个标准化为[1，1]的摇杆和两个标准化为[0，1]的触发器。此外，还有一些二进制输入按钮。虽然输入的所有可能组合对于学习来说可能看起来很难ing，如（Harmer et al.2018），我们模仿人类玩家的目标相反，我们只提取有机游戏中出现的那些组合，并将它们编码为一个hot，这大大降低了动作空间的复杂性。在我们的实验中，动作空间的结果维数也在低两位数k15中，这取决于在实验上。所提出的游戏状态-动作空间的方法有两个目的：保持动作空间的维度在控制之下，并消除人类从未采取的行动。因此，我们训练的模型是不同时使用比人体解剖学所允许的更多的输入）。用马尔可夫集成捕捉游戏风格学习一项政策的风格要素具有挑战性。主要困难之一虽然反向强化学习的目的是找到促进某种风格和行为的奖励函数相反，我们使用模仿学习直接从演示中融入风格。我们的演示数据由已经描述的工程状态的每帧记录和编码为游戏控制器输入的玩家动作组成。请注意，我们本质上处理的是部分可观察的马尔可夫决策过程（POMDP），因为状态空间中的所有属性都不是可观察的（Borovikov和Beirami）。为了支持马尔可夫模型捕捉玩家风格，我们还将N个最近动作的历史作为状态空间的一部分。历史的深度N影响风格捕捉的表现力。在我们的实验中，我们将深度限制在不到一秒的游戏（N60），这仍然保留了一个简单的反应式政策的视觉风格为了构建马尔可夫集成，我们使用了一种受自然语言处理文献启发的风格再现方法（见综述（ Zhai2008））。我们编码的demonstrations作为符号序列，利用层次结构的多分辨率量化方案，从详细到完整的信息损失的连续和离散通道。最详细的量化和高阶马尔可夫模型可以高精度地再现类似情况下的人类动作序列，从而捕捉游戏风格。粗层次对应于马尔可夫代理从演示中盲目采样动作。马尔可夫模型的层次集成提供了最小的泛化从示范数据。这些模型的集合可以直接构建，并且推理是一个查找过程。我们打算通过发布内部技术报告的预印本（Borovikov and Harder 2018）来提供马尔可夫系综的完整描述。利用嵌入式规则获取人类隐性知识概述的马尔可夫系综可以正式推广到以前未观察到的状态。然而，在量化的粗略为了解决这个问题，我们从系综中修剪了较粗糙的量化级别，留下一些状态不受由此产生的不完整马尔可夫策略的影响。为了处理这种状态，我们增加了马尔可夫系综与少量的规则捕获的mathistics。规则提供了一个合理的反应，从来没有观察到的示威和不包括简单的概括与马尔可夫模型的状态。为了说明可能的规则类型，我们简要地分析其中的两种。一种类型的规则说明了模型的隐式短期目标设置，从问题制定中消除了反向强化学习。一个明显的顶部-一个FPS游戏的关卡目标是发现、攻击和击败对手。一个人类玩家在受到敌人的伤害时，不会站着不动，也不会徘徊。这种状态很少出现在示威游行中。相反，更多的时候，玩家会面对对手并参与战斗。我们提出的相应规则可以归结为简单的这里的目标可以是敌人、掩护点或其他感兴趣的物体。该规则最终将代理转换到它可以从演示中处理的状态。对于第二类规则，一个例子可以简单到“如果不可能在同一方向上移动，就不要无限期地在该方向上运行”。人类主动避免封锁状态，它们可能永远不会出现在有机游戏中。因此，直接从演示中学习这样的规则是不可能的，因为不存在这种阻塞状态的数据。在这两种情况下，通过探索发现期望的行为这种探索的成本与智能体需要学习的决策的简单性不成比例。总而言之，工程规则捕获简单的人类知识，并在演示中未观察到的状态下补充集成模型当修剪的集成模型无法生成操作时，脚本将检查阻塞的条件，以使用规则生成回退操作建议的马尔可夫合奏和程序化的programmedeclistics的组合提供了一个赛格威的下一步，解决了线性增长的合奏与演示的数量。使用Bootstrap演示和规则训练的DNN模型传统的强化学习需要数千集来学习有用的策略。此外，很难设计奖励来实现期望的风格。相反，我们采用模仿学习，将演示视为超监督学习问题的训练集。该模型预测的下一个动作，从观察到的状态-动作对序列这种方法已被证明在自动驾驶汽车的预训练中是有用的（Montemerlo等人，2006），并且是最近文献中分析的主题，例如，（Ross and Bagnell 2010）。反对将IL作为监督学习框架的主要论点是无法从新情况中学习并从错误中恢复我们上面提出的规则和特征工程旨在通过结合先验人类知识和自举演示来解决这些问题我们通过使用引导程序来扩充我们的一小部分演示来我们构建了一个由马尔可夫系统控制的智能体，该系统通过规则增强，并让它与游戏交互以生成新的情节。生成的增强数据集馈送到训练接下来描述的DNN中。经过训练的DNN模型从已经观察到的状态-动作对（包括先前由脚本处理的状态-动作对）预测动作。特征空间的低维度导致在广泛的模型AR中快速训练表一：OpenAI 1V1 Dota 2 Bot（OpenAI Five 2018）训练指标与在专有开放世界第一人称射击游戏中通过人类演示、编程规则和引导程序训练代理之间的比较。虽然培训的目标不同，但环境有些相似。这些指标说明了所提出的技术的实际优势。OpenAI1V1机器人自举剂经验300年(per日）105 min人示威Bootstrap使用游戏客户端N/A×5-20CPU60，000 CPUAzure上的核心1个本地CPUGPU256个K80 GPU在Azure上N/A大小观察3.3kB5kB意见每秒游戏时间1033架构，允许快速的实验循环。我们在一个简单的模型上进行了讨论，其中一个虽然获胜并不是一切（Borovikov et al. 2019），但我们希望代理能够在合理的FPS流派指标水平上表现，例如，在生命和弹药允许的范围内表现出良好的生死比正如我们在实验中所观察到的，我们训练的模型的死亡率可以在很大范围内变化，最多大约是教师表现的10-40%如何使用有限的额外训练来提高训练模型的性能指标，同时保持风格，这结论和今后的工作我们在一个专有的开放世界第一人称射击游戏上测试了我们的方法，这使得代理的行为与人类玩家相似，并且训练成本最低表1说明了将工程知识添加到实际有用的代理的训练过程中所获得的显著计算优势然而，当将我们的方法与主流强化学习进行比较时，我们需要强调训练目标之间的差异，这使得这样的比较只是说明性的。我们研究的重点是在游戏中以实用的成本效益来开发将模型的性能保持在一定限度内是我们未来的次要目标。要从理论上保证受过训练的警察的风格和表现，还需要做大量的额外工作。将我们的方法应用于多代理策略并覆盖多模式游戏是合乎逻辑的下一步。我们计划将这里显示的令人鼓舞的结果扩展到其他开发中的游戏。引用博罗维科夫岛，和Beirami，A.通过在开放世界视频游戏中的自举演示进行模仿学习。NeurIPS 2018部分可观测性。博罗维科夫岛，和Harder，J. 2018.学习模型模仿个人行为风格与视频游戏中的应用。技术报告，电子艺界，数字平台数据和人工智能。作为预印本出版。Borovikov，I.;赵，Y.; Beirami，A.; Harder，J.; Kolen，J.; Pestrak，J.; Pinto，J.; Pourabolghasem，R.; Chaput，H.; Sar- dari，M.;林，L.; Aghdaie，N.;和Zaman，K.2019.胜利不是一切：训练代理人玩现代游戏。AAAI游戏强化学习研讨会。Harmer ， J.; Gisslen ， L.; del Val ， J.; Holst ， H.;Bergdahl，J.; Olsson，T.; Sjoo，K.;和Nordin，M. 2018.3d游戏中具有并发动作的模仿学习。Mnih，V.; Kavukcuoglu，K.; Silver，D.; Rusu，A.一、Ve- ness ， J.; Bellemare ， M. G. 地 ; Graves ， A.;Riedmiller，M.; Fidjeland，A. K.的; Ostrovski，G.;等，2015年。人类- 通过深度强化学习进行水平控制。自然518（7540）：529。Montemerlo ， M.; Thrun ， S.; Dahlkamp ， H.; 和Stavens，D. 2006.用人工智能机器人赢得darpa大挑战。在AAAI全国人工智能会议记录中，17OpenAIFive.2018.[在线，2018年6月]openai.com/five.Ross，S.，和Bagnell，D. 2010.模仿学习的有效简化。第十三届国际人工智能和统计会议论文集，AISTATS2010，意大利撒丁岛，2010年月，661Vinyals，O.; Ewalds，T.; Bartunov，S.; Georgiev，P.;Vezh-n evets ， A. S. 的 ;是的， M.; Makhzani ， A.;Küttler，H.; Ag a-piou，J.; Schrittwieser，J.;等，2017年。星际争霸II：A强化学习的新挑战。arXiv预印本arXiv：1708.04782。翟角，澳-地2008.信息检索的统计语言模型。信息检索的基础和趋势2（3）：137-213。

下载后可阅读完整内容，剩余1页未读，立即下载