AI玩转超级马里奥：一条命通关，异步优势演员评论家算法开源

108 浏览量更新于2024-08-30 收藏 759KB PDF 举报

"这篇文章除了介绍一个AI算法在超级马里奥游戏中表现出色，还提到了该算法的开源背景以及实现原理。" 本文提到的AI算法在玩超级马里奥游戏时展现出了令人惊叹的技能，能够一次性通过多个关卡，包括应对复杂的地形和敌人，展示了高度的操作流畅性和精准性。这一成就得益于一种称为异步优势演员评论家（Asynchronous Advantage Actor-Critic, A3C）的深度强化学习算法。 A3C是一种在2016年的论文《Asynchronous Methods for Deep Reinforcement Learning》中提出的强化学习方法。该算法结合了异步学习和演员评论家框架，旨在提高学习效率和性能。在异步一步Q-Learning中，多个独立的线程各自与环境交互并更新模型，利用共享的目标网络进行Q-Learning的梯度计算。而在异步多步Q-Learning中，通过多步回报的明确计算，以改进网络训练。核心的异步优势演员评论家算法由两个组件组成：演员和评论家。演员相当于智能体，负责探索环境并采取行动；评论家则起监督作用，评估演员的行为，并提供反馈，以指导演员的策略更新。这种机制使得演员能够在不断试错中学习，而评论家则确保学习过程向着优化目标前进。这种类比将演员比作孩子，评论家比作父母，强调了学习过程中监督和反馈的重要性。该算法的实现者VietNguyen是一名专注于AI和机器人领域的硕士，拥有自然语言处理和计算机视觉的专业背景，目前在德国手游公司Popcore担任数据科学家。他的工作不仅限于超级马里奥游戏，还涵盖了其他深度学习在游戏应用的研究。通过开源这个算法， VietNguyen为研究者和开发者提供了一个探索强化学习和游戏控制的实用工具。这不仅有助于进一步理解深度强化学习的潜力，也鼓励了社区在游戏AI领域的创新和实验。对于那些对AI在游戏中的应用感兴趣的读者，这篇文章和开源代码提供了一个极好的学习和实践平台。

一条命通关，这个一条命通关，这个AI算法玩超级马里奥操作秀翻天丨视频算法玩超级马里奥操作秀翻天丨视频+开源代码开源代码

郭一璞郭一璞发自发自北四环北四环

量子位量子位报道报道 | 公众号公众号 QbitAI

把超级马里奥玩成下面这样，算什么水平？

能流畅的行走在妖魔鬼怪之间

能掐准食人花出现的时机

能灵巧的躲过烧火棍

能克服各种变态的地形

从1-1到7-1，只要一条命，就能全部通过，而且操作几乎没有迟疑，如行云流水一般。

不信的可以看完整视频：

别人玩得这么溜，你是不是只能被小乌龟、喷子弹的小怪物、上上下下的地形虐？

不过，这个玩游戏的不是人，是一只通过深度强化学习算法实现的AI。

异步优势演员评论家算法异步优势演员评论家算法

这个算法已经开源，是2016年的论文《Asynchronous Methods for Deep Reinforcement Learning》中提到的算法的实现。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38578242

粉丝: 3
资源: 945

AI玩转超级马里奥：一条命通关，异步优势演员评论家算法开源

基于EasyX 图形库和C++开发的仿超级马里奥游戏源码+项目说明+超详细注释+sln解决方案.zip

超级马里奥游戏音效素材

超级马里奥兄弟的近端策略优化（PPO）算法

基于 C++ 与 EasyX 图形库对超级马里奥游戏仿制源码+项目说明.zip

FC超级马里奥全套素材

mario3sat:将 3SAT 问题转化为可玩的超级马里奥兄弟关卡

算法面试通关.txt

SMB_Speedrunner:超级马里奥兄弟（NES）AI Speedrunner。 尝试看看是否有可能让AI学习加速游戏

「算法通关手册」：超详细的「算法与数据结构」基础讲解教程，从零基础开始学习算法知识，800+ 道.zip

【Java毕业设计】基于Java的超级玛丽游戏的设计与实现（论文+答辩PPT+源代码+讲解视频）.zip

最新资源

SMB_Speedrunner:超级马里奥兄弟（NES）AI Speedrunner。尝试看看是否有可能让AI学习加速游戏