Ray框架：下一代AI分布式系统

需积分: 42 58 浏览量更新于2024-07-19 1 收藏 697KB PDF 举报

“机器学习Ray框架论文中文版” 本文主要介绍了Ray框架，这是一个针对下一代AI应用程序设计的分布式系统，特别适用于那些需要与环境交互并从中学习的智能应用。Ray框架通过提供动态任务图计算模型和基于actor的编程模型，解决了性能和灵活性方面的新挑战。 1. 引言随着人工智能技术的发展，传统监督学习模式已经不能满足所有需求，特别是那些需要在动态环境中运行、响应环境变化并持续优化行为的强化学习（RL）应用。RL已经在围棋、自动驾驶等领域取得了突破，其特征包括：大量依赖模拟、异构和动态演化的图计算以及对快速响应的需求。 2. Ray框架的核心特性 - 动态任务图计算模型：Ray支持任务并行，能够适应计算需求的变化，适应性强。 - 基于actor的编程模型：actor模型允许并发对象的创建和通信，有助于实现复杂的异步逻辑。 - 共享式存储系统：提高数据访问效率，减少延迟。 - 自下而上的分布式调度器：逻辑上集中的控制状态管理，确保高效的任务调度。 - 高性能：在实验中，Ray展现了亚毫秒级的远程任务延迟和线性吞吐量，每秒可处理超过180万个任务。 3. 应用场景与挑战 - 挑战：现有的集群计算框架如MapReduce、Apache Spark等，不支持异构和动态图计算，也无法满足毫秒级延迟的需求。 - 应用场景：Ray加速了具有挑战性的基准测试，并且适用于强化学习应用，比如机器人控制、自动驾驶等。 4. 经验验证文中通过实验验证了Ray在实际应用中的性能，证明了它对于处理复杂、高并发任务的效率和效果。 5. 结论 Ray框架为AI应用程序提供了一个高性能、灵活的平台，能够有效地处理强化学习和其他需要实时反馈和决策的场景。它的设计和实现满足了现代AI应用对性能和灵活性的严格要求，为AI研究和开发带来了新的可能性。 Ray框架是机器学习领域的一个重要进展，尤其在强化学习和需要实时交互的场景中，它提供了高效的计算解决方案，有助于推动AI技术的进一步发展。

易于开发。由于编写并行应用程序并不重要，因为 ML 开发人员更倾向于专注于其应用程

序而不是系统编程，所以简化开发对于此类系统的成功至关重要。

确定性重新运行和容错。确定性地重新运行作业的能力大大简化了调试。透明的容错功能可

以避免用户明确处理故障。它还使用户能够使用便宜的可抢占资源（例如 AWS 上的现货实

例），从而在公共云中运行时节省大量成本。

现有算法的简单并行化。这涉及提供一个简单的 API 并支持现有的语言，工具和库。首先，

我们需要为 Python 提供支持，因为 Python 是 AI 开发人员的首选语言。其次，我们需要提

供与广泛的可用第三方库的紧密集成。这些库包括模拟器，如 OpenAI，DeepMind 实验室，

Mujoco 物理模拟器以及 TensorFlow，Theano，PyTorch 和 Caffe 等深度学习框架。正如我们

将看到的，这需要用类似 actor 的抽象来扩展任务并行模型以包装这些第三方服务。

3 编程和计算模型

Figure 3:（a）在 Ray 中执行图 2 中的示例的 Python 代码。请注意，@ray.remote 表示远程函

数和 actor。远程函数和 actor 方法的调用返回 future，这可以传递给随后的远程函数或 actor

方法来编码任务依赖关系。每个参与者都有一个环境对象 self.env 在其所有方法之间共享。

（b）与 train_policy.remote()的调用相对应的任务图。远程函数调用和 actor 方法调用对应于

任务图中的任务。该图显示了两种 actor。每个 actor（标记为 A1i 和 A2i 的任务）的方法调

用在它们之间具有有状态的边，表示它们共享可变的 actor 状态。从 train_policy 到它调用的

任务都有控制边。为了同时训练多个策略，我们可以多次调用 train_policy.remote()。

3.1 编程模型和 API

Ray 的核心是提供一个任务并行编程模型。Table 2 显示了 Ray 的 API。当调用远程函数时，

将立即返回表示任务结果的 future。可以使用 ray:get()来检索 future，将来可以作为参数传

剩余17页未读，继续阅读

xl.zhang

粉丝: 644
资源: 29

Ray框架：下一代AI分布式系统

分布式高性能AI计算框架——ray

Ray Framework

Deep_reinforcement_active_learning:深度强化主动学习-硕士论文

awesome-ray-tracing：光线跟踪资源的精选列表

ICLR2024录用论文

目标检测论文.rar

集群服务：大数据流框架上的分布式自动模型推理.pdf

弱监督学习中胸部疾病诊断和可视化的空间非局部注意

使用Ray框架并行化客户细分：性能优化与GPU加速

UC Berkeley研发分布式框架Ray，推动AI应用的动态环境学习

最新资源