清华大学开源深度强化学习库天授0.4.6中文教程

需积分: 0 62 浏览量更新于2024-06-16 收藏 2.19MB PDF 举报

天授库，版本0.4.6.post1，是由清华大学开发的一款深度强化学习框架，主要针对Python编程环境。这个文档作为其使用手册，为用户提供了对库核心功能的详细介绍和指导，即使它并非官方最新的tianshou库手册，但其内容依然具有很高的参考价值。该库包含多种先进的强化学习算法实现，如DQN (Deep Q-Network), Double DQN, C51 (Categorical DQN), QR-DQN (Quantile Regression DQN), Rainbow, IQN (Implicit Quantile Networks), FQF (Fully-parameterized Quantile Function), 等等。这些算法覆盖了经典的策略优化方法（如Policy Gradient、Natural Policy Gradient），以及更现代的模型，如Advantage Actor-Critic (A2C), Trust Region Policy Optimization (TRPO), Proximal Policy Optimization (PPO), DDPG (Deep Deterministic Policy Gradient), TD3 (Twin Delayed Deep Deterministic Policy Gradient), SAC (Soft Actor-Critic)等，甚至包括针对离散动作空间的算法，如Discrete Soft Actor-Critic (Discrete SAC) 和专门针对模仿学习和基于约束的学习策略如BCQ, CQL, CRR等。文档还涵盖了安装步骤，这对于初次接触天授库或希望在现有环境中集成这些强化学习算法的开发者来说是非常重要的。此外，手册还包括索引和表格，帮助读者快速定位所需的信息，以及参考文献，便于进一步深入研究相关理论。尽管这个版本不是最新，但鉴于强化学习领域的快速发展和算法迭代，0.4.6版本仍能为学习者提供一个坚实的基础，了解如何在实践中应用这些技术。对于那些想要在开源社区中进行学习和实践的开发者和研究者而言，这份中文文档是一个宝贵的资源，尤其是对于那些对资源下载无门槛的0积分获取方式，鼓励更多人参与到深度强化学习的研究和探索中来。

天授, 发布 0.4.6.post1

1.3 基本概念

天授把一个 RL 训练流程划分成了几个子模块：trainer（负责训练逻辑）、collector（负责数据采集）、policy

（负责训练策略）和 buﬀer（负责数据存储），此外还有两个外围的模块，一个是 env，一个是 model（policy 负

责 RL 算法实现比如 loss function 的计算，model 就只是个正常的神经网络）。下图描述了这些模块的依赖：

1.3.1 Batch

天授提供了 Batch 作为内部模块传递数据所使用的数据结构，它既像字典又像数组，可以以这两种方式组

织数据和访问数据，像下面这样：

>>> import torch, numpy as np

>>> from tianshou.data import Batch

>>> data = Batch(a=4, b=[5, 5], c='2312312', d=('a', -2, -3))

>>> # 注意，list会自动变成numpy

>>> data.b

array([5, 5])

>>> data.b = np.array([3, 4, 5])

>>> print(data)

Batch(

a: 4,

b: array([3, 4, 5]),

c: '2312312',

d: array(['a', '-2', '-3'], dtype=object),

)

>>> data = Batch(obs={'index': np.zeros((2, 3))}, act=torch.zeros((2, 2)))

>>> data[:, 1] += 6

>>> print(data[-1])

Batch(

obs: Batch(

index: array([0., 6., 0.]),

act: tensor([0., 6.]),

)

8 Chapter 1. 安装

天授, 发布 0.4.6.post1

总之就是可以定义任何 key-value 放在 Batch 里面，然后可以做一些常规的操作比如 +-*、cat/stack 之类的。

Understand Batch 里面详细描述了 Batch 的各种用法，非常值得一看（虽然它是英文的但只要看代码也还行？）。

1.3.2 Buﬀer

ReplayBuffer 负责存储数据和采样出来数据用于 policy 的训练。目前天授保留了 7 个关键字在 Buﬀer 里

面：

• obs t 时刻的观测值；

• act t 时刻采取的动作值；

• rew t 时刻环境返回的奖励函数值；

• done t 时刻是否结束这个 episode；

• obs_next t + 1 时刻的观测值；

• info t 时刻环境给出的额外信息（gym.Env 会返回 4 个东西，最后一个就是它）；

• policy

时刻由

policy

计算出的需要额外存储的数据；

下面的代码片段展示了 Buﬀer 的一些典型用法：

>>> import pickle, numpy as np

>>> from tianshou.data import Batch, ReplayBuffer

>>> buf = ReplayBuffer(size=20)

>>> for i in range(3):

... buf.add(Batch(obs=i, act=i, rew=i, done=0, obs_next=i + 1, info={}))

>>> buf.obs # 因为设置了 size = 20，所以 len(buf.obs) == 20

array([0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

>>> # 但是里面只有3 个合法的数据，因此 len(buf) == 3

>>> len(buf)

>>> pickle.dump(buf, open('buf.pkl', 'wb')) # 把buffer 所有数据保存到 "buf.pkl"

>>> buf.save_hdf5('buf.hdf5') # 把buffer 所有数据保存到 "buf.hdf5"

>>> buf2 = ReplayBuffer(size=10)

>>> for i in range(15):

... done = i % 4 == 0

... buf2.add(Batch(obs=i, act=i, rew=i, done=done, obs_next=i + 1, info={}))

>>> len(buf2)

>>> buf2.obs # 因为 buf2 的 size = 10，所以它只会存储最后10 步的结果

array([10, 11, 12, 13, 14, 5, 6, 7, 8, 9])

>>> buf.update(buf2) # 把 buf2 的数据挪到buf里面，同时保持相对时间顺序

>>> buf.obs

array([ 0, 1, 2, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 0, 0, 0,

0, 0, 0, 0])

>>> indice = buf.sample_index(0) # 使用 batchsize=0 来获取buffer里面的全部数据

>>> indice

array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])

>>> buf.prev(indice) # 给定index，计算上一个transition 所对应的index

array([ 0, 0, 1, 2, 3, 4, 5, 7, 7, 8, 9, 11, 11])

>>> buf.next(indice) # 给定index，计算下一个transition 所对应的index

array([ 1, 2, 3, 4, 5, 6, 6, 8, 9, 10, 10, 12, 12])

(下页继续)

1.3. 基本概念 9

剩余69页未读，继续阅读

Turning-

粉丝: 58

清华大学开源深度强化学习库天授0.4.6中文教程

Authl库0.4.6版本Python安装包发布

Python库NoetherAutoDiff 0.4.6版本官方下载

pwclip Python库0.4.6版本在Linux下的安装与应用

Docker DNA Python库更新至0.4.6版本

Python库micropython-scron 0.4.6版本发布

Python库xepmts-0.4.6版本发布下载指南

Python库smcp-0.4.6版本发布，支持多平台安装

Python库embit-0.4.6版本发布，支持官方安装指南

NREL-reV 0.4.6版本Python库发布详情

Active Directory枚举工具0.4.6版本发布

最新资源