def __init__(self, state_size, action_size, n_step, per, munchausen, distributional, D2RL, noise_type, curiosity, random_seed, hidden_size, BUFFER_SIZE = int(1e6), # replay buffer size BATCH_SIZE = 128, # minibatch size GAMMA = 0.99, # discount factor TAU = 1e-3, # for soft update of target parameters LR_ACTOR = 1e-4, # learning rate of the actor LR_CRITIC = 1e-4, # learning rate of the critic WEIGHT_DECAY = 0,#1e-2 # L2 weight decay LEARN_EVERY = 1, LEARN_NUMBER = 1, EPSILON = 1.0, EPSILON_DECAY = 1, device = "cuda", frames = 100000, worker=1 ):
时间: 2023-12-05 19:03:36 浏览: 170
这是一个在强化学习中使用的深度神经网络的构造函数。其中包含了许多超参数,例如状态空间的大小、动作空间的大小、n步、PER、Munchausen、分布式、D2RL、噪声类型、好奇心、随机种子、隐藏层的大小等。此外,还有一些重要的超参数,如回放缓冲区大小、小批量大小、折扣因子、软更新的目标参数比率、Actor的学习率、Critic的学习率、L2权重衰减等。同时,还有一些控制模型学习频率和策略探索的超参数,如学习频率、学习次数、epsilon贪心策略的初始值和衰减速率等。最后,还包含了一些与硬件相关的超参数,例如设备类型和训练的帧数。
相关问题
self.state_size = state_size self.action_size = action_size self.BUFFER_SIZE = BUFFER_SIZE self.BATCH_SIZE = BATCH_SIZE self.per = per self.munchausen = munchausen self.n_step = n_step self.distributional = distributional self.D2RL = D2RL self.curiosity = curiosity[0] self.reward_addon = curiosity[1] self.GAMMA = GAMMA self.TAU = TAU self.LEARN_EVERY = LEARN_EVERY self.LEARN_NUMBER = LEARN_NUMBER self.EPSILON_DECAY = EPSILON_DECAY self.device = device self.seed = random.seed(random_seed) # distributional Values self.N = 32 self.entropy_coeff = 0.001 # munchausen values self.entropy_tau = 0.03 self.lo = -1 self.alpha = 0.9 self.eta = torch.FloatTensor([.1]).to(device) print("Using: ", device)
这段代码看起来像是在初始化一个 RL(强化学习)算法的参数设置。其中,state_size 表示状态空间的大小,action_size 表示动作空间的大小,BUFFER_SIZE 和 BATCH_SIZE 分别表示经验池的大小和每次学习的数据量,per 表示是否使用优先经验回放,munchausen 表示是否使用 Munchausen RL 算法,n_step 表示使用 n-step TD 学习的步数,distributional 表示是否使用分布式 DQN 算法,D2RL 表示是否使用 D2RL 算法,curiosity 表示是否使用探索奖励机制,reward_addon 表示探索奖励的大小,GAMMA 表示折扣因子,TAU 表示目标网络更新参数的速度,LEARN_EVERY 和 LEARN_NUMBER 分别表示学习的频率和学习次数,EPSILON_DECAY 表示 epsilon 贪心策略的衰减速度,device 表示使用的计算设备,seed 表示随机数生成器的种子。
其中,N 表示分布式 DQN 算法中分布的数量,entropy_coeff 表示分布式 DQN 算法中的熵系数,entropy_tau 表示 Munchausen RL 算法中的熵系数,lo 表示 Munchausen RL 算法中的较小的负数,alpha 表示 Munchausen RL 算法中的一个参数,eta 表示 Munchausen RL 算法中的一个常数。
阅读全文