首页学习率调度策略polylr

学习率调度策略polylr

时间: 2024-05-26 10:08:20 浏览: 115

pytorch学习笔记（十五）————动量与学习率衰减

5星 · 资源好评率100%

pytorch学习笔记（十五）————动量与学习率衰减目录动量学习率衰减目录动量从形式上看，动量算法引入了变量 z充当速度角色——它代表参数在参数空间移动的方向和速率。速度被设为负梯度的指数衰减平均。名称动量（momentum），相当于引入动量前的梯度概念，指示着loss在参数空间下一步要下降的方向和大小。其中wk+1w^{k+1}wk+1表示更新后权重；wkw^{k}wk表示更新前权重；zk+1z^{k+1}zk+1代表动量，，α表示学习率从公式zk+1=βzk+▽f(wk)z^{k+1}=βz^{k}+▽f(w^{k})zk+1=βzk+▽f(wk)可以看出，zk+1z^{

Polylr是一种学习率调度策略，它会根据训练轮数来不断地调整学习率。具体来说，它将初始学习率乘以一个系数（通常为1 - epoch / max_epoch）的幂，其中epoch为当前训练轮数，max_epoch为总的训练轮数。这样做可以在训练初期使用较大的学习率，加快模型收敛速度，而在后期使用较小的学习率，使模型收敛到更好的局部最优解。

阅读全文