optimizer = dict(type='AdamW', lr=1e-3, betas=(0.9, 0.999), weight_decay=0.05, paramwise_cfg=dict(custom_keys={'absolute_pos_embed': dict(decay_mult=0.), 'relative_position_bias_table': dict(decay_mult=0.), # 'temporal_position_bias_table': dict(decay_mult=0.), 'norm': dict(decay_mult=0.), 'backbone': dict(lr_mult=0.1)}))
时间: 2023-06-19 07:07:50 浏览: 266
这是一个优化器的配置字典,用于训练模型时控制参数优化的方式。这里使用的优化器是 AdamW,学习率为 1e-3,动量参数为 (0.9, 0.999),权重衰减为 0.05。同时,通过 paramwise_cfg 字典中的 custom_keys 参数,对不同参数设置不同的优化器配置。比如,对于 absolute_pos_embed、relative_position_bias_table、norm 这些参数,设置权重衰减为 0,即不对它们进行权重衰减;对于 backbone 参数,设置学习率为原来的 0.1,即比其他参数低一个数量级,以便更好地训练模型的骨干网络。
阅读全文