迁移学习SwinTransformer预训练模型
时间: 2023-11-14 13:06:27 浏览: 143
Transformer预训练语言模型
引用内容提到了Switch Transformer模型,该模型在多项推理和知识任务中带来了显著性能提升,并且不仅对预训练有用,还可以通过微调将质量改进迁移至下游任务中。Switch Transformer采用了简化的MoE(Mixture of Experts)路由算法,设计了直观的改进模型,降低了通信成本和计算成本,并且通过使用低精度(bfloat16)进行训练提高了训练的稳定性。
关于SwinTransformer预训练模型的迁移学习,目前没有明确的引用内容提到。需要进一步查询相关文献或资料来获取更多关于SwinTransformer预训练模型的信息。
阅读全文